Novos scripts no Labic: coleta automatizada de textos e imagens
7 de fevereiro de 2014 • por Labic
Com o rápido crescimento da computação, tornou-se possível a coleta automatizada de dados, principalmente da Internet, como por exemplo informações de uma página da web. Neste post, apresentaremos um dos scripts desenvolvidos no Labic para tal atividade (1).
Utilizando-se a linguagem de programação Java e uma biblioteca externa (Jsoup), o script de coleta automatizada de texto e imagem desenvolvido no Labic funciona a partir do acesso ao código fonte de uma página web que está em html. Este script coleta os seus textos ligando-os à sua respectiva imagem. O código html possui várias tags, as quais contém os links de imagens, notícias, textos entre outros.
Para executar o código, é necessário: adicionar a biblioteca Jsoup ao projeto de Java, e escrever o nome do arquivo de saída (em csv) e o destino das pastas (links reais e o arquivo csv). A saída do programa é um arquivo csv, com o nome da imagem na 1ª coluna e o nome do texto coletado da página web da respectiva imagem na 2ª coluna. No Labic, utilizamos este script para extrair os textos vinculados às imagens que coletamos anteriormente das redes sociais (como Twitter e Instagram). Podemos com ele extrair as legendas das imagens, por exemplo, para então analisá-las de forma comparativa. O texto que acompanha cada imagem pode, portanto, nos dizer algo sobre seu contexto de produção ou ainda complementar sua análise.
(1) O código foi feito pelo pesquisador de iniciação científica Mateus Tassinari Ferreira, o qual se disponibiliza em tirar dúvidas sobre o código através do e-mail de contato [email protected], contendo o assunto [“nome do projeto” – “tag da dúvida”].
Comentários