NAR, um script para analisar a semântica e a movimentação interativa nas fanpages do Facebook
30 de dezembro de 2013 • por Fabio Malini
O Labic/UFES desenvolveu o script NAR_FB, em Python, para que pesquisadores possam trabalhar em estudos sobre narrativas históricas em rede e sobre análises de redes sociais a partir de dados públicos do Facebook. Como sabemos, o Facebook possui uma estrutura de “linha do tempo” que armazena os conteúdos, mas dificulta a identificação de imagens, textos, vídeos, áudios, comentários, principalmente se a fanpage possuir muitos posts ao longo de um certo tempo. Resultado: o pesquisador precisa ficar copiando e colando na mão milhares de posts e comentários. Para acabar de vez com essa operação metodológica analógica, o Labic trabalhou na adoção de um script que faz essa rotina de maneira rápida auxiliando estudos sobre fenômenos sociais que possuem registros no Facebook. O modo de instalar está detalhado no Github do Labic. É bem simples.
1. Instale o aplicativo Netvizz(https://apps.facebook.com/netvizz/) no seu Facebook.
2. Escolha um grupo ou fanpage que pretenda extrair os dados.
3. Exporte os dados de postagens (os arquivos .tab) para o formato csv.
4. Instale o python3.3 em sua máquina (importante: o script funciona para MACOS e LINUX).
5. Faça download do script na página do Github do Labic.
6. Entre no Terminal, acesse a pasta onde está o script e execute o comando python3.3 parse_facebook.py
7. Será criada uma pasta chamada RESULTS, contendo vários arquivos, a ser mostrado nesse post.
Em breve colocaremos um vídeo tutorial dessa operação. Pode deixar!
.
Primeiro passo: os arquivos do Netvizz
Para tomarmos como exemplo da função desse script (que executa uma tarefa de parsing), fizemos a extração de dados da fanpage do governador do Espírito Santo, Renato Casagrande. A extração dos últimos mil posts foi bem simples através do Netvizz (veja como instalá-lo). A página do governador é recente, havia, até novembro, apenas 93 posts e mais de 40 mil interações (likes, compartilhamentos e comentários), que foram todos extraídos. O interessante é que a partir destes, futuras pesquisas podem fazer diferentes abordagens, tais como as eleitorais (comparando esses dados com outros retirados de adversários políticos), as sociais (a relação entre o discurso do post x discurso dos comentários), as críticas (a identificação da postura do governo frente às demandas sociais), as de imagem (a construção do marketing político em torno da imagem do governador) etc. Nesse momento, o Labic já trabalha em uma segunda versão do script, de caráter em ainda mais semântico, para identificar causas e as pautas sociais inscritas na profusão de milhares de comentários e posts en fanpages políticas. O objetivo é criar cada vez mais ferramentas de análise de dados para TODOS.
O primeiro arquivo que o Netvizz gera é o .gdf (download), que permite ser plotado no software Gephi. Fizemos isso para entender melhor o conjunto de posts publicados por Renato Casagrande e a interação do usuários na fanpage do governador do ES (todo o conteúdo da página você pode baixar aqui) Identificamos três perspectivas presentes em sua rede de usuários cujo predomínio é de crítica radical da conduta política do governo (verdes, ou a conversação-luta), de debate controverso sobre investimentos públicos (vermelho, ou a conversação-auditoria) e a de troca de informação sobre realizações do governador (azul, ou a conversação-troca). Por ser um página administrada pelo governador é comum que os seus seguidores se inclinam com o pensamento do governo. É por isso que a rede azul é de maior volume e possui mais usuários no centro da rede, significando que eles curtem muitos posts das páginas. Ao contrário, vemos vários usuários que só interagem (ou comentando, curtindo ou compartilhando) apenas uma único post. Essa diferença de padrão de interação significa comportamentos políticos distintos. O primeiro caso demonstra uma conversação política quase obrigatória, baseada numa certa bajulação constante, típica do “comportamento de fã”. O segundo caso demonstra uma política conversacional de usuários mais engajados numa crítica localizada, que transita da indignação sobre atos de governo para o ódio ao político que conduz a página.
Essas três perspectividades podem ser tratadas de modo isolados no Gephi, esmiuçando melhor todas interações entre “governador e seus súditos” no Facebook. Não vamos discorrer sobre o arquivo .gdf mais aqui nesse post. Mas o que é importante destacar: o Netvizz anonimiza todos os usuários nessa rede, o que me parece bem plausível em estudos de ciências sociais. Assim, o pesquisador fica focado nos dados e não na bisbilhotice típica em redes sociais.
O Netvizz produz mais dois arquivos, ambos com a extensão .tab – que é aberta em programas como LibreOffice e Excel. Os dois arquivos .tab possuem características distintas. O primeiro, stats, mostra as estatísticas de engajamento em cada post, que é como o Netvizz denomina a soma de curtidas, compartilhamentos e comentários. O segundo, comments, permite a visualização de todos os comentários, por post, separando-os em base (o comentário ao post) e reply (o comentário sobre um comentário). O script do Labic atua nesse último. E produz vários arquivos que servem como “primeiro contato” sistematizado com o campo de análise. Vamos mostrar o que podem alguns desses arquivos após serem processados pelo nosso script. Na estatística, será possível saber: Número de comentários por dia ou hora; Número de shares por dia; Número de likes por dia; Número de posts / dia; Número de usuário únicos nos comments / dia; Número de usuário únicos nos comments/dia engajados em mais de um post; Número de usuário únicos nos comments/dia engajados em um post; Número de imagens/dia; Usuários únicos totais nos comments/ post; Os comentários (completos) mais bombados nos posts. Aqui se trata de separar, por post, os comentários com mais likes.
Na mineração textual (Análise semântica), será possível saber: palavras mais recorrentes; hashtags mais recorrentes; URLs mais recorrentes; imagens mais recorrentes; rede de palavras associadas nos posts; nuvem de hashtags; nuvem de palavras.
Analisando uma fanpage: a “sobrecarga interativa” na página do governador do ES, Renato Casagrande
O primeiro conjunto de arquivos foca nas estatísticas dos posts dos administradores da página. Um dos gráficos que o script permite gerar é a evolução da produção de compartilhamentos dos posts da fanpage. A estatística ajuda a identificar os picos de interação no site, o que chamamos de “sobrecarga interativa”, quando os usuários do Facebook deixam quentes os posts do governador, gerando debates, controvérsias, questionamentos, elogios recorrentes e até uma guerra em rede. O efeito colateral de uma “sobrecarga interativa” será, num certo tempo, a perda completa do administrador da página de gerir a velocidade de respostas aos comentários, a tensão em torno de comentários críticos (que tendem a ficarem mais raivosos na interação) e o pior: a desconfiança – no limite, a descrença – daquilo que se é noticiado.
.
O interessante dessa evolução, mostrada no gráfico acima, é a identificação de momentos de maior sobrecarga de compartilhamento na fanpage do governador. Isso revela pistas para que o pesquisador dedique uma maior dedicação aos posts com mais compartilhamentos. Os maiores picos de compartilhamentos foram: conteúdos que estimulando solidariedade (doação de sangue), que condenavam a depredação do Palácio Anchieta e que felicitava pelo aniversário da cidade de Vitória. Importante lembrar que compartilhar um conteúdo é um modo de ecoar um pensamento ou uma rica informação. Os usuários espalham para fazer chegar a muitos um ponto de vista sobre determinado acontecimento, uma novidade, um pedido de apoio ou até uma demonstração de afeto. Contudo, no campo da política, o compartilhamento também é uma forma de revelar uma contradição pública assumida por um ator político, numa espécie de “olha o que ele está pensando ou se comportando”. O post mais compartilhado (397 vezes) de Casagrande foi aquele em que o governador fez duras críticas à depredação do Palácio Anchieta (sede do governo) por três manifestantes, num universo de quase 5 mil pessoas, durante uma manifestação na cidade. Na época, o post sofreu diferentes tipos de compartilhamento. De um lado, aqueles que eram contra compartilhava o texto adicionando um comentário crítico; os que eram a favor, em geral, apenas apertava o botão “share”, sem nada dizer.
A lógica de compartilhar não é a mesma de comentar. Esta visa muitos contrapontos. O interessante do Netvizz é que ele separa os comentários em base e reply. Isso significa que há os comentários ao post (base) e os comentários do comentário (respostas). Assim, no caso, conseguimos separar o comentário ao post do governador e os comentários que geram discussão entre os usuários que se posicionaram frente ao governador (aqui, nesse post, não vamos detalhar muito os debates em todos os posts da fanpage de Casagrande). Caso você queira analisar apenas um post e seu debate, é só isolá-lo, com seus respectivos metadados (comentários, likes, textos etc). E, em seguida, passar o script NAR. O NAR ainda gera aquivos que mostram os posts mais curtidos, mais comentados ou mais compartilhados, portanto, os que mais caíram no engajamento popular. Como exemplo, inserimos aqui nesse texto o gráfico com os dez posts mais comentados pelos usuários na fanpage do governador do ES, Renato Casagrande. Mais à frente, debateremos a discussão dos comentários a alguns desses posts.
Vocabulário do governo, Vocabulário popular: mapeando controvérsias através da mineração dos textos
Dois arquivos são gerados pelo script: WordCloudPost e WordCloudComentários. O primeiro identificou a recorrência das palavras nos 93 posts publicados pela fanpage do governador do ES. O segundo, nos comentários as esses posts. De posse desses arquivos, utilizamos um webapp (Tagxedo) para plotar o texto e visualizar a nuvem de palavras. Esta serve como um índice para o pesquisador identificar os principais memes do administrador da fanpage e o dos comentaristas delas. Isto é, podem voltar à planilha e isolar textos relacionados a determinadas palavras, categorizando melhor o seus sentidos e significados. Colocadas em comparação, por exemplo, essas wordclouds de Renato Casagrande trouxeram conclusões (ou especulações) interessantes.
Na figura 01, o pesquisador pode intuir que palavras como “Municípios”, “Espírito Santo” e “Governo”, são termos corriqueiros no vocabulário do Poder Executivo. Não é nenhuma surpresa que o governador utilize-as. Ele é “governo” que se direciona a “capixabas” que vivem em “municípios” do “Espírito Santo”. O segundo vocabulário é o do marketing governamental, de onde saem as palavras “investimentos”, “serviços”, “inauguração”, “programa”, “construção”, “milhões”, “semana”, “unidades”, “etapas”. O vocabulário governamental, sempre hiperbólico, demonstra essa estratégia da grandeza, da ação contínua, que caracteriza o modo como o político quer se visto pelos seus fãs do Face. Contudo, por outro lado, esses termos demonstram uma semântica pobre na capacidade de trazer novas agendas sociais, senão uma comunicação sem recepção, ou seja, uma comunicação que diz algo que mais ou menos as pessoas já sabem o que vão ler. Um relise de fatos a ser inaugurados, puramente virtuais. Ou parabenizações narcistas para um homem público que deve ser louvado e bajulado. O terceiro vocabulário é o das decisões políticas: um conjunto de palavras que denotam os temas mais relevantes para o governo. Muito interessante é o aparecimento da palavra CAMPO, mostrando como o governador Renato Casagrande se desloca, do ponto de vista eleitoral, para ações mais localizadas na área rural. Essa supervalorização do campo significa que, nas áreas metropolitanas, Casagrande sofre de um processo de rejeição em decorrências dos fortes protestos em 2013 na Grande Vitória (onde concentra um pouco mais de metade do eleitorado). E, de outro lado, o interior abraça a candidatura do governador, típico como um “homem da roça”. Essa dicotomia é hoje criada pelo próprio marketing político do governo, que também assume a Saúde, Educação e Segurança como principais desafios da gestão. Interessante notar: a discussão sobre os rumos do desenvolvimento do Estado pouco é tematizada pelo político.
.
Os comentários como memes: a produção da imagem pública nos posts dos usuários
O NAR permite ao pesquisador recompor as narrativas, as temáticas e os memes em torno de um tema de abrangência pública presentes na caixa de comentários do Face. O NAR gera arquivo dos comentários com mais likes, os comentários que são replies, estatísiticas de engajamento. Permite uma análise qualitativa e quantitativa, gerando uma primeira visualização do jogo enunciativo dos usuários de uma página no Facebook . Na imagem, é possível identificar o número de comentários na página do governador do ES, Renato Casagrande. Reparem: o governador é forçado a reativar seu Facebook, tem página trolada por uma enxurrada de posts/comentários e, em seguida, vem a “calmaria”. Em cada momento desse será possível minerar os “memes”, as “críticas” e as “críticas das críticas” à atuação do governador.
.
É possível ainda analisar os comentários que obtiveram maior popularidade nos posts. Cinco dos dez comentários-memes foram postados como respostas ao post a saber: “A depredação ocorrida há pouco no Palácio Anchieta_ no Palácio da Fonte Grande e contra o patrimônio privado no Centro de Vitória deixa claro que esse grupo nas ruas não deseja diálogo nem respostas para as reivindicações da população. Não houve nem tentativa de conversar. Mais uma vez_ a polícia teve que reagir_ para tentar conter o puro e simples vandalismo.” Na época, uma manifestação saiu das portas da Assembleia Legislativa percorrendo um longo caminho até o Palácio Anchieta, no Centro de Vitória, sede do governo do Estado. Os manifestantes, quando lá chegaram, não existia ninguém para recepcioná-lo, apenas o Batalhão de Missões Especiais. Houve conflito entre policiais e manifestantes, o que ocasionou na quebra da vidraça de uma das dezenas de janelas do Palácio Anchieta.
Sem grandes notas públicas até então, o governador acionou o discurso contra o vandalismo para criminalizar todo o movimento (“esse grupo das ruas”). Estava sendo, ali, naquele momento, produzido um contra-discurso às manifestações dando legitimidade a mais de 30 prisões arbitrárias, arbítrio depois reconhecido pelo própria justiça estadual. Curioso analisar que até começo de dezembro cinco dos dez comentários com mais likes esteja associado a esse post. O mais curtido teve 367 likes virando um meme que simbolizava um dos traços marcantes da imagem do governador: um homem fechado ao diálogo com as reivindicações populares. Diz o comentário:
Sr governador a população que te elegeu está decepcionada. Suas palavras não correspondem aos fatos. Não se faça de surdo. (Comentarista, fanpage Renato Casagrande).
O segundo meme popular na caixa de comentários foi uma resposta ao post que o governador fez logo após o evento do dia 20 de junho. Assustado com a forte participação popular nas ruas, Casagrande produziu a seguinte nota, comentada 175 vezes: “Aos manifestantes que estão neste momento nas ruas de Vitória_ reitero minha expectativa de que o ato seja concluído de forma pacífica. E reafirmo nossa disposição para um diálogo que nos permita encontrar soluções equilibradas e responsáveis para as demandas apresentadas”. De novo, a visão de um governador que não escuta a população foi reforçada, simbolizada como um sujeito intolerante e avesso às reivindicações populares.
Com todo respeito, mas com a autoridade de quem caminhou nas ruas pedindo votos.Para entender, ande de ônibus, vá a um PA, ande sem segurança pessoal, tente uma vaga de creche,e por fim, sobreviva um mês com meu salário.Assim o senhor vai entender o povo das ruas.A situação está calamitosa.Bom trabalho!
Ao analisar os dez comentários vemos a força da dimensão memética da imagem “Casagrande não dialoga com as reivindicações populares” fortalecidas pelas pessoas que sobrecarregaram a página do governador com críticas. De fato o ano de 2013 foi marcado pela bordão política “não me representa” e, de certa maneira, essa onda das ruas atropelaram os discursos do marketing político, jogando os gestores públicos para o campo daqueles que reproduzem os processos de geração de desigualdade social, em especial, no Espírito Santo, quando Casagrande sofreu grande derrota política, ao ter de forçosamente engolir uma redução drástica do pedágio da Terceira Ponte, mesmo que tenha, a todo custo, defendido as regras do contrato com a concessionário que cuida da ponte, a Rodosol. É por isso que nove dos dez memes mais populares bateram nessa tecla, sendo indício da queda vertiginosa de popularidade do governador, que se viu numa crise política em que uma de suas variáveis era a convivência da impossibilidade de gerir sua imagem em função do ataque interativo que sofreu nas redes sociais.
O único comentário-meme que não se refere ao protesto foi uma resposta de um cidadão ao post do governador, a saber: “Como eu falei na semana passada_ o governo paga hoje o bônus para os profissionais da educação no Espírito Santo. O bônus é um reconhecimento e um estímulo aos profissionais da nossa rede de ensino”. De bate pronto, um cidadão comentou esse post criando um contraponto à notícia felicista do governo, recebendo quase mais likes do que o post de Casagrande:
E afinal professor não é celular pra viver de bônus
O predomínio de mídias e a arqueologia dos links
Uma das maiores utilidades do NAR é a separação dos permalinks dos posts de uma fanpage (isso já posibilitou ao Labic a criação de um outro script que captura imagens , vídeos e textos presentes na publicação, gerando uma memória da página). É uma ajuda e tanto para a organização de uma pesquisa acadêmica. O script, além de separá-lo, identifica no permalink do post se há algum apontamento para uma URL. Simplificando: permite identificar quais os links mais curtidos nos comentários e nos posts da página. NO gráfico a seguir, vemos os dez links mais compartilhados da fanpage do governador Casagrande.
.
O interessante é que o link mais compartilhado é essa postagem aqui. Trata-se da imagem de Maria Baderna, que, como explica o post, de onde advém a palavra baderna, muito utilizada no período dos manifestantes para caracterizar as manifestações populares. Curioso que esse link tenha obtido likes, provavelmente como um modo de se contrapor ao discurso conservador do governador do Estado. Segundo o post, a palavra “Baderna” é exclusiva do português do Brasil. Surgiu em fins do século XIX, quando da vinda de uma companhia de dança italiana à então capital, Rio de Janeiro. A dançarina principal era a senhorita Maria Baderna. Moça liberal, inovadora, causou grandes críticas ao introduzir entre os passos da dança clássica gestos do lundu, dança afro-brasileira bailada somente por escravos e foram perseguidos pelas autoridades ferozmente na época, em meio a polêmica de que ela estaria corrompendo a juventude brasileira, aqueles que defendiam seu espírito transgressor, libertário e revolucionário passaram a ser chamados de baderneiros.
O segundo link mais curtido é um vídeo, intitulado “Os 60 presos de Casagrande”, que mostra o depoimento de mães e pais de ativistas presos durante a manifestação no Centro de Vitória (quando houve a depredação do Palácio Anchieta). A maioria das prisões foi sem prova alguma, o que fez arquivar quase todos os processos judiciais contra os manifestantes. Essa ação truculenta de Casagrande tem até hoje ocasionado ações públicas de repúdio contra o governador, em especial, de jovens e do movimento negro.
Enfim, o script está lá. Há muitos outros dados que podem ser trabalhados (gostamos muito da possibilidade, por exemplo, de identificar os posts que são imagens, video, textos, e o percentual disso dentro da página) Se tiverem mais ideias do que podemos fazer numa fanpage, por favor, não esqueçam de comentar nesse post.
PS: esse post não analisou a fanpage do governador Casagrande após as fortes chuvas que cairam no ES, provocando um desastre ambiental no estado. Como o script é público, qualquer um pode vir a fazer.
Comentários