Perspectivas na rede #NãoVaiTerCopa
9 de junho de 2014 • por Labic
Nos últimos meses o LABIC tem estudado métodos de modelagem de tópicos. Por ser um laboratório interdisplinar, temos a sorte de trocar experiências e fazer movimentos entre a antropologia, ciência da computação e a comunicação. Acontecem “insights” inesperados (ou não) a partir das questões que permeiam os estudos do grupo. O GEPHI é a ferramenta que perpassa grande parte das pesquisas com extração de grande volume de dados. Trabalhamos sempre com dados associados a acontecimentos, que se revelam muito materiais: mobilizações políticas. É a partir de estatísticas e filtros que o que passa pela rede se revela. Muito depende também dos scripts criados pelos programadores do lab, o NAR_T, por exemplo, que tem a função de processar um arquivo csv de tweets e gerar uma pasta com dados riquíssimos para o pesquisador. Digo isso, pois somente ao explorar cada arquivo proveniente do script no Gephi, percebe-se ali a genealogia de uma trama semântica sobre um acontecimento.
A técnica de modelagem de tópicos fornece um conjunto de algoritmos para descobrir uma estrutura temática escondida em grandes coleções de textos. Os resultado do algoritmo pode ser usado para resumir, visualizar, explorar e teorizar sobre um corpus. Posso falar em outro post sobre quais técnicas existem e sobre o que é um tópico, mas o cerne da questão é que, ao alimentar o computador, por exemplo, com uma série de tweets e hashtags sobre o ‘não vai ter copa’, ele vai voltar a dizer-me que o temas que aparecem nesses tweets denotam principalmente sobre a indignação com o evento (#naovaitercopa), apoio ao evento (#vaitercopa), chamadas para os protestos #vemprarua, descontentamento com o governo federal (#quemtembocavaiadilma), e assim por diante. É um algoritmo bastante inteligente e extremamente versátil, que pode ser personalizado para todos os tipos de aplicações, e uma técnica muito usada nas humanidades digitais, principalmente nos estudos de literatura e história. Em nosso estudo, na busca para estruturar uma rede de grupos de temas coesos para conceituar as “perspectividades de rede”, particicionamos o conjunto de hashtags, maximizando a função de MODULARIDADE[1] do GEPHI.
Sobre a escolha do dataset:
As disputas no Twitter que engendram a hashtag ‘#naovaitercopa’ revelam perspectivas distintas da rede. Aliás, essa é uma hipótese a ser explorada com mais paciência, pois ao considerar o dataset #VempraRua e com olhos abertos em torno dos discursos que engendram a ‘Jornada de Junho’ – período conhecido por inserir o Brasil no calendário de lutas globais – propomos uma investigação das hashtags que emergem como símbolo de resistência das lutas minoritárias (contudo, toda rede de mobilização não é pura, ela carrega consigo distintas visões sobre o mundo, o que desencadeia grupos diferentes numa rede).. Seria como escavar para reconhecer o vocabulário dos #blackblocs, #anons, dos adolescentes, dos metroviários, dos #indioénós, quem sabe tentando compor uma gramática das perspectividades que atuam na rede, para além de uma concepção única que um perfil pense ter na rede (afinal, o perfil é, antes, um produto da replicação de outros). Explorar esse dataset para revelar os sonoros gritos que ecoam país afora de #NãoVaiterCopa e #CopaPraQuem, esses que representam mais do que Um protesto, mas assimilam as “veias abertas” daqueles que, ocultados pelo Estado insurgem contra o evento da Fifa, ou a Copa do Mundo no Brasil. Perguntas surgem: será que com uma historiografia dessas hashtags no Twitter, pode-se mostrar uma ressignificação de slogans históricos de movimentos sociais (moradia, trabalho, contra a violência)? No fundo, entendemos que só a exploração do vocabulário desse dataset pode indiciar as relações estabelecidas nesse contexto em que o país, na Rede e na Rua, se encontra. Portanto, esse trabalho tem como objetivo fazer uma (pequena) genealogia do vocabulário de resistência #NãoVaiTerCopa. Para dentro dessas redes, abrir hipóteses teóricas.
.
Um novo método: a paciência e o “passe”
Como contar a história através das palavras e das hashtags? Ora, como sabemos a hashtag no twitter tem a função de indexar a palavra-chave do assunto ao usar o símbolo de jogo da velha. Portanto, em nossa amostra vamos considerar como ponto de partida a densidade das hashtags, pois sua utilização traça a relação entre diferentes num fluxo de perspectivas na rede.
O script NAR_T nos oferece diversos arquivos, um deles é o ‘Hashtag_Network.csv’. Na prática esse é um arquivo de redes de hashatgs. Ou seja, quando em um texto do tweets de @fulano cita a hashtag com outra hashtag o script estabelece uma ligação entre elas. Elas ganham peso na medida que são mais citadas pelos usuários, os links entre uma hashtag e outra fica mais forte se aparecem mais vezes conectadas.Esse é o primeiro passo nesse movimento para nos desprendermos de discursos unitários de uma hashtag só ou dos trending tópics. Assim, qualquer discurso sobre si é permanentemente associado a uma topologia, a um lugar onde há uma “circunvizinhanças de sentidos e significados”, mas, que longe de reproduzir uma estabilidade relacional, revela-se como um campo de conflitos, ocultamentos, recusas e repulsões. Identificar o que atrai e o que repulsa, no emaranhado de relações em torno de uma hashtag, é um trabalho importante do cientista de dados.
Ao abrir o GEPHI e laboratório de dados, importe o arquivo da rede de hashtags. As estatísticas aqui usadas são duas: grau de peso médio e a modularidade. O grau médio ponderado é a média da soma de pesos dos links de nós. Concebemos nosso grafo de tal modo que o peso dos links representa o número de vezes que é atravessado pelo link entre um par de nós. Assim, se o peso do nó é maior, isso significa que ele foi visto mais vezes do que qualquer outro nó com baixo grau de peso. Isso nos interessa porque buscamos estabelecer uma hierarquia das palavras que tem mais peso, identificando assim também as periféricas. A modularidade é uma medida da força de divisão de uma rede em módulos. A lógica que um módulo é constituído por um triângulo de nós: quanto mais triângulo juntos, maior é um grupo e mais perfis o constitui. As redes com alta modularidade têm conexões densas entre os nós dentro de módulos, mas conexões esparsas entre nós em diferentes módulos. Vai ser a estatística de modularidade que vai possibilitar chegar a modelagem de tópicos.
O conceito computacional de “modularidade”[2] constituiu uma das operações de Fábio Malini para conceituar as “perspectividades de rede”, cosmovisão de humanos e não humanos em rede, a partir de discursos que se constitui permanentemente em atração e repulsão simultaneamente, fazendo com que o dito pelo @ seja, antes, um ponto de vista que conforma uma perspectiva em rede. Esse espaço entre as modularidades é o plano onde acontece o batalha entre pontos de vista. Ao aplicar o algorítimo pela primeira vez ele nos rende uma partição da rede de comunidades. Ao passar o algorítimo uma segunda vez em cada módulo particionado chegamos a módulos perspetivizantes, pois este teria alcançado uma incompatibilidade de “ponto de vista”. O nosso teste com o #naovaitercopa, mostra que a marioria das comunidades tem altos valores de modularidade interna (uma perspectividade densa), as hashtags indicando, assim, com clareza a perspectividade elegida. Aqui retomo a questão de partição, usada para filtrar um volume no GEPHI em módulos e possibilitando a diferencianção com diferentes cores. A cada “passe” do algorítimo, novas meta-comunidades são criadas. É aqui que o nosso método para modelagem de perspectvidades nasce. Denoto por “passar” uma combinação dessas duas fases, pois essa gera um novo número de meta-comunidades que diminui em cada passagem. Os passes são iteradas até que não haja mais mudanças e um máximo de modularidade é atingido. O algoritmo já incorpora uma noção de hierarquia, pois comunidades de comunidades são construídas durante o processo. Nesse momento o papel do pesquisador é de minunciosamente reconhecer o campo de batalha, posso explicar melhor, mas ao usar a modularidade é preciso testar a resolução. Esta, que por sua vez, seriam como uma inferência, a cada processo novas proposições podem aparecer. Assim, números de resolução menores podem gerar mais comunidades de tamanho menor, do contrário, derivamos da lógica inversa. Isso vai depender também do tamanho do seu dataset, pense que testes com datasets pequenos tendem a ter menores comunidades, portanto, representando poucas perspectivas. Relembrando uma aula do professor Viveiros de Castro em que ele fala sobre a noção de “passe” no conceito de rede latouriano, tento argumentar que a cada passe do algoritimo valores passam entre as hashtags que se conectam, e ao atingir a modularidade máxima formariam assim uma perspectividade na rede.
Essa primeira fase é a de identificação das grandes comunidades. O pesquisador tem como objetivo nesse momento usar o algoritimo com uma resolução que proponha um número de grupos que represente os diferentes temas envolvidos. Colorido o grafo, visualmente é possível perceber as diferentes nuances do dataset. Na segunda fase, deve-se mover para novas áreas de trabalho do GEPHI todos os módulos, um por um em novo espaço para ser trabalhado. Pois é agora que vamos procurar as perspectivas e as categorias envolvidas em cada uma. A cada novas área de trabalho, vamos refazer o processo, passar novamente as estatísticas de grau médio ponderado e modularidade, assim identificamos as novas conexões entre as hashtags que se agrupam em perspectiva.
Nesse sentido, o dataset do #naovaitercopa mostrou-se uma controvérsia pronta para ser mapeada. Há uma a multiplicidade das ruas e das redes que se encontram. O desenho escolhido para a rede é o Circular Layout ordenado pela modularidade. Isso ajudou na medida que o design do grafo foi composto baseado na divisão de módulos. E ainda, proporcionou uma pequena mudança possibilitando destacar o que chamamos de “tag tagarela”. Ao passar o algoritimo de grau ponderado, percebe-se que algumas hashtags destacam-se mais do que outras devido a soma do peso dos links. Logo, elas serão chamadas de “tagarelas” por serem as tags de eco daquele grupo. É claro, isso só vai ficar aparecer de uma forma mais científica para o pesquisador na segunda passada do algoritimo de modularidade.
Um dos módulos da rede #naovaitercopa, na figura acima representado na cor verde clara, tem a própria hashtag #naovaitercopa , que tem a marca de um vocabulário ligado aquela indignação conectado ao Estado, palavras que fazem parte do calendário de manifestações, como #acopanaomerepresenta, #copapraquem, #libertebaiano, #oriovaiparar. Do outro lado, o #vaitercopa aparece com o vocabulário de humor e entretenimento: #dilmanaaberturacombeyonce, #claudialeittenao, e #choramessi. Ainda nessa perspectiva, temos uma categoria de negação que envolve questões estruturais do país: #naovaitermedicos, #naovaitersaude, #naovaitereducacao, #naovaitersaneamento.
Em uma nova perspectiva, temos uma nova visualidade. Veja que essa perspectiva é muito marcada por um já conhecido vocabulário ativvista. Destaque para a rede verde clara, onde centralizo a hashtag #opworldcup. Essa categoria traz hashtags de campanhas dos #anonymous, como #oboicoteacopa, #fuckfifa, #redhack. Categorias que se atravessam, reparece que a hashtag #anonymous está muito mais conectada a #blackbocbr, #worldcup, #mafiawordcup, e #anonymousrio. No caso da hashtag #brasil, representada na cor vermelha, termos uma perspectiva preponderantemente territorializada dos protestos: #protestosp, #protestorj, #protestobr, e ainda hashtags como #resistencia e #poderpopular.
A próxima perspectiva remete “tempo de se manifestar.” A hashtag de maior destaque, #vemprarua, traz todo tipo de palavra de chamamento das manifestações. Com isso quero dizer que temos desde #rionarua, #tarifazero, #grandemanifestacaonacopa, #aldeiaresiste, #foracabral. São termos que aparecem em co-ocorrência com o #vemprarua durante protestos. No caso, os termos ligado ao #rionarua são: #foracabral, #passelivre, #contraaumento, e nos mostram como o Rio de Janeiro aparece como o lugar de tensões.
A última perspectiva que cheguei foi a uma de forte crítica a mídia. No centro do grafo, o #foraglobo de roso aparece com #globoapoiouaditadura, #globosta, #foramanipulacao, #foraredeesgotodetv. Pequenas categorias aparecem isoladas, como o #fifagohome, mas também muito conectada a cobertura da globo sobre as manifestações contra a copa. E de vermelho uma rede de crítica ao PT.
Doravante, propomos que para os dados do Twitter, onde conseguimos extrair redes de hashtags, a modelagem de tópicos retorna ao fim dessas duas fases o que chamo de meta-perspectiva. Seria uma maneira de fazer uma categorização dos dados que futuramente podem ser visualizados como uma gramática própria daquelas comunidades. Para os estudos de rede, consideramos a rede socio-técnica de Latour[3], a NET, a capacidade de cada ator para fazer outros atores se envolverem em relações imprevistas. Vemos que essa rede também é composta por pontos de vista, e cada ponto de vista, em si é uma multiplicidade[4]. Comprovamos que os estudos de redes informacionais com foco em hits, grau, autoridade e hub, que não consideram as perspectivas em disputa na rede, tendem a chegar em consluões “ilusórias” sobre o que passa na rede.
[1] Para saber mais sobre o algorítimo de Modularidade usado nesse trabalho ler “Finding and evaluating community structure in networks” Girvan & Newman (2004); “Fast unfolding of communities in large networks” Blondel et al (2008); ” Community detection in graphs” de Fortunato S, 2010. (2010).[2] A tese “Exploring Social Phenomena with Complex Systems Tools” de Sebastian GRAUWIN explora no capitulo 5 as possibilidades do algortítimo de Louvain para indicar redes de sub-estruturas de comunidades.
[3] Latour, Bruno. Reagregando o Social. 2007.
[4] Viveiros de Castro, Eduardo. O medo dos Outros. 2012. Ver também vasta leitura sobre o perspectivismo ameríndio nos textos do autor. Recomendo também o livro A Inconstância da Alma Selvagem, disponível pela editora Cosac e Naify.
Comentários