Mineração dos dados sobre a rede do #MarcoCivil no twitter: primeiros passos #1
10 de abril de 2013 • por Labic
O Labic analisa, neste momento, o controverso debate sobre o Marco Civil da Internet no Brasil, projeto de lei que está tramitando no Congresso Nacional. O Marco Civil possibilitará aos cidadãos conquistas fundamentais, como a neutralidade da rede, proteção de dados privados e garantias de não remoção de conteúdos em sites e blogs sem o amplo direito de defesa. Contudo, a indústria do copyright e das telecomunicações são contra a alguns artigos da lei, apoiados por setores do Legislativo e Executivo Federal. Essa tensão é gerada porque há, de um lado, a sociedade civil fazendo barulho para aprovar o Marco; e de outro lado, há forte lobby no Congresso que força o Marco Civil ficar engavetado.
Diante disso, o Labic começou um trabalho de rastrear os atores e as redes envolvidas na discussão sobre o Marco Civil. A extração acontece desde setembro de 2012.
O primeiro passo dado em direção à pesquisa sobre o #MarcoCivil foi a extração dos dados no yourTwapperKeeper (que captura todo os tweets associados a uma palavra definida pelo usuário). Após a extração dos dados, 21.997 tweets sobre o tema, decidimos por separar as menções dos RTs para fins metodológicos do trabalho (são quase 6 mil RTS). O dataset do “Marco Civil” pode ser baixado aqui.
.
A separação dos RTs e ATs (menções) dos tweets com a palavra “Marco Civil” é feita através de um script processado na linguagem de programação ‘R’. Tal script foi encontrado em um blog (http://blog.ynada.com/339), o “tweetgraph.R”. Ele serve para extrair de um arquivo ‘Pipe-delimited’ (marcocivil.csv), um arquivo de texto onde as informações sobre o tweet (texto, hora, local, dispostivo ect) são separados pelo símbolo | (pipes).
O programador do laboratório, Jean Maicon Medeiros, realizou modificações no script para que o conteúdo do tweet estivesse junto com os replies e RTs, criando assim o script “tweetgraph2.0.R”. Já no “tweetgraph3.0.R”, fizemos com que o graphml guardasse tanto quem escreveu o tweet, quanto quem fez o re-tweet e também o conteúdo do tweet e o timestamp, com o intuito de ter como organizar temporalmente os tweets, para usar a timeline que o Gephi disponibiliza e analisarmos assim como foi o crescimento dos tweets.
Optamos, na amostra sobre o #MarcoCivil, por utilizar os RT’s (total de 5.291), pois são neles que se apresentam as controvérsias, ou seja, os debates em torno do tema do #MarcoCivil. Processamos o arquivo original marcocivil.csv (comos 22 mil tweets) no script “tweetgraph3.0.R”, porque também temos interesse em construir uma linha do tempo dessas controvérsias.
A leitura dos tweets RT’s nos levou a um novo desafio, viu-se a necessidade de categorizar o conteúdo dos tweets e o perfil do usuário autor do tweet segundo algumas variáveis. A partir de percepções empíricas criamos as seguintes categorias e variáveis:
a) Tuiteiros (Ator-Rede)
1)ativista: militante da causa na rede
2)velha mídia: meios tradicionais de comunicação
3)mídia online: meios de comunicação presentes apenas nas plataformas digitais
4)especialistas: pesquisador do tema marco civil
5)políticos: políticos ou ex-políticos
6)artistas/showbiz
7)burocratas: profissional atrelado às questões do Estado (ex: assessorias)
8)empresários
9)comentaristas
b)Atitudes
1)indignação: o ato ou efeito de indignar-se. exaltação provocada por afronta, injustiça ou ação vergonhosa. ira, desprezo, repulsão.
2)observação/vigilância: consideração atenta de um fato para o conhecer melhor.
3)complacência: ser favorável
4)explicação: tornar algo inteligível, esclarecimento.
5)mobilização: convocação de pessoas para que participem de uma ação de caráter cívico ou político.
6)felicitação/apoio: congratulações; carga positiva de uma mensagem em relação ao tema
7)alerta: exclamação usada para impor sentido ou chamar atenção
8)antagonismo: oposição, incompatibilidade
9)informação: dar informações, avisar.
c)Posição Política
1)neutra
2)progressista: intenção do adiantamento, desenvolvimento
3)conservadora: alinhada ao tradicionalismo, contraposta à mudanças radicais
d) Controvérsia
1)liberdade de expressão
2)segurança de informação
3)privacidade
4)anonimato
5)direito autoral/copyright
6)direito do consumidor
7)investigação policial e cibercrimes
8)questões políticas sobre votação da lei
9)neutralidade da rede
10)Efetivação da lei
No momento estamos categorizando cada tweet utilizando essas novas categorias, nosso objetivo é criar novas visualizações levando em consideração as controvérsias do #MarcoCivil. E plotar a rede em função dessas variáveis.
Scripts do R: http://www.dropbox.com/s/8kgyuopwjvswqb7/scripts.zip
Comentários