A partir de hoje o REACTION está a gerar dados de 12 em 12 horas. Acho que nem é preciso comentar este.
sábado, maio 14, 2011
sexta-feira, maio 13, 2011
House effects
Variação da estimativa de Abril para Maio (até agora):
PSD: - 1,5
PS: + 0,2
CDS-PP: + 2,1
CDU: - 0,2
BE: - 0,6
PSD: - 1,5
PS: + 0,2
CDS-PP: + 2,1
CDU: - 0,2
BE: - 0,6
Intercampus, 7-12 Maio, N=1029, Tel.
PS: 36,8% (+2,0)
PSD: 33,9% (-3,1)
CDS-PP: 13,4% (+2,9)
CDU: 7,4% (-0,5)
BE: 6,0% (-1,0)
Estou a comparar não com a última sondagem da Intercampus, mas sim com a imediatamente anterior a essa, dado que esta partilha 40% da amostra com a que terminou dia 8. Decidi também eliminar a sondagem anterior da base de dados a partir da qual faço os gráficos, de forma a ter apenas amostras independentes. Sei que em parte estou a perder informação, mas acho preferível assim.
P.S.- Este post já foi mudado três vezes de tão mal escrito que estava. Teve uma versão anterior, e outra anterior a essa, sendo que a segunda foi anterior à primeira, etc.
PSD: 33,9% (-3,1)
CDS-PP: 13,4% (+2,9)
CDU: 7,4% (-0,5)
BE: 6,0% (-1,0)
Estou a comparar não com a última sondagem da Intercampus, mas sim com a imediatamente anterior a essa, dado que esta partilha 40% da amostra com a que terminou dia 8. Decidi também eliminar a sondagem anterior da base de dados a partir da qual faço os gráficos, de forma a ter apenas amostras independentes. Sei que em parte estou a perder informação, mas acho preferível assim.
P.S.- Este post já foi mudado três vezes de tão mal escrito que estava. Teve uma versão anterior, e outra anterior a essa, sendo que a segunda foi anterior à primeira, etc.
quinta-feira, maio 12, 2011
Capítulo 1
Para abrir o apetite (ou para o matar definitivamente), com a autorização da FFMS, partilho aqui o primeiro capítulo do livro (.pdf).
Evolução do share de menções na twitosfera
Dados do REACTION. As cores explicam-se a si próprias, creio. Muita volatilidade, poucos dias, é o que há. Mas já é sugestivo.
House effects
Sei que quem apanhe estas discussões a meio pode não fazer ideia do que significa o título deste post, por isso deixem-me repetir o texto de um post anterior (quem já leu salte para o fim):
1. O gráfico que contém todas as estimativas - vamos chamar-lhe "Mr. Smoother" - faz o seu trabalhinho da seguinte forma: pega em cada observação e transforma-a numa observação "amaciada", usando para esse efeito um sub-conjunto de observações na sua vizinhança (no caso,2510% do total das observações) e dando mais peso àquelas que estão mais próximas. Juntando os pontos "amaciados" ficamos com uma linha cuja variabilidade é inferior à real variabilidade dos dados e que, desejavalmente, nos permite visualizar melhor tendências sem estarmos a ser confundidos por ruído aleatório.
O problema de Mr. Smoother é que é um bocadinho ingénuo: se eu lhe atirar com 50 sondagens de um instituto e uma de outro para cima, ele ignora esse facto e continua com o seu trabalhinho como se nada fosse. Mas compensa essa ingenuidade com um sólido conservadorismo: como "tempera" cada observação com informação das observações vizinhas, Mr. Smoother não se deixa enganar facilmente por flutuações irrelevantes e, para dizer que algo está a mudar, exige ser convencido e persuadido repetidamente. Só se lhe mostrar várias observações consecutivas que apontam na mesma direcção é que ele se decide a dizer que algo está a mudar. Não lhe fica mal.
2. O Dr. House Effects (PhD) é toda uma outra personalidade: chega ao fim de um mês e grita "Subiu!", "Desceu!", "Não mudou!" em comparação com o mês anterior. E diz estas coisas mesmo se eu só lhe mostrar uma sondagem para esse mês. Como é que a criatura se arrisca a dizer uma coisa destas? Bem, a diferença entre o Dr. House Effects e o Mr. Smoother é que o primeiro, quando diz qualquer coisa, olha para todas as observações desde 2005. E sabe uma coisa sobre cada uma delas que o Mr. Smoother resolve ignorar: que instituto fez cada sondagem.
Tomando essa informação em conta, o Dr. House Effects apura que, ao longo de todo o período, há institutos que tendem a dar melhores ou piores resultados para um determinado partido. E quando lhe dizem que um determinado resultado veio de um determinado instituto, o Dr. House Effects toma essa informação em conta para estimar um resultado para cada mês. Ele não diz que esse resultado é o resultado "certo". Esse assunto não o interessa. O que lhe interessa é dar resultados mensais comparáveis uns com os outros, independentemente do "mix" particular de institutos que fizeram sondagens em cada mês. Gosta de arriscar e pode-se mais facilmente espatifar, ao contrário do Sr. Smoother. Mas é menos ingénuo que o seu colega.
O Sr. Smoother vai falar amanhã, quando tiver nas mãos a sondagem da Intercampus. mas o que o Dr. House Effects gostaria de dizer neste momento é que:
- A sondagem da Marktest não muda uma conclusão que já se tirava das anteriores: a comparação de Abril com esta primeira metade de Maio sugere que o PS terá deixado de subir nas sondagens.
- A descida do PSD de Abril para a primeira metade de Maio vê-se algo mitigada, mas continua a aparecer nos dados.
- Confirma-se subida do CDS.
1. O gráfico que contém todas as estimativas - vamos chamar-lhe "Mr. Smoother" - faz o seu trabalhinho da seguinte forma: pega em cada observação e transforma-a numa observação "amaciada", usando para esse efeito um sub-conjunto de observações na sua vizinhança (no caso,
O problema de Mr. Smoother é que é um bocadinho ingénuo: se eu lhe atirar com 50 sondagens de um instituto e uma de outro para cima, ele ignora esse facto e continua com o seu trabalhinho como se nada fosse. Mas compensa essa ingenuidade com um sólido conservadorismo: como "tempera" cada observação com informação das observações vizinhas, Mr. Smoother não se deixa enganar facilmente por flutuações irrelevantes e, para dizer que algo está a mudar, exige ser convencido e persuadido repetidamente. Só se lhe mostrar várias observações consecutivas que apontam na mesma direcção é que ele se decide a dizer que algo está a mudar. Não lhe fica mal.
2. O Dr. House Effects (PhD) é toda uma outra personalidade: chega ao fim de um mês e grita "Subiu!", "Desceu!", "Não mudou!" em comparação com o mês anterior. E diz estas coisas mesmo se eu só lhe mostrar uma sondagem para esse mês. Como é que a criatura se arrisca a dizer uma coisa destas? Bem, a diferença entre o Dr. House Effects e o Mr. Smoother é que o primeiro, quando diz qualquer coisa, olha para todas as observações desde 2005. E sabe uma coisa sobre cada uma delas que o Mr. Smoother resolve ignorar: que instituto fez cada sondagem.
Tomando essa informação em conta, o Dr. House Effects apura que, ao longo de todo o período, há institutos que tendem a dar melhores ou piores resultados para um determinado partido. E quando lhe dizem que um determinado resultado veio de um determinado instituto, o Dr. House Effects toma essa informação em conta para estimar um resultado para cada mês. Ele não diz que esse resultado é o resultado "certo". Esse assunto não o interessa. O que lhe interessa é dar resultados mensais comparáveis uns com os outros, independentemente do "mix" particular de institutos que fizeram sondagens em cada mês. Gosta de arriscar e pode-se mais facilmente espatifar, ao contrário do Sr. Smoother. Mas é menos ingénuo que o seu colega.
O Sr. Smoother vai falar amanhã, quando tiver nas mãos a sondagem da Intercampus. mas o que o Dr. House Effects gostaria de dizer neste momento é que:
- A sondagem da Marktest não muda uma conclusão que já se tirava das anteriores: a comparação de Abril com esta primeira metade de Maio sugere que o PS terá deixado de subir nas sondagens.
- A descida do PSD de Abril para a primeira metade de Maio vê-se algo mitigada, mas continua a aparecer nos dados.
- Confirma-se subida do CDS.
Marktest, 9-10 Maio, N=805, Tel.
A notícia é um bocado críptica sobre percentagens mas com jeito vai-se lá:
PSD: 39,7% (+4,4)
PS: 33,4% (-2,7)
CDS-PP: 9,0% (+1,5)
CDU: 6,5% (-1,6)
BE: 4,8% (-1,2)
PSD: 39,7% (+4,4)
PS: 33,4% (-2,7)
CDS-PP: 9,0% (+1,5)
CDU: 6,5% (-1,6)
BE: 4,8% (-1,2)
quarta-feira, maio 11, 2011
Passos Coelho vs. Jerónimo (10-11 Maio)
Não mudei a escala à esquerda do dia anterior só para percebermos como Passos Coelho e Jerónimo de Sousa geraram muito menos menções na twittosfera que Portas e Sócrates. Saldo entre menções positivas e negativas muito parecido para os dois.
Intercampus
A Intercampus está mesmo a usar uma tracking poll no trabalho para a TVI e o Público. Em cada resultado ventilado, 60% da amostra é nova e 40% faz parte da amostra anterior. Tudo normal. Nem é a primeira vez que se faz - e já se faz há bastante tempo nas sondagens partidárias - com a diferença de que, neste caso, a renovação feita de cada vez que se ventilam resultados é maior (também porque as divulgações não são diárias). A única coisa a tomar em conta, então, é que os diferentes resultados não são de amostras completamente independentes.
Notoriedade na twittosfera
Desde o dia 29 de Abril até às 19h de ontem, quais os líderes partidários mais mencionados na twittosfera? Na base dos dados do REACTION, a resposta não oferece qualquer espécie de dúvida:
E de cada vez que foram mencionados, como se distribuíram essas menções por "negativas", "neutras" e "positivas"?
José Sócrates foi quem, proporcionalmente (e também em termos absolutos, naturalmente), recebeu mais menções negativas. Mas foi também, depois de Portas, o que recebeu proporcionalmente mais menções positivas.
E de cada vez que foram mencionados, como se distribuíram essas menções por "negativas", "neutras" e "positivas"?
José Sócrates foi quem, proporcionalmente (e também em termos absolutos, naturalmente), recebeu mais menções negativas. Mas foi também, depois de Portas, o que recebeu proporcionalmente mais menções positivas.
terça-feira, maio 10, 2011
Sócrates vs. Portas
Na twittosfera, Portas ganhou no último dia:
Sócrates teve mais menções entre as 19h de ontem e as 19h de hoje, mas especialmente à custa de menções negativas. Portas também tem muitas menções negativas: de resto, estes líderes partidários, como veremos mais à frente, são os que suscitam mais tráfego e maior polarização dos utilizadores do Twitter. Mas Portas teve, quer em termos relativos quer absolutos, menos menções negativas e mais positivas que Sócrates.
Dados: REACTION. Vejam este post para uma explicação do que está aqui feito.
Sócrates teve mais menções entre as 19h de ontem e as 19h de hoje, mas especialmente à custa de menções negativas. Portas também tem muitas menções negativas: de resto, estes líderes partidários, como veremos mais à frente, são os que suscitam mais tráfego e maior polarização dos utilizadores do Twitter. Mas Portas teve, quer em termos relativos quer absolutos, menos menções negativas e mais positivas que Sócrates.
Dados: REACTION. Vejam este post para uma explicação do que está aqui feito.
REACTION
REACTION significa "Retrieval, Extraction and Aggregation Computing Technology for Integrating and Organizing News", e é um projecto coordenado por Mário Silva que envolve equipas da Faculdade de Ciências da Universidade de Lisboa, da Faculdade de Engenharia do Porto, da Universidade do Texas Austin e da Universidade Nova de Lisboa (o Centro de Investigação Media e Jornalismo onde está o António Granado), assim como equipas do SAPO e do Público. Um dos objectivos do REACTION consiste em detectar e analisar conteúdos online com referências a instituições, pessoas e eventos, fazendo-o de forma automatizada.
Imaginem que queríamos saber quantas vezes é que, na twittosfera, eram mencionados os diferentes líderes partidários. E que queríamos, na base dos textos, inferir automaticamente se o teor dos comentários sobre esses líderes era positivo ou negativo? Se pudéssemos fazer isto, ficávamos com uma espécie de barómetro da opinião tal como veiculada na twittosfera. E quem diz isto diz outros conteúdos online, tal como blogues, notícias ou opinião online, comentários a uns e outros, etc. Ora bem, o REACTION deu um primeiro passo neste sentido. Desenvolveram um crawler que recolhe os tweets de 25.000 utilizadores portugueses do Twitter e analisa:
1. Menções aos líderes dos cinco principais partidos. Para isso, foi preciso desenvolver recursos que permitam detectar que "José Sócrates" é a mesma coisa que "Eng. Pinto de Sousa" e que o "Jerónimo", neste caso, não é um índio apache. Testes confrontando análise manual com os resultados dos algoritmos mostram que a capacidade de identificação correcta já está bem acima dos 90%.
2. Análise da "polaridade" das mensagens, distinguindo aquelas que emitem juízos positivos, negativos e meramente "descritivos" (ou neutros). Isto é mais díficil, e exige a automatização de uma análise linguística, nomeadamente um léxico de adjectivos e sua associação a um determinado alvo.
Os primeiros resultados começaram a estar disponíveis a partir do passado dia 29 de Abril, medindo o número de menções na twittosfera a cada um dos líderes partidários e a sua polaridade (positivo, neutro ou negativo) por dia (entre as 19h do dia 18 e as 19h do dia 29). Deste então, o sistema tem gerado resultados diários.
O que é então o gráfico no post abaixo?
As colunas da esquerda mostram o número absoluto de tweets mencionando Jerónimo de Sousa e Paulo Portas e sua polaridade entre as 19h do dia 6 de Maio (o dia do debate Jerónimo-Portas) e as 19h dos dia 7, apanhando portanto o debate e o seu rescaldo. Várias precauções:
1. Os tweets não eram necessariamente apenas sobre o debate.
2. A análise de polaridade é muito conservadora, ou seja, haverá certamente tweets na categoria neutra que emitem uma avaliação, mas que o sistema está a classificar como neutros para não cometer falsas identificações.
3. Quando começarmos a olhar para isto dia-a-dia, vamos detectar uma volatilidade brutal, marcada por eventos, memes que circulam na net, etc.
Resultados: primeiro, Portas foi muito mais mencionado na twittosfera do que Jerónimo. Logo, naturalmente, recebe, em termos absolutos, muitos mais comentários quer negativos quer positivos. O saldo para ambos os políticos é negativo, ou seja, é mais frequente serem criticados que elogiados, padrão habitual nos estudos congéneres. Mas na distribuição de comentários - colunas à direita - Portas recebe, proporcionalmente, mais comentários positivos que Jerónimo e o saldo é-lhe mais favorável.
O que significa tudo isto? Bem, não sei. Vamos ver. Como é óbvio, a ideia de que os utilizadores na twittosfera são representativos da população eleitoral é absurda. Mas há vários estudos que sugerem que o conteúdo da twittosfera pode ser um bom preditor de fenómenos políticos relevantes. Só dois exemplos. Este mostra que a distribuição de menções aos partidos na Alemanha (partidos, atenção, não líderes) se aproximou bastante da distribuição final dos votos, para além de revelar que as associações conjuntas de partidos reflectem proximidades políticas e ideológicas reais e que os sentimentos expressos em relação aos líderes reflectem padrões intuitivamente previsíveis. E este mostra correlações interessantes entre indicadores do mesmo género e as sondagens políticas e os índices de confiança do consumidor. Temos um problema de escala, claro, e a twittosfera portuguesa é muito menos "politizada" do que poderíamos pensar (apenas cerca de 1% do total dos tweets menciona líderes políticos). Mas vamos ver onde isto nos leva. Logo vamos olhar para um gráfico semelhante ao anterior, mas desta vez, claro, sobre Portas e Sócrates.
P.S.- Daqui a dias, estará disponível um site no SAPO com resultados destas análises.
Imaginem que queríamos saber quantas vezes é que, na twittosfera, eram mencionados os diferentes líderes partidários. E que queríamos, na base dos textos, inferir automaticamente se o teor dos comentários sobre esses líderes era positivo ou negativo? Se pudéssemos fazer isto, ficávamos com uma espécie de barómetro da opinião tal como veiculada na twittosfera. E quem diz isto diz outros conteúdos online, tal como blogues, notícias ou opinião online, comentários a uns e outros, etc. Ora bem, o REACTION deu um primeiro passo neste sentido. Desenvolveram um crawler que recolhe os tweets de 25.000 utilizadores portugueses do Twitter e analisa:
1. Menções aos líderes dos cinco principais partidos. Para isso, foi preciso desenvolver recursos que permitam detectar que "José Sócrates" é a mesma coisa que "Eng. Pinto de Sousa" e que o "Jerónimo", neste caso, não é um índio apache. Testes confrontando análise manual com os resultados dos algoritmos mostram que a capacidade de identificação correcta já está bem acima dos 90%.
2. Análise da "polaridade" das mensagens, distinguindo aquelas que emitem juízos positivos, negativos e meramente "descritivos" (ou neutros). Isto é mais díficil, e exige a automatização de uma análise linguística, nomeadamente um léxico de adjectivos e sua associação a um determinado alvo.
Os primeiros resultados começaram a estar disponíveis a partir do passado dia 29 de Abril, medindo o número de menções na twittosfera a cada um dos líderes partidários e a sua polaridade (positivo, neutro ou negativo) por dia (entre as 19h do dia 18 e as 19h do dia 29). Deste então, o sistema tem gerado resultados diários.
O que é então o gráfico no post abaixo?
As colunas da esquerda mostram o número absoluto de tweets mencionando Jerónimo de Sousa e Paulo Portas e sua polaridade entre as 19h do dia 6 de Maio (o dia do debate Jerónimo-Portas) e as 19h dos dia 7, apanhando portanto o debate e o seu rescaldo. Várias precauções:
1. Os tweets não eram necessariamente apenas sobre o debate.
2. A análise de polaridade é muito conservadora, ou seja, haverá certamente tweets na categoria neutra que emitem uma avaliação, mas que o sistema está a classificar como neutros para não cometer falsas identificações.
3. Quando começarmos a olhar para isto dia-a-dia, vamos detectar uma volatilidade brutal, marcada por eventos, memes que circulam na net, etc.
Resultados: primeiro, Portas foi muito mais mencionado na twittosfera do que Jerónimo. Logo, naturalmente, recebe, em termos absolutos, muitos mais comentários quer negativos quer positivos. O saldo para ambos os políticos é negativo, ou seja, é mais frequente serem criticados que elogiados, padrão habitual nos estudos congéneres. Mas na distribuição de comentários - colunas à direita - Portas recebe, proporcionalmente, mais comentários positivos que Jerónimo e o saldo é-lhe mais favorável.
O que significa tudo isto? Bem, não sei. Vamos ver. Como é óbvio, a ideia de que os utilizadores na twittosfera são representativos da população eleitoral é absurda. Mas há vários estudos que sugerem que o conteúdo da twittosfera pode ser um bom preditor de fenómenos políticos relevantes. Só dois exemplos. Este mostra que a distribuição de menções aos partidos na Alemanha (partidos, atenção, não líderes) se aproximou bastante da distribuição final dos votos, para além de revelar que as associações conjuntas de partidos reflectem proximidades políticas e ideológicas reais e que os sentimentos expressos em relação aos líderes reflectem padrões intuitivamente previsíveis. E este mostra correlações interessantes entre indicadores do mesmo género e as sondagens políticas e os índices de confiança do consumidor. Temos um problema de escala, claro, e a twittosfera portuguesa é muito menos "politizada" do que poderíamos pensar (apenas cerca de 1% do total dos tweets menciona líderes políticos). Mas vamos ver onde isto nos leva. Logo vamos olhar para um gráfico semelhante ao anterior, mas desta vez, claro, sobre Portas e Sócrates.
P.S.- Daqui a dias, estará disponível um site no SAPO com resultados destas análises.
segunda-feira, maio 09, 2011
Intercampus, 4-8 Maio, N=1020, Tel.
Bem, agora fico com uma dúvida. O trabalho de campo da anterior sondagem da Intercampus ocorreu entre os dias 2 e 5 de Maio. Esta, a divulgada hoje, entre os dias 4 e 8 e Maio. Quererá isto dizer que parte da amostra da anterior está a ser usada na de hoje? Não há nada de errado com isso: seria uma tracking poll. Mas se é assim, importa perceber que, em cada sondagem, só parte dos resultados são novos. Enfim, talvez seja lapso. Mas a proximidade muito grande com os resultados da anterior sugerem a possibilidade de que seja mesmo uma tracking. Assim que souber digo.
PSD: 36,2% (-0,8)
PS: 35,1% (+0,3)
CDS-PP: 10,9% (+0,4)
CDU: 7,7% (-0,2)
BE: 6,5% (-0,5)
PSD: 36,2% (-0,8)
PS: 35,1% (+0,3)
CDS-PP: 10,9% (+0,4)
CDU: 7,7% (-0,2)
BE: 6,5% (-0,5)
House effects
O modelo que estima os resultados por mês onde o trabalho de campo foi terminado controlando os efeitos do facto de as sondagens terem sido feitas por empresas diferentes sugere que o PSD voltou a descer de Abril para Maio (2 pontos) mas que o PS deixou de subir. Por outras palavras, o apertar da diferença das sondagens realizadas de Abril para Maio dá-se à custa de uma descida do PSD, não de uma subida do PS (ao contrário do que sucedeu de Março para Abril, em que PS subiu e PSD desceu). Os valores estimados não são importantes, porque variam de acordo com a empresa que seja tomada como categoria de referência. Só as tendências são relevantes nesta análise.
Já agora, quem é que subiu das sondagens de Abril para as sondagens de Maio? O CDS-PP, claro, 1,8 pontos.
Já agora, quem é que subiu das sondagens de Abril para as sondagens de Maio? O CDS-PP, claro, 1,8 pontos.
Subscrever:
Mensagens (Atom)













