quinta-feira, julho 01, 2010

Fraude em sondagens nos Estados Unidos?

Uma empresa americana de sondagens, a Research 2000, vem sendo acusada de ter falseado resultados, no seguimento de uma análise de Nate Silver que classificou as suas sondagens como sendo das menos precisas e, muito mais grave, de um relatório feito por vários especialistas que estranharam várias propriedades dos resultados da empresa. O assunto já está nas mãos de advogados. Um dos clientes - o famoso DailyKos - vai processar a empresa.

Quais os sinais suspeitos identificados pelos analistas? Dois deles são muito curiosos. Um é a ausência de "ruído" nos dados. Ou seja, em muitas sondagens consecutivas, em sub-amostras relativamente pequenas (em que a margem de erro amostral é alta), as distribuições exibiam insuficiente variância em relação àquilo que seria de esperar. Outro é o pequeno número de casos em que a mudança na taxa de aprovação de Obama, para a totalidade da amostra e em sondagens feitas de uma semana para a outra, foi zero. Há insuficientes casos de estabilidade em relação ao que seria de esperar como consequência do erro amostral.

O que torna isto curioso é o facto destes "defeitos" dos resultados poderem parecer, numa visão mais superficial, virtudes. Afinal, quem acredita numa empresa de sondagens que, num mês, diz que há 25% de jovens entre os 18 e os 25 anos que votariam num partido, e no mês seguinte diz que há 50%? E de certeza que é impossível que o mesmo partido apareça com 36% dos votos em dois meses seguidos, com tantas coisas interessantíssimas que apareceram nos jornais entretanto, não é? Mas é precisamente a ocorrência de "defeitos" como estes que permitem dizer que há um processo genuíno de geração dos dados. Ao invés, dados excessivamente "bem comportados" - sugerindo mudanças quando elas são "supostas" aparecer ou, pelo contrário, exibindo excessiva estabilidade - sugerem fraude.

Alex Bellos (autor de um livro maravilhoso sobre o futebol no Brasil) escreveu há pouco tempo um livro de divulgação científica sobre Matemática onde está um bom exemplo para percebermos estas coisas. Imaginem que dão uma moeda a uma pessoa e lhe pedem que vá tirando "cara ou coroa" 30 vezes, anotando os resultados que vão saindo. E que pedem a outra pessoa que imagine que está a deitar uma moeda ao ar 30 vezes, anotando também os resultados. Se Cara for representada por H e Coroa representada por T, as duas listas poderiam ser assim:

Lista 1:
H T T H T H T T T H H T H H T H H H H T H T T H T H T T H H

Lista 2:
T T H H T T T T T H H T T T H T T H T H H H H T H H T H T H

Qual delas é a lista que foi gerada atirando uma moeda ao ar, e qual a que foi "imaginada"?

4 comentários:

João Vasco disse...

A primeira foi a inventada.
É mais homogénea. As pessoas tendem a subestimar a quantidade de caras ou coroas repetidas que apareceriam numa sequência desse tamanho, por isso dificilmente a "lista 2" teria sido inventada por uma pessoa "normal" (só se fosse por alguém que já conhece este enviesamento cognitivo, e o estivesse a compensar).


Mais interessante que esta forma de encontrar fraude, mas relacionada, é a análise das contas de uma empresa pelo primeiro algarismo dos diferentes números.

Se o 5 for o algarismo mais abundante, temos um enorme sinal de alarme.

Se os algarismos forem igualmente distribuídos, também deve existir fraude.
Se os números forem genuínos, o 1 deve ser o algarismo mais abundante, ao que se segue o 2, 3, etc...

Unknown disse...

Nem mais.

Luís Queirós disse...

Pedro
Talvez não fosse má ideia sugerir à ERC que convide o sr Nate Siver e a sua equipe para aplicar a metodologia ao caso português.

jj.amarante disse...

Uma referência à Lei de Benford: http://www.rexswain.com/benford.html