sexta-feira, setembro 18, 2009

A dimensão da amostra

Num comentário, pergunta-se que diferença faz a dimensão de uma amostra. A resposta é porventura mais interessante do que se possa imaginar.

A resposta canónica é que uma amostra maior produzirá estimativas mais precisas. Vamos imaginar um país com 9 milhões de eleitores em quem metade das pessoas vota no partido A e a outra metade no partido B. E para simplificar, que esta gente nunca muda de opinião, aceita sempre responder a sondagens, nunca mente e que se consegue obter uma amostra onde cada um dos eleitores teve exactamente a mesma probabilidade de ser seleccionado. Se eu retirar uma amostra de 100 pessoas, tenho 95% de hipóteses que, na amostra, a percentagem de pessoas que vota no partido A esteja algures entre 40,2 e 59,8%. Mas se retirar uma amostra de 1000 pessoas, vou obter, com a mesma probabilidade, algo ente 46,9 e 53,1%. Todos sabemos que, na prática, as pressuposições que fiz atrás são irrealistas. Mas a verdade é que a maior parte da investigação que existe sobre o assunto, lá fora e até em Portugal, mostra que, ceteris paribus, sondagens que utilizam amostras maiores tendem a gerar resultados que se aproximam mais daqueles que acabam por ser os resultados eleitorais.

Mas imaginem agora que há um mentiroso em cada cinco eleitores do partido A. Gosta de enganar as sondagens, dizendo sempre que vota no partido B quando, afinal, é um indefectível do partido A. Por outras palavras, se perguntássemos aos 9.000.000 em que partido vão votar, só 40% diriam que votariam no partido A (quando, na verdade, metade vai de facto fazê-lo). Feita a sondagem com 1000 inquiridos seleccionados aleatoriamente, há 95% de probabilidades de que estime um resultado para o partido A algures entre os 37 e os 43%. Feita a sondagem com 100 inquiridos seleccionados aleatoriamente, há 95% de probabilidades de que apareça um resultado entre 30,4 e 49,6% para o partido A.

Chega o dia das eleições e, claro, o partido A tem 50% e o partido B idem. E que sondagem ficou mais perto? É quase certo (com 95% de probabilidades) que a sondagem da amostra maior nunca ficará a menos de 7 pontos do resultado final para o partido A. Mas a sondagem dos 100 inquiridos, por mero acaso, pode facilmente ficar bem mais perto. Quem diz "mentir" às sondagens diz taxas de resposta diferenciais, incapacidade de contactar um determinado tipo de eleitorado, etc. Sondagens com amostras maiores dão estimativas mais precisas, e, logo, se houver enviesamentos, estimam-nos mais precisamente.

Foi o LA-C que me pôs a pensar nisto há uns tempos. Espero ter explicado a coisa correctamente.

1 comentário:

NC disse...

Brilhante!