quarta-feira, maio 27, 2009

Intervalos de confiança (só para nerds)

Num dos seus últimos posts, o Pedro explicou com algum detalhe como se calculam intervalos de confiança a partir das sondagens. Penso que explicou muito bem, mas houve algo que não explicitou.

A ideia de um intervalo de confiança é tentar perceber que votações num dado partido são compatíveis com uma dada sondagem. Por exemplo. Suponhamos que uma sondagem dá 40% ao PS. É apenas uma sondagem, não podemos ter a certeza de que a percentagem de votantes no PS seja, de facto, 40%. Pergunta-se então que valores que são compatíveis com os 40% da sondagem? Se a sondagem aponta para 40%, então não é razoável acreditar que o verdadeiro valor das intenções de voto seja 80%, por exemplo. Já 38 ou 42% parecem valores razoáveis. E 48%?, é razoável? É na definição dos extremos que entram os intervalos de confiança.

Por qualquer motivo, que desconheço, convencionou-se que um bom intervalo de confiança era o de 95%. A ideia é subtil. Escolhe-se um intervalo de tal forma que se se fizessem muitas sondagens, 95% delas incluiriam o verdadeiro valor da votação do PS nos seus intervalos de confiança. Isso quer dizer que se, se fizer muitas sondagens, uma em cada 20 errará por muito.

Como calcular esse intervalo de confiança? Quem sabe uns rudimentos de estatística, sabe que a distribuição dos votos segue uma lei de probabilidade binomial. Mas esta é daquelas distribuições que é chatinha de usar, pelo que a maioria das pessoas usa a lei normal, que é muito simples de usar e é uma aproximação bastante razoável na maioria dos casos.

Infelizmente, quando se fala de partidos com pequenas votações a aproximação deteriora-se bastante, podendo até levar a situações de puro nonsense. Imagine o leitor que numa amostra de 400 pessoas, 0,7% declararam votar no POUS. Um intervalo de confiança de 95% incluiria todos os valores desde o 0,1% negativos até ao 1,5% positivo. Ou seja, estar-se-ia a considerar como hipótese razoável que o POUS tivesse um número negativo de votos. Já se se usasse a lei binomial concluir-se-ia, correctamente, que o intervalo de confiança ia de 0,15% até 1,79%. Refaço o quadro que o Pedro fez com os intervalos de confiança para a última sondagem da Aximage, com percentagens calculadas para um universo de 401 pessoas):



Veja-se que a aproximação que o Pedro fez é quase perfeita para o PS e PSD, subestima um pouco a votação dos pequenos partidos (BE, PCP e CDS) e prejudica bastante os micro partidos (o meu intervalo inferior é 30% mais elevado que o do Pedro). Repare-se que este fenómeno pode ajudar a explicar a sensação que muitas vezes se tem de que as votações dos pequenos partidos, sistematicamente, se situam na parte superior do intervalo de confiança. Muitas vezes ouvi dirigentes do PCP e do CDS a queixarem-se disto mesmo.

Olhando para os intervalos de confiança estimados a partir desta sondagem, não se poria de parte a hipótese de o PSD ser o mais votado, nem de o CDS-PP ser a terceira força. Infelizmente para uns, e felizmente para outros, o facto de haver várias sondagens permite reduzir os intervalos de confiança. Como mero exemplo académico, imagine o leitor que em vez de uma sondagem da Aximage, havia 4 sondagens diferentes, feitas seguindo a mesma metodologia e que em média, os resultados são iguais ao quadro de cima. Excluindo a hipótese de haver alguém que tenha respondido a mais do que uma sondagem, temos o equivalente a uma grande sondagem feita com base em 1604 pessoas:



Os intervalos de confiança ficam bem estreitos. Dado que já várias sondagens foram feitas e que todas apontam para uma vitória do PS é difícil de aceitar a hipótese de o PSD e o PS estarem empatados. Para já, o PS leva vantagem.

7 comentários:

Unknown disse...

Agora é que isto se tornou, finalmente, uma casa séria.

Anónimo disse...

caro luís,

e em mandatos, como poderá ficar?

abraço e bemvindo.

pm

K2ou3 disse...

Sim Senhor, muito bem, apesar de as minhas contas serem outras.
No entanto, e o peso da abstenção, mesmo que distribuida geométricamente?. É que a abstenção nem sequer tem margem de erro, é um factor de calculo livre e imprevisivel.

Luís Aguiar-Conraria disse...

Pedro, dá-me algum tempo para ganhar confiança que logo verá que isto deixa de ser uma casa séria.

pm, vou ver se ainda hoje lhe deixo aqui um link onde poderá fazer esse tipo de simulações.

K2ou3, este exercício foi feito apenas para as pessoas que declaram ir votar nalgum partido. Ou seja, indecisos, NS/NR, declarados abstencionistas estão postos de parte.
Por isso é que a amostra é tao pequena.

Unknown disse...

Olé. Um simulador online para o método D'Hondt: http://icon.cat/util/elections

Não aceita casas decimais (porque lida apenas com votos) mas basta multiplicar as percentagens por 10.

Anónimo disse...

muito agradecido aos dois!
pm

FCA disse...

"Por qualquer motivo, que desconheço, convencionou-se que um bom intervalo de confiança era o de 95%. "

Um intervalo de confiança de 95% implica que estamos a afastar-nos dois desvios padrões da média. Um intervalo de confiança de 99% são três desvios padrões. É raro encontrar fenomenos sociais que se afastem mais de 2 desvios padrões. Pelo que um intervalo de confiança de 95% é muito razoável.