quinta-feira, maio 28, 2009

Ainda o empate entre o PS e o PSD

Há quem não goste da estratégia de tratar de várias sondagens como se de uma só (grande) sondagem se tratasse. Os argumentos são legítimos: Não podemos saber se não terá havido uma pessoa a responder a mais do que uma sondagem, as metodologias das sondagens são diferentes, o tratamento dos indecisos é diferente, etc, etc. Todos estes argumentos são válidos apesar de, na minha opinião, serem pouco relevantes. De qualquer forma, podemos pegar no problema por outra perspectiva.

Vamos admitir que o PS e o PSD estão, de facto, empatados. Se esta hipótese estiver correcta, então a probabilidade de o PS aparecer à frente numa dada sondagem é de 0,5 (50%). A probabilidade de aparecer à frente em duas sondagens é de 0,5x0,5=0.25 (25%). A probabilidade de aparecer à frente nas seis sondagens já realizadas seria de 0,5^6=0,015625 (1,56%). Ou seja, se os partidos estivessem empatados, a probabilidade de nas 6 sondagens já feitas o PS aparecer sempre à frente seria de 1,56%. Podemos então pôr de parte essa hipótese de ambos estarem empatados com um grau de certeza de 98,4%. É impossívelque estejam empatados? Não, apenas altamente improvável. O mesmo raciocínio se aplica à disputa pelo terceiro lugar, entre o BE e o CDS, e à disputa para o 4º lugar no pódio, disputa entre o CDS-PP e a CDU.

11 comentários:

K2ou3 disse...

E andam cabeças a estragar-se com estes "tocos".

Anónimo disse...

O ligeiro aggiornamentto xuxa dos autores deste blogue, mascarado com saber técnico, fica patente no seguinte facto: diferentes sondagens não são "concatenáveis" porque são feitas em momentos diferentes, com critérios diferentes, e metodologias, por vezes, duvidosas. Já fui questionado para uma destas sondagens em que me fizeram a seguinte pergunta: "Vai votar no Partido Socialista nas próximas eleições ou noutro partido? Qual? PSD? CDU? CDS-PP? BE? Outro?" Palavras para quê?

Unknown disse...

Ó caro anónimo: depois de uma expressão tão inesquecível como "aggiornamento xuxa", por que é que foi logo estragar tudo com "seguintes factos" e "concatenáveis" e tal? Aggiornamento xuxa estava óptimo. Mais palavras para quê?

Anónimo disse...

PM, você e o seu amigo têm sempre razão. Nem vale a pena comentar. Só publicou o meu comentário anterior para armar em engraçado na resposta. Kaput!

Unknown disse...

E publico este também, e todos os que mandar. Mande sempre.

Luís Aguiar-Conraria disse...

Caro anónimo, muito obrigado pelo seu comentário.
Diz que as sondagens são feitas em "momentos diferentes, com critérios diferentes, e metodologias, por vezes, duvidosas".
Quanto a serem feitas em momentos diferentes tem razão. No entanto, dado que as previsões das sondagens se mantêm mais ou menos constantes, não parece ter havido grandes mudanças, pelo que esse argumento perde parte da relevância. Quanto a usarem critérios diferentes, isso não invalida o raciocínio deste 'post', bem pelo contrário, foi esse problema que me motivou a escrevê-lo. Quanto a metodologias duvidosas, aí não sei. Se de facto acha que as empresas de sondagens têm algo a ganhar se aldrabarem propositadamente as suas previsões, de forma a favorecerem sistematicamente o mesmo partido, então realmente o meu exercício não é válido, dado que ele pressupõe que as sondagens são feitas de boa fé.
Quanto a aggiornamenttos, não diga palermices.

Anónimo disse...

As pessoas aqui estão a dar demasiada importância às interpretações das sondagens. Gostaria de mencionar que o PM é sociólogo e o LAC é economista, logo o conhecimento de base na estatística não é tão profundo como deveria ser para comentar as sondagens.
Dito isto o racíocinio do LAC quanto às sondagens é válido assumindo que elas são feitas de boa fé, etc. etc. O que não será tão válido é a forma como se repartem os indecisos quando estas percentagens são muito elevadas (recorde-se que em algumas sondagens os indecisos são cerca de 40/50%). Assim sendo os IC têm duas fontes de erro: o erro amostral + o erro de alocação de indecisos. Como este último é feito como extrapolações (já sei o PM vai dizer que não, mas é uma aproximação), o erro global é o amostral mais o da previsão relativa aos indecisos, o que dará ICs ainda mais largos. Isto poderia ser a fonte de um bom artigo e não seria díficil de fazer, contudo (e como os IP são registados) a utilização desta ideia terá, como
é óbvio, de mencionar este post.

Unknown disse...

Sobre o comentador do "aggiornamento" - e agora mais a sério, que o sentido de humor pode não ser o seu forte: a abordagem do LA-C parece boa para lidar, precisamente, com o problema dos "critérios diferentes e metodologias diferentes". Se bem entendo, a pergunta do Luís é: "What are the odds?" Qual é a probabilidade de sondagens tão "diferentes" estarem a dizer "a mesma coisa", sendo essa coisa mentira. É baixa.

O problema que isto não resolve - e que sempre me atormenta nestas circunstâncias e me empurra mais para o lado da "incerteza" - é a possibilidade de todas as sondagens, independentemente dos seus métodos, estarem a ser afectadas por um enviesamento sistemático. Na verdade, quando olhamos para o confronto entre as sondagens e os resultados eleitorais no passado, aquilo que vemos é que há partidos que são sempre ou quase sempre "sobrestimados" numa eleição por todas as sondagens e outros onde sucede o inverso. Esses partidos variam de eleição para eleição, e por isso não alinho muito na conversa habitual de que as sondagens "prejudicam sempre" este ou aquele. Mas a verdade é que as "odds" de isso acontecer sem que haja um real enviesamento são também baixas. Claro que pode ocorrer porque, entre os dias em que as sondagens são conduzidas e a eleição, aconteça algo ao eleitorado que mude as intenções de voto manifestadas uma semana antes. Mas custa-me acreditar que essa seja sempre a explicação.

Nota final: estas coisas podem ser discutidas "nos méritos", sem se presumir que andamos todos afectados por partidarite aguda.

Unknown disse...

Sobre os indecisos. Espero não ter percebido mal, mas:

- quando se fala na redistribuição dos indecisos como "fonte de erro" importa perceber erro em relação a quê. Na verdade, quando se pega numa sub-amostra daqueles que manifestam uma intenção de voto, calculando proporções em relação a esse sub-total, a discussão do erro faz-se, antes de mais, em relação a proporções reais (desconhecidas) de eleitores que, têm uma intenção de voto e tencionam votar neste ou naquele partido (ou branco ou nulo). Não me parece que os indecisos tenham de ser necessariamente metidos ao barulho nessa discussão concreta. Os indecisos não fazem parte do universo sobre o qual se está a fazer inferências nesse caso (fazem, claro, em relação ao total dos eleitores, mas não em relação aos eleitores que têm uma intenção de voto, que é o universo relevante aqui). Claro que há erro amostral e muitas outras fontes de erro. Erro de medição, antes de mais: o que é e como se mede a indecisão? Muita discussão.Mas não estou a ver como os indecisos entram no assunto da precisão com que se faz inferências sobre os eleitores que têm uma intenção de voto. Eles não pertencem a esse universo.

- Mas o problema dos indecisos é real. Assim como o problema dos votantes prováveis. Mas não é (a não ser, repito, do lado da medição) tanto um problema de precisão na descrição de intenções de voto presentes. É mais um problema de PREVISÃO dos resultados. E por muito que se diga, especialmente quem faz sondagens, que as sondagens são uma descrição de intenções num momento presente e não uma previsão de comportamentos e etc e tal, a verdade é quem que faz sondagens está muito preocupado com não captar intenções de voto que têm baixa probabilidade de se converterem em comportamentos e em não tratar como abstencionistas indecisos que, chegando à sua "decisão futura" , se podem repartir de forma não proporcional pelas diferentes opções. E sobre isso há uma discussão brutal.* Mas uma coisa é a discussão sobre inferências descritivas, outra é sobre inferências preditivas, se posso resumir assim. E no segundo caso, claro que questão dos indecisos pode, claro, ter a ver com o meu comentário anterior: a existência de enviesamentos sistemáticos na estimação do voto num partido quando se confrontam as sondagens com os que vêm a ser os resultados eleitorais.

Mas aqui o sociólogo está sempre pronto a aprender aquilo que seja preciso para poder comentar sondagens como deveria ser. Eu sou brutalmente ignorante sobre variadíssimos assuntos. Inclusivamente sobre o que diga o que o Chicago Manual of Style diz sobre como citar comentários anónimos em blogues :)

*Um texto que conheço que me ajudou a perceber um bocadinho a discussão, do Jon Krosnick e outros, está neste livro: http://books.google.com/books?id=fEC7AAAAIAAJ&pgis=1

Luís Aguiar-Conraria disse...

"O problema que isto não resolve - e que sempre me atormenta nestas circunstâncias e me empurra mais para o lado da "incerteza" - é a possibilidade de todas as sondagens, independentemente dos seus métodos, estarem a ser afectadas por um enviesamento sistemático."

Claro, isso é verdade. Se houver um enviesamente sistemático, não há intervalos de confiança nem testes de hipóteses que resistam.
Portanto, eu deveria ter posto como hipótese que as sondagens são feitas de boa fé e que não há uma fonte de erro sistemática.
Mas aí entramos em algo que não controlamos.

fca disse...

Carissimos,

creio que as contas não estão correctas.
Repare-se se de facto houvesse empate entre o PS e o PSD e tivessemos 3 sondagens a apoiar cada um dos resultados, a % de sucesso seria a mesma:
50%^3 * (1-50)%^3

Qualquer combinação entre empates técnicos: só sucessos para o PS, só sucessos para o PSD, 3 sucessos para cada um, etc..o resultado seria sempre o mesmo.

A distribuição de bernulli usada neste caso não faz sentido. Seis casos não dá para tirar nenhuma conclusão. Se se trata deum empate e as sondagens são sem memória este resultado não é de estranhar.