segunda-feira, maio 04, 2009

O CDS-PP e as sondagens

Eu sei que os partidos e aqueles que com eles simpatizam têm de reagir de qualquer forma a sondagens que pareçam desfavoráveis. Têm de as desvalorizar, especialmente para fins de consumo interno, de forma a aquietar a oposição dentro do partido e não deixar os apoiantes esmorecerem. Tudo isso é perfeitamente compreensível e não costumo comentar. Cada macaco no seu galho.

O problema, contudo, é quando se fazem afirmações que colidem, de forma comprovável, com a realidade. Essas, lamento, não posso deixar passar. Já mencionei um deputado do CDS-PP que imaginou uma sondagem inexistente do CESOP. E agora, quer em comentários abaixo quer em num post de Paulo Pinto Mascarenhas, aparece a ideia de que "a Católica costuma falhar redondamente nas previsões sobre o CDS."

Sugiro que dêem uma vista de olhos no quadro abaixo. Contém, para as eleições mais recentes em que o PP concorreu sozinho e para as quais o CESOP fez sondagens, assim como para todas as legislativas e europeias com as mesmas características:

- as estimativas para o CDS-PP da última sondagem publicada pelo CESOP antes das eleições;
- a média dos resultados das restantes sondagens;
- o resultado do CDS-PP nas eleições;
- o confronto entre as estimativas do CESOP e a média das restantes sondagens com os resultados reais;
- o erro amostral associado às estimativas feitas pelo CESOP para o CDS-PP, tendo em conta a dimensão da amostra e pressupondo aleatoriedade;
- se a estimativa ficou, no confronto com o resultado, dentro do erro amostral.


Quem queira olhar para isto, verificará o seguinte:

1. Em nove eleições consideradas, a estimativa do CESOP esteve cinco vezes abaixo do resultado que o CDS-PP acabou por ter, e quatro vezes acima desse resultado.
2. Em quatro desses cinco vezes que subestimou o resultado do CDS-PP, o CESOP subestimou-o menos que a média das restantes sondagens realizadas para as mesmas eleições.
3. Em duas dessas cinco vezes, a estimativa do CESOP ficou dentro dos limites do erro amostral.

Quer isto dizer que está tudo óptimo para mim? Não. Há quatro dos nove casos que me aborrecem: as legislativas de 2002 e as Europeias de 1999, em que apesar de termos subestimado o CDS-PP menos do que a média das restantes sondagens, as estimativas ficaram fora do erro amostral; Lisboa 2005, em que sobrestimámos a votação no CDS-PP (pouco) mais do que admissível pelo erro amostral ; e as legislativas de 2005, em que subestimámos o CDS-PP mais do que a média das restantes sondagens e fora do erro amostral.

Dito isto, espero que tenha ficado claro que a afirmação "a Católica costuma falhar redondamente nas previsões sobre o CDS" é falsa. Não tem outra classificação possível. Primeiro, porque a Católica não costuma "falhar redondamente" nas "previsões" sobre o CDS. Segundo, porque quando a Católica subestimou o CDS-PP, subestimou-o quase sempre menos que a média das restantes sondagens. Isto não impede que reflictamos sobre a possibilidade de que haja um problema geral na estimação dos votos no CDS-PP, como tive a oportunidade a de discutir aqui há uns anos neste mesmo blogue. Mas isso não autoriza a afirmação citada.

O post aqui fica, como registo, e para aqui farei ligação quando voltar a ouvir o "lapso" (vamos designá-lo com benevolência) do costume. Da maior parte das pessoas que agitam esta ideia, que espero ter mostrado ser comprovadamente falsa, não espero que venham agora a público corrigir as suas afirmações. A não ser de um: Paulo Pinto de Mascarenhas. É o único caso em que vou ficar desapontado se aguardar em vão.
P.S. Diogo Belford Henriques faz várias perguntas sobre este assunto. Primeiro, quer saber os resultados das sondagens do CESOP vários meses antes das eleições de 2002 e 2005. Com todo o gosto. Em ambos os casos, os resultados confirmam a ideia de "late surge" (mas falamos apenas de duas eleições, e ver ponto 4 deste post). Em 2002, as duas sondagens imediatamente anteriores à última davam, respectivamente, 3% e 5%. Em Novembro de 2004, 3%.
Duas notas sobre isto. Primeiro, não tenho dados destes sobre as outras sondagens, pelo que não posso contextualizar isto. Também se passou o mesmo nas outras? Não sei. Segundo, não, este facto não sugere que se deva rever o "método da estimativa". A meses das eleições, quem faz sondagens quer medir intenções e, para além disso, apresentar os resultados de forma comparável aos de uma eleição para esclarecimento dos eleitores. Não quer e não deve "forçar" os resultados para que uma sondagem feita a meses das eleições dê supostamente os resultados que vão ocorrer meses depois, especialmente (ver mais abaixo) quando não faz a mínima ideia sobre como o poderia fazer. Claro que a dias das eleições também quer fazer o mesmo. Mas a diferença é crucial: a dias das eleições, há boas razões para supor que sondagens feitas exactamente ao mesmo tempo hão-de ser afectadas (ou não) pelas mesmas mudanças do eleitorado quando se trata de comparar as suas estimativas com resultados eleitorais. E boas razões para supor que, a dias das eleições, as mudanças que ocorram não serão tão dramáticas como as que podem ocorrer a meses ou mesmo semanas de distância. Daí que, nessas, faça sentido compará-las com resultados eleitorais, exigir-lhes precisão e indagar sobre razões que podem aumentar ou diminuir essa precisão. Nas outras, estas questões não se podem colocar da mesma forma, como o próprio Diogo reconhece.
Em segundo lugar, DBH quer conhecer as freguesias. Mando-lhas por e-mail.
Finalmente, permanece uma confusão que parece resistir a qualquer explicação, mas lá vai outra tentativa. Quando afirma que há um "padrão de subvalorização do resultado de um partido por um método de sondagem" e que "o normal seria questionar o método", DBH ignora o quadro que diz ter lido com júbilo: é que não se descortina um padrão de subvalorização do resultado do partido por razões metodológicas. Há sondagens onde o CDS é subestimado pela generalidade das sondagens, outras onde é sobrestimado. Casos onde sondagens presenciais (como a do CESOP) sobestimaram o CDS e outros onde o subestimaram. Casos onde sondagens telefónicas fizeram uma coisa ou outra. Etc, etc, etc. Eu gostava de saber o que está por detrás destes padrões, mas a não ser que me esteja a escapar algo, são erráticos.
As únicas coisas claras são:
1. Há mais casos onde as sondagens subestimaram o CDS-PP do que casos em que o tenham sobrestimado. É sobre isto que falava no post citado por DBH. Desconheço as razões. E como desconheço, não posso, nem ninguém em seu perfeito juízo pode, fazer correcções ad hoc para um fenómeno que é, de resto, muito menos frequente do que DBH sugere.
2. Quando há subestimação, o CESOP subestima quase sempre menos que a média das restantes,e várias vezes o faz dentro do erro amostral (ou seja, não se pode falar, nesse caso, de qualquer tipo de subestimação "real"). É isto, de resto, que mais me aborrece na leviandade dos comentários feitos por algumas pessoas do CDS-PP.
Repito: compreendo perfeitamente a frustração de alguém que trabalha num partido e se vê perante uma sondagem desfavorável. Mas o máximo que se pode pedir a quem faz sondagens é que use os melhores métodos que conhece para dizer ao público quais são as intenções de voto do eleitorado e outras opiniões prevalecentes num dado momento. Não se pode exigir que responda às frustrações dos partidos introduzindo correcções cegas e inadequadas em face de um track record passado e que não fornece suficiente informação, nem que queira, com sondagens, prever os resultados de uma eleição a um mês ou mais de distância.
E já agora, de outro ponto de vista: para quê tanto dramatismo? Se há sinais de que pode ter existido um late surge nas duas legislativas mais recentes é porque uma mera sondagem não teve os efeitos tão bombásticos que DBH lhe atribui. Ao dramatizarem agora este assunto e ao chamarem a atenção para ele, por vezes de forma tão evidentemente incorrecta e manipulativa (não é o caso do seu post, que agradeço), não estarão algumas pessoas do CDS-PP a criar precisamente aquilo que gostariam de evitar?
Desculpem a resposta tão longa. Sobre isto, estou convencido que não há mais a dizer da minha parte.

3 comentários:

José Mexia disse...

Caro Pedro Magalhães:
O PPM já lhe respondeu no seu blogue.
Eu aproveito também para lhe perguntar se não acha (honestamente e sem provocação) que era tempo de mudar a metodologia para apuramento de resultados em relação ao CDS?
Não leve a mal a pergunta, mas estou sinceramente intrigado com os resultados das últimas sondagens.
Cumprimentos

Anónimo disse...

Sexta-feira, Maio 01, 2009
Europeias. CESOP/Católica, 25-26 Abril, N=1244, Presencial.
PS: 39%
PSD: 36%
BE: 12%
CDU (PCP-PEV): 7%
CDS-PP: 2%
Outros: 2%
Branco/nulo: 2%

Mais detalhes aqui.
posted by Pedro Magalhães at 8:57 PM

17 Comments:
Nuno Gouveia said...
Caro Pedro,

Uma dúvida que tenho, e espero que me consiga ajudar a dissipar.

Qual a razão do CDS ter tido 2% na Intenção directa de voto, e depois na estimativa dos resultados eleitorais manter-se com os mesmos 2%.

Acredito que mais leitores que consultem a sondagem fiquem com a mesma dúvida que eu.

Obrigado e um Abraço

9:17 PM
Pedro Magalhães said...
Olá. Em relação ao total dos inquiridos, as intenções de voto no CDS representam 1,5%, ou seja, arrendondando, 2%. Em relação aos inquiridos que afirmaram ter a certeza que irão votar nas Europeias (456), são 10 (2,2%) aqueles que dizem que irão votar no CDS-PP. Assim duas explicações: por um lado, arrendondamento; por outro lado, o facto de as estimativas não usarem todas as intenções de voto, mas apenas as daqueles que dizem ter a certeza que irão votar.

10:37 PM
zemanel said...
Qual a explicação estatística para a diferença entre 40% de inquéritos na região norte e 32% de inquéritos em Lisboa e Vale do Tejo.
Penso que há aqui um enviesamento estatítico até porque a região Lisboa e Vale do Tejo é em si mesmo eleitoralmente heterógénea.

11:55 PM
Anónimo said...
Mas desses 456 não há indecisos, ou "não sabe"?

12:24 AM
DBH said...
desculpe, faltou assinar a pergunta:

DBH

12:25 AM
Pedro Magalhães said...
Sobre as regiões, a explicaçao é simples. Como a amostra foi estratificada, a única razão para que a distribuição não tivesse respeitado o peso relativo só podia ser uma: uma taxa de resposta diferencial, maior no Norte que em LVT. Olhando para o relatório de campo, foi exactamente isso que sucedeu. O leitor notará também ,claro, que houve ponderação pós-amostral, e que uma das variáveis de ponderação foi precisamente essa.

1:04 AM
Pedro Magalhães said...
456 que disseram ir votar de certeza E (manifestaram uma intenção OU inclinação de voto num qualquer partido OU intenção de votar em branco). Devia ter explicado melhor.

1:07 AM
Nuno Gouveia said...
Caro Pedro,
Obrigado pela explicação. É sempre bom saber por quem sabe :)
Um abraço

2:39 AM
Anónimo said...
Caro Pedro Magalhães,
Não lhe parece, no mínimo absurdo, apresentar a sondagem com 456 resultados obtidos. A Centro de Sondagens da Católica, que todos temos como a melhor "empresa" de sondagens de país, parece-me que meteu o pé na pôça.
Acha razoável apresentar a sondagem como amostragem nacional?

Sebastião Carlos

11:33 AM
Pedro Magalhães said...
Caro Sebastião Carlos,

Vou tentar, pacientemente, responder, ignorando o tom da sua mensagem. Os 456 são a sub-amostra de eleitores com as características acima. Não a amostra. A amostra de eleitores tem 1244 inquiridos. Nessa amostra, há gente que se declara abstencionista, que não responde, que não sabe. É muita, o que é normal para uma eleição europeias. O que sobra são 456. Pense nas sondagens que são feitas em Portugal com 600 inquiridos e pense no que sobrará daí. Ou da maior parte das sondagens feitas nos Estados Unidos, com 800-1000 inquiridos. Ficava mais contente se tomássemos em conta intenções de voto de pessoas que nos dizem nem tencionar votar? Isso sim seria, no mínimo, absurdo. E poça não tem acento circumflexo.

Cumprimentos,
Pedro Magalhães

12:14 PM
libertas said...
«A selecção aleatória das freguesias foi sistematicamente repetida até que os resultados
eleitorais das eleições europeias de 2004 e legislativas de 2005 nessas freguesias estivessem a menos de 1% dos resultados nacionais dos cinco maiores partidos»

Pode-se saber quais as freguesias? Se não, se são urbanas ou rurais?
A selecção foi feita pelo CESOP?

Carlos Carvalho disse...

Quatro factos, uma dúvida e uma sugestão:

- No quadro apresentado estão incluídas 6 eleições de índole nacional (4 legislativas + 2 europeias)

- O CESOP acertou em 3 (2 legislativas + 1 europeia).

- Quando falhou, subestimou.

- Os falhanços são mais recentes do que os acertos.

- Não sei se, neste contexto, será recomendável incluir no quadro eleições de índole local/regional.

- Julgo que, ao admitirmos um intervalo de confiança de 95%, estamos a admitir que uma sondagem em 20 estará enganada. Poderá ser esta. Está nas mãos do CDS demonstrar esse erro. Basta encomendar uma nova sondagem ao CESOP, e ver se os resultados se mantêm.