Margens de erro: 01/2005

segunda-feira, janeiro 31, 2005

Agradecimentos

Estou muito atrasado nos agradecimentos a quem mencionou a existência deste blogue e/ou o colocou na sua lista de links. E mais do que atrasado, receio já estar completamente perdido e poder esquecer alguém. Mas vou tentar. Obrigado ao Ávido, ao Latitude 33 Longitude 16, ao 2B, ao A Nódoa, ao Divas & Contrabaixos, ao snowgazestarkiss, ao Alhos Vedros ao Poder, ao Aquilo etc e tal , ao Vizir, ao Abrupto (cuja menção a este blogue elevou o número de visitas durante uns dias para valores estratosféricos), ao Resistente, ao Ma-Schamba, ao litanias 2.0, ao jantoniopedro, ao PUXAPALAVRA, ao Um dia na vida de... (um ex-aluno, mas quem exactamente? Gostava de saber), ao Aviz e a Os Tempos que Correm (neste caso, o ex-aluno sou eu...). E desculpem aqueles que poderei eventualmente estar a esquecer. Mas o Technorati, o Technorati...

domingo, janeiro 30, 2005

Como apresentar os resultados?

Na Praia, o Ivan coloca algumas questões interessantes:

Por que se extrapola das intenções de voto manifestadas agora (23% para o PS, 14% para o PSD) para resultados comparáveis com os de eleições (46% para o PS, 28% para o PSD)? Não faria mais sentido dizermos que, neste momento, há apenas 23% de eleitores que declaram ir votar no PS e 14% no PSD? Ao criar artificialmente percentagens similares a resultados eleitorais, a sondagem não cria uma ilusão sobre o que ao mesmo tempo, no blog, se diz ser impossível prever?

O Ivan não erra ao detectar a existência de um problema. Se quem faz as sondagens sabe que elas são apenas uma "fotografia" de um momento e não podem ser vistas como previsões, então, ao apresentar resultados como se de "resultados eleitorais" se tratassem, induz o público em erro. Eu sei que o problema existe. Mas acho que as alternativas são piores.

Explico-me. Imaginem que, em vez de apresentarem os seus resultados como se de resultados eleitorais se tratassem, todos os jornais apresentassem os resultados das sondagens que encomendam, digamos, em "bruto". Se assim fosse, teríamos, por exemplo, para o PS:

Marktest: 28.7%
Católica: 23%
Aximage: 43,3% (e é assim que de facto destacam o resultado)
Eurosondagem:42% (calculado na base dos 7,8% que reportam de "não sabe/não responde")
Euroteste: 40%

Esta comparação diz-vos alguma coisa? Claro que podíamos ir mais longe. Os "resultados brutos" da Católica e da Marktest calculam o voto do PS incluindo na base as pessoas que declararam abertamente não ir votar (15% na Católica, 6% na Marktest). Mas notem: a Aximage anuncia uma abstenção de 42,2%. Se só comparássemos resultados brutos, a comparação continuaria a não fazer sentido, porque a disparidade na abstenção é enorme (não me perguntem como a Aximage consegue que 42,2% das 600 pessoas inquiridas admitam aos seus inquiridores que não tencionam votar. Não faço ideia como isto se consegue).

Haveria ainda uma outra hipótese: fazer como a Aximage tem feito (e a Eurosondagem costumava fazer), dando destaque aos resultados calculados numa base que inclui os indecisos. Contudo, o problema continua: enquanto a Aximage apanha 9% de indecisos e a Eurosondagem 7,8% nas suas últimas sondagens, a Católica apanha 22% de indecisos e a Marktest 32% de "não sabe"/"não responde", disparidade que resultará, provavelmente e pelo menos em parte, de diferentes opções metodológicas. Logo, esse resultados continuariam a não fazer sentido para o público em geral do ponto de vista comparativo.

Assim, a solução correcta é, a meu ver, a que actualmente existe e é prevista na lei. Por um lado, todas as empresas têm de apresentar os seus "resultados brutos" (o que as pessoas lhes dizem quando lhes é perguntado se vão votar e em quem). É na base destes que o Ivan, e bem, tirou as conclusões que tirou. E podem também apresentar outros resultados, fazendo-o como muito bem entenderem, desde que expliquem claramente o que fizeram. Se a lei é de facto cumprida ou não, em particular no que respeita à publicação dos resultados brutos, é outro assunto, que diz respeito a esta instituição. Eu é que acho - e não obrigo ninguém a concordar comigo - que, para comparar as sondagens, tendo em conta o impacto que as variações metodológicas têm na percentagem de indecisos e de abstencionistas, os resultados brutos não chegam para dar uma ideia clara das diferenças entre as sondagens e da evolução dos seus resultados. E há uma coisa que tenho a certeza que não faz sentido: olhar para resultados eleitorais e compará-los directamente com sondagens que não redistribuem indecisos (ver aqui ou aqui).

Contudo, noto com satisfação que a última sondagem da Aximage teve uma apresentação de resultados distinta das anteriores. Como de costume, são apresentados os resultados com indecisos. Mas ficamos desta vez a saber qual é percentagem de indecisos, e é o próprio jornal que nos diz os resultados expurgados de indecisos, para que os possamos comparar com os resultados de outras sondagens. Isto não impede que o próprio responsável da Aximage exprima discordância com as pressuposições por detrás da redistribuição proporcional de indecisos. Tudo bem. Mas o problema não é saber qual o método de redistribuição de indecisos que melhor permite "prever" o que eles vão fazer. Nesta fase, não vale a pena fazer essas contas. O problema é simplesmente o de apresentar resultados que sejam comparáveis uns com os outros. E aqui, acho que não há alternativa, e que, desta vez, o Correio da Manhã e a Aximage fizeram bem.

É certo que o problema detectado pelo Ivan persiste. Será que quem olha para os resultados é sensível a todas estas subtilezas? Não creio. Será que, na prática, o público não acaba sempre por ser induzido em erro? Provavelmente. Mas acho que as alternativas são ainda piores.

Poll of polls V

Quando, num post anterior, dizia que "amanhã há mais uma", estava enganado. Houve mais três: a que eu já esperava (Eurosondagem, para RR, SIC e Expresso), uma da Marktest (para DN e TSF) e outra da Aximage (Correio da Manhã).

Os resultados, tal como destacados pelos órgãos de comunicação que as publicaram, são os seguintes (espero que os problemas de legibilidade apontados por alguns leitores fiquem assim resolvidos):

Tratados os indecisos como abstencionistas, para fins de comparabilidade entre os diferentes resultados e com resultados eleitorais, ficamos com o seguinte quadro, em que a média não ponderada dos últimos resultados é feita em relação às cinco sondagens mais recentes. O trabalho de campo delas esteve muito próximo no tempo e assim englobamos todos os resultados de todos os institutos/empresas que os divulgaram até agora:

Nada do que disse aqui sobre os resultados mudou com a introdução das três novas sondagens. As diferenças mais substanciais entre as sondagens não têm a ver com o PS, mas sim com o PSD: estimativas entre 27,7% e 36%. Sobre a questão PCP/CDS/BE, a Eurosondagem e a Aximage têm sido muito consistentes em colocar o BE depois dos outros, mas oscilam na ordem CDS/CDU. Estamos a falar, claro, de ordenações que não resistem se tomarmos em conta as margens de erro amostrais, mas a recorrência destes resultados reduz a probabilidade de que sejam meramente ocasionais. Quanto à Euroteste, a Católica e a Marktest, teremos de esperar por mais resultados para saber se também elas têm padrões recorrentes.

sexta-feira, janeiro 28, 2005

O PSD e as sondagens (continuação)

Santana Lopes lançou, esta quinta-feira, um aviso às empresas de sondagens, afirmando que vai pedir responsabilidades se as eleições de 20 de Fevereiro não corresponderem ao indicado nas consultas. O líder do PSD diz ainda que está montada uma «mega-fraude» para condicionar o voto.

quinta-feira, janeiro 27, 2005

Poll of polls IV

Com a adição das sondagens da Euroteste e da Católica, o quadro geral é o seguinte:

Como de costume, para tornar os resultados comparáveis entre si e com resultados eleitorais, são redistribuídos os indecisos das sondagens que não o fazem por iniciativa própria (procedimento contestável, eu sei, mas a meu ver necessário). Por razões já explicadas, a última da Aximage não é considerada.

1. Resultados relativamente seguros (na medida em que são comuns a todos os estudos):

*Neste momento, PS como o partido com maiores intenções de voto. Olha a grande novidade.

*Neste momento, PS acima dos 40%. Mais interessante, se bem que desde 1983 que o PS não ganha com menos de 40% (44,6% em 1995; 45% em 1999);

* Impossível saber ordem de CDS-PP, CDU e BE: mudanças de sondagem para sondagem, discrepâncias entre sondagens dos mesmos institutos e diferenças entre os partidos, na maior parte dos casos, abaixo da margem de erro. Isto é muito mais interessante. Desde 1995 que as diferenças reais entre o voto no CDS-PP e no PCP são muito reduzidas, tão reduzidas que não se podia, em bom rigor, pedir às sondagens que respondam à pergunta sobre qual deles teria mais votos. Mas que o BE se junte a este campeonato é uma novidade.

2. Incertezas resultantes do confronto entre as sondagens:
*A margem do PS: entre 19 pontos (Aximage, 10 Janeiro) e 8 pontos (Euroteste, 27 de Janeiro). A diferença é demasiado grande para ser acomodada na margem de erro amostral, nem parece explicada pela passagem do tempo.

*A percentagem de indecisos: para quem os reporta, variou entre 8% e 22%. Creio que isto é fruto da dicotomia telefónica/presencial. Não acredito, pura e simplesmente, em 8%, por razões que já expliquei.

* Maioria absoluta: nem vale a pena falar do tema. Mas ponhamos a coisa assim, cheia de pontos de interrogação, aspas e sinais de luzes: se usarmos a experiência da Eurosondagem, já descrita aqui, e aplicarmos o resultado da poll of polls IV, o PS acaba (sem contar com Europa e Fora da Europa) com...115 deputados.

3. Dúvidas existenciais (ou seja, algumas fontes de erro que podem ser comuns a todas as sondagens):

*Ocultação diferencial da intenção de voto na direita. A do CDS já foi aqui especulada. A outra possível está no PSD. Sabe-se, desde aqui, que percepções vistas como dominantes (neste caso, a da má prestação do governo liderado por Santana Lopes) podem induzir segmentos do eleitorado a sentirem-se inibidos de revelar opções e atitudes vistas como minoritárias;

*"Sinceridade" vs. "Estratégia": o outro lado da ocultação diferencial de voto é dizer que votamos num partido, com o qual até se simpatiza e no qual sinceramente se votaria, mas que acaba por ser abandonado perto das eleições em favor de opções mais estratégicas. Três palavrinhas: Bloco de Esquerda.

*Abstenção diferencial: a grande némesis das sondagens. Nas sondagens, quase toda a gente vota. Chega o dia e, desses, só votam alguns. E esses alguns não são necessariamente iguais àqueles que declaram opções de voto que depois não se realizam. Quem são eles? Por enquanto, nem vale a pena pensar nisso. Mais sobre o assunto mais perto das eleições...

E amanhã há mais uma...

Católica, 27 de Janeiro

Divulgados hoje na RDP e RTP e amanhã no Público, estes são os resultados que foram mais destacados da sondagem da Católica:

PS: 46%
PSD: 28%
CDU:8%
BE:8%
CDS-PP:6%
OBN: 4%

A forma como estes valores foram obtidos, de forma a serem directamente comparáveis a resultados eleitorais, foi a seguinte. Os resultados "brutos" (a distribuição das respostas directas das pessoas a quem foi perguntado se iriam votar e, se sim, em que partido votariam) foram estes:

PS:23%
PSD: 14%
CDU(PCP/PEV): 4%
BE: 4%
CDS/PP: 3%
Outros partidos: 1%
Brancos/nulos: 4%
Não tenciona votar: 15%
Não sabe/não decidiu: 22%
Recusa responder: 11%

A partir daqui, a pressuposição foi a de que os declarados indecisos se vão abster ou distribuir proporcionalmente pelas opções válidas de voto. Pressuposição razoável? Para já, confesso que não me interessa muito. Esta estimativa não visa prever resultados - proposta absurda a quase um mês das eleições e 20% de indecisos - mas é apenas uma maneira de descrever as intenções de voto tal como foram expressas pela amostra no passado fim de semana de uma forma comparável com resultados eleitorais. Quando estivermos mais perto das eleições, os objectivos serão diferentes, a análise dos resultados brutos terá também de mudar, e o tratamento de indecisos e votantes prováveis carecerá de afinação. Mas para já, ficamos assim. A única operação adicional foi a de tomar apenas como válidas as opções "branco/nulo" que tivessem sido reafirmadas numa questão posterior sobre "inclinação de voto", para evitar óbvias sobrestimações resultantes do recurso ao "branco/nulo" como opção de refúgio de indecisos ou abstencionistas.

Que mais posso dizer sobre a sondagem em si? Como as sondagens feitas até agora foram todas telefónicas, tenho enfatizado até agora os potenciais problemas do uso do telefone como modo de inquirição. Mas agora que sai esta - em que a inquirição foi presencial - importa ver os problemas do outro lado. É certo que dispensar o telefone faz com que o universo representado passe a ser composto por todos os eleitores, quer vivam em domicílios com telefone fixo ou não. Para além disso, a inquirição presencial gera menos recusas, recusas essas que são a primeira séria facada sofrida por qualquer tentativa de geração de uma amostra aleatória (dado que, com as recusas, o universo representado passa a ser não o dos eleitores, mas sim o dos eleitores "que não se importam de responder a sondagens", e que serão provavelmente diferentes dos outros). Creio, aliás, que esta é a chave para a diferença brutal entre a percentagem de "indecisos" captados por esta sondagem (22%) e as restantes (10%). For my money, 10% é uma grande subestimação daqueles que ainda não decidiram, especialmente quando sabemos, através da sondagem da boca das urnas de 2002, que 15% afirmou ter decidido a sua opção de voto na última semana...

Contudo, a inquirição presencial usada nesta sondagem da Católica também tem desvantagens muito importantes. Por um lado, ela impede o grau de monitorização do trabalho de campo que a telefónica permite. Numa sondagem telefónica, os inquiridores estão sentados em frente a um computador e usam um software que os "guia" de forma rigorosa na condução das entrevistas e no preenchimentos das respostas. Quando se envia inquiridores para o "campo", tudo se torna muito mais incerto, por muita que seja a formação que se dê. O cumprimento das regras de amostragem e a sujeição de todos os inquiridos a estímulos semelhantes está muito menos garantida numa sondagem presencial.

Para além disso, olhem bem, amanhã no Público, para a ficha técnica: os inquiridores da Católica foram a 19 freguesias do país. 19, em 4621. O objectivo de qualquer procedimento de amostragem descreve-se numa frase: não perder variância potencialmente relevante. Ora, com um telefone, a dispersão dos inquiridos pelo território é fácil, dentro dos limites da ligação dos domicílios a telefones fixos. Contudo, quando se levam inquiridores a localidades espalhadas pelo país, há um dilema: "dispersão" vs. "tempo/dinheiro". O dinheiro tem limites, e o tempo, nestas coisas, é sempre reduzido: ao contrário do que sucede num inquérito "académico", onde geralmente o que conta é medir dimensões mais ou menos estáveis dos valores e atitudes dos indivíduos, não faz sentido demorar duas semanas a fazer um inquérito cujo objectivo é descrever mutáveis intenções de voto. Mas há um preço a pagar por isto, que pode ser muito elevado: só se pode ir a poucos sítios, e em pouco tempo. Claro que se tenta mitigar o problema garantindo, através da estratificação, que localidades e inquiridos se encontram proporcionalmente dispersos por habitat e regiões da mesma forma que a população. Outra coisa que se faz, neste caso, é assegurar que, preservando a aleatoriedade, as freguesias escolhidas tendem a exibir, no seu conjunto, um comportamento eleitoral semelhante ao do país. Mas 19 em 4621? Vale a pena meditar no assunto.

Por estas e outras razões, esta sondagem não vos deve merecer, em abstracto ou à partida, nem maior nem menor credibilidade que qualquer outra. Deve merecer a credibilidade que resulta da relação entre os procedimentos que usa e a realidade que está a tentar captar. Se a segunda fosse estável, seria fácil descobrir quais os procedimentos "óptimos". Mas como não é, a incerteza permanece.

Euroteste, 27 de Janeiro

Uma nova sondagem, desta vez da Euroteste e publicada pela Visão. Os resultados destacados pela revista são os seguintes:

PS:40%
PSD:32%
CDS-PP:6%
BE:5%
CDU:4%
Outros, brancos, nulos:3%
Indecisos:10%

Tudo explicadinho e completo, sem casas decimais. A sondagem foi feita pelo telefone, no Continente, com 800 entrevistas estratificada por idade, sexo, habitat, região, ocupação e voto em 2002 (ou seja, combinando estratificação com quotas).

A notícia, para além de fornecer outras informações interessantes sobre questões adicionais às da intenção de voto, insiste na ideia de que o PS está longe da maioria absoluta. Mas não me parece que seja bem assim. Ou melhor, se é assim ou não é coisa que a que a sondagem não responde cabalmente.

Porquê? Porque se fizermos com que estes resultados se tornem comparáveis a resultados eleitorais, ou seja, eliminando os indecisos da base de cálculo percentual, os resultados ficam assim:

PS:44%
PSD:36%
CDS-PP:7%
BE:6%
CDU:4%
OBN:3%

E se pegarmos nestes números e fizermos a brincadeira da Eurosondagem descrita aqui anteriormente (com todas as limitações que o exercício tem), o PS fica com...113 deputados. Não me parece muito longe. Ou seja:

- os 40% do PS na sondagem só seriam 40% de votos se todos os indecisos votassem em partidos que não o PS;

- logo, se eles exprimissem de facto intenções de voto firmes até ao dia das eleições, é provável que o PS tivesse algo mais do que 40%.

Assim, a ideia de que este resultado significa ver a maioria absoluta por um canudo é contestável, da mesma forma que a ideia contrária também o seria. Eu sei que as pessoas querem certezas e coisas definitivas, mas o método não as dá.

Quanto à poll of polls, esperem até mais logo. Porque logo sai outra sondagem, e assim vemos tudo de uma vez.

quarta-feira, janeiro 26, 2005

Delgado e as sondagens

Descontando o facto de Campo de Ourique não ser uma freguesia ou de as últimas sondagens nas eleições americanas terem, em média, falhado as previsões da margem de vitória de Bush por apenas 0,7% (aquilo que de mais próximo temos de um "milagre" para quem faz sondagens eleitorais) o artigo levanta questões interessantes.

terça-feira, janeiro 25, 2005

Vamos lá ao assunto do CDS...

Por que razão tendem as estimativas de resultados publicadas antes das eleições pelas diferentes empresas de sondagens a subestimar aquela que acaba por ser a votação do CDS-PP? A primeira e única resposta categórica a esta pergunta é simples: não sei. Mas tenho alguns palpites.

1. Manipulação propositada? Não me parece. Tudo é possível, claro. Mas reparem no seguinte: 1999 foi o ano a partir do qual o CDS começou a ser sistematicamente subestimado nas sondagens. Teve 8,2% dos votos na Europeias, mas todas as sondagens lhe deram menos. A sondagem que lhe deu menos foi feita pelo IPAM (Instituto Português de Administração de Marketing, creio), que lhe deu 3,9%, numa sondagem publicada pelo Diário Económico. A que lhe deu mais foi a Eurosondagem (7,3%), numa sondagem publicada pelo Semanário. Nas legislativas de 1999, o CDS-PP voltou a ser subestimado por todos. Quem lhe deu mais foi (outra vez) a Eurosondagem (muito próximo da realidade, com 8,2%), outra vez para o Semanário. Mas quem mais "prejudicou" o CDS-PP nas legislativas de 1999 foi, desta vez, a Aximage, numa sondagem para a SIC/Visão. Nas legislativas de 2002, a Eurequipa, trabalhando para o Independente, deu-lhe 9,1%. Todos os outros subestimaram os votos do CDS-PP, especialmente a Intercampus, numa sondagem para o Jornal de Notícias.

Detectam algum padrão que sugira manipulação? A acreditar nisso - e eu, friso, não acredito - pode haver quem queira sugerir que ela está presente nos resultados menos desfavoráveis dados por jornais "de direita" (Semanário; Independente). Mas notem que, nas legislativas de 1999, o Independente publicou uma sondagem da Metris que também "prejudicava" o CDS-PP (7%, contra os 8,2% que realmente teve). Em resumo, não me parece que a teoria da manipulação tenha pernas para andar.

2. Amostragem. Como descrito em post anterior, há quem use amostragens aleatórias, há quem use quotas e há quem use combinações das duas. E o próprio modo de inquirição pode ter consequências indirectas na amostragem: sondagens telefónicas tendem a gerar amostras, obviamente, representativas da população residente em domicílios com telefone fixo, o que por sua vez tende a sub-representar populações rurais e mais isoladas (sendo por isso mesmo mais frequente encontrar a utilização de quotas nas telefónicas...).

E aqui as coisas começam a fazer algum sentido. (Quem não tiver paciência para a estatística pode agora saltar três linhas): corri uma regressão linear muito simples com a inquirição (telefónica vs. presencial) e a amostragem (aleatória vs. quotas) como variáveis independentes, e os desvios cometido pelas 34 sondagens pré-eleitorais feitas desde 1991 que apresentaram estimativas para o CDS (últimas sondagens publicadas antes das eleições) como variável dependente. Resultado: se é verdade que a amostragem não faz diferença, as telefónicas tendem a apresentar um desvio sistemático e estatisticamente significativo contra o CDS (nada disto sucede com as estimativas dos restantes partidos).

3. Mas porquê? A razão pode não ter a ver apenas com a redução da população representada àquela que reside em domicílios com telefone fixo. Uma das coisas que uma sondagem face-a-face permite fazer é uma simulação de voto em urna, através da qual o inquirido não tem de revelar a sua opção de voto ao inquiridor. Infelizmente, não é possível estimar por que razão as sondagens face-a-face são menos desfavoráveis ao CDS. E isto sucede porque quase todas as últimas sondagens publicadas antes das eleições e realizadas face-a-face são, também elas, simulações. Por outras palavras: não sabemos se as sondagens presenciais subestimam menos o CDS por não serem telefónicas ou por serem simulações.

4. Mas ambas as coisas podem contar. O meu palpite é que o eleitorado do CDS tende a ocultar o seu sentido de voto, mais do que o eleitorado dos restantes partidos. Reparem: nas eleições de 2002, o CDS foi subestimado pelas sondagens pré-eleitorais, em média, em 2,4%. Curiosamente, no inquérito pós-eleitoral realizado pelo ICS em 2002, a recordação de voto no CDS (2 semanas depois das eleições) foi subestimada em..2,1%. Eu sei que são muito poucas observações para podermos tirar grandes conclusões, e é por isso que comecei o post dizendo que, em rigor, "não sei" por que razão o CDS é subestimado. Mas um palpite plausível é que, antes ou depois das eleições, há uma parte do eleitorado do CDS-PP "que nem às paredes confessa"...

Pode haver renitência em assumir que se é "de direita" num contexto ideológico e cultural no qual, devido ao passado autoritário, a direita saiu deslegitimada. E alguma razão haverá para que, antes dos anos 90 (antes de Manuel Monteiro e Paulo Portas), nunca tenha havido qualquer problema de "subestimação" do CDS . Se havia partido que era subestimado nos anos 80 e até meados dos dos anos 90, esse partido era o PCP (a "cultura da clandestinidade").

5. Há outra hipótese interessante, mencionada (indirectamente) aqui. Segundo este estudo, os eleitores do CDS são aqueles que mais afirmam "mudar de partido conforme a sua opinião em cada acto eleitoral". A Marktest sugere que "o CDS vai voltar a surpreender nas próximas eleições e, seguramente, pelas mesmas razões". Mas a minha sugestão é que, se é verdade que o CDS-PP pode surpreender, também é verdade que o pode fazer num ou noutro sentido. Sabe-se que a distância ideológica entre os eleitores do PSD e do CDS é reduzida, e que a sua decisão de voto tem muito a ver com a imagem dos líderes e outros factores conjunturais (em vários capítulos, aqui). Mas isso indica, então, que o destino do CDS como partido "subestimado" nas sondagens não está fechado. O CDS pode ter um late surge. Mas também pode ser especialmente vulnerável ao voto útil, ou seja, tendo um late decline. Tudo depende de como as coisas correrem no desfecho da campanha.

6. Não acredito muito que esta "volatilidade" de curto prazo no voto CDS seja a principal razão da sua subestimação nas sondagens. O ponto 4. anterior, se verdadeiro, ajuda a apoiar esta ideia. Não nego a hipótese de que, em 2002, tenha havido um late surge a favor do CDS-PP. Mas se ele fosse muito significativo para este efeito, não se perceberia por que razão uma sondagem pós-eleitoral tenderia a subestimar o CDS tanto como as sondagens pré-eleitorais. E certamente verificaríamos uma tendência para que sondagens feitas mais perto das eleições subestimassem menos o CDS, ou fossem, em absoluto, mais precisas na estimação do voto no partido. Essas tendências não existem.

E pronto, é tudo o que me ocorre. Em resumo, o meu palpite é que a subestimação do CDS se deve a:

- subrepresentação (ou deficiente representação) do eleitorado rural nas sondagens telefónicas;

- ocultação diferencial por parte dos inquiridos da sua intenção de voto no CDS-PP.

Agora façam o favor de não presumir que o voto no CDS-PP em 2005 será aquilo que as sondagens dizem "mais uns dois e tal por cento". Há duas razões para não cometer esse erro, entre muitas: os institutos de sondagens sabem onde erram, têm palpites sobre as fontes desses erros e tomam medidas correctivas; e se o ponto 5. servir para alguma coisa, ele sugere que o CDS pode rapidamente passar de "subestimado" a "sobrestimado". Estou só a avisar...

O centro

Isto parece muito interessante. Haverá algum jornal a pegar nisto?

segunda-feira, janeiro 24, 2005

Uma boa/má notícia

Num post anterior, fiz referência a uma análise dos resultados das sondagens pré-eleitorais feitas em Portugal, disponível aqui. Contudo, acabo agora de saber que essa análise foi aceite para publicação aqui, e sou obrigado, por razões de copyright, a retirá-lo do site do ICS. Lamento, e peço muita desculpa a quem fez links para o estudo. Mas enfim, já tive notícias piores...

Aleatoriedade e quotas, teoria e prática

Num post anterior, sobre uma das sondagens realizadas nos últimos tempos, escrevi aqui que "se a amostra foi seleccionada de forma a que os indivíduos que a compõem se distribuam pelo território e em termos das suas características socio-demográficas e socio-políticas (sexo, idade, instrução, actividade e anterior comportamento eleitoral)" a amostra não pode ser aleatória, e terá sim de ser por quotas.

Recebi um comentário onde se aponta uma incorrecção a esta afirmação. Segundo esse comentário, eu estaria a confundir o conceito de "estratificação" com o conceito de "quotas". Estratificar significa dividir a população em sub-grupos na base de uma variável cuja distribuição "real" (na população) se julga conhecer. Mas isso, claro, não impede a selecção aleatória. Significa apenas que, por exemplo, se eu souber que 52% da população é composta por mulheres, eu tenho de me assegurar que 52% da minha amostra é seleccionada aleatoriamente entre as mulheres dessa população, e que 48% será seleccionada aleatoriamente entre os homens dessa população. Isto não é uma amostragem por quotas, mas sim uma amostragem estratificada aleatória.

Pois é, é verdade. Mas gostava de recordar outras coisas que também são verdade. Se eu souber à partida como se distribui territorialmente a população eleitora, eu posso de facto assegurar-me que os inquiridos na minha amostra estão distribuídos de forma proporcional à distribuição da população pelo território, quer faça sondagens telefónicas quer as faça face-a-face. Mas o que sucede quando se trata se seleccionar inquiridos em cada domicílio e garantir ao mesmo tempo que a sua selecção acaba por cumprir critérios socio-demográficos ou socio-políticos de estratificação? Tenho duas hipóteses:

1. Usar um critério aleatório de selecção do inquirido em cada domicílio (o último aniversariante, o próximo aniversariante, ou outro critério qualquer). Se eu fizer isto, mesmo que volte a bater à porta dessa casa ou a telefonar várias vezes para esse número para tentar encontrar o indivíduo aleatoriamente seleccionado sem o substituir por outro, é óbvio que, a certa altura, vou ter de desistir de encontrar todos os aleatoriamente seleccionados. E quando isso acontecer, é altamente improvável que a distribuição da minha amostra por sexo, idade, instrução ou anterior comportamento de voto reflecta a distribuição real da população. Para ser mais concreto, é muito provável que, por exemplo, vá ter menos indivíduos dos 18 aos 34 anos e com mais de 65 anos, assim como menos homens, do que deveria em face da população. Se se considerar que isto é um problema (e pode não ser, depende daquilo que se quer descrever e explicar), é possível "ponderar" os resultados. Ou seja, podem dar-se pesos diferentes a indivíduos com características diferentes de modo a que, na base daquilo que se sabe acerca da população, se possa aumentar aritmeticamente o peso dos grupos sub-representados na amostra e diminuir o peso dos grupos sub-representados.

2. Contudo, pode-se fazer outra coisa. Não sei quais as características de cada pessoa que vive em cada domicílio, nem tenho uma lista de todos os eleitores de acordo com o seu sexo, instrução, idade ou comportamento de voto em eleições anteriores. Mas como sei quais são as características da população a nível agregado (INE, resultados eleitorais), posso estabelecer objectivos, um número de inquiridos que quero ter em cada subcategoria. Posso mesmo começar por usar um critério aleatório de selecção dos inquiridos em cada domicílio. Mas vai chegar uma altura em que já tenho, por exemplo, todos os "homens", com "idades entre os 35 e os 44 anos", com "instrução primária" e que tenham "votado no PS nas eleições anteriores" de que necessito para que a minha amostra represente esse grupo em proporção ao que se conhece da população. E agora: o que sucede quando, aleatoriamente, se volta a encontrar uma pessoa com as mesmas características? Se o incluir na amostra, estou de facto a fazer selecção aleatória, mas vai-me acontecer novamente o que descrevi no ponto anterior. Contudo, posso seguir outro caminho: não o entrevistar, substituindo-o por outro inquirido que tenha as características que me faltam representar na amostra.

Sucede que, esta segunda hipótese - lamento informar- não é amostragem aleatória. É amostragem por quotas. A combinação entre estratificação e aleatoriedade exige que se conheça à partida o estatuto de todos os membros da população nas variáveis de estratificação. Para uma sondagem nacional, isto é (relativamente) fácil de fazer quando se trata de localização territorial, segundo regiões ou dimensão das localidades, por exemplo. Contudo, é impossível de fazer quando se usa, por exemplo, o comportamento de voto anterior como variável de estratificação: não existem listas separadas das pessoas que votaram neste ou naquele partido em 2002, que contenham informação sobre a sua segregação residencial por comportamento de voto, e de onde se possa extrair aleatoriamente os inquiridos em proporção ao seu peso na população. A não ser, claro, que a amostra seja extraída de um painel previamente construído, composto por indivíduos cujas características são conhecidas à partida e na base das quais se possam ir extraindo sub-amostras "aleatórias". Mas se assim fosse, ficaria muito surpreendido (para não dizer chocado) se a ficha técnica da sondagem omitisse essa crucial informação.

Para terminar: não é drama nenhum usar quotas. Há vantagens e desvantagens. E a verdade é que as sondagens tendem a exibir uma combinação de métodos distintos. Mesmo as que usam amostragem por quotas quando se trata de seleccionar inquiridos não deixam de seleccionar domicílios ou localidades aleatoriamente. Os americanos têm enormes preconceito contra as quotas, especialmente desde as catastróficas sondagens que previram a vitória de Dewey sobre Truman em 1948. Mas como assinala um pollster..

"Virtually all public opinion surveys conducted in the United States since then [1948]– whether conducted face-to–face or by telephone – have used some modified version of probability (or random) sampling. Indeed, for American researchers quota sampling is almost a dirty phrase. The situation in Europe has been quite different. The great majority of face-to-face opinion surveys, including election surveys, conducted in France, Germany, Italy, the United Kingdom and other European countries have used some form of quota sampling, with the interviewers given considerable latitude to find and select respondents who fit the quota cells (usually based on sex, age, one or two socio-economic factors and other variables). Giving the interviewers this freedom to select whom to survey is unacceptable in the United States, but the European quota method has worked reasonably well over many years and has been widely accepted, not only by practitioners and their clients but also by many European academic researchers – something which Americans find very puzzling."(1)

O que convém é chamar as coisas pelos nomes que elas têm.

(1)Taylor, H. (1998). "Opinion Polling", in C. McDonald e P. Vangelder (eds.) ESOMAR Handbook of Marketing and Opinion Research, Amsterdam.

sábado, janeiro 22, 2005

A "descida" do PS

Com a adição da sondagem da Aximage, a nossa lista de sondagens publicadas fica assim:

Desta vez, não há poll of polls IV. A razão é simples. Da última vez que uma sondagem da Aximage foi divulgada sem ser apresentada a percentagem de indecisos, presumi aqui, para efeitos de comparabilidade com outras sondagens e com os resultados eleitorais, que essa percentagem de indecisos era igual à da sondagem anterior. Contudo, desta vez, o texto diz explicitamente que a percentagem de indecisos diminuiu, mas não sabemos para quanto. Logo, é impossível apresentar os resultados com os indecisos redistribuidos.

Isto implica também que algumas frases no artigo que acompanha a sondagem têm de ser vistas como incorrectas ou, pelo menos, como potencialmente induzindo os leitores em erro. Isso sucede quando se diz, sobre os 7,1% obtidos pelo CDS nesta sondagem, que se trata de "um resultado que coloca o CDS-PP muito próximo dos oito por cento obtidos nas eleições legislativas de 2002"; ou quando, sobre o resultado da CDU (6,2%), se diz ser "um resultado muito semelhante ao obtido nas eleições legislativas de 2002". Quando se escreve assim, está-se a presumir que os resultados da sondagem são comparáveis como resultados eleitorais. Não são. Ao valor de 7,1% do CDS na sondagem corresponde um valor superior em termos de estimativa de intenção de voto. Só não sabemos quão superior, porque a Aximage e o Correio da Manhã não fornecem a informação necessária sobre a percentagem de indecisos.

Dito isto, um dos temas que começa a emergir é o da "descida" do PS. "PS mais longe da maioria", era o destaque de ontem no Correio da Manhã. Na SIC Notícias, Mário Bettencourt Resendes glosava o mesmo tema, falando de "uma descida nas últimas sondagens" para depois parafrasear Mark Twain dizendo que "as notícias da morte política de Santana Lopes são exageradas". E até aqui se sugere a mesma ideia.

Isto é curioso, por diversas razões. Até pode ser verdade que a intenção de voto no PS esteja a diminuir, seja por desmobilização de anteriores apoiantes, seja pela mobilização de anteriores indecisos ou abstencionistas a favor de outros partidos, ou até (menos provável) por transferências do PS para outros partidos. Contudo, a sondagem da Aximage, apesar das aparências, não autoriza essa interpretação. Como se vê no gráfico seguinte, onde as linhas intermitentes marcam as fronteiras superior e inferior das intenções de voto no PS na última sondagem quando se toma em conta a margem de erro amostral com um grau de confiança de 95% (pressupondo que a amostra foi puramente aleatória, o que, ainda por cima, não foi verdade), estes 42,8% podem mesmo significar, na realidade, um aumento em relação as sondagens anteriores (tal como podem significar estabilidade ou até uma descida mais abrupta do que aquela que é directamente visível). A verdade é que, com apenas uma sondagem a indicar uma descida (a não ser que me tenha passado alguma ao lado), a ideia que há uma "descida" do PS carece de qualquer sustentação empírica.

Isto leva-nos para aspectos e discussões mais interessantes do que as ligadas às características técnicas das sondagens ou à sua capacidade para fazer boas inferências descritivas. Esta prevalecente interpretação da sondagem da Aximage como indicando uma descida do PS (tal como a interpretação da anterior sondagem da Eurosondagem sobre a "subida" do BE) corresponde não àquilo que ela diz mas àquilo que os comentadores e analistas acham que está de facto a acontecer (e, nalguns casos, àquilo que desejam que aconteça). Não posso ter a certeza, mas palpita-me que, se a sondagem dissesse o contrário, seria provavelmente desvalorizada, porque não estaria a confirmar aquilo que os observadores da vida política captam com as suas "antenas". E o mais curioso é que, mesmo que acabe por se verificar uma descida do PS, nunca saberemos se ela foi real ou se os votos do PS estavam sobreestimados nas sondagens feitas até agora, ou mesmo se o facto de essa descida ser assim anunciada contribuiu para mudar as expectativas dos eleitores e, logo, as suas intenções de voto (uma self-fulfilling prophecy)

Logo, há muito para discutir sobre as sondagens para além dos seus aspectos técnicos. Mais do que um instrumento de medida da opinião pública, elas devem ser vistas como um fenómeno comunicacional, cujos "números" - seja porque contêm grandes margens de incerteza, seja porque podem ser interpretados de várias formas (algumas erróneas), seja ainda porque diferem de sondagem para sondagem - carecem frequentemente de um sentido objectivo. Elas têm apenas o sentido subjectivo que o discurso dos media lhes quiser dar. E é muito provável que isto tenha consequências reais nos comportamentos.

Mas não me interpretem mal: por acaso, eu também acho que o PS está a descer. Em parte, porque os valores que lhe têm sido atribuídos desde Dezembro têm estado, provavelmente, sobreestimados. E também porque, confesso, Sócrates me faz lembrar Durão Barroso em 2002: "sabe" que vai ganhar, mas desconhece "quanto" poder vai ter, não sabe bem o que vai fazer com ele e aquilo que sabe julga não poder contar a ninguém. E todos nos lembramos como foi a campanha de 2002: uma sondagem da Aximage em Dezembro de 2001 dava nada mais nada menos que 16% de vantagem do PSD sobre o PS...

Aximage, 21 de Janeiro

Mais uma sondagem, divulgada ontem (6ª feira, dia 21), feita pela Aximage para o Correio da Manhã:

PS: 42,8%
PSD:28,7%
CDS-PP:7,1%
CDU:6,2%
BE:4,3%

A soma dá 89,1%. Faltam aqui 10,9% de os indecisos/"não sabe" e de "outros, brancos e nulos". Quantos de cada? O Correio da Manhã e a Aximage não nos dão o prazer de conhecer essa informação. Sabemos apenas, através do artigo no jornal, que "o número de indecisos baixou", but that's it.

quinta-feira, janeiro 20, 2005

O PSD e as sondagens (adenda)

Quando falei do assunto aqui, não tinha ainda visto o novo outdoor do PSD com atenção. Agora de passagem na 2ª circular, já o pude ver melhor. De facto, as sondagens usadas são do Expresso. E são-no propositadamente: está lá escrita qualquer coisa como "até o Expresso nos mostra a subir". Está em letra pequenina, sendo também duvidoso que isto passe por algo mais do que uma indecifrável private joke para muitos eleitores, mas pronto. Está resolvido um dos mistérios.

Mas este outdoor continua a ser uma uma espécie de riddle inside a mystery wrapped in an enigma, como o velho Winston dizia da Rússia. Então não é que lá aparece 39,3% como sendo o resultado dado pela sondagem do Expresso em Janeiro de 2005? Que sondagem? Se falamos do resultado do PSD, esta sondagem, publicada a 15 de Janeiro, não foi com certeza. E esta, divulgada uma semana antes, também não. Ou será que o cartaz soma os resultados do PSD e do PP nesta sondagem? Deve ser isso. A conta dá certa, e se não fosse assim os resultados não podiam ser comparados, como o são no cartaz, com os das eleições europeias.

Mas se então é disto que se trata, que parte da "subida" poderá ser atribuída ao PSD ou ao CDS-PP? E o que achará o próprio CDS-PP deste cartaz? Tudo isto é fascinante.

P.S.- Obrigado aos dois leitores que me chamaram a atenção para o assunto.

quarta-feira, janeiro 19, 2005

Agradecimentos e mensagens de e-mail

Mais menções simpáticas e inclusões em listas de links que gostava de agradecer. Obrigado ao UniverCidade, a O Esquema, ao Any Given Night, à Grande Loja do Queijo Limiano, a O Bico de Gás, a O blogue do Koelhone, ao respublica, ao espiral virtual, ao A ilha do dia antes, ao Universos Críticos, ao A Esquina do Rio, ao Marasmo do Caos, ao portugalidades, ao Portugal dos Pequeninos e ao Quinto Império. Espero não me ter esquecido de ninguém.

Quanto às mensagens, fiz uma promessa que agora constato não poder cumprir (ou não estivéssemos em período eleitoral): a de dar respostas "lentas mas seguras". Lentas certamente, mas seguras...Tenho na caixa algumas dezenas de mensagens às quais, receio, não conseguirei responder individualmente. Mas leio-as todas. Muitas delas vão levantando questões e temas importantes que tentarei discutir aqui. Logo, se tiverem paciência, não desistam.

Regra de três, simples (mas longo)

Num post que coloquei aqui há algum tempo - "Exercício técnico-científico" - sugeri que a projecção de deputados publicada no Expresso no dia 8 de Janeiro não poderia, dada a dimensão da amostra e o seu método de selecção, estar baseada em sub-amostras representativas dos diversos círculos eleitorais. Mas faltou-me explicar como, afinal, a projecção terá sido feita. Na altura não tinha a certeza absoluta, e precisei de fazer umas experiências para confirmar. Mas posso agora dizer-vos com segurança em que consistiu o tal "exercício técnico-científico" do Expresso: numa regra de três simples.

Qualquer pessoa que tenha tempo, paciência e o Excel pode fazer a experiência:

1. Obtenham os resultados dos diversos partidos (pode ser em percentagem) nas eleições de 2002 a nível nacional.

2. Obtenham os resultados dos diversos partidos nas eleições de 2002 em cada um dos círculos eleitorais.

3. Usem os dados de uma sondagem com uma amostra representativa da população eleitora nacional.

4. E agora repitam comigo:
"O resultado do PSD nas eleições de 2002 a nível nacional está para o resultado do PSD nas eleições de 2002 no círculo x como o resultado do PSD na sondagem para as eleições de 2005 estará para o resultado do PSD nas eleições de 2005 no círculo x".

5. Desta forma, temos:

Resultado PSD no círculo x em 2005=Resultado PSD sondagem 2005*Resultado PSD no círculo x em 2002/Resultado PSD a nível nacional em 2002

6. Agora repitam para todos os partidos e para todos os círculos.

7. Na base dos resultados em cada círculo, apliquem o método de Hondt.

8. Somem os deputados.

E já está: uma projecção de deputados na base de uma sondagem sobre intenção de voto nas eleições de 2005 feita a uma amostra representativa do eleitorado nacional. Com a sondagem publicada no Expresso em 8 de Janeiro, a projecção que daqui resulta (sem contar com os círculos Europa e Fora da Europa) é o seguinte:

PS: 118 deputados
PSD: 84 deputados
CDU:12 deputados
CDS: 7 deputados
BE: 5 deputados

Se forem confrontar com o que apareceu no jornal, verificarão que estes resultados encaixam nos intervalos que foram apresentados. Essa apresentação em intervalos resulta, suponho, do facto de, nalguns casos, pequenas variações nas percentagens estimadas para cada círculo na base desta regra de três simples causarem imediatamente mudanças na distribuição dos deputados, especialmente nos círculos de maior dimensão (que distribuem mais deputados).

Este exercício parte de duas pressuposições. A primeira é a de que os resultados da sondagem de intenções de voto nas eleições de 2005 são um bom retrato das intenções de voto da população no momento em que a sondagem foi feita. Mas se isso é ou não verdade é um problema enfrentado por qualquer sondagem, e não é um problema da projecção propriamente dita. A segunda pressuposição - esta sim, crucial - é a de que as mudanças verificadas no comportamento de voto entre 2002 e 2005 a nível nacional serão proporcionais às mudanças verificadas entre 2002 e 2005 em cada um dos círculos. Por outras palavras: pressupõe-se que há diferenças estáveis, estruturais, entre os diversos círculos eleitorais no que respeita aos padrões de comportamento de voto, e que as mudanças ocorridas entre duas eleições são transversais a todos os círculos, repercutindo-se proporcionalmente em cada um deles.

Uma maneira simples de avaliar a bondade destas pressuposições consiste em fazer um pequeno teste. Imaginem que não sabiam os resultados eleitorais em cada círculo em 2002 mas conheciam:

1. Os resultados nacionais de 1999;
2. Os resultados nacionais em 2002;
3. Os resultados por círculo em 1999.

Agora, podem "prever" os resultados por círculo em 2002 com base na regra de três simples e comparar os resultados desta previsão com aquilo que realmente sucedeu. A "previsão" seria a seguinte:

PSD: 101 deputados
PS: 100 deputados
CDS:15 deputados
CDU:11 deputados
BE: 3 deputados

O que aconteceu na realidade foi isto:

PSD: 105 deputados
PS:96 deputados
CDS:14 deputados
CDU: 12 deputados
BE:3 deputados

O que falhou na "previsão"? Em Viana, o CDS perdeu o deputado que tinha em 1999, ao contrário do que seria previsível. Em Lisboa, o PS foi menos punido (e a CDU mais) do que se poderia esperar na base dos resultados a nível nacional. Em Santarém foi o inverso. Em Setúbal, o PSD foi mais longe do que esperaria, em detrimento do PS. Em Évora, a CDU preservou um deputado, que se esperaria perdido na base dos resultados nacionais. E nos Açores, na Madeira, e no círculo fora da Europa, o PS foi desproporcionalmente castigado.

Há várias conclusões que se podem tirar daqui. A primeira é: nada mau. É claro que as pressuposições do modelo são irrealistas, e que há factores e dinâmicas locais que fazem com que as mudanças de uma eleição para a outra não se repercutam da mesma forma em todo o lado. Mas esse irrealismo, que faz com que as estimativas percentuais "previstas" se desviem daquelas que acabam por acontecer, pode não afectar a projecção de deputados de forma muito grave. Especialmente nos círculos mais pequenos, desvios percentuais que podem parecer importantes acabam por ser irrelevantes do que respeita à distribuição de deputados pelo método de Hondt. E como vimos anteriormente, erros verificados nuns círculos acabam por ser compensados por erros na direcção oposta noutros círculos.

É claro que esta interessante e inocente brincadeira, quando usada, talvez devesse ser explicada com algum detalhe, em vez de apresentada de forma um bocadinho pomposa como sendo um "exercício técnico-científico". E espero que seja também evidente que tudo isto depende crucialmente de uma coisa: as estimativas feitas para a intenção de voto em 2005. Tirem uns pontinhos ali e ponham outros acolá, mesmo que sejam só aqueles que decorrem da margem de erro amostral, e vão ver como a projecção muda completamente. E quando a principal questão consiste em saber se um determinado partido vai ou não ter uma maioria absoluta...

segunda-feira, janeiro 17, 2005

Mais agradecimentos

Ao miniscente, ao Jornalismo e Comunicação, ao Semente, ao Ilhas, à Lâmpada Mágica, ao Almocreve das Petas, ao dias estranhos e ao Vento Norte.

O CDS e as sondagens: another teaser

Entretanto, quer através de mensagens de e-mail recebidas, quer aqui (e aqui), há um tema cuja discussão se começa a impôr: a sistemática desvalorização do CDS nas sondagens pré-eleitorais. O tema é complicado e ando a adiar a coisa, mas prometo que lá irei.

O PSD e as sondagens

Sábado passado, dia de divulgação de uma sondagem pelo Expresso (já aqui tratada), o Secretário-Geral do PSD desafiou todos os partidos a divulgarem o nome das empresas que para eles realizam sondagens, "a bem do rigor, seriedade e credibilidade" e para que, "de uma vez por todas se perceba quais as empresas que um dia trabalham para os jornais e, no outro, trabalham para os partidos" (a notícia do Público assinala que Miguel Relvas se escusou a divulgar no nome das empresas que trabalham para o PSD, mas a verdade é que o fez em frente às câmaras da SIC Notícias: são, segundo o Secretário-Geral do PSD, a Euroteste e a Eurequipa).

Estas declarações vêem no seguimento de muitos outros posicionamentos do PSD sobre este tema, tais como:

- a proposta de proibição de realização de sondagens ou inquéritos de opinião sobre matérias eleitorais a entidades cujos detentores do capital social, membros dos órgãos sociais ou directores ou responsáveis técnicos sejam ou tenham sido membros de partidos políticos nos últimos três anos;

- a preocupação do actual Primeiro-Ministro, quando era ainda candidato à Câmara de Lisboa, com a divulgação de sondagens pela Eurosondagem "em resposta" a uma sondagem da Euroteste (ver aqui);

- a intenção manifestada pelo PSD em 2002 de publicar um "Livro Negro das Sondagens em Portugal", revelando a forma como, "desde 1991, o PSD tem sido invariavelmente prejudicado" nos resultados.

Como não sou jurista, vou deixar de lado a possibilidade da proposta do PSD, prevendo a incompatibilidade entre a militância partidária e a realização de sondagens, ser inconstitucional, quer pelo lado da limitação de direitos políticos quer pelo lado de limitação da liberdade de escolha de profissão. Também não creio que valha a pena perder muito tempo com o argumento de o PSD ter sido invariavelmente prejudicado pelas sondagens. Se quiserem confirmar a invalidade da acusação, olhem para aqui (.pdf). E de resto, o prometido "Livro Negro" acabou por nunca ser publicado, o que por si só já quer dizer alguma coisa.

O que me intriga é outra coisa: o que faz o PSD supor que o consumo de energias e tempo de antena com esta monomania é eleitoralmente compensador? Num estudo de 2002, realizado pelo ICS, 73% dos inquiridos afirmavam ter "pouca" ou "nenhuma" confiança nos partidos, enquanto que apenas "44% deles afirmavam ter "pouca" ou "nenhuma" confiança nos institutos de sondagens. Bem ou mal, justas ou injustas, as percepções são estas. E posto isto, o que pensa o PSD poder ganhar ao chamar ainda mais a atenção para resultados que lhe são manifestamente desfavoráveis, e nos quais os eleitores parecem confiar mais do que nos próprios partidos? Mistério.

E há outro mistério que gostava de decifrar. Ontem, depois de atravessar o viaduto Duarte Pacheco na direcção de Lisboa, julguei vislumbrar um novo outdoor do PSD onde se mostrava um gráfico com os resultados de várias sondagens, indicando uma linha ascendente do PSD (repetindo, aliás, outdoor semelhante já usado nas autárquicas por Santana Lopes). Pareceu-me que uma das sondagens cujos resultados visavam validar esta curva ascendente era uma sondagem do Expresso. Da Eurosondagem. Não pode ser. De certeza que vi mal. Ou não?

Teaserzinho II

Como podem ver no Público, os resultados da sondagem de que falei há dias não são muito surpreendentes, especialmente se tivermos em conta os resultados de estudos anteriores. Contudo, os números, se não surpreendem, continuam a impressionar:

- só 16% dos inquiridos afirmam ter alguma vez contactado directamente com um deputado do seu círculo eleitoral;

-mais de metade dos inquiridos afirma não saber o nome de algum deputado ou deputada que tenha sido cabeça de lista por algum partido no seu círculo eleitoral;

- cerca de 75% dos inquiridos afirmam “concordar” ou “concordar completamente” com as afirmações de que “os políticos só estão interessados nos votos das pessoas e não nas opiniões delas” ou que “os partidos criticam-se muito uns aos outros, mas no fundo são todos iguais”;

- 55% dos inquiridos concordam com a ideia de que “sejam quais forem os resultados das eleições, isso acaba por não fazer grande diferença no curso dos acontecimentos”.

A falta de conhecimento de (e contacto com) os deputados por parte dos eleitores leva-nos para uma discussão complicada sobre o sistema eleitoral, para a qual houve mais mais um contributo interessante ontem [se bem que a diferença entre o que sucede em Portugal e o que sucede em sistemas eleitorais onde os deputados são total ou parcialmente eleitos em círculos uninominais seja muito menos dramática do que possa parecer à primeira vista. Ver aqui (.pdf)].

Mas 55% dos eleitores a pensarem que os resultados das eleições não fazem grande diferença no cursos dos acontecimentos... O que impressiona não é tanto a possibilidade dos eleitores estarem enganados. É a possibilidade de que tenham razão.

domingo, janeiro 16, 2005

Flickr

Já deu para perceber que o Flickr, onde tenho até agora alojado os quadros com os resultados das sondagens, nem sempre se porta bem...Peço desculpa a quem tem sucedido esperar em vão pelo aparecimento dos quadros. Vou ver se arranjo outra solução.

sábado, janeiro 15, 2005

Poll of polls III

A série de sondagens divulgadas nos media desde o anúncio da dissolução da Assembleia resulta no seguinte quadro, que apresenta os resultados tal como destacados pelos órgãos de comunicação social, ordenando as sondagens da mais recente para a mais antiga:

Redistribuidos os indecisos, pressupondo a sua abstenção (ou a sua redistribuição proporcional pelas restantes opções) e feita a média das três sondagens mais recentes ficamos com o seguinte quadro.

Nada de novo. Nem sequer em relação ao Bloco de Esquerda, cuja alegada "subida" alimentou algum debate no Expresso da Meia-Noite ontem na SIC Notícias. Mas reparem no seguinte:

1. Na anterior sondagem da Eurosondagem, o BE teve 4,5% de intenções de voto. Desta vez, teve 5,7%.

2. Contudo, a anterior estimativa do BE tem associada uma margem de erro de 0,9%. Isto significa que, se a anterior sondagem tivesse sido feita na base de uma amostra puramente aleatória, haveria 95% de chances de que as intenções de voto reais no BE na população estivessem entre 3,6% e 5,4%. E nem estamos a contar com erro não amostral.

3. Nesta última sondagem, a estimativa do BE tem associada uma margem de erro de 1,4%. Há assim 95% de chances de que as intenções de voto reais na população estejam entre 4,3% e 7,1%.

4. Assim, o BE passa de 3,6-5,4% para 4,3-7,1%. Isto é uma subida? Não faço a mínima ideia.

É claro que, se a estimativa pontual do BE aparecer de novo a subir para a casa dos 5-6% numa próxima sondagem (da mesma forma como o CDS passou da casa dos 4-5% para a casa dos 6-7%desde as primeiras sondagens da Aximage ou da Eurosondagem), a probabilidade de termos assistido a algo casual diminui um pouco. Mas por enquanto, a afirmação de que a intenção de voto no BE aumentou tem tão pouca sustentação empírica que seria melhor não a fazer.

Eurosondagem, 15 de Janeiro

Mais uma: Eurosondagem, publicada no Expresso de 15 de Janeiro, realizada também para a SIC e a Rádio Renascença. Resultados tal como destacados no jornal:

PS: 45,7%
PSD: 32,5%
CDU: 6,5%
CDS:6,5%
BE: 5,4%

A soma dá 96,6%. Os restantes 3,4% deverão corresponder aos outros partidos, brancos e nulos. Os indecisos já estão fora disto, dado que se assinala no jornal que estes resultados decorrem de "um exercício meramente matemático, presumindo que os 7,9% que responderam 'Não sabe/Não responde' se abstêm".

Não me vou repetir sobre as malditas casas decimais...

sexta-feira, janeiro 14, 2005

Teaserzinho

Eu também tenho o meu teaser: fizemos ontem na Católica uma sondagem para a última edição do Prós e Contras na RTP e para o Público. É sobre as eleições, é telefónica e tem uma amostra de dimensão modestinha (655). Mas as perguntas não são sobre intenção de voto nem sobre nada que exija uma precisão acima do convencional. São sobre:

- o grau de interesse dos portugueses pela política;

- se alguma vez tiveram um contacto directo com algum deputado do seu círculo eleitoral (a coisa está formulada de forma a não perder um único contacto seja com quem tenha sido);

- se sabem o nome de algum cabeça de lista de algum partido que alguma vez tenha concorrido em eleições passadas no seu círculo eleitoral;

- e se concordam ou discordam com uma série de items normalmente usados em estudos de cultura política, sobre, por exemplo, se os políticos se interessam pelas opiniões das pessoas, se os partidos são todos iguais ou sobre até que ponto as eleições são importantes para mudar os curso dos acontecimentos.

Tenho os resultados à minha frente, mas não os posso dar aqui antes de o Público o fazer, o que acontecerá na próxima 2ª feira. Contudo, o teaser é este: a eminente previsibilidade dos resultados obtidos (estão alinhados com os resultados de anteriores inquéritos) não chega para mitigar o enorme choque que eles produzem.

Limites e virtudes da "poll of polls"

Tenho recebido vários e-mails, todos invariavelmente amistosos. Estou aliás a ponderar se a minha renitência em permitir comentários aos posts deste blogue (motivada pelas horripilantes experiências a que tenho assistido noutros blogues) não será injustificada.

E outra coisa interessante é que tenho recebido mensagens de pessoas que parecem perceber realmente de Estatística. Para compreender o que esse "realmente" quer dizer bastará dizer que percebem muito mais do que eu. Nos cursos de Ciência Política aprendem-se umas coisas, com a prática e as leituras outras, mas saber é saber. Quando começo a ouvir falar em "heterocedasticidade", a mente começa-me a ficar ligeiramente turva.

Isto para dizer que recebi uma amável mensagem onde se faz uma observação a algo que escrevi antes: que fazer uma poll of polls, uma média dos resultados obtidos por diferentes sondagens em momentos próximos do tempo, ajudaria a "cancelar" o erro amostral. A observação é a seguinte:

Já agora faço um ligeiro reparo à sua observação sobre a "Poll das Polls": Não seria o erro de enviezamento (não amostral) que tenderia a anular-se quando se comparam sondagens com diferentes formatações de processos amostrais? É que a Distribuição Amostral da Variância (erro amostral) deve (penso eu) ser uma variável independente nos dois processos amostrais seguidos pelas empresas em causa, pelo que constituiria um factor de agravamento no cômputo do Erro Aleatório Total da (digamos) Sondagem Consolidada...

Ora muito bem. Expliquei-me certamente mal, e pode até suceder que, por muito bem que me consiga explicar, continue a estar fundamentalmente enganado. Mas o que penso estar correcto é o seguinte:

1. Se o erro associado a uma estimativa sobre uma distribuição na população for meramente erro "não sistemático", "amostral", aquele que resulta de usar apenas uma parte (amostra) dessa população para fazer inferências, a média obtida tendo como base um número infinito de amostras extraídas no mesmo momento da mesma população com os mesmos procedimentos de amostragem deveria convergir para a média da população. Estou correcto?

2. Sabemos, claro, que:
- não temos um número infinito de amostras;
- elas não são extraídas no mesmo momento;
- os procedimentos de amostragem são diferentes;
- os questionários são diferentes.

3. Contudo, mesmo que usemos um número não-infinito de amostras recolhidas em momentos próximos no tempo e com dimensões diferentes (são três - bem sei - violações aos pressupostos anteriores) e façamos a média dos resultados obtidos, não estaremos nós, no entanto, a continuar a contribuir para reduzir o erro amostral? Não é como se estivéssemos, simplesmente, a aumentar a dimensão da amostra?

4. Parece-me a parte do erro que que as médias nunca servem para corrigir é o erro sistemático. Por exemplo: se todas as sondagens forem telefónicas, e se houver algo que faça com que os eleitores que não tenham telefone sejam substancialmente diferentes dos restantes, fazer a média não corrige o erro sistemático (enviesamento) que daí decorre. Outro exemplo: se houver um factor socio-político que leve a que potenciais eleitores de um determinado partido ocultem mais as suas opções aos inquiridores do que potenciais eleitores de outro partidos, posso fazer um número infinito de sondagens que não é isso que me vai eliminar essa fonte de erro. O erro sistemático aparecerá em todas as sondagens e, logo, também na média.

5. Dito isto, aproximando-me agora do autor da mensagem, há quem defenda que, se não tivermos quaisquer expectativas acerca de que procedimentos de amostragem e inqurição melhor ajudam à eliminação de fontes de erro sistemático, calcular a média simples de sondagens que utilizam metodologias de amostragem e inquirição substancialmente diferentes é uma maneira de o reduzir. Isto porque há trade-offs que fazem com que a eliminação de algumas fontes de erro sistemático através de determinados procedimentos leve ao aparecimento de outras, pelo que a média tende sempre a ser a melhor estimativa. Ver, por exemplo, Armstrong, J. Scott (2001), "Combining Forecasts," in J. Scott Armstrong (Ed), Principles of Forecasting, Norwell, Kluwer;

6. E dito isto, os problemas na nossa poll of polls mantêm-se: são muito poucas, são muito espaçadas no tempo e, a acreditar no Sr. Armstrong, não utilizam procedimentos suficientemente diversos. Mas quanto mais não seja - e é talvez isso que deveria ter dito desde o princípio - a "poll of polls" dá-nos a capacidade de comparar as sondagens entre si por meio de um referencial fornecido pela média de todas elas.

Terei razão no todo ou em parte desta argumentação? Estou bem menos que 100% seguro, ou não fosse o título deste blogue aquele que é. Vejam, por exemplo, a animada discussão que se seguiu a este post do Mistery Pollster sobre o assunto. Gostava muito de ouvir mais "estatísticos a sério" - e eu não pertenço à classe - pronunciarem-se sobre isto...

quinta-feira, janeiro 13, 2005

E obrigado ainda

À Inês (informando-a que este não foi trazido ao mundo por mim, mas sim por alma caridosa cuja identidade desconheço), ao food-i-do, ao Salvos e Afogados, aos (In)separáveis, ao Nortadas, ao Picuinhices, à Rua da Judiaria, ao Felgueiras Blog, ao ABsurdo Ponto, ao Ponto Media, a O Vilacondense, ao Perguntas Pertinentes (havemos de falar sobre internet polls), ao Resistente Existencial, ao Blogue de Esquerda, a A Fonte, ao André (e ao Daniel, e ao Pedro, e restantes barnabitas), ao Opiniões Facciosas, ao Abnoxio, ao Dito Cujo, ao Briteiros, ao Sentidos da Vida, ao Cartas de Londres, a os estados da nação, ao acanto, ao cibertúlia, ao Fumaças, ao Atrium e ao Homem a Dias (tenho um amigo que resume admiravelmente a minha carreira académica como consistindo em "fazer essas tretas do qui-quadrado").

Vou tentar não esquecer ninguém, mas confesso que continuo baralhado com o Technorati.

quarta-feira, janeiro 12, 2005

Poucos mas bons? (longo)

Quando se olha para os quadros dos posts anteriores, é impossível não se pensar no número reduzido de sondagens eleitorais que se publica em Portugal: apenas 6 passado mais de um mês após o anúncio da dissolução da AR, e a pouco mais de um mês das eleições. Não é preciso que nos comparemos com exemplos estratosféricos para perceber isso (tais como este). Basta ir a Itália.

Porquê? Suponho que há três razões fundamentais:

1. Recursos. Estas coisas são caras, especialmente se não forem feitas pelo telefone, e o tempo para a imprensa é de vacas magras. E mesmo que os media estivessem cheios de dinheiro, os institutos/empresas carecem eles próprios dos recursos necessários para fazerem trabalhos de qualidade com grande frequência. É aliás frequente que as sondagens sejam feitas para consórcios, mesmo formados por jornais ou canais de televisão sem ligação empresarial directa (Expresso/SIC/RR; RTP/RDP/Público), para fins de repartição de custos. E até acontece que um órgão de comunicação anuncie os resultados de sondagens encomendadas por outros, prática que não me parece censurável em si mesma mas é totalmente impensável noutros países.

2. Risco e reputação. Sem ter dados concretos, julgo saber que - em parte pela razão anterior- os estudos eleitorais conduzidos para os jornais e as televisões constituem uma parcela ínfima do volume de negócios da maior parte dos institutos/empresas de sondagens em Portugal. Esse é composto, na sua maioria, por estudos de mercado e de audiências, seguidos provavelmente pelas sondagens feitas para partidos (cujos resultados raramente vêm a público).

Contudo, há uma grande desproporção entre esse (reduzido) peso das sondagens eleitorais na actividade dos centros e a (enorme) exposição pública a que os sujeitam. Isto levanta problemas. Para quem olha para isto de fora, as eleições têm a vantagem singular de constituirem a única ocasião em que as inferências feitas na base de uma amostra podem ser imediatamente confrontadas poucos dias depois com os comportamentos da população. Mas para quem olha para isto de dentro, isto pode ser uma desvantagem: um trabalho que corre mal (e pode correr muito mal, mesmo que se faça tudo "bem" do ponto de vista metodológico) pode ser fatal para a reputação de uma empresa que, na verdade, não vive de sondagens eleitorais, mas sim de outras áreas de trabalho.

Como resultado, com a passagem do tempo, só tende a ficar nesta área quem simultaneamente se sente seguro de dispor dos recursos técnicos e materiais suficientes para fazer consistentemente um bom trabalho e/ou (e este "e/ou" é importante, porque os casos variam) tem um nível de dependência maior da área eleitoral do que de outras áreas de negócio.

3. Regulação. Apesar de todos os problemas que persistem, a mudança na lei das sondagens de 2000 veío contribuir para tornar o mercado menos selvagem. A partir daí, os institutos/empresas passaram a carecer de credenciação especial da Alta Autoridade para a Comunicação Social para trabalharem nesta área, uma credenciação cuja concessão depende da satisfação de um conjunto de exigências técnicas e de continuidade de trabalho. Como resultado, por exemplo, o fenómeno das empresas que de repente apareciam a fazer sondagens antes das eleições para logo de seguida voltarem à obscuridade tem, ele próprio, vindo a desaparecer (uma curiosidade: sabiam que uma empresa chamada Compta já fez sondagens? Na última sondagem que fez antes das eleições legislativas de 1995 - publicada no Semanário no dia 16 de Setembro - dava o PS e o PSD com "empate técnico").

Resultado: poucas sondagens eleitorais. Mas é possível argumentar que a perda de quantidade levou a um aumento geral da qualidade. Quando olhamos para as sondagens feitas antes das eleições de 2002, acho que é impossível não constatar que, afinal, o público não terá sido muito mal servido. E se tiverem (muita) paciência, olhem para aqui: desde o início dos anos 90 até hoje, a precisão das estimativas eleitorais feitas em Portugal melhorou bastante. Quem ficou faz, em geral, bom trabalho, apesar das inúmeras deficiências que persistem na forma como os resultados são divulgados.

(Sei que não terei convencido muita gente sobre este último ponto, mas prometo insistir com dados mais concretos em posts futuros).

Mais agradecimentos

E obrigado também, pelas referências e palavras amáveis, ao Mau Tempo no Canil, ao Tugir, ao Adufe, ao Causa Nossa, ao Intermitente, ao Paulo Gorjão, ao Contra Santana, ao Uma Campanha Alegre, ao Linha do Horizonte, ao Blasfémias, ao Tempestade Cerebral (que coloca "a mãe de todas as perguntas" sobre as sondagens eleitorais, à qual prometo tentar responder em breve), ao Incursões, ao Speakers Corner Liberal Social, ao meu estimado colega Rogério Santos, ao ...Blogo Existo, ao Amicus Ficaria , ao Devaneios Lusos, ao Quando-O-Blog-Bate-mais-Forte, ao Maré Alta, ao Terra do Sol, ao Luciano e, last but certainly not least, ao outro Pedro Magalhães. Quanto aos mails recebidos, o que posso prometer é que a resposta vai ser lenta mas segura.

terça-feira, janeiro 11, 2005

Obrigado

Ao Ivan, à Desassossegada e ao Filipe (e ao Pula Pula Pulga pela inclusão nas leituras).

Poll of Polls II

Com a nova sondagem da Aximage, o panorama geral desde o anúncio de dissolução do parlamento passa a ser o seguinte:

Fazer a poll of polls, com resultados que sejam comparáveis entre si e, para melhor compreensão intuitiva, com resultados eleitorais, torna-se complicado quando não se divulgam como se repartem indecisos e votos válidos. Mas façamos a pressuposição - sempre questionável - que a percentagem de indecisos nesta sondagem da Aximage foi igual à encontrada na sondagem anterior: 7,8%. Ficamos assim, após redistribuição, com as seguintes estimativas:

Não há novidades substanciais. Começa a notar-se uma tendência para que a Aximage estime vantagens mais dilatadas para o partido vencedor do que a Eurosondagem, mas as diferenças estão ainda dentro do que seriam as margens de erro caso todas as sondagens fossem verdadeiramente aleatórias. E estamos ainda dentro do reino das "telefónicas" e de métodos - escolhidos ou por mim "impostos" - simplesmente proporcionais de redistribuição dos indecisos. Aguardemos...

Aximage, 10 Janeiro

Não há fome que não dê em fartura. Dois dias depois da sondagem do Expresso, saiu ontem (2ª feira) uma nova sondagem eleitoral no Correio da Manhã, pela Aximage, que até já mereceu comentário no Causa Nossa. Resultados apresentados:

PS: 45,6%
PSD:27,5%
CDU:6,6%
CDS: 6,6%
BE: 3,4%

Alguns comentários técnicos:

1. Escuso de me alongar muito sobre o que significa usar uma amostra de 600 inquiridos e apresentar resultados com casas decimais (ver post sobre sondagem anterior).

2. Qual é a margem de erro desta sondagem? Há duas respostas para esta pergunta:

a. A primeira resulta da ficha técnica: "desvio padrão máximo de 0,020". Entenderam? Não? Eu também não. Há anos que a Aximage apresenta esta informação na sua ficha técnica, e estou convencido que isto há-de querer dizer qualquer coisa de relevante que eu só não compreenderei por desconhecimento. Mas permitam-me que especule imodestamente que, se eu não sei o que isto é, deverá haver muita gente que também não sabe. Uma ficha técnica deve dar informação compreensível por quem quer saber mais sobre a sondagem, e não me parece que isto satisfaça essa condição.

b.Há uma segunda resposta possível, claro, para a questão sobre a margem de erro: não é possível calculá-la. Se não vejamos. A ficha técnica descreve o método de amostragem da seguinte forma: "aleatória estratificada por região, habitat, sexo, idade, actividade, instrução e voto legislativo". O que isto significa é que, na base de informação do INE, a amostra foi seleccionada de forma a que os indivíduos que a compõem se distribuam pelo território e em termos das suas características socio-demográficas e socio-políticas (sexo, idade, instrução, actividade e anterior comportamento eleitoral) de forma semelhante à população eleitoral em geral. Mas se isto foi assim, então a amostra não é aleatória. A partir do momento em que escolhemos quem inquirimos não na base de um método de selecção aleatório (por exemplo, a próxima pessoa fazer anos) mas sim na base de características individuais que se querem ver representadas na amostra numa determinada proporção, a amostra passa a ser por quotas. E a amostragem por quotas não tem margem de erro, ou melhor, tem uma margem de erro indeterminada, pelo simples facto de que o cálculo da margem de erro pressupõe aleatoriedade na selecção.

Não quero com isto criticar a amostragem por quotas, tema complicado e que merece grande debate. Nem estou a dizer que a margem de erro se pode calcular para todas as amostras que se dizem "aleatórias". Mas se a Aximage não quer dizer - com razão - a margem de erro, por que razão vem com a conversa do "desvio padrão"? E por que designa a sua amostra como "aleatória"? Admito, repito, que seja ignorância minha, mas por isso mesmo gostava um dia que me ajudassem a decifrar este mistério.

3. A soma dos resultados apresentados é 89,7%. O que são os 10,3% que faltam? Outros partidos? Votos brancos ou nulos? Inquiridos que dizem não saber em que partido votariam? Inquiridos que recusam responder à pergunta?

O Correio da Manhã escusa-se a fornecer-nos essa interessante informação. Depois de ter visto ontem os resultados na net, fui hoje de manhã comprar a edição de ontem do jornal só para me certificar. E confirma-se: não ficamos a saber como se distribuem os tais 10,3%.

Os efeitos disto do ponto de vista da interpretação substantiva dos resultados não são propriamente dramáticos. Se esse 10,3% fossem todos "outros, brancos ou nulos", o PS apareceria com 18% de vantagem sobre o PSD. Se fossem todos"indecisos", a sua redistribuição proporcional pelas restantes opções válidas de voto passaria essa vantagem para 21%. E devo dizer também que sei bem, por experiência própria, que entre a informação que os institutos de sondagens enviam aos jornais e aquilo que acaba por ser publicado há, por vezes, algumas falhas.
Mas espero que se começe a perceber uma das coisas mais preocupantes no panorama das sondagens em Portugal: os standards adoptados para a divulgação dos resultados são, em geral, pura e simplesmente miseráveis. Se não acreditam, vejam como deveria ser.

domingo, janeiro 09, 2005

"Exercício técnico-científico"

Não posso deixar de comentar a projecção de deputados da sondagem no Expresso de 8 de Janeiro. Queria começar por dizer que a Eurosondagem tem tido boas prestações quando se confrontam as suas sondagens com aqueles que acabam por ser os resultados das eleições (melhor nas sondagens pré-eleitorais, mais vacilante nas sondagens à boca das urnas). E que acho que o Rui Oliveira e Costa tem intuição para estas coisas. E quando a intuição se confirma várias vezes, deixa de ser intuição para se tornar saber propriamente dito.

Contudo, a projecção de deputados avançada no dia 8 - "exercício técnico-científico realizado por Rui Oliveira Costa" - é um bocado assustadora. Se não vejamos:

1. Os deputados são eleitos por círculo. Logo, para calcular deputados eleitos, precisamos de amostras representativas de cada um dos círculos para obter boas estimativas percentuais, não das intenções do total dos eleitores portugueses, mas sim das intenções dos eleitores em cada círculo.

2. Para ter não mais de, digamos, 5% de margem de erro (e pode já ser muito) em cada círculo, uma amostra aleatória tem de ter, pelo menos, 380 inquiridos.

3. Portugal tem 20 círculos, sem contar com Europa e Fora da Europa.

4. Logo, para ter estimações dos resultados de cada círculo com menos de 5% de margem de erro em cada um necessitamos de 7600 inquiridos.

5. Mas esta sondagem foi feita com cerca de 2000 entrevistas.

6. Claro que se pode dar a volta ao texto não indo a alguns círculos e pressupondo que as tendências que se apanham naqueles a que se vai se vão aplicar àqueles onde não se vai. Pode-se até usar algumas freguesias-tipo e, digamos, rezar para que o continuem a ser. Não sei se isto foi feito. Pelo menos, nada disto é dito no Expresso.

7. Acresce que, a acreditar na ficha técnica, a escolha dos inquiridos nesta sondagem respondeu a uma estratificação por região: o peso na amostra dos inquiridos em cada região foi proporcional à distribuição da população eleitora por regiões.

8. Isto significa que 2,6% dos inquéritos foram feitos na Madeira. São 56 pessoas. E que 2,3% foram feitos nos Açores. 46 inquiridos. E que as estimativas feitas para os círculos de Évora, Beja, Faro e parte de Setúbal foram feitos com os inquiridos na região Alentejo e Algarve. São 8,9%, 179 inquiridos.

"Técnico-científico"? Até pode dar certo. Mas só por mero acaso.

sábado, janeiro 08, 2005

Poll of polls

Coloquemos agora esta última sondagem no contexto das anteriormente publicadas. Foram quatro: duas também da Eurosondagem e duas da Aximage para o Correio da Manhã (uma delas sem ficha técnica, pelo menos na net). Digo "quatro" porque tudo o que se publicou antes do anúncio da dissolução da Assembleia (incluindo uma sondagem da Católica e outra da Marktest pouco tempo antes) não conta: perguntar aos portugueses em que partido votariam caso houvesse eleições quando não há eleições à vista é como perguntar-lhes o que fariam caso eclodisse a III Guerra Mundial. Não sabem, nem lhes interessa.

Vejamos então os resultados tal como destacados pelos órgãos de comunicação, da mais recente para a mais antiga:

Não sei se já perceberam a dificuldade: estes resultados não são comparáveis entre si, e nem todos são comparáveis com resultados eleitorais. Isto sucede porque a Aximage só divulga resultados com indecisos, abdicando sempre de apresentar resultados comparáveis com resultados eleitorais. Isto resulta de uma convicção dos seus responsáveis de que as sondagens são apenas "descrições" de intenções de voto num determinado momento e nunca devem ser vistas como previsões nem sequer comparadas com resultados eleitorais.

Voltaremos a este assunto, mas o certo que é, das duas, uma: ou ignoramos a Aximage (o que seria uma pena) ou fazemos aquilo que se faz em todo o lado há muitos e bons anos nestes casos*:a fim de tornar as sondagens comparáveis entre si e os seus resultados mais intuitivos para o público em geral (ou seja, comparáveis com resultados eleitorais), redistribuem-se os indecisos proporcionalmente quando os responsáveis das sondagens não tomam decisões sobre o que fazer com eles. Ficamos assim com as seguintes estimativas:

Como vêem, as sondagens são menos discrepantes entre si do que parecia no quadro anterior e as diferenças entre os partidos nas sondagens conduzidas em momentos próximos no tempo estão (ainda) dentro das margens de erro. A única tendência desde o início de Dezembro parece ser (surprise, surprise) a subida do CDS-PP (de 5,5 para 6,3 na Eurosondagem e de 4 para 7 na Aximage). Tudo o resto é, para já, trendless (se bem que cinco sondagens não cheguem para trend de espécie alguma) E tudo indica uma vitória confortável do PS, com percentagens que apontam para a maioria absoluta.

Na primeira linha está então a nossa poll of polls, a média das três sondagens mais recentes, que actualizarei regularmente. Tem um interesse, reconheço, limitado, pelo menos em comparação com o que sucede noutros países: em Portugal fazem-se muito poucas sondagens, e a vantagem das médias ("cancelar" o erro aleatório) não se realiza tão bem como desejaríamos. Mas fica a indicação.

Inquietações? As do costume. Primeiro, falta mais de um mês, e sabe-se bem como é volátil o eleitorado português, como são tardias as decisões de muitos eleitores e como são importantes os desempenhos dos líderes partidários nas campanhas, pelo menos para alguns partidos (especialmente à direita...). Segundo, a pressuposição de que os indecisos se vão "redistribuir" proporcionalmente pelas várias opções disponíveis (ou abster-se todos, o que vai dar ao mesmo) é questionável (para além de eu não acreditar que existam tão poucos indecisos...).

Finalmente, olhem para a coluna I. Viram? Tudo T's, ou seja, todas telefónicas. Os problemas são conhecidos: as telefónicas são baratas, mas não apanham quase 20% dos alojamentos que não têm telefone fixo e suscitam imensas recusas. E há outra coisa: ou muito me engano, ou vamos ter este ano alguns potenciais eleitores do PSD com grandes hesitações em reconhecer essa sua hoje tão vilipendiada condição quando questionados pelo telefone ou confrontados com um questionário à entrada da porta. Vamos aguardar pelas simulações de voto em urna - anónimas - para ver se o meu palpite tem pernas para andar...

*Desde, pelo menos, 1949: cf. Mosteller, Frederick et at. (1949). The Pre-election Polls of 1948, Nova Iorque, Social Science Research Council.

Eurosondagem, 8 de Janeiro

Se é para falar de sondagens, é melhor começar já com a que saíu ontem, 8 de Janeiro, 2005: Eurosondagem, para o Expresso, SIC e Rádio Renascença. Resultados tal como destacados pelo jornal:

PS: 46%
PSD: 33%
CDU: 6,9%
CDS: 6,3%
BE: 4,5%

Algumas notas iniciais:

1. A soma disto dá 96,7%. Presume-se que os 3,3% que faltam correspondem apenas aos inquiridos que declaram tencionar votar nulo, branco ou noutros partidos. Não cabem aqui "indecisos" porque, como nos é indicado no texto, estes resultados resultam de "projecção dos resultados num exercício meramente matemático de distribuição dos 8,4% NS/NR". Em português corrente, isto deve querer dizer que esses 8,3% foram redistribuidos proporcionalmente pelas restantes opções. Assim temos:

PS: 42,2%
PSD: 30,3%
CDU: 6,3%
CDS:5,8%
BE:4,1%
OBN:3,0%
Não sabe/não responde:8,3%

Suponho isto porque é assim que a Eurosondagem costuma lidar com os indecisos, e não porque haja algo na notícia ou na ficha técnica que nos diga se assim foi. Não deveria haver?

2. Outra coisa que convém assinalar - e confesso que nem sempre assim pensei ou agi - é que apresentar resultados de sondagens destas com casas decimais me parece um bocado absurdo.

Vejamos: esta sondagem tem uma amostra de 2010 inquiridos. Se a amostragem tivesse sido puramente aleatória (o que nunca sucede, e a isto voltaremos), isto significaria que está associada aos resultados da sondagem uma margem de erro máxima de 2,19% com um grau de probabilidade de 95%. O que isto significa é que há 95% de chances que, caso todos os eleitores tivessem tido igual probabilidade de serem seleccionados para responder a esta sondagem, o erro máximo cometido na estimação das intenções reais de voto dos eleitores não tenha ultrapassado os 2,19%.

Observemos agora os resultados apresentados para a CDU: 6,9%. Com uma amostra aleatória de 2010 inquiridos, a margem de erro associada a esta estimação concreta para a CDU é de 1,1% (e não 2,19%, que é a margem de erro máxima). Ou seja: esta sondagem diz-nos que há 95% de chances que o resultado da CDU esteja entre os 8% e os 5,8%. Se assim é, porquê o preciosismo de 6,9%. Arredondar para 7%, não chega? Colocar casas decimais nestas circunstâncias é dar uma ilusão de precisão que os dados não justificam.

quinta-feira, janeiro 06, 2005

Retrato II

Avisam-me que o retrato do blogger não fica completo sem os seus blogues de referência. Mas o certo é que, de referência, ainda tenho só um: o Mistery Pollster. Sugerem-me então que, pelo menos, revele os blogues que leio regularmente. Cá vai, sem ordem especial: Aviz, O País Relativo, A Praia, Barnabé, Bloguítica, Causa Nossa, O Acidental, Fora do Mundo, Blasfémias, Indústrias Culturais, Cartas de Londres, Intermitente, Portugal dos Pequeninos e Homem a Dias. Há outros, mas são de leitura mais irregular.

Sei que o debate ideológico nos blogues é intenso, que é impossível escapar-lhe e que, desse ponto de vista, a lista anterior pode parecer absurdamente eclética. Mas suspeito que não estou sozinho, e a verdade é que os leio por razões completamente diferentes. Uns para meros fins informativos. Outros porque quero saber o que pensam os vários "lados". Outros porque são escritos por pessoas que conheço e de quem já gostava. E outros porque são escritos por pessoas que desconheço mas de quem passei a gostar, pelo menos através do que escrevem.

Contudo, novamente no interesse da full disclosure - porque não creio que haja maneira de falar de sondagens sem acabar por falar de política - vale a pena ser um pouco mais claro. Cá vai: o meu nível de desconforto ideológico com as direitas de O Acidental, o Blasfémias, o Intermitente ou o Homem a Dias tende a ser razoavelmente superior ao meu nível de desconforto ideológico (que também o sinto) com a(s) esquerda(s) do Barnabé, por exemplo. Mas é talvez por isso que procuro ler os primeiros com especial atenção. E mais adianto que as razões que me fazem ler A Praia, o Aviz ou o Fora do Mundo têm pouco ou nada a ver com a ideologia dos autores. Pronto. Está bem assim? Adiante.