Margens de erro: 06/2009

sexta-feira, junho 26, 2009

Legislativas. Marktest, 16-20 Junho, N=800, Tel.

PSD: 35,8%
PS: 34,5%
BE: 13,1%
CDU: 7,7%
CDS: 4,4%
OBN: 4,5%

Aqui.

Actualização: agora que os resultados estão no site da Marktest, é possível corrigir a própria notícia da TSF linkada acima, que atribui 9,4% à CDU. Na verdade, são 7,7%. Mas ao contrário do que é sugerido num comentário muito infeliz a este post, o CDS-PP tem mesmo 4,4%. Já tinha na notícia da TSF, e continua a ter na ficha técnica da sondagem da Marktest.

sábado, junho 20, 2009

Consensos e outros não tanto

"Estudos sobre o sector", mais "difusão de informação", publicação no site da ERC das fichas técnicas e iniciativa da ERC em reunir as empresas são coisas boas e foram consensuais. Mas a minha posição (e creio não estar sozinho) continua a mesma: há hipóteses em cima da mesa para explicar o que se passou; a abstenção não é a única das possíveis explicações; sem estudos, essas hipóteses nunca passarão disso mesmo.

sexta-feira, junho 19, 2009

"Freguesias-tipo"?

O único conhecimento que tenho deste assunto é pela notícia de jornal. Mas a confirmar-se a argumentação, a única coisa que posso fazer é sugerir a leitura do seguinte excerto:

"Because it is so important that the sample for an opinion poll is a true reflection of the country as a whole, the sample of constituencies for an opinion poll is checked for political balance. This is done in much the same way, by calculating the share of the votes at the last general election just in those constituencies sampled, and comparing it with the national result."

in Nick Moon. 1999. Opinion polls: history, theory and practice. Manchester: Manchester University Press, pp. 51-52 (itálicos meus, a ver se se percebe a utilização do plural).

terça-feira, junho 16, 2009

Auditar ou proibir?

Por estar ligado à temática deste blogue, reproduzo também aqui o artigo de ontem no Público:

Em 1992, as últimas sondagens realizadas no Reino Unido apontavam para uma eleição renhida, mas com uma curta vantagem dos Trabalhistas. Contados os votos, os Conservadores tinham ganho a eleição com 7,6 pontos de vantagem, subestimada pelas sondagens em cerca de 9 pontos percentuais. Seguiu-se uma controvérsia sobre a fiabilidade das sondagens e a Market Research Society reuniu um painel de peritos para investigar o assunto. O relatório final listava as possíveis causas para o fracasso das sondagens: a inadequação das variáveis utilizadas para definir quotas ou para ponderar os resultados de amostras aleatórias, levando a uma sub-representação de eleitores Conservadores; a desactualização dos dados das estatísticas nacionais utilizados; taxas de recusa diferenciais entre eleitores Trabalhistas e Conservadores (os “shy Tories”), levando a que os segundos estivessem ainda mais sub-representados nas amostras; e opções inadequadas quer para a redistribuição de indecisos quer para tratamento de “abstencionistas declarados”. Este relatório* teve consequências importantes na forma como se passaram a fazer sondagens no Reino Unido, seja na amostragem seja na forma como se passou a lidar com os eleitores que se afirmam “indecisos” ou “abstencionistas” nas sondagens.

À luz do recente fracasso das sondagens para as eleições europeias, por que não promover uma “auditoria” semelhante em Portugal após esta e futuras eleições? As fichas técnicas divulgadas na imprensa, ou mesmo as depositadas na Entidade Reguladora para a Comunicação Social (ERC), estão longe de fornecerem toda a informação necessária para apreciar a enorme quantidade de opções técnicas e práticas adoptadas pelos diferentes institutos. Uma investigação por um painel de peritos independentes poderia abordar em detalhe, por exemplo, as opções de amostragem, a construção dos questionários, a formação dos inquiridores ou o trabalho de campo. Com os dados brutos em seu poder, esse painel poderia apreciar as consequências de opções alternativas no tratamento dos dados, nomeadamente das “não respostas” e dos “indecisos”, assim como os desvios das amostras em relação a características conhecidas da população e as maneiras de os corrigir. Não faltariam pessoas capazes de fazer este tipo de auditoria. Se porventura se considerar que a ERC não é a entidade apropriada para a promover, ou que a APODEMO (a associação representativa das empresas do sector) está demasiado próxima dos interesses das empresas, certamente que na Associação Portuguesa de Sociologia, na Associação Portuguesa de Ciência Política ou na Sociedade Portuguesa de Matemática se encontrarão especialistas para formar semelhante painel. E é sempre possível convocar peritos estrangeiros, sem qualquer ligação aos interesses corporativos, económicos ou políticos em jogo.

Creio que quase todos teriam a ganhar com isto. Para o grande público, a noção de que o trabalho das empresas seria pública e regularmente escrutinado constituiria uma garantia adicional de que as empresas teriam ainda mais incentivos do que têm hoje para fazerem o melhor que está ao seu alcance dentro dos constrangimentos existentes. E haveria também benefícios para as próprias empresas. A realização destes estudos após cada eleição poderia contribuir para levar o batalhão de comentadores que, usando regular e sistematicamente as sondagens para fazer valer os seus argumentos e preferências políticas entre eleições, se mostram logo dispostos após as eleições a declarar a “incompetência” (após os fracassos) ou a “competência” (após os sucessos) das empresas de sondagens, a proferirem as suas sentenças com um pouco mais de informação. Para quem trabalha no ramo, isto seria também uma ocasião para aprender, repensar opções metodológicas e melhorar a qualidade do trabalho. “Segredos”? Há limites para o tipo de “segredos” que pode haver numa actividade com esta importância e potencial (apesar de raramente demonstrado) impacto político. É verdade que isto não garante que as coisas iriam sempre correr bem. Em várias eleições britânicas desde 1992, os desvios das sondagens foram ainda consideráveis. Em França, depois da catástrofe de 1997, onde as sondagens foram incapazes de antecipar a derrota da direita, os vários estudos realizados não impediram um segundo fracasso em 2002, com a subestimação da votação em Le Pen. Outros exemplos destas persistentes dificuldades poderiam ser avançados. Mas até a forma como esse fracassos são lidos e interpretados poderia ser um pouco mais tranquila e racional se fossem sempre seguidos de uma abordagem transparente do que se terá passado.

A alternativa que tem sido avançada a tudo isto é a de proibir a realização e divulgação de sondagens durante a campanha. Não seríamos caso único. Mas podemos, por isso mesmo, apreciar melhor as consequências de semelhante proibição. Na verdade, seria uma medida com a qual quer os partidos quer algumas empresas do sector poderiam concordar facilmente. Muitas continuariam a poder conduzir a maior parte do trabalho que já fazem hoje nestas áreas, ou seja – especialmente em véspera de autárquicas – trabalhos para os partidos políticos. E não seria a proibição da divulgação de sondagens nas últimas duas, três ou quatro semanas antes de uma eleição que impediria alguns partidos de fazerem aquilo que já fazem hoje. Por exemplo, comparar sondagens realizadas a um mês ou mais das eleições com os resultados finais, em eleições actuais ou passadas, sempre que isso lhes for útil para a sua argumentação política. Nem os impediria de anunciar, durante a campanha, a existência de “sondagens” realizadas por si ou para si próprios, cujos resultados e métodos permaneceriam completamente opacos e inverificáveis para os eleitores.

Nunca estive seguro de que as sondagens de intenções de voto divulgadas ao longo da campanha dessem uma grande contribuição para a nossa democracia. Elas alimentam a ilusão de que os resultados podem ser sempre infalivelmente previstos e ocupam porventura excessivo espaço na cobertura das eleições, transformando-as numa “corrida de cavalos” que talvez nos afaste do essencial que deveria ser discutido numa campanha. E já perdi as derradeiras ilusões sobre a capacidade do que escrevi acima para persuadir aqueles que preferem sempre ver nas sondagens um esforço deliberado para manipular a opinião pública. No que proponho, esses verão provavelmente um esforço adicional de manipulação, disfarçando sob uma discussão técnica aquilo que julgam ser um ânimo político das sondagens contra estes ou aqueles partidos. Seja. Não se pode discutir racionalmente com quem tem interesse em, precisamente, afastar a racionalidade da discussão. Contudo, aos restantes, mesmo que sejam uma minoria, sugiro que ponderem as consequências da proibição: mais desinformação, mais opacidade e mais (em vez de menos) manipulação política da opinião pública.

*Resumido aqui, e um estudo adicional aqui.

segunda-feira, junho 08, 2009

Deputados

(Graças a comentários de leitores, rectificado. Obrigado. ):

Num comentário abaixo, sugere-se que seria interessante ver qual seria a distribuição de deputados numas legislativas se os resultados por distrito fossem exactamente iguais aos de ontem. Recorrendo ao site da RTP - que ao Ministério da Justiça, por alguma razão, não consigo aceder - é possível obter os dados por distrito. Não os tenho em base de dados, pelo que os valores foram introduzidos à mão, podendo - espero que não - haver erro de digitação. Mas com estas salvaguardas, os resultados (com a nova distribuição de deputados que está em vigor para as eleições de Setembro/Outubro) seriam os seguintes:

PSD: 96 deputados
PS: 73 deputados
CDU: 23 deputados
BE: 21 deputados
CDS: 16 deputados
MEP: 1 deputado

Estou aqui a presumir que os resultados nos círculos Europa e Fora da Europa seriam iguais aos de 2002. Em suma, neste exercício, PSD+CDS têm 112 deputados. PS+CDU+BE têm 117.

Uma das rectificações que menciono na abertura teve a ver com o MEP. De facto, com 46 deputados a serem eleitos em Lisboa, os 2,32% do MEP seriam suficientes para 1 deputado.

A outra tem a ver com os dados a que acedi de manhã no site da RTP, que estavam incorrectos. Um parágrafo que estava aqui anteriormente sobre me ter chamado a atenção o facto do BE ter ultrapassado os 10% em vários distritos a Norte do Tejo deixou de fazer sentido assim que pude ver os dados no site do MJ.

Safa. Vou mudar o nome deste blogue para A Lei de Murphy. Bem, nem isso consigo: já há.

domingo, junho 07, 2009

Rescaldo

Os resultados ainda são provisórios, mas é muito improvável que qualquer mudança tenha qualquer espécie de importância deste ponto de vista. Avancemos, então, para o rescaldo das sondagens nestas eleições:

1. Serviram as sondagens como um bom elemento de previsão para os resultados? Bem, é evidente que não, mas vejamos a coisa em mais detalhe. O que sempre se faz aqui neste blogue é calcular o chamado "erro 3 de Mosteller", ou seja, simplesmente a média dos desvios absolutos entre os resultados eleitorais e das últimas sondagens para os principais partidos:

Em média, as sondagens diferenciaram-se dos resultados eleitorais de cada um dos cinco maiores partidos em 2,5 pontos no caso da Marktest, 2,8 nos casos do CESOP e da Eurosondagem e 3 pontos no caso da Aximage. A "média das médias" é 2,8 pontos. As diferenças entre o desempenho das diferentes sondagens não é muito relevante: são uniformemente distantes dos resultados finais, em especial em comparação com o desempenho geralmente muito superior nas eleições nacionais imediatamente anteriores, como as Presidenciais ou as Legislativas. Mas a Marktest, para além de ter o menor erro médio, tem uma clara vantagem em relação às outras num aspecto crucial: foi a única a, correctamente, colocar o PSD à frente do PS. Parabéns à Marktest.

2. Nas sondagens à boca das urnas - que medem comportamentos em vez de intenções - o desempenho, claro, foi superior, quando comparamos os resultados com os pontos centrais dos intervalos fornecidos:

O erro médio da Intercampus foi 0,5, do CESOP 0,9, e da Eurosondagem 1,1 pontos. A Intercampus foi quem esteve globalmente mais perto.

3. Vai correr alguma tinta sobre a falta de "credibilidade" das sondagens pré-eleitorais, e é inteiramente justo que se aborde a coisa assim à luz destes resultados. Mas note-se que isto não é novidade em relação às Europeias. Em 2004, "a média dos erros absolutos médios" cometidos pelas quatro últimas sondagens pré-eleitorais foi de 2,5 pontos, pouco menor que em 2009. E em geral, como tinha recordado aqui no dia 5, este é o padrão geral na comparação entre as sondagens feitas para as Europeias com o que se passa nas Legislativas desde 1991. Grande candidato para explicar o problema? A abstenção, evidentemente. Mas isto não isenta quem faz sondagens de responsabilidades: infelizmente, há uma frase de um artigo que escrevi em 2005 que continua a ser verdade:

"However, large errors remain the norm in polls pertainingto European Parliament elections, suggesting a shared inabilityof Portuguese polling organizations in dealing appropriatelywith the problems caused by low turnout."

Fica-me a fraca consolação de não ter de lhe mudar uma vírgula.

4. E tendo em conta tudo o que se passou na campanha no que respeita a sondagens, especialmente, desta vez, em relação ao CDS-PP e (não só, mas especialmente) ao CESOP, já sei o que me espera nos próximos dias. "Eu bem te disse" será o mínimo dos mínimos. Pois. Mas notem:

- continua a ser verdade que o CDS-PP não é invariavelmente subestimado, nas sondagens pré-eleitorais, em todo o tipo de eleições e, nalguns casos, essa subestimação (ou sobrestimação) é estatisticamente irrelevante.
- a hipótese de que o eleitor do CDS-PP é mais atreito a ocultar o seu sentido de voto, várias vezes aventada para explicar os casos em que as sondagens pré-eleitorais têm resultados inferiores aos das eleições, colide com a capacidade das sondagens à boca das urnas para captarem o voto no CDS-PP, como se pode ver acima. Se ocultaram numa, porque não ocultaram nas outras?

Dito isto, obviamente, o que se passou desta vez tem peso, e não só por ser mais notório à luz da controvérsia ocorrida: é que a subestimação do CDS-PP, desta vez, foi muito maior do que tinha ocorrido antes quando o CDS-PP foi subestimado no passado (mais do que nas legislativas de 2002, certamente, e até mais do que nas Europeias de 1999, se a memória não me falha aqui). As sondagens pré-eleitorais subestimaram o CDS-PP entre 5,1 (Marktest) e 2,3 (Eurosondagem) pontos. Basta ver a olho para perceber que é muito ponto para um partido com menos de 10% dos votos. Por mero acaso é que isto não aconteceu. Mas porquê? Dificuldade em captar a tendência (ascendente) do CDS-PP em campanha? A tal "ocultação" (mas como compaginá-la com os resultados da boca das urnas)? Problemas de amostragem (mas como é que sondagens telefónicas, presenciais, aleatórias e por quotas partilham o mesmo problema)? Mais hipóteses (não conspirativas)? Se as têm, seria interessante discuti-las.

Obrigado pela atenção, e até breve.

sexta-feira, junho 05, 2009

Últimas palavras

Assim de repente, ocorrem-me três maneiras de falar destas sondagens e da sua relação com as eleições de Domingo:

1. A primeira é a que se tem seguido até ao momento: pôr os números a falar o mais possível. Haveria eventualmente mais coisas que se poderia fazer, mas a verdade é que com quatro sondagens, ou mesmo com as 13 ao longo de toda a campanha e pré-campanha, há limites para o que se pode fazer. As ideias gerais não vou repetir: estão aqui, aqui, aqui e aqui. Já agora, algumas das coisas que fizemos decorreram directa ou indirectamente de comentários aqui no blogue. Só por isso, já valeu a pena abrir a caixa. Obrigado a todos.

2. Tudo o que diz respeito ao ponto anterior partiu sempre da pressuposição que a única fonte de erro na capacidade das sondagens medirem as intenções de voto no momento em que foram feitas era o erro aleatório associado à selecção de uma amostra que dava a mesma probabilidade a cada membro do universo de ser seleccionado. Sabemos que as coisas não se passam assim. Nenhuma amostra é verdadeiramente aleatória, mesmo que se tente (as pessoas não são bolas nas esfera do Euromilhões, e recusam-se a ser "medidas" ou não estão "lá" para ser medidas quando "deviam" estar). Algumas sondagens até são por quotas. E há uma miríade de potenciais problemas de medição daquilo que se quer medir. Já discuti isto neste blogue muitas vezes, mas no confronto entre as eleições e as sondagens, quase todas as eleições mostram que há um partido ou mais partidos que são sobrestimados pelas sondagens e outros que são subestimados. Claro que isso se pode dever a algo que ocorra entre o trabalho de campo e a eleição. E claro que, ao contrário do que defendem algumas pessoas particularmente imunes ao confronto com os factos, nem sempre são os mesmos partidos que são sobrestimados ou subestimados. Mas isto sugere também a possibilidade de que haja enviesamentos sistemáticos comuns a todas as sondagens num dado contexto eleitoral. Logo, tudo o que resulta das análises descritas no ponto 1 tem de ser visto também deste ângulo mais céptico.

3. Finalmente, a eleição do dia 7 está no futuro, enquanto as sondagens estão no passado. Entre o passado e futuro nem sempre ocorrem coisas que provoquem mudanças nas intenções dos eleitores ou, pelo menos, se ocorrem, dão às vezes ar de se cancelarem umas às outras. Mas há sinais de que, noutros casos, ocorrem. A abstenção é talvez o problema fundamental. Por um lado, está ligado ao ponto anterior (de medição): como apurar se, num determinado momento, alguém tenciona realmente abster-se ou não? As pessoas resistem - porventura cada vez menos - a admitir isso e, logo, dão intenções de voto que não se realizam. Se essas forem sistematicamente diferentes das do que realmente votam, temos o caldo entornado. Mas é também um problema de diferença entre intenções presentes e comportamentos futuros: eu posso achar hoje que vou votar e, no Domingo, arranjar algo melhor para fazer. Se quem chega a esta conclusão for sistematicamente diferente daqueles que não chegam, o caldo entorna-se ainda mais. Em geral, todos os estudos mostram, inclusivamente em Portugal (shameless plug), que eleições de alta abstenção tendem a exibir maiores diferenças entre as sondagens e os resultados. E esta do dia 7 é, claro, desse terrível género.

Tudo isto para dizer aquilo que estas sondagens dizem sobre o que ocorrerá no Domingo tem limites, uns estimáveis (ponto 1), outros infelizmente não (pontos 2 e 3). Logo, se se importam com os resultados, o melhor que têm a fazer é ir votar. E é com esta nota profundamente cívica - abstendo-me de estimar a probabilidade de um voto individual ser decisivo para não desmoralizar ninguém - que me despeço até 2ª feira.

Previsível empate técnico

Não consigo imaginar o que quererá o Público dizer quando diz que um dos resultados mais previsíveis na noite eleitoral será um empate técnico. Penso que quer Vital quer Rangel disseram que a vitória era ter mais um voto do que o oponente. Pelo que, provavelmente, o Público quererá mesmo dizer que os dois terminarão com o mesmo número de votos. Nem sei bem como calcular a probabilidade de que ambos acabem com o mesmo número de votos, mas vou fazer um esforço por quantificar tais quantidades.

Para começar, Portugal tem cerca de 8 milhões de eleitores. Destes, cerca de 65% não votarão, pelo ficamos com 2 milhões e 800 mil votantes. Como apenas queremos analisar a possibilidade de empate entre o PS e o PSD, retiremos os restantes eleitores. Admitamos, para simplificar que o PS e o PSD terão cerca de 2 milhões de votos ao todo. Para haver empate é necessário que vote um número par de pessoas (se o número for ímpar o empate é impossível). Simplifiquemos ao máximo e admitamos que votam exactamente 2 milhões de pessoas (um número par, portanto).

Lamento, mas ainda não chega. Temos de simplificar um pouco mais. Admitamos que a nossa percepção é de uma divisão completa. Ou seja, quando olhamos para um tipo pela rua, atribuímos-lhe a probabilidade de 50% de votar no PS e de 50% de votar no PSD. Com todas estas simplificações, a probabilidade de um empate é 0,00056. Um cenário probabilíssimo, como se vê. Mas, admitamos uma hipótese um pouco mais realista. Dado que o mesmo Público nos diz que o PS aparece à frente em quase todas as sondagens, é razoável admitir que um tipo que encontremos na esquina da rua vá votar PS com uma probabilidade de, digamos, 50,5%. Votará no Paulo Rangel com probabilidade de 49,5%. Com estes novos números, qual seria então a probabilidade de cada um ter um milhão de votos? A resposta a esta pergunta é de 0,000000000000000000000000000000000000000000000021 (salvo qualquer erro a digitar os quarenta e seis zeros). É este cenário que o Público, o melhor jornal Português, considera como um dos mais previsíveis.

A "previsão" do LA-C

Nesta "previsão" do LA-C no post abaixo, tal como explicado ainda mais abaixo, lida-se com a grande variabilidade dos OBN's tomando com base apenas a votação nos 5 maiores partidos. Mas da maneira que isto está em termos de comentário a estes assuntos (ver aqui ou aqui), o Luís ainda se arrisca a que venham dizer que, afinal, "o partido x teve y nas eleições quando a previsão dava y + z".

Logo, apesar do verdadeiro confronto desta previsão com os resultados poder vir a ser feita logo após as eleições (tomando como base, obviamente, o resultados dos cinco maiores), fica aqui a "tradução" da previsão do LA-C em resultados eleitorais "convencionais", presumindo que os OBN serão 9,2%, ou seja, a média ponderada para as 4 sondagens. O que diz a Bola de Cristal do Qui-Quadrado?

PS: 34,5%
PSD: 31,8%
CDU: 9,9%
BE: 9,5%
CDS: 5%
OBN (presumido): 9,2%

Confirmas, Luís? Os intervalos encolherão um pouco, claro. E esta minha operação, evidentemente, "força" a semelhança com a média ponderada. Mas era só para ter a certeza que a coisa era devidamente compreendida.

As minhas “previsões” para a noite eleitoral (2)

E, seguindo a metodologia explicada no post anterior, aqui ficam as minhas previsões:

Quando o Público fizer 30 anos e uma nova antologia dos disparates, este terá lugar de destaque.

"O PS lidera todas as sondagens desde que se iniciou a campanha eleitoral. As vantagens obtidas em relação ao PSD não são, no entanto, significativas e, tendo em conta as margens de erro, o empate técnico é um dos resultados mais previsíveis."

Via Léxico Familiar.

As minhas “previsões” para a noite eleitoral (1)

Os representantes dos pequenos partidos que me desculpem, mas, dado que nenhuma sondagem lhes dá uma votação suficientemente relevante para elegerem um deputado que seja, neste post vou esquecê-los.

Juntando a informação sobre as últimas sondagens realizadas que o Pedro Magalhães recolheu (com a incerteza sobre alguma destas informações que o Pedro também detalhou). Ficamos com o seguinte quadro:

Os totais não dão 100% precisamente por causa das pessoas que declaram ir votar em Outros/Brancos/Nulos. Se nos centrarmos apenas nas votações dos 5 grandes partidos, ficamos com a seguinte repartição:

Olhando para a ordenação dos partidos a sondagens parecem razoavelmente consensuais. Apenas 2 elementos de discórdia: de acordo com a Marktest é o PSD que lidera a corrida e a CESOP põe a CDU à frente do BE.

Olhando para este quadro não se vê nenhuma sondagem se seja brutalmente diferente das outras. Se tivermos em consideração intervalos de confiança de 95%, é fácil de ver que há resultados finais que são compatíveis com todas as sondagens.

Mas em que sentido é que eu digo que os resultados são compatíveis com as sondagens? Haveria algumas formas de responder a esta pergunta. Por exemplo, o Pedro Magalhães já calculou as médias ponderadas, o que é uma boa forma de lidar com a questão, dado que estas médias correspondem ao estimador de máxima verosimilhança (admitindo distribuições multinomiais como base e mais alguns pressupostos)

Eu vou recorrer a um teste muito simples, que é dado nos cursos de Introdução à Estatística que é o teste do Qui quadrado. Basicamente, Suponhamos que queremos testar a hipótese de que o PS tem 25% dos votos, o CDS 15% e todos os outros 20%. E, para tal, usamos a sondagem da CESOP. De acordo com a nossa hipótese, em 1426 entrevistados, 357 devia ter declarado votar no PS, 285 no PSD, na CDU e no BE e, finalmente, 214 no CDS. Mas, de acordo com o quadro acima, houve 539 que declararam votar no PS, 507 no PSD, 143 no BE, 174 na CDU e 63 no CDS. Para ver se estas diferenças são estatisticamente relevantes, calcula-se:

Quanto mais próximos esta conta for de zero, mais razoável é a nossa hipótese de partida. Para ver testar se este valor é suficientemente próximo de zero usa-se a distribuição do Qui-quadrado. Neste caso, rejeitava-se a hipótese de a nossa hipótese ser correcta com uma certeza de 99,99999%.

O exercício que vou fazer no meu próximo post é simples. Usando este teste do Qui-quadrado, perguntar qual seria a votação para cada partido que é mais compatível com as últimas sondagens feitas. Para tal calculo o Qui-quadrado associado a cada uma das sondagens e minimizo a sua soma.

Não entrei aqui em grandes detalhes estatísticos, mas em bom rigor, tal procedimento apenas seria válido se as amostras fossem aleatórias (o que não é o caso), se as sondagens fossem independentes (o que não é garantido), etc, etc. Vejam isto como eu vejo: um mero exercício que apenas seria absolutamente correcto sob condições óptimas.

Como?

Europeias. PS à frente em todas as sondagens, no Portugal Diário.

O PS lidera todas as sondagens desde que se iniciou a campanha eleitoral, no Público.

O conjunto das sondagens (2)

Mas não temos de ficar por aqui. Uma abordagem possível consiste em tratar as quatro sondagens como uma única. Há, claro, muitas objecções a isto. Mas há uma que, pelo menos, é grandemente afastada: o facto das sondagens terem sido conduzidas em momentos diferentes. Isso ainda sucede, claro, mas a aproximação temporal é muito maior do que sucedia quanto aplicávamos a mesma ideia ao conjunto de todas as sondagens conduzidas até ao momento. Vamos lá, então:

A amostra agora é de 4109 inquiridos. Sobre o CDS-PP ser o quinto partido não há novidades, claro. Mas agora a vantagem do PS sobre o PSD torna-se significativa. Claro que esta abordagem tem vantagens e desvantagens. Estamos a valorizar mais as sondagens com amostras maiores, como deve ser. Mas estamos a desvalorizar sondagens que podem ter eventualmente, apesar de uma amostra menor, uma qualquer outra característica que lhe tenha permitido contornar melhor todas as outras restantes fontes de erro. Estou a pensar na Marktest, claro. Mas entre uma quase certeza (maior amostra, maior precisão) e uma incerteza, creio que ficamos a saber mais quando olhamos para os dados assim.

O conjunto das sondagens (1)

Tenho apenas conhecimento de quatro últimas sondagens. Vamos olhar para elas:

Duas telefónicas, duas presenciais com simulação de voto em urna. Uma com amostragem por quotas (Marktest), três com amostragem estratificada aleatória, sendo que duas delas (CESOP e Marktest) fazem ponderação pós-amostral com base em dados das estatísticas nacionais. Três tratam indecisos como abstencionistas, outra usa um modelo próprio (Aximage). Apesar de tudo, uma razoável diversidade de abordagens.

Questões concretas:
1. Quem estava à frente no momento em que foi feito o trabalho de campo? A única sondagem que "diz" saber a resposta a essa pergunta com elevado grau de confiança é a Eurosondagem. A sua resposta é "o PS". Como vemos no quadro abaixo, tendo em conta a dimensão da amostra, a diferença de 4,1 pontos nessa sondagem é estatísticamente significativa. As restantes três sondagens não sabem a resposta a essa pergunta. Nem mesmo a Aximage, apesar de dar 5,3 pontos de vantagem ao PS. É o preço a pagar por uma amostra reduzida (mas pode ser um preço compensador se isso resultar de uma boa exclusão de não-votantes; com mais de 60% de não-votantes na Aximage, isso pode ser o caso).

2. Quem estava à frente no momento em que foi feito o trabalho de campo: BE ou CDU? A única sondagem que "diz" saber a resposta a essa pergunta é a do CESOP. "CDU", é a resposta. Para todas as outras, as diferenças num sentido ou noutro não têm significância estatística.

3. Qual era o quinto partido no momento em que foi feito o trabalho de campo? Pelo menos, aqui há consenso: o CDS-PP.

Tudo o que está acima presume que as amostras são genuinamente probabilisticas e que não há fontes de erro para além do erro amostral. Não é verdade. Mas é o que temos.

Europeias. Eurosondagem, 1-2 Junho, N= 2033, simulação em urna.

PS: 36,0%
PSD: 31,9%
BE: 10,1%
CDU: 9,0%
CDS-PP: 6,1%
OBN: 6,9%

A amostra é de 2033. Desses, 16,4% estavam indecisos, pelo que as percentagens acima são calculadas em relação a um total de, no máximo, 1700 inquiridos. Não se fala na notícia do Expresso em abstencionistas, pelo que teremos de os presumir ausentes da amostra.

quinta-feira, junho 04, 2009

Europeias. Aximage, 1-4 Junho, N=1274, Tel.

PS: 36,2%
PSD: 30,9%
BE: 10,2%
CDU: 10,1%
CDS-PP: 5,0%

Não sei se é resultado antes ou depois de redistribuição de indecisos. Sei apenas que a soma disto dá 92,4%. É provavelmente mais sensato esperar pelo Correio da Manhã de amanhã antes de tirar mais conclusões sobre esta sondagem.

Actualização (5 de Junho):
1. OBN é mesmo 7,6%. Estas percentagens já excluem indecisos e não respostas. Segundo o CM, a distribuição dos indecisos "foi realizada a partir de um modelo que combina perguntas sobre o tipo de indecisão (abstenção/voto em quem), voto anterior, dinâmica de vitória e simpatia pelos principais candidatos". Interessante.
2. A amostra é de 1274 inquiridos. 65,3% disseram que não iriam votar. Sobram 442. Alguns deles terão dito que estão indecisos, pelo que as percentagens acima terão como base um valor inferior a 442. Mas a julgar pelas anteriores sondagens da Aximage, esse valor não há de ser muito inferior. Vamos considerar 442.

Europeias. CESOP, 30 Maio-2 Junho, N=3375, simulação voto urna.

PS: 34%
PSD: 32%
CDU: 11%
BE: 9%
CDS-PP: 4%
MEP: 2%
PCTP-MRPP: 1%
Outros: 3%
Brancos e nulos: 4%

Esta estimativa tem como base as intenções de voto dos inquiridos que afirmaram "ter a certeza" que irão votar e que forneceram intenções de voto válidas, em branco ou nulo: foram 1584. Podem descarregar mais detalhes aqui.

O que aí vem.

Os quadros seguintes mostram o template que vou usar para analisar cada sondagem.

Um primeiro quadro dá alguma informação geral, mostra as estimativas de resultados eleitorais e o intervalo de confiança a 95% (aproximação à normal) associado a cada estimativa, na base da dimensão da sub-amostra de inquiridos que exprimiram uma intenção de voto, mesmo que seja em branco ou nulo. Um segundo quadro mostra diferenças entre partidos na sondagem, assim como a margem de erro da diferença. Quando a diferença na amostra é inferior à margem de erro, isso significa que essa diferença carece de significância estatística a 95%, e assinalo isso a vermelho. Quando a diferença na amostra é superior, isso significa que a diferença é estatisticamente significativa a 95%, e assinalo isso a verde. Respeitarei a opção de cada instituto de apresentar resultados com ou sem casas decimais. Tudo isto pressupõe, claro, amostragem probabilística, que sabemos ser uma pressuposição inválida. Mas enfim.

Comecemos então pela Marktest. Desde logo, a dimensão da sub-amostra de intenções válidas não se pode calcular na base das notícias saídas até ao momento. Por isso, para já, irei presumir que a percentagem de abstencionistas declarados, indecisos e não respostas é igual à do estudo anterior, o que resulta numa sub-amostra de 383.

O que nos dizem estes quadros:

1. Estritamente na base da sondagem Marktest, não é possível dizer, com um elevado grau de confiança, se a vantagem do PSD sobre o PS na amostra correspondia, à data da sondagem, a uma vantagem real na população.
2. A mesma afirmação serve para a relação entre o BE e a CDU.
3. O mesmo já não sucede com o CDS-PP: a vantagem encontrada da CDU e do BE sobre o CDS-PP é estatisticamente significativa.

Sondagens "sem validade"?

Neste blogue, acusa-se a recente sondagem da Marktest de "não ter validade", e afirma-se que "a amostragem não foi feita de forma rigorosa e profissional". São dois os argumentos apresentados:

1. "O primeiro erro, começa pela sondagem não ter em conta a Região Autónoma dos Açores e a Região Autónoma da Madeira";

2. O facto da distribuição espacial dos inquéritos por regiões "Norte", "Centro" e "Sul" não respeitar a distribuição espacial da população portuguesa.

Vejamos. Primeiro, a ficha técnica da sondagem explica claramente que o universo sobre o qual está a fazer inferências é o da população de Portugal Continental com 18 ou mais anos. O que o post poderia tentar argumentar é que a ausência dos Açores e da Madeira fazem com que não se possa fazer inferências dos resultados do Continente para os resultados totais. Mas nem a sondagem faz essa inferência nem o autor faz esse argumento. Remete para uma questão de "erro de amostragem". Mas isto não é erro nenhum: é uma opção. E ainda por cima, se o autor do blogue tivesse alguma vez olhado para resultados eleitorais, ficaria a saber que, tendencialmente, a inclusão dos Açores e da Madeira tenderia normalmente a aumentar a vantagem do PSD, não a diminuí-la.

A segunda crítica é ainda menos fundamentada:

1. O autor fala da distribuição da população, quando o que mais se aproxima do universo de interesse é a população com 18 ou mais anos.
2. Apresenta dados para Norte, Centro e Sul, divisão que não coincide com as unidades territoriais do INE;
3. Compara esses dados com a distribuição territorial do inquérito da Marktest, sem ter apurado se as categorias que usa coincidem com as da Marktest.

Deputados

Um calculador em Javascript muito jeitoso para os deputados pode ser encontrado aqui. Em vez de votos ponham percentagens. Se tiver casas decimais, multipliquem por 10.

Europeias. Marktest, 27-30 Maio, N=807, Tel.

PSD: 32,5%
PS: 29,4%
BE: 8,9%
CDU: 8,9%
CDS-PP: 3,3%

É o que sei para já, na base desta notícia. Excitante, não? Claro que voltamos ao "empate técnico", ideia que, volto a dizer, é preciso confirmar quando soubermos a dimensão real da sub-amostra na base da qual estas percentagens são estimadas (ainda não sei qual é, mas não é 807, certamente). Mas é a primeira sondagem que coloca o PSD à frente, e isso pode não ser irrelevante, porque pode sugerir uma tendência. Mas com mais dados poderemos olhar melhor para isso. Agora ainda é cedo.

Sei que sou fastidioso, mas recordo, a propósito de uma notícia no Público: se de facto o PSD subiu nos últimos dias, isto não "confirma uma tendência" prévia (indetectável na base dos dados anteriores). E a habitual frase "Se as eleições europeias fossem hoje o [partido x] venceria o escrutínio" está mesmo a pedir inclusão no capítulo no Livro de Estilo do Público intitulado "Frases que constituem justa causa para despedimento".

A soma dá 83%, pelo que presumo que haja 17% de votos noutros partidos, brancos e nulos. Mas rectificarei caso se verifique não ser assim. Obrigado ao leitor que me avisou em comentário no post abaixo.

quarta-feira, junho 03, 2009

Meios de campanha

E já agora, repost de outro tweet da manhã:

"Para mim, que estou muito longe destas realidades, esta peça do Público sobre os meios de campanha é impressionante: http://tcp3.com/j1kz"

Previsão modelo Hix/Marsh para Portugal

Passo para post uma informação que mandei num tweet hoje de manhã e que me reapareceu num comentário abaixo:

Previsões actualizadas modelo Hix/Marsh para Portugal:

PS: 35% (9);
PSD: 30% (7);
BE: 11% (2);
CDU: 10% (2);
CDS-PP: 8.5% (2)

segunda-feira, junho 01, 2009

Voto obrigatório

O facto de se erigir a liberdade individual como único e exclusivo princípio em torno do qual se deve organizar a delegação de poder dos cidadãos em representantes numa democracia (ignorando os restantes princípios básicos, a saber, igualdade política e capacidade de controlo dos representantes) e querer sempre terminar por aí qualquer discussão é bastante revelador da cultura política de um certo tipo de liberalismo.

P.S. - Caro João. Quem apanhe esta discussão a meio fica a pensar que eu defendi o voto obrigatório no artigo do Público. Não defendi, pelo contrário, como certamente reparou. Mas escrevi um parágrafo no texto sobre a discussão do tema num plano meramente normativo, simplesmente para dizer que a discussão é muito difícil de resolver nesse plano, e que de todo se pode resolver numa penada, como esta sua penada que critiquei neste post. Só para dar um exemplo, consentir que apenas algumas pessoas votem (e outras não) pode ser visto como algo que colide com a igualdade política, se acreditarmos que há obstáculos económicos e sociais ao voto que um regime democrático deve tomar em conta e resolver (ver aqui, aqui ou aqui). E note que eu nem sequer disse que concordo com esta segunda visão. O que procurei fazer foi dizer que, num plano meramente normativo, a questão é muito mais difícil do que é sugerido pelo seu post inicial, e que podemos tomar um atalho: questionar, do ponto de vista empírico, as pressuposições sobre os efeitos do voto obrigatório daqueles que o defendem no plano dos princípios.

Margens de erro

sexta-feira, junho 26, 2009

Legislativas. Marktest, 16-20 Junho, N=800, Tel.

sábado, junho 20, 2009

Consensos e outros não tanto

sexta-feira, junho 19, 2009

"Freguesias-tipo"?

terça-feira, junho 16, 2009

Auditar ou proibir?

segunda-feira, junho 08, 2009

Deputados

domingo, junho 07, 2009

Rescaldo

sexta-feira, junho 05, 2009

Últimas palavras

Previsível empate técnico

A "previsão" do LA-C

As minhas “previsões” para a noite eleitoral (2)

Quando o Público fizer 30 anos e uma nova antologia dos disparates, este terá lugar de destaque.

As minhas “previsões” para a noite eleitoral (1)

Como?

O conjunto das sondagens (2)

O conjunto das sondagens (1)

Europeias. Eurosondagem, 1-2 Junho, N= 2033, simulação em urna.

quinta-feira, junho 04, 2009

Europeias. Aximage, 1-4 Junho, N=1274, Tel.

Europeias. CESOP, 30 Maio-2 Junho, N=3375, simulação voto urna.

O que aí vem.

Sondagens "sem validade"?

Deputados

Europeias. Marktest, 27-30 Maio, N=807, Tel.

quarta-feira, junho 03, 2009

Meios de campanha

Previsão modelo Hix/Marsh para Portugal

segunda-feira, junho 01, 2009

Voto obrigatório

Arquivo do blogue

Ligações