segunda-feira, maio 25, 2009

"Empate técnico"

Noto alguma agitação na blogosfera (e não só) devido ao "empate técnico" entre o PS e o PSD declarado pelo Expresso a propósito da última sondagem da Eurosondagem sobre as europeias. Se bem entendo, o "empate" é declarado porque a diferença entre o PS e o PSD (2,2%) é igual à margem de erro declarada na ficha técnica (2,2%). "Vantagem do PS é de apenas 2,2%, o que equivale praticamente à margem de erro deste estudo de opinião", escreve-se no Expresso.

Minha nossa. Ora vamos lá outra vez:

1. A margem de erro anunciada na ficha técnica não é a margem de erro associada às estimativas para o PS ou para o PSD. Por duas razões. Primeiro, a dimensão da amostra na base da qual essas margens de erro têm de ser estimadas é inferior à dimensão da amostra geral na base da qual se apresenta calcula a margem de erro anunciada na ficha técnica. É inferior porque as percentagens são calculadas em relação a uma base que exclui indecisos e abstencionistas. Segundo, a margem de erro apresentada na ficha técnica é uma margem de erro máxima, presumindo amostragem aleatória e com uma confiança de 95%. Essa margem de erro máxima é a associada a uma estimativa de 50%. Quando as estimativas são superiores ou inferiores a 50%, a margem de erro é diferente (inferior).

2. Logo, se quisermos saber qual é o intervalo que cada sondagem está a estimar para cada estimativa - mais uma vez, presumindo amostragem aleatória e com 95% de confiança - não se trata de somar e subtrair 2,2% (ou seja lá o que a ficha técnica identifique como margem de erro máxima) a cada resultado, como muita gente costuma fazer. A margem de erro tem de ser calculada para cada caso, tendo em conta a sub-amostra em relação à qual as percentagens são calculadas e o valor concreto que está a ser estimado.

3. As notícias na imprensa nem sempre são claras quanto à dimensão dessa dita sub-amostra. Só lá se pode chegar por inferência, usando a informação sobre a dimensão da amostra geral, a percentagem daqueles que dizem que não votariam e a percentagem dos indecisos (normalmente tratados como abstencionistas quando se trata de redistribuir).

4. Se o fizermos, chegamos rapidamente à conclusão que todas as sondagens divulgadas até agora sobre as Europeias configuram um empate técnico entre o PS e o PSD, se por "empate técnico" entendermos intervalos que se sobrepõem para as estimativas dos dois partidos (presumindo amostragem aleatória e com 95% de confiança). A saber:

Marktest:
PS: 27,3-38,9
PSD: 27,1-38,7

Intercampus:
PS: 29,3-38,7
PSD: 28,8-38,2

CESOP:
PS: 34,5-43,5
PSD: 31,6-40,4

Aximage:
PS: 33,5-47,5
PSD: 27,3-40,7

Eurosondagem:
PS: 31,6-37,0
PSD: 29,4-34,8

Os intervalos são enormes? São: porque são tantos os que se declaram abstencionistas ou indecisos que a sub-amostra que sobra para estimar resultados é diminuta. E é assim que as coisas são, não há volta a dar-lhe. Só no planeta em que vive o deputado Marco António é que as "boas" sondagens têm toda a gente a dizer que vai votar e a saber perfeitamente em quem.

5. Se a isto somarmos que:
- as sondagens foram conduzidas em momentos diferentes;
- usam metodologias completamente diferentes e há muitas fontes de erro para além do erro aleatório amostral;
- estimam intenções de voto num momento, e não comportamentos no futuro;
- nenhuma amostra é verdadeiramente aleatória (tendo em conta recusas e impossibilidade de encontrar o inquirido que devia responder) e algumas não são aleatórias de todo (usando quotas);
- as margens de erro são estimadas com 95% de confiança (1 em cada 20 inquéritos vai produzir resultados fora da margem);
- as discrepâncias enormes entre os resultados das cinco sondagens...

ficamos com uma boa ideia da incerteza associada aos resultados do próximo dia 7.

6. Dito isto, atenção. Apesar de termos cinco "empates técnicos", as sondagens têm uma coisa em comum. O PS está à frente em todas. Podem estar todas erradas, claro. Mas que o PS tenha estado sempre à frente não é indiferente. Imaginem que, em vez de as tratamos com cinco sondagens diferentes, as tratamos com uma única sondagem, em que a sub-amostra dessa "super-sondagem" é a soma das sub-amostras das restantes (2477 inquiridos). Se o fizermos, o PS aparece com 35,5% e o PSD com 33,3%. Mas a margem de erro associada a ambos os casos é substancialmente menor, 1,88% para o PS e 1,86% para o PSD. Continua a ser "empate técnico", mas note-se, por exemplo, como o resultado máximo do PSD (35,1%) é inferior à estimativa pontual para o PS (35,5%). Mas as sondagens foram conduzidas em momentos diferentes, usam metodologias diferentes, etc, etc, etc. "Incerteza", sim, parece-me bem, para já.

11 comentários:

beijokense disse...

1. Seria muito mais útil para o "comum dos mortais" que não sabe o que é p(1-p) a obrigatoriedade de apresentação dos intervalos de confiança de cada estimador, em vez da "margem de erro máxima".

2. Por outro lado, é preciso avisar que esses cálculos (ou outros, com correcções) só seriam válidos para uma amostra probabilística e nenhuma destas o é.

3. Admitindo que o erro de sondagem (que é maior do que o mero erro de amostragem) não beneficia nem prejudica sistematicamente o mesmo partido, o facto de várias estimativas imperfeitas apontarem no mesmo sentido quanto ao partido mais votado reforça a probabilidade de esse ser mesmo o mais votado.

4. À primeira vista, o que surpreende mais é a grande variabilidade nas estimativas do BE e do PP - tem de haver algo para além do erro estatístico que as explique.

Unknown disse...

Resumindo, sim (com algumas dúvidas sobre a utilidade dos intervalos para o "comum dos mortais"; os intervalos também confundem; mas seriam pedagógicos, pelo menos).

Anónimo disse...

Nota: A sobreposição de intervalos de confiança não é a mesma coisa do que testar a igualdade entre duas percentagens.

Fazendo o teste para a poll of polls o valor é 1.63 (p-value de 0.101), ou seja o teste está quase, quase a rejeitar a igualdade entre as duas médias para um nível de significância de 10% entre as duas votações.

Só para mostrar a diferença entre sobreposição de intervalos de confiança e testes.
Se na poll of polls tivéssemos 3650 observações os intervalos de confiança a 95% seriam
PS: 33.95-37.05
PSD 31.76-34.84
E o teste teria um p-value de 4.8%, ou seja rejeitava a igualdade apesar da sobreposição.

Suposições: Para os IC e testes: amostras independentes para medir votação em PS e PSD com distribuições binomiais (o que não é o caso).

Unknown disse...

Olá. Sim, claro: usei a definição de "empate técnico" usada na imprensa. O que fez foi o teste Chi-quadrado de homogeneidade, ou estou a ver mal?

Anónimo disse...

1. Ok, mas para um leitor comum, caro PM, explique lá o que significa "Essa margem de erro máxima é a associada a uma estimativa de 50%." (estes 50% referem-se a quê?).

2. Quando fala da margem de erro associada a uma sub-amostra, quer dizer que, se numa amostra de 2000 individuos, o partido x tiver 25%, significa que a margem é calculada a partir das 1000 intenções de voto?

agradecia que explicasse, porque isto que você faz no seu blog é serviço público.

Cumprimentos,
António Faustino

Unknown disse...

Bem, sem fórmulas, é difícil. Mas há quem possa fazer melhor do que eu.

Da Wikipedia:
"Maximum and specific margins of error: while the margin of error typically reported in the media is a poll-wide figure that reflects the maximum sampling variation of any percentage based on all respondents from that poll, the term margin of error also refers to the radius of the confidence interval for a particular statistic.

The margin of error for a particular individual percentage will usually be smaller than the maximum margin of error quoted for the survey. This maximum only applies when the observed percentage is 50%, and the margin of error shrinks as the percentage approaches the extremes of 0% or 100%.

In other words, the maximum margin of error is the radius of a 95% confidence interval for a reported percentage of 50%. If p moves away from 50%, the confidence interval for p will be shorter. Thus, the maximum margin of error represents an upper bound to the uncertainty; one is at least 95% certain that the "true" percentage is within the maximum margin of error of a reported percentage for any reported percentage".

Sobre a pergunta dois, do site da American Association for Public Opinion Research:
"If the poll results are based on any subsample of the total sample, for example the findings include not only what all adults say but also show what women say, then the MOSE for the results for that subsample are based on the size of that group, not the total sample. For example, if 1000 adults are interviewed, but the findings show the result of women only, then the sample size to look at in the chart would be at about 500 since women and men are generally distributed about evenly. If instead the results are shown for any other subgroup, you would need to know how many people make up that subgroup in the sample to be able to know the MOSE."

Substituir "women" por "eleitores que manifestam uma intenção de voto" e "men" por "eleitores que não manifestam uma intenção de voto".

Ver: http://www.aapor.org/marginofsamplingerror

NG disse...

Não escrevo para defender a classe (até porque muitas vezes não encontro grande defesa), mas para tentar perceber melhor a questão “margem de erro” vs. “empate técnico” e apresentar o ponto de vista de quem está "do outro lado".

Enquanto consumidor intermédio de sondagens, que por vezes teve de “traduzir” os números para linguagem simples, também eu já liguei um empate técnico a uma diferença percentual inferior à declarada na margem de erro da ficha técnica. Tecnicamente, percebi, é um erro.

No entanto, aquele valor da margem de erro descrito na ficha técnica tem de ter alguma utilidade. Por várias razões, as explicações que dão sobre como calcular os intervalos de confiança são impossíveis de aplicar por praticamente todos os jornalistas (incluindo eu).

Há algum termo compreensível para o comum dos mortais (o nosso consumidor de notícias) que classifique a situação em que uma diferença percentual é inferior à margem de erro (máxima) declarada na sondagem?

Sendo tecnicamente errada, a designação dada pelos jornalistas a um resultado como “empate técnico” acaba por ser uma forma simples de dizer às pessoas que os partidos estão tão próximos na sondagem que as suas diferenças até ficam dentro da margem de erro (máxima) da sondagem.

Unknown disse...

"Há algum termo compreensível para o comum dos mortais (o nosso consumidor de notícias) que classifique a situação em que uma diferença percentual é inferior à margem de erro (máxima) declarada na sondagem?"

Mas o ponto deste post (e de outros que se seguiram) é que esse facto é irrelevante. Porque deveríamos andar à procura de um nome para ele? A margem de erro máxima está lá como valor de referência para comparar sondagens umas com as outras, e nada mais.

O que acho que os jornalistas deveriam fazer é serem mais exigentes com as empresas que lhes fazem os estudos e pedir-lhes que lhes expliquem estas questões. E sempre que queiram escrever que o partido A está à frente do partido B, ou que o partido A subiu da sondagem anterior para a actual, perguntem a quem faz as sondagens se é mesmo assim. Por que não pedir uma opinião prévia sobre as peças, só para ter a certeza que não se estão a dizer coisas erradas? Não é a morte do artista.

A alternativa seria ter pessoas que têm formação sobre estas coisas a escrever nos jornais. Mas para isso não há nem dinheiro nem recursos humanos disponíveis. Logo...

NG disse...

Efectivamente, a pergunta não tem sentido para quem estuda o assunto. Percebi isso antes. Mas a verdade é que o raciocínio “vantagem abaixo da margem de erro = empate técnico” continuará a ser feito e a ser chamado frequentes vezes por esse nome. Parece inevitável: este fim-de-semana o ´fenómeno` voltou a repetir-se e são os próprios políticos que seguem (ou pelo menos parece que aceitam) a comparação (http://ultimahora.publico.clix.pt/noticia.aspx?id=1382243).

Posso estar enganado, mas acredito que quando tentar explicar a um colega que não tem sentido falar em empate técnico receberei como resposta algo do género: é uma forma simples de dizer que os partidos estão tão próximos que a diferença até fica dentro da margem de erro da ficha técnica da sondagem.

Concordo com a segunda solução: colocar quem tem formação a escrever sobre os temas – nisto e em todas as áreas. Mas isso nem sempre é possível e muitas vezes impraticável... Como aponta, a maioria dos meios de comunicação tem falta de meios humanos e mesmo que exista formação, nem sempre quem sabe está disponível para pegar imediatamente (raramente há tempo) nos assuntos. E não se esqueçam que além dos jornais existem tv`s, rádios... onde o ritmo é ainda mais acelerado.

Quanto a perguntar, concordo. Todos os dias faço perguntas que para quem entrevisto são básicas, mas que tenho de esclarecer para poder informar o melhor possível o destinatário final.
O problema é que neste caso (empate técnico) o raciocínio parece à primeira vista óbvio e não podemos estar constantemente (raramente há tempo... versão 2...) a perguntar a “quem sabe” se estamos a interpretar bem ou mal. Nos casos das subidas ou descidas do partido A ou B acho que a maioria dos jornalistas (por muito mal que esteja a profissão) ainda é capaz de fazer essa interpretação.

Unknown disse...

Caro NG,
Acho que a coisa pode ser relativamente simples:

1. Os jornalistas de um órgão de comunicação que encomenda sondagens e têm de escrever sobre elas podiam sempre solicitar aos técnicos que produziram essas sondagens uma revisão dos textos por si escritos. Afirmações naturais num leigo mas que não têm sustentação nos dados, em princípio, não passarão, ou passarão com menos frequência.

2. Jornalistas que escrevem sobre sondagens que não foram encomendadas pelos órgãos de comunicação onde trabalham terão mais dificuldades. Mas se se basearem nas peças originais terão, devido a 1., menor probabilidade de cometer eles próprios erros.

3. E, claro, pode-se estudar um bocadinho. Isto não é física nuclear, longe disso. O site da AAPOR tem uma página onde se respondem a algumas questões básicas: http://www.aapor.org/poll
Há um livro muito bom, introdutório, a pensar nas questões que qualquer eleitoe possa ter: http://books.google.com/books?id=Aggmwi1lPpAC Há questões muito complexas e muito técnicas, algumas delas que foram discutadas neste blogue nos últimos dias. Mas a verdade é que, na maioria dos casos, elas não fazem diferença para o que se pretende numa peça jornalística: uma leitura básica dos resultados, sem erros e sem inferências inválidas.

4. O problema, contudo, pode ser outro. Há sondagens que, em rigor, não têm "notícia", pelo menos aquilo que um jornalista (e um leitor) tende a achar ser "notícia": não se sabe quem está à frente, nada mudou em relação à última sondagem, não se sabe por que razão os resultados desta são diferentes dos da outra, etc. Em rigor, para serem livres de inferências erradas, muitas peças seriam, aos olhos de um jornalista, desinteressantes. E há, claro, a tentação - quase obrigação - de tornar uma peça "interessante". Mas é nesse esforço que, muitas vezes, se deita fora o rigor da análise. Mas é um dilema complicado, imagino.

NG disse...

Vou guardar o link para o site da AAPOR. Será certamente útil.

A questão da necessidade de notícias interessantes tem alguma lógica, admito, em muitas situações. Por uma questão comunicacional, em rádio ou TV devem-se evitar muitos números, sob pena de termos “ruído” (quase ninguém percebe nada). Opta-se por “ideias”, “imagens”, em detrimento de números e mais números, que complicam (muito) a comunicação. Mas neste jogo complicado, o rigor deve estar sempre em primeiro lugar. Acredito que a questão "empate técnico" se deve ao facto de os jornalistas estarem efectivamente convencidos que aquela é mesmo a forma de chegar à conclusão de que estamos ou não perante um "empate técnico".