segunda-feira, dezembro 26, 2005

Dispersão

Uma das maneiras de interpretar os resultados de diferentes sondagens é olhar para a sua dispersão. Deste ponto de vista, o analista não faz qualquer pressuposição sobre a existência de efeitos sobre as estimativas resultantes da passagem do tempo, dos eventos políticos ou de qualquer outra dinâmica da campanha. No máximo, pressupõe que esses efeitos são erráticos, impossíveis de determinar ou negligenciáveis em relação às restantes fontes de erro, fontes essas ligadas quer ao facto de se usarem amostras para fazer inferências sobre o universo quer à miríade de factores (questionários usados, ordem das perguntas, etc, etc, etc) que podem produzir erro não amostral. Assim, o analista limita-se a constatar que há estimativas diferentes que resultam da medição da intenção de voto nas presidenciais e interpreta a sua maior ou menor dispersão como medida de uma maior ou menor incerteza acerca das intenções de voto num determinado candidato.

Quero manter isto o mais simples possível, e por isso abordo a questão da dispersão dos resultados para cada candidato consiste calculando simplesmente a amplitude (a diferença entre os resultados máximos e mínimo) e o desvio-padrão (distância em relação ao valor médio dentro da qual se encontram 68% das observações). Como se vê no gráfico seguinte, os resultados que vêm exibindo maior dispersão são os atribuidos pelas sondagens a Cavaco Silva e Mário Soares.
















Contudo, feita assim, a comparação entre os candidatos é enganadora. Por exemplo, seria sempre de esperar que a dispersão obtida para os resultados de Cavaco Silva fosse elevada em comparação com a obtida para os restantes candidatos, dado que a margem de erro amostral é tanto maior quanto mais próximos os resultados estejam de 50%.

Logo, uma maneira melhor de comparar a dispersão dos resultados é comparar aquela que se verifica nos resultados com a que deveria ser esperada se a única fonte de diferenças entre as sondagens fosse a margem de erro amostral. Para esse efeito, calculei a amplitude esperada em torno da estimativa média para cada candidato causada pelo erro amostral para uma amostra de 945 (a média da dimensão das amostras nas 14 sondagens publicadas até ao momento) e, de seguida, dividi a amplitude real por essa amplitude esperada para cada candidato:


Como se interpreta este gráfico? A diferença entre os resultados máximo e mínimo obtidos pelas sondagens para Mário Soares é 2,3 vezes superior ao que seria de esperar caso a única fonte de discrepâncias entre as sondagens fosse o erro amostral. No extremo oposto, temos Jerónimo de Sousa, cujos resultados nas 14 sondagens publicadas até ao momento têm estado quase todos dentro das variações expectáveis tendo em conta o erro amostral.

Por outras palavras: na hipótese de que não se consiga apoiar com os dados disponíveis qualquer teoria plausível sobre como a passagem do tempo está a determinar variações entre os resultados obtidos para cada candidato ou sobre como a utilização de determinadas opções técnicas está a conduzir a enviesamentos em relação à realidade, o maior nível de incerteza existe em relação às intenções válidas de voto em Mário Soares, cujos resultados exibem disparidades muito superiores ao que seria de esperar tendo apenas em conta o erro amostral associado às várias estimativas. Apesar da variação nos resultados de Cavaco Silva ser, em absoluto, igualmente grande, ela é bastante menos significativa, tendo em conta que se estão a estimar resultados mais próximos dos 50%.

Sem comentários: