quinta-feira, novembro 18, 2010

Sabe o que vai acontecer no dia 23 de Janeiro? Nós sim (III)

Com todas as contingências explicadas nos dois posts anteriores e ainda as que explicaremos de seguida, é um exercício heróico este de prever a votação de Cavaco Silva. Mas como resistir? Não é possível resistir. Estimámos o modelo. O que encontrámos? O fundamental resume-se na sequinte equação:

Y=18,579 + 0,578*X1 + 12,317*X2

Em que X1 representa a votação dos partidos do "bloco incumbente" na eleição anterior e X2 é uma variável "muda" (com valor 1 ou 0) capturando o facto de o presidente em exercício, respectivamente, ser ou não o candidato do bloco incumbente. Se substituirmos os valores de X1 e X2 pelos valores para a próxima eleição, X1 será 42,4 (a percentagem de votos válidos dos partidos de direita nas últimas legislativas) e X2 será, obviamente, 1. Resultado:

Cavaco Silva terá uma votação de 55,393% na 1ª volta das eleições presidenciais.

Quão razoável é esta previsão? Há indicadores de sinais contrários:

* Positivos:
1. Mesmo com apenas seis observações e três graus de liberdade, as variáveis que pensámos poder influenciar a votação do bloco incumbente são estatisticamente significativas com p<0,05 e na direcção prevista.

2. O coeficiente de determinação do modelo é de 95%. Ou seja, o modelo é fantástico! Ups, talvez não, dado que, com tão poucas observações, este valor, mesmo que elevado, tem pouco significado.

3. Para analisar a robustez dos nossos resultados a uma amostra tão pequena, fizemos pequenas manipulações da amostra e vimos quão sensível os nossos resultados eram a essas manipulações. A manipulação é simples: para cada uma das 6 observações de que dispomos, retiramo-la da amostra e reestimamos o modelo. Assim, podemos testar se os resultados que obtemos são altamente influenciados por alguma eleição particularmente excêntrica. Os resultados não foram maus.

*Negativos:
1. O nosso erro padrão (já tendo em conta a incerteza dos coeficientes estimados) é de quase 5%. Ou seja, o intervalo de confiança de 95% para a estimativa pontual da previsão é tão largo que quase não tem significado. Por outras palavras, se construíssemos um intervalo de confiança em torno da nossa previsão, diríamos que a votação de Cavaco seria, com 95% de confiança, algures entre 45 e 65%.

2. O modelo falhou miseravelmente num teste mais formal, que já tínhamos usado a pretexto da nossa previsão para as legislativas. Esse teste é chamado condition index test. De acordo com a literatura valores desse teste superiores a 15 são problemáticos. Superiores a 30 são a garantia de problemas. No nosso caso o valor foi superior a 60. Um valor tão alto indica problemas de multicolinearidade, algo que só pode ser resolvido com uma amostra maior.

Em suma, como ficamos? Há sinais encorajadores, particularmente a direcção e significância das variáveis independentes. Mas a incerteza é muito grande. O baixo número de observações - seis - faz com que esta previsão pouco mais rigor possa ter do que uma mera regra de três simples. Ele gera também valores de coeficientes de determinação enganadoramente altos e cria uma incerteza muito grande em torno da previsão estimada, que só tenderá a diminuir à medida que possamos basear esta inferência num número maior de observações. Esperamos, por isso, que apreciem devidamente a ironia de apresentarmos o resultado da previsão às milésimas e, de resto, a ironia do próprio título destas entradas.

Pedro Magalhães e Luís Aguiar-Conraria 
Enviar um comentário