quinta-feira, novembro 18, 2010

Sabe o que vai acontecer no dia 23 de Janeiro? Nós sim (III)

Com todas as contingências explicadas nos dois posts anteriores e ainda as que explicaremos de seguida, é um exercício heróico este de prever a votação de Cavaco Silva. Mas como resistir? Não é possível resistir. Estimámos o modelo. O que encontrámos? O fundamental resume-se na sequinte equação:

Y=18,579 + 0,578*X1 + 12,317*X2

Em que X1 representa a votação dos partidos do "bloco incumbente" na eleição anterior e X2 é uma variável "muda" (com valor 1 ou 0) capturando o facto de o presidente em exercício, respectivamente, ser ou não o candidato do bloco incumbente. Se substituirmos os valores de X1 e X2 pelos valores para a próxima eleição, X1 será 42,4 (a percentagem de votos válidos dos partidos de direita nas últimas legislativas) e X2 será, obviamente, 1. Resultado:

Cavaco Silva terá uma votação de 55,393% na 1ª volta das eleições presidenciais.

Quão razoável é esta previsão? Há indicadores de sinais contrários:

* Positivos:
1. Mesmo com apenas seis observações e três graus de liberdade, as variáveis que pensámos poder influenciar a votação do bloco incumbente são estatisticamente significativas com p<0,05 e na direcção prevista.

2. O coeficiente de determinação do modelo é de 95%. Ou seja, o modelo é fantástico! Ups, talvez não, dado que, com tão poucas observações, este valor, mesmo que elevado, tem pouco significado.

3. Para analisar a robustez dos nossos resultados a uma amostra tão pequena, fizemos pequenas manipulações da amostra e vimos quão sensível os nossos resultados eram a essas manipulações. A manipulação é simples: para cada uma das 6 observações de que dispomos, retiramo-la da amostra e reestimamos o modelo. Assim, podemos testar se os resultados que obtemos são altamente influenciados por alguma eleição particularmente excêntrica. Os resultados não foram maus.

*Negativos:
1. O nosso erro padrão (já tendo em conta a incerteza dos coeficientes estimados) é de quase 5%. Ou seja, o intervalo de confiança de 95% para a estimativa pontual da previsão é tão largo que quase não tem significado. Por outras palavras, se construíssemos um intervalo de confiança em torno da nossa previsão, diríamos que a votação de Cavaco seria, com 95% de confiança, algures entre 45 e 65%.

2. O modelo falhou miseravelmente num teste mais formal, que já tínhamos usado a pretexto da nossa previsão para as legislativas. Esse teste é chamado condition index test. De acordo com a literatura valores desse teste superiores a 15 são problemáticos. Superiores a 30 são a garantia de problemas. No nosso caso o valor foi superior a 60. Um valor tão alto indica problemas de multicolinearidade, algo que só pode ser resolvido com uma amostra maior.

Em suma, como ficamos? Há sinais encorajadores, particularmente a direcção e significância das variáveis independentes. Mas a incerteza é muito grande. O baixo número de observações - seis - faz com que esta previsão pouco mais rigor possa ter do que uma mera regra de três simples. Ele gera também valores de coeficientes de determinação enganadoramente altos e cria uma incerteza muito grande em torno da previsão estimada, que só tenderá a diminuir à medida que possamos basear esta inferência num número maior de observações. Esperamos, por isso, que apreciem devidamente a ironia de apresentarmos o resultado da previsão às milésimas e, de resto, a ironia do próprio título destas entradas.

Pedro Magalhães e Luís Aguiar-Conraria 

15 comentários:

João Vasco disse...

Olá,

Duas perguntas:

Porquê 45%-65% e não 50%-60%? Não é 5% para baixo e para cima em torno do valor central (~55%)?

E o que é que se passa com o vosso projecto, o Trocas de Opinião? desistiram? Vai voltar? O que se passou?

De resto, parabéns pela ideia. Se fosse apostar na votação de Cavaco Silva no trocas, apontava para comprar abaixo dos 55 e vender acima :p

Luís Aguiar-Conraria disse...

para um intervalo de confiança de 95% somam-se e subtraem-se dois desvios-padrão.

João Vasco disse...

Claro! Se fosse só 1 ficava a 68%.
Que distraído..

De qualquer forma não pude deixar de reparar que o Luís não respondeu à segunda pergunta. E também era um dos dinamizadores do Trocas. O que aconteceu?

Unknown disse...

No caso o vosso intervalo de confiança é de 39,55 a 71,23.

Como estão a fazer previsão/predição o intervalo de confiança é dado por:

predição+-T*se(e), em que se(e)=sqrt(se(predição)^2+sigma^2)

O que vocês apresentaram foi o intervalo de confiança para o valor esperado e não para o valor próprio, ou seja o intervalo para uma média de eleições infinitas com o mesmo valor de X1 e X2, e não para uma especifica, neste caso para além do erro padrão da predição têm de considerar a variância do termo de erro.

Wooldridge 2nd edition, chapter 6 pág:200/201

Nota: apesar de valer o que vale, porque tem apenas seis observações as suas variáveis não rejeitam a hipótese de raiz unitária (excepto a dummy), logo apenas se forem cointegradas a regressão é válida, e sabe uma coisa (na margem) são-no.

Augusto disse...

Se o o resultado que apontam sair errado , como estou certo que sucederá, veremos quais as justificações....

São sempre o mais interessantes.

Ainda me lembro da vitória "assegurada" de Vital Moreira nas ultimas Europeias.....

Luís Aguiar-Conraria disse...

P, acha mesmo que nos esqueceríamos de algo tão básico como isso? Por amor de Deus.

Luís Aguiar-Conraria disse...

João Vasco, eu não era dinamizador. Era mero participante, por isso não respondi. Terá de ser o Pedro a responder.

Luís Aguiar-Conraria disse...

Augusto, se a previsão estiver errada qual é o problema?
Da parte que me toca, e falo apenas por mim, até agora só me senti na necessidade de justificar precisamente quando acertámos nas previsões que fizemos.

Luís Aguiar-Conraria disse...

Raiz unitária numa série que, por definição, está limitada nos seus valores superiores e inferiores? Meu caro P, ao ler o seu comentário, numa primeira leitura, ainda pensei que fosse um bom aluno de licenciatura a querer mostrar que tinha aprendido bem as lições de 'Introdução à Econometria'. Vá, durma bem.

Unknown disse...

Primeiro, pensei que pudesse ter errado numa coisa tão básica porque foi isso que explicou à pergunta que lhe fizeram (somar/subt o erro padrão da regressão). No entanto como coloquei os dados num software de Econometria e os intervalos de confiança (num OLS - o que é de qq forma a forma errada de fazer a regressão) foram aqueles que eu disse e não os que vocês disseram. Assim o erro ou foi esse ou utilizaram o t errado: o valor t a usar é com 6-2-1=3 graus de liberdade e deveria ser de 3,18245, mas enfim).
Segundo, a série é limitada superior e inferiormente, contudo isso não quer dizer que não tenha raiz unitária e/ou haja cointegração.
Como sabe estacionaridade diz apenas que a distribuição da qual provém é sempre a mesma e estacionaridade em covarinacia diz que esperança e variância é constante e a cov entre duas observações depende do afastamento e não do lugar de onde se tira. Onde está a necessidade de não ser limitada? Aliás quando se fazem os testes à taxa de desemprego acha mesmo que esta não é limitada(?).
Na verdade na questão da raiz unitária em séries limitadas apenas tem de se considerar que o termo de erro não é gaussiano, e isso leva a alterar a forma como se fazem os testes
Veja por exemplo:
http://amsacta.cib.unibo.it/2420/1/Quaderni_ricerche_gc_LimitedTime.pdf.

Finalmente, se usar um modelo logistico com um máximo assimptótico de 100, a previsão é de 53.46.
Na verdade deveria-se utilizar um double bounded model, contudo não estou com tempo de andar a correr o procedimento (os outros eram automáticos).

Boa tarde, e antes de tentar ser reactivo, analise o que lê.

PS: O "aluno" está mais perto (fisicamente) de si do que pensa.

Unknown disse...

Caro Augusto com um intervalo de 39 a 71 tudo pode acontecer, assumindo que o modelo estimado é o correcto (e não o é).
Mas já reparou que na estimação esta eleição é a primeira vez que o incumbente não é de esquerda? E isso não está controlado...
Gostaria de ver a mesma estimação com os seguintes pressupostos:
1) Cand. de direita
2) Cand. de esquerda.

Presumo que nestes casos se se colocasse como variável dependente o somatório de cand. de esq/direita e a % de votantes de esq./direita na última eleição daria o Alegre vencedor (????). Além de que neste caso o tratamento da segunda eleição do Soares ser essencial para o resultado.

Nota: Para ver outliers basta ver a alavancagem: Dav. and Mackninnon ETM.

Luís Aguiar-Conraria disse...

p, se quiser que lhe explique o seu erro, mande-me um email que eu explico-lhe.
Forte abraço,
LA-C

Unknown disse...

Tem o meu mail no prefil. Portanto explique...

Unknown disse...

http://amsacta.cib.unibo.it/2420/1/Quaderni_ricerche_gc_LimitedTime.pdf

Conclusions "in the paper":
The paper shows how the presence of range constraints affects the
asymptotic distribution of unit root tests. Testing for unit roots in limited time series should always be carried out with caution since, when the unit root hypothesis is rejected, range constraints can be the
cause of the rejection. The approach suggested in the paper provides a way to assess the role of range constraints and it can be implemented easily. It allows a quick evaluation of the relevance of the limits, and also to test statistically if a given limited time series reverts because of
the presence of the limits alone (the ‘bounded unit root’ hypothesis)
or because it is mean reverting within such limits (the ‘bounded, near unit root’ hypothesis). The proposed asymptotic framework provides an extremely adequate approximation of the finite sample properties of unit root tests under range constraints.

The paper is published here also:
Econometric Theory
LIMITED TIME SERIES WITH A UNIT ROOTEconometric Theory (2005), 21: 907-945 Cambridge University Press Copyright © 2005 Cambridge University Press doi: 10.1017/S0266466605050462 (About doi) Published online by Cambridge University Press 22 Aug 2005


Ver tb:
http://www.de.dau.lv/matematika/lmb5/tezes/Sinenko_Andrejeva.pdf




Mas é óbvio, eu estou errado e os vosso intervalos de confiança estão certos.

Um abraço.

Unknown disse...

Fiz a mesma regressão e considerei candidatos de esquerda (não os incumbentes) e considerei a % de partidos apoiantes a candidatos de esquerda. Assim a regressão é a mesma mas na 7ª observação considerei os dados para a esquerda: cerca de 57% dos votos (PS+BE+PCP) e não recandidatura.
Num OLS o resultado deu para os cand. de esquerda:
Previsão 51,86
I.C. 38,43 - 65,28

eh!eh!

PS: Se fizer o contrário, candidatos de direita, há um problema: esta é a primeira vez que um candidato de direita se recandidata, logo não se consegue controlar este factor.