sexta-feira, janeiro 14, 2005

Limites e virtudes da "poll of polls"

Tenho recebido vários e-mails, todos invariavelmente amistosos. Estou aliás a ponderar se a minha renitência em permitir comentários aos posts deste blogue (motivada pelas horripilantes experiências a que tenho assistido noutros blogues) não será injustificada.

E outra coisa interessante é que tenho recebido mensagens de pessoas que parecem perceber realmente de Estatística. Para compreender o que esse "realmente" quer dizer bastará dizer que percebem muito mais do que eu. Nos cursos de Ciência Política aprendem-se umas coisas, com a prática e as leituras outras, mas saber é saber. Quando começo a ouvir falar em "heterocedasticidade", a mente começa-me a ficar ligeiramente turva.

Isto para dizer que recebi uma amável mensagem onde se faz uma observação a algo que escrevi antes: que fazer uma poll of polls, uma média dos resultados obtidos por diferentes sondagens em momentos próximos do tempo, ajudaria a "cancelar" o erro amostral. A observação é a seguinte:

Já agora faço um ligeiro reparo à sua observação sobre a "Poll das Polls": Não seria o erro de enviezamento (não amostral) que tenderia a anular-se quando se comparam sondagens com diferentes formatações de processos amostrais? É que a Distribuição Amostral da Variância (erro amostral) deve (penso eu) ser uma variável independente nos dois processos amostrais seguidos pelas empresas em causa, pelo que constituiria um factor de agravamento no cômputo do Erro Aleatório Total da (digamos) Sondagem Consolidada...

Ora muito bem. Expliquei-me certamente mal, e pode até suceder que, por muito bem que me consiga explicar, continue a estar fundamentalmente enganado. Mas o que penso estar correcto é o seguinte:

1. Se o erro associado a uma estimativa sobre uma distribuição na população for meramente erro "não sistemático", "amostral", aquele que resulta de usar apenas uma parte (amostra) dessa população para fazer inferências, a média obtida tendo como base um número infinito de amostras extraídas no mesmo momento da mesma população com os mesmos procedimentos de amostragem deveria convergir para a média da população. Estou correcto?

2. Sabemos, claro, que:
- não temos um número infinito de amostras;
- elas não são extraídas no mesmo momento;
- os procedimentos de amostragem são diferentes;
- os questionários são diferentes.

3. Contudo, mesmo que usemos um número não-infinito de amostras recolhidas em momentos próximos no tempo e com dimensões diferentes (são três - bem sei - violações aos pressupostos anteriores) e façamos a média dos resultados obtidos, não estaremos nós, no entanto, a continuar a contribuir para reduzir o erro amostral? Não é como se estivéssemos, simplesmente, a aumentar a dimensão da amostra?

4. Parece-me a parte do erro que que as médias nunca servem para corrigir é o erro sistemático. Por exemplo: se todas as sondagens forem telefónicas, e se houver algo que faça com que os eleitores que não tenham telefone sejam substancialmente diferentes dos restantes, fazer a média não corrige o erro sistemático (enviesamento) que daí decorre. Outro exemplo: se houver um factor socio-político que leve a que potenciais eleitores de um determinado partido ocultem mais as suas opções aos inquiridores do que potenciais eleitores de outro partidos, posso fazer um número infinito de sondagens que não é isso que me vai eliminar essa fonte de erro. O erro sistemático aparecerá em todas as sondagens e, logo, também na média.

5. Dito isto, aproximando-me agora do autor da mensagem, há quem defenda que, se não tivermos quaisquer expectativas acerca de que procedimentos de amostragem e inqurição melhor ajudam à eliminação de fontes de erro sistemático, calcular a média simples de sondagens que utilizam metodologias de amostragem e inquirição substancialmente diferentes é uma maneira de o reduzir. Isto porque há trade-offs que fazem com que a eliminação de algumas fontes de erro sistemático através de determinados procedimentos leve ao aparecimento de outras, pelo que a média tende sempre a ser a melhor estimativa. Ver, por exemplo, Armstrong, J. Scott (2001), "Combining Forecasts," in J. Scott Armstrong (Ed), Principles of Forecasting, Norwell, Kluwer;

6. E dito isto, os problemas na nossa poll of polls mantêm-se: são muito poucas, são muito espaçadas no tempo e, a acreditar no Sr. Armstrong, não utilizam procedimentos suficientemente diversos. Mas quanto mais não seja - e é talvez isso que deveria ter dito desde o princípio - a "poll of polls" dá-nos a capacidade de comparar as sondagens entre si por meio de um referencial fornecido pela média de todas elas.

Terei razão no todo ou em parte desta argumentação? Estou bem menos que 100% seguro, ou não fosse o título deste blogue aquele que é. Vejam, por exemplo, a animada discussão que se seguiu a este post do Mistery Pollster sobre o assunto. Gostava muito de ouvir mais "estatísticos a sério" - e eu não pertenço à classe - pronunciarem-se sobre isto...

Enviar um comentário