Margens de erro: Aleatoriedade e quotas, teoria e prática

Num post anterior, sobre uma das sondagens realizadas nos últimos tempos, escrevi aqui que "se a amostra foi seleccionada de forma a que os indivíduos que a compõem se distribuam pelo território e em termos das suas características socio-demográficas e socio-políticas (sexo, idade, instrução, actividade e anterior comportamento eleitoral)" a amostra não pode ser aleatória, e terá sim de ser por quotas.

Recebi um comentário onde se aponta uma incorrecção a esta afirmação. Segundo esse comentário, eu estaria a confundir o conceito de "estratificação" com o conceito de "quotas". Estratificar significa dividir a população em sub-grupos na base de uma variável cuja distribuição "real" (na população) se julga conhecer. Mas isso, claro, não impede a selecção aleatória. Significa apenas que, por exemplo, se eu souber que 52% da população é composta por mulheres, eu tenho de me assegurar que 52% da minha amostra é seleccionada aleatoriamente entre as mulheres dessa população, e que 48% será seleccionada aleatoriamente entre os homens dessa população. Isto não é uma amostragem por quotas, mas sim uma amostragem estratificada aleatória.

Pois é, é verdade. Mas gostava de recordar outras coisas que também são verdade. Se eu souber à partida como se distribui territorialmente a população eleitora, eu posso de facto assegurar-me que os inquiridos na minha amostra estão distribuídos de forma proporcional à distribuição da população pelo território, quer faça sondagens telefónicas quer as faça face-a-face. Mas o que sucede quando se trata se seleccionar inquiridos em cada domicílio e garantir ao mesmo tempo que a sua selecção acaba por cumprir critérios socio-demográficos ou socio-políticos de estratificação? Tenho duas hipóteses:

1. Usar um critério aleatório de selecção do inquirido em cada domicílio (o último aniversariante, o próximo aniversariante, ou outro critério qualquer). Se eu fizer isto, mesmo que volte a bater à porta dessa casa ou a telefonar várias vezes para esse número para tentar encontrar o indivíduo aleatoriamente seleccionado sem o substituir por outro, é óbvio que, a certa altura, vou ter de desistir de encontrar todos os aleatoriamente seleccionados. E quando isso acontecer, é altamente improvável que a distribuição da minha amostra por sexo, idade, instrução ou anterior comportamento de voto reflecta a distribuição real da população. Para ser mais concreto, é muito provável que, por exemplo, vá ter menos indivíduos dos 18 aos 34 anos e com mais de 65 anos, assim como menos homens, do que deveria em face da população. Se se considerar que isto é um problema (e pode não ser, depende daquilo que se quer descrever e explicar), é possível "ponderar" os resultados. Ou seja, podem dar-se pesos diferentes a indivíduos com características diferentes de modo a que, na base daquilo que se sabe acerca da população, se possa aumentar aritmeticamente o peso dos grupos sub-representados na amostra e diminuir o peso dos grupos sub-representados.

2. Contudo, pode-se fazer outra coisa. Não sei quais as características de cada pessoa que vive em cada domicílio, nem tenho uma lista de todos os eleitores de acordo com o seu sexo, instrução, idade ou comportamento de voto em eleições anteriores. Mas como sei quais são as características da população a nível agregado (INE, resultados eleitorais), posso estabelecer objectivos, um número de inquiridos que quero ter em cada subcategoria. Posso mesmo começar por usar um critério aleatório de selecção dos inquiridos em cada domicílio. Mas vai chegar uma altura em que já tenho, por exemplo, todos os "homens", com "idades entre os 35 e os 44 anos", com "instrução primária" e que tenham "votado no PS nas eleições anteriores" de que necessito para que a minha amostra represente esse grupo em proporção ao que se conhece da população. E agora: o que sucede quando, aleatoriamente, se volta a encontrar uma pessoa com as mesmas características? Se o incluir na amostra, estou de facto a fazer selecção aleatória, mas vai-me acontecer novamente o que descrevi no ponto anterior. Contudo, posso seguir outro caminho: não o entrevistar, substituindo-o por outro inquirido que tenha as características que me faltam representar na amostra.

Sucede que, esta segunda hipótese - lamento informar- não é amostragem aleatória. É amostragem por quotas. A combinação entre estratificação e aleatoriedade exige que se conheça à partida o estatuto de todos os membros da população nas variáveis de estratificação. Para uma sondagem nacional, isto é (relativamente) fácil de fazer quando se trata de localização territorial, segundo regiões ou dimensão das localidades, por exemplo. Contudo, é impossível de fazer quando se usa, por exemplo, o comportamento de voto anterior como variável de estratificação: não existem listas separadas das pessoas que votaram neste ou naquele partido em 2002, que contenham informação sobre a sua segregação residencial por comportamento de voto, e de onde se possa extrair aleatoriamente os inquiridos em proporção ao seu peso na população. A não ser, claro, que a amostra seja extraída de um painel previamente construído, composto por indivíduos cujas características são conhecidas à partida e na base das quais se possam ir extraindo sub-amostras "aleatórias". Mas se assim fosse, ficaria muito surpreendido (para não dizer chocado) se a ficha técnica da sondagem omitisse essa crucial informação.

Para terminar: não é drama nenhum usar quotas. Há vantagens e desvantagens. E a verdade é que as sondagens tendem a exibir uma combinação de métodos distintos. Mesmo as que usam amostragem por quotas quando se trata de seleccionar inquiridos não deixam de seleccionar domicílios ou localidades aleatoriamente. Os americanos têm enormes preconceito contra as quotas, especialmente desde as catastróficas sondagens que previram a vitória de Dewey sobre Truman em 1948. Mas como assinala um pollster..

"Virtually all public opinion surveys conducted in the United States since then [1948]– whether conducted face-to–face or by telephone – have used some modified version of probability (or random) sampling. Indeed, for American researchers quota sampling is almost a dirty phrase. The situation in Europe has been quite different. The great majority of face-to-face opinion surveys, including election surveys, conducted in France, Germany, Italy, the United Kingdom and other European countries have used some form of quota sampling, with the interviewers given considerable latitude to find and select respondents who fit the quota cells (usually based on sex, age, one or two socio-economic factors and other variables). Giving the interviewers this freedom to select whom to survey is unacceptable in the United States, but the European quota method has worked reasonably well over many years and has been widely accepted, not only by practitioners and their clients but also by many European academic researchers – something which Americans find very puzzling."(1)

O que convém é chamar as coisas pelos nomes que elas têm.

(1)Taylor, H. (1998). "Opinion Polling", in C. McDonald e P. Vangelder (eds.) ESOMAR Handbook of Marketing and Opinion Research, Amsterdam.

Margens de erro

segunda-feira, janeiro 24, 2005

Aleatoriedade e quotas, teoria e prática

1 comentário:

Arquivo do blogue

Ligações