El vocablo alemán "Staatskunde" dio lugar en francés a "statistique", y de ahí pasó al español "estadística". El matemático belga Adolphe Quételet aplicó la estadística y los métodos probabilísticos a las ciencias humanas buscando "la prevención de costosas revoluciones". Esa metodología solo había sido empleada anteriormente para caracterizar la dispersión de mediciones astronómicas.

En 1846 Quételet explicó el concepto de "hombre medio" a partir de la distribución en forma de "sombrero de gendarme" que hoy día conocemos como campana de Gauss. El concepto de hombre medio fue clave para el estudio de la "opinión pública" que emergió en el siglo XIX en EE.UU. con los "votos de paja" (Straw votes) obtenidos mediante encuestas realizadas por los periódicos (había que recortar cupones en diarios o revistas y reenviarlos contestando a una pregunta electoral). Desde 1824, el Harrisburg Pennsylvanian o el Raleigh Star interrogaron a sus lectores aplicando el método de "votos de paja" de cara a elecciones presidenciales.

En 1896, el Chicago Tribune estimó el voto sondeando aleatoriamente a un elector de cada ocho. El sondeo arrojó una estimación muy precisa, apartándose tan solo el 0,4 % del resultado real.

Las encuestas periodísticas del siglo XIX se realizaban mediante una metodología muy rudimentaria. Auscultaban a efectivos numerosos, pero, a menudo, sesgados. Además, su finalidad era prioritariamente promocionar el periódico o el posicionamiento político del propietario en lugar de realizar una fotografía de la opinión pública. En esas circunstancias, los primeros institutos de sondeo encontraron el terreno libre para, pertrechados de mejores metodologías, realizar encuestas más solventes que las de los periódicos.

Era Gallup

Precursor en la materia fue el sociólogo norteamericano George Gallup (1901-1984) que aplicó a la política los métodos de marketing en los que era experto. Según Gallup, a partir de muestras reducidas -2.000 personas, por ejemplo- que representen fidedignamente a la población se obtienen mejores previsiones que con muestras con millones de encuestados pero mal diseñadas. En 1936 Gallup predijo la reelección de Roosevelt partiendo de una muestra de pocos miles de personas, al tiempo que la revista Literary Digest daba con toda seguridad ganador a Landon basándose en "votos de paja" de diez millones de votantes.

Hoy se llama sondeo al procedimiento estadístico que tiene como fin suministrar información de un colectivo -acerca de hechos, opiniones, deseos, comportamientos, etc.- a partir de una muestra considerada representativa. Las muestras representativas pueden ser aleatorias o no, pero el muestreo aleatorio permite calcular los errores de muestreo. El caso más sencillo es el muestreo simple que consiste en extraer aleatoriamente y de forma independiente una muestra de - individuos de una población de N elementos. Cada elemento tendrá la misma probabilidad (probabilidad uniforme) de pertenecer a una muestra de - individuos y cada una de las posibles muestras de - individuos tendrá la misma probabilidad de formarse. El muestreo aleatorio simple garantiza la independencia de errores, esto es, la ausencia de autocorrelación entre los datos relativos a un mismo carácter estadístico. Y la independencia es imprescindible para la validez de varios tests estadísticos.

¿Qué es una muestra aleatoria?

Las encuestas no pueden ser exhaustivas, serían demasiado costosas, por ello se recurre a sondeos. Los sondeos interrogan una muestra -en nuestro caso, subconjunto del censo electoral- que ha sido seleccionada a partir de un procedimiento aleatorio, por ejemplo, un sorteo. Pero la selección aleatoria no garantiza que la muestra no sea sesgada. Verbigracia, un sondeo por Internet (o por teléfono) excluye a todas las personas no conectadas (o sin teléfono) y, por tanto, su probabilidad de pertenecer a la muestra es nula. En aras de minimizar sesgos, sin poderlos evitar completamente, a las muestras aleatorias se les exige teóricamente que cada individuo del censo electoral -más generalmente, de la población auscultada- pueda ser caracterizado a priori por una probabilidad conocida y no nula de pertenecer a la muestra.

Conocer a priori esa probabilidad no es cosa sencilla y resulta, además, económicamente caro. De ahí que muchos de los datos muestrales que nos llegan a través de los medios de comunicación no sean aleatorios. De hecho, de los múltiples muestreos que se realizan en España, puede asegurarse que, aparte de los trabajos muestrales realizados en el laboratorio (por químicos, físicos, biólogos, ingenieros, etc.) prácticamente sólo el INE utiliza muestras aleatorias con objetivos sociales, vale decir: demográficos, sociológicos, económicos, etc.

Errores de respuesta

Existen, por supuesto, técnicas muy depuradas en el diseño de encuestas no-aleatorias (rutas, cuotas y demás) que suelen arrojar buenas estimaciones. En todo caso, cualesquiera que sean las técnicas usadas, la fiabilidad de las estimaciones se complica al tratar de obtener resultados acerca de opiniones o intenciones. Por otra parte, toda encuesta de opinión o de intención electoral se ve muy seriamente amenazada por los "errores de respuesta".

Se sabe que buena parte de los españoles se atiene a la vieja conseja según la cual "al que quiere saber, poco y al revés". En estas condiciones, si se solicita a un ciudadano que desvele el secreto de su voto, la tentación de engañar se acrecienta, disparándose así los errores de respuesta. Esto lo saben bien quienes se dedican a este negocio, por eso casi nunca publican los datos directamente obtenidos sino que se manejan mediante criterios normalmente basados en el buen olfato con el cual la experiencia ha dotado al analista y, también, en el recuerdo de voto. ¿A quién votó usted en las elecciones pasadas? Como se conoce el resultado de esas elecciones, se puede calcular, con cierto margen de error, "cuánto" están engañando los encuestados al contestar a esa pregunta. El analista intenta "sacar de mentira verdad" pero nunca nos dice cómo lo hace, con lo cual se le hurtan al público las tripas del manejo. Baste con saber que ese proceso de estimación recibe dentro del gremio el clarificador nombre de "cocina" aunque en el mercado lo presenten como secretas "cajas negras" obtenidas gracias a la ciencia estadística de cada casa.

En 1965, el estadístico Stanley L. Warner ensayó un astuto sistema de "randomized method", que en castellano se ha bautizado como método de "randomización" y, aunque no suene muy bien, quizás sea preferible a "aleatorización". El encuestador enseña a cada persona interrogada una tarjeta con dos afirmaciones: "Ya robé en un supermercado" y "Nunca robé en un supermercado" . Paralelamente, la persona interrogada efectúa un sorteo no equiprobable para escoger la afirmación a la que responderá "sí" o "no". El encuestado responderá por tanto sin que el encuestador sepa a qué opción se está refiriendo. Se puede probar que cuanto más cerca esté de 0 ó de 1 la probabilidad de contestar "sí" mejor será la precisión después de la corrección mediante randomización. Pero es en los ensayos clínicos donde la randomización ha desarrollado toda su potencialidad.

¿Podemos confiar en las encuestas electorales?

A estas alturas del relato, el lector habrá entendido ya hasta qué punto en las encuestas electorales estamos ante un asunto tan dudoso como espeso, pero hay algún inri más.

En los mentideros se asegura que las distintas empresas que se dedican a encuestas electorales se consultan entre ellas antes de sacar a la luz las encuestas definitivas, es decir, aquéllas que se publican el domingo anterior al de la elección. Al parecer, prefieren equivocarse juntas a arriesgarse por separado, pues ya se sabe que "el mal de muchos" no deja de ser un consuelo. En cierta medida, ejemplifican casi hasta la caricatura "la sabiduría de las multitudes". Francis Galton, primo de Darwin, tomó 900 personas al azar, en una feria de ganado, y les hizo estimar el peso de un toro. El promedio de las estimaciones individuales de las 900 personas -una "multitud"- fue mejor que la media de las estimaciones del peso del toro realizadas por tres expertos tratantes de ganado. La estimación media de la "multitud" incurrió en un error de solo 1% respecto al peso real del toro. Este sistema recibiría posteriormente el nombre de "sabiduría de las multitudes" ("The Wisdom of Crowds"). El problema para los institutos de sondeo es que el consenso de tres expertos no da el mismo resultado que la estimación obtenida por una multitud no sesgada.

Actualmente, la mayor inquietud respecto a los sondeos electorales proviene de su capacidad para influir en los resultados. Por ello, el legislador ha tomado medidas, aunque poco eficaces. Alguien que no sea de lealtad política "inquebrantable" puede tener intención de votar al PSdeG-PSOE en las elecciones gallegas, pero si una semana antes de los comicios un sondeo le informa de que solo podrá gobernar en coalición con los nacionalistas quizás prefiera transferir su voto a UPyD. No obstante, si considera esa opción un desperdicio de voto, podría acabar dándoselo al PP. También pudiera darse el caso de nacionalistas culturales que optasen por votar al PP -por considerarlo más gallego: Fraga, Rajoy, el populismo enxebrista, etc.- antes de permitir que con sus papeletas gobernase el PSdeG-PSOE, partido al que reputan de ser medio sevillano. Es decir, según las informaciones suministradas por los sondeos los electores sopesan transformar la primera intención de voto en "útil" o de "castigo".

Juan José Ramón Calaza es economista y matemático

Joaquín Leguina Herrán es Estadístico Superior del Estado