Este martes 2 de mayo de 2023, Prensa Libre publicó su primera Encuesta Libre sobre la intención de voto para las elecciones del próximo domingo 25 de junio de 2023 en Guatemala. Dicho ejercicio nos da una foto instantánea de cómo va la carrera de caballos del 14 al 23 de abril de 2023, es decir, justo dos meses antes del evento electoral. En su ficha técnica, la empresa encuestadora (ProDatos) informa que el universo se definió así: “guatemaltecos, hombres y mujeres, de 18 años y más, en áreas urbanas y rurales.” La distribución de su muestra fue la siguiente: 50% hombres y 50% mujeres; 36% entre 18-29 años; 32% de 30-44 años y 32% de 45 y más años; 46% área rural, 33% interior urbano y 21% área metropolitana; 87% de nivel socioeconómico bajo; 11% nivel medio bajo y medio; y 2% medio alto y alto. A partir de esta muestra se recogieron 1,202 entrevistas. ¿Qué tan preciso puede ser el resultado dada esa muestra?
Prensa Libre reconoce que, si bien han acertado en el orden de las preferencias de los votantes para la segunda vuelta de hace cuatro años, los porcentajes de intención de voto no fueron tan precisos como se esperaba, pues las diferencias superaron el margen de error (diferencias de 3.1 puntos porcentuales vs +/- 2.8 puntos): 61.1% vs 58% para Giammattei, y 38.9% vs 42% para Torres, siendo la primera cifra lo que la encuesta estimaba y la segunda el resultado definitivo de las elecciones. Una posible explicación es que algunos factores importantes de la contiendan cambiaron entre la fecha de la encuesta y el día de las votaciones, lo cual favoreció un poco a Torres. Sin embargo, también podría ser que la falta de precisión se debió a la forma tradicional en que las empresas encuestadoras definen su universo, es decir, la población que la muestra representa. Lo cual ha sido cuestionado en los últimos años por los expertos del tema en los Estados Unidos.
Por otro lado, es más complejo acertar con los porcentajes sobre la intención de voto en primera vuelta, cuando hay demasiadas opciones para el electorado y éstas fluctúan a lo largo del tiempo. Por ejemplo, la encuesta realizada por Prensa Libre once días antes de la primera vuelta de 2019 (publicada el 13 de junio, tan sólo tres días antes), mostró diferencias más allá del margen de error de +/- 2.8 puntos porcentuales para los casos de Giammattei (+3.9 puntos), Arzú (+3.8 puntos), y Villacorta (-3.8 puntos). Recordemos que, inicialmente, había 24 binomios y finalmente se les permitió competir a 19 de ellos. A continuación, se presentan los datos de los primeros nueve binomios en ese momento:
Gráfico 1. Porcentajes sobre votos válidos de Encuesta Libre vs resultados electorales, 2019.
Fuente: elaboración propia a partir de Encuesta Libre y TSE. ** Datos recolectados del 27 mayo al 5 de junio de 2019 por ProDatos/Prensa Libre. *** Memoria de Elecciones 2019 del Tribunal Supremo Electoral, p. 373.
Sexo de las personas encuestadas
ProDatos/Prensa Libre han decidido dar el mismo peso a hombres y mujeres para su muestra, a pesar de estar bien documentado que, actualmente, las mujeres representan el 52% de la población adulta, el 54% del padrón electoral, 58% de la población afiliada a algún partido político y, lo más importante de todo, el 55% de la población que asistió a las urnas durante la primera vuelta de 2019. En este sentido, podemos afirmar que la Encuesta Libre tiende a sobre representar a los hombres y, por lo tanto, a sub representar a las mujeres en cuanto a su intención de voto.[1]
Edad de las personas encuestadas
En la muestra se otorgó un peso de 36% a los jóvenes entre 18-29 años, pero en el padrón este grupo sólo llega al 25% debido alto porcentaje de jóvenes que quedaron fuera del mismo. Para el rango de edad de 30 a 44 años el peso dado en la muestra fue de 32%, en contraste con uno de 36% en el padrón finalmente depurado. A los guatemaltecos de 45 o más años se les ponderó también con 32% en la muestra, mientras que en realidad son el 39% del padrón.[2] Por lo tanto, la muestra tiende a sobre representar a los jóvenes y, por lo tanto, sub representa a los de 30 o más.
Estas brechas pueden ampliarse o cerrarse, si tomamos en cuenta el factor que más se enfatiza ahora entre los encuestadores norteamericanos para poder acertar en las estimaciones: la detección del posible votante (likely voter, en inglés), quien además de estar inscrito en el padrón tiene una fuerte intención de acudir a votar el día de las elecciones. Es decir, ya no basta con que la muestra refleje la estructura del padrón, sino que debe ser lo más parecida posible a la configuración de los asistentes a las urnas. De nada sirve tener la opinión de alguien que no irá a votar. En todo caso, esto sólo puede generar ruido innecesario en las estimaciones de la encuesta.
Ruralidad de la muestra
Según el Censo de Población y Vivienda realizado por el Instituto Nacional de Estadística (INE) en 2018, el 46% de la población vive en áreas rurales. Sin embargo, su definición de ruralidad ha sido cuestionada por obsoleta. Prensa Libre asume ese porcentaje como válido para su muestra. La revisión de dicha definición con propósitos estadísticos, de acuerdo con las recomendaciones de expertos internacionales, toma en cuenta densidad, cantidad de población y la actividad económica a la que se dedica la mayoría. De tal manera que pueden identificarse zonas rurales dispersas, poblados rurales, periurbanos y urbanos, todas con distintos niveles de centralidad.[3] De esta manera, se pueden definir categorías de gradientes, a manera de reflejar un continuum rural-urbano, en lugar de dicotomías simplistas que nos hacen perder información.[4]
Por su parte, el Tribunal Supremo Electoral (TSE) define en cada elección las Circunscripciones Electorales Municipales (CEM) rurales, que son lugares donde se instalan juntas receptoras de votos (mesas), además de las que se ponen en las cabeceras municipales. En 2019, por ejemplo, el TSE dispuso implementar 893 CEM a donde podrían acudir un total de 2,578,190 ciudadanos, es decir, el 32% del padrón (el mismo peso que en las elecciones de 2015).[5] Para 2023 se contemplan 1,213 CEM, es decir, 320 adicionales, pero aún no sabemos a qué porcentaje de los empadronados esperarían. Habría que contrastar la cartografía del TSE con la del INE para determinar en qué categoría realmente se encuentran esos CEM.[6] No obstante, sabemos que el padrón tiende a ser más urbano que rural.
Sobre el nivel socioeconómico de los encuestados, no tenemos una buena herramienta para determinar los porcentajes de la población en el padrón electoral que corresponden a esas categorías de nivel bajo (D), medio bajo y medio (C2/C3), o medio alto y alto (BC1). El TSE sólo provee estadísticas sobre alfabetismo de las personas. Si tuviéramos, al menos, los años de escolaridad podrían usarse como proxy. Por otro lado, para conocer los niveles de pobreza existentes, hasta ahora el INE está actualizando su cartografía para, finalmente, realizar la Encuesta Nacional de Condiciones de Vida (ENCOVI-2023). Recordemos que la anterior fue del 2014.
Para ver el posible efecto en la precisión de los resultados de la encuesta podemos hacer las siguientes tablas:
SEXO de los encuestados (porcentajes)
EDAD de los encuestados (porcentajes)
*Los rangos de edad utilizados por el TSE son un tanto diferentes, por lo que se agregaron los siguientes para obtener porcentaje: 18-30, 31-45, y 46 o más.
REGIÓN geográfica de los encuestados (porcentajes)
* No está clara la definición del “área Metropolitana” usada por la empresa encuestadora, pero se asume como el departamento de Guatemala completo, no sólo del Distrito Central, o la ciudad de Guatemala y sus municipios colindantes. ** Peso de votantes en área rural corresponde al 2015 (año de participación con récord histórico). Se basa en el reporte del TSE sobre asistencia en CEM rurales (lo mismo para dato del padrón 2023 sobre área rural).
La Encuesta Libre patrocinada por Prensa Libre y realizada por la empresa ProDatos constituye un bien público muy valioso para la sociedad guatemalteca, pues hay escasos esfuerzos de este tipo, justo en tiempos en los que la información es vital para la toma de decisiones. Además de los ajustes que se le podrían hacer a la muestra para ganar mayor precisión, el valor de esta aumentaría si Prensa Libre libera los datos para que más actores de la sociedad civil podamos analizarla a profundidad. Al menos, sería de gran utilidad la publicación de todas las tablas con los posibles cruces por región, edad, sexo y nivel socioeconómico, así como el cuestionario utilizado.[7]
[1] Por otro lado, debemos recordar que cuando hagamos alguna afirmación desagregando por sexo, el margen de error sube a 4 puntos porcentuales, manteniéndose el nivel de confianza en 95%.
[2] Finalmente, la cifra depurada de personas inscritas en el registro de ciudadanos es de 9 millones 361 mil 68. La edad promedio del padrón es de 42.3 años. Como hemos mencionado antes, hubo un envejecimiento, pues en 2019 la edad promedio era 42.0 años. En 2019, las personas inscritas de 30 o menos años eran el 28.7 por ciento del total, mientras que en 2023 son el 27.6 por ciento. Es decir, bajaron más de un punto porcentual respecto al total del padrón. Esto debido al tardío e insuficiente esfuerzo por parte del Tribunal Supremo Electoral para inscribir a los jóvenes.
[3] Lebeau, Jean-Roch (2019). “Urbano/rural en el censo. Modelaciones y discusión de primeros resultados.” Grupo Innovaterra (presentación de consultoría para UNFPA/INE).
[4] Por ejemplo, el INE definió que todas los municipios que son cabecera departamental son 100% urbanos. Pero esto no es correcto. En el estudio de Jean-Roch Lebeau ya citado se explica que Cobán, cabecera de Alta Verapaz, tiene casi 45% de sus habitantes en poblados claramente rurales, un 14% en zona periurbana, 36% habita dentro de la “mancha urbana” y solamente el 3% en la centralidad urbana. El 2% restante está en el área rural dispersa.
[5] También coincide con el peso del dominio “rural nacional” usado para la Encuesta Nacional de Empleo e Ingresos, ENEI 2022. En este sentido, podría decirse que la Encuesta Libre está sobre estimando el área rural y, por lo tanto, sub estimando el área urbana.
[6] Retomándose el ejemplo de Cobán, la Dirección Electoral del TSE definió siete CEM y una “extensión urbana” dentro del municipio. Ver mapa en https://www.tse.org.gt/index.php/direccion-electoral/cartografia/245-mapa-descentralizacion-del-voto-alta-verapaz
[7] La transparencia en la publicación de resultados es fundamental para que los usuarios de las encuestas los puedan interpretar de manera correcta. La iniciativa para la transparencia de la Asociación Americana para la Investigación de la Opinión Pública (AAPOR por sus siglas en inglés) sugiere los siguientes estándares aquí: https://aapor.org/wp-content/uploads/2023/01/TI-Attachment-C.pdf