"Un
número pequeño de casos, bien elegidos, tiene mucho más valor que un gran
número de casos elegidos sin método" Arthur Lyon Bowley (Reino Unido n.06-11-1869
m.21-01-1957).
En el imaginario colectivo, existe una idea persistente: más es mejor. Creemos que, para conocer una verdad, necesitamos la mayor cantidad de datos posible. Sin embargo, la historia de la estadística nos enseña una lección contraintuitiva y elegante: la precisión no reside en la acumulación masiva de unidades, sino en la arquitectura de la selección.
Durante milenios, la única forma que la humanidad concebía para conocer
a una población era el censo. Si querías saber cuántos hombres tenían edad para
la guerra o cuántas tierras pagaban impuestos, debías contarlos uno por uno. La
idea de que una parte pudiera representar al todo era considerada una blasfemia
científica. Si no habías contado cada grano de trigo o cada ciudadano,
simplemente estabas adivinando.
Sin embargo, la historia de la estadística dio un giro radical cuando
comprendimos que una parte bien seleccionada podía hablar con precisión por el
todo.
El primer quiebre teórico no vino de la demografía, sino del azar, cuando
Jacob Bernoulli (Suiza 1655 – 1705), formuló su Ars Conjectandi (publicada
póstumamente por su sobrino Nicolaus I en 1713), introdujo la Ley de los
Grandes Números (LGN, ver https://gilbeworld.blogspot.com/2026/03/domesticando-el-caos-el-fascinante.html).
Este teorema es el primer pilar del muestreo: establece que la media de una
muestra de variables aleatorias converge al valor esperado a medida que el
tamaño de la muestra crece.
Varios años antes, en 1654, Blaise Pascal (Francia 1623 – 1662) y Pierre
Fermat (Francia 1601 – 1665), al resolver problemas sobre la división de
apuestas, sentaron las bases del cálculo de probabilidades. Sin probabilidad,
el muestreo moderno sería imposible, pues es la herramienta que nos permite
medir la incertidumbre.
Pero cuidado, "crecer" en matemáticas es un concepto relativo;
la verdadera revolución fue entender que la convergencia ocurre mucho antes de
alcanzar el tamaño de la población total.
A medida que los Estados nacionales crecían, el costo de los censos se
volvió prohibitivo. En el siglo XIX, figuras como Adolphe Quetelet (Bélgica 1796
– 1874), comenzaron a aplicar la estadística a fenómenos sociales, acuñando el
concepto del "hombre medio". Sin embargo, todavía existía una
resistencia feroz a la idea del muestreo; los estadísticos de la época creían
que cualquier cosa que no fuera un recuento completo era una "estimación
inferior".
El cambio de paradigma comenzó a gestarse con la necesidad de
eficiencia. Si bien se hacían "muestreos" informales, carecían de una
base matemática que garantizara que la muestra no estuviera sesgada.
El verdadero padre del muestreo moderno es el noruego Anders Nicolai
Kiaer (Noruega 1838 – 1919). En una reunión del Instituto Internacional de
Estadística en 1895, propuso algo revolucionario: el "Método
Representativo".
Kiaer argumentó que no era necesario encuestar a toda la población si se
seleccionaba una muestra que fuera una "miniatura" de la sociedad,
respetando proporciones de edad, sexo y ubicación. Aunque inicialmente fue
ridiculizado —sus colegas decían que era "peligroso" sustituir datos
reales por cálculos—, Kiaer demostró que sus resultados en Noruega eran casi
idénticos a los de los censos totales.
Sin embargo, a Kiaer le faltaba el andamiaje formal. Fue Arthur Lyon
Bowley (Reino Unido 1869 – 1957), quien, a inicios del siglo XX, aplicó el
Teorema Central del Límite (que esencialmente afirma que, con un tamaño de
muestra suficientemente grande, la distribución muestral de la media se
distribuirá normalmente, independientemente de la distribución de la población),
para demostrar que el error de una muestra no depende tanto del tamaño de la
población total ($N$), sino del tamaño de la muestra misma ($n$) y de la
variabilidad interna de los datos.
$$\text{Error Estándar} \approx \frac{\sigma}{\sqrt{n}}$$
Donde $\sigma$ (Sigma) es la desviación estándar de la
población. Mide la variabilidad o "dispersión" original de los datos.
Si los datos están muy dispersos, el error estándar será mayor.
Esta fórmula es el corazón de por qué el tamaño no lo es todo: el error
disminuye con relación a la raíz cuadrada de $n$. Una vez que alcanzas cierto
umbral, añadir más sujetos ofrece beneficios marginales decrecientes.
El hito más importante de este periodo ocurrió en 1934, cuando Jerzy
Neyman (Polonia 1894 – 1981), publicó un artículo que cambió la estadística
para siempre. Neyman estableció tres cosas vitales:
- El muestreo aleatorio estratificado, generalmente superior al muestreo aleatorio simple. Técnica de muestreo probabilístico que divide a toda la población en subgrupos o estratos homogéneos (similares entre sí) basados en características compartidas (como edad, género o nivel socioeconómico), para luego extraer una muestra aleatoria simple de cada estrato. Esta técnica garantiza representación de cada grupo.
- Desestimó definitivamente el "muestreo por cuotas" (no aleatorio) como un método científicamente poco fiable.
- Introdujo los intervalos de confianza, esto es un rango de valores, derivado de datos muestrales, que probablemente incluye el valor real de un parámetro poblacional desconocido (como la media o proporción) con un nivel de probabilidad determinado. Permite cuantificar la incertidumbre y precisión de una estimación, ofreciendo límites superior e inferior, afirmando cosas como: "Estamos 95% seguros de que el valor real está entre X y Y".
La prueba de fuego de estas teorías ocurrió en las elecciones
presidenciales de EE. UU. de 1936. La revista Literary Digest realizó un
sondeo masivo: 2.4 millones de respuestas. Un tamaño de muestra colosal.
Predijeron una derrota aplastante para Franklin D. Roosevelt.
Al mismo tiempo, un joven George Gallup (EE.UU. 1901 -1984), utilizando
una muestra de apenas 50,000 personas (menos del 2% del tamaño de la revista),
predijo correctamente la victoria de Roosevelt. Gallup acertó; la
revista falló por 19 puntos.
¿Qué falló? El sesgo de selección. La revista obtuvo sus direcciones de
listines telefónicos y registros de automóviles. En plena Gran Depresión, solo
los ricos tenían teléfonos y coches. No importaba que tuvieran millones de
datos; estaban midiendo el segmento equivocado. Fue la victoria definitiva de
la calidad probabilística sobre la cantidad bruta. Este hito marcó el fin de la
era de la "fuerza bruta" y el inicio de la era del muestreo
científico.
Si bien los fundamentos de Neyman y Gallup siguen vigentes, la teoría
del muestreo ha entrado en una fase de "muestreo inteligente" y
adaptativo. En un mundo saturado de datos, la tendencia actual no es solo cómo
elegir a quién preguntar, sino cómo integrar fuentes de datos dispares.
- Muestreo Híbrido (Data Integration): La frontera actual es la combinación de muestras probabilísticas tradicionales con "muestras de conveniencia" provenientes de Big Data (redes sociales, sensores, transacciones). El reto matemático actual es desarrollar estimadores que eliminen el sesgo de los datos masivos usando una pequeña muestra de control perfecta.
- Diseños Adaptativos y Machine Learning: Hoy se utilizan algoritmos de Machine Learning para ajustar la muestra en tiempo real. Si durante la recolección de datos se detecta que un estrato (por ejemplo, jóvenes rurales) está subrepresentado, el sistema ajusta automáticamente el diseño para sobrerrepresentar ese grupo en las siguientes iteraciones, optimizando el costo y el tiempo.
- Muestreo en Poblaciones Ocultas: Técnicas como el Respondent-Driven Sampling (RDS) han evolucionado con modelos matemáticos que permiten estudiar poblaciones sin marco muestral (como personas con enfermedades raras o minorías en riesgo) mediante cadenas de referencia, tratando las redes sociales como grafos matemáticos.
- Investigación "Phygital" y Ágil: En 2026, el muestreo se ha vuelto ultra-veloz. Se realizan micro-sondeos constantes a través de dispositivos móviles que, mediante modelos de "pequeñas áreas" (Small Area Estimation), permiten obtener inferencias locales precisas que antes requerían censos masivos.
Hoy, en la era de los algoritmos, la IA y el Machine Learning, la
lección de 1936 es más relevante que nunca. El Big Data a menudo sufre de
"muestreo de conveniencia": tenemos billones de datos, pero no
siempre son representativos de la realidad global.
La teoría del muestreo nos sigue recordando que una pequeña cantidad de
datos, extraídos con un diseño experimental robusto y una aleatoriedad
controlada, es infinitamente más poderosa que una montaña de información
sesgada. En estadística, como en la vida, el diseño y la estructura superan al
volumen.
La historia del muestreo es la historia de la humildad intelectual:
reconocer que no podemos saberlo todo, pero que podemos entender casi todo si
elegimos con sabiduría qué mirar. Como hemos visto, cuando el tamaño no lo es
todo, la estructura lo es casi todo. En la era de la Inteligencia Artificial,
la vieja lección de Gallup sigue siendo nuestra mejor brújula: la calidad del
dato siempre vencerá al volumen del ruido.
No hay comentarios:
Publicar un comentario