7 de abril de 2026

Cuando el Tamaño no lo es Todo

 






"Un número pequeño de casos, bien elegidos, tiene mucho más valor que un gran número de casos elegidos sin método" Arthur Lyon Bowley (Reino Unido n.06-11-1869 m.21-01-1957).


En el imaginario colectivo, existe una idea persistente: más es mejor. Creemos que, para conocer una verdad, necesitamos la mayor cantidad de datos posible. Sin embargo, la historia de la estadística nos enseña una lección contraintuitiva y elegante: la precisión no reside en la acumulación masiva de unidades, sino en la arquitectura de la selección.

Durante milenios, la única forma que la humanidad concebía para conocer a una población era el censo. Si querías saber cuántos hombres tenían edad para la guerra o cuántas tierras pagaban impuestos, debías contarlos uno por uno. La idea de que una parte pudiera representar al todo era considerada una blasfemia científica. Si no habías contado cada grano de trigo o cada ciudadano, simplemente estabas adivinando.

Sin embargo, la historia de la estadística dio un giro radical cuando comprendimos que una parte bien seleccionada podía hablar con precisión por el todo.

El primer quiebre teórico no vino de la demografía, sino del azar, cuando Jacob Bernoulli (Suiza 1655 – 1705), formuló su Ars Conjectandi (publicada póstumamente por su sobrino Nicolaus I en 1713), introdujo la Ley de los Grandes Números (LGN, ver https://gilbeworld.blogspot.com/2026/03/domesticando-el-caos-el-fascinante.html). Este teorema es el primer pilar del muestreo: establece que la media de una muestra de variables aleatorias converge al valor esperado a medida que el tamaño de la muestra crece.

Varios años antes, en 1654, Blaise Pascal (Francia 1623 – 1662) y Pierre Fermat (Francia 1601 – 1665), al resolver problemas sobre la división de apuestas, sentaron las bases del cálculo de probabilidades. Sin probabilidad, el muestreo moderno sería imposible, pues es la herramienta que nos permite medir la incertidumbre.

Pero cuidado, "crecer" en matemáticas es un concepto relativo; la verdadera revolución fue entender que la convergencia ocurre mucho antes de alcanzar el tamaño de la población total.

A medida que los Estados nacionales crecían, el costo de los censos se volvió prohibitivo. En el siglo XIX, figuras como Adolphe Quetelet (Bélgica 1796 – 1874), comenzaron a aplicar la estadística a fenómenos sociales, acuñando el concepto del "hombre medio". Sin embargo, todavía existía una resistencia feroz a la idea del muestreo; los estadísticos de la época creían que cualquier cosa que no fuera un recuento completo era una "estimación inferior".

El cambio de paradigma comenzó a gestarse con la necesidad de eficiencia. Si bien se hacían "muestreos" informales, carecían de una base matemática que garantizara que la muestra no estuviera sesgada.

El verdadero padre del muestreo moderno es el noruego Anders Nicolai Kiaer (Noruega 1838 – 1919). En una reunión del Instituto Internacional de Estadística en 1895, propuso algo revolucionario: el "Método Representativo".

Kiaer argumentó que no era necesario encuestar a toda la población si se seleccionaba una muestra que fuera una "miniatura" de la sociedad, respetando proporciones de edad, sexo y ubicación. Aunque inicialmente fue ridiculizado —sus colegas decían que era "peligroso" sustituir datos reales por cálculos—, Kiaer demostró que sus resultados en Noruega eran casi idénticos a los de los censos totales.

Sin embargo, a Kiaer le faltaba el andamiaje formal. Fue Arthur Lyon Bowley (Reino Unido 1869 – 1957), quien, a inicios del siglo XX, aplicó el Teorema Central del Límite (que esencialmente afirma que, con un tamaño de muestra suficientemente grande, la distribución muestral de la media se distribuirá normalmente, independientemente de la distribución de la población), para demostrar que el error de una muestra no depende tanto del tamaño de la población total ($N$), sino del tamaño de la muestra misma ($n$) y de la variabilidad interna de los datos.

$$\text{Error Estándar} \approx \frac{\sigma}{\sqrt{n}}$$

Donde $\sigma$ (Sigma) es la desviación estándar de la población. Mide la variabilidad o "dispersión" original de los datos. Si los datos están muy dispersos, el error estándar será mayor.

Esta fórmula es el corazón de por qué el tamaño no lo es todo: el error disminuye con relación a la raíz cuadrada de $n$. Una vez que alcanzas cierto umbral, añadir más sujetos ofrece beneficios marginales decrecientes.

El hito más importante de este periodo ocurrió en 1934, cuando Jerzy Neyman (Polonia 1894 – 1981), publicó un artículo que cambió la estadística para siempre. Neyman estableció tres cosas vitales:

  1. El muestreo aleatorio estratificado, generalmente superior al muestreo aleatorio simple. Técnica de muestreo probabilístico que divide a toda la población en subgrupos o estratos homogéneos (similares entre sí) basados en características compartidas (como edad, género o nivel socioeconómico), para luego extraer una muestra aleatoria simple de cada estrato. Esta técnica garantiza representación de cada grupo.
  2. Desestimó definitivamente el "muestreo por cuotas" (no aleatorio) como un método científicamente poco fiable.
  3. Introdujo los intervalos de confianza, esto es un rango de valores, derivado de datos muestrales, que probablemente incluye el valor real de un parámetro poblacional desconocido (como la media o proporción) con un nivel de probabilidad determinado. Permite cuantificar la incertidumbre y precisión de una estimación, ofreciendo límites superior e inferior, afirmando cosas como: "Estamos 95% seguros de que el valor real está entre X y Y".

La prueba de fuego de estas teorías ocurrió en las elecciones presidenciales de EE. UU. de 1936. La revista Literary Digest realizó un sondeo masivo: 2.4 millones de respuestas. Un tamaño de muestra colosal. Predijeron una derrota aplastante para Franklin D. Roosevelt.

Al mismo tiempo, un joven George Gallup (EE.UU. 1901 -1984), utilizando una muestra de apenas 50,000 personas (menos del 2% del tamaño de la revista), predijo correctamente la victoria de Roosevelt. Gallup acertó; la revista falló por 19 puntos.

¿Qué falló? El sesgo de selección. La revista obtuvo sus direcciones de listines telefónicos y registros de automóviles. En plena Gran Depresión, solo los ricos tenían teléfonos y coches. No importaba que tuvieran millones de datos; estaban midiendo el segmento equivocado. Fue la victoria definitiva de la calidad probabilística sobre la cantidad bruta. Este hito marcó el fin de la era de la "fuerza bruta" y el inicio de la era del muestreo científico.

Si bien los fundamentos de Neyman y Gallup siguen vigentes, la teoría del muestreo ha entrado en una fase de "muestreo inteligente" y adaptativo. En un mundo saturado de datos, la tendencia actual no es solo cómo elegir a quién preguntar, sino cómo integrar fuentes de datos dispares.

  • Muestreo Híbrido (Data Integration): La frontera actual es la combinación de muestras probabilísticas tradicionales con "muestras de conveniencia" provenientes de Big Data (redes sociales, sensores, transacciones). El reto matemático actual es desarrollar estimadores que eliminen el sesgo de los datos masivos usando una pequeña muestra de control perfecta.
  • Diseños Adaptativos y Machine Learning: Hoy se utilizan algoritmos de Machine Learning para ajustar la muestra en tiempo real. Si durante la recolección de datos se detecta que un estrato (por ejemplo, jóvenes rurales) está subrepresentado, el sistema ajusta automáticamente el diseño para sobrerrepresentar ese grupo en las siguientes iteraciones, optimizando el costo y el tiempo.
  • Muestreo en Poblaciones Ocultas: Técnicas como el Respondent-Driven Sampling (RDS) han evolucionado con modelos matemáticos que permiten estudiar poblaciones sin marco muestral (como personas con enfermedades raras o minorías en riesgo) mediante cadenas de referencia, tratando las redes sociales como grafos matemáticos.
  • Investigación "Phygital" y Ágil: En 2026, el muestreo se ha vuelto ultra-veloz. Se realizan micro-sondeos constantes a través de dispositivos móviles que, mediante modelos de "pequeñas áreas" (Small Area Estimation), permiten obtener inferencias locales precisas que antes requerían censos masivos.

Hoy, en la era de los algoritmos, la IA y el Machine Learning, la lección de 1936 es más relevante que nunca. El Big Data a menudo sufre de "muestreo de conveniencia": tenemos billones de datos, pero no siempre son representativos de la realidad global.

La teoría del muestreo nos sigue recordando que una pequeña cantidad de datos, extraídos con un diseño experimental robusto y una aleatoriedad controlada, es infinitamente más poderosa que una montaña de información sesgada. En estadística, como en la vida, el diseño y la estructura superan al volumen.

La historia del muestreo es la historia de la humildad intelectual: reconocer que no podemos saberlo todo, pero que podemos entender casi todo si elegimos con sabiduría qué mirar. Como hemos visto, cuando el tamaño no lo es todo, la estructura lo es casi todo. En la era de la Inteligencia Artificial, la vieja lección de Gallup sigue siendo nuestra mejor brújula: la calidad del dato siempre vencerá al volumen del ruido.


No hay comentarios:

Publicar un comentario