Didier Castille y la búsqueda de artefactos

Matrimonios-y-defunciones

Hoy publicamos otro estimulante artículo de Didier Castille en el que este autor revisa los resultados de dos de sus investigaciones: una sobre matrimonios (y que publicamos hace unos meses aquí) y otra sobre defunciones.

El propósito de dicha revisión era averiguar si la coincidencia de resultados entre ambas investigaciones se debía a un artefacto, es decir, a un error de medición. Aunque Didier acaba este artículo siguiendo ignorando lo que ocurre, es casi seguro que los resultados encontrados respondan a un sesgo provocado por errores de registro (para más información véase el trabajo de Voas (2007), «Ten million marriages: A test of astrological love signs»). Sin más, dejamos aquí su escrito:

Cuestionando los métodos

Resumen: Dos exámenes estadísticos realizados sobre poblaciones muy diferentes y con la misma metodología conducen a resultados bastante similares. Una duda surge de estos dos hechos: estamos quizás ante un artefacto. En este artículo, los diferentes pasos metodológicos son criticados, uno por uno, pero no permiten identificar el artefacto que sospechábamos. Las conclusiones extraídas de cada uno de los dos estudios permanecen sin explicación.

Dos experimentos, un método, resultados similares

Observamos 6.498.320 matrimonios que fueron registrados por las oficinas de registro francesas entre 1976 y 1997 (véase Sunny Day for a Wedding), y 10.081.752 defunciones de personas de más de uno que se registraron en Francia entre 1979 y 1997 por las mismas oficinas de registro (ver A Link between Birth and Death).

Ambos estos estudios se basaron en la misma hipótesis nula: las dos fechas son independientes entre ellas:
• Para el primer estudio, la fecha de nacimiento de la esposa es independiente de la fecha del marido,
• Para el segundo estudio, la fecha del fallecimiento es independiente de la fecha de nacimiento de la persona fallecida.
La misma metodología se realizó para ambos estudios con el fin de probar la validez de la hipótesis nula:
• en un primer paso, fue atribuida a cada fecha la longitud del Sol a las 12 horas GMT; las longitudes solares estaban dispuestas en doce clases (signos astrológicos),
• después, las observaciones se distribuyeron en una tabla de 144 celdas (12 muestras para cada fecha),
• a continuación, se calculó una distribución teórica, en comparación con la distribución real y se realizó una prueba de Chi-cuadrado,
• para cada estudio, el valor de Chi-cuadrado fue bastante alto y la hipótesis nula fue rechazada con un riesgo de error muy pequeño,
• el análisis de las contribuciones de Chi-cuadrado mostró que, para cada estudio, las combinaciones de los mismos signos solares fueron significativamente más numerosos de lo previsto.

En consecuencia, nos quedamos muy dudosos frente a estos resultados inesperados. Era imprescindible llevar a cabo controles con el fin de comprobar la coherencia de las estadísticas. Se consideraron tres puntos de vista:
• 1- se puso en duda la distribución real. El número de personas que usamos fue muy extenso y los fenómenos que observamos, si fueran significativos, fueron más bien escasos. Tal vez estos resultados fueron inevitables con tan vastas poblaciones. El control que imaginábamos consistió en la realización de pruebas de combinaciones aleatorias entre los signos.
• 2- cuestionamos la forma con la que atribuimos una longitud solar a cada fecha. Los controles que imaginamos consistieron en el uso de un calendario común. En una primera etapa, comprobamos la independencia del mes de nacimiento y el mes del fallecimiento tomando el número de días de cada mes en la cuenta. En una segunda etapa, respecto a que el período de cumpleaños pareciera estar vinculado con la fecha del fallecimiento, se calculó el número de días que separan las dos fechas en tanto población real y población al azar.
• 3- pusimos en duda la robustez de la herramienta estadística que habíamos utilizado, es decir, la prueba de Chi-cuadrado, puesto que estábamos trabajando en grandes poblaciones. Aquí, tratamos de conocer empíricamente si el tamaño de la muestra fue el principal factor que podría producir un alto valor de Chi-cuadrado y, en consecuencia, demostrar la importancia de los resultados.

Primer control: trabajando sobre las poblaciones ficticias

Las siguientes tablas esquematizan, para cada combinación de signos, la desviación de los valores esperados de los valores reales de las bodas y de los fallecimientos. Las tablas del lado izquierdo representan las poblaciones reales, las tablas del lado derecho representan las poblaciones aleatorias. Estas poblaciones ficticias fueron construidas por la división de los archivos originales en dos partes (una parte conteniendo los datos de las esposas y la otra con los maridos), y mediante la creación de combinaciones aleatorias. Nuestro objetivo fue comparar las poblaciones reales y las poblaciones ficticias.

Las diferencias entre las tablas del lado izquierdo y las tablas de la derecha son evidentes: los valores de Chi-cuadrado no sólo son muy diferentes (295,1 y 119,4 para los matrimonios, 229.7 y 147.7 para los fallecimientos), pero las diagonales con un exceso de observaciones significativas son ordenadas en las tablas de la izquierda y están ausentes en las tablas de la mano derecha.

Segundo control: la referencia temporal

Primero, hemos probado la independencia del mes de nacimiento y el mes del fallecimiento de toda la población. El valor de chi-cuadrado alcanzó 271,97 lo que significa que la hipótesis nula puede ser rechazada con un muy bajo riesgo de error.
En segundo lugar, hemos tenido en cuenta el número de días que componen los meses ponderando cada observación. Por ejemplo, para alguien que nació en mayo (31 días) y que murió en junio (30 días), se utilizó una ponderación de 0,968 (= [30/31] [30/30]). Ponderado de esta manera, la población contenía 9 801 490 fallecimientos. La prueba se realizó en esta población ponderada produjo un valor de Chi-cuadrado de 265,42, valor que confirma el resultado anterior.
A continuación, se calculó el número de días que separan el día de nacimiento y el día del fallecimiento. Entonces, distribuimos las observaciones de acuerdo con 73 clases de 5 días cada uno y se comparó la frecuencia de cada clase para la frecuencia media (ver histograma izquierdo). Las mismas operaciones se realizaron en la población ficticia (histograma de la derecha).

En resumen, la hipótesis nula puede ser rechazada, tanto si podemos utilizar una referencia zodiacal o una referencia del calendario ordinario para localizar las observaciones en el tiempo.

Tercer control: el impacto del tamaño de la muestra

¿Tiene el gran tamaño de poblaciones que utilizamos una influencia sobre la fiabilidad de la estadística de Chi-cuadrado? Esta estadística refleja la suma de todas las desviaciones relativas al cuadrado de los valores reales respecto a los valores teóricos. En consecuencia, una mera desviación de 700 observaciones sobre 70 000 esperadas produce un aporte de 7, lo cual es lo suficientemente alto como para ser considerado como significativo.

En otras palabras, con vastas poblaciones tal vez podamos esperar siempre un valor de Chi-cuadrado elevado en cuanto se reúnan algunas pequeñas desviaciones.

El siguiente ejemplo muestra que no es cierto. Pusimos a prueba la independencia del día de la semana del nacimiento (domingo, lunes, etc) y el día de la semana del fallecimiento. Se obtuvo un valor de Chi-cuadrado débil (20,9), lo que significa que podemos rechazar la hipótesis nula con un enorme riesgo de error (97,9%). Ninguna de las contribuciones es significativa

Desviación de los valores reales a partir del valor teórico según el día de nacimiento y el día del fallecimiento:

Este control demuestra que una prueba de Chi-cuadrado se realiza en grandes poblaciones no es sistemáticamente significativa.

Conclusión

Bodas y fallecimientos registrados por las oficinas de registro franceses muestran vínculos estadísticos que ponen de relieve los períodos de cumpleaños. Sospechamos un artefacto relacionado con el método que utilizamos. A partir de los controles que realizamos, el edificio de las distribuciones teóricas, la referencia temporal y las pruebas estadísticas no pueden ser cuestionadas. Una explicación sigue esperando ser encontrada.