Hay numerosos sesgos: por ejemplo, al probar posibles correlaciones entre diferentes magnitudes, el investigador de turno, simplemente, desdeña aquellas que NO se producen y se queda con las que SÍ se producen. Ojo, que esto es perfectamente natural, en principio. Pero no tener en cuenta todo aquello que NO funciona, es decir, olvidarlo, nos puede llevar a un autoengaño. Pensemos que estamos haciendo un experimento de tirar monedas al aire y registrar si sale cara o cruz. En una tirada suficientemente larga, es lógico que suceda una serie seguida de caras o cruces (o una serie seguida de cara-cruz-cara-cruz etcétera… la configuración que queramos). Si nos quedamos con esa serie en concreto, podemos calcular la probabilidad de que algo así suceda al azar. Y siempre resulta ser ridículamente baja. Pongamos 10 veces seguidas de caras. Como una cara o una cruz tienen una probabilidad de 1/2, y cada tirada es un suceso independiente (en principio) del anterior, es evidente que sacar dos caras -en concreto- tendrá una probabilidad de 1/2 x 1/2, es decir, 1/4. ¿Hace falta seguir? 10 caras es un suceso ciertamente improbable: 1/2^10 = 1/1024 = 0,00098, o sea que sólo una de cada mil veces -aproximadamente- pasaría algo así. Desde luego, sin más, cuando nos dicen que alguien es capaz de tirar 10 caras seguidas, sin más, nos podemos sorprender. ¡¡Sólo una de cada 10.000 personas podría hacer algo así!! Pues no. Hay que recordar que estamos calculando una probabilidad TRAS el suceso. Que hemos sesgado una serie posiblemente más amplia para quedarnos con lo que queríamos. En latín le dicen a esta falacia “post hoc ergo propter hoc”. No vale calcular la probabilidad a posteriori, no señor.
El caso de las múltiples variables que metemos en nuestro flamante paquete estadístico no es exactamente similar, pero podemos hacernos una idea con el asunto que comentaba de las monedas. Al correlacionar diferentes datos, es más que probable que aparezcan algunas correlaciones, para una muestra (o Universo) determinado. Pero esto no vale sin más para hacer una conclusión.
Afortunadamente, la estadística misma proporciona formas de poder evaluar si hay sesgos a la hora de encontrar estas correlaciones. En el caso de las monedas, como dispondríamos de las series “largas”, podríamos ver sin más que la elección de la serie que nos venía bien para conseguir ese sujeto que siempre tiraba caras era incorrecta. En el caso que nos ocupa, pasa lo mismo. Y Peter Austin hizo bien su trabajo: bastaba con partir el Universo inicial aleatoriamente en grupos para ver si esas curiosidades estadísticas seguían teniendo valor. Otra opción, claro, sería disponer de los datos de otra provincia, o de otra época. Hay métodos muy potentes en estadística (como las simulaciones Monte Carlo) para comprobar si una correlación es realmente significativa.
Wordpress