Ads-728

Ads-728

Psicología

Astrofísica

Genética

Neurociencia

» » » Sigma y la interpretación estadística

¿Cómo sabes cuando un nuevo hallazgo es significativo? El valor sigma te lo puede decir, pero ten cuidado con los “peces muertos”.

Esta cuestión se plantea con prácticamente todos los nuevos hallazgos de la ciencia o la medicina: ¿Qué hace que un resultado sea lo suficientemente confiable para ser tomado en serio? La respuesta tiene que ver con la significación estadística, así como con la determinación acerca de qué estándares tienen sentido en una situación dada.
La unidad de medida que viene normalmente cuando se habla de la significación estadística es la desviación estándar, y se expresa con la letra minúscula griega sigma (σ). El término se refiere a la cantidad de variabilidad de un conjunto de datos: sea que los puntos de datos estén agrupados, o muy dispersos.

En muchos casos, los resultados de un experimento siguen a lo que se llama una "distribución normal". Por ejemplo, si lanzamos una moneda al aire 100 veces, y contamos cuántas veces sale cara, el resultado promedio será 50. Y si hacemos esta prueba 100 veces, los resultados se acercarán a 50, pero no exactamente. Casi conseguiremos tantos casos con 49 ó 51. También conseguiremos un buen porcentaje de 45 ó 55, pero practicamente no habrá de 20 u 80. Si plasmamos estas 100 pruebas en un gráfico, obtendremos una bien conocida forma llamada curva de campana, más alta en el centro y disminuyendo hacia ambos lados. Esto es una distribución normal.

La desviación consiste en la consideración de qué punto de datos dado es la media. En el ejemplo de monedas, un resultado de 47 tiene una desviación de tres del valor medio de 50. La desviación estándar es justo la raíz cuadrada del promedio de todas las desviaciones cuadradas. La desviación estándar, o una sigma, trazada por encima o por debajo del valor promedio en la curva de distribución normal, definiría una región que incluye el 68 por ciento de todos los puntos de datos. Dos sigmas por encima o por debajo incluirían aproximadamente el 95 por ciento de los datos, y tres sigmas incluirían el 99,7 por ciento.

Así pues, ¿cuando se trata de un punto de datos en particular, o el resultado de una investigación, se considera importante? La desviación estándar puede proporcionar un criterio de medición: si un punto de datos está a poca distancia de la desviación estándar del modelo que se ha testeado, esta significa una fuerte evidencia de que el punto de datos no es consistente con ese modelo. Sin embargo, el uso de este criterio depende de la situación. John Tsitsiklis, profesor de Ingeniería Eléctrica en el MIT, que enseña los fundamentos de la probabilidad en el curso, señala: "La estadística es un arte, con un montón de espacio para la creatividad y los errores". Parte de este arte se reduce a decidir cuáles son las medidas que tienen sentido en un entorno determinado.

Por ejemplo, si tomamos una encuesta sobre cómo la gente planifica votar en una elección, la convención aceptada son dos desviaciones estándar por encima o por debajo de la media, dando un nivel de confianza del 95 por ciento, resulta razonable. Esos dos intervalos  sigma es lo que los encuestadores quieren decir cuando declaran en sus conclusiones un "margen de error de muestreo", como un 3 por ciento.

Esto significa que, si preguntamos a toda la población la cuestión sondeada, nos daría una respuesta certera, y si luego hacemos lo mismo con un grupo al azar de 1.000 personas, hay una posibilidad de un 95 por ciento de que los resultados de este último grupo caería dentro de los dos sigmas del primer resultado. Si una encuesta descubre que el 55 por ciento de toda la población favorece al candidato A, esto significa que el 95 por ciento de las veces, el resultado de una segunda encuesta estaría en alguna parte entre el 52 y el 58 por ciento.

Por supuesto, que esto también significa que un 5 por ciento del resultado estaría fuera del rango de dos sigmas. Esta gran incertidumbre está bien para una encuesta de opinión, pero no tanto para la comprensión de un experimento científico importante, como pasó con el anuncio del otoño pasado, sobre una posible detección de que unos neutrinos se movían más rápido que la velocidad de la luz, en un experimento realizado en el Centro Europeo de Investigación Nuclear, conocida como CERN.

Seis sigmas todavía pueden estar equivocados

Técnicamente, los resultados de ese experimento tuvo un muy alto nivel de confianza: Seis Sigma. En la mayoría de los casos, un resultado de cinco sigma se considera un estándar de oro para la significación, lo que corresponde a cerca de uno entre un millón de posibilidades de que los resultados sean sólo el producto de variaciones aleatorias; seis sigma se traduce en una posibilidad entre mil millones y medio de que el resultado sea una casualidad aleatoria. (La popular empresa de estrategia de gestión, llamada "Six Sigma", se deriva de este término, y se basa en que establece rigurosos procedimientos de control de calidad para reducir residuos).

Pero en este experimento del CERN, que tenía el potencial para revertir la física aceptada del siglo, que ha sido confirmada en miles de diferentes tipos de pruebas, y que todavía no sea lo suficientemente bueno. Por una parte, se asume que los investigadores han hecho un análisis correcto y no han pasado por alto ninguna fuente sistemática de error. Y dado a que el resultado fue tan inesperado como revolucionario, eso es exactamente lo que la mayoría de los físicos cree que sucedió: una fuente de error no detectada.

Curiosamente, desde el mismo acelerador de partículas CERN, el conjunto diferente de resultados fue interpretado de manera muy distinta.

El año pasado fue anunciada la posible detección de algo que se llama el bosón de Higgs —una partícula subatómica teórica que podría ayudar a explicar por qué las partículas pesan algo en lugar que nada. Ese resultado sólo tenía un nivel de confianza de 2,3 sigma, correspondiente aproximadamente a una posibilidad entre 50 de que el resultado fuese un error aleatorio (un nivel de confianza del 98 por ciento). No obstante, se ajusta a lo que se espera en base a la física actual, de hecho, la mayoría de los físicos creen que el resultado es probable que sea correcto, a pesar de tan bajo nivel de confianza estadístico.

Significativo, pero espurio

Pero se vuelve más complicado en otras áreas. "Cuando el asunto se pone realmente feo es en las ciencias sociales y en la ciencia médica", señala Tsitsiklis. Por ejemplo, un artículo muy citado en 2005 en la revista Public Library of Science, titulado, "¿Por qué la mayoría de resultados de las investigaciones publicadas son erróneos" [Why most published research findings are wrong?], ofrecía un análisis detallado de una serie de factores que podrían conducir a conclusiones injustificadas. Sin embargo, no se tienen en cuenta entre las típicas medidas estadísticas utilizadas, incluyendo la "significación estadística".

El documento apunta a que si miramos grandes conjuntos de datos en las suficientes distintas formas, es fácil encontrar ejemplos que satisfagan los criterios habituales de significación estadística, a pesar de que sólo sean variaciones aleatorias. ¿Recuerdáis el ejemplo de aquella encuesta, donde una vez de cada 20 un resultado quedaría aleatoriamente fuera de los límites de "significancia"? Bueno, incluso con un nivel de significación de cinco sigma, si un ordenador rebusca a través de millones de posibilidades, seguro que encuentra algunas pautas aleatorias que cumplen esos criterios. Cuando eso sucede, "no se publican los criterios que no pasan" la prueba de significación, señala Tsitsiklis, de esta forma, algunas correlaciones aleatorias le pueden dar la apariencia de ser resultados reales, "por lo que simplemente se terminan publicando eventos fortuitos".

Un ejemplo de ello: Muchos artículos publicados en la última década poseen una correlación significativa entre ciertos tipos de comportamientos o procesos mentales y las imágenes cerebrales captadas por la resonancia magnética, o MRI. Pero a veces, estas pruebas pueden encontrar correlaciones aparentes que son sólo los resultados de fluctuaciones naturales, o "ruido" del sistema. Un investigador en 2009 duplicó uno de estos experimentos, sobre el reconocimiento de expresiones faciales, sólo que en lugar de sujetos humanos se escaneó un pez muerto, y encontraron resultados "significantes".

"Si nos fijamos en bastantes lugares, podemos obtener el resultado del "pez muerto", afirma Tsitsiklis. Por el contrario, en muchos casos, un resultado con significación estadística baja, puede "decirnos que una cosa vale la pena investigarla."

Así pues, siempre hay que tener presente que, sólo porque algo reúna una definición aceptada de "significación", no significa necesariamente que sea significativo. Todo depende del contexto.


- Referencia: MIT.news.edu, 9 de febrero 2012, por David L. Chandler
- Imagen: Sobre este gráfico de una distribución "normal", se muestra la clásica forma de "curva de campana", la media (o promedio) es la línea vertical del centro, y las líneas verticales a ambos lados representan los intervalos de una, dos o tres sigmas. El porcentaje de puntos de datos se encuentraría dentro de cada segmento de la distribución que se muestra. Crédito MIT.

,

«
Next
Entrada más reciente
»
Previous
Entrada antigua
Editor del blog Pedro Donaire

Filosofía

Educación

Deporte

Tecnología

Materiales