Ads-728

Ads-728

Psicología

Astrofísica

Genética

Neurociencia

» » » Los estudios de replicación: mal asunto

A raíz de una serie de controversias de alto perfil, los psicólogos se están enfrentando a problemas con la replicación.

Para muchos psicólogos, la señal más clara de que su campo está en problemas ha sido, irónicamente, a partir de un estudio sobre la premonición. Daryl Bem, un psicólogo social de la Universidad de Cornell en Ithaca, Nueva York, le mostraron a los estudiantes voluntarios 48 palabras y luego, bruscamente, les pidió que escribieran tantas como pudieran recordar. Luego vino una sesión práctica: a los estudiantes se les dio un subconjunto aleatorio de test de palabras y se les pidió que las escribieran. Bem descubrió que algunos estudiantes eran más propensos a recordar las palabras del test si lo habían practicado antes. El efecto precedió a la causa.


Bem publicó sus hallazgos en el Journal of Personality and Social Psychology (JPSP), junto con ocho otros experimentos [ref. 1] que  proporcionaban las evidencias para lo que él se refiere como "psi", o efectos psíquicos. No hay precisamente escasez de científicos escépticos acerca de sus reivindicaciones. Tres equipos de investigación, de forma independiente, trataron de replicar el efecto que Bem había informado y, como no pudieron, se enfrentaron a serios obstáculos para la publicación de sus resultados. El episodio sirvió como un llamado de atención. "La materialización de una cierta proporción de tales hallazgos en la literatura, simplemente no podían guardarse por el mero hecho de que cada vez se encontraban más de estos hallazgos contra-intuitivos en la literatura", explicaba Eric-Jan Wagenmakers, psicólogo matemático de la Universidad de Amsterdam.

Los resultados positivos de la psicología puede comportarse como los rumores: fácil de liberar, pero difícil de disipar. Ellos dominan la mayoría de las revistas, que se esfuerzan por presentar una nueva y excitante investigación. Entre tanto, los intentos por replicar los estudios, especialmente cuando los resultados son negativos, no se publican, languidecen en los archivos personales o circulan en torno a conversaciones puntuales. "Hay algunos experimentos que todo el mundo sabe que no se replican, pero este conocimiento no està en la literatura", apunta Wagenmakers. La barrera de la publicación los deja enfriar. He visto a estudiantes que pasan la totalidad de su período de doctorado tratando de replicar un fenómeno, al fallar, abandonan la academia porque se quedan sin nada que demostrar."

Estos problemas suceden en todas las ciencias, pero la psicología tiene además, una serie de normas culturales profundamente arraigadas que los exacerban. Viene a ser práctica común, por ejemplo, modificar los diseños experimentales de manera que prácticamente garanticen resultados positivos. Y una vez que los resultados positivos se publican, pocos investigadores repiten el experimento con exactitud, y en lugar de llevar a cabo las ‘replicaciones conceptuales’ con test de hipótesis similares, utilizan diferentes métodos. Con esta práctica, dicen los críticos, se construye un castillo de naipes sobre unas bases potencialmente inestables.

Estos problemas se han puesto de relieve debido a algunos casos de fraude de alto perfil, de lo que muchos piensan que han podido florecer sin ser detectados por los dificultades de la replicación. Ahora, los psicólogos están tratando de enmendar su campo. Las iniciativas están en marcha para evaluar la magnitud del problema y ofrecer a los intentos de replicación la oportunidad de salir al aire. "En los últimos seis meses, hay muchas más personas que hablan y se preocupan de esto", dice Joseph Simmons, un psicólogo experimental de la Universidad de Pensilvania en Filadelfia. "Espero que estemos llegando a un punto de inflexión."

Sesgo generalizado

La psicología no es la única que se enfrenta a estos problemas. En un artículo ya famoso [ref. 2] , John Ioannidis, epidemiólogo actualmente en la Escuela de Medicina de Stanford, en California, argumentaba que, "la mayoría de los resultados de las investigaciones publicadas eran falsas", de acuerdo con la lógica estadística. En una encuesta de 4.600 estudios a través de todas las ciencias, Daniele Fanelli, un científico social de la Universidad de Edimburgo, Reino Unido, encontró que la proporción de resultados positivos se elevó a más del 22% entre 1990 y 2007 [ref. 3]. La psicología y la psiquiatría, según otra obra de Fanelli [ref. 4], son los más infractores: cinco veces más propensos a informar de un resultado positivo que las ciencias espaciales, que se encuentran en el otro extremo del espectro (ver ref. 4. Diagrama 'Acentuar lo positivo'). La situación no está mejorando. En 1959, el estadísta Theodore Sterling, encontró que el 97% de los estudios de cuatro principales revistas de psicología habían informado de resultados positivos, estadísticamente significativos [ref. 5]. Cuando se repitió el análisis en 1995, nada había cambiado [ref. 6].

Una de las razones para este exceso de resultados positivos en la psicología, es el énfasis en la “espectacularidad” de los resultados, señala Chris Chambers, psicólogo experimental de la Universidad de Cardiff, Reino Unido. "Revistas de gran impacto a menudo consideran la psicología como una especie sala de magia”. Los resultados tienen que ser interesantes, llamativos, incluso inverosímiles. Simmons dice que la culpa reside, en parte, en el proceso de revisión. "Cuando se revisan los documentos, a menudo hacemos que los autores demuestren que sus hallazgos son nuevos e interesantes. Y no tan a menudo que demuestren que sus conclusiones sean verdaderas."

Simmons ha publicado recientemente un documento de tono sarcástico en la revista Psychological Science, donde 'demuestra' que la escucha de la canción “When I'm Sixty-four”, de los Beatles, puede realmente reducir la edad del oyente en 1,5 años [ref. 7]. Simmons diseñó los experimentos para demostrar cómo es "inaceptablemente fácil" que se puedan hallar resultados estadísticamente significativos que apoyen una hipótesis. Muchos psicólogos toman decisiones al vuelo sobre aspectos clave de sus estudios, incluyendo la cantidad de voluntarios a reclutar, que son variables para medir y cómo analizar los resultados. Estas decisiones podrían ser hechas de manera inocente, pero les da a los investigadores la libertad de torturar experimentos y datos hasta que se produzcan resultados positivos.

En una encuesta a más de 2.000 psicólogos, John Leslie, un psicólogo de consumidores de la Harvard Business School en Boston, Massachusetts, demostró que más del 50% habían esperado a decidir o si se recogían más datos, hasta que no habían comprobado la importancia de sus resultados, lo que les permitía aguantar hasta que los resultados positivos se materializaran. Más del 40% habían informado de forma selectiva los estudios que "funcionaban" [ref. 8]. De promedio, la mayoría de los encuestados consideró que estas prácticas eran defendibles. "Muchas personas continúan utilizando estos métodos, porque así fue como se les enseñó", aduce Brent Roberts, psicólogo de la Universidad de Illinois, en Urbana-Champaign.

Todo esto pone la carga de la prueba en aquellos que tratan de replicar los estudios, que se enfrentan a un trabajo duro. Consideremos las repercusiones del notorio documentos de Bem. Cuando los tres grupos que no pudieron reproducir los resultados del ‘recuerdo de palabras’ combinaron y presentaron sus resultados para su publicación, en la JPSP, Science and Psychological Science dijeron que ellos no publicaban replicaciones consecutivas. El British Journal of Psychology ambicionaba documentos para su revisión por pares, pero la rechazó. Bem fue uno de los evaluadores del documento. El atribulado documento finalmente encontró un hogar en PLoS ONE [ref. 9], una revista que publica todos los documentos “técnicamente sólidos”, independientemente de su novedad.

"He hecho todo lo posible para alentar a replicaciones", dijo Bem, que mantiene sus resultados, y ha puesto los detalles de todos sus métodos y pruebas en línea. Pero añade que un documento de réplica no es informativo en sí mismo. "Es prematuro", dice. "Puede llevar años averiguar qué puede hacer fracasar una réplica o que tenga éxito. Se necesita un meta-análisis de muchos experimentos."

Stéphane Doyen, psicólogo cognitivo de la Universidad Libre de Bruselas, se encontró con problemas similares cuando él y sus colegas, fracasaron al replicar el experimento clásico de John Bargh, de la Universidad de Yale, en New Haven, Connecticut, que pretendía demostrar que las personas caminan más lentamente si han sido primados inconscientemente con palabras relacionadas con la edad [ref. 10]. Después de varios rechazos, el documento de Doyen también fue publicado al final en PLoS ONE [ref. 11], y provocó una iracunda respuesta en el blog de Bargh. Bargh describió al equipo de Doyen como "investigadores inexpertos", y más tarde, en desacuerdo con el escritor de esta historia, otra entrada de blog sobre el cambalache. Bargh arguye que él respondió con tanta fuerza, en parte porque vio un creciente escepticismo ante la idea de que los procesos inconscientes de pensamiento son importantes, y consideró que el daño se le estaba haciendo al campo de investigación.

Por supuesto, una repetición negativa no invalida el resultado original. Hay muchas razones mundanas por la que tales intentos no tendrían éxito. Si el efecto original es pequeño, los resultados negativos surgen sólo de forma casual. Los voluntarios de un intento de replicación pueden diferir de los del original. Y uno de los equipos podría, simplemente, carecer de la habilidad de reproducir los experimentos de otros.

"Dirigir sutiles experimentos es muy parecido a la dirección de una obra de teatro", señala Daniel Kahneman, psicólogo ganador del Premio Nobel de la Universidad de Princeton, en Nueva Jersey. Hay detalles triviales, como el día de la semana o el color de una habitación que podrían afectar a los resultados, y sin embargo no hacerlo en las secciones metodológicas. Bargh argumenta, por ejemplo, que el equipo de Doyen expuso a sus voluntarios a muchas palabras relacionadas con la edad, lo que podría haber atraído la atención hacia el propósito oculto del experimento. En los estudios de primado, "hay que modificar la situación sólo lo justo, crear una manipulación suficientemente fuerte como para que funcione, pero no tanto que atraiga la atención", explica Kahneman. "Bargh tiene un don natural que no todos nosotros tienen". Y añade que dicha habilidad especial sólo está presente en aquellos que han encontrado un efecto que ha sido reproducido en cientos de experimentos. Bargh dice de sus experimentos de primado que, "nunca quiso que hubiese secreto alguno acerca de cómo hacer que estos efectos sucedieran. Siempre hemos tratado de dar ese conocimiento, pero tal vez deberíamos especificar más detalles acerca de cómo hacer estas cosas."

Después del documento de 1996 de Bargh, sobre el primado inconsciente, docenas de laboratorios siguieron el ejemplo con sus propias versiones de experimentos de primado. Los voluntarios que fueron primados a mantener más cosas en la memoria, por ejemplo, entrevistaron a los candidatos más en serio y estimaron los problemas sociales como más apremiante que aquellos que aquellos con su memoria menos cargada. Y las personas primadas con palabras relativas a la asepsia juzgaron hechos sucios con más indulgencia [ref. 13].

Estas replicaciones conceptuales son útiles en la psicología, que suele tratar con conceptos abstractos. "La forma habitual de pensar sería que una réplica conceptual es incluso más fuerte que una réplica exacta. Se evidencia mejor para una generalización de los efectos", dice Eliot Smith, psicólogo de la Universidad de Indiana, en Bloomington, y editor de JPSP.

Sin embargo, para otros psicólogos, la confianza en la replicación conceptual es problemática. "No se puede replicar un concepto", apunta Chambers. "Es muy subjetivo. Nadie sabe cuánto de similar puede ser algo para que cuente como una réplica conceptual". La práctica también produce una lógica de doble estándar". Por ejemplo, si una memoria ya cargada influye inconscientemente en los juicios de la gente, podrían adoptarse replicaciones conceptuales al efecto de caminar lento. Sin embargo, si la memoria cargada no tenía ninguna influencia, nadie diría que la memoria primada ha sido conceptualmente falsificada. Con su capacidad de verificar, pero no de falsear, la replicación conceptual permite que los resultados más débiles se apoyen uno a otro. "Es la encarnación científica del sesgo de confirmación", afirma Brian Nosek, psicólogo social de la Universidad de Virginia, en Charlottesville. "La psicología se verá afectada si no se practica, pero tampoco reemplaza a la replicación directa. Para demostrar que 'A' es verdad, no haces 'B', así que haces ‘A’ de nuevo".

Mala conducta omitida

Estas prácticas pueden crear un entorno en el que una mala conducta no es detectada. En noviembre de 2011, Diederik Stapel, psicólogo social de la Universidad de Tilburg, en los Países Bajos, y en pleno ascenso en su campo, estuvo investigado y terminó declarando que, el fraude científico se produce a gran escala. Stapel había publicado una corriente atractiva, de unos estudios que llamaron la atención, donde mostraba, por ejemplo, que los ambientes desordenados, como una sucia estación de tren, promueven la discriminación [ref. 14]. No obstante, todos estos factores creaban una difícil replicación le ayudaron a cubrir sus huellas. El comité científico que investigó su caso, escribió, "considerando que todos estos hallazgos tan cuidadosos deberían haber dado que pensar ... La gente lo aceptó, ya que cuando trataron de replicar los resultados, habían fracasado por carecer de la habilidad del Sr. Stapel. "Ahora está claro que Stapel manipuló y fabricó los datos en al menos 30 publicaciones.

La historia de Stapel refleja la de los psicólogos Karen Ruggiero y Marc Hauser, de Harvard University en Cambridge, Massachusetts, que publicaron resultados de alto nivel sobre la discriminación y la moralidad, respectivamente. Ruggiero fue declarado culpable de fraude en una investigación en 2001, y Hauser, a su vez, por mala conducta en 2010. Al igual que Stapel, se expusieron a ser delatados internamente. "Si el campo era realmente auto-correctivo, ¿por qué no podemos corregir a cualquiera de ellos?", pregunta Nosek.

Impulsados por estas controversias, muchos psicólogos están ahora buscando formas de facilitar las replicaciones. "Creo que la psicología ha tomado la iniciativa para enfrentar este desafío", comenta Jonathan Schooler, psicólogo cognitivo de la Universidad de California, en Santa Bárbara. En enero, Hal Pashler, un psicólogo de la Universidad de California en San Diego, en La Jolla, y sus colegas, crearon un sitio web llamado PsychFileDrawer donde los psicólogos podían presentar intentos de replicación no publicados, fuesen o no exitosos. El sitio fue muy bien recibido, pero hasta el momento sólo tiene nueve entradas. Hay muy pocos incentivos para presentarlos: cualquier presentación abre las críticas a los científicos por parte de sus colegas y hace bastante poco por ayudar a su historial de publicaciones.

Matthew Lieberman, psicólogo social de la Universidad de California, Los Ángeles, sugiere un enfoque diferente. "Los principales programas de psicología en Estados Unidos pudieran requerir que los estudiantes de posgrado replicaran uno de los diversos estudios propuestos dentro de su propio campo". Los estudiantes podrían así desarrollar aptitudes y obtener sus primeras valiosas publicaciones, dice, y el campo aprendería y se vería gratamente sorprendido.

Wagenmakers argumenta que los intentos de replicación también debe ser publicados bajo distintas reglas. Igual que los ensayos clínicos de medicina, dice, deben ser pre-registradas, para evitar las coincidencias de tortura de datos que describe Simmons, y ser publicados con independencia del resultado. Participar o colaborar con los autores originales desde el principio podría anticipar posteriores objeciones sobre los métodos.

Estos cambios tal vez sean una esperanza lejana. Algunos científicos aún se cuestionan si hay verdaderamente un problema, incluso los puntos de Nosek de que no existen sólidas estimaciones de prevalencia de falsos positivos. Para remediar eso, el último año, él reunió a un grupo de psicólogos para intentar reproducir todos los estudios publicados en tres revistas de psicología de mayor impacto de 2008. Los equipos se adhirieron a los experimentos originales en la medida de lo posible, y trataron de trabajar con los autores originales. El objetivo no era destacar el trabajo individual, sino "conseguir algunas evidencias iniciales sobre las posibilidades de réplica" a través del campo, señaló Nosek.

Algunos investigadores son agnósticos sobre el resultado, pero Pashler espera ver la confirmación de sus temores: un corredor de cotilleo acerca de los estudios irreproducibles y cajones llenos de archivos con intentos fallidos de replicación, saldrán a la realidad. "Entonces, la gente ya no será capaz de soslayarlo.”


- Referencia: Nature.com, 16 mayo 2012, por Ed Yong
- Imagen 1) Jatek Krzysztofiak. Imagen 2) Ref. 4.
- Nature 485, 298-300 ( 17 de mayo 2012 ) doi: 10.1038/485298a.

- Referencias:
1. Bem, D. J. J. Pers. Soc. Psych. 100, 407–425 (2011). Artículo .
2. Loannidis, J. P. A. PLoS Med 2, e124 (2005). Artículo .
3. Fanelli, D. Scientometrics 90, 891–904 (2011). Artículo .
4. Fanelli, D. PLoS ONE 5, e10068 (2010). Artículo .
5. Sterling, T. D. J. Am. Stat. Assoc. 54, 30–34 (1959).
6. Sterling, T. D., Rosenbaum, W. L. & Weinkam, J. J. Am. Stat. 49, 108–112 (1995). ISI .
7. Simmons, J. P., Nelson, L. D. & Simonsohn, U. Psychol. Sci. 22, 1359–1366 (2011). Artículo .
8. John, L. K., Loewenstein, G. & Prelec, D. Psychol. Sci. http://dx.doi.org/10.1177/0956797611430953 (2012). Pubmed .
9. Ritchie, S. J., Wiseman, R. & French, C. C. PLoS ONE 7, e33423 (2012). Artículo .
10. Bargh, J. A., Chen, M., Burrows, L. J. Pers. Soc. Psych. 71, 230–244 (1996). Artículo .
11. Doyen, S., Klein, O., Pichon, C.-L. & Cleeremans, A. PLoS ONE 7, e29081 (2012). Artículo .
12. Jostmann, N. B, Lakens, D. & Schubert, T. W. Psychol. Sci. 20, 1169–1174 (2009). Artículo .
13. Schnall, K, Benton, J. & Harvey, S. Psychol. Sci. 19, 1219–1222 (2008). Artículo .
14. Stapel, D. A. & Lindenberg, S. Science 332, 251–253 (2011). Artículo .

.

,

«
Next
Entrada más reciente
»
Previous
Entrada antigua
Editor del blog Pedro Donaire

Filosofía

Educación

Deporte

Tecnología

Materiales