¿Cómo superar la mala ciencia?

La ciencia, como las salchichas, es mejor no saber cómo la hacen.

Se tiene la idea de que la investigación científica es un proceso “limpio”, meramente lógico y sin más interés que conocer la verdad. Pero es algo más sucio de lo que la mayoría piensa, pues hay sesgos, fraudes, intereses económicos… Es como la frase que se suele atribuir a Bismarck: las leyes, como las salchichas, es mejor no saber cómo se hacen.

Ilustración de la portada del libro Anatomía del fraude científico, de Horace Freeland Judson, Crítica, 2006.

Y lo mismo podemos decir: la ciencia, como las salchichas, es mejor no saber cómo la hacen.

De acuerdo con Mertens y Recker (2020) la ciencia tiene características que están acompañadas de sus respectivas amenazas. Primero es hipotética deductiva y por ello parte de teorías e hipótesis que permiten diseñar un estudio para recolectar datos que se analizan para ver si falsean o confirman la hipótesis, los hallazgos se publican y permite que otros generen teorías e hipótesis. Cada uno de esos pasos va acompañado de sus amenazas: imprecisión teórica, bajo poder estadístico, muestras pequeñas, p–hacking, Harking y sesgos de publicación.

En este texto nos vamos a centrar en cinco amenazas: crisis de replicación, fraude, sesgo, negligencia y bombo publicitario, y nos vamos a basar en un libro que recomendamos mucho: Ficciones científicas, de Stuart Ritchie (2020). Además, muchos de los ejemplos se van a centrar en la psicología y las neurociencias, en parte porque somos psicólogos, pero además sucede que en esas dos áreas es en las que más se ha centrado la polémica de la mala ciencia. Comencemos con la crisis de la replicación.

Crisis de la replicación

Un experimento (Bargh, Chen y Burrows, 1996) que se volvió muy famoso en psicología consistió en que a dos grupos de personas se les dio a leer un conjunto de palabras; a un grupo se le dieron palabras al azar y al otro una lista que estaba plagada de palabras que tenían que ver con la vejez: bastones, canas, etc. A todos los sujetos de ambos grupos les dijeron que para completar el experimento —que les habían dicho que consistía en algo que no era cierto— tenían que ir a otro laboratorio dentro del campus universitario. Lo que les interesaba a los experimentadores era saber si las palabras que tenían que ver con la vejez activarían automática e inconscientemente los estereotipos que se tienen sobre la vejez, entre ellos el de caminar despacio, así que midieron el tiempo que se tardó cada grupo en llegar al otro laboratorio, y su hipótesis era que los que estuvieron expuestos a las palabras ligadas a la vejez caminarían más despacio y… ¡eso fue lo que encontraron! Este descubrimiento tiene que ver con el efecto de primacía, o priming, en inglés. Pero todo el mundo conoce a este experimento como el efecto Florida —en Estados Unidos los adultos mayores sueñan con irse a vivir su vejez ahí.

Lo que les interesaba a los experimentadores era saber si las palabras que tenían que ver con la vejez activarían automática e inconscientemente los estereotipos que se tienen sobre la vejez, entre ellos el de caminar despacio, así que midieron el tiempo que se tardó cada grupo en llegar al otro laboratorio…

Éste y otros experimentos llamaron mucho la atención tanto de los legos como de los expertos, pero algunos de estos expertos no estaban muy convencidos de que las cosas se hayan hecho de la manera correcta y se propusieron repetir el experimento. En esto consiste la replicación, en volver a hacer los experimentos cuando crees que es necesario volver a hacerlo, en este caso para comprobar que se hicieron bien las cosas. Doyen, Klein, Pichon y Cleeremans (2012) repitieron el estudio y además añadieron un experimento más. En el primero replicaron el estudio del efecto Florida, pero ahora, en vez de dejar que los experimentadores midieran el tiempo de traslado, lo hicieron de manera automatizada, y lo que encontraron es que no hubo diferencias entre los dos grupos. En el segundo experimento dividieron a los investigadores en dos grupos, a los que les dijeron que los sujetos iban a caminar más despacio y a los que les dijeron que los sujetos iban a caminar más rápido. No sorprenderá a los lectores que lo que hallaron es que solamente se encontró un efecto de caminar más despacio entre los investigadores que suponían que los sujetos iban a caminar más despacio.

Otro experimento que también causó mucho revuelo, que fue un “hitazo” en YouTube y que significó para la investigadora la venta de muchos libros y cursos, fue el de la posición de poder de Amy Cuddy. En la investigación original (Carney, Cuddy y Yap, 2010) partía del supuesto de que las personas expresan poder a partir de posturas expansivas y que si se adoptan esas posturas entonces debe de haber cambios conductuales —hacer conductas más temerarias— y hormonales —subiría la testosterona una hormona ligada a los hombres y las conductas temerarias que hacen, y bajaría el cortisol, una hormona ligada al estrés—. Además, este efecto se lograría tan sólo después de un minuto de adoptar esa postura. Sus hallazgos confirmaron su hipótesis.

Pero, como con la anterior investigación, esto llamó la atención de otros psicólogos que quisieron repetir el experimento (Ranehill, Dreber, Johannesson, Leiberg, Sul y Weber, 2015), quienes modificaron dos cosas del experimento original que creían que habían sido fallas; primero aumentaron el tamaño de la muestra, originalmente había sido de 42 sujetos y aumentaron el número a 200; la otra cosa que hicieron fue un diseño en el que los experimentadores no sabían qué sujeto estaba en qué condición, por ejemplo, no sabían de quién venían las muestras de saliva que se recabaron para medir el cortisol. Y no encontraron evidencia de que la postura cambiara las conductas ni las hormonas; incluso peor, se encontró que los que habían adoptado posturas de poder tenían menos testosterona.

Para mediados de la década de los 10 ya se había puesto en evidencia que muchos de los estudios no podían ser replicados, pero alcanzó dimensiones de crisis cuando se publicó uno de los estudios más importantes en la historia de la psicología (Open Science Collaboration, 2015). Todo comenzó cuando Brian Nosek y Jeffrey Spies se dieron cuenta de que la reproducibilidad era un problema y pidieron financiación a la Fundación Laura y John Arnold —una sociedad centrada en donar dinero para realizar estudios que se basen en la evidencia— para hacer la replicación de la mayor cantidad de estudios en psicología que se pudiera.

El impacto del artículo fue tremendo —es uno de los artículos más citados en psicología— y desató lo que se conoce como crisis de la reproducibilidad, pero también impulsó la llamada “Ciencia Abierta”, de la cual hablaremos más tarde.

No se pusieron a hacer todos los estudios de nuevo, sino que seleccionaron estudios que fueron publicados en tres prestigiosas revistas en 2008 y les pidieron a personas de todo el mundo interesados en la reproducibilidad que colaboraran con ellos, siguiendo un protocolo que incluía comunicarse lo más posible con los autores de los estudios originales —es por eso que en la cita del artículo no aparecen nombres, sino que aparece el nombre de la iniciativa.

Sus datos más importantes fueron que sólo el 36% de los estudios hallaron lo mismo que el estudio original y el tamaño del efecto fue la mitad del reportado originalmente —el tamaño del efecto es la medida de qué tan grande o importante es un resultado más allá de si es significativo, es decir, más allá de si es al azar o no—. El impacto del artículo fue tremendo —es uno de los artículos más citados en psicología— y desató lo que se conoce como crisis de la reproducibilidad, pero también impulsó la llamada “Ciencia Abierta”, de la cual hablaremos más tarde.

Fraude

“Pintar la rata” hace referencia a uno de los fraudes más conocidos y más tontos y, diríamos, divertidos si no fuera por lo que estaba en juego. William Summerlin era un dermatólogo que hacía investigaciones sobre el trasplante de piel y trabajaba con ratones blancos a los que les injertaba piel de ratas negras. Lo que él propuso es que mediante un procedimiento podía lograr que las ratas no rechazaran el injerto de piel, lo cual suponía decir adiós a los inmunosupresores, no solamente de injertos de piel sino de todos los trasplantes en general. En 1974 tuvo que mostrar sus resultados a quien era en ese entonces su jefe, Robert A. Good, y para no llegar con las manos vacías lo único que se le ocurrió fue tomar un marcador negro y pintar una mancha negra en una rata blanca. Llevó la rata a su jefe y éste no advirtió nada. Sin embargo, cuando los técnicos del laboratorio revisaron con más calma a la rata se dieron cuenta del fraude y despidieron a Summerlin, quedando en entredicho la honestidad de Good.

En 1974 tuvo que mostrar sus resultados a quien era en ese entonces su jefe, Robert A. Good, y para no llegar con las manos vacías lo único que se le ocurrió fue tomar un marcador negro y pintar una mancha negra en una rata blanca. Llevó la rata a su jefe y éste no advirtió nada.

Un caso más impresionante fue el de Paolo Macchiarini y los trasplantes de tráquea. En 2010 había sido contratado por el Instituto Karolinska de Suecia para hacer investigación sobre el uso de andamios que sirvieran para hacer trasplantes. Recibió mucho dinero y apoyo por parte del Instituto y publicó sus resultados en revistas de alto impacto. En 2014 varios de sus colegas y colaboradores lo demandaron por lo que ellos consideraron un fraude y comenzaron las investigaciones. Se nombró a un revisor externo y analizó los datos de los artículos con los historiales médicos de sus pacientes y se le acusó formalmente de mala conducta científica, resultando en la retractación de seis de sus artículos y la destitución de varios de los directivos del Instituto que, recordemos, tiene injerencia en la designación de los Premios Nobel.

También está el caso de Woo–Suk Hwang, que trabajó sobre la clonación de embriones humanos que prometía la cura de enfermedades como la diabetes y el parkinson. En 2005 se comprobó que algunos de sus artículos publicados en la revista Science —una de las más importantes del mundo— tenían datos falsificados y terminó hasta en la cárcel por malversación de fondos.

Podríamos continuar así con muchos otros casos más, pero nos centraremos en un caso de la psicología que, como comentamos, es nuestra área de interés. La historia comienza con tres psicólogos (Uri Simonsohn, Leif Nelson y Joe Simmons) que se daban cuenta de la aparición cada vez más seguido de la publicación de artículos falsos, cuando no ridículos, e iniciaron un blog dedicado al análisis de ese tipo de estudios al que llamaron “Data colada”. Uno de sus primeros objetivos fue el psicólogo Lawrence Sanna.

Él, junto con sus colaboradores, había publicado un artículo titulado “Rising up to higher virtues: Experiencing elevated physical height uplifts prosocial actions” (algo así como “Elevarse a virtudes superiores: experimentar una altura física elevada eleva las acciones prosociales”), el cual daba a conocer los resultados de cuatro experimentos: tres en el que ubicarse en un lugar alto hacía que las personas fueran más caritativas, compasivas y ayudaran por más tiempo, y un cuarto con un video grabado desde un punto de vista más alto que supuestamente promovía la cooperación.

Los fundadores de “Data colada” son especialistas en estadísticas, así que fue ahí donde centraron sus baterías, particularmente en dos medidas estadísticas: la media —es decir, el promedio— y la desviación estándar —imaginen que tienen dos grupos de alumnos y el promedio de sus calificaciones es 80, pero en uno las calificaciones están entre 75 y 85, mientras que en otro están entre 60 y 100, la desviación estándar del primero es menor que el del segundo—; lo que hizo Simonshon (2013) fue partir del supuesto de que los datos siempre en toda medición son ruidosos, es decir, varían mucho; pero al analizar con detalle las desviaciones estándar reportadas por Sanna y colaboradores notó que eran muy parecidas en las tres condiciones en las que condujo su experimento —cuando los sujetos estaban en un lugar alto, uno bajo y una condición control—. Eran tan parecidas que en una simulación de computadora que llevó a cabo sólo 1.3% de 10,000 veces salieron así de parecidas las desviaciones estándar. Es decir, lo más probable es que los investigadores habían manipulado sus datos.

Como se imaginarán los lectores, la manipulación de imágenes aumentó desde la aparición de Photoshop, pero, así como el mal uso de la tecnología es un problema, se puede utilizar la tecnología para detectar ese mal uso.

No es lo único que se puede manipular; también se pueden manipular imágenes. Por ejemplo, en septiembre de 2018 se publicó un artículo que afirmaba que un tratamiento homeopático a base de hiedra venenosa podía aliviar el dolor (Magar y cols., 2018). Como se imaginarán los lectores, la manipulación de imágenes aumentó desde la aparición de Photoshop, pero, así como el mal uso de la tecnología es un problema, se puede utilizar la tecnología para detectar ese mal uso. En el caso de las imágenes se utiliza un programa que se llama Resis para analizar las imágenes y con ese software se detectó que dos gráficos que correspondían a dos experimentos diferentes eran los mismos (Guglielmi, 2018).

Así que ya sea que se pinte a una rata o se hagan chanchullos con los datos o con las imágenes, si lo cachan en la maroma se va a meter en problemas, y el menor de ellos es que se tenga que retractar el artículo. En Retraction Watch se puede uno enterar de quién es quién en el mundo de las mentiras científicas; en el momento en que escribimos este texto el líder es Joachim Boldt, con 220 artículos retractados. Y, aunque usted no lo crea, hay también varios Premios Nobel con artículos retractados.

Sesgo

Al inicio de la película Despertares el personaje interpretado por Robin Williams está siendo entrevistado para darle trabajo en el hospital psiquiátrico, y le hacen preguntas sobre su currículum. Uno de ellos ve que realizó una investigación y le preguntó al respecto: “Intentaba extraer un decigramo de mielina de cuatro toneladas de lombrices de tierra”, dice el personaje de Williams; quien lo está entrevistando se sorprende y dice: “¿De verdad?”, a lo que Williams aclara: “Estuve en ello cinco años. Yo era el único que realmente creía en ello. Los demás decían que era imposible”. Otro de los entrevistadores afirma: “No se puede”, y Williams un poco apesadumbrado dice: “Bueno, ahora lo sé. Lo demostré”.

Las revistas tienden a publicar preferentemente las investigaciones cuyos resultados son positivos con respecto a la hipótesis que se estaba buscando; así que si estamos buscando un inmunosupresor y no encontramos que la sustancia que estamos investigando sirve, va a ser muy difícil que nos publiquen el estudio.

Aunque suene chocante, el hecho de demostrar que no se puede hacer algo es conocimiento. Sin embargo, en el mundo de la investigación científica eso es un anatema. Las revistas tienden a publicar preferentemente las investigaciones cuyos resultados son positivos con respecto a la hipótesis que se estaba buscando; así que si estamos buscando un inmunosupresor y no encontramos que la sustancia que estamos investigando sirve, va a ser muy difícil que nos publiquen el estudio.

Esto es algo que se aplica a todas las áreas de investigación. En todos lados es igual, pero no todos somos igual de iguales. Fanelli (2010) hace un análisis de cómo se distribuye el sesgo de publicación hacia los resultados positivos y encontró una correlación con el lugar que se ocupa en una pirámide de las ciencias. Comencemos antes con esto de la pirámide de las ciencias; es una afirmación controvertida que dice que hay ciencias más “duras”, más “difíciles” que otras en el sentido de que la pregunta de investigación y los resultados están determinados por los datos y las teorías. Entre más abajo se vaya de la pirámide predominan factores no–cognitivos. Para comprobar esta hipótesis estudió el sesgo de publicación con la idea de que los investigadores en ciencias “más blandas” deberían tener menos restricciones a sus sesgos conscientes e inconscientes y, por lo tanto, reportar resultados más positivos. Los resultados confirmaron las predicciones. 70% de las publicaciones de ciencias del espacio son positivas, mientras que hay un 91% en psicología.

Otro de los grandes sesgos en las ciencias es el valor de p. Imaginen que estamos jugando volados y nosotros escogemos águila y lanzamos cien veces la moneda. Para jugar volados suponemos que la moneda no está amañada, de tal manera que sea igual de probable que caiga águila o sol. Pero sabemos que no porque tengamos solamente esas dos opciones la moneda va a caer 50 veces águila y 50 veces sol. Hay cierta variabilidad que es esperable. El problema consiste en saber en qué momento voy a afirmar que la moneda está trucada porque cayó demasiadas veces águila. El criterio que se escogió es el del 95% de las veces. A esto se le conoce como el valor de p y suele representarse como P= 0.5 o menos.

Podemos hacer una analogía entre el valor de p y un juicio para saber si alguien es culpable o no (Banerjeer, Chitnis, Jadhav, Bhawalkar y Chaudhury, 2009). La decisión del juez es decidir si un acusado es inocente o culpable. Y debe tratar de meter a la cárcel al culpable y dejar fuera al inocente, porque sería muy malo dejar fuera al culpable y meter a la cárcel al inocente. Para ello debe estar completamente seguro de que va a meter a la cárcel única y exclusivamente a los culpables basándose en que las evidencias le dicen “más allá de toda duda razonable” si alguien es culpable o inocente.

En la investigación se puede querer saber si un medicamento, por ejemplo, el Tamiflu, causa manifestaciones psicóticas en quienes lo toman; puede ser que sí o puede ser que no. El equivalente en la ciencia al criterio del juez de que las evidencias deben de decirle si alguien es culpable o no “más allá de toda duda razonable” es P o nivel de significancia.  

Este criterio que parece muy razonable ha sido objeto de abuso. Podemos ponernos a recopilar datos o utilizar diferentes técnicas estadísticas hasta que encontremos un resultado significativo. El problema es que, aunque encontremos resultados positivos no quiere decir que haya una relación real. Los de “Data colada” lo demostraron y fueron ellos los que acuñaron el término P–Hacking a esta mala práctica académica.

Este estudio evaluó con qué frecuencia las grandes empresas patrocinan ensayos que solamente incluyen sus propios productos, y encontraron que, de 577 ensayos analizados, el 82% tenían un único patrocinador industrial.

Un tercer tipo de sesgo son los conflictos de intereses que pueden venir en dos sabores: los empresariales y los personales. Lathyris, Patsopoulos, Salanti y Ioannidis (2010) analizaron los primeros. Como nos podemos imaginar, la mayoría de los ensayos clínicos sobre intervenciones médicas son patrocinados por la industria farmacéutica. Este estudio evaluó con qué frecuencia las grandes empresas patrocinan ensayos que solamente incluyen sus propios productos, y encontraron que, de 577 ensayos analizados, el 82% tenían un único patrocinador industrial. Eso lleva a pensar que cada empresa genera una agenda de investigación centrada en sus propios productos, mientras que las comparaciones entre intervenciones de distintas compañías son poco frecuentes y esto limita la capacidad de evaluar los diferentes tratamientos para una misma condición.

Con respecto a los intereses personales, y volviendo a los psicólogos, en la psicología académica en general, y en la psicología social en particular, la gran mayoría de los investigadores son de izquierda. Un artículo (Duarte y cols., 2015) revisa la evidencia disponible y respalda cuatro afirmaciones:en los últimos cincuenta años se pasó de la diversidad política al predominio de la izquierda en las universidades; el problema de la falta de diversidad es que sólo hay la incorporación de un tipo valores en las preguntas y métodos de investigación, el desvío de temas importantes, pero políticamente incómodos, y la producción de conclusiones tergiversadas; la ventaja de que hubiera más diversidad es que reduciría el “sesgo de confirmación”, y que haya pocos intelectuales de derecha en las universidades se debe probablemente a una combinación de autoselección, clima hostil y discriminación. Valga esto como un llamado a la apertura política en las universidades. Será en beneficio de todos.

Negligencia

Uno diría que, si va a usar p para saber que un resultado es significativo, a sabiendas de que p ha sido criticada, uno esperaría que se usara con mucho cuidado. Pero resulta que no es así. La mitad de los artículos de psicología contienen al menos un valor p inconsistente con su estadística de prueba y sus grados de libertad (Nuijten y cols., 2016). Para entender esto permítasenos una analogía.

Todos conocen o han oído hablar del teorema de Pitágoras, sobre la relación que tienen entre sí los lados de un triángulo. Si sabes el largo de dos lados puedes saber con toda seguridad cuál es el tamaño del tercero. De la misma manera, si sabes cuál es la estadística de prueba y sus grados de libertad sabes cuál es el valor de p. Y si no coinciden entre ellos algo está mal. Los anteriormente citados Nuijten y colaboradores usaron un software para realizar este cálculo de la relación entre todas estas medidas y lo aplicaron a 250,000 valores de p y encontraron el dato que ya había mencionado: la mitad de todos esos valores eran inconsistentes (su programa está disponible para todo el mundo en esta dirección).

En psicología hay un estudio que generó un término que creemos es muy conocido: “disonancia cognitiva”, que hace referencia a la incomodidad que sentimos cuando nuestras actitudes, creencias y comportamientos no están en armonía entre sí.

Inspirados en la anterior investigación, otro grupo de investigadores elaboraron su propio software para analizar las estadísticas de los artículos y que llamaron GRIM (acrónimo de granularity–related inconsistency of means o inconsistencia de medias relacionada con la granularidad). Esta técnica evalúa si las medias de datos son consistentes con el tamaño de muestra y el número de elementos dados, y con ello pueden medir cuántas inconsistencias tiene un artículo. Así que hay artículos con pocas inconsistencias y otros con muchas. En 2017 publicaron (Brown y Heathers, 2017) los resultados de un estudio en el que analizaron 71 investigaciones y 36 tenían al menos una inconsistencia, y 16 tenían más. Es decir, al menos la mitad de todos los estudios tienen un problema y como el 20% tienen muchas.

En psicología hay un estudio que generó un término que creemos es muy conocido: “disonancia cognitiva”, que hace referencia a la incomodidad que sentimos cuando nuestras actitudes, creencias y comportamientos no están en armonía entre sí. El artículo original fue publicado hace ya un buen rato (Festinger y Carlsmith, 1959). A pesar de eso no se salvó del escrutinio por parte de quienes elaboraron la prueba GRIM y le encontraron graves inconsistencias. Ya que muchos estudios “clásicos”, que se imparten ampliamente en los cursos de psicología social en todo el mundo son ingeniosos pero dudosos, el objetivo de los desarrolladores de GRIM es enseñar a los estudiantes a evaluar los estudios sin que por el hecho de ser “clásicos” no se les critique. Pueden darse una vuelta al lugar en donde hacen el análisis de los “clásicos” aquí.

Hasta aquí hemos hablado de la psicología básicamente, pero la falta de cuidado en las investigaciones no es privativa de esta disciplina. Las hay en todos lados y podríamos decir que sus implicaciones asustan más que enseñar una psicología mal hecha. Tomemos como ejemplo las investigaciones basadas en las células HeLa.

En 1951 Henrietta Lacks fue a consulta por problemas de sangrado vaginal y, después de realizarle estudios se le diagnosticó cáncer, razón por la cual murió ese mismo año. Mientras se le hacían los estudios para diagnosticarla su médico, George Otto Grey, le tomó una muestra con fines de investigación sin su consentimiento. El gran descubrimiento fue que las células de Lacks son inmortales —nombradas HeLa por el nombre de la paciente—, algo que jamás se había visto: se mantenían vivas y crecían en cultivos celulares, lo cual permite hacer muchas investigaciones. Fue un avance enorme para la investigación médica. Aunque tuvo dos peros; se metieron en problemas legales con la familia —recomendamos la película La vida inmortal de Henrietta Lacks— y su crecimiento es incontrolado.

La naturaleza inmortal de las células HeLa es tal que ha apabullado a todos los otros linajes de células de investigación con las que se trabaja, hasta el punto en que es difícil saber si se está trabajando o no con un tipo de linaje. Horbach y Halffman publicaron un estudio (2017) para saber cuantos estudios habían trabajado con células contaminadas y hallaron la escandalosa cantidad de 32,755 artículos en muchas áreas de investigación: oncología, inmunología, hematología, virología, etc. El problema es que la falta de identificación de líneas de células lleva a falsas conclusiones y a experimentos irrepetibles —el problema de la irreproducibilidad—. La solución es un sistema de notificaciones que deben publicarse junto con los artículos de que han usado líneas celulares identificadas erróneamente. Desconocemos hasta qué punto se ha avanzado en eso. Esperamos que ya se hayan puesto de acuerdo.

Bombo publicitario

La ciencia de los exoplanetas es una de esas disciplinas nuevas que han aparecido recientemente, ya que el primer planeta fuera de nuestro sistema solar se descubrió apenas en 1995. Sin embargo, el santo grial de esa ciencia es encontrar indicios claros de vida en esos planetas. Hay varios métodos que se están utilizando para la búsqueda de vida extraterrestre, por ejemplo, las señales radioeléctricas —como se puede ver en la película Contacto— y el análisis de la atmósfera para ver si tiene “biomarcadores” de vida. Hay una clase de exoplanetas que han sido objeto de más interés por parte de los investigadores para escudriñarlos en búsqueda de vida, se les conoce como planetas hiceános —acrónimo de hidrógeno y océanos— ya que la combinación de hidrógeno y grandes cantidades de agua los hace tener más potencial de albergar vida.

En octubre de 2023 un grupo de investigadores (Madhusudhan y cols., 2023) reportaron haber descubierto varios biomarcadores en un exoplaneta llamado k2–18b; esos biomarcadores eran sulfuro de dimetilo (DMS), metano y dióxido de carbono, lo que reportaron como “posible actividad biológica en el planeta”. Ese mismo año la NASA emitió un comunicado que decía que usando el telescopio James Webb se había descubierto metano y dióxido de carbono en el planeta k2–18b; pero a inicios de 2025 —nótese que había pasado más de un año del anuncio del descubrimiento— la noticia saltó a todos los medios afirmando que se habían descubierto indicios de vida en el citado planeta.

El investigador debió de haber sido más cauto desde el principio; quizás la NASA no debió de haber publicado su comunicado hasta haberse realizado estudios posteriores que avalaran los primeros datos, y seguramente los medios de comunicación no debieron de haber titulado sus notas periodísticas como una afirmación de que ya se había encontrado vida en otros planetas.

Semejante noticia llamó mucho la atención y se hizo viral en las redes sociales. Lo que ya no fue tan viral fue que el mismo investigador que había publicado el primer artículo había publicado ya otro (Madhusudhan y cols., 2025) con más estudios que le hacían ser mucho más cauto a la hora de interpretar los datos como indicios de vida.

Probablemente el investigador debió de haber sido más cauto desde el principio; quizás la NASA no debió de haber publicado su comunicado hasta haberse realizado estudios posteriores que avalaran los primeros datos, y seguramente los medios de comunicación no debieron de haber titulado sus notas periodísticas como una afirmación de que ya se había encontrado vida en otros planetas. Pero así es el mundo científico. También se les queman las habas a los investigadores por anunciar descubrimientos sin haber sido respaldados con más datos e investigaciones; también tarde se les hace a las instituciones anunciar que se ha hallado algo muy importante, y claro, los medios están a la espera de notas sorprendentes. La culpa de todo es el dinero. Los investigadores y las instituciones de investigación lo hacen para justificar que se les dé dinero —y los periódicos lo hacen para vender más.

Ya les habíamos dicho antes el caso de Amy Cuddy; ganó mucho dinero con una investigación que no ha sido replicada. Hay muchos casos así en psicología. Sólo déjennos contarles de uno famoso: la mentalidad de crecimiento de Carol Dweck.

Imaginen a dos niños: ambos se enfrentan a un problema de matemáticas que no pueden resolver; uno simplemente piensa que no lo pudo resolver porque su inteligencia no le dio para hacerlo y ya no lo intenta más, mientras que el otro piensa que no lo resolvió porque no le ha dedicado el suficiente esfuerzo; el primero tiene una mentalidad fija y el segundo tiene una mentalidad de crecimiento. Su propuesta es desarrollar la mentalidad de crecimiento con una serie de técnicas y ha publicado varios estudios sobre su factibilidad. Toda su propuesta la sintetizó en su libro Mindset: The new psychology of success —en español se tituló Mindset: la mentalidad de éxito.

Su estudio más destacable lo publicó en 2019 en la prestigiosa revista Nature (Yeager y cols., 2019) y se encontró que redujo en tres puntos porcentuales la posibilidad de que los alumnos más rezagados abandonaran la escuela, no pareció tener mucho efecto en los estudiantes que no estaban en riesgo de dejar la escuela. La crítica que se le hace es que, si en condiciones controladas de un experimento apenas pudo encontrar apoyo a su hipótesis, suena sumamente difícil que en las condiciones de un salón de clases típico su estrategia funcione.

Otros investigadores han ido más lejos y han puesto a prueba las afirmaciones fundamentales de la mentalidad de crecimiento. Burgoyne, Hambrick y Macnamara (2020) resumen la teoría de la mentalidad de crecimiento en seis afirmaciones: las personas con mentalidad de crecimiento tienen metas de aprendizaje, persisten para superar los desafíos y son más resilientes ante el fracaso; mientras que las personas con mentalidad fija tienen objetivos de rendimiento, tienden a tener metas orientadas a evitar el fracaso —prefieren no exponerse a retos que puedan poner en duda su capacidad— y creen que el puro talento sin esfuerzo lleva al éxito.

Al poner a prueba estas seis afirmaciones hallaron que sus evidencias eran muy débiles; de hecho, el único dato fuerte que encontraron fue más bien al contrario de lo que afirma la teoría: tener una mentalidad fija se asoció con un mejor rendimiento después de la retroalimentación del fracaso. El llamado de los investigadores fue a que los investigadores moderen sus afirmaciones y que las personas que las quieran poner en marcha en las escuelas tengan presente que no va a ser tan fácil lograr que los alumnos tengan una mentalidad de crecimiento y que eso les ayude a ser mejores estudiantes.

Conclusiones

El objetivo de este escrito no es otro que señalar algunos de los problemas que se tienen para hacer una buena ciencia y que por ello nos sirven de guía para superarlos.

  • Hemos visto que ya hay algoritmos que sirven para detectar fraudes en imágenes (resis y GRIM).
  • Hemos dicho que hay un sesgo para publicar estudios con resultados positivos, por ello la solución es editar revistas especializadas en los resultados negativos.
  • Explicamos cómo se ha abusado del valor de p y por ello existen propuestas para utilizar otras matemáticas, como el teorema de Bayes.
  • Mostramos que las empresas farmacéuticas pueden hacer que los investigadores reporten sólo los estudios que avalan que sus medicamentos sirven y la solución que se propone es hacer un pre–registro de las investigaciones para saber que no todos los estudios realizados apoyan a ese medicamento.
  • Analizamos cómo muchos estudios tienen muestras pequeñas, pero una forma de aumentar el tamaño de las muestras es colaborar entre muchos laboratorios —un buen ejemplo de ello es el acelerador de ciencias psicológicas.
  • Vimos cómo se distorsionan los hallazgos científicos, ya sea por los investigadores, las instituciones en las que trabajan esos investigadores o bien por las agencias de noticias; la solución es que cada uno de nosotros se convierta en un verificador de datos —recomendamos este manual escrito por expertos.
  • Si las revistas científicas cobran por que uno lea los artículos y por ello publican estudios llamativos y, probablemente falsos o mal hechos, entonces se puede poner los estudios a disposición de todo el mundo —se le llama open access.
  • O bien, se puede buscar hacer que la investigación científica, los datos y el conocimiento sean más accesibles, transparentes y reutilizables por todos; eso es Open Science (Ciencia Abierta). Implica la apertura de diversos aspectos de la investigación, incluyendo publicaciones, datos, procesos metodológicos, revisión por pares y recursos educativos.

La ciencia no será tan lógica y limpia como nos gustaría que fuera, pero sigue siendo la manera más fiable de generar conocimiento. Conocimiento que es útil, que nos ha servido para pasar de carretas tiradas por caballos a naves interplanetarias en apenas doscientos años, cuando en los dos mil años anteriores prácticamente no había habido cambios, sólo eran modificaciones menores a carretas tiradas por caballos. ®

Bibliografía

Banerjee, A., Chitnis, U. B., Jadhav, S. L., Bhawalkar, J. S., & Chaudhury, S. (2009). Hypothesis testing, type I and type II errors. Industrial psychiatry journal, 18(2), 127-131.
Bargh, J. A., Chen, M., & Burrows, L. (1996). Automaticity of social behavior: Direct effects of trait construct and stereotype activation on action. Journal of personality and social psychology, 71(2), 230.
Brown, N. J., & Heathers, J. A. (2017). The GRIM test: A simple technique detects numerous anomalies in the reporting of results in psychology. Social Psychological and Personality Science, 8(4), 363-369.
Burgoyne, A. P., Hambrick, D. Z., & Macnamara, B. N. (2020). How firm are the foundations of mind-set theory? The claims appear stronger than the evidence. Psychological science, 31(3), 258-267.
Carney, D. R., Cuddy, A. J., & Yap, A. J. (2010). Power posing: Brief nonverbal displays affect neuroendocrine levels and risk tolerance. Psychological Science, 21(10), 1363-1368.
Doyen, S., Klein, O., Pichon, C. L., & Cleeremans, A. (2012). Behavioral priming: it’s all in the mind, but whose mind?. PloS One, 7(1), e29081.
Duarte, J. L., Crawford, J. T., Stern, C., Haidt, J., Jussim, L., & Tetlock, P. E. (2015). Political diversity will improve social psychological science1. Behavioral and brain sciences, 38, e130.
Dweck, C. (2016) Mindset: la mentalidad de éxito. Ed Sirio
Fanelli, D. (2010). “Positive” results increase down the hierarchy of the sciences. PloS One, 5(4), e10068.
Festinger, L., & Carlsmith, J. M. (1959). Cognitive consequences of forced compliance. The journal of abnormal and social psychology, 58(2), 203.
Guglielmi, G. (2018). Peer-reviewed homeopathy study sparks uproar in Italy. Nature, 562(7726), 173-174. 
Horbach, S. P., & Halffman, W. (2017). The ghosts of HeLa: How cell line misidentification contaminates the scientific literature. PloS One, 12(10), e0186281.
Lathyris, D. N., Patsopoulos, N. A., Salanti, G., & Ioannidis, J. P. (2010). Industry sponsorship and selection of comparators in randomized clinical trials. European journal of clinical investigation, 40(2), 172-182.
Madhusudhan, N., Constantinou, S., Holmberg, M., Sarkar, S., Piette, A. A., & Moses, J. I. (2025). New Constraints on DMS and DMDS in the Atmosphere of K2-18 b from JWST MIRI. The Astrophysical Journal Letters, 983(2), L40.
Madhusudhan, N., Sarkar, S., Constantinou, S., Holmberg, M., Piette, A. A., & Moses, J. I. (2023). Carbon-bearing molecules in a possible Hycean atmosphere. The Astrophysical Journal Letters956(1), L13.
Magar, S., Nayak, D., Mahajan, U. B., Patil, K. R., Shinde, S. D., Goyal, S. N., … & Kundu, C. N. (2018). RETRACTED ARTICLE: Ultra-diluted Toxicodendron pubescens attenuates pro-inflammatory cytokines and ROS-mediated neuropathic pain in rats. Scientific Reports, 8(1), 13562.
Mertens, W., & Recker, J. (2020). New guidelines for null hypothesis significance testing in hypothetico-deductive IS research. Journal of the Association for Information Systems, 21(4), 1.
Nuijten, M. B., Hartgerink, C. H., Van Assen, M. A., Epskamp, S., & Wicherts, J. M. (2016). The prevalence of statistical reporting errors in psychology (1985–2013). Behavior research methods, 48, 1205-1226.
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716.
Ranehill, E., Dreber, A., Johannesson, M., Leiberg, S., Sul, S., & Weber, R. A. (2015). Assessing the robustness of power posing: No effect on hormones and risk tolerance in a large sample of men and women. Psychological Science, 26(5), 653-656.
Ritchie, S. (2020). Science fictions: How fraud, bias, negligence, and hype undermine the search for truth. Metropolitan Books.
Simonsohn, U. (2013). Just post it: The lesson from two cases of fabricated data detected by statistics alone. Psychological Science, 24(10), 1875-1888.
Yeager, D. S., Hanselman, P., Walton, G. M., Murray, J. S., Crosnoe, R., Muller, C., & Dweck, C. S. (2019). A national experiment reveals where a growth mindset improves achievement. Nature573(7774), 364-369.

Compartir:

Publicado en: Ciencia y tecnología

Apóyanos:

Aquí puedes Replicar

¿Quieres contribuir a la discusión o a la reflexión? Publicaremos tu comentario si éste no es ofensivo o irrelevante. Replicante cree en la libertad y está contra la censura, pero no tiene la obligación de publicar expresiones de los lectores que resulten contrarias a la inteligencia y la sensibilidad. Si estás de acuerdo con esto, adelante.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *