Atención, pregunta: ¿Qué pruebas hay de que la mitad de la literatura científica pudiera ser falsa?

Dibujo20150529 why most published results may be false - tbbt cbs sit com

De cuando en cuando vuelve a la actualidad la idea de que más de la mitad de los artículos científicos publicados podrían ser falsos. Una idea surgida en el campo de la medicina, publicada por John P. A. Ioannidis en 2005 en la revista PLoS Medicine, en un artículo con sugerente título «¿Por qué la mayoría de las investigaciones publicadas son falsas?» (ahora vuelve a la actualidad gracias al Editor de The Lancet.

¿Qué pruebas firmes hay de esta afirmación? Permíteme revisarlas de la mano de Jeff Leek, «A summary of the evidence that most published research is false,» Simply Stats, 16 Dec 2013. Por cierto, el artículo citado es John P. A. Ioannidis, «Why Most Published Research Findings Are False,» PLoS Medicine, 30 Aug 2005, doi: 10.1371/journal.pmed.0020124.

Lo primero, el artículo de Ioannidis es un ensayo de opinión, no un artículo científico al uso. La hipótesis de Ioannidis es estudiada mediante sencillas simulaciones por ordenador. El artículo no incluye datos reales que avalen dicha hipótesis. Por tanto, hay que dejar claro que, por muy atractivo que sea el título y por muy relevante que sea la revista PLoS Medicine, se trata sólo de opiniones.

Lo segundo, para la mayoría de los expertos, que la mayoría de los resultados científicos sean falsos significa que la mayoría de los resultados científicos no son repetibles. No significa que se haya intentado repetirlos y no se haya logrado. Aunque ha habido algunos estudios muy limitados en este sentido. La razón es que repetir estudios tiene un alto costo. Por ejemplo, un estudio que trató de repetir 53 pruebas sobre fármacos para tratar el cáncer logró repetir sólo los resultados de 6. Por desgracia, este tipo de estudios no detalla la metodología seguida para la repetición y sus resultados pueden estar repletos de sesgos. Lo mismo le ocurre a la mayoría de estudios que critican el uso del valor-p y el famoso umbral de significación del 5% (valor-p de 0,05). Hay que tener mucho cuidado si se pretende extender sus resultados a toda la literatura científica.

Los intentos de estudiar la replicación de trabajos científicos se suelen centrar en los trabajos altamente citados. La razón es que muchas de sus citas corresponden a quienes intentan repetirlos. Los resultados de un amplio estudio indican que el 86% de los estudios fueron confirmados  y sólo el 14% fue contradicho (o mejor dicho, no replicado con éxito, lo que no implica falsedad del resultado). La repetibilidad de muchos resultados en campos de avance rápido (como los obtenidos con técnicas de expresión génica de alto rendimiento) es muy difícil, sino imposible, porque los nuevos equipos vuelven obsoletos en pocos años a los usados en estudios previos.

Los intentos de introducir la reproducibilidad dentro del proceso de revisión por pares (que un laboratorio independiente repita el estudio) no han tenido éxito porque son muy costosos (y en ciertas ocasiones rayan lo imposible). Los pocos estudios sobre el tema (el proyecto «Many Labs») están muy limitados en estadística. Aún así, son bastante positivos («Many Labs» evaluó 13 investigaciones y 10 se replicaron con éxito).

Muchos modelos cienciométricos tratan de estudiar el sesgo de la revisión por pares. Los efectos subjetivos por los que se acepta un artículo (como que el autor principal sea muy famoso) han sido estudiado mediante modelos teóricos (pues el uso de datos reales es casi imposible). Concluir que este efecto induce a la publicación de resultados no repetibles es arriesgado.

En resumen, no hay pruebas firmes de que la mayoría de los resultados científicos publicados sean falsos, no sean reproducibles, hayan sido aceptados con una revisión por pares liviana, o sean el resultado de un fraude intencionado de los propios autores. Por supuesto, todo el mundo «vende» su artículo destacando las grandes virtudes de sus resultados, que no siempre son tan grandes, pero ello no implica la ausencia de virtudes o la presencia de defectos.

Jeff Leek afirma que se necesitan muchos más estudios para concluir la opinión de John Ioannidis. Quizás su estudio sobre la falsedad de los de otros es tan falso como ellos. ¿Qué opinas sobre el tema? Si te apetece opinar, usa los comentarios.



19 Comentarios

  1. Nadie creo que pueda sorprenderse de que estudios con un efecto y muestras pequeñas en campos como la medicina o la psicología donde sólo se exige p < 1/20 no provoquen un montón de falsos positivos. Ese es el último término el mensaje de Ioannidis. Tampoco creo que haga falta una demostración de un argumento trivial.

  2. Y hay otros factores que pueden influir en que haya estudios falsos, incorrectos,no concluyentes o no reproducibles:
    La competencia por los pocos recursos. Si se compite por una beca hay una tendencia natural a buscar más resultados que rigor.
    La alta especialización de la ciencia actual. El que lleva años estudiando un un sólo tema es más difícil que cuestione los fundamentos de dicho tema.
    El sistema de mecenazgo y universidades privadas en EEUU. Uno de los mayores puntos de investigación y publicación científicas está condicionados por intereses económicos, que voluntaria o involuntariamente provocan un sesgo en la investigación.

  3. No creo que el principal problema sea que los resultados se falseen o maquillen (que claro que pasa y que es un problema), sino que el resultado que se publica es en sí mismo inútil. Corrijo, únicamente útil para engordar el «curriculum investigador» de los autores.

    Por cierto, que como inútil que es, puede ser también falso, claro. Nadie se dará cuenta puesto que antes se descarta por inútil que por falso y por eso no se repiten los resultados o no se utiliza.

    Se publica mucha basura: artículos que ni han recibido ni recibirán ni una sola referencia. Y hay que tener en cuenta que no es posible hacer «referencias negativas». Esto es, que si se cita un trabajo para indicar los fallos que tiene, este recibirá el premio de tener una referencia (que hablen de ti aunque sea mal).

    Los trabajos buenos con resultados interesantes quedan sepultados bajo un montón de «ruido» con lo que:

    1.- Se desincentiva la creación de trabajos de calidad ya que cuentan lo mismo que un trabajo basura: una linea de curriculum.

    2.- Los buenos trabajos se pierden entre tantos artículos. Lo que hace que los que quieran «investigar» de verdad tengan que perder su tiempo leyendo bobadas.

    Y no entremos a valorar lo fácil que es pervertir los sistemas de revisión ciega y doble ciega, de ahí la miseria de las publicaciones.

  4. Algunas cosas son comprensibles, como que el repetir determinados exprimentos sea muy caro o complicado. Lo de que no expliquen correctamente, o no se aplique una metodología sistemática es mas preocupante.

    Lo realmente preocupante es que haya articulos puestos única y exclusivamente para dar un aura de legitimidad a afirmaciones falsas. Ya sea por motivos monetarios, o políticos, y estos casos deberían de ser mejor cuidados por las revistas.

    Claro que es mas fácil decirlo que hacerlo, a menos que se contraten a mas revisores, lo cual suele ser un trabajo dificil, mal pagado y frecuentemente peor considerado

  5. Si repetimos un experimento n veces, y de repente una repetición sale diferente. Suele decir el científico que tendríamos un sesgo. Entonces intentamos encontrar dónde esta el sesgo. Cuando hemos detectado el sesgo lo corregimos… hasta en otra repetición vuelve a pasar algo, otro sesgo… Que consideramos sesgo? Por ejemplo que se ha roto un cablecito, que se ha fundido algo, que se ha muerto la planta, o que no ha salido el sol ese día o que sencillamente tenemos que ver todo diferente para poder encontrar el sesgo (por ejemplo Cuvier vs Darwin). Es como volver sobre el sesgo y poner en el pensamiento al sesgo primero y espués al experimento se repite n veces. Porque también puede ser que el sesgo contenga dentro al pensamiento. Y todo esto se engloba en un todo que genera algo nuevo. Y la ciencia genera y genera, y tampoco es que sea falso algo que se demuestra cientificamente que es falso, puede ser también que de lo falso surja lo verdadero. Una idea nueva que contenga a la antigua.
    He escrito una forma de entre otras muchas de verlo.
    La ciencia mola, también se equivoca y evoluciona.

  6. Que hay artículos de buena, mala o pésima calidad es indudable. También entra dentro de la lógica que un investigador corriente, como la mayoría de los que trabajan en las universidades, escriba muchos más artículos mediocres que buenos. Pero, al final, cabe esperar que la publicación y divulgación en revistas y otras publicaciones de ámbito internacional pondrá a cada uno en su sitio: los artículos que un describan un hallazgo o contribuyan con una aportación importante recibirán más citas que los que lleguen a conclusiones dudosas.

    Con esta forma de evaluación distribuida en la que intervienen muchos investigadores de muchos países distintos con intereses personales y profesionales muy distintos creo que podemos esperar que los artículos de calidad alcancen mayor prestigio y reconocimiento que los que se publican para cubrir el cupo. Por tanto, la comunidad científica internacional debe cribar y separar el grano de la paja o…¿hay alguien que piense lo contrario?

  7. Como he comentado antes, la afirmación incluso siendo en parte cierta tiene una raíz complicada de resolver.

    Las revistas especializadas tienen un público necesariamente reducido comparadas con otras, y la cantidad de artículos que reciben es tremenda, por lo apuntado antes de «publicitis» de «o publicas o no eres nadie», luego si te citan, aunque sea por algo marginal ya «ganas puntos».

    Y el problema de fondo son los revisores, que necesariamente deben de ser personas que al menos entiendan un poco del tema, y deben de leerme montones de artículos y simplemente no pueden físicamente comprobar a fondo y detalladamente todos ellos, ni tampoco poner en duda los resultados que se publican (a menos que sean completamente ridículos). Un artículo con datos falsos puede fácilmente pasar el filtro, y si a eso añadimos que esos revisores son pocos, mal pagados y a veces poco considerados, y que dada su especialización probablemente tienen cosas mejores que hacer nos encontramos con este pastel.

    Un posible cambio debería de venir de parte de las propias editoras, que en caso de que a posteriori se detecte un artículo de este tipo, bloqueen cualquier otro de la misma fuente. Muchos se lo pensarían mejor así

  8. Hasta en la revista nature se han colgado documentos falso, el más reciente de un reconocido economista (Green) y un estudiante de doctorado que se invento los datos para su tesis doctoral.

    1. El proyecto Many Labs tiene como objetivo repetir estudios de laboratorio (financiar laboratorios que repitan estudios ya publicados). Pero tiene poca financiación y ha repetido pocos estudios (luego sus conclusiones son muy limitadas en estadística).

  9. Tal vez hay algo de cierto en las afirmaciones que hace John P. A. Ioannidis en 2005 y que traen ahora a la actualidad. Pues en ciertos instantes se pueden cometer errores de omisión. Además quien cuestiona a los jurados, jueces y auditores. Es una percepción plena de lo que es la ética de investigación.
    Lo que sí es difícil de asegurar es la cifra que se plantea, pues¿ habrá comprobación de éstas?.
    Sigue siendo un mito. Además sumemos los intereses que tienen algunas publicaciones de favorecimiento político o incluso económico…..
    Ya se verá en un futuro con la profundización en investigaciones que fueron truncadas por algunos estamentos pero que ahora tienen la posibilidad de ser retomadas por nuevas administraciones.

    Habrá que esperar……

  10. Tema importante, pero uno de los argumentos me desconcertó:
    «La repetibilidad de muchos resultados en campos de avance rápido […] es muy difícil, sino imposible, porque los nuevos equipos vuelven obsoletos en pocos años a los usados en estudios previos.»
    Eso implica un foco demasiado en detalles del experimento y no en las conclusiones. ¿Cómo es que la obsolescencia de un equipo a su vez hace un experimento irrepetible? ¿Que importancia definitiva tiene sobre las conclusiones (la teoría) el hecho de que la técnica experimental fue X?
    Por otra parte, el post es muy apropiado.

  11. Hola, no he leido el artículo original en la revista Science, pero muy relacionado con el post esta esta noticia:
    http://elpais.com/elpais/2015/08/27/ciencia/1440691935_057972.html
    Se centra en artículos de psicología. No se si en las «ciencias sociales» las falsedades científicas son más abundantes que en las «ciencias» de toda la vida.
    De todos modos, cuando las predicciones y resultados son interesantes y significativos, tengo la sensación de que los experimentos se repiten refutándose o no, lo que ocurre como decia Ismael, es que en la inmensa mayoría de los trabajos publicados, los resultados son irrelevantes y por lo tanto nadie se plantea refutarlos o confirmarlos.

Deja un comentario

Por Francisco R. Villatoro
Publicado el ⌚ 29 mayo, 2015
Categoría(s): ✓ Bibliometría • Ciencia • Noticias • Peer Review (Revisión por pares) • Recomendación • Science
Etiqueta(s): ,