El problema de no leer la fuente original de una noticia

Por Francisco R. Villatoro, el 9 abril, 2009. Categoría(s): Astronomía • Bibliometría • Ciencia • Factor de impacto (Impact factor) • Noticias • Personajes • Physics • Prensa rosa • Science ✎ 18

dibujo20090408_basaltic_micrometeorite_pyroxene_plagioclase_quartz_mm40Acabo de ver en Menéame una noticia curiosa: «MM04: un micrometeorito hallado en la Antártida revoluciona a la astronomía,» donde se afirma «MM04 es una roca acondrita anterior al sistema solar de tan sólo 150 micrones.» Me ha molestado la palabra «micrones» por «micras» y me ha molestado lo que pone al final del artículo meneado «Gounelle’s study of MM04 is published in Proceedings of the National Academy of Sciences.» Yo he leído ese artículo en PNAS, estuve a punto de escribir una entrada en este blog sobre dicho descubrimiento, mi carpeta de borradores ya supera los 30, pero no me suena lo de MM04. Tengo mala memoria, lo sé, pero 24 horas es poco tiempo. Bueno, hay que comprobarlo. El artículo técnico es Matthieu Gounellea et al. «A unique basaltic micrometeorite expands the inventory of solar system planetary crusts,» PNAS, Early edition, Published online 6 Apr. 2009 . El micrometeorito se llama 99-21-40, MM40 para abreviar. Ya puestos, os copio el resumen en inglés.

Micrometeorites with diameter ≈100-200 μm dominate the flux of extraterrestrial matter on Earth. The vast majority of micrometeorites are chemically, mineralogically, and isotopically related to carbonaceous chondrites, which amount to only 2.5% of meteorite falls. Here, we report the discovery of the first basaltic micrometeorite (MM40). This micrometeorite is unlike any other basalt known in the solar system as revealed by isotopic data, mineral chemistry, and trace element abundances. The discovery of a new basaltic asteroidal surface expands the solar system inventory of planetary crusts and underlines the importance of micrometeorites for sampling the asteroids’ surfaces in a way complementary to meteorites, mainly because they do not suffer dynamical biases as meteorites do. The parent asteroid of MM40 has undergone extensive metamorphism, which ended no earlier than 7.9 Myr after solar system formation. Numerical simulations of dust transport dynamics suggest that MM40 might originate from one of the recently discovered basaltic asteroids that are not members of the Vesta family. The ability to retrieve such a wealth of information from this tiny (a few micrograms) sample is auspicious some years before the launch of a Mars sample return mission.

dibujo20090408_vesta_asteroid_basaltic

Se han estudiado miles de micrometeoritos, todos del tipo de las condritas. MM40 es el primero que muestra una composición diferente, acondrita, diferente de otros meteoritos acondritas previamente documentados.

¿Qué origen tiene este meteorito? Para saberlo, los investigadores han estudiado simulaciones numéricas sobre la dinámica del polvo generado por asteroides basálticos. Gracias a estos estudios numéricos creen que el origen son asteroides de la familia del Asteroide Vesta (fotografiado por el Hubble en la figura de la izquierda). Las simulaciones numéricas indican que si realmente este polvo cósmico tiene su origen en satélites tipo Vesta tiene que haber sido expulsado cuando el Sistema Solar tenía sólo 7.9 millones de años. Una edad muy temprana. Cuando el Sistema Solar estaba prácticamente formándose.

¿Por qué meteoritos como Vesta tiene una composición similar a la lava fundida si su origen era muy temprano en el Sistema Solar? No se sabe, aunque la hipótesis más habitual es que es debido a que el polvo protoplanetario contenía materiales radiactivos que se concentraron en ciertos meteoritos y llegaron a fundirlos. Por ahora es sólo una hipótesis.

Volvamos al grano. El problema de no leer la fuente original no es sólo un problema de los periodistas «científicos». También es un problema de los científicos mismos. Un artículo ya famoso de M.V. Simkin, V.P. Roychowdhury, «Read before you cite!,» ArXiv prepritn, 3 Dec 2002, encontró que los autores sólo se leen el 20% de los artículos que citan en la sección de referencias. Lo descubrieron analizando la propagación de erratas tipográficas en la sección de referencias. En español nos lo contó el genial Juan (Manuel Rodríguez) Parrondo [en la wiki], en «Cita a ciegas,» Investigación y Ciencia 327: 2-3, 2003 [enlace del Web Archive]. Os extraigo algunos detalles.

«Una de las partes más importantes -y más leídas- de un artículo científico es la llamada lista de referencias, en la que se encuentran todos los libros, artículos y trabajos que se citan en el texto principal del artículo.

«Suponga que usted comienza a trabajar en un cierto tema y que encuentra un artículo de 1973 con ideas parecidas a las suyas. Rastrear todos los artículos que, desde 1973 hasta hoy, han citado aquel trabajo le permitirá conocer toda la investigación que se ha hecho en estos últimos 30 años sobre el tema y las ideas que le interesan, algo que es bastante más difícil de obtener sólo mediante búsquedas que hacen uso de las palabras que aparecen en el título o en el resumen de los artículos.»

«Los científicos no somos especialmente cuidadosos ni críticos a la hora de citar otros trabajos. Muchos de los autores que citan un trabajo copian la cita de la lista de referencias de otros artículos sin comprobar los datos del trabajo citado y, lo que es peor, probablemente sin leerlo.»

«Simkin y Roychowdhury ponen un ejemplo, detectaron 196 erratas en las 4300 citas a un artículo. De estas 196, sólo 45 eran diferentes. Es evidente que, de los 196 autores que han citado erróneamente, 196 – 45 = 151 han copiado puesto que su errata no es original. La fracción de lectores frente a citadores es R = 45/196 = 0,23. Los científicos leen menos de la cuarta parte de los artículos que citan. Un argumento más elaborado basado en un modelo probabilístico conduce a un valor casi idéntico, R = 0,22.»

«Si los científicos citan copiando la lista de referencias de otros artículos en lugar de leer las referencias originales, entonces puede que tenga lugar un efecto «bola de nieve» en las citas que recibe un artículo. Simkin y Roychowdhury han desarrollado para explicarlo un modelo llamado de «cita a ciegas», que supone que cada científico elige las citas al azar. Supongamos que se han escrito N artículos y que un científico escribe uno nuevo. El científico escoge al azar m artículos de los N existentes, los cita y cita también, con una probabilidad p, las referencias que aparecen en esos m artículos. El modelo reproduce bastante bien los datos reales. Hay dos posibilidades para ser citado: o bien a) el artículo es elegido entre los m primeros, o b) está en la lista de referencias de algunos de estos m primeros artículos. La probabilidad de que nuestro artículo con k citas sea citado de nuevo es mayor cuanto mayor sea k. De hecho, si k es pequeño, será muy poco probable que el artículo sea citado de nuevo. En el modelo de cita a ciegas habrá muchos artículos apenas citados y unos pocos muy citados. Esta es la distribución a la que se ajustan los datos reales.»

El artículo que menciona Parrondo en este último párrafo es M.V. Simkin, V.P. Roychowdhury, «Copied citations create renowned papers?,» ArXiv, 8 May 2003 , donde se afirma literlamente que «Simple mathematical probability, not genius, can explain why some papers are cited a lot more than the other.» Lo dicho, si eres investigador, ¡que la suerte te acompañe!

Si quieres citar el artículo de Simkin y Roychowdhury debes saber que ampliado se acabó publicando en una revista internacional como «Stochastic modeling of citation slips,» Scientometrics 62: 367-384, 2005 [ArXiv, 28 Nov 2004]. ¿Y qué pasa con las «bellas durmientes»? Esos artículos que pasan desapercibidos hasta que un día empiezan a ser citados y alcanzan cierta fama. Estos investigadores adaptaron su modelo para poder explicarlas probabilísticamente en «A mathematical theory of citing,» Journal of the American Society for Information Science and Technology 58: 1661-1673, 2007 [ArXiv, 14 Apr 2007]. Presentan un nuevo modelo done un científico toma aleatoriamente artículos recientes y los cita junto a algunas citas de éstos elegidas también aletariamente. La clave es la palabra «recientes». En palabras de los propios autores:

«The model can also explain «sleeping beauties in science», i.e., papers that are little cited for a decade or so, and later «awake» and get a lot of citations. Although much can be understood from purely random models, we find that to obtain a good quantitative agreement with empirical citation data one must introduce Darwinian fitness parameter for the papers.»

Un modelo darwinista para el proceso de evolución de las citas a artículos científicos. ¿Adónde nos ha llevado una errata como «MM04» por «MM40»? En el año de Darwin, Darwin hasta en la sopa protoplanetaria del nacimiento del Sistema Solar.



18 Comentarios

  1. Es una pena que la revisión bibliográfica, en mi opinión, una de las partes fundamentales de la investigación científica, sea, irónicamente, una de las menos rigurosas. Lei hace tiempo un artículo que trataba sobre el problema que puede ocasionar el asunto de las citas y referencias, con todo lo que conlleva en el índice de impacto, etc. Parece que es más importante tener una buen falso background que de sensación de fiabilidad que el hecho en sí de ser riguroso. Justo lo que debería ser la investigación.

    Ilustrativo, desolador y buen artículo.

  2. Interesante artículo. Sin embargo no estoy del todo de acuerdo con una cosa. Que se copie mal una referencia no quiere decir que el investigador no haya leído el artículo que cita la referencia. Al menos para mí, una de las partes más tediosas de escribir artículos científicos es escribir las referencias con el formato adecuado (que además puede variar según la revista o conferencia a la que mandes el mismo). Así que, en muchas ocasiones, se copia literalmente la referencia directamente de otro artículo. Eso no quiere decir que no te hayas leído el artículo citado (aunque en muchas ocasiones será verdad).

  3. Cito textualmente:

    Simkin y Roychowdhury ponen un ejemplo, detectaron 196 erratas en las 4300 citas a un artículo. De estas 196, sólo 45 eran diferentes. Es evidente que, de los 196 autores que han citado erróneamente, 196 – 45 = 151 han copiado puesto que su errata no es original. La fracción de lectores frente a citadores es R = 45/196 = 0,23.

    Todo correcto hasta la última frase. En realidad, R=0,23 representa… en realidad no representa nada. Veamos.

    Las 4300 citas, ¿son leídas o son copiadas sin leer?. No lo sabemos, no lo podemos saber. Por poner un ejemplo, quizá 4000 de esas 4300 sean copiadas… y las 4000 no tengan erratas que extender. O quizá solo sean copiadas 151, no lo sabemos.

    Las 151 erratas, ¿estaban en 151 artículos? Porque (forzando mucho las cosas) podría ocurrir que el artículo original tuviera 151 erratas, que un solo artículo copiado sin leer repitiera esas 151 erratas y las 4299 citas fueran leídas (entre las cuales habría otras 45 erratas nuevas).

    En fin, que ese estudio tal y como se nos ha planteado dista mucho de llevar a la conclusión que se expone (cito textualmente) «los autores sólo se leen el 20% de los artículos que citan en la sección de referencias».

    No hay nada que nos lleve a tal conclusión del 20%. El estudio tal como se nos ha planteado no tiene absolutamente ninguna conexión con la pretendida conclusión.

  4. Marsupilami, quizás no me he explicado bien.

    Pichorro, tu argumento en Menéame cae en el mismo error que Marsupilami.

    La conclusión del 20% es obtenida gracias a un modelo matemático «razonable» que se ha desarrollado a partir de cierta evidencia experimental. Como lo contáis vosotros es como si la evidencia experimental hubiera sido la causa de la conclusión y no es así. Es sólo la chispa que inició el desarrollo del modelo.

    ¿Quiere decir la conclusión de Simkin-Roychowdhury que todos los autores eligen aleatoriamente los artículos que citan? Obviamente, no. Lo que afirma su modelo es que es curioso que la propagación de erratas en las citas se pueda explicar con un modelo aleatorio extremadamente elemental. Es algo curioso pero inútil.

    Explicar cómo se comportan las personas es obviamente imposible, ya nos lo decía Hari Seldom (creador «asimoviano» de la psicohistoria).

  5. Ajá, he releído tu escrito y creo entender lo que se me prentende transmitir. Si estoy en lo cierto, lo que Simkin y Roychowdhury pretenden es estudiar el conjunto completo de 4300 citas a través del subconjunto de 196 citas erradas.

    Como de las 196 citas erradas solo 51 son citas erradas originales (el 23%), y dando por «evidente» que la única causa de una errata repetida es el copy-paste de la errata, y dando por supuesto que el copy-paste de un artículo implica que no se ha leído tal artículo… dadas todas esas cosas… y dando por supuesto que se puede extrapolar… se extrapola el 23% al conjunto general y se dice que solamente el 23% de los artículos citados han sido leídos previamente. Ole.

    Creo que eso es lo que Simkin y Roychowdhury han querido decir… y no me voy a molestar mucho en rebatirles su método, creo que ya están claros sus punto débiles.

    Respecto a lo que nombras de que existe un modelo matemático «razonable» (el entrecomillado es tuyo) que demuestra la tesis del 23%, solo comentar que me hubiera gustado ver tal modelo, en vez de ver el modelo de Simkin y Roychowdhury que no lleva a nada. Es como si se pretende demostrar que un caballo tienen cuatro patas porque una araña tienen ocho, y dado que una araña es la mitad de grande que un caballo, habrá que dividir el número de patas por dos… así salen cuatro patas ¿hay algo más absurdo que eso? Oiga, tendrá usted que demostrar que el caballo tiene cuatro patas (o no) de otra manera porque el método de las arañas no me convence demasiado.

    En fin, en mi comentario anterior se me ha olvidado agradecerte tu blog, es muy interesante y suelo disfrutar con él.

  6. Antes de que nadie se me coma vivo, no soy científico, profesionalmente hablando.

    No obstante pienso que puedo dar mi opinión respecto al tema de las citas, ya que dicho tema afecta a bastantes más campos.

    Existe una sensación generalizada a que las citas acostumbran a ser un nido de falsedades, personalmente me importa poco si se trata de una realidad comprobable o de un mito, lo que importa, lo que me importa, es el porqué.

    No es la primera vez ni, desgraciadamente la última, dónde he visto valorado un trabajo, técnico en mi caso, a peso y/o volumen, y no lo pongo entre comillas porqué es exactamente así. Comentando con algunos conocidos que trabajan en investigación me ha llegado la sensación que más de una vez en los estudios científicos se ha valorado el peso y/o volumen de las citas cómo condición sine qua non para dar validez al estudio.

    Muchos de vosotros habreis usado manuales de distintos programas, cuando el manual es extenso mirad si aparece algo parecido a:

    Nombre: es el nombre del cliente( proveedor, operario, etc…)

    Ésta es una muestra evidente de que alguien recibió una bronca monumental por no haber llenado de paja (mierda) un excelente y escueto manual.

    Aplíquese a todo.

  7. Ni micras ni micrones, ¡micrometros! 😉

    Una cita bibliográfica cualquiera puede tener más de cien letras, por lo que encontrar que un alto porcentaje de las erratas se repetía exactamente haría sospechar a cualquiera, y no suponer que fueron pura casualidad. La excepción serían aquellos términos que provoquen errores ortográficos, por ejemplo Neisseria gonorrhoeae (pocas personas lo escriben bien sin copiarlo).

    Simkin y Roychowdhury trataron de crear un modelo matemático a posteriori, y lo curioso fue el modelo que lograron, lo cual no significa que autores seleccionen sus citas al azar.

  8. Creo que Marsupilami ha dejado claro cuál es el kid de la cuestión, pero insistiré un poco más en él. Los autores hacen una selección del espacio muestral, seleccionando 196 eventos de los 4300, para obtener conclusiones sobre los 4300. Esto sería correcto si la selección escogiera un grupo representativo, pero no es así, pues curiosamente sólo se eligen autores que han citado incorrectamente. Obviamente, entre estos casos es mucho más probable que no se haya leído el artículo, lo que conduce al resultado deseado. Dicho de otro modo, escogen un grupo no representativo para hacer estadística sobre el conjunto global. Trampa.

    Por otro lado, me gustaría señalar que mencionan el «presumed innocence principle», según el cual, si no pueden probar que uno de los citadores no ha leído un artículo entonces asumirán que sí lo ha hecho. Pues bien, según ese principio, los 4300 – 151 citadores de los que no puedo probar que no han leído el artículo deben haberlo hecho, y por lo tanto, dividiendo entre 4300, obtengo más de 96% de lectores. En conclusión, se realiza un estudio contradictorio, pues en primer lugar se afirma usar el mencionado principio y luego se selecciona a los individuos del estudio de tal modo que olvidamos a 4149 casos positivos en favor de 151 negativos. Una barbaridad.

  9. El argumento de Pichorro me ha hecho pensar bastante. Al principio creía que era correcto pero ahora creo que no, que la estimación de Symkin es correcta (es en cualquier caso una estimación y no una cota). Supongamos que hay L lectores y C copiadores y que p es la probabilidad de que un lector cometa una errata. En la literatura habrá pL citas erróneas originales de lectores. Si un copiador toma un artículo al azar encontrará una errata con una probabilidad (aproximadamente), p. Por tanto el número de citas erróneas no originales será pC. Entonces:

    número de citas erróneas no originales / número total de citas erróneas = pC/(pC+pL)= C/(C+L).

    En el argumento hemos hecho algunas aproximaciones, como despreciar la probabilidad de que un copiador copie a otro copiador. Se puede incluir de todos modos, aunque creo que para hacerlo correctamente hace falta un modelo dinámico que vaya añadiendo autores y citas, que es el modelo más complejo de Symkin et at.

    ¿Dónde está el fallo en el argumento de Pichorro? Está en que la muestra de citas erróneas no es en realidad sesgada. Puede ser pequeña o sujeta a fluctuaciones, pero no sesgada. La razón es que el argumento de Symkin supone que *todas* las erratas originales se originan en lectores y no en copiadores. Eso hace que la muestra sea completamente aleatoria.

  10. Gracias Parrondo por tu aclaración.

    El número 20% no es importante. Lo importante es la idea.

    Un ejemplo que nos dice que «the number of miscitations (also called misquotations) in the biomedical literature varies between 6% in radiology journals (Hansen & McIntire 1994) and 35.2% in emergency medicine journals (Goldberg et al. 1993). (…) Taking data from 5 separate biomedical journal studies (DeLacey et al. 1985, Hansen & McIntire 1994, Fenton et al. 2000, Gosling et al. 2004, Lukiç et al. 2004), the mean number of incorrectly referenced citations is an impressive 34.28%.»

    En este otro artículo se comenta «Random copying and conformity are quite different, and can have significantly different effects. Copying a randomly selected individual is not the same as making an informed decision about the most common behavior (or prestigious individual) to imitate. Whereas random copying leads to a power law distribution in the popularity of choices, with the most popular choice arising simply by chance, conformist or prestige bias would more likely give rise to “winner-take-all” distribution, where there can be at least some explanation for the predominant choice.»

  11. Considero importante la publicación de este documento ya que en la investigación de la educación tradicional es muy común citar «hechos científicos» cuando no han sido leidos en los docuemntos originales, sino que lo toman en tal o cual referencia que lo menciona, pero ¿que tal si de donde lo tomó, también lo hizo igual? (quien tampoco leyó la fuente original) entonces sería un grave error en cadena, como sucede comunmente. Por lo tanto es vital para el desarrollo de la ciencia, haber gestionado y obtenido el documento original y sólo de esa manera podrá citar el mismo.
    Recordar que la investigación científica sólo se realiza utilizando articulos originales y artículos de revisión.

    Actualmente un servidor realiza estudios de doctorado y he estado desarrollando la habilidad para la gestión, obtención y administración de información científica (manejo de bases de datos)por ello es que menciono lo anterior.
    Quedo a sus ordenes, para conformar redes de trabajo investigativo.

  12. Citar mal es algo a lo que nos está conduciendo Google mismo. A veces utilizo Google Scholar para citar los artículos o libros en formato de bibtex (que como saben es increíblemente fastidioso) y este los referencia mal: a veces pone años diferentes, cambia apellidos por nombres, no ubica bien las mayúsculas en los títulos… En fin, el desastre continúa y con toda seguridad no implicando que, al menos yo, no haya leído la fuente citada. Saludos.

  13. Seguramente habrá algún estudio del comportamiento darwinista de los paper: supervivencia, no de los mejores, sino de los que aparecen en el momento adecuado en el lugar adecuado…

    Saludos a todos.

Deja un comentario