La falta de rigor de Thomson Reuters al calcular el índice de impacto de una revista en el JCR

Por Francisco R. Villatoro, el 6 febrero, 2013. Categoría(s): Bibliometría • Ciencia • Factor de impacto (Impact factor) • Noticias • Science ✎ 16

Dibujo20130206 impact factor increase 40 percent of current bioloty from 2002 to 2003

Ya hemos hablado en este blog en varias ocasiones de la «ingeniería» del índice de impacto, las artimañas que usan los editores de las revistas científicas para posicionarse mejor en el JCR (Journal Citation Reports) editado por la empresa privada Thomson-Reuters. Algunas «malas artes» son detectadas gracias a un algoritmo secreto (no publicado), sin embargo, otras se realizan con el consentimiento de Thomson-Reuters. Esta figura muestra cómo Current Biology subió un 40% en su índice de impacto gracias a cambiar el número de artículos que publicó en 2001: según el 2002 JCR publicó 528 artículos en 2001, pero según el 2003 JCR publicó sólo 300, ¿dónde fueron a parar los 228 artículos restantes? Las revistas científicas publican artículos de diferentes tipos (editoriales, noticias, letters, papers, reviews, book reviews, etc.). Todos pueden recibir citas, pero muchos reciben pocas citas. Los editores pueden solicitar a Thomson-Reuters que no tenga en cuenta ciertos tipos en su cuenta del número de artículos publicados. En el caso de Current Biology, este cambio supuso un incremento del 40% en el índice de impacto entre 2002 y 2003 (según Scimago, el SJR de Current Biology subió de 4,9 a 5,2, sólo un 6%). Supongo que los autores de artículos científicos que publicaron en esta revista en 2003 estarán muy contentos, pero los que publicaron en 2002 se lamentarán de que Thomson-Reuters no hiciera el cambio un año antes. ¿Saben las agencias de evaluación de investigadores y proyectos de la existencia de estos hechos? ¿Deberían ser tenidos en cuenta? Recomiendo la lectura del artículo de Björn Brembs, Marcus Munafò, «Deep Impact: Unintended consequences of journal rank,» arXiv:1301.3748, 16 Jan 2013.

Por cierto, el «índice de impacto» a veces es traducido del inglés como «factor de impacto» porque en dicho idioma se escribe «impact factor,» pero esta traducción, aunque es muy popular hoy en día, no era la recomendada hace 25 años cuando yo empecé a escuchar el término; igual que tampoco se usaba la palabra «tecnología» en lugar de «técnica,» la traducción correcta de «technology.» Pero como la lengua es algo vivo y cambiante, lo mismo alguno me criticará por seguir llamando «índice de impacto» a lo que siempre se llamó «índice de impacto» y ahora nos quieren imponer como «factor de impacto.»

Dibujo20130206 impact factor trend - acta crystallographica section a - 2007-2011

Muchos ya habréis olvidado el caso de la revista Acta Crystallographica A que pasó de un índice de impacto en JCR de 2,05 en 2008, a 49,93 en 2009, 54,33 en 2010, y retornó a la normalidad con un 2,08 en 2011. El responsable de la hazaña fue un solo artículo publicado en 2008, cuyas citas se tuvieron en cuenta en el JCR de 2009 y 2010, pero no en el de 2011. No creo que fuera intencionado, pero el artículo en cuestión no era de investigación, contaba de forma breve la historia de SHELX-97, un software muy utilizado en cristalografía. Mucha gente usa dicho software citando los artículos originales, pero por alguna razón extraña decidió citar también la historia breve que su autor contó en 2008. Muchos editores con «malas» intenciones pueden tratar de hacer lo mismo invitando a autores consagrados a escribir artículos breves sobre técnicas muy utilizadas con la intención de recibir un gran número de citas. A muchos les saldrá el tiro por la culata, pero otros disfrutarán de un buen incremento de su índice de impacto. ¿Tienen en cuenta las agencias de evaluación de investigadores y proyectos este tipo de prácticas? ¿Deberían ser tenidas en cuenta?

Muchos editores de revistas, además del índice de artículos de cada número (issue), incluyen un artículo «científico» que resume o comenta todos los artículos de dicho número. Cuando este artículo «científico» es considerado un artículo más de la revista (sin distinción alguna), la revista alcanza de forma automática  un índice de impacto superior a uno. En muchos campos este cambio supone ascender muchísimos puestos en el ranking. Esta práctica de autocitas es muy común y solo es detectada por Thomson Reuters si el total de autocitas es excesivo (mayor de un 70% del total de citas). Como ésta hay muchas otras artimañas que los editores de revistas utilizan para «ajustar» el índice de impacto de su revista con el consentimiento de Thomson Reuters. ¿Deberían tener en cuenta las agencias de evaluación este tipo de prácticas?

Gordon Macomber, presidente de Thomson Reuters, lo advirtió cuando llegó a su cargo: el índice de impacto de las revistas no debe ser utilizado para evaluar ni investigadores ni proyectos. La razón fundamental es que el cálculo del índice de impacto no es riguroso. Thomson Reuters es una empresa privada que utiliza un algoritmo secreto basado en bases de datos secretas para calcular un índice bibliométrico que cualquiera podría calcular utilizando la información publicada en el ISI Web of Science. Pero si alguna vez te has molestado en calcular por tu cuenta el índice de impacto de una revista, habrás podido comprobar que casi nunca (salvo muy contadas excepciones) coincide con el publicado en el JCR. Los artículos que se incluyen en la cuenta depende de un acuerdo secreto en Thomson Reuters y los editores. Más aún, las bases de datos de Thomson Reuters están repletas de errores e inconsistencias. Según el ISI Web of Science, la revista Current Biology publicó 636 artículos en 2001 (acabo de buscar «Year Published=(2001) AND Publication Name=(current biology)»), pero en el JCR de 2002 sólo se tuvieron en cuenta 528 y en el JCR de 2003 sólo 300. ¿A alguien le parece riguroso este baile de cifras? ¿Deberían seguir usando el JCR como marchamo de calidad las agencias de evaluación a la vista de la falta de rigor de Thomson Reuters?

El artículo de Brembs y Munafò nos cuenta que la editorial Rockefeller University Press compró el acceso a las bases de datos utilizadas para elaborar el JCR de sus revistas así como de algunos competidores. Calcularon el índice de impacto y encontraron diferencias de hasta un 19% con respecto al valor publicado por Thomson Reuters. Cuando preguntaron por la discrepancia, Thomson Reuters les dijo que utilizaban varias bases de datos y que les habían enviado por error la base de datos equivocada. Les enviaron otra y resultó que tampoco era la correcta, pues también diferían los índices de impacto respecto a los valores publicados. Hay muchos otros casos similares. ¿Deberían seguir confiando las agencias de evaluación de investigadores o proyectos en una empresa como Thomson Reuters qué no sabe ni cómo calcula lo que publica?

Alguno dirá que estoy paranoico con el índice de impacto y que el JCR es la Biblia y punto. Afortunadamente, no soy el único que tiene dudas (Bee, «Consequences of using the journal impact factor,» Backreaction, Feb 05, 2013).

Dibujo20130204 retractions for 10k publications versus time

Permíteme acabar con otro tema relacionado con el artículo de Brembs y Munafò. ¿Ha crecido el número de retracciones de artículos de forma escandalosa en los últimos años? Esta figura muestra que el número de retracciones se ha multiplicado por diez en lo que llevamos de siglo XXI, desde unos cinco por cada cien mil artículos en el año 2000, hasta unos 5 por cada diez mil artículos en 2011. ¿Debemos alarmarnos por este crecimiento? En mi opinión no hay que alarmarse demasiado. Esta subida del número de retracciones está acompañada de una subida similar en el número de artículos publicados y además las herramientas web antiplagio han facilitado la detección de fraudes y plagios, las causas fundamentales de las retracciones.

Dibujo20130204 retraction index versus impact factor

¿Son las revistas de alto impacto menos fiables porque tienen una mayor tasa de retracciones? Afirmar que el índice de impacto es un buen predictor de la tasa de retracciones es ver la realidad con un prisma que no me parece adecuado. Obviamente, que se detecten problemas que lleven a una retracción es más fácil en los artículos publicados en las revistas más leídas, que son las que tienen mayor índice de impacto. Además, los lectores de estas revistas suelen ser críticos con lo que leen, pues quizás envidian a quien ha podido publicar en ellas algo similar a lo que uno hace. Por ello, tampoco me preocupa este problema. Creo que es normal que en estas revistas se detecten mayor número de problemas que lleven a la retracción total o parcial de los artículos.

¿Qué es lo que me preocupa de todo esto? Pues muy sencillo. Últimamente ya no envío artículos científicos a una revista sin antes mirar el índice de impacto y estimar el que tendrá el año siguiente. Supongo que mucha gente también lo hará. Me molesta hacerlo, pero lo hago siempre. Esta práctica es reprobable y lo único que consigue es enriquecer a ciertas empresas privadas… Me siento culpable. Me gustaría creer que un futuro mejor es posible para el sistema de publicaciones científicas.



16 Comentarios

  1. «Cualquier regularidad estadística observada tenderá a desplomarse una vez se presione para utilizarla con propósitos de control», es la Ley de Goodhart. Mi expresión alternativa de la ley es que todo indicio involuntario utilizado con propísito de control se convierte en señal voluntaria susceptible de manipular el control.

  2. Todo esto además con el siguiente pensamiento en la recámara: al mandar un artículo, te revisa la competencia. Sí, todos velamos por el progreso de la ciencia y que no vamos a rechazar un artículo digno de publicación aunque repercuta negativamente en nuestras publicaciones y/o investigación. También dicen que hay enanitos que buscan las cosas que perdemos para hacérnoslas llegar.

  3. Teniendo en cuenta ciertos hábitos y prácticas muy extendidas entre el cuerpo de investigadores
    en nómina de muchas universidades, considero que esta métrica debería ser «ajustada» o
    corregida con otro parámetro no menos importante, como es el índice de huéspedes por artículo
    (en adelante, IH), que se define como el valor, en promedio, del siguiente cociente:

    -IH = HNC / NCM

    -HNC= Huéspedes No Colaboradores, que son los individuos que aparecen como coautores de un artículo
    aunque no han movido ni un dedo en el planteamiento, planificación, investigación, redacción y
    revisión del citado artículo. En muchos casos, estos individuos ignoran su autoría de tales
    artículos, que viene impuesta por factores sociales, políticos, ecónomicos o administrativos.

    -NCM= Negros que se Comen el Marrón, se trata por lo general de estudiantes de postgrado, becarios con
    cargo a proyectos de investigación y otros marginados por las partidas presupuestarias y el gasto
    público en investigación. Ocasionalmente, también colaboran en la elaboración de estos artículos
    doctores con extensa experiencia investigadora, en busca de sexenios o plazas de catedrático.

    Por otro lado, se ha comprobado empíricamente que existe un correlación directa de tipo probabilístico entre
    la tasa de enchufismo y «compadreo» del centro de estudios, departamento o grupo de investigación y el índice
    de huéspedes, cuya función de probabilidad se ajusta a una distribución de Poisson.

    Puede ampliar su conocimiento sobre el tema mediante la lectura de la siguiente publicación (cuyos autores no
    son ficticios, ya que su autoría ha sido confirmada por la Asociación Española de Gastroenterología):
    «Autoría de las publicaciones científicias», J. P. Gisbert, J.M. Piqué

    P.D. El que crea que en el extranjero la cosa es distinta o que los doctores en Medicina se afanan en publicar artículos
    para aliviar el sufrimiento o mejorar la calidad de vida de sus pacientes se va a llevar una gran desilusión.

  4. El uso del índice de impacto para evaluar investigadores es similar al uso del número del zapato, el perímetro torácico o la carta astral.

    Por ejemplo, en Matemáticas la antigüedad media de los artículos más descargados de Jstor es de 32 años (dato de 2001). En casi todas las revistas matemáticas, según el propio JCR, un artículo tarda más de 10 años en alcanzar la mitad de sus citas (el cited half-life).

    ¿Qué sentido tiene poner puntuación a la calidad de un trabajo por el número de citas que hayan tenido otros artículos en menos de 2 años, si además es un campo en el que el tiempo desde el envío hasta la publicación puede ser fácilmente de año y medio?

    (También se podría preguntar «¿Qué sentido tiene poner puntuación a la calidad de un trabajo por el número de citas?», sin más…)

  5. La verdad sea dicha, no había contemplado semejante desplome de un índice
    desde el «crack» de la bolsa en el año 29. Tampoco creo que sea lo idóneo que
    un investigador tenga que estar vigilando continuamente como evoluciona el F.I.
    de una revista o publicación, ni que se convierta en una especie de «broker» de
    la publicación que tenga que esperar a invertir (perdón, quería decir: publicar),
    el fruto del trabajo de muchos meses de investigación, a que las fluctuaciones
    de este índice sean favorables.

    Quizás una solución a este problema podría encontrarse en la dirección de evaluar
    más la calidad que la cantidad, por ejemplo: que solo se tuviesen en cuenta los N
    artículos más citados de cada revista para calcular su índice de impacto.

    Entonces, la contribución de cada uno de estos N artículos para el cálculo
    del nuevo índice de impacto de la revista podría computarse de forma similar
    a como lo hace una partida de ajedrez jugada con respecto al Elo del jugador.

    Por ejemplo, si el número de citas de un artículo (ponderado por el F.I. de
    la revista desde la cual se cita) coincide con el valor promedio correspondiente
    al F.I. de la revista, la contribución del artículo al F.I. de la revista sería nula.
    En cambio, si el número de citas fuese menor o mayor al promedio anterior,
    su contribución debería ser negativa o positiva, respectivamente, en proporción
    a su diferencia con el valor promedio.

    También sería deseable suprimir las autocitas para el cálculo del F.I. y ponderar
    en menor grado las citas desde artículos publicados en la propia revista que las citas
    desde artículos publicados en otras revistas, para de esta forma mitigar un poco el
    autobombo y la monopolización de los mejores artículos por parte de una única revista.

    ¿Qué les parece este método para el cómputo del índice de impacto?

    P.D. Hecha la ley (o el baremo para evaluar la actividad investigadora), hecha la trampa.

    P.D. ¡Qué triste que se bareme el trabajo de un investigador español mediante un índice
    mantenido por una empresa privada del extranjero!

  6. No creo que sea importante ser reconocido por un índice. Siento, que es más importante sólo investigar y amar los resultados seán estos buenos o malos. Sin esperar nada a cambio, porque este es un arte donde el ûnico que verdaderamente lo disfruta es su creador. Un saludo.

    1. ay2013, hoy en día la ciencia es una profesión (como muchas otras con «arte») y los investigadores trabajamos para vivir (todavía no nos alimentamos del «aire»).

      1. Y lo entiendo muy bien, sobre todo para solicitar financiamiento o una plaza. Lo vivo en carne propia. Pero no me obsesiona discutir si realmente esta siendo bien valorado mi trabajo, porque uno mismo sabe cuál la verdadera importancia de nuestros resultados. Ahora lo que si es cierto para aspirar a más (Lease como objetivo: ser más independiente). Nos encontramos condicionados, es lamentable la falta de rigurosidad pero, es algo que pienso no nos debería quitar el sueño. Un saludo.

      2. Creo que lo que quiere decir el hermano ay2013 es que un estudiante que sobrevive con una beca pre-doctoral, del mismo modo que un hippie, apenas si gana para comer y le espera un futuro laboral muy incierto cuando termine. En fin, si me lo permiten, voy a liarme un papelillo, bueno… quería decir, voy a liarme con un «paper», a ver si no alucino con las conclusiones del mismo…

  7. Que opinion os merece Google Scholar? Ellos mismo calculan el numero H, y llevan una cuenta de citas que difiere bastante de las que podemos encontrar en ISI. Se atreveran a sacar su propio indice de impacto?

    1. Scotty, hay varios estudios bibliométricos que indican que para artículos recientes (pongamos los últimos 15 años) Google Scholar es tan fiable como Web of Science y que las citas medidas por ambos sistemas (aunque difieren) están bien correlacionadas. Más aún, Google Scholar permite calcular el índice h de autores científicos (autobombo).

      1. Scotty, están bien correlacionadas quiere decir que si un artículo, persona, revista o lo que sea está muy citado o muy poco citado según Google Scholar (GS) también lo estará según Web of Science (WoS) y viceversa. Sin embargo, las fuentes de las citas en ambos son muy diferentes; normalmente GS ofrece muchas más citas, aunque muchas están repetidas y/o son incorrectas; además, GS actualiza de forma más irregular las citas. Por tanto, el problema está en la zona intermedia (los que ni son muy citados ni muy poco citados), donde WoS es más fiable que GS (por ahora).

        GS, WoS, Scopus, PubMed, etc. «ven» trozos diferentes del total de publicaciones, trozos con intersección no nula a veces, pero que resultan en diferencias en la cuenta de las citas para muchos artículos. Además, GS se puede falsear fácilmente («Manipular Google Scholar Citations y Google Scholar Metrics: simple, sencillo y tentador«).

        Más información a favor de GS vs WoS «Web of Science vs. Scopus and Google Scholar,» y en contra «Comparison of major features of the Web of Science, Scopus, and Google Scholar.» Para acabar «Comparison of PubMed, Scopus, Web of Science, and Google Scholar: strengths and weaknesses

Deja un comentario