La falta de rigor de Google Scholar

Por Francisco R. Villatoro, el 2 enero, 2014. Categoría(s): Bibliometría • Ciencia • Índice-h de Hirsch • Noticias • Science ✎ 13

Dibujo20140101 pantani-contador fake spanish author - daniel torres-salinas new h-index

Yo uso mucho Google Scholar (o Google Académico) desde que nació el jueves 18 de noviembre de 2004 (Declan Butler, «Science searches shift up a gear as Google starts Scholar engine,» News, Nature 432: 423, 25 Nov 2004). Por supuesto, su algoritmo automático para detectar qué es un documento científico comete muchos errores (aunque ha mejorado). La clave es que el documento esté colgado en una institución «respetable» (como una universidad española), por ello resulta muy fácil colarle un gol con un artículo bulo (fake). Mucha gente ha abusado de esta posibilidad colgando en la web de su universidad artículos generados por ordenador con autores ficticios o contenido incomprensible. Como es obvio, estos artículos permiten falsear las métricas bibliométricas de Google Scholar, como el índice h y el número de citas de cualquier investigador. Ya lo conté con el experimento Antkare del francés Cyril Labbé en «Cómo incrementar tu índice h gracias a Google Scholar,» LCMF 14 Ene 2011.

El mes pasado esta cuestión volvió a ser noticia gracias al experimento Pantani-Contador realizado por investigadores españoles de las universidades de Granada y Navarra (que se basaron en la idea de Labbé). Lo más curioso es que estos españoles lograron publicar una breve nota (un par de párrafos) sobre su experimento en la prestigiosa revista Science. Un gran premio para su labor, que además muestra que la bibliometría y la cienciometría son campos candentes en los que es fácil publicar hasta en las revistas más prestigiosas. «Science Communication: Flawed Citation Indexing,» Science 342: 1169, 6 Dec 2013; el artículo técnico es «The Google Scholar Experiment: how to index false papers and manipulate bibliometric indicators,» Journal of the American Society for Information Science and Technology, AOP 11 Nov 2013 (arXiv:1309.2413 [cs.DL]).

Por cierto, hay una versión en español del artículo de Emilio Delgado López‐Cózar, Nicolás Robinson‐García, Daniel Torres‐Salinas, «Manipular Google Scholar Citations y Google Scholar Metrics: Simple, sencillo y tentador,» EC3 Working Papers 6, 2012 [resumen en el blog del grupo EC3noticias, 29 May 2012). En español también recomiendo UGRdivulga, «El experimento español ‘Pantani-Contador’ demuestra lo fácil que es engañar a Google Scholar,» Agencia SINC, 10 Dic 2013. De hecho, Google Scholar Metrics apareció el 01 de abril de 2013 (lo que muchos interpretaron como una broma de April Fools’ Day, equivalente al 28 de diciembre, Día de los Inocentes, en España), como nos contaron Álvaro Cabezas-Clavijo, Emilio Delgado-López-Cózar, «Scholar Metrics: el impacto de las revistas según Google, ¿un divertimento o un producto científico aceptable?,» EC3 Working Papers 1, 09 Abr 2013.

Como el artículo técnico está en español, recomiendo su lectura a todos los interesados en los detalles del experimento. En resumen, Emilio Delgado López-Cózar, Nicolás Robinson García y Daniel Torres‐Salinas estudiaron el efecto de seis artículos científicos falsos publicados por un tal Marco Alberto Pantani-Contador, cuyo texto en español es un sinsentido y fue traducido al inglés por Google Translator. Colgaron los documentos en la página web de la Universidad de Granada (una institución muy respetable para Google Scholar), en concreto, en la web del grupo de investigación EC3 (Evaluación de la Ciencia y de la Comunicación Científica). Estos seis artículos citaban cada uno a otros 129 trabajos científicos y estas 774 citas afectaron a los parámetros bibliométricos en Google Scholar de 47 investigadores y de 51 revistas. Por tanto, los autores concluyen que este tipo de prácticas tienen un efecto perverso en Google Citations y Google Scholar Metrics.

Todos los sistemas de gestión automática de citas tienen fallos (como conté en «La falta de rigor de Thomson Reuters al calcular el índice de impacto de una revista en el JCR,» LCMF 06 Feb 2013). La única ventaja del Web of Science de Thomson Reuters es que los autores que detecten fallos pueden solicitar su corrección manual (Web of Science Feedback); yo puedo atestiguar que el sistema funciona. Un sistema similar también está incorporado en Google Scholar (se pueden añadir documentos, citas, cambiar atribuciones de autoría, etc.).

Google Scholar, como todas las herramientas biobliométricas, es muy útil, pero hay que conocer sus limitaciones y utilizarla con sumo cuidado, sobre todo cuando se evalúa a una persona (o su currículum vitae investigador). Google es dios en la web, pero dios también se equivoca.



13 Comentarios

  1. Pero este experimento a quien desacredita es a la UGR, que no controla lo que se cuelga de sus servidores. A fin de cuentas, lo que dice Google Scholar es que el autor tiene muchas citaciones en documentos de esa web, lo cual es cierto.
    Cuantas citas recibieron los papers de la homeopatía, o de la falsa clonación en Nature/Science? Estas citaciones cuentan?
    Al final, todo recae en los mecanismos de control de calidad de las revistas.

    1. Desacredita a la UGR como podía hacerlo a universidad de Cincinatti, Camberra, Harvard o Stanford, porque en ninguna de ellas sus sistemás informáticos poseen filtros, ni tendría sentido que los tuviesen, para filtrar los contenidos que alojan sus profesores o estudiantes.

      Efectivamente el problema de fondo que plantea Google Scholar con sus productos es que ha dinamitado todos los controles que habitualmente hemos usado los científicos. En este trabajo se discurre sobre este tema http://digibug.ugr.es/bitstream/10481/24142/1/Google_scholar.pdf

  2. Google Scholar es una herramienta de búsqueda de documentos y publicaciones de corte profesional. Hasta donde tengo entendido, Google nunca ha establecido que su plataforma sirva para calificar a un texto como fiable o no. Como en toda herramienta de búsqueda automatizada, la relevancia de lo que se encuentre depende de la sensatez de quien realiza la búsqueda para discriminar los contenidos. Por lo tanto decir que “hay falta de rigor” en Google Scholar es una tontería. No hay falta de rigor donde no se requiere rigor.

    Ahora bien, un algoritmo es un conjunto de operaciones para llegar a una serie determinada de resultados. Por definición un algoritmo no comete errores. Salvo que queramos antropomorfizar a los algoritmos.

    Al develar que se puede “engañar” a Google Scholar estos investigadores han hecho una gran contribución a la humanidad al descubrir el hilo negro. Es un hecho por demás demostrado que los resultados que arroja Google en cualquiera de sus sistemas de búsqueda pueden ser manipulados del mismo modo que podemos generar un “trend topic” ficticio. No encuentro cómo Google Scholar pueda estar fuera de esta característica de los sistemas de indexado automatizado.

    El “índice h” mide la “calidad” de un investigador por el número de citas que recibe en otras publicaciones. Este índice es un estándar de evaluación en el mundo académico. Google lo toma y elabora una herramienta de búsqueda basada en él. El conflicto medir la calidad de los investigadores con base en el número de citas ¿es problema del índice o de Google?

    Corolario de esta entrada: buscarle tres pies al gato sabiendo que tiene cuatro.

    1. Desde el momento que Google lanzó Google Scholar Citations y Google Scholar Metrics ya no podemos hablar de buscadores. Son productos que ofrecen indicadores bibliométricos de científicos y de revistas. Por tanto, es responsabilidad de «la compañía» como lo es de Thomson Reuters con sus JCR o Scopus con sus herramientas de análisis bibliométrico, ofrecer productos fiables, válidos y si no invulnerables a la manipulación (esos no existen) sí, al menos, con procedimientos para detectar y sancionar a los que los manipulan. Por tanto, literalmente «hay falta de rigor en Google» y el post de Francis está perfectamente titulado.

      Que la sensatez reside en el uso y no en el diseño es evidente. El argumento es manido pero debo traerlo aquí: la dinamita la inventó Alfred Nobel para la minería y la construcción y ha acabado empleándose para matarnos unos a otros. Claro que todo depende de la sensatez. Y a eso hay que apelar siempre, pero, en el tema que nos ocupa, hay que recordar que el uso puede convertirse en abuso.

      Ciertamente los gatos tienen cuatro patas y este experimento viene a decir que no se cuenten ni tres, ni cinco, ni veintitrés. En la vida, a veces, lo más simple y sencillo es lo más complicado de ver y entender.

  3. Bueno, los resultados del experimento son interesantes para los evaluadores que tengan que valorar un CV con muchas citas (obtenidas de Google Scholar) o un índice H elevado (obtenido de Google Scholar). Todo es manipulable (también las citas en JCR mediante «acuerdos amistosos» con otros colegas), pero manipular Google Scholar es realmente sencillo.

    Conclusión: aunque ya aplicaba este criterio, a partir de ahora, cuando evalúe CV, tengo un motivo más para NO FIARME de los CV que se refieran a Google Scholar como fuente de citas y demás.

    1. Muy de acuerdo con tu mensaje y muy sensata tu interpretación de nuestro experimento: justamente ese es el efecto que queríamos conseguir. Los científicos que usen herramientas de evaluación bibliométrica deben tener una actitud crítica, de duda metódica, haciendo un uso adecuado en sentido siempre de no dejarse llevar exclusivamente por los datos globales de (citas) o del índice h general, sino que deben hurgar un poco en la evolución de los mismos, en la distribución de citas en la producción de un autor o una revista y, sobre todo, en la procedencia de esas citas. Esperemos que algún día Google nos facilite la tarea generando información bibliométrica descriptiva de la procedencia de las citas (dominios, tipos de documentos, autores, revistas…) y el peso de las autocitas de forma que sea fácil realizar esta tarea.

      Y está muy bien recordar que las citaciones en la Web of Science, Scopus, IN-RECS (por hablar de algún producto español aunque limitado a revistas españolas en ciencias sociales) también pueden manipularse (http://ec3.ugr.es/publicaciones/CRECS_2011.pdf). Lo que ocurre es que estos productos si se ofrecen prestaciones para que dichas manipulaciones afloren.

      La conclusión es clara: siempre alerta y especialmente con los productos derivados de Google. Estar alerta no quiere decir NO FIARSE por sistema.

  4. Ante todo quiero agradecer públicamente la reseña de nuestro experimento en un blog de tan amplia difusión y reputación como éste. Un pequeño granito de arena más que ayudará a alertar a la comunidad científica de los peligros que encierran GSM (Google Scholar Mertrics) y GSC (Google Scholar Citations), “las herramientas bibliométricas open access” diseñadas por Google. Resumes muy bien el sentido último de nuestro trabajo “Google Scholar, como todas las herramientas biobliométricas [ojo: en puridad Google Scholar es un buscador de documentos científicos; las herramientas bibliométricas son GSC y GSM], es muy útil, pero hay que conocer sus limitaciones y utilizarla con sumo cuidado, sobre todo cuando se evalúa a una persona (o su currículum vitae investigador)”.

    La obsesión compulsiva por utilizar los recuentos de citas como unidad de medida de toda la actividad científica (revistas, personas, instituciones…) es un terreno abonado para que triunfen productos simples, sencillos, universales y gratuitos, fáciles de entender, usar y calcular como los promovidos por Google. Este es el caldo de cultivo donde pueden florecer los peligros que acarrean GSC y GSM.

    Si el nacimiento de Google Scholar en 2004, revolucionó el mercado de la información científica permitiendo el acceso universal y gratuito a todos los documentos circulantes en la web, el lanzamiento de GSC, una herramienta de medición de la producción y del impacto de los investigadores y de GSM, un índice para medir el impacto científico de revistas a partir del recuento de citas, puede suponer un auténtico hito en la globalización y democratización de las evaluaciones bibliométricas.
    Aparte de constituir un auténtico órdago a las tradicionales bases de datos bibliográficas e índices bibliométricos patrocinados por Thomson Reuters (Web of Science y JCR) y Elsevier (Scopus y SJR) y de romper el duopolio de facto ejercido por estas compañías convirtiéndose en el más inmediato futuro en un serio competidor, los nuevos productos de Google proyectan unos escenarios y unos dilemas de orden ético y sociológico de dimensiones colosales e imprevistas consecuencias para el mundo de la comunicación y la evaluación científica.

    Y justamente es por esto por lo que este tipo de trabajos es capaz de tener un eco científico y mediático tan importante. Estamos hablando de Google (“Google es dios en la web”) y de Google Scholar (nuestro ángel de la guarda), que ya sabemos es empleado, aparte de tú y yo a diario, por miles de científicos para buscar información; y me temo que GSC y GSM empiezan a serlo también para “juzgar” a los científicos y a las revistas. Y, por otra parte, estamos hablando de la forma en que puede evaluarse y recompensarse el trabajo científico: y esto sí que tiene consecuencias sobre el propio trabajo científico (Impact-factor rewards affect Spanish research. Nature, 2002, 417(6892), 898-898; Impact of the impact factor in Spain. BMJ, 334(7593)) y lo realmente peligroso si no se conocen los usos, los abusos y las limitaciones de los nuevos productos.

    Nuestro grupo de investigación (EC3: Evaluación de la Ciencia y de la Comunicación científica, ec3.ugr.es) lleva desde 2008 investigando sistemáticamente las posibilidades que abren los productos de Google para la evaluación del impacto de la investigación y las publicaciones (http://scholar.google.com/citations?user=kyTHOh0AAAAJ&hl=es). Y hasta ahora nuestras conclusiones son las siguientes:

    1. Google Scholar posee una mina de información científica prodigiosa. Al rastrear en la Web toda la variopinta tipología de documentos de corte académico generados por los científicos en su actividad cotidiana, y al hacerlo en todos los países e idiomas, deviene en una herramienta de suma utilidad para medir la producción y el impacto académico en el sentido más amplio del término (y no sólo científico). Pero es especialmente de utilidad para los científicos de Humanidades y Ciencias Sociales porque controla como nadie lo ha hecho hasta ahora la literatura no anglosajona y aquella transmitida por medios distintos a las revistas científicas, que es la peor controlada por los sistemas de información dominantes en el mundo académico (WOS, SCOPUS). A efectos evaluativos ofrece luz donde antes había sombras, porque con este motor de búsqueda se llega a lugares antes insospechados para ofrecer retratos que, aunque a veces sean de brocha gorda, son mejores que la nada.

    2. A pesar de los problemas técnicos y metodológicos que pueda presentar Google Scholar como fuente de información para la evaluación científica como errores en la identificación de documentos y citas, falta de transparencia en la selección de fuentes, carencia de control y normalización de sus registros), y a que desconozcamos con precisión y no controlemos sus entrañas (algo, por otra parte, casi imposible dada la naturaleza universal de la empresa), ofrece más información, más variada y con un crecimiento mayor que las bases de datos tradicionales.

    3. Pensamos que es factible y viable con Google Scholar generar productos bibliométricos a menores costes que las herramientas de evaluación tradicionales –aspecto trascendental dadas las millonarias sumas que cuestan los productos elaborados por Thomson Reuters y Elsevier-. Y todo ello sin una merma significativa en su solvencia: genera resultados similares (posiciones rankings) que los sistemas tradicionales. Incluso mejora la fiabilidad y validez de los resultados con números más grandes (http://digibug.ugr.es/bitstream/10481/24142/1/Google_scholar.pdf)

    Pero para nosotros la principal debilidad de los productos de Google es la facilidad con que se pueden manipular sus datos y sin que estos puedan visualizarse de alguna manera. Y aquí entra nuestro experimento y nuestra responsabilidad de hacerlo ver a la comunidad científica. Por tanto, sin ánimo de ser petulante, este experimento no es flor de un día sino la guinda a años de esfuerzo continuado y de fructíferos hallazgos.

    La singularidad de nuestro experimento respecto al de Labbé, que fue el primero en desvelar las debilidades de Google Scholar, son numerosas. Se trata de un experimento realizado por personas sin destrezas especiales, cortando y pegando textos sin sentido, traduciéndoles con google trasnlator, subiéndolos a una página web manualmente e inventando un nombre de autor llamativamente sospechoso. En fin un experimento planteado de manera elemental, burda, estentórea y hasta grosera. Y además realizado a “bombo y platillo” dándole todo el eco público posible para llamar la atención de la comunidad científica, y especialmente, de Google para que tome medidas. El experimento premeditadamente se ejecutó así: lo que intenta demostrar es lo fácil, simple y sencillo que es hacerlo; que está al alcance de cualquier analfabeto digital.
    Y se hizo, y esto es muy transcendente, cuando Google lanzó GSC y GSM, productos que de manera directa emplean indicadores bibliométricos. Es decir, intentaba poner a prueba estas herramientas que manifestaban un salto cualitativo en las pretensiones de Google, que pasaba de proponer solo buscadores científicos a herramientas de medición bibliométrica o susceptibles de ser usadas como tales.

    En cambio el experimento de Labbé lo diseñó un informático con un programa informático que genera textos científicos formalmente irreprochables, con un nombre de autor y de una institución ficticia pero irreconocible y gestado en 2010 cuando cuando no existían GSC y GSM, y por tanto, no se podían manipular indicadores bibliométricos (índice h científicos y revistas).

    No creo que que sea mucha la gente que “…ha abusado de esta posibilidad colgando en la web de su universidad artículos generados por ordenador con autores ficticios o contenido incomprensible”. Que yo sepa los que lo han hecho están referenciados en nuestro trabajo; esos son: Labbé (2010), Beel, Gipp, and Wilde (2010) y Beel and Gipp (2010).

    Lo que sí podría ocurrir es que fueran muchos los que prostituyeran las herramientas que ha diseñado Google. Como somos editores de un índice de impacto similar al JCR (IN-RECS: Índice de impacto de revistas españolas de ciencias sociales http://ec3.ugr.es/in-recs) conocemos bien todas las añagazas que están empleando los editores y autores para manipular los índices bibliométricos (http://ec3.ugr.es/publicaciones/CRECS_2011.pdf). La presión que sufren los editores y autores por obtener buenos rendimientos bibliométricos en la publicación y citación, avivada por los sistemas de evaluación implantados en todo el mundo, ya está desde hace años produciendo innumerables fraudes

    Por eso pedimos a Google que se diseñe sus productos (GSC, GSM) de manera que se pueda desenmascarar fácilmente a los tramposos. Si consultan nuestro producto (http://ec3.ugr.es/in-recs) podrán ver como hemos diseñado una herramienta que pretende ser transparente: nuestra divisa QUE TODO SE VEA.

  5. Hola, también los periodistas cuando no tienen nada que publicar, hacen un sofrito de cosas y sacan algo para mantenerse en su particular «h» o su particular «google scholar».
    Véase este de hoy:http://www.rtve.es/noticias/20140310/cientificos-falsifican-metodo-cientifico-obtienen-mejores-notas/893301.shtml

    Sobre los índices, hay que decir varias cosas:
    De alguna manera hay que cuantificar el trabajo, pero cuando uno evalúa CV, o un proyecto etc. además de mirar uno o dos índices, mira la trayectoria, mira la coherencia de la misma, etc… un número de un índice no dice nada por sí solo, tanto si es verdadero como inventado.
    Siguiendo el ejemplo, una persona con 30 artículos y dos muy espectaculares, tendrá en cualquier caso más trayectoria que una persona de 4 trabajos. Y suele pasar que el que lleva años en un campo acabe llegando a un trabajo de alto impacto de forma puntual, y luego sigue su trayectoria. También suele pasar que uno tiene el típico nature medicine conseguido en un brillante postdoc y que luego en un sitio más normalito donde tiene plaza conseguida por ese nature nunca más hizo nada. Eso también se lee en el CV.
    Por favor, los periodistas científicos o divulgadores, deberían ayudar a formar a la sociedad sobre la ciencia, su importancia, sus mecanismos, etc. Pero hacer prensa amarillita no sirve ni ayuda, es más, parece que es justo lo que se decía arriba, es aumentar el «h» del periodista pues necesita sacar cosas interesantes y no tiene argumentos.
    Estamos en la semana mundial del cerebro, el autor del patético artículo cuyo enlace he dejado arriba, se ha perdido una magnífica excusa para hacer un gran artículo.
    Cuando habla de otras maravillas del sistema científico, me recuerda algunas veces al joven X Mariño, cuando dice que en realidad lo que hay que resaltar es que la ciencia pilla a los tramposos! no como en otros campos de esta sociedad en la que los tramposos están además de conocidos, consentidos protegidos. Pues ese es el mensaje que quizás debería salir de ese artículo.
    ¿cómo esperamos que la sociedad valore la ciencia si se pone al mismo nivel de fraude que otros aspectos de esta sociedad? siendo mentira, sin dudas, de que el fraude es lo que predomina.
    así, no vamos a ninguna parte!!!! por mucha divulgación que se haga y por muchas webs que nos inventemos.
    saludos.

    1. Carlos, el índice impacto (sea de 2015) se publica en junio del año siguiente (junio 2016), luego se puede estimar con precisión entre enero y junio (de 2016), se puede hacer antes pero con mala precisión. Para hacerlo basta usar el Web of Science. El índice de impacto del año 2015 corresponde a las citas en 2015 a artículos publicados en 2014 y 2013, luego basta buscar dichos artículos (2013-2014), mirar sus citas (serán de 2013-2015) y seleccionar las de 2015. Hacerlo a mano es pesado. Basta descargar todos los resultados de la búsqueda en un fichero (el Web of Science ofrece dicha posibilidad) y luego usar Excel, Matlab o cualquier otro software.

      1. Perfecto muchas gracias Francisco

        Es algo que en nuestro laboratorio nunca se ha tenido en cuenta, tan sólo el índice actual.

        Un saludo y excelente blog

Deja un comentario