Cómo descubrir las pepitas de oro de la ciencia (o a toro pasado, todo es más fácil)

Por Francisco R. Villatoro, el 31 enero, 2008. Categoría(s): Bibliometría • Física • Índice-h de Hirsch

La mejor métrica bibliométrica para cuantificar la importancia o el impacto de un artículo no es conocida, quizás incluso no exista. La más sencilla es el número de citas. Sin embargo, el algoritmo de cuantificación de la importancia que utiliza Google, PageRank de Google, también puede ser de utilidad. Los autores de «Finding Scientific Gems with Google» Chen, Xie, Maslov, Redner, 2006, han aplicado dicho algoritmo a más de 350.000 artículos publicados en las revistas Physical Review (desde A a E) hasta 2003. De esta manera han determinado los artículos que son «excepcionalmente» buenos (según el PageRank de Google). ¿Cómo son estas «pepitas de oro» de la ciencia? ¿Realmente han influido en la historia reciente de la Física? ¿Cómo correlaciona esta métrica con el número de citas? A toro pasado es fácil contestar estas preguntas. De todas formas merece la pena leerse el artículo.

Los autores han descubierto que hay una buena correlación entre el número de citas y la media del PageRank de Google. Sin embargo, algunos artículos «atípicos» (outliers) están altamente colocados según el PageRank pero tienen pocas citas. Por ejemplo, el artículo «Unitary Symmetry and Leptonic Decays«, Phys. Rev. Lett. 10, 531 (1963) de
N. Cabibbo el No. 1 según el PageRank pero sólo el No. 54 según el número de citas. Por contra, el artículo «Self-Consistent Equations Including Exchange and Correlation Effects«, Phys. Rev. 140, A1133 (1965) de W. Kohn & L. J. Sham es el No. 3 según el PageRank siendo el No. 1 en número de citas (3227 comparada con 574 del otro).

Los autores proponen que esta técnica permite determinar las «pepitas» de la ciencia. Por ejemplo, el artículo No. 10 según el PageRank, «The Theory of Complex Spectra«, by J. C. Slater, solamente ha sido citado 114 veces (tiene el puesto 1853 en número de citas, aunque hoy por hoy tiene 240 citas según APS). El determinante de Slater se utiliza hoy tanto que la mayoría de los investigadores ya no citan el artículo original (que se ha asumido como parte del «know-how» en Física). El PageRank de Google logra identificar esta gema y reinvidicar la importancia de este trabajo de Slater.

Entre los 100 artículos con mayor PageRank podemos buscar las gemas entre los que tienen «anormalmente» pocas citas (los otros también son gemas, pero no por descubrir). El artículo de Wigner and Seitz, «On the Constitution of Metallic Sodium»  o el artículo de Gell-Mann and Brueckner, «Correlation Energy of an Electron Gas at High Density» son algunas de las 23 gemas (entre 100) encontradas por los autores.

Por supuesto, el algoritmo PageRank también se equivoca a veces (todos tenemos la experiencia buscando con Google). Por ejemplo, el artículo de Rosenstock and Marquardt, «Cluster formation in two-dimensional random walks: Application to photolysis of silver halides«, que parece que tiene sólo 3 citas y es un top 100. La razón es que uno de los artículos que le citan, de T. Witten and L. Sander
«Diffusion-Limited Aggregation, a Kinetic Critical Phenomenon» tiene la friolera de 680
citas, incluyendo sólo 10 referencias, con lo que su fama se extiende hasta el artículo de Rosenstock adn Marquardt. De hecho, un artículo que es citado por un artículo muy famoso que tenga pocas referencias, adquiere un valor de PageRank muy importante.

La misma idea de los autores de «Finding Scientific Gems with Google» Chen, Xie, Maslov, Redner, 2006, ha sido aplicada para determinar los autores que son «pepitas de oro» en sus campos, «Mining a digital library for influential authors«, Mimno, McCallum, 2007. Los autores han usado la Rexa Digital Library. Para cada artículo calculan su PageRank, que interpretan como la probabilidad de que un investigador ahora mismo esté leyendo dicho artículo. Han correlacionado los resultados con bases de datos de premios para científicos y han encontrado cierta correlación. Aunque el resultado no es muy espectacular.

Pero si el PageRank de Google funciona bibliométricamente tan ¿bien?, por qué Google Scholar no está considerado como una fuente «fiable» de información científica (de hecho muchas veces encuentro artículos por su título en Google que no logro encontrar en (la versión beta) de Google Scholar, ¿habrá algún una versión alfa?).

El mayor problema con Google Scholar está relacionado con la dificultad de determinar la relación entre su precisión, cobertura y calidad de su contenido. Promesas como que es «the best possible scholarly search» y «a single place to find scholarly materials covering all research areas, all sources, all time«, son claramente exageradas. Si ese es su objetivo, no lo han logrado (y en mi opinión no lo lograrán en los próximos años). Por ejemplo, ciertas editoriales han vetado a Google Scholar (Elsevier, ACS, o Emerald no están incluidas, aunque Google Scholar encuentra muchas de ellas de forma indirecta gracias a PubMed y otras fuentes) y las editoriales que no lo han vetado, no han ayudado a Google, con lo que no hay garantía que el contenido ofrecido por G. Scholar es completo.

Veamos un ejemplo: en el artículo «Is MetaSearch Dead?«, PPT de Roy Tennant, 2005,  el autor busca la palabra «tsunami» en Google Scholar, Google, y en la  National Science Digital Library (NSDL). He repetido la búsqueda para confirmarla. La primera página de Google Scholar ofrece 2 libros, 2 artículos de revisión y 6 artículos técnicos, información que podemos considerar como poco adecuada para un estudiante universitario. En Google, por el contrario, ofrece 3 «wiki»-verdades, con información científica «útil», y varias páginas con información que podemos considerar útil, al menos para un estudiante. Finalmente, la búsqueda en NSDL ofrece 10 enlaces con información científica interesante para un estudiante. De todas las formas los mejores artículos no son fáciles de encontrar.



Deja un comentario

Por Francisco R. Villatoro, publicado el 31 enero, 2008
Categoría(s): Bibliometría • Física • Índice-h de Hirsch