Sobre la historia del algoritmo PageRank de Google y sobre las publicaciones de los informáticos

Por Francisco R. Villatoro, el 18 febrero, 2010. Categoría(s): Bibliometría • Ciencia • Factor de impacto (Impact factor) • Historia • Informática • Noticias • Science ✎ 7

Dibujo20151130 pagerank wikipedia commons

En este blog ya hablamos de los orígenes del algoritmo PageRank utilizado por Sergey Brin y Larry Page para Google en «La historia oculta detrás del algoritmo PageRank de Google (o Keller, Keener, Page, Brin y Kleinberg),» 21 Octubre 2008, que sé que interesó a muchos de los lectores de este blog.

Massimo Franceschet ha estudiado la historia de este algoritmo en detalle y ha encontrado sus orígenes en la sociología y la economía en su artículo «PageRank: Stand on the shoulders of giants,» ArXiv, 15 Feb 2010. Los interesados en un resumen breve de la historia pueden recurrir a KentuckyFC, «Scientist Finds PageRank-Type Algorithm from the 1940s,» the physics ArXiv Blog, February 17, 2010. Este artículo no podía pasar desapercibido a muchos por lo que mezvan ya lo ha meneado como «Los orígenes del famoso algoritmo PageRank se remontan a 1941,» donde nos dice que «En 1941, Wassily Leontief publicó un documento en el que se divide la economía de un país en dos sectores que la ofertaban y demandaban recursos entre sí, aunque no en igual medida. Surgió la pregunta: ¿cuál es el valor de cada sector, al estar tan estrechamente integrados? La respuesta de Leontief fue desarrollar un método iterativo de valoración de cada sector sobre la base de la importancia de los sectores que abastecen. ¿Suena familiar? En 1973, Leontief fue galardonado con el Premio Nobel de Economía por este trabajo …»

Franceschet ha publicado artículos muy interesantes sobre bibliometría, sobre todo para los informáticos. Massimo Franceschet, «The role of conference publications in computer science: a bibliometric view,» January 20, 2010. «En informática, desde una perspectiva bibliométrica, la mejor estrategia para ganar impacto es publicar pocas contribuciones de gran calidad en revistas indexadas, en lugar de muchos trabajos prematuros («publishing quarks«) en conferencias internacionales.» La conclusión puede parecer obvia pero no lo es. En España, en Informática mucha gente presume de sus publicaciones en Congresos Internacionales de Gran Prestigio y presume que publicar en muchos de ellos es mucho más difícil que publicar en muchas revistas. Para llegar a su conclusión Massimo ha realizado un análisis bibliométrico de la información bibliográfica en DBLP (que incluye tanto revistas como conferencias internacionales). Su estudio ha mostrado que en media, un artículo en una revista es citado 5,41 veces, mientras que un artículo en una conferencia sólo 0,71 veces. Os dejo las conclusiones en inglés, porque sé que a los informáticos os gusta leer estas cosas en inglés… aunque sea un tirón de orejas.

CONCLUSIONS: (i) computer scientists publish more in conference proceedings than in archival journals; (ii) the impact of journal publications is significantly higher than the impact of conference papers. The take-home message for the computer science community might be the following: while it is harder to get published in journals, the effort is ultimately rewarded with a higher impact. From a bibliometric perspective, the best strategy to gain impact seems to be that of publishing few, final, and well-polished contributions in archival journals, instead of many premature ‘publishing quarks’ in conference proceedings.

Eres investigador, tienes un artículo «maravilloso» y quieres que sea publico. ¿Qué debes buscar una revista de prestigio o una de fama (popularidad)? ¿No lo es mismo prestigio y fama? Parece una «chorrada» pero la bibliometría, entre otros objetivos, tiene por obligación resolver este tipo de cuestiones y Massimo Franceschet recoge el testigo en «The difference between popularity and prestige in the sciences and in the social sciences: a bibliometric analysis,» Preprint submitted to Elsevier January 18, 2010. La popularidad de una revista internacional se mide por el número de sus citas y su índice de impacto, pero el prestigio requiere un cálculo más complicado, similar al uso de un algoritmo de tipo PageRank de Google (Massimo es «amante» del eigenfactor). El estudio de Massimo demuestra que prestigio=fama en muchos campos, como las Geociencias, Biología, Medicina y Ciencias Sociales, pero no en todos, diferenciándose en campos como la Física, la Ingeniería, las Ciencia de los Materiales y la Informática. Según su estudio las revistas se pueden clasificar en cuatro categorías:

1. revistas prestigiosas y populares; reciben muchas citas y son citadas por otras revistas prestigiosas.

2. revistas que ni son prestigiosas ni son populares; reciben pocas citas y éstas provienen de revistas «oscuras.»

3. revistas que son populares pero no son prestigiosas; tienen un alto número de citas por artículo, pero la mayoría provienen de revistas de poco prestigio. Estas revistas no están necesariamente muy citadas.

4. revistas que son prestigiosas pero poco populares; reciben pocas citas comparado con el número de artículos que publican pero las reciben desde revistas muy prestigiosas. Estas revistas no están necesariamente poco citadas.

Nadie tiene dudas respecto a las revistas en las categorías 1 y 2, pero el status de las revistas en las categorías 3 y 4 es muy controvertido. Massimo recomienda que para comparar revistas en estas dos últimas categorías, el eigenfactor es el mejor índice bibliométrico.

Finalmente, si eres informático, te recomiendo «The skewness of computer science,» ArXiv, last revised 15 Feb 2010, donde Massimo afirma que «Computer science is a relatively young discipline combining science, engineering, and mathematics. (…) In the computer science publication culture, conferences are an important vehicle to quickly move ideas, and journals often publish deeper versions of papers already presented at conferences. (…) The skewness in the distribution of mean citedness of different venues combines with the asymmetry in citedness of articles in each venue, resulting in a highly asymmetric citation distribution with a power law tail. Furthermore, the skewness of conference publications is more pronounced than the asymmetry of journal papers. Finally, the impact of journal papers, as measured with bibliometric indicators, largely dominates that of proceeding papers.» Digo yo que los informáticos tendrán que aplicarse el «parche» y tener en cuenta estos estudios…



7 Comentarios

  1. Hola Francis…

    Indagué con los que saben sobre el asunto del usuario en Menéame y me dicen que una posible solución es …. «la respuesta por defecto es que borre cookies y el historial de meneame y lo intente de nuevo»

    En todo caso si no funciona me podes pasar el usuario yo habló con Ricardo y le comunico la situación. Con toda seguridad, él nos colaborará con el asunto

    Saludos

  2. la web que di en este comentario me esta prohibnido cambiarle los permisos aunque soy el administrador, he borrado cookies e historial y reinstalado los exploradores, formateado, informado de pishing a microsoft de clonaciòn de cuenta y todo surgiò por el uso delfamoso programa del page rankde google si alguien sabe de un linkdel parche ayudenme porfavor

  3. El problema con el dilema de publicar en revista o en congreso en el área de informática es que, a día de hoy, lo que cuenta para los sexenios (complementos retributivos por productividad científica) no son la citas que hagan de tus artículos, sino cuántos artículos tienes en revistas con índice de impacto o en congresos prestigiosos.

    Precisamente informática es una de las únicas áreas (sino la única) en las que los congresos pueden llegar a valorarse tanto de cara a los sexenios como las revistas.

    Como por conseguir un sexenio se obtiene un beneficio económico y por que te citen mucho no (o normalmente no) y siendo más fácil publicar en un congreso que en una revista, es obvio que (al menos en España) haya un sesgo hacia las publicaciones en congreso.

  4. @ Odo

    No solo para sexenios. Para las plazas, becas, acreditaciones, etc. Todo lo que sea valorado por alguna comisión en la universidad está supeditada a

    cantidad de publicaciones * indice de impacto

    y no por el número de citas. Lo cual es un error como la copa de un pino, pero es comprensible porque el número de citas es algo muy jodido de calcular sobre todo en artículos «nuevos». A las unicas personas que le he oido tener en cuenta estas cosas es más bien para «desempatar» a dos personas o cosas así (sobre todo porque con la ley en la mano te pueden crujir luego en un juicio).

  5. Claro. Yo ponía el ejemplo de los sexenios porque es donde más explícitamente se estipula (en el caso de Informática) que una publicación en un congreso «muy relevante» es equiparable a una publicación en revista. En otros ámbitos se tiene en cuenta también, pero creo que noy esa equiparación.

    Respecto a contar el número de citas, últimamente se está poniendo de moda el «índice h» (que tiene en cuenta el número de citas) y no me extrañaría que empezara a usarse en los próximos años como indicador de «calidad» en algunos baremos. Sin embargo, el número de citas tampoco es indicativo de nada. Puesto que «citar es gratis» es fácil producir una inflación de citas y producir una devaluación de las mismas. A nivel de grupos de investigación, de revisores e incluso de comités editoriales de revistas yo he visto verdaderas «mafias» cuyo próposito en generar citas hacia ciertos artículos, ciertos grupos o ciertas revistas (pidiendo algo a cambio, posiblemente).

    Yo tengo la impresión de que cualquiera que sea el indicador que se desarrolle siempre habrá gente que, mediante la picaresca, lo pervierta para salir beneficiado.

Deja un comentario