El descubrimiento científico usando minería de artículos científicos

Los investigadores leemos muchos artículos científicos para encontrar relaciones entre ellos que desvelen nuevas hipótesis que lleven a nuevos descubrimientos. Todos los años se publican más de dos millones de artículos científicos. ¿Cuánto conocimiento se oculta en sus relaciones? Se publica en Nature el uso pionero de la minería de textos (text mining) para el análisis automático de artículos científicos de ciencia de los materiales. Se ha entrenado una red de neuronas artificiales para buscar propiedades correlacionadas con la palabra «termoeléctrico»; se han redescubierto 1820 materiales con esta propiedad analizando los artículos publicados muchos años antes de su descubrimiento y 7663 materiales candidatos que podrían tener dicha propiedad.

La quimioinformática (chemoinformatics), también llamada informática de materiales (material informatics), nació hace unos 20 años con el desarrollo de las bases de datos de sustancias químicas y sus propiedades. La combinación de estas bases de datos con el procesado del lenguaje natural, tanto supervisado como no supervisado, permite desvelar nuevas hipótesis, por ejemplo, la superconductividad potencial de un compuesto. En el nuevo artículo se ha usado el software Word2vec, una herramienta de aprendizaje automático (machine learning) no supervisado desarrollada en 2013 para desvelar relaciones semánticas entre palabras (términos científicos de un diccionario). Se ha aplicado Word2vec a los resúmenes (abstracts) de 1.5 millones de artículos, preseleccionados entre 3.3 millones, publicados entre 1922 y 2018 en más de 1000 revistas. El algoritmo agrega los casi 500 000 términos en diferentes clases (clustering) en un espacio de 200 dimensiones y desvela relaciones semánticas entre ellos.

Sin lugar a dudas la inteligencia artificial va a revolucionar la ciencia durante el siglo XXI. El artículo es Vahe Tshitoyan, John Dagdelen, …, Anubhav Jain, «Unsupervised word embeddings capture latent knowledge from materials science literature,» Nature 571: 95-98 (03 Jul 2019), doi: 10.1038/s41586-019-1335-8; más información en Olexandr Isayev, «Text mining facilitates materials discovery,» Nature 571: 42-43 (03 Jul 2019), doi: 10.1038/d41586-019-01978-x.

Esta figura ilustra el algoritmo Word2vec para dos términos, ‘LiCoO₂’ y ‘LiMn₂O₄’, entre los 500 000 del diccionario. Se representan con un vector con un solo uno (1) en cierta posición (5 y 8 en la figura) y el resto de componentes nulas (0). En un resumen (abstract) aparecen múltiples términos del diccionario. Se entrena la red, que tiene una capa oculta de unas 200 neuronas y una capa de salida con 500 000 neuronas, para reconocer (y relacionar) dichos términos. La capacidad de generalización de la red de neuronas permite desvelar nuevas relaciones entre los términos usando un análisis de componentes principales. En la figura de la derecha se presentan las relaciones entre los términos Zr, Cr y Ni con las propiedades ‘óxido de’ (Zr − ZrO₂ ≈ Cr − Cr₂O₃ ≈ Ni − NiO) y ‘estructura (cristalina) de’ (Zr − HCP ≈ Cr − BCC ≈ Ni − FCC).

La figura izquierda presenta un resumen gráfico de las predicciones para la palabra ‘termoeléctrico’. Las líneas grises están marcadas con el año de la predicción, así la marcada con el año 2002 significa que se usan artículos publicados entre 1922 y 2001; la línea roja es el promedio de las líneas grises. En la figura de la derecha se presentan las cinco predicciones con mayor certeza para el año 2009 (con artículos entre 1922 y 2008) indicando el año en que se confirmó con una estrella. Por ejemplo, CuGaTe₂ se descubrió en 2012 y se podría haber predicho en 2009; más espectaculares son los casos de ReS₂, termoeléctrico desde 2016, y CdIn₂Te₄, desde 2017. Las otras dos predicciones, HgZnTe y SmInO₃, son materiales cuya termoelectricidad aún no ha sido confirmada (quizás se logre en un futuro no muy lejano).

Se han estudiado otros términos, como ‘fotovoltaico’, ‘aislante topológico’ y ‘ferroeléctrico’ con resultados similares. Sin lugar a dudas lo más interesante de este trabajo es el potencial futuro que ofrece. Hay otros algoritmos similares a Word2vec (como GloVe), además el diseño de la red de neuronas artificiales ofrece muchas posibilidades de mejora, con lo que no tardarán en publicarse muchos otros trabajos que usen la minería de textos para predecir nuevas hipótesis. Nos encontramos al principio de una revolución en la manera de hacer ciencia.

5 Comentarios

Luciano dice:

5 julio, 2019 a las 2:11 pm

Estamos presenciando una revolución, sin dudas. Creo que el campo más tentador para aplicar esto es en el de la investigación de enfermedades para dar con curas que ya deben estar en los papeles pero que todavía no se han correlacionado las investigaciones necesarias.

Responder
Antonio dice:

6 julio, 2019 a las 6:16 am

Creo que éste es el camino, animo a todos los interesados en el conocimiento a colaborar, los resultados serán maravillosos.
Gracias a la comunidad.

Responder
Victor Linares(sisifolibre) dice:

6 julio, 2019 a las 11:01 am

Esto es fascinante en muchos sentidos, dará mucho que investigar tambien en epistemología. Gracias por traernlo.

Responder
Ajolá dice:

7 julio, 2019 a las 8:47 am

Ojalá una IA que escriba artículos de divulgación bien estructurados y didácticos y que no sean sólo una acumulación de datos. Ojalá.

Responder
Armot dice:

8 julio, 2019 a las 2:56 pm

Oportunidad perdida fue no haber llamado al software «Multivac».

Responder