Todavía conservo los datos de mis primeras simulaciones por ordenador en cartuchos de cintas magnéticas y en discos flexibles de 5¼ y 3½ pulgadas. Hoy en día son imposibles de recuperar, luego los puedo dar por perdidos. Un estudio publicado en Current Biology indica que el 80% de los datos de hace 20 años se ha perdido. Esta figura muestra el porcentaje de datos recuperables de 516 trabajos en Ecología publicados entre 1991 y 2011 (según sus propios autores). Nos lo cuentan Elizabeth Gibney, Richard Van Noorden, «Scientists losing data at a rapid rate. Decline can mean 80% of data are unavailable after 20 years,» News, Nature AOP 19 Dec 2013, que se hacen eco de Timothy H. Vines et al., «The Availability of Research Data Declines Rapidly with Article Age,» Current Biology, AOP 19 Dec 2013 (arXiv:1312.5670 [cs.DL]).
La ciencia es un bien cultural y los bienes culturales son patrimonio de toda la humanidad. Los esfuerzos que los gobiernos realizan para preservar el patrimonio cultural también se deberían dirigir hacia la preservación de los datos en bruto utilizados en los análisis publicados en artículos científicos. En muchos campos, como en Ecología y Climatología, poder disponer de los datos originales de estudios realizados hace décadas sería de una enorme utilidad. Por desgracia, en la mayoría de los casos ya son imposibles de recuperar. Bienes culturales que se han perdido en la eternidad.
Un problema añadido es que yo no sé si sería capaz de encontrar las cintas y discos flexibles con los datos de mis primeros artículos. Tras tres mudanzas los he traspapelado. Lo mismo han afirmado la mayoría de los investigadores encuestados. Muchos de los que afirman guardar sus datos no saben realmente donde están y necesitarían mucho tiempo para localizarlos si un comité de ética científica les solicitara hacerlo o si otro investigador los necesitara para un nuevo trabajo.
En mi caso, como trabajo en física computacional, reproducir los datos es fácil, basta con rehacer los códigos numéricos y volverlos a ejecutar. En principio se obtendrían los «mismos» resultados en poco tiempo, gracias a que hoy en día los ordenadores son tan rápidos que lo más costoso sería picar el código. Sin embargo, en estudios biológicos de campo o en laboratorio repetir las investigaciones de hace 20 años no es fácil y, en muchos casos, incluso imposible. Sobre todo cuando los datos de hace 20 años son interesantes para contrastarlos con datos actuales (algo que en ecología supongo que será muy interesante en muchos casos).
¿Se deben preservar los datos de todos los trabajos de investigación? ¿Quién tiene que hacerlo? ¿Quién tiene que decidir qué datos preservar y cuáles no? Si eres investigador, ¿estarías dispuesto a que todos tus datos en bruto fueran preservados? ¿Qué opinas si las revistas te obligaran a adjuntar los datos a todos tus artículos?
Lo más fácil para los investigadores es que las propias revistas donde se publica el artículo se encarguen de preservar estos datos. Otra opción es el desarrollo de un repositorio público (similar a las bases de datos de secuencias de ADN) donde fuera obligatorio (o muy aconsejable) que se almacenaran todos los datos publicados en revistas. Sin embargo, la gestión de datos de diversa índole en formatos de todo tipo supone enormes problemas informáticos. Hay dos opciones, preservar los datos y los software necesarios para procesarlos (muchos de ellos con licencia), u optar por un formato estándar suficientemente general (lo que obligaría a diseñar software específico para su gestión).
El proyecto de Michael Hildreth (físico de la Univ. Notre Dame, Indiana) «Data and Software Preservation for Open Science» (financiado por la NSF de EEUU) es un primer paso en la dirección correcta, pero aún queda mucho camino por recorrer. Sobre todo en cuanto a la confianza de los propios investigadores en la «ciencia abierta» (open science). Este tipo de iniciativas no sólo son muy interesantes, también son muy necesarias.
Repito lo dicho, la ciencia es un bien cultural y los bienes culturales son patrimonio de toda la humanidad. Todos tenemos que realizar un esfuerzo por preservar el patrimonio cultural científico.
Coda final. Esta entrada participa en la VIII Edición del Carnaval de Humanidades, alojado en el blog ::ZTFNews de Marta Macho (@MartaMachoS); aquí otras contribuciones.
Hay toda una corriente de personas que están preservando soft de los 70 y 80, sobretodo juegos en cassette y restuarando y coleccionando ordenadores «vintage» 100% operativos. Quizás esas personas puedan ayudar a restuarar datos, hay verdaderos expertos.
Encontrar hardware para reproducir las cintas o los disquetes no sería DEMASIADO difícil. El problema principal (creo yo) es la posible corrupción de los datos. El soporte magnético no es precisamente eterno.