Se publica en Science un nuevo coeficiente matemático para el estudio de correlaciones no lineales entre pares de datos

Por Francisco R. Villatoro, el 16 diciembre, 2011. Categoría(s): Ciencia • Matemáticas • Mathematics • Noticias • Science ✎ 8

El análisis estadístico de la correlación entre dos variables se mide mediante el coeficiente de correlación de Pearson r (inventado por Francis Galton en 1888 y que Karl Pearson indicó como estimar de forma fiable). Este coeficiente es adecuado para magnitudes que dependen linealmente entre sí; para correlaciones no lineales, David N. Reshef y sus colegas publican hoy en Science un nuevo coeficiente, llamado coeficiente de información maximal o MIC. Este nuevo coeficiente se basa en la teoría de la información introducida por Claude Shannon, que introdujo los conceptos de entropía de una variable aleatoria y de información mutua (MI) entre un par de ellas. Según Terry Speed el coeficiente MIC es el mayor avance en este campo desde que en 1957 Linfoot aplicó el MI para cuantificar las correlaciones entre pares de variables (utilizó el valor [1 − exp(−2MI)]1/2). El gran problema del MI es que estimarlo con precisión es muy difícil cuando se tienen pocos datos (digamos, menos de 1000 datos). Reshef et al. resuelven los problemas del MI introduciendo el MIC y un algoritmo en tres pasos para calcularlo de forma eficiente. ¿Ha llegado el final para el coeficiente de correlación r de Galton-Pearson? Obviamente, no. El coeficiente de correlación lineal rXY entre un par de variables X e Y se puede extender al coeficiente de correlación parcial rXY.Z entre las variables X e Y condicionado a que una tercera variable Z mantenga un valor constante. Reshef et al. no han sido capaces de extender su MIC(X,Y) a un MIC(X,Y|Z); quizás otros investigadores lo logren en los próximos años; mientras tanto r y MIC seguirán siendo utilizados en pie de igualdad. Nos lo ha contado Terry Speed, «Mathematics: A Correlation for the 21st Century,» Science 334: 1502-1503, 16 December 2011, haciéndose eco del artículo técnico de David N. Reshef et al. , «Detecting Novel Associations in Large Data Sets;» Science 334: 1518-1524, 16 December 2011.

El análisis matemático detallado, incluyendo lemas y teoremas, así como los algoritmos de cálculo para estimar el valor del MIC aparecen en la información suplementaria del artículo. Un trabajo matemático como éste, avalado por una artículo Science, promete ser muy utilizado por médicos, biólogos, psicólogos y muchos otros científicos que utilizan las correlaciones entre variables como parte natural de su trabajo. Además, los matemáticos y estadísticos se alegrarán de tener un nuevo juguete para sus desvaríos (que no me regañe nadie, me refiero al desarrollo de infinidad de variantes del MIC con objeto de corregir sus defectos en ciertas circunstancias, que haberlos los habrá).



8 Comentarios

  1. Francis, a ver si esta vez no me cuelo. Ha salido en Nature otro artículo acerca de la expansión del Universo y Lemaitre. Parece que en otra obra posterior, Lemaitre si se reivindica. Me acordé ayer al leerlo.

  2. Por desgracia mi ingles no es muy bueno. Podías explicar la formula que utiliza MIC para correlaciones. ¿Sabes si existe algún software que tenga la formula ?

    Gracias

Deja un comentario