Metámeros: cuidado con las medias, las desviaciones típicas y las correlaciones estadísticas

La agregación de información estadística nunca debe sustituir a los propios datos. Se llaman metámeros a los conjuntos de datos que comparten los mismos valores para ciertos estadísticos. Un buen ejemplo de metamerismo es el proyecto Datasaurus de Alberto Cairo, @AlbertoCairo. Múltiples conjuntos de datos que van desde un dinosaurio a una elipse, pasando por una estrella y diferentes líneas paralelas; pero todos ellos con la mismas medias y desviaciones típicas. Ideal para que los profesores de estadística los usen en clase; máxime cuando los datos están disponibles en formato de texto (CSV).

Quienes prefieran generar sus propios metaméros a partir de conjuntos de datos originales, o permitir a sus alumnos que los generen, pueden disfrutar del paquete en R llamado metamer que implementa el algoritmo de Matejka–Fitzmaurice (2017). Para un tutorial en español sobre su uso recomiendo leer a Elio Campitelli. Una oportunidad única para disfrutar con tus alumnos experimentando en el laboratorio computacional.

El algoritmo de generación de metámeros se publicó en Justin Matejka, George Fitzmaurice, «Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing,» Proceedings of the ACM SIGCHI Conference on Human Factors in Computing Systems, CHI 2017, pp. 1290–1294, doi:  10.1145/3025453.3025912; web. Los datos del Datasaurus están en Alberto Cairo, «Download the Datasaurus: Never trust summary statistics alone; always visualize your data,» The Functional Art, 29 Aug 2016. El tutorial de uso del paquete metamer en R está en Elio Campitelli, «Metamerismo estadístico,» Eliocamp, 03 Ene 2019.

Esta entrada participa en el Carnaval de Matemáticas, que en esta octagésima segunda edición, también denominada X.2, está organizado por Rafael Martínez González a través de su blog El mundo de Rafalillo. Anímate a participar desde el 22 hasta el 29 de marzo de 2019. Recuerda avisarle, por ejemplo vía Twitter en @Rafalillo86 y  con la etiqueta . ¡Contamos contigo!

El origen de esta contribución al Carnaval de Matemáticas es este tuit del 06 de marzo de 2019 de @PetterTornberg. Supongo que ya lo conocerán los que están en Twitter, pero me ha parecido interesado destacarlo para los demás.



5 Comentarios

    1. En realidad no, no puedes dibujar cosas alargadas (ej. una cuchara, aunque sí podrías dibujar dos). Supongo que la gracias está en hacerse una idea (mental) del conjunto total de muestras que comparten cierto valor de cierto estadístico (para los indicados no parece muy difícil la verdad…).

  1. Está chulo y no está de mas recordar estas cosas y el verdadero significado e interpretación de estos indicadores estadísticos.

    Es como decir (por ejemplo en relación a la media) que todos esos conjuntos de puntos tienen el mismo centro de masas (para puntos iguales). Hay (creo) infinitos conjuntos de N de puntos con el mismo centro de masas. No veo muy difícil que, a partir del dinosaurio, se obtengan conjuntos de coordenadas con las mismas medidas de dispersión. La cosa es muy sencilla con conjuntos que presentan algún tipo de simetría respecto del valor de del indicador.

    En cualquier caso, muy chulo y este tipo de cosas nos refresca la alerta para tener precauciones con los datos.

Deja un comentario

Por Francisco R. Villatoro
Publicado el ⌚ 28 marzo, 2019
Categoría(s): ✓ Ciencia • Matemáticas • Mathematics • Noticias • Recomendación • Science
Etiqueta(s): ,