Introducción a la Visualización

La visualización de datos es una herramienta poderosa en el campo de la ciencia de datos y el análisis de datos que permite representar información de manera gráfica y comprensible. A través de gráficos, diagramas y otras representaciones visuales, la visualización de datos ayuda a identificar patrones, tendencias y relaciones en los datos, facilitando la interpretación y la toma de decisiones basadas en evidencia.

Motivación

Aprender sobre visualización es importante por varias razones:

Comunicar información compleja de manera clara y efectiva

Al presentar datos de una manera visual, es más fácil identificar patrones y tendencias, así como también hacer comparaciones y contrastes. Esto es especialmente importante cuando se trabaja con grandes conjuntos de datos o cuando se trata de presentar información a un público diverso.

Descubrir información oculta o desconocida

A menudo, los datos pueden contener patrones o relaciones que no son obvios a simple vista, pero que pueden ser descubiertos mediante la exploración y la visualización. La visualización también puede ayudar a identificar errores y anomalías en los datos, lo que puede ser importante para la toma de decisiones y la planificación.

Mejorar la capacidad de análisis de datos

Al comprender cómo presentar datos de manera efectiva, se puede desarrollar una mejor comprensión de los datos y las relaciones que existen entre ellos. Esto puede ayudar a tomar decisiones informadas basadas en datos y a identificar tendencias y oportunidades que de otra manera podrían haber pasado desapercibidas.

Malos Gráficos

Buenos Gráficos

Primeras visualizaciones

Campaña de Napoleón a Moscú (Charles Minard, 1889)

Gráfico que muestra el número de las fuerzas francesas en su marcha hacia Moscú y durante la retirada, por Charles Minard. También contiene información ambiental como la temperatura por fecha.

Mapa del cólera (John Snow, 1855)

Gráfico que muestra los casos de cólera durante la epidemia en Londres de 1854 y Las cruces la ubicación de las bombas de agua.

¿Por qué utilizar gráficos?

  • El 70 % de los receptores sensoriales del cuerpo humano está dedicado a la visión.

  • Cerebro ha sido entrenado evolutivamente para interpretar la información visual de manera masiva.

    “The eye and the visual cortex of the brain form a massively parallel processor that provides the highest bandwidth channel into human cognitive centers” — Colin Ware, Information Visualization, 2004.

Cuarteto de ANSCOMBE

El Cuarteto de Anscombe es un conjunto de cuatro conjuntos de datos que tienen las mismas estadísticas descriptivas (medias, varianzas, correlaciones y regresiones), pero que se ven muy diferentes cuando se visualizan. Fueron presentados por el estadístico Francis Anscombe en 1973 para demostrar la importancia de la visualización en el análisis de datos.

Los cuatro conjuntos de datos consisten en pares de variables x e y, y cada conjunto representa un tipo diferente de relación entre las variables. A simple vista, los cuatro conjuntos parecen tener distribuciones y relaciones completamente diferentes entre sí, pero cuando se analizan las estadísticas descriptivas, todas son idénticas.

Estadísticos

Gráficos

Teoría de visualización

La teoría de visualización se refiere a la investigación y el estudio de cómo las personas procesan, interpretan y comprenden información visual. La visualización puede involucrar cualquier tipo de información que pueda ser representada visualmente, incluyendo gráficos, diagramas, mapas, fotografías y videos.

Algunos de los conceptos y principios importantes en la teoría de visualización incluyen:

  • Percepción visual: Cómo procesamos y entendemos la información visual a través de nuestros sentidos.

  • Cognición visual: Cómo procesamos y entendemos la información visual a través de nuestros procesos mentales, como la atención, la memoria y la toma de decisiones.

  • Diseño visual: Cómo se pueden crear visualizaciones efectivas y atractivas para comunicar información de manera clara y efectiva.

  • Interactividad visual: Cómo las visualizaciones interactivas pueden ayudar a los usuarios a explorar y comprender mejor la información visual.

Consejos generales

Noah Iliinsky es un experto en visualización de datos y ha identificado cuatro pilares fundamentales de la visualización.

Estos pilares son:

  • Contenido: El contenido se refiere a la información que se está visualizando. Para que la visualización sea efectiva, es importante tener una comprensión clara del contenido y cómo se relaciona con el objetivo de la visualización.

  • Función: La función se refiere al propósito de la visualización. ¿Qué se espera que haga la visualización? ¿Debe mostrar una tendencia, comparar datos o explorar patrones? Es importante tener en cuenta la función de la visualización para asegurarse de que se está diseñando de manera efectiva.

  • Forma: La forma se refiere a la apariencia visual de la visualización. Esto incluye cosas como el tipo de gráfico o diagrama utilizado, la paleta de colores y la tipografía. La forma debe ser coherente y legible para que la visualización sea fácil de entender.

  • Audiencia: La audiencia se refiere a las personas que verán la visualización. La comprensión de la audiencia es esencial para determinar el nivel de detalle y complejidad adecuados para la visualización. La visualización debe ser accesible y comprensible para su audiencia objetivo.

🔑 Nota: Se recomienda ver el siguiente video para profundizar estos conceptos

Honestidad

El ojo humano no tiene la misma precisión al estimar distintas atribuciones:

  • Largo: Bien estimado y sin sesgo, con un factor multiplicativo de 0.9 a 1.1.
  • Área: Subestimado y con sesgo, con un factor multiplicativo de 0.6 a 0.9.
  • Volumen: Muy subestimado y con sesgo, con un factor multiplicativo de 0.5 a 0.8.

Resulta inadecuado realizar gráficos de datos utilizando áreas o volúmenes si no queda claro la atribución utilizada.

Una pseudo-excepción la constituyen los pie-chart o gráficos circulares, porque el ojo humano distingue bien ángulos y segmentos de círculo, y porque es posible indicar los porcentajes respectivos.

Percepción

No todos los elementos tienen la misma percepción a nivel del sistema visual. En particular, el color y la forma son elementos preatentivos: un color distinto o una forma distinta se reconocen de manera no conciente.

El sistema visual humano puede estimar con precisión siguientes atributos visuales:

  1. Posición
  2. Largo
  3. Pendiente
  4. Ángulo
  5. Área
  6. Volumen
  7. Color

Colormaps

Puesto que la percepción del color tiene muy baja precisión, resulta inadecuado tratar de representar un valor numérico con colores. * ¿Qué diferencia numérica existe entre el verde y el rojo? * ¿Que asociación preexistente posee el color rojo, el amarillo y el verde? * ¿Con cuánta precisión podemos distinguir valores en una escala de grises?

Ecosistema de Visualización en R

Para comenzar, CRAN Task View: Graphics ofrece una visión general de las principales herramientas de visualización disponibles en el lenguaje R, clasificadas según tipo de gráfico, interactividad y complejidad. En esta sección, revisaremos las librerías más representativas del ecosistema, sus propósitos y cómo se complementan entre sí.

R ha sido históricamente uno de los lenguajes preferidos para análisis y comunicación de datos, y esto se refleja en la riqueza de su ecosistema gráfico.

Librerías base y extendidas

  • base R graphics: sistema de gráficos incorporado, permite crear visualizaciones simples rápidamente. Ejemplo: plot(x, y).

  • lattice: inspirado en Trellis (S+), permite crear visualizaciones multivariadas con paneles automáticos.

  • ggplot2: parte del tidyverse, es uno de los sistemas más populares para crear gráficos estáticos y altamente personalizables. Usa una gramática declarativa: ggplot(data, aes(x, y)) + geom_*().

  • ggridges, ggthemes, patchwork, cowplot, ggtext: librerías que extienden y mejoran el uso de ggplot2.

Visualizaciones interactivas

Para necesidades interactivas, el ecosistema R ofrece herramientas integradas con HTML/JavaScript a través de htmlwidgets:

  • plotly: permite transformar un gráfico ggplot2 en interactivo con ggplotly(), o construir gráficos desde cero. Ideal para dashboards o informes HTML.

  • highcharter: basado en Highcharts.js, orientado a visualizaciones financieras y empresariales.

  • leaflet: mapas interactivos fáciles de construir.

  • echarts4r: conexión directa con la librería ECharts de Baidu.

  • dygraphs, timevis, DT: gráficos de series temporales, líneas de tiempo, y tablas interactivas respectivamente.

Construcción de dashboards y aplicaciones web

  • Shiny: el equivalente a Dash en Python. Permite construir aplicaciones web completas con control de entrada, salidas reactivas, y visualizaciones vivas.

  • flexdashboard: para generar dashboards con Quarto o R Markdown, usando sintaxis minimalista.

  • Quarto + Shiny: puedes incrustar interactividad dentro de documentos HTML, sitios web o presentaciones.