Explorar, transformar y visualizar

AuthorJordi Mas Elias
ProfessionProfesor de los Estudios de Derecho y Ciencia Política en la Universitat Oberta de Catalunya (UOC)
Pages75-133
Editorial UOC Capítulo II. Explorar, transformar y visualizar
75
Capítulo II
Explorar, transformar y visualizar
1. Introducción
El objetivo de este capítulo es familiarizarnos con el entorno
R de una manera ágil y sin demasiada carga teórica para poder
aplicar rápidamente los conocimientos aprendidos al usar el pro-
grama. En las páginas siguientes, aprenderemos en pocos pasos
a transformar un marco de datos de dimensiones considerables
en información útil y visualmente atractiva. Para este propósito,
tendremos que aprender las funciones básicas de dos de los
paquetes esenciales de R: dplyr y ggplot2. La librería dplyr inclu-
ye principalmente funciones orientadas a manipular marcos de
datos. Cuando decimos manipular, no nos referimos a ello en mal
sentido, sino en el sentido de adaptar y transformar los datos en
información útil que nos ayude a responder a preguntas concre-
tas que nos queramos formular. Manipular significa, por ejemplo,
cambiar el orden de las filas de un marco de datos sobre la base
de un criterio determinado, seleccionar una parte de las filas o
de las columnas, o bien crear columnas con información nueva a
partir de datos ya existentes. Una vez hayamos transformado los
datos a nuestro gusto con dplyr, la librería ggplot2 nos permitirá
crear visualizaciones gráficas para poder comunicar de manera
atractiva nuestros resultados.
Para este proceso, tendremos que tener instalados y cargados
dplyr y ggplot2 en R y también el paquete gapminder, que utiliza-
remos para hacer los ejercicios en este capítulo. Este paquete inclu-
Editorial UOC Análisis de datos con R en estudios internacionales
76
ye un marco de datos con indicadores socioeconómicos como el
PIB per cápita o la esperanza de vida en 142 países diferentes.
Una vez tengáis los paquetes instalados y cargados, tecleando la
función search() podéis comprobar que efectivamente dplyr,
ggplot2 y gapminder están cargados en el Global Environment de
R. Instalaremos los paquetes con la función install.packages()
y los cargaremos, por separado, con library().
En las páginas siguientes, utilizaremos el lenguaje de R de
manera aplicada, dominaremos los instrumentos básicos para
transformar y visualizar datos, y seremos capaces de comunicar-
nos con el programa de manera fluida. Sin ir más lejos, al final del
capítulo habremos aprendido a construir visualizaciones como la
figura 1, donde seremos capaces de agrupar en un solo gráfico
hasta cinco variables.
¿Sois capaces de identificar cuáles son cada una y cómo están
representadas?
Figura 1. Visualización de un marco de datos tratado
Las cinco variables del gráfico. El PIB per cápita de cada país es la variable que está representada en el eje horizontal.
En el eje vertical, encontramos la esperanza de vida. La tercera variable es el continente, donde cada categoría tiene
asignado un color diferente. La población de cada país está representada por el tamaño de cada uno de los puntos,
de forma que países con poca población tendrán un punto pequeño y países grandes tendrán un punto mayor. La
quinta variable es el año. Hemos construido una parrilla de cuatro gráficos que representan cuatro años diferentes.
Fuente: elaboración propia.
Editorial UOC Capítulo II. Explorar, transformar y visualizar
77
Interpretar números como e+08
Es bastante habitual en R encontrar números con notación científica
que acostumbran a tener el formato e+. Interpretarlos es más fácil de
lo que parece, puesto que simplemente tenemos que mover los deci-
males tantas veces a la derecha como nos indique el último número,
si es positivo, o tantas veces a la izquierda si es negativo. Por ejemplo,
2.50+e08 se traducirá como 250.000.000.
Fijaos en cuántas preguntas podemos llegar a responder con
esta figura:
1) ¿Hay una relación positiva entre el PIB per cápita y la espe-
ranza de vida?
2) ¿En qué continente son más bajos la esperanza de vida y
el PIB per cápita?
3) ¿En qué continente están los países con más población?
4) ¿A qué continente pertenecen la mayoría de los países con
un PIB per cápita y una esperanza de vida altos?
Si os fijáis, estas preguntas las podemos contestar con una
visualización rápida. También podemos apreciar otros detalles,
como que en 1992 tenemos un caso extremo: un país africa-
no con una esperanza de vida extremadamente baja. También
vemos algunos casos, especialmente en África, pero también en
Asia en 1952 y en 1972, de países relativamente ricos, pero con
una esperanza de vida muy baja. En cambio, no observamos que
haya casos en el sentido contrario: países muy pobres, pero con
una esperanza de vida alta.
En este capítulo, aprenderemos a hacer este proceso: observar
y explorar un marco de datos, formularnos preguntas sobre los

To continue reading

Request your trial

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT