Importar, limpiar, unir

AuthorJordi Mas Elias
ProfessionProfesor de los Estudios de Derecho y Ciencia Política en la Universitat Oberta de Catalunya (UOC)
Pages251-295
Editorial UOC Capítulo V. Importar, limpiar, unir
251
Capítulo V
Importar, limpiar, unir
1. Introducción
No siempre un analista de datos encuentra la información a
punto para ser explorada. El trabajo principal del analista es, a
menudo, mucho más pesado de lo que parece, puesto que los
datos pueden estar desordenados, con nombres mal escritos difí-
ciles de interpretar o separados en diferentes archivos de inter-
net. Por esta razón, en algunos ámbitos, los científicos de datos
tienen que dedicar la mayor parte de su tiempo a estas tareas
(Lohr, 2014). El objetivo de este capítulo es ayudaros a convertir
datos dispersos y desconectados entre sí en un solo marco de
datos preparado para ser analizado.
En ciencias sociales, y más particularmente cuando se realiza
investigación sobre temas de índole internacional, los datos pro-
vienen en la mayoría de ocasiones de las principales organizacio-
nes y centros de estudios internacionales, de modo que ya han
sido sistematizados previamente. Estas entidades se encargan de
recoger, limpiar y ordenar los datos para presentarlos al público.
Incluso algunos datos tienen disponible una librería específica en
R para facilitarnos el tratamiento. Esto no resta importancia al
hecho de aprender a adquirir y a preparar los datos para poderlos
estudiar a fondo.
En este capítulo os enseñaremos tres pasos básicos para pre-
parar los datos:
Editorial UOC Análisis de datos con R en estudios internacionales
252
1) Importar los datos a RStudio. En este primer apartado os
enseñaremos diferentes maneras de incorporar los datos en el
programa.
2) Una vez incorporados, hay que saber limpiar los datos.
Dedicaremos el segundo apartado del módulo a esta tarea, que
consiste en modificar cuando sea necesario la estructura del
marco de datos y el tipo de variables que tenemos, y a tomar
decisiones sobre los valores perdidos y los casos extremos.
3) Finalmente, hay que unir diferentes marcos de datos. Este
proceso es sumamente útil para nuestro trabajo, puesto que nos
permite analizar información que proviene de fuentes diferentes.
Por lo tanto, el proceso de unir bases de datos será un paso esen-
cial previo al tratamiento.
2. Importar datos
Importar contenido es el primer paso que tenemos que hacer
para trabajar con datos en RStudio. En internet tenemos multi-
tud de bases de datos relacionadas con estudios internacionales,
como World Bank, Eurostat, Correlates of War, etc.1 En este
apartado aprenderemos a importar a R algunas de ellas. Tenemos
dos vías principales para importarlas: mediante un paquete de R,
o bien importando un archivo localizado en nuestro ordenador
o en la red.
1. Una de las listas más extensas de bases de datos en estudios internacionales
que encontramos en la red la tenemos en este GitHub: https://github.com/
erikgahner/PolData.
Editorial UOC Capítulo V. Importar, limpiar, unir
253
2.1. Importar un paquete
Dentro de los paquetes que ya tenemos actualmente cargados
en R, ya hay una gran cantidad de bases de datos que nos pueden
servir para practicar con el programa. Uno de los paquetes de
base de R denominado datasets contiene cerca de un centenar de
marcos de datos que podéis consultar tecleando help = "data-
sets". Otros paquetes que ya conocemos, como dplyr o ggplot2,
incorporan también, entre muchos objetos y funciones, algunos
marcos de datos en el interior. Hay otros paquetes que están
alojados en la biblioteca central de R, el CRAN, como es el caso
de gapminder, que son fáciles de utilizar porque, cuando carga-
mos el paquete en R, se nos cargan también los marcos de datos
de su interior. Para instalar un paquete, utilizaremos la función
install.packages() con el nombre del paquete entre comillas
y para cargarlo en R utilizaremos library() con el nombre
del paquete sin las comillas. Una vez cargado, podemos ver las
funciones y los objetos del paquete si introducimos su nombre
seguido de dos puntos (por ejemplo, gapminder::). Nos apare-
cerá un desplegable con la información.
Marcos de datos en dplyr y ggplot2
El paquete dplyr, por ejemplo, tiene el marco de datos starwars. El
paquete ggplot2 incorpora presidential (mandatos de los presi-
dentes de Estados Unidos desde Eisenhower). Si queréis saber más
detalles, poned el nombre en la consola con un interrogante delante
(ejemplo: ?Titanic).
Sin embargo, la mayoría de paquetes que tienen relación con
los estudios internacionales son algo más sofisticados, puesto

To continue reading

Request your trial

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT