Análisis univariante

AuthorJordi Mas Elias
ProfessionProfesor de los Estudios de Derecho y Ciencia Política en la Universitat Oberta de Catalunya (UOC)
Pages135-188
Editorial UOC Capítulo III. Análisis univariante
135
Capítulo III
Análisis univariante
1. Introducción
Tal como su nombre indica, el análisis univariante significa el
análisis de una sola variable. La naturaleza de la variable que
queremos estudiar determinará en buena parte los instrumentos
que utilizaremos para el análisis univariante: si es una variable
categórica, haremos un tipo de tratamiento, mientras que si es
una variable numérica, realizaremos otro. Por este motivo, será
muy importante que tengamos identificada la variable en R con
el vector más apropiado.
En muchas ocasiones, el análisis univariante requiere utilizar
más de una variable. Por ejemplo, quizás queremos observar una
variable teniendo en cuenta los valores que toman otras variables
del marco de datos. Esto puede llevar a confusión con el trabajo
del análisis bivariante, que se ocupa de estudiar la relación entre
dos variables. Por eso distinguiremos dos tareas cruciales del
análisis de datos: la descripción y la explicación (King y otros,
1994). Este módulo se ocupa de la descripción. Por lo tanto, la
utilización de dos variables se orienta a describir una variable y a
comparar sus valores entre los diversos subgrupos de otra varia-
ble (Babbie, 2013). En ningún momento este proceso se orienta a
sugerir si las dos variables en cuestión están o no asociadas entre
ellas, que es trabajo del análisis bivariante.
En la primera parte del capítulo veremos diferentes represen-
taciones gráficas que podemos utilizar en el análisis univariante.
Editorial UOC Análisis de datos con R en estudios internacionales
136
El principal objetivo de una buena visualización es representar
de manera clara cómo se distribuyen los valores en una variable.
En gran parte, cómo representamos estos valores estará deter-
minado por si la variable es de tipo categórico o numérico. En
la segunda parte del capítulo pasaremos de la visualización a la
cuantificación. Es decir, buscaremos cómo resumir la distribu-
ción de los datos en una variable de manera numérica, mediante
uno o pocos números. Miraremos medidas de frecuencia, de
centralidad, de dispersión y de localización.
2. Representaciones gráficas
En esta sección combinaremos funciones de los paquetes
dplyr y ggplot2 para representar gráficamente la distribución de
una variable del marco de datos gapminder. Para poder hacer
estas representaciones, tendremos que estar suficientemente
familiarizados con la gramática de ggplot2, puesto que en las
páginas siguientes aplicaremos diversas de las geometrías que
ofrece el paquete. Según el tipo de variable que queramos repre-
sentar y la manera como la queramos representar, utilizaremos
como principales formas de representación gráfica:
• el histograma,
• el diagrama de líneas,
• el diagrama de barras,
• el diagrama de cajas, y
• el diagrama de dispersión.
Editorial UOC Capítulo III. Análisis univariante
137
2.1. Histograma
El histograma nos permite visualizar con varias barras ver-
ticales la distribución de los valores de una variable numérica.
Cada una de las barras representa un intervalo de valores de la
variable y la altura de la barra corresponde al número de casos de
cada intervalo. Hay que tener en cuenta, pues, que las barras del
histograma no representan los valores numéricos originales de
la variable, sino una función estadística que separa los datos en
diferentes intervalos y las apila por columnas. Con R, representa-
remos esta figura con la función geom_histogram().
En la figura 6 hemos creado un histograma para observar
cómo están distribuidos los valores de la variable gdpPercap en
1992. Cada barra horizontal representa un intervalo de valores
de la variable que indicaremos en el eje de las x dentro de los
estéticos de ggplot. No hace falta que indiquemos el eje vertical de
las y, puesto que siempre veremos el recuento de casos de cada
columna (denominaremos frecuencias a la cantidad de casos). Por
defecto, el histograma corta la variable en treinta intervalos de
la misma anchura y representa la cantidad de valores que hay en
cada intervalo con la estatura de las columnas. En nuestro caso,
cada barra representa un intervalo de unos 1.300 dólares. Así, en
el primer intervalo, encontraremos el número de países situados
entre el intervalo de 0 y 1.300 dólares; en el segundo, aquellos
entre 1.300 y 2.600 dólares; en el tercero, los de entre 2.600 y
3.900, y así sucesivamente.

To continue reading

Request your trial

VLEX uses login cookies to provide you with a better browsing experience. If you click on 'Accept' or continue browsing this site we consider that you accept our cookie policy. ACCEPT