Los fundamentos de ggplot2 - guillermopetcho/Coursera-Certificate----Data-Analytics-Google GitHub Wiki
Los fundamentos de ggplot2
El Paquete ggplot2 le permite hacer gráficos de alta calidad y personalizables de sus datos. A modo de repaso, ggplot2 se basa en la gramática de los gráficos, que es un sistema para describir y construir visualizaciones de datos. La idea esencial de la gramática de los gráficos es que puede construir cualquier gráfico a partir de los mismos componentes básicos, como bloques de construcción.
Estos bloques de construcción incluyen
Un Conjunto de datos
Un conjunto de geoms: Un geoma se refiere al objeto geométrico utilizado para representar sus Datos. Por ejemplo, puede utilizar puntos para crear un diagrama de dispersión, barras para crear un diagrama de barras, líneas para crear un diagrama de líneas, etc.
Un conjunto de atributos estéticos: Una estética es una propiedad visual de un objeto de su gráfico. Puede pensar en una estética como una conexión, o mapeo, entre una característica visual de su gráfico y una variable de sus datos. Por ejemplo, en un Diagrama de dispersión, la estética incluye cosas como el tamaño, la forma, el color o la ubicación (Eje X, Eje Y) de sus puntos de datos.
Para crear un gráfico con ggplot2, primero debe elegir un Conjunto de datos. A continuación, determine cómo organizar visualmente sus datos en un sistema de coordenadas eligiendo un geoma para representar sus puntos de datos y una estética para trazar sus variables. Preparar sus datos
El Paquete ggplot2 le permite utilizar código R para especificar el conjunto de datos, el geom y la estética de su gráfico.
Para ello, elija primero un conjunto de datos con el que trabajar. Para esta actividad, utilizará los datos de Pingüinos de Palmer con los que ya está familiarizado de vídeos anteriores. Sin embargo, también puede utilizar otro Conjunto de datos en su lugar.
Una vez que se haya decidido por su conjunto de datos, abra RStudio y siga estos pasos:
-
Si no lo ha hecho antes, utilice la función install.packages() para instalar tanto ggplot2 como el conjunto de datos de los pingüinos de Palmer. Escriba install.packages("ggplot2") e install.packages("palmerpenguins") y, a continuación, haga clic en Ejecutar.
-
Cargue ggplot2 y el conjunto de datos utilizando la función library(). Escriba library(ggplot2) y library(palmerpenguins).
3.ahora, examine el Marco de datos para los datos de los pingüinos. Para ello, utilice las funciones data() y View(). Utilice una "V" mayúscula para la función View() ya que las funciones en R distinguen entre mayúsculas y minúsculas. Escriba datos(pingüinos) y Ver( pingüinos), luego haga clic en Ejecutar.
Las 10 primeras filas del Marco de datos deberían aparecer así: captura de pantalla de la hoja de cálculo Marco de datos
El Conjunto de datos pingüinos contiene mediciones del tamaño de tres especies de pingüinos (Adelia, Barbijo y Papúa) que viven en el archipiélago de Palmer, en la Antártida. Las columnas incluyen información como la masa corporal, la longitud de las aletas y la longitud del pico.
Crear un gráfico en ggplot2
Supongamos que desea trazar la relación entre la masa corporal y la longitud de las aletas en las tres especies de pingüinos. Puede elegir una geomática específica que se ajuste al tipo de datos que tiene. Los puntos muestran la relación entre dos variables cuantitativas. Un diagrama de dispersión de puntos sería una forma eficaz de mostrar la relación entre las dos variables. Puede poner la Longitud de la aleta en el eje X y la masa corporal en el eje Y.
Escriba el siguiente código para crear el gráfico. Pero antes de ejecutarlo, revise el código pieza por pieza:
ggplot(datos = pingüinos) + geom_point(mapeo = aes(x = longitud_aleta_mm, y = masa_corporal_g))
ggplot(datos = pingüinos): En ggplot2, se comienza un trazado con la función ggplot(). La función ggplot() crea un sistema de coordenadas al que puede añadir capas. El primer argumento de la función ggplot() es el conjunto de datos que se utilizará en el gráfico. En este caso, es "pingüinos"
+: A continuación, añada un símbolo "+" para añadir una nueva capa a su trazado. Complete su gráfico añadiendo una o varias capas a ggplot().
geom_point(): A continuación, elija un punto geométrico añadiendo una función geom. La función geom_point() utiliza puntos para crear gráficos de dispersión, la función geom_bar utiliza barras para crear gráficos de barras, etc. En este caso, elija la función geom_point para crear un gráfico de dispersión de puntos. El paquete ggplot2 viene con muchas funciones geom diferentes. Aprenderá más sobre geoms más adelante en este curso.
(mapping = aes(x = flipper_length_mm, y = body_mass_g)): Cada función geom en ggplot2 toma un argumento de mapeo. Éste define cómo se asignan las variables de su conjunto de datos a las propiedades visuales. El argumento de mapeo siempre está vinculado a la función aes(). Los argumentos x e y de la función aes() especifican qué variables mapear al eje x y al eje y del sistema de coordenadas. En este caso, desea mapear la variable "flipper_length_mm" al eje x, y la variable "body_mass_g" al eje y.
Ahora siga adelante y ejecute el código. Al hacerlo, obtendrá el siguiente gráfico: imagen de diagrama de dispersión ascendente. el eje x se titula longitud de la aleta (mm) y el eje y se titula masa corporal (g)
El gráfico muestra una relación positiva entre las dos variables. En otras palabras, cuanto más grande es el pingüino, más larga es la aleta.
Cree su propio gráfico
Para crear su propio gráfico utilizando código, siga estos tres pasos:
-
Comience con la función ggplot() y elija un conjunto de datos con el que trabajar.
-
Añada una función geom_ para visualizar sus datos.
-
Mapee las variables que desea trazar en los argumentos de la función aes().
Pruebe a trazar con diferentes conjuntos de datos utilizando diferentes geoms y argumentos de mapeo. En este curso aprenderá aún más sobre el proceso de creación de un gráfico. También tendrá la oportunidad de trabajar con el conjunto de datos Penguins para crear muchos trazados diferentes en ggplot2.
Consejo de experto: Puede escribir la misma sección de código anterior utilizando una sintaxis diferente con el argumento mapping dentro de la llamada a ggplot(): ggplot(data = penguins, mapping = aes(x = flipper_length_mm, y = body_mass_g)) + geom_point()