Conceptos básicos de la importación de datos - guillermopetcho/Coursera-Certificate----Data-Analytics-Google GitHub Wiki

data-1 data-2 data-3 data-4 data-5 data-6 data-7

La función data()

Imagen de una máquina con un panel de control, una ranura para las entradas y una cinta transportadora para las salidas.

La instalación por defecto de R viene con una serie de conjuntos de datos precargados con los que puede practicar. Se trata de una excelente forma de desarrollar sus habilidades con R y conocer algunas funciones importantes de análisis de datos. Además, muchos recursos y tutoriales en línea utilizan estos conjuntos de datos de muestra para enseñar conceptos de programación en R.

Puede utilizar la función data() para cargar estos conjuntos de datos en R. Si ejecuta la función data sin un argumento, R mostrará una lista de los conjuntos de datos disponibles.

data()

Esto incluye la lista de conjuntos de datos precargados del paquete datasets. Imagen de los nombres de los conjuntos de datos precargados en el visor de RStudio

Si desea cargar un conjunto de datos específico, sólo tiene que introducir su nombre entre los paréntesis de la función data(). Por ejemplo, carguemos el conjunto de datos mtcars, que contiene información sobre los coches que han aparecido en números anteriores de la revista Motor Trend.

data(mtcars)

Cuando ejecute la función, R cargará el conjunto de datos. El Conjunto de datos también aparecerá en el panel Entorno de su RStudio. El panel Entorno muestra los nombres de los objetos de datos, como marcos de datos y variables, que tiene en su espacio de trabajo actual. En esta imagen, mtcars aparece en la quinta fila del panel. R nos dice que contiene 32 observaciones y 11 variables. Imagen de los nombres de los conjuntos de datos cargados en el panel de entorno de RStudio.

Ahora que el conjunto de datos está cargado, puede obtener una vista previa del mismo en el panel de la consola de R. Sólo tiene que escribir su nombre...

mtcars

...y después pulse ctrl (o cmnd) e intro. captura de pantalla de la vista previa del conjunto de datos

También puede visualizar el Conjunto de datos haciendo clic directamente sobre su nombre en el panel Entorno. Así, si hace clic en mtcars en el panel Entorno, R ejecuta automáticamente la función View() y muestra el conjunto de datos en el visor de datos de RStudio. Imagen de las diez primeras filas del conjunto de datos "mtcars" en el visor de datos de RStudio.

Pruebe a experimentar con otros conjuntos de datos de la Lista si desea algo más de práctica. El paquete readr

Además de utilizar los conjuntos de datos incorporados en R, también resulta útil importar datos de otras fuentes para utilizarlos en la práctica o en el análisis. El paquete readr en R es una gran herramienta para leer datos rectangulares. Los Datos rectangulares son datos que encajan perfectamente dentro de un rectángulo de filas y columnas, en el que cada columna hace referencia a una única variable y cada fila a una única observación.

He aquí algunos ejemplos de tipos de archivo que almacenan datos rectangulares:

.csv (valores separados por coma): un Archivo CSV es un archivo de texto sin formato que contiene una lista de datos. En su mayoría utilizan comas para separar (o delimitar) los Datos, pero a veces utilizan otros caracteres, como el punto y coma.

.tsv (valores separados por tabuladores): un archivo .tsv almacena una tabla de datos en la que las columnas de datos están separadas por tabuladores. Por ejemplo, una tabla de datos de una base de datos o los datos de una hoja de cálculo.

.fwf (archivos de ancho fijo): un archivo .fwf tiene un formato específico que permite guardar datos textuales de forma organizada.

.log: un archivo .log es un archivo generado por computadora que registra los eventos de los sistemas operativos y otros programas de software.

Base R también tiene funciones para leer archivos, pero las funciones equivalentes en readr suelen ser mucho más rápidas. También producen tibbles, que son fáciles de usar y leer.

El paquete readr forma parte del núcleo de tidyverse. Por lo tanto, si ya ha instalado el tidyverse, tiene lo que necesita para empezar a trabajar con readr. Si no, puede instalar el tidyverse ahora. funciones de readr

El objetivo de readr es proporcionar una forma rápida y amigable de leer datos rectangulares. readr soporta varias funciones read_. Cada función hace referencia a un formato de archivo específico.

read_csv(): Archivos de valores separados por comas (.csv)

read_tsv(): archivos de valores separados por tabulaciones

read_delim(): archivos delimitados en general

read_fwf(): archivos de ancho fijo

read_table(): archivos tabulares en los que las columnas están separadas por espacios en blanco

read_log(): archivos de registro web

Todas estas funciones tienen una sintaxis similar, por lo que una vez que aprenda a utilizar una de ellas, podrá aplicar sus conocimientos a las demás. Esta lectura se centrará en la función read_csv(), ya que los archivos .csv son una de las formas más comunes de almacenamiento de datos y trabajará con ellos con frecuencia.

En la mayoría de los casos, estas funciones funcionarán automáticamente: usted suministra la ruta de acceso a un archivo, ejecuta la función y obtiene un tibble que muestra los datos del archivo. Entre bastidores, readr analiza el archivo completo y especifica cómo debe convertirse cada columna de un vector de caracteres al tipo de datos más apropiado. Lectura de un archivo .csv con readr

El paquete readr viene con algunos archivos de muestra de conjuntos de datos incorporados que puede utilizar para código de ejemplo. Para listar los archivos de ejemplo, puede ejecutar la función readr_example() sin argumentos.

readr_example()

[1] "challenge.csv" "epa78.txt" "example.log"

[4] "fwf-sample.txt" "massey-rating.txt" "mtcars.csv"

[7] "mtcars.csv.bz2" "mtcars.csv.zip"

El archivo “mtcars.csv” hace referencia al conjunto de datos mtcars que se mencionó anteriormente. Utilicemos la función read_csv () para leer el archivo “mtcars.csv”, como ejemplo. En el paréntesis, debe indicar la ruta de acceso al archivo. En este caso, es “readr_example(“mtcars.csv”).

read_csv(readr_example("mtcars.csv"))

Al ejecutar la función, R imprime una especificación de columna que indica el nombre y el tipo de cada columna. captura de pantalla de la especificación de columna

R también imprime un tibble. captura de pantalla de un tibble de las 10 primeras filas. 22 filas más están ocultas


Opcional: el paquete readxl

Para importar datos de hojas de cálculo a R, puede utilizar el paquete readxl. El paquete readxl facilita la transferencia de datos de Excel a R. Readxl admite tanto el formato de archivo .xls heredado como el moderno formato de archivo .xlsx basado en xml.

El paquete readxl forma parte de tidyverse pero no es un paquete central de tidyverse, por lo que deberá cargar readxl en R utilizando la función library().

library(readxl) Lectura de un archivo .xlsx con readxl

Al igual que el paquete readr, readxl viene con algunos archivos de muestra de conjuntos de datos incorporados que puede utilizar para practicar. Puede ejecutar el código readxl_example() para ver la lista.

Puede utilizar la función read_excel( ) para leer un archivo de hoja de cálculo del mismo modo que utilizó la función read_csv() para leer un archivo .csv. El código para leer el archivo de ejemplo “type-me.xlsx” incluye la ruta de acceso al archivo entre los paréntesis de la función.

read_excel(readxl_example("type-me.xlsx"))

Puede utilizar la función excel_sheets

() para listar los nombres de las hojas individuales.

excel_sheets(readxl_example("type-me.xlsx"))

[1] "logical_coercion" "numeric_coercion" "date_coercion" "text_coercion"

También puede especificar una hoja por su nombre o número. Sólo tiene que escribir “sheet =” seguido del nombre o número de la hoja. Por ejemplo, puede utilizar la hoja denominada “numeric_coercion” de la lista anterior.

read_excel(readxl_example("type-me.xlsx"), sheet = "numeric_coercion")

Cuando ejecute la función, R le devolverá un tibble de la hoja. captura de pantalla de un tibble con 7 filas Recursos adicionales

Si desea aprender a utilizar las funciones de readr para trabajar con archivos más complejos, consulte el [Capítulo sobre importación de datos ](https://r4ds.had.co.nz/data-import.html)

del libro R for Datos Science. En él se exploran algunos de los problemas comunes que puede encontrar al leer archivos, y cómo utilizar readr para gestionar esos problemas.

La página readxl

de la documentación de tidyverse ofrece una buena visión general de las funciones básicas de readxl, proporciona una explicación detallada de cómo funciona el paquete y los conceptos de programación que hay detrás de ellas, y ofrece enlaces a otros recursos útiles.

El paquete "datasets" de R contiene muchos conjuntos de datos útiles precargados. Consulte el Paquete "Conjuntos

 de datos" de R para obtener una lista. La Lista incluye enlaces a descripciones detalladas de cada conjunto de datos.