Ordenación y filtrado de Datos para mantenerlos organizados - guillermopetcho/Coursera-Certificate----Data-Analytics-Google GitHub Wiki
Las dos primeras fases del análisis de datos, Organizar los datos y Formatear y ajustar los datos, son importantes para los analistas de datos porque pueden utilizarlas para manipular sus datos de forma que los patrones y las tendencias importantes resulten más evidentes. La mayoría de los Conjuntos de datos que utilizará como Analista de datos estarán organizados en forma de tablas. Las tablas son útiles porque le permiten manipular y categorizar sus Datos. Disponer de categorías y clasificaciones distintas le permite centrarse en los grupos de sus Datos y diferenciarlos de forma rápida y sencilla.
La Ordenación y el Filtrado son dos Métodos que puede utilizar para organizar, formatear y ajustar los Datos. Por ejemplo, un filtro puede ayudarle a encontrar errores o valores atípicos para que pueda corregirlos o marcarlos antes de su análisis. Los valores atípicos son puntos de datos muy diferentes de los recogidos de forma similar y pueden no ser valores fiables. La ventaja de filtrar los Datos es que después de corregir los errores o identificar los valores atípicos, puede eliminar el filtro y devolver los datos a su organización original.
En esta lectura, revisará la Ordenación y el Filtrado y considerará cómo pueden utilizarse conjuntamente. También conocerá cómo se realiza una forma particular de ordenación en una tabla dinámica.
Ordenación de datos
La Ordenación es el proceso de organizar los datos en un orden significativo para facilitar su comprensión, análisis y visualización. Clasifica sus Datos basándose en una métrica específica que usted elija. Puede ordenar datos en hojas de cálculo, bases de datos SQL (cuando su conjunto de datos es demasiado grande para las hojas de cálculo) y tablas en documentos.
Para clasificar elementos o crear listas cronológicas, puede ordenar por orden ascendente o descendente. La Ordenación ordena los datos de forma significativa y le proporciona estadísticas inmediatas. La Ordenación también le ayuda a agrupar datos similares mediante una clasificación. Por ejemplo, si una empresa de diseño de estaciones de esquí quiere evaluar las estaciones diseñadas por un competidor, un Analista de datos puede clasificar las estaciones competidoras por ubicación, pistas, superficie y otros factores. De este modo, los diseñadores de la empresa pueden visitar los tipos de estaciones que ellos también diseñan y recopilar información que podría utilizar en sus propios diseños futuros. Este es un Ejemplo de ordenación de una hoja de cálculo de estaciones de esquí, que incluye información sobre el nombre de la estación, el estado/territorio/país
Filtrar datos
A veces, un análisis puede requerir solo un subconjunto de los datos de su conjunto de datos. Puede utilizar un filtro para mostrar sólo los datos que cumplan un criterio especificado y ocultar el resto. Filtrar es útil cuando se tienen muchos Datos. Puede ahorrar tiempo centrándose en los datos que son importantes para su análisis actual o en los que contienen errores. La mayoría de las hojas de cálculo y bases de datos SQL le permiten filtrar sus datos de diversas maneras. Filtrar le ofrece la posibilidad de encontrar lo que busca sin demasiado esfuerzo.
Por ejemplo, si la empresa de diseño de estaciones de esquí quiere inspeccionar criterios específicos de las estaciones de esquí de la competencia que pretende visitar y evaluar, un Analista de datos puede filtrar la base de datos de las estaciones de la competencia para extraer información sobre el número de pistas en comparación con la superficie para identificar tendencias de diseño u otras estadísticas. Ejemplo de creación de un filtro en una hoja de cálculo de estaciones de esquí
Ordenar una tabla dinámica
Una tabla dinámica es una herramienta de resumen de datos que se utiliza para ordenar, reorganizar, agrupar, contar, totalizar o promediar datos. Los elementos de las áreas de filas y columnas de una tabla dinámica se ordenan primero en orden ascendente por cualquier lista personalizada. Si los elementos no están en una lista personalizada, se ordenarán por defecto en orden ascendente. Pero, si ordena en orden descendente, estará estableciendo una regla que controla cómo se ordena el campo incluso después de que se añadan nuevos puntos de datos. Por ejemplo, en el conjunto de datos de la estación de esquí, la tabla dinámica permite ordenar las ubicaciones alfabéticamente por estado, territorio o país.
Imagen de una tabla dinámica de los datos de la estación de esquí, con el editor de tablas pivotantes abierto y listo para introducir parámetros