Análisis Exploratorio de Datos - Shomira/Proyecto-PAvanzada GitHub Wiki
Conocido por sus siglas en inglés EDA (Exploratory Data Analisys) es un procedimiento cuyo objetivo es proporcionar una visión mas detallada y precisa de una colección de datos organizados. Desde un punto de vista más técnico, el EDA se caracteriza por el empleo de procedimientos analíticos y descriptivos de carácter gráfico o semi gráfico para mostrar todas las particularidades y caracteres de las variables, exponiendo el comportamiento típico o atípico de estos.
No es fácil ver un conjunto de datos, ya sea hojas de cálculo o simplemente en una columna de números o conjuntos de palabras, que desde una observación un poco más técnica, en algunos casos, cuentan o están formados por patrones. De ahí nace la necesidad de hacer un poco menos pesado este trabajo, que mediante un análisis de datos que pueden constar de una o más variables (bivariado, Multivariado)en la cual las variables se asocian, se comparan, miden (media, mediana moda, promedio) y relacionan entre las ellas, se obtendrá una perspectiva muy clara del conjunto de datos.
"El EDA proporciona métodos sistemáticos sencillos para organizar y preparar los datos, detectar fallos en el diseño y recogida de los mismos, tratamiento y evaluación de datos ausentes (missing), identificación de casos atípicos (outliers) y comprobación de los supuestos subyacentes en la mayor parte de las técnicas multivariantes (normalidad, linealidad, homocedasticidad)" https://ciberconta.unizar.es/leccion/aed/ead.pdf
Para realizar un correcto EDA tomamos en cuenta 2 etapas:
Esta se la realiza mediante la estadística descriptiva, obteniendo de nuestros datos valores como media, mediana, máximos, mínimos, frecuencia, desviación estándar, entre otros. Los cuales proveerán nociones que describen el comportamiento de cada variable.
Al ser estadística descriptiva, en esta etapa se limita a sacar las características de los datos existentes, sin realizar ninguna conclusión sobre la población total de la cual fueron tomados.
Esta se la realiza mediante la estadística inferencial, la cual comprende las pruebas de estimación, puntual o por intervalos de confianza, y las pruebas de hipótesis, paramétricas y las no paramétricas; logrando hacer deducciones, es decir, inferir propiedades, conclusiones y tendencias, a partir de nuestros datos.
Estas conclusiones obtenidas son validas para la totalidad de la población de interés de la cual fueron extraídos los datos