Errores comunes en la limpieza de datos - guillermopetcho/Coursera-Certificate----Data-Analytics-Google GitHub Wiki

Errores comunes que debe evitar

No comprobar los errores ortográficos : Los errores ortográficos pueden ser tan simples como errores de escritura o de introducción de datos. La mayoría de las veces pueden detectarse errores ortográficos o gramaticales comunes, pero se hace más difícil con cosas como nombres o direcciones. Por ejemplo, si está trabajando con una tabla de datos de clientes en una hoja de cálculo, puede encontrarse con un cliente llamado "Juan" cuyo nombre se ha introducido incorrectamente como "Jon" en algunos lugares. Es probable que el corrector ortográfico de la hoja de cálculo no lo señale, por lo que si no comprueba dos veces los errores ortográficos y los detecta, su análisis tendrá errores.

Olvidarse de document ar los errores: Documentar sus errores puede ahorrarle mucho tiempo, ya que le ayuda a evitarlos en el futuro al mostrarle cómo los resolvió. Por ejemplo, puede encontrar un error en una fórmula de su hoja de cálculo. Descubre que algunas de las fechas de una de sus columnas no se han formateado correctamente. Si toma nota de esta corrección, podrá consultarla la próxima vez que su fórmula no funcione y adelantarse a la solución de problemas. Documentar sus errores también le ayuda a realizar un seguimiento de los cambios en su trabajo, de modo que pueda volver atrás si una corrección no funcionó.

No comprobar si hay valores mal escritos: Un valor mal introducido se produce cuando los valores se introducen en el campo equivocado. Estos valores pueden seguir teniendo un formato correcto, lo que hace que sean más difíciles de detectar si no se tiene cuidado. Por ejemplo, puede tener un Conjunto de datos con columnas para ciudades y países. Se trata del mismo tipo de datos, por lo que es fácil confundirlos. Pero si estuviera intentando encontrar todas las instancias de España en la columna de países, y España se hubiera introducido por error en la columna de ciudades, pasaría por alto puntos de datos clave. Asegurarse de que los datos se han introducido correctamente es clave para un análisis preciso y completo.

Pasar por alto los valores que faltan: Los valores que faltan en su conjunto de datos pueden crear errores y darle conclusiones inexactas. Por ejemplo, si estuviera intentando obtener el número total de ventas de los últimos tres meses, pero faltara una semana de transacciones, sus cálculos serían inexactos. Como mejor práctica, intente mantener sus datos lo más limpios posible manteniendo la exhaustividad y la coherencia.

Fijarse sólo en un subconjunto de los Datos : Es importante pensar en todos los datos relevantes cuando realice la limpieza. Esto le ayudará a asegurarse de que comprende toda la Historia que cuentan los Datos y de que está prestando atención a todos los posibles errores. Por ejemplo, si está trabajando con datos sobre patrones de migración de aves de diferentes fuentes, pero sólo limpia una fuente, puede que no se dé cuenta de que algunos de los datos se están repitiendo. Esto causará problemas en su Análisis más adelante. Si quiere evitar errores comunes como los duplicados, cada campo de sus datos requiere la misma atención.

Perder de vista los objetivos empresariales : Cuando esté limpiando datos, puede que haga nuevos e interesantes descubrimientos sobre su conjunto de datos... pero no querrá que esos descubrimientos le distraigan de la tarea que tiene entre manos. Por ejemplo, si estuviera trabajando con datos meteorológicos para hallar el número medio de días de lluvia en su ciudad, podría notar también algunos patrones interesantes sobre las nevadas. Eso es realmente interesante, pero no está relacionado con la pregunta que está intentando responder en este momento. Sentir curiosidad es estupendo Pero intente que no le distraiga de la tarea que tiene entre manos.

No solucionar el origen del error: Solucionar el error en sí es importante. Pero si ese error es en realidad parte de un problema mayor, necesita encontrar el origen del problema. De lo contrario, tendrá que seguir arreglando ese mismo error una y otra vez. Por ejemplo, imagine que tiene una hoja de cálculo de su equipo en la que se hace un seguimiento del progreso de todos. La tabla sigue rompiéndose porque distintas personas están introduciendo valores diferentes. Puede seguir arreglando todos estos problemas uno por uno, o puede configurar su tabla para agilizar la introducción de datos de modo que todos estén en la misma página. Abordar el origen de los errores en sus Datos le ahorrará mucho tiempo a largo plazo.

No analizar el sistema antes de limpiar los datos: Si queremos limpiar nuestros datos y evitar futuros errores, necesitamos entender la causa raíz de sus datos sucios. Imagine que es usted mecánico de automóviles. Usted encontraría la causa del problema antes de empezar a arreglar el coche, ¿verdad? Lo mismo ocurre con los Datos. En primer lugar, averigüe de dónde proceden los errores. Tal vez sea de un error de introducción de datos, de no haber configurado un corrector ortográfico, de la falta de formatos o de duplicados. Después, una vez que comprenda de dónde proceden los datos erróneos, podrá controlarlos y mantener sus datos limpios.

No hacer copias de seguridad de sus datos antes de limpiarlos : Siempre es bueno ser proactivo y crear una copia de seguridad de sus datos antes de empezar la limpieza de los mismos. Si su programa se bloquea, o si sus cambios causan un problema en su conjunto de datos, siempre puede volver a la versión guardada y restaurarla. El sencillo procedimiento de hacer una copia de seguridad de sus datos puede ahorrarle horas de trabajo... y lo que es más importante, un quebradero de cabeza.

No contabilizar la limpieza de datos en sus plazos/procesos : Todo lo bueno lleva su tiempo, y eso incluye la limpieza de datos. Es importante tenerlo en cuenta cuando revise su proceso y examine sus plazos. Cuando reserva tiempo para la limpieza de datos, le ayuda a obtener una estimación más precisa de los plazos para las partes interesadas, y puede ayudarle a saber cuándo solicitar un plazo ajustado.