Have I Been Pwned Análisis de Datos de Archivo de Texto - sar-05/PIA_HIBP GitHub Wiki
Lectura de datos
El script inicia abriendo el archivo hibp_cleaned.txt, el cual contiene los datos previamente limpiados sobre filtraciones de datos extraídas del proyecto Have I Been Pwned. Leyendo cada línea del archivo con un with open.
Validación
Las validaciones de la información del archivo de texto se hace gracias a dos funciones: turn_to_dict hace lo siguiente: validar si la línea tiene el formato Counter({}). extraer las claves (nombre del sitio o tipo de dato) y sus valores (cuentas o frecuencia). convertirlos a tipos apropiados (str a int). turn_tu_list_tuples: el cual obtiene la información del archivo de texto y la convierte en una lista de tuplas
Analisis y preparacion de datos
Todas las estructuras de datos usaron sorted con tres argumentos dentro de ella, la estructura de datos, la función que indica cómo se va a ordenar y reverse=True que indica que será ordenado de mayor a menor. Primero se obtienen los primeros y últimos tres años en base a la cantidad de cuentas comprometidas. Los sitios con la mayor y menor cantidad de cuentas comprometidas. La estadística del promedio, mediana, moda y desviación estándar de las cuentas filtraciones. Finalmente los tipos de datos más filtrados durante las brechas de datos.
Relación con el problema
El problema definido en este proyecto está relacionado con la exposición masiva de datos personales debido a filtraciones de seguridad. El análisis realizado permite: identificar patrones en el tiempo y en los tipos de ataques, reconocer qué servicios representan mayor riesgo y detectar qué información personal es más vulnerable.