CRISP DM - aladelca/metodologia_para_data_science_20251 GitHub Wiki

CRISP-DM: Metodología Estándar para Proyectos de Data Science

CRISP-DM (Cross-Industry Standard Process for Data Mining) es una metodología robusta y bien establecida para ejecutar proyectos de minería de datos y ciencia de datos. Desarrollada en 1996, se ha convertido en el estándar de facto para desarrollar proyectos de data science y analytics.

🔄 El Ciclo de Vida CRISP-DM

El proceso CRISP-DM es cíclico e iterativo, permitiendo que los proyectos se refinen y mejoren continuamente

📋 Fases Detalladas

1. Comprensión del Negocio (Business Understanding)

Actividades Principales:

  • 🎯 Determinar objetivos del negocio
    • Contexto inicial
    • Objetivos
    • Criterios de éxito
  • 📊 Evaluar la situación actual
    • Recursos disponibles
    • Requisitos y restricciones
    • Riesgos y contingencias
  • 🔍 Establecer objetivos de minería de datos
  • 📝 Desarrollar el plan del proyecto

2. Comprensión de los Datos (Data Understanding)

Actividades Principales:

  • 📥 Recolectar datos iniciales
  • 📊 Describir los datos
    • Formato
    • Cantidad
    • Identificadores
  • 🔍 Explorar los datos
    • Análisis básico
    • Visualizaciones iniciales
  • ✅ Verificar la calidad de los datos
    • Valores faltantes
    • Errores
    • Inconsistencias

3. Preparación de los Datos (Data Preparation)

Actividades Principales:

  • 🎯 Seleccionar los datos relevantes
  • 🧹 Limpiar los datos
    • Manejo de valores faltantes
    • Corrección de errores
  • 🏗️ Construir nuevos atributos
  • 🔄 Integrar diferentes fuentes
  • 📊 Formatear los datos para el modelado

4. Modelado (Modeling)

Actividades Principales:

  • 🎯 Seleccionar técnicas de modelado
    • Algoritmos apropiados
    • Supuestos del modelo
  • ⚙️ Generar diseño de pruebas
  • 🏗️ Construir modelo
    • Entrenamiento
    • Parametrización
  • 📊 Evaluar modelo técnicamente

5. Evaluación (Evaluation)

Actividades Principales:

  • 📊 Evaluar resultados
    • Criterios de negocio
    • Objetivos iniciales
  • 🔄 Revisar proceso
  • 📋 Determinar próximos pasos
    • Iterar o continuar
    • Identificar mejoras

6. Implementación (Deployment)

Actividades Principales:

  • 📋 Planear implementación
  • 🔄 Planear monitoreo y mantenimiento
  • 📝 Producir reporte final
  • 📊 Revisar proyecto completo

🌟 Características Principales

  • Proceso Cíclico:

    graph TD
      A[Business Understanding] --> B[Data Understanding]
      B --> C[Data Preparation]
      C --> D[Modeling]
      D --> E[Evaluation]
      E --> F[Deployment]
      F --> A
    
  • Flexibilidad: Adaptable a diferentes proyectos y contextos

  • Estructura Clara: Framework paso a paso

  • Enfoque Práctico: Basado en experiencia real

💪 Ventajas de CRISP-DM

  1. Estandarización: Framework común para todos los proyectos
  2. Completitud: Cubre todo el ciclo de vida
  3. Adaptabilidad: Flexible para diferentes industrias
  4. Documentación: Promueve buenas prácticas
  5. Reducción de Riesgos: Identificación temprana de problemas

✅ Mejores Prácticas

  • 📝 Documentación clara y consistente
  • 👥 Involucrar stakeholders constantemente
  • 🔄 Mantener ciclos iterativos
  • ✅ Validar en cada fase
  • 🛡️ Considerar ética y privacidad

📚 Referencias y Recursos

🎓 Herramientas Recomendadas por Fase

Business Understanding

  • SWOT Analysis
  • Business Model Canvas
  • Project Charter Templates

Data Understanding

  • Jupyter Notebooks
  • Pandas Profiling
  • Great Expectations

Data Preparation

  • Python (Pandas, NumPy)
  • R (tidyverse)
  • SQL

Modeling

  • Scikit-learn
  • TensorFlow
  • PyTorch

Evaluation

  • MLflow
  • Weights & Biases
  • TensorBoard

Deployment

  • Docker
  • Kubernetes
  • MLflow
  • FastAPI/Flask