Proyecto Final_ Grupo 11 - avabendano/Grupo11_Trabajo_Final GitHub Wiki

Análisis Entregas Ventas

1. Introducción

Este proyecto tiene como finalidad aplicar técnicas de análisis de datos utilizando la plataforma JupyterLab, procesando información de ventas y entregas de productos tecnológicos. El análisis se realiza integrando dos fuentes distintas: un archivo CSV con los datos de ventas y una base de datos SQLite con los datos de entregas. El objetivo es evaluar el cumplimiento logístico, el desempeño comercial y encontrar patrones de comportamiento relevantes.

2. Marco teórico de las tecnologías y librerías utilizadas

  • JupyterLab: entorno interactivo de notebooks ideal para ciencia de datos.
  • Pandas: librería para manipulación y análisis de datos estructurados.
  • SQLite3: motor de base de datos ligera y embebida, usado para consultar datos desde archivos .db.
  • Matplotlib: herramienta de visualización para gráficos estáticos.
  • Bokeh: librería interactiva para gráficos modernos, útiles en análisis exploratorios.
  • PyGWalker: interfaz gráfica que permite analizar datasets de forma visual como si fuera una herramienta tipo Tableau.

3. Descripción del dataset usado

Para el desarrollo del presente proyecto, se generaron dos datasets sintéticos con el fin de simular información realista relacionada con la comercialización y distribución de productos tecnológicos.

Dataset 1: Se creó un dataset denominado ventas_tecnologia_10000.csv registros de ventas simuladas. que tiene las siguiente columnas:

  • producto, fecha_venta, cantidad, precio_unitario, canal_venta, cliente_id, ciudad Los datos se almacenaron en un archivo CSV utilizando la librería pandas para su posterior análisis.

Dataset 2: Se creó un segundo dataset, almacenado en una base de datos SQLite con el nombre entregas_tecnologia_10000.db (tabla: entregas), que simula 10,000 registros de entregas de productos. Este dataset contiene las siguientes columnas:

  • producto, fecha_entrega, cantidad_entregada, bodega_origen, ciudad_entrega, tipo_transporte

Ambos datasets fueron fusionados utilizando las columnas producto y ciudad.

4. Descripción de los pasos realizados en el proyecto

  1. Carga de datos desde CSV y SQLite con pandas.read_csv() y pandas.read_sql_query().
  1. Fusión de datasets usando pd.merge() por producto y ciudad.
  1. Creación de columnas nuevas:
    • ingreso: calculado como cantidad * precio_unitario.
    • diferencia_cantidades: diferencia entre cantidad vendida y entregada.
  1. Agrupaciones:

    • Por ciudad: para analizar ingresos y cumplimiento.
    • Por producto: para detectar diferencias entre lo vendido y entregado.
    • Por tipo de transporte: para visualizar modos de distribución.
  2. Exportación dataset final: Una vez realizada la combinación de los datasets de ventas y entregas, y tras la creación de nuevas columnas, se generó un dataset final. El merged_df fue exportado como archivo CSV

4.1 Visualizaciones generadas

  • Matplotlib:
    • Comparación entre cantidad vendida y entregada

Esta gráfica indica la diferencia entre las unidades de productos vendidos y las unidades entregadas, permite identificar por producto si se entregaron menos o más o la misma cantidad que la vendida.

  • Diferencia total de entregas por producto

Este gráfico compara para cada ciudad la cantidad total de productos vendidos con la cantidad entregada.

  • Bokeh:
    • Ingresos totales por ciudad (barras verticales)

Este gráfico nos indica los ingresos totales generados en cada ciudad, representando visualmente el ingreso que se optuvo por ciudad, permitiendo identificar qué ciudades generan mayor o menor ingresos.

  • Ingreso total por producto (barras horizontales)

Este gráfico nos indica los productos ordenados de mayor a menor según el ingreso total generado po cada uno, permitiendo indentificar cúales productos han sido más rentables.

  • Distribución de entregas por tipo de transporte (gráfico donut)

Este gráfico nos indica la entregas realizadas según el tipo de transporte aéreo o terrestre, cada segmento representa un medio de transporte.

  • PyGWalker:
  • Dashboard interactivo habilitado para exploración de datos sin código.

5. Conclusiones

  • Se detectaron diferencias importantes entre lo vendido y lo entregado en ciertos productos.
  • La ciudad con mayores ingresos fue claramente identificada gracias a los gráficos de Bokeh.
  • La visualización de tipo de transporte permitió conocer las rutas logísticas más frecuentes.
  • Las herramientas utilizadas permitieron automatizar el análisis y facilitar la visualización de hallazgos clave.

6. Bibliografía