intro - santig005/MapReduce---Data-enginering GitHub Wiki
Trabajo 3 – Procesamiento distribuido con MapReduce (Hadoop)
Universidad EAFIT
Curso: ST0263 - Tópicos Especiales en Telemática (2025-1)
Fecha de entrega: 02 de junio de 2025
Descripción
Este proyecto implementa una arquitectura batch basada en Hadoop para simular un flujo completo de procesamiento distribuido utilizando el modelo MapReduce. A través de este trabajo se experimentan todas las etapas esenciales del procesamiento de grandes volúmenes de datos: desde la obtención de datos, almacenamiento en HDFS, análisis con MapReduce y visualización de resultados mediante una API.
Objetivo
Comprender el funcionamiento de los sistemas distribuidos de almacenamiento y procesamiento batch, usando exclusivamente HDFS y MapReduce.
Etapas del proyecto
-
Obtención de datos
Fuente abierta descargada manualmente en formato CSV, JSON o texto plano. -
Carga a HDFS
Los datos se cargan en el sistema distribuido (por ejemplo, Amazon EMR) usando scripts o manualmente. -
Procesamiento con MapReduce
Implementado en Java o Python (MRJob). Se realiza al menos una operación de agregación, conteo, filtrado o análisis. -
Visualización de resultados
Los resultados se almacenan en HDFS, se exportan a CSV y se exponen mediante una API sencilla desarrollada con Flask o FastAPI.