Home - santig005/MapReduce---Data-enginering GitHub Wiki

Trabajo 3 – Procesamiento distribuido con MapReduce (Hadoop)

Universidad EAFIT
Curso: ST0263 - Tópicos Especiales en Telemática (2025-1)
Fecha de entrega: 02 de junio de 2025

Descripción

Este proyecto implementa una arquitectura batch basada en Hadoop para simular un flujo completo de procesamiento distribuido utilizando el modelo MapReduce. A través de este trabajo se experimentan todas las etapas esenciales del procesamiento de grandes volúmenes de datos: desde la obtención de datos, almacenamiento en HDFS, análisis con MapReduce y visualización de resultados mediante una API.

Objetivo

Comprender el funcionamiento de los sistemas distribuidos de almacenamiento y procesamiento batch, usando exclusivamente HDFS y MapReduce.

Etapas del proyecto

  1. Obtención de datos
    Fuente abierta descargada manualmente en formato CSV, JSON o texto plano.

  2. Carga a HDFS
    Los datos se cargan en el sistema distribuido (por ejemplo, Amazon EMR) usando scripts o manualmente.

  3. Procesamiento con MapReduce
    Implementado en Java o Python (MRJob). Se realiza al menos una operación de agregación, conteo, filtrado o análisis.

  4. Visualización de resultados
    Los resultados se almacenan en HDFS, se exportan a CSV y se exponen mediante una API sencilla desarrollada con Flask o FastAPI.