¿Qué es Hadoop Distributed File System (HDFS)? - ynoag/ynoag.github.io GitHub Wiki

El Hadoop Distributed File System (HDFS)

Es el sistema de archivos de Hadoop, diseñado para almacenar grandes cantidades de datos distribuidos en múltiples servidores de manera eficiente y confiable.

¿Cómo funciona de manera sencilla?

División de datos: Cuando subes un archivo grande a HDFS, este archivo se divide en bloques más pequeños. Cada bloque tiene, por defecto, 128 MB o 64 MB.

Distribución en nodos: Estos bloques de datos se almacenan en diferentes servidores (llamados nodos). Esto permite distribuir la carga de trabajo y aumenta la capacidad de almacenamiento.

Replica los datos: Cada bloque se replica (generalmente tres copias) y las copias se almacenan en diferentes nodos. Esto garantiza que si un nodo falla, aún se puede acceder a los datos desde otro nodo.

Nodos en el sistema:

NameNode: Es el nodo maestro que gestiona dónde se almacenan los bloques de datos y hace un seguimiento de qué datos están en qué nodos. No almacena datos en sí mismo.

DataNodes: Son los nodos donde realmente se guardan los bloques de datos. Estos nodos reciben instrucciones del NameNode sobre dónde colocar los bloques y cuántas réplicas crear.

Acceso a los datos: Cuando un usuario quiere leer o escribir datos en HDFS, el NameNode proporciona la ubicación de los bloques, y el cliente accede directamente a los DataNodes para interactuar con los datos.

Ventajas

Escalabilidad: HDFS puede crecer añadiendo más nodos.

Tolerancia a fallos: Si un nodo falla, las réplicas aseguran que los datos no se pierdan.