¿Qué es Hadoop Distributed File System (HDFS)? - ynoag/ynoag.github.io GitHub Wiki
El Hadoop Distributed File System (HDFS)
Es el sistema de archivos de Hadoop, diseñado para almacenar grandes cantidades de datos distribuidos en múltiples servidores de manera eficiente y confiable.
¿Cómo funciona de manera sencilla?
División de datos: Cuando subes un archivo grande a HDFS, este archivo se divide en bloques más pequeños. Cada bloque tiene, por defecto, 128 MB o 64 MB.
Distribución en nodos: Estos bloques de datos se almacenan en diferentes servidores (llamados nodos). Esto permite distribuir la carga de trabajo y aumenta la capacidad de almacenamiento.
Replica los datos: Cada bloque se replica (generalmente tres copias) y las copias se almacenan en diferentes nodos. Esto garantiza que si un nodo falla, aún se puede acceder a los datos desde otro nodo.
Nodos en el sistema:
NameNode: Es el nodo maestro que gestiona dónde se almacenan los bloques de datos y hace un seguimiento de qué datos están en qué nodos. No almacena datos en sí mismo.
DataNodes: Son los nodos donde realmente se guardan los bloques de datos. Estos nodos reciben instrucciones del NameNode sobre dónde colocar los bloques y cuántas réplicas crear.
Acceso a los datos: Cuando un usuario quiere leer o escribir datos en HDFS, el NameNode proporciona la ubicación de los bloques, y el cliente accede directamente a los DataNodes para interactuar con los datos.
Ventajas
Escalabilidad: HDFS puede crecer añadiendo más nodos.
Tolerancia a fallos: Si un nodo falla, las réplicas aseguran que los datos no se pierdan.