Bienvenue sur le dépôt "TPs Hadoop" ! - gregoiremassot/TPs-Hadoop GitHub Wiki

Guide d'installation : ici

C'est quoi ?

C'est un code MapReduce qui prend en entrée un graphe de pages web et qui donne en sortie le PageRank de chaque page calculé en fonction du nombre relatif de liens pointant vers la page web en question, selon l'algorithme historique (mais simplifié) de Google.

Hadoop est un programme open-source permettant de traiter rapidement un grand volume de données sur des Data Centers. Hadoop est très en vogue depuis quelques années avec l'essor du Big Data.

Avec quels outils ?

Le programme est écrit en Java muni des bibliothèques Hadoop. On ajoute des scripts shell pour automatiser l'exécution du programme.

Les tests sont effectués sous VirtualBox avec la machine virtuelle CDH 5.4 de Cloudera.

À quelle occasion ?

Ce programme était le rendu de la partie "Hadoop" du cours Big Data à l'École des Mines. Je l'ai réalisé en Novembre 2015