graphx - Ataww/SDTD-Mazerunner Wiki

Graphx

Présentation générale

GraphX est l'API de Spark pour tout ce qui s'apparente au traitement de graphes. GraphX étend l'objet RDD en introduisant le Resilient Distributed Property Graph. Pour permettre d'effectuer des traitements sur des graphes, on peut stocker les informations dans des tableaux. Un graphe est structuré de plusieurs sommets et d'arêtes. De ce fait, il est facile de pouvoir représenter un graphe sous forme de tableau où les deux premières colonnes correspondent aux sommets source et destination. Ce tableau comprendra une troisième colonne pour permettre d'y stocker la propriété qui est présente entre les deux sommets. A partir de ce tableau, Spark à la possibilité de créer des collections parallélisées en mémoire en s'appuyant sur ces données. Ce jeu de données distribué pourra être utilisé en parallèle (de manière distribuée).

Cas d'utilisation graphes

Utilisation dans le cadre de ce projet