Infiniband - kraut-computing/siegfried GitHub Wiki

Installation

ofed

installieren mit folgenden USE-Flags: mlx5 perftest diags

kernel

folgendes muss in den Kernel (als Module)

  • InfiniBand userspace MAD support
  • InfiniBand userspace access (verbs and CM)
  • Mellanox ConnectX HCA support

Module

diese Module muessen beim start geladen werden:

  • mlx5_ib
  • ib_uverbs
  • ib_ipoib

Feste IP-Adressen

Es ist hilfreich feste ip Adressen zu vergeben Dazu im Ordner /etc/init.d einen symbolischen Link anlegen der auf net.lo zeigt
ln -s net.lo net.ib0
und in /etc/conf.d/net die ip eintragen z.B.config_ib0="192.168.13.3/24"

Testen kann man es mit:
/etc/init.d/net.ib0 start
Um es immer beim booten einzurichten muss man es zum default runlevel hinzufügen rc-update add net.ib0 default

nodeDescription

der name der nodes in z.B. ibnetdiscover wird in der Datei
/sys/class/infiniband/mlx5_0/node_desc
dieser wird z.B. mit diesem Befehl gesetzt
echo -n `hostname` HCA-1> /sys/class/infiniband/mlx5_0/node_desc

Probleme

Wir hatten das hier beschrieben Problem

Um das zu fixen, muss die datei /sys/module/ib_mthca/parameters/num_mtt geändert werden (also im module ib_mthca und nicht mlx5)

Das geht z.B. mit
chmod +w num_mutt
echo 4194304 > num_mtt
Um es dauerhaft im System zu haben, also auch nach dem Reboot gibt es die datei /etc/modprobe.d/openib.conf

Dort muss folgendes eingetragen werden
options ib_mthca num_mtt=4194304