Infiniband - kraut-computing/siegfried GitHub Wiki
Installation
ofed
installieren mit folgenden USE-Flags: mlx5 perftest diags
kernel
folgendes muss in den Kernel (als Module)
- InfiniBand userspace MAD support
- InfiniBand userspace access (verbs and CM)
- Mellanox ConnectX HCA support
Module
diese Module muessen beim start geladen werden:
- mlx5_ib
- ib_uverbs
- ib_ipoib
Feste IP-Adressen
Es ist hilfreich feste ip Adressen zu vergeben Dazu im Ordner
/etc/init.d
einen symbolischen Link anlegen der auf net.lo
zeigt
ln -s net.lo net.ib0
und in /etc/conf.d/net
die ip eintragen z.B.config_ib0="192.168.13.3/24"
Testen kann man es mit:
/etc/init.d/net.ib0 start
Um es immer beim booten einzurichten muss man es zum default runlevel hinzufügen
rc-update add net.ib0 default
nodeDescription
der name der nodes in z.B. ibnetdiscover wird in der Datei
/sys/class/infiniband/mlx5_0/node_desc
dieser wird z.B. mit diesem Befehl gesetzt
echo -n `hostname` HCA-1> /sys/class/infiniband/mlx5_0/node_desc
Probleme
Wir hatten das hier beschrieben Problem
Um das zu fixen, muss die datei /sys/module/ib_mthca/parameters/num_mtt geändert werden (also im module ib_mthca und nicht mlx5)
Das geht z.B. mit
chmod +w num_mutt
echo 4194304 > num_mtt
Um es dauerhaft im System zu haben, also auch nach dem Reboot gibt es
die datei /etc/modprobe.d/openib.conf
Dort muss folgendes eingetragen werden
options ib_mthca num_mtt=4194304