安装计算节点 - lyulyul/shine-cluster GitHub Wiki

请先安装公共配置

安装软件

sudo apt install -y htop git zsh

# 安装GPU驱动
sudo apt install -y ubuntu-drivers-common
sudo ubuntu-drivers autoinstall
sudo reboot

# 监视GPU温度几分钟
watch nvidia-smi

# 如果GPU温度超过40C,开始persistent mode,再监视几分钟
sudo nvidia-smi -pm 1
watch nvidia-smi

测试GPU(tensorflow)

source /opt/anaconda3/bin/activate
conda create --yes -n tf
conda activate tf
conda install --yes -c anaconda 'tensorflow-gpu>=2.3'

cd ~/shine-cluster/slurm-examples
./tf

如果安装了2.2版本的tensorflow-gpu, 也可以测试以下脚本:

import tensorflow as tf
print(tf.__version__)
print(tf.config.list_physical_devices("GPU"))
print(tf.test.is_gpu_available())