算盘GPU主机安装(CentOS7) - xuelang-group/suanpan-docs GitHub Wiki

算盘GPU主机安装(CentOS7)

准备工作

  • 从国内镜像下载CentOS-7-x86_64-DVD-1810.iso,约4.27GB。

  • 下载Universal USB Installer,用于制作USB安装盘,约1.7MB。打开连接单击如下按键下载。

  • 准备一个至少8GB空间的U盘。建议使用USB3.0接口的U盘,读写速度更快。

  • GPU主机、显示器和硬盘,主机硬盘建议配置256GB以上空间的SSD固态硬盘。GPU指的是英伟达公司出品的支持CUDA加速的显卡,比如GTX,RTX,Tesla等系列的显卡。

制作启动U盘

启动下载的Universal-USB-Installer可执行文件,

选择CentOS Installer,单击Browse,选择您下载的iso文件,然后选择您的U盘,勾选Fat32 Format,单击Create。

下个界面单击 “是”。

等待完成,大约10分钟左右,然后弹出U盘。

安装CentOS

将制作的启动U盘插入GPU主机一个USB接口,如果是USB3.0的U盘,建议插入USB3.0的接口,读写速度更快。

启动键启动主机,根据启动界面或主板说明书中说明的按键进入BIOS界面,比如F2按键。

进入后选择U盘启动,然后保存退出BIOS界面继续使用U盘启动。

选择GNOME Desktop,

设置时区

键盘Layout增加中文。

设置Host name

设置用户名和密码

语音增加中文支持。

安装Docker

要求安装docker版本>= 1.12

官方文档

建议通过SSH方式连接到GPU机器,方便指令的复制粘贴。如果你的机器上还没有安装SSH客户端,可以考虑下载Termius,用来组织、访问和连接到你的Linux机器。

运行如下几条指令安装docker,注意如果您的用户名不是“sz”,请对应的修改下面最后一条指令。

sudo yum install -y yum-utils \
device-mapper-persistent-data \
lvm2
sudo yum-config-manager \
--add-repo \
https://download.docker.com/linux/centos/docker-ce.repo
sudo yum install -y docker-ce docker-ce-cli containerd.io
sudo systemctl start docker
sudo usermod -aG docker sz

安装NVIDIA 驱动

驱动版本>=361.93,参考链接

此链接下载驱动安装包,比如:NVIDIA-Linux-x86_64-430.34.run

启动一个命令行,输入如下指令停止GUI界面,

service gdm stop

安装驱动

sudo bash ./NVIDIA-Linux-x86_64-430.34.run

安装安装Nvidia-docker 2.0

参考链接

配置库

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | \
sudo tee /etc/yum.repos.d/nvidia-docker.repo

更新存库密钥

DIST=$(sed -n 's/releasever=//p' /etc/yum.conf)
DIST=${DIST:-$(. /etc/os-release; echo $VERSION_ID)}
sudo rpm -e gpg-pubkey-f796ecb0
sudo gpg --homedir /var/lib/yum/repos/$(uname -m)/$DIST/nvidia-docker/gpgdir --delete-key f796ecb0
sudo yum makecache -y
sudo yum install -y nvidia-docker2
sudo pkill -SIGHUP dockerd

配置Docker默认Runtime为nvidia

sudo vi /etc/docker/daemon.json
{
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
}

重启docker服务

sudo service docker restart

测试运行一个GPU docker container。

docker run -it --rm -v /dev:/dev
registry.cn-shanghai.aliyuncs.com/shuzhi/horovod_docker_base:3.6 bash

在其中输入

nvcc --version

显示如下内容则代表安装配置成功。

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

安装算盘个人版

将下载下来的算盘安装文件(spctl_v1.1.sh)放在一个指定的目录下,比如/root/suanpan。 请保证磁盘至少有超过20g的剩余空间。

进入到算盘安装文件所在的目录。如:

cd /root/suanpan/

执行下面命令启动算盘:

sudo su -
cd /root/suanpan
chmod a+x spctl_v1.1.sh
./spctl_v1.1.sh start

等待安装启动完成,会看到最后输出

...
2019-07-16 15:16:00: initializing suanpan...63%
2019-07-16 15:16:00: initializing suanpan...100%
Suanpan IP is: 10.88.34.145
updating local suanpan FQDN splocal.xuelangyun.com in /etc/hosts file...
Now you can access suanpan from http://splocal.xuelangyun.com:30000
Deploying suanpan finished at: 2019-07-16 15:16:00

浏览器自动打开地址 http://splocal.xuelangyun.com:30000 访问算盘,您也可以通过ip地址方式在其他机器访问算盘,比如上列中打印出来的IP地址,http://10.88.34.145:30000。

如果使用完毕,需要停止算盘,执行下面命令停止算盘:

sudo su -./spctl_v1.1.sh stop

如果使用完毕,需要删除算盘,执行下面命令删除算盘关联的文件:

./spctl_v1.1.sh delete

在停止以后,删除整个安装目录即可。

下一步

运行算盘个人版深度学习模板