算盘GPU主机安装(CentOS7) - xuelang-group/suanpan-docs GitHub Wiki

算盘GPU主机安装(CentOS7)

准备工作

从国内镜像下载CentOS-7-x86_64-DVD-1810.iso，约4.27GB。
下载Universal USB Installer，用于制作USB安装盘，约1.7MB。打开连接单击如下按键下载。

准备一个至少8GB空间的U盘。建议使用USB3.0接口的U盘，读写速度更快。
GPU主机、显示器和硬盘，主机硬盘建议配置256GB以上空间的SSD固态硬盘。GPU指的是英伟达公司出品的支持CUDA加速的显卡，比如GTX，RTX，Tesla等系列的显卡。

制作启动U盘

启动下载的Universal-USB-Installer可执行文件，

选择CentOS Installer，单击Browse，选择您下载的iso文件，然后选择您的U盘，勾选Fat32 Format，单击Create。

下个界面单击 “是”。

等待完成，大约10分钟左右，然后弹出U盘。

安装CentOS

将制作的启动U盘插入GPU主机一个USB接口，如果是USB3.0的U盘，建议插入USB3.0的接口，读写速度更快。

启动键启动主机，根据启动界面或主板说明书中说明的按键进入BIOS界面，比如F2按键。

进入后选择U盘启动，然后保存退出BIOS界面继续使用U盘启动。

选择GNOME Desktop,

设置时区

键盘Layout增加中文。

设置Host name

设置用户名和密码

语音增加中文支持。

安装Docker

要求安装docker版本>= 1.12

官方文档

建议通过SSH方式连接到GPU机器，方便指令的复制粘贴。如果你的机器上还没有安装SSH客户端，可以考虑下载Termius，用来组织、访问和连接到你的Linux机器。

运行如下几条指令安装docker，注意如果您的用户名不是“sz”，请对应的修改下面最后一条指令。

sudo yum install -y yum-utils \
device-mapper-persistent-data \
lvm2
sudo yum-config-manager \
--add-repo \
https://download.docker.com/linux/centos/docker-ce.repo
sudo yum install -y docker-ce docker-ce-cli containerd.io
sudo systemctl start docker
sudo usermod -aG docker sz

安装NVIDIA 驱动

驱动版本>=361.93，参考链接。

在此链接下载驱动安装包，比如：NVIDIA-Linux-x86_64-430.34.run

启动一个命令行，输入如下指令停止GUI界面，

service gdm stop

安装驱动

sudo bash ./NVIDIA-Linux-x86_64-430.34.run

安装安装Nvidia-docker 2.0

参考链接

配置库

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | \
sudo tee /etc/yum.repos.d/nvidia-docker.repo

更新存库密钥

DIST=$(sed -n 's/releasever=//p' /etc/yum.conf)
DIST=${DIST:-$(. /etc/os-release; echo $VERSION_ID)}
sudo rpm -e gpg-pubkey-f796ecb0
sudo gpg --homedir /var/lib/yum/repos/$(uname -m)/$DIST/nvidia-docker/gpgdir --delete-key f796ecb0
sudo yum makecache -y
sudo yum install -y nvidia-docker2
sudo pkill -SIGHUP dockerd

配置Docker默认Runtime为nvidia

sudo vi /etc/docker/daemon.json

{
  "default-runtime": "nvidia",
  "runtimes": {
    "nvidia": {
      "path": "nvidia-container-runtime",
      "runtimeArgs": []
    }
  }
}

重启docker服务

sudo service docker restart

测试运行一个GPU docker container。

docker run -it --rm -v /dev:/dev
registry.cn-shanghai.aliyuncs.com/shuzhi/horovod_docker_base:3.6 bash

在其中输入

nvcc --version

显示如下内容则代表安装配置成功。

nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2018 NVIDIA Corporation
Built on Sat_Aug_25_21:08:01_CDT_2018
Cuda compilation tools, release 10.0, V10.0.130

安装算盘个人版

将下载下来的算盘安装文件（spctl_v1.1.sh）放在一个指定的目录下，比如/root/suanpan。请保证磁盘至少有超过20g的剩余空间。

进入到算盘安装文件所在的目录。如：

cd /root/suanpan/

执行下面命令启动算盘：

sudo su -
cd /root/suanpan
chmod a+x spctl_v1.1.sh
./spctl_v1.1.sh start

等待安装启动完成，会看到最后输出

...
2019-07-16 15:16:00: initializing suanpan...63%
2019-07-16 15:16:00: initializing suanpan...100%
Suanpan IP is: 10.88.34.145
updating local suanpan FQDN splocal.xuelangyun.com in /etc/hosts file...
Now you can access suanpan from http://splocal.xuelangyun.com:30000
Deploying suanpan finished at: 2019-07-16 15:16:00

浏览器自动打开地址 http://splocal.xuelangyun.com:30000 访问算盘，您也可以通过ip地址方式在其他机器访问算盘，比如上列中打印出来的IP地址，http://10.88.34.145:30000。

如果使用完毕，需要停止算盘，执行下面命令停止算盘：

sudo su -./spctl_v1.1.sh stop

如果使用完毕，需要删除算盘，执行下面命令删除算盘关联的文件：

./spctl_v1.1.sh delete

在停止以后，删除整个安装目录即可。

下一步

运行算盘个人版深度学习模板

深度学习组件模板使用拖拽方式搭建深度学习模型。
算盘文档-目标识别训练一个能定位图片中的物体的模型。
深度学习自定义组件用法通过加载自定义的Python脚本，通过复用您现有的代码，完成更灵活的模型搭建和训练。