用户指南 - lyulyul/shine-cluster GitHub Wiki
Pytorch 教程推荐
DvA DL笔记 这是一个篇幅不大,却十分有用的教程。其中提供了文字、视频说明以及相应的jupyter脚本,推荐刚接触Pytorch框架的同学学习。如果你有更好的建议也欢迎分享给大家。
Linux相关常用命令
查询命令指南都用man。例如你不懂ls的用法,就输入man ls
,man表示manual。如果想在网上看,在Google输入man ls不是最好的方法,因为ls的不同版本在不同操作系统(Ubuntu 20.04, Ubuntu 18.04, CentOS等)可能有细微差别。在Ubuntu manuals查看是坠吼的。
如图,Ubuntu 20.04下有多个ls,一般看第一个。专家才可能要看第二第三个(posix和plan9)。
命令查询(中文):https://www.linuxcool.com/
- 显示pci总线设备(显卡)信息
lspci | grep -i nvidia
- NVIDIA显卡信息管理接口 nvidia-smi
nvidia-smi # 该命令查看显卡使用情况
- IP相关
# 查看IP信息
ip addr show
ip a
hostname -I
# 查看公网IP
curl ifconfig.me
SSH工具
- putty https://www.putty.org/
- FinalShell https://www.hostbuf.com/ (推荐,功能较丰富,但打开较慢)
- Windows Terminal https://github.com/microsoft/terminal (推荐,与文件共享工具RaiDrive https://www.raidrive.com/ 一起使用)
文件服务(上传下载)
虚拟机/沙盒(暂时不考虑)
- docker ce
- nvidia-docker2 (在docker中使用显卡的插件)
深度学习环境配置
source /opt/anaconda3/bin/activate
conda list
conda env list or conda info -e
conda create -n your_env_name(虚拟环境名称) python=X.X(如3.7)
source activate your_env_name
conda install -n your_env_name [package]
conda remove -n your_env_name --all
conda remove --name your_env_name package_name
conda update --all
conda search [package]
如果有需要,可以通过添加channels的方式,添加其他的源 如果不能成功,请参考#66,即对于tatooine节点,手动删除用户目录下的.condarc文件
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
- 深度学习框架安装
# 需要注意 python, torch/torchvision, tensorflow, cuda 等版本依赖以及兼容关系, 最好参考官方说明
conda install pytorch torchvision tensorflow-gpu cudatoolkit -c pytorch
远程编码配置
- VSCode https://code.visualstudio.com/docs/remote/ssh
- PyCharm https://www.jetbrains.com/help/pycharm/creating-a-remote-server-configuration.html#config
网速测试
wget -O /dev/null https://releases.ubuntu.com/20.04.2/ubuntu-20.04.2-live-server-amd6
4.iso