PyTorch - lncc-sered/manual-sdumont2nd GitHub Wiki
Os testes abaixo utilizam como exemplo o PyTorch Benchmarks. Para isso, é necessário realizar o download do pacote:
wget https://github.com/pytorch/benchmark/archive/refs/heads/main.zip
unzip main.zip
cd benchmark-main
EM CONSTRUÇÃO
Referência: https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch
Lista das verões (tags): https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch/tags
Versão do exemplo: 25.05
Exemplo utilizando 1 nó e 1 GPUs por nó.
Há algumas imagens dos container do catálogo da NVidia (e compatíveis com o SDumont2nd) já presentes dentro do sistema de armazenamento.
Para consultar:
module load arch_gpu #para H100
#ou
module load arch_gpu_sc #para GH200
module avail pytorch
Os módulos disponíveis, conforme exemplos abaixo, configuram a variável de ambiente $PT_IMAGE com o caminho correto da imagem, visando facilitar a utilização do script.
Script sub_pt_container_h100.srm
#!/bin/bash
#SBATCH --nodes=1 #Numero de Nos
#SBATCH -p lncc-h100_dev #Fila (partition) a ser utilizada
#SBATCH -J pytorch #Nome job
#SBATCH --gpus-per-node=1 #Numero total de GPUS
#Exibe os nós alocados para o Job
echo $SLURM_JOB_NODELIST
nodeset -e $SLURM_JOB_NODELIST
cd $SLURM_SUBMIT_DIR
module load arch_gpu
module load pytorch/25.05-py3_nv_container
export SINGULARITY="singularity run --nv -B ${PWD}:/host_pwd --pwd /host_pwd $PT_IMAGE"
${SINGULARITY} python3 ./test.py
Script sub_pt_container_gh200.srm
#!/bin/bash
#SBATCH --nodes=1 #Numero de Nos
#SBATCH -p lncc-gh200_dev #Fila (partition) a ser utilizada
#SBATCH -J pytorch #Nome job
#SBATCH --gpus-per-node=1 #Numero total de GPUS
#Exibe os nós alocados para o Job
echo $SLURM_JOB_NODELIST
nodeset -e $SLURM_JOB_NODELIST
cd $SLURM_SUBMIT_DIR
module load arch_gpu_sc
module load pytorch/25.05-py3_nv_container
export SINGULARITY="singularity run --nv -B ${PWD}:/host_pwd --pwd /host_pwd $PT_IMAGE"
${SINGULARITY} python3 ./test.py
EM CONSTRUÇÃO