PyTorch - lncc-sered/manual-sdumont2nd GitHub Wiki

Table of Contents

PyTorch

Os testes abaixo utilizam como exemplo o PyTorch Benchmarks. Para isso, é necessário realizar o download do pacote:

wget https://github.com/pytorch/benchmark/archive/refs/heads/main.zip
unzip main.zip
cd benchmark-main

Exemplo com PyTorch via Conda

EM CONSTRUÇÃO

Exemplo com TensorFlow container Nvidia

Referência: https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch

Lista das verões (tags): https://catalog.ngc.nvidia.com/orgs/nvidia/containers/pytorch/tags

Versão do exemplo: 25.05

Exemplo utilizando 1 nó e 1 GPUs por nó.

Há algumas imagens dos container do catálogo da NVidia (e compatíveis com o SDumont2nd) já presentes dentro do sistema de armazenamento.

Para consultar:

module load arch_gpu #para H100
#ou
module load arch_gpu_sc #para GH200

module avail pytorch

Os módulos disponíveis, conforme exemplos abaixo, configuram a variável de ambiente $PT_IMAGE com o caminho correto da imagem, visando facilitar a utilização do script.

Arquitetura H100

Script sub_pt_container_h100.srm

#!/bin/bash
#SBATCH --nodes=1            #Numero de Nos
#SBATCH -p lncc-h100_dev     #Fila (partition) a ser utilizada
#SBATCH -J pytorch           #Nome job
#SBATCH --gpus-per-node=1    #Numero total de GPUS

#Exibe os nós alocados para o Job
echo $SLURM_JOB_NODELIST
nodeset -e $SLURM_JOB_NODELIST

cd $SLURM_SUBMIT_DIR

module load arch_gpu
module load pytorch/25.05-py3_nv_container

export SINGULARITY="singularity run --nv -B ${PWD}:/host_pwd --pwd /host_pwd $PT_IMAGE"
${SINGULARITY} python3 ./test.py

Arquitetura GH200

Script sub_pt_container_gh200.srm

#!/bin/bash
#SBATCH --nodes=1            #Numero de Nos
#SBATCH -p lncc-gh200_dev     #Fila (partition) a ser utilizada
#SBATCH -J pytorch           #Nome job
#SBATCH --gpus-per-node=1    #Numero total de GPUS

#Exibe os nós alocados para o Job
echo $SLURM_JOB_NODELIST
nodeset -e $SLURM_JOB_NODELIST

cd $SLURM_SUBMIT_DIR

module load arch_gpu_sc
module load pytorch/25.05-py3_nv_container

export SINGULARITY="singularity run --nv -B ${PWD}:/host_pwd --pwd /host_pwd $PT_IMAGE"
${SINGULARITY} python3 ./test.py

Editando a imagem do container

EM CONSTRUÇÃO

Início


⚠️ **GitHub.com Fallback** ⚠️