nvidia Jetson orin - dingdongdengdong/astra_ws GitHub Wiki

TensorRT Python API를 활용하는 것이 Jetson Orin에서 Python으로 AI 모델을 구동하면서도 효율성을 극대화하는 가장 핵심적인 방법 중 하나입니다.

이전 답변에서 강조했듯이, Python의 GIL이나 인터프리터 오버헤드 같은 본질적인 한계가 있더라도, AI 모델 추론의 실제 병목은 대개 컴퓨팅 집약적인 행렬 연산과 같은 부분에서 발생하며, 이 부분은 GPU에서 처리됩니다. TensorRT는 바로 이 GPU 상에서의 추론을 극도로 최적화해주는 NVIDIA의 라이브러리입니다.

TensorRT Python API 활용의 이점 최적화된 GPU 추론:

그래프 최적화: TensorRT는 신경망 그래프를 분석하여 불필요한 레이어를 제거하고, 레이어를 병합하며, 커널 융합(Kernel Fusion)과 같은 기법을 적용하여 GPU 연산을 최적화합니다.

정밀도 최적화: FP32(단정밀도 부동소수점) 외에 FP16(반정밀도) 또는 INT8(정수 8비트)과 같은 낮은 정밀도로 모델을 변환하여 메모리 대역폭을 줄이고 계산 속도를 높입니다. Jetson Orin과 같은 임베디드 디바이스에서는 낮은 정밀도 연산이 특히 중요합니다.

커널 자동 튜닝: 특정 GPU 하드웨어에 최적화된 커널(CUDA 코어에서 실행되는 코드)을 자동으로 선택하고 튜닝하여 최고의 성능을 끌어냅니다.

낮은 지연 시간과 높은 처리량: 이러한 최적화 덕분에 TensorRT는 훨씬 낮은 추론 지연 시간(latency)과 높은 처리량(throughput)을 제공합니다. 이는 실시간 반응이 필수적인 자율주행 애플리케이션에서 매우 중요합니다.

Python 환경에서의 성능 이점: Python으로 개발하는 편의성은 유지하면서, 딥러닝 프레임워크(PyTorch, TensorFlow)만 사용할 때보다 훨씬 향상된 추론 성능을 얻을 수 있습니다. Python 코드가 TensorRT 엔진을 로드하고 실행하는 오버헤드는 GPU 추론 시간 자체에 비해 미미합니다.

Jetson Orin에 최적화: TensorRT는 NVIDIA 하드웨어에 특화되어 있으며, Jetson Orin의 Tensor Cores와 같은 AI 가속기 하드웨어를 최대한 활용하도록 설계되었습니다.

TensorRT Python API를 사용하는 일반적인 흐름 모델 학습 및 저장: PyTorch, TensorFlow 등으로 AI 모델을 학습시키고 torch.save(), model.save() 등으로 모델을 저장합니다.

ONNX로 변환: 학습된 모델을 ONNX(Open Neural Network Exchange) 형식으로 변환합니다. ONNX는 다양한 딥러닝 프레임워크 간의 모델 호환성을 위한 표준입니다.

PyTorch: torch.onnx.export()

TensorFlow: tf.saved_model.save() 후 tf2onnx 라이브러리로 변환

TensorRT 엔진 빌드 (Python API):

Python에서 tensorrt 라이브러리 (NVIDIA에서 제공)를 임포트합니다.

ONNX 파일을 로드하고 tensorrt.Builder, tensorrt.Network, tensorrt.BuilderConfig 등을 사용하여 TensorRT 엔진을 빌드합니다. 이 과정에서 최적화 레벨 (FP16, INT8), 최대 배치 크기 등을 설정할 수 있습니다.

빌드된 TensorRT 엔진은 .trt 또는 .plan 파일로 저장될 수 있습니다. 이 엔진은 특정 GPU에 종속되므로, Jetson Orin에서 빌드하고 Jetson Orin에서 사용해야 합니다.

TensorRT 엔진 로드 및 추론:

ROS2 Python 노드 내에서 미리 빌드된 .trt (또는 .plan) 파일을 로드합니다.

D435i에서 들어오는 센서 데이터(예: 이미지)를 모델의 입력 형식에 맞게 NumPy 배열로 전처리합니다.

전처리된 데이터를 TensorRT 엔진에 입력으로 제공하고 추론을 수행합니다.

추론 결과(NumPy 배열)를 후처리하여 ROS2 메시지 형식으로 변환하고 발행합니다.