이미지 처리 모델 성능 테스트(CLIP, RAM) - 100-hours-a-week/5-yeosa-wiki GitHub Wiki

테스트 설계

아래 항목들을 시나리오별로 측정하여 비교:

총 12개 조합 테스트 진행:

(2 모델) × (2 디바이스) × (3 배치 크기)

→ 예: clip_cpu_100_single, ram_gpu_100_batch_32 등
모든 테스트는 같은 100장 이미지에 대해 수행됨

모델	디바이스	배치	총 처리 시간 (s)	평균 시간/장 (s)	GPU 메모리 (MB)	CPU 사용률 (%)
CLIP	CPU	1	8.49	0.085	0	400.48 ✅
	CPU	16	4.28	0.043	0	399.87 ✅
	CPU	32	3.53 ✅	0.035 ✅	0	399.57 ✅
	GPU (T4)	1	1.96	0.020	357.4	385.85
	GPU	16	1.01	0.010	385.8	383.26
	GPU	32	1.00	0.010	416.7	375.37
RAM++	CPU	1	166.12	1.661	0	392.64 ❗
	CPU	16	176.74	1.767	0	384.94 ❗
	CPU	32	186.91	1.869	0	378.68 ❗
	GPU (T4)	1	13.50	0.135	1902.2	146.18
	GPU	16	12.43	0.124	4335.3	133.17
	GPU	32	12.69	0.127	6931.3 ❗	132.09

토탈1

기준	요점
CLIP	- GPU (Batch 32): 1.00초 ⏱️ (가장 빠름)- CPU (Batch 32): 3.53초, RAM++ 대비 약 53배 빠름
RAM++	- GPU (Batch 32): 12.69초, CLIP보다 약 13배 느림- CPU (Batch 32): 186.91초, 절대적으로 느림

⏱️ CLIP은 CPU와 GPU 모두에서 RAM++보다 빠르며, 특히 GPU 환경에서는 극적인 속도 차이를 보임

토탈2

기준	요점
CLIP	- GPU (Batch 32): 0.010초 ✅- CPU (Batch 32): 0.035초, 여전히 빠름
RAM++	- GPU (Batch 32): 0.127초, CLIP보다 12배 느림- CPU (Batch 32): 1.869초, 53배 느림

📷 CLIP은 실시간 서비스에도 적합한 처리 속도를 제공, 반면 RAM++는 GPU 사용 시에도 부담 존재

토탈3

기준	요점
CLIP	- GPU (Batch 32): 416 MB- 전체적으로 매우 가볍고 효율적
RAM++	- GPU (Batch 32): 6,931 MB ❗- Swin-L 백본 구조로 인해 CLIP 대비 약 17배 높음

💾 CLIP은 저사양 GPU 환경에서도 가능, 반면 RAM++는 A100 이상급 고사양 GPU 요구

토탉4

기준	요점
CLIP	- 대부분 환경에서 375~400%, 즉 4코어 풀로드- 짧은 시간 내 고효율 부하
RAM++	- CPU 환경: 평균 380~392%, 처리 시간 길어 지속적인 부하 발생- GPU 환경: 평균 132%, 멀티코어 활용 낮음

🧠 CLIP은 병렬화와 효율적 실행이 뛰어나고, RAM++는 긴 처리 시간으로 CPU 장시간 점유

CLIP은 CPU 기반 서버에서도 충분히 빠른 응답 시간으로 서비스 가능

→ GPU 없이도 태깅 서비스 운영 가능, 저비용 환경에 최적
RAM++는 정확도는 우수하나, 실시간 태깅에는 GPU 필수

→ 오프라인 대량 분석 또는 강력한 GPU 환경에서 적합