성능 병목 요소 식별 - 100-hours-a-week/20-real-wiki GitHub Wiki
🚧 현재 확인된 병목 요소
서비스에 Qwen 기반 LLM을 도입하면서, 실제 실험 과정에서 몇 가지 병목 요소가 드러났습니다.
이에 대한 원인과 해결 방안을 정리하고, 기대되는 효과까지 함께 정리해보았습니다.
1️⃣ 긴 문장 입력 시 중국어로 출력되는 현상
- 설명:
- 긴 문장을 입력하면, 중국어로 출력이 되는 현상이 발생합니다.
- 그러나 질문은 정확히 이해하고, 내용도 적절하게 응답하고 있어
→ 실제 문제는 출력 포맷의 오류로 판단됩니다.
2️⃣ 모델이 무겁게 느껴지는 경우가 있음
- 설명:
Qwen2.5-7B-Instruct
는 14B보다는 가볍지만,
여전히 VRAM 10GB 이상이 필요한 중형 모델입니다.- 클라우드 환경에서는 사용 가능은 하지만,
→ 리소스 부담이 완전히 가볍지는 않다고 판단됩니다.
3️⃣ CPU 환경에서 응답 속도 느림
- 설명:
- 본래
Qwen2.5-7B-Instruct
는 CPU 기반 추론도 가능한 모델 구조지만, - 실제 테스트 결과, CPU에서는 수 분 이상의 지연이 발생하여
→ 실용적인 사용이 어려운 상황입니다. - 따라서 현재는 GPU 환경에서 실행 예정입니다.
- 본래
위와 같은 병목 요소를 해결하기 위한 방법 👉성능 최적화