LLM 성능 테스트 - 100-hours-a-week/20-real-wiki GitHub Wiki

💡 1. GPU 추론 시간 비교 (단위: 초)

image

번호 질문 요약 KULLM3 Qwen2.5-14B Qwen2.5-7B
1 한국말 할 줄 알아? 4.19 12.61 0.72
2 누구냐 너 2.38 2.94 1.52
3 '고구마'로 삼행시 지어줘 3.90 2.35 3.24
4 끝말잇기 하자. 내가 먼저 할게: 칼슘 7.72 5.52 1.53
5 치킨 100마리 튀기는 철수 vs 60마리 튀기는 민수, 누가 더 잘해? 8.80 13.15 11.16
6 프로그램 소개글을 공식적인 어조로 바꿔줘 20.16 12.61 4.04

💡 2. GPU 메모리 사용량 비교 (단위: GB)

image

번호 질문 요약 KULLM3 Qwen2.5-14B Qwen2.5-7B
1 한국말 할 줄 알아? 20.00 GB 27.53 GB 14.19 GB
2 누구냐 너 20.00 GB 27.54 GB 14.19 GB
3 '고구마'로 삼행시 지어줘 20.00 GB 27.53 GB 14.19 GB
4 끝말잇기 하자. 내가 먼저 할게: 칼슘 20.00 GB 27.55 GB 14.19 GB
5 치킨 100마리 튀기는 철수 vs 60마리 튀기는 민수 20.18 GB 27.57 GB 14.19 GB
6 프로그램 소개글을 공식적인 어조로 바꿔줘 20.18 GB 27.58 GB 14.19 GB

💡 3. KULLM3 vs Qwen 응답 비교

질문 6: 철수가 하루에 치킨 100마리를 튀기고, 민수가 60마리를 튀긴다면 누가 더 일을 잘하는가?

🟦 KULLM3의 응답

철수가 하루에 치킨 100마리를 튀기고 민수가 하루에 치킨 60마리를 튀긴다면, 철수가 더 많은 양의 치킨을 튀겨서 더 많은 일을 잘하고 있다고 볼 수 있습니다. 따라서 철수가 더 일을 잘한다고 할 수 있습니다.

🟩 Qwen2.5-14B-Instruct의 응답

철수와 민수가 각각 하루에 튀기는 치킨의 수만으로 일을 잘하는지 판단하기는 어렵습니다. 일을 잘하는지 평가하기 위해서는 다음 요소들을 고려해야 합니다:

  1. 품질: 치킨의 맛과 질
  2. 효율성: 자원 및 시간 사용
  3. 생산성: 작업량과 추가 책임
  4. 안전성: 작업 중 안전 여부

단순한 수치로 판단할 수 없으며, 다양한 요소를 종합적으로 고려해야 한다는 결론.

🟨 Qwen2.5-7B-Instruct (GPU)의 응답

철수와 민수가 모두 뛰어난 튀김 기술을 가졌다고 가정하면, 누가 더 효과적인지는 다음과 같은 요소에 따라 달라집니다:

  1. 생산성: 철수가 더 많이 튀김. 그러나 기계나 공간 제약 고려 필요
  2. 질과 서비스: 민수는 품질 및 고객 만족에 더 적합할 수 있음
  3. 경험과 능력: 숫자뿐 아니라 기술과 경험의 조합이 중요
  4. 효율성: 자원 사용 측면에서 철수의 대량 생산이 장점이지만, 손실 가능성도 있음

결론적으로, 다양한 요소를 고려해야 하며, 단순 수치로는 판단 불가

🧠 인사이트 요약

  • KULLM3: 빠르지만 단편적인 판단, 정량 비교에는 강함, 맥락 해석은 한계
  • Qwen2.5-14B-Instruct: 고성능이지만 무거움, 가장 논리적인 응답 제공
  • Qwen2.5-7B-Instruct: 응답 품질과 속도, 자원 효율성의 균형이 가장 뛰어남. 실사용에 적합한 모델로 판단됨

✅ 최종 선정 모델: Qwen2.5-7B-Instruct

저희는 여러 LLM 후보 모델(KULLM3, Qwen2.5-14B, Qwen2.5-7B)을 비교 실험한 끝에, 최종적으로 Qwen2.5-7B-Instruct를 선택하게 되었습니다.

이 모델은 가벼운 사이즈와 빠른 응답 속도, 그리고 우수한 한국어 대응 능력을 고루 갖춘 모델로, 실사용 환경에 가장 적합하다고 판단되었습니다.

✅ 선정 이유

  1. 빠른 응답 속도 (GPU 기준)

    • 동일 환경에서 실험한 결과, 세 모델 중 가장 빠른 응답 속도를 보였습니다.
    • 실시간 응답이 중요한 AI 어시스턴트 서비스에 매우 적합합니다.
  2. 가벼운 구조 + 우수한 품질

    • 7B 크기의 경량 모델이지만, 복합적인 질문에 대한 이해력과 응답 완성도 모두 우수했습니다.
    • 특히 Qwen2.5-14B와 유사한 수준의 문장 완성도를 보이며, 서비스 품질을 충분히 만족시킬 수 있었습니다.
  3. 운영 환경에 적합한 조건 충족

    • GPU 메모리 약 8~9GB 수준으로 클라우드 운영 비용 측면에서도 부담이 적음
    • 한국어 포함 멀티링구얼 지원, LoRA 기반 커스터마이징 가능, 128K 컨텍스트 길이 지원
      실 서비스 적용을 위한 조건을 모두 충족했습니다.