[AI] 모델 검토 및 비교 - 100-hours-a-week/21-iceT-wiki GitHub Wiki

DeepSeek‑Coder 7B vs Qwen 2.5‑Coder 7B vs EXAONE‑Deep 7.8B

항목 DeepSeek‑Coder 7B Instruct v1.5 Qwen 2.5‑Coder 7B Instruct EXAONE‑Deep 7.8B
출시 2023 Nov (DeepSeek) 2024 Dec (Alibaba) 2025 Mar (LG AI 연구원)
라이선스 MIT‑style + 상업 허용 Apache‑2.0 NC (비영리 전용)
파라미터 6.7 B 7.6 B 7.8 B
코드 특화 87 % 코드 전용 학습 전용 코드 GPT + 자연어 일반 + 수학 + 코드 혼합
맥스 컨텍스트 4 K 128 K 32 K
Human‑Eval (pass@1) 64.1 % 88.4 % 55 %
LiveCodeBench (pass@1) 63.9 % 55 %
FP16 VRAM (@24 GB GPU) 12 GB (13 GB peak) 14 GB 15–16 GB
4‑bit AWQ/GPTQ 3–5 GB VRAM 5–6 GB 6–7 GB
평균 추론 속도 80 tok/s (BF16) / 120 tok/s (AWQ) 45 tok/s (GPTQ‑4bit) 65 tok/s (BF16)
장점 • 최고 Human‑Eval• VRAM 여유 12 GB• 상업 사용 OK • 128 K 창 → 문제+코드 한꺼번에 투입 가능• 한글 Q&A 강점 • 한국어 reasoning 최강• 수학·알고리즘 해설 우수
단점 – 긴 입력(>16 K) 한계 – 약간 높은 VRAM 요구 상업 이용 불가– Human‑Eval 열세

모델별 핵심 요약

1. DeepSeek‑Coder 7B Instruct

  • 2 T 토큰 중 87 % 코드로 학습, Human‑Eval 상위권
  • FP16 추론 ≈ 12 GB, 4‑bit AWQ 시 3 GB 이하
  • 16 K 컨텍스트 + 빠른 토큰 속도 → 24 GB GPU 싱글 카드 서비스에 최적
  • MIT‑style 라이선스 + 상업 허용

2. Qwen 2.5‑Coder 7B Instruct

  • 128 K 맥스 컨텍스트 → 문제 지문·예시·코드를 한 번에 제공 가능
  • LiveCodeBench 63.9 % 수준, 한글 프롬프트 품질 양호
  • FP16 14 GB (Int4 ≈ 5.5 GB) — 24 GB 환경에서도 여유
  • Apache‑2.0 라이선스

3. EXAONE‑Deep 7.8 B

  • 한국어·수학·코드 혼합 학습, 알고리즘 해설 표현력 강점
  • FP16 15 GB, Int4 6 GB — 메모리는 허용 범위
  • 비영리‑전용 라이선스 → 공개 교육/연구용에 적합, 상업 서비스엔 부적합

목적에 따른 가이드

목적 추천 모델 이유
상업 MVP → 자체 호스팅 DeepSeek‑Coder 7B 성능·속도·VRAM 균형 우수, 라이선스 자유
긴 지문/코드 한 번에 처리 Qwen 2.5‑Coder 7B 128 K 맥스 컨텍스트

AWQ 4‑bit 로 양자화 후 vllm --quantization awq 를 쓰면,
24 GB RTX 4090 한 장에서도 100 tok/s 이상 응답 가능하며 메모리 < 6 GB.


선정 모델

Qwen 2.5‑Coder 7B Instruct

이유

  1. 128K Max Context 지원 → 긴 문제 + 코드 + 히스토리까지 투입 가능

    • 다른 7B 계열 모델들이 4K~16K 토큰에서 제한되는 반면, Qwen2.5는 128K까지 입력 가능하여
      실제 서비스에서 "문제 설명 + 예제 + 코드 + 유저 피드백 기록"을 한 번에 입력 가능하게 해줌
  2. 한글 프롬프트 품질 우수 → 국내 서비스에 적합

    • Human-Eval 기준으로도 상위권이며, 한글로 구성된 문제 설명과 해설 요청에도 자연스러운 반응을 보이며
      한국어 기반 AI 서비스에서의 실사용성이 뛰어남
  3. 모델 정확도 & 실험 결과 모두 우수

    • 자체 테스트 결과, 실버~골드 난이도 문제에서 다양한 언어(C++, Java, Python)에 대해 높은 정답률을 기록하였고
      문법 오류나 설명 오류 없이 논리적인 해설과 정답 코드를 출력하는 안정성을 보여줌
  4. Apache-2.0 라이선스 → 상업 서비스에 적법 사용 가능

    • DeepSeek도 좋은 후보이지만, Qwen2.5는 긴 context + 상업 활용 가능성 + 한국어 대응력의 균형이 뛰어나며
      서비스 확장 및 모델 교체 없이 MVP에서 바로 운영 가능한 이점이 있음

모델 테스트 결과

Colab

5가지 알고리즘 유형에 대하여 해설 생성 후 오류 발생 확인 난이도는 실버5 ~ 골드2, 프로그래밍 언어는 C++, JAVA, Python으로 테스트를 진행함

  1. 구현

    타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부
    백준 11650 좌표 정렬하기 실5 파이썬 7초 x
    백준 1543 문서 검색 실4 C++ 12초 x ❌✅
    백준 7568 덩치 실버 3 Java 9초 x
    백준 2231 분해합 골드5 파이썬 6초 x ❌❌✅
  2. 완전탐색/백트래킹

    타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부
    백준 1018 체스판 다시 칠하기 실버 5 파이썬 11초 x ❌❌✅
    백준 15649 N과 M (1) 실버 4 C++ 10초 x ❌❌❌✅
    백준 9663 N-Queen 실버 3 java 12초 x
    백준 2239 스도쿠 골드 5 파이썬 12초 x
  3. 그리디

    타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부
    백준 11047 동전 0 실버 5 파이썬 9초 x
    백준 1026 보물 실버 4 C++ 9초 x
    백준 11399 ATM 실버 3 java 12초 x
    백준 1744 수 묶기 골드 5 파이썬 12초 x
  4. 동적 계획법(DP)

    타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부
    백준 1463 동전 0 실버 3 파이썬 10초 x
    백준 2579 계단 오르기 실버 2 C++ 10초 x
    백준 1932 정수 삼각형 실버 1 java 9초 x
    백준 12865 평범한 배낭 골드 5 파이썬 8초` x
  5. 그래프 탐색(BFS/DFS)

    타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부
    백준 11724 연결 요소의 개수 실버 2 파이썬 9초 x
    백준 2667 단지번호붙이기 실버 1 C++ 13초 x
    백준 1697 숨바꼭질 골드 5 java 12초 x
    백준 14502 연구소 골드 4 파이썬 12초 x

추론 최적화 아이디어

병목 최적화 기법 기대 효과
GPU VRAM 압박 4‑bit AWQ/GPTQ 양자화 VRAM ↓ 60 %, 속도 ↑ 10–20 %
토큰 프리필 지연 vLLM + Flash‑Attention‑2 배치 처리로 QPS ↑ 2–3×
반복 프롬프트 전송 Prompt 캐싱 / KV 캐싱 동일 문제 재질문 시 latency ↓ 80 %
정적 메타데이터 문제 정보 RAG 캐시 IO 지연 제거, 컨텍스트 토큰 절감