[AI] 모델 검토 및 비교 - 100-hours-a-week/21-iceT-wiki GitHub Wiki
DeepSeek‑Coder 7B vs Qwen 2.5‑Coder 7B vs EXAONE‑Deep 7.8B
항목 | DeepSeek‑Coder 7B Instruct v1.5 | Qwen 2.5‑Coder 7B Instruct | EXAONE‑Deep 7.8B |
---|---|---|---|
출시 | 2023 Nov (DeepSeek) | 2024 Dec (Alibaba) | 2025 Mar (LG AI 연구원) |
라이선스 | MIT‑style + 상업 허용 | Apache‑2.0 | NC (비영리 전용) |
파라미터 | 6.7 B | 7.6 B | 7.8 B |
코드 특화 | 87 % 코드 전용 학습 | 전용 코드 GPT + 자연어 | 일반 + 수학 + 코드 혼합 |
맥스 컨텍스트 | 4 K | 128 K | 32 K |
Human‑Eval (pass@1) | 64.1 % | 88.4 % | 55 % |
LiveCodeBench (pass@1) | – | 63.9 % | 55 % |
FP16 VRAM (@24 GB GPU) | 12 GB (13 GB peak) | 14 GB | 15–16 GB |
4‑bit AWQ/GPTQ | 3–5 GB VRAM | 5–6 GB | 6–7 GB |
평균 추론 속도 | 80 tok/s (BF16) / 120 tok/s (AWQ) | 45 tok/s (GPTQ‑4bit) | 65 tok/s (BF16) |
장점 | • 최고 Human‑Eval• VRAM 여유 12 GB• 상업 사용 OK | • 128 K 창 → 문제+코드 한꺼번에 투입 가능• 한글 Q&A 강점 | • 한국어 reasoning 최강• 수학·알고리즘 해설 우수 |
단점 | – 긴 입력(>16 K) 한계 | – 약간 높은 VRAM 요구 | – 상업 이용 불가– Human‑Eval 열세 |
모델별 핵심 요약
1. DeepSeek‑Coder 7B Instruct
- 2 T 토큰 중 87 % 코드로 학습, Human‑Eval 상위권
- FP16 추론 ≈ 12 GB, 4‑bit AWQ 시 3 GB 이하
- 16 K 컨텍스트 + 빠른 토큰 속도 → 24 GB GPU 싱글 카드 서비스에 최적
- MIT‑style 라이선스 + 상업 허용
2. Qwen 2.5‑Coder 7B Instruct
- 128 K 맥스 컨텍스트 → 문제 지문·예시·코드를 한 번에 제공 가능
- LiveCodeBench 63.9 % 수준, 한글 프롬프트 품질 양호
- FP16 14 GB (Int4 ≈ 5.5 GB) — 24 GB 환경에서도 여유
- Apache‑2.0 라이선스
3. EXAONE‑Deep 7.8 B
- 한국어·수학·코드 혼합 학습, 알고리즘 해설 표현력 강점
- FP16 15 GB, Int4 6 GB — 메모리는 허용 범위
- 비영리‑전용 라이선스 → 공개 교육/연구용에 적합, 상업 서비스엔 부적합
목적에 따른 가이드
목적 | 추천 모델 | 이유 |
---|---|---|
상업 MVP → 자체 호스팅 | DeepSeek‑Coder 7B | 성능·속도·VRAM 균형 우수, 라이선스 자유 |
긴 지문/코드 한 번에 처리 | Qwen 2.5‑Coder 7B | 128 K 맥스 컨텍스트 |
AWQ 4‑bit 로 양자화 후
vllm --quantization awq
를 쓰면,
24 GB RTX 4090 한 장에서도 100 tok/s 이상 응답 가능하며 메모리 < 6 GB.
선정 모델
Qwen 2.5‑Coder 7B Instruct
이유
-
128K Max Context 지원 → 긴 문제 + 코드 + 히스토리까지 투입 가능
- 다른 7B 계열 모델들이 4K~16K 토큰에서 제한되는 반면, Qwen2.5는 128K까지 입력 가능하여
실제 서비스에서 "문제 설명 + 예제 + 코드 + 유저 피드백 기록"을 한 번에 입력 가능하게 해줌
- 다른 7B 계열 모델들이 4K~16K 토큰에서 제한되는 반면, Qwen2.5는 128K까지 입력 가능하여
-
한글 프롬프트 품질 우수 → 국내 서비스에 적합
- Human-Eval 기준으로도 상위권이며, 한글로 구성된 문제 설명과 해설 요청에도 자연스러운 반응을 보이며
한국어 기반 AI 서비스에서의 실사용성이 뛰어남
- Human-Eval 기준으로도 상위권이며, 한글로 구성된 문제 설명과 해설 요청에도 자연스러운 반응을 보이며
-
모델 정확도 & 실험 결과 모두 우수
- 자체 테스트 결과, 실버~골드 난이도 문제에서 다양한 언어(C++, Java, Python)에 대해 높은 정답률을 기록하였고
문법 오류나 설명 오류 없이 논리적인 해설과 정답 코드를 출력하는 안정성을 보여줌
- 자체 테스트 결과, 실버~골드 난이도 문제에서 다양한 언어(C++, Java, Python)에 대해 높은 정답률을 기록하였고
-
Apache-2.0 라이선스 → 상업 서비스에 적법 사용 가능
- DeepSeek도 좋은 후보이지만, Qwen2.5는 긴 context + 상업 활용 가능성 + 한국어 대응력의 균형이 뛰어나며
서비스 확장 및 모델 교체 없이 MVP에서 바로 운영 가능한 이점이 있음
- DeepSeek도 좋은 후보이지만, Qwen2.5는 긴 context + 상업 활용 가능성 + 한국어 대응력의 균형이 뛰어나며
모델 테스트 결과
5가지 알고리즘 유형에 대하여 해설 생성 후 오류 발생 확인 난이도는 실버5 ~ 골드2, 프로그래밍 언어는 C++, JAVA, Python으로 테스트를 진행함
-
구현
타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부 백준 11650 좌표 정렬하기 실5 파이썬 7초 x ✅ 백준 1543 문서 검색 실4 C++ 12초 x ❌✅ 백준 7568 덩치 실버 3 Java 9초 x ✅ 백준 2231 분해합 골드5 파이썬 6초 x ❌❌✅ -
완전탐색/백트래킹
타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부 백준 1018 체스판 다시 칠하기 실버 5 파이썬 11초 x ❌❌✅ 백준 15649 N과 M (1) 실버 4 C++ 10초 x ❌❌❌✅ 백준 9663 N-Queen 실버 3 java 12초 x ✅ 백준 2239 스도쿠 골드 5 파이썬 12초 x ✅ -
그리디
타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부 백준 11047 동전 0 실버 5 파이썬 9초 x ✅ 백준 1026 보물 실버 4 C++ 9초 x ✅ 백준 11399 ATM 실버 3 java 12초 x ✅ 백준 1744 수 묶기 골드 5 파이썬 12초 x ❌ -
동적 계획법(DP)
타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부 백준 1463 동전 0 실버 3 파이썬 10초 x ✅ 백준 2579 계단 오르기 실버 2 C++ 10초 x ✅ 백준 1932 정수 삼각형 실버 1 java 9초 x ✅ 백준 12865 평범한 배낭 골드 5 파이썬 8초` x ✅ -
그래프 탐색(BFS/DFS)
타이틀 난이도 프로그래밍 언어 실행 속도 오류 여부 정답 여부 백준 11724 연결 요소의 개수 실버 2 파이썬 9초 x ✅ 백준 2667 단지번호붙이기 실버 1 C++ 13초 x ✅ 백준 1697 숨바꼭질 골드 5 java 12초 x ✅ 백준 14502 연구소 골드 4 파이썬 12초 x ❌
추론 최적화 아이디어
병목 | 최적화 기법 | 기대 효과 |
---|---|---|
GPU VRAM 압박 | 4‑bit AWQ/GPTQ 양자화 | VRAM ↓ 60 %, 속도 ↑ 10–20 % |
토큰 프리필 지연 | vLLM + Flash‑Attention‑2 | 배치 처리로 QPS ↑ 2–3× |
반복 프롬프트 전송 | Prompt 캐싱 / KV 캐싱 | 동일 문제 재질문 시 latency ↓ 80 % |
정적 메타데이터 | 문제 정보 RAG 캐시 | IO 지연 제거, 컨텍스트 토큰 절감 |