LLM koboldcpp - eiichiromomma/CVMLAB GitHub Wiki
(LLM) koboldcpp
Ryzen AI 7はこっち.
とりあえずNPU諦め
通常の公開モデルはそのまま使えずNPUについてはonnxの変換が必要. APIサーバを立てて使うにはFastFlowLMが最有力だが,Windowsについてはプロプライエタリ公開でOpenAIに近いAPI実装になっている.モデル読んで推論だけなら問題なく動く.その上っ面を変える例としてはLemonade-serverが一番楽で,サンプルとしてモデルローダーも付いているが,FastFlowLMはおまけ機能のような感じで一緒にインストールされる. (c:\Program Files\flmにflm.exeがインストールされ,ほぼollamaと同じ感じで使える.) が,選べるモデルは少ないうえに中で何やってるのか不明.あとAmuseという画像生成アプリもAMDから提供されているが,こっちもNPU対応はモデルが限られる.
koboldcpp
Ryzen AIを直ぐにmROCで使えるかというと最上位機種しか対応する気がないようなので詰む.DirectMLも色々なパッケージの依存関係地獄でまともに使うのは奇跡に近い状況.ということでVulkan運用でちゃんと動くkoboldcpp一択になる.Unified Memoryで64GBだとデフォルトでは32GBまで,固定すれば48GB+αまで使えるのでモデルは結構リッチなものを選べる.特にMoEを使えば応答も実用可能な速さになる.(基本的にQ4_K_Sモデルを使う.)
- mradermacher/Qwen3-MOE-2x4B-8B-Jan-Nano-Instruct-II-i1-GGUF
- mmnga/RakutenAI-2.0-8x7B-instruct-gguf
- mmnga/ELYZA-Thinking-1.0-Qwen-32B-gguf
あたりが良い.mixtral-8x7bも動くが29.8GBまで使う(あと非日本語)
koboldcppはnocudaのを実行する.コマンド起動も可だが,設定ファイルを保存しておいてLauncher起動が気楽.
Use Vulkan と Use FlashAttention と GPU Layers
原因不明だが-1で37/37Layersみたいな表記でなく No Offloadみたいな表記だったら99と入れとく.

Context SizeはデカくしてQuantize KV Cacheは4bitにする.(さほど誤差なくKV Cacheを圧縮できる)

Launchした後でWeb UIの方のSettingsでMax Outputもデカくする.(出力が途中で切れる)

koboldcppでVLM
koboldcpp/mmprojからどれかを持ってきて(例えばgemma3-4b-mmproj.gguf),同じモデル名(mmprojではないもの.例えば itlwas/gemma-3-4b-it-Q4_K_M-GGUF)を用意して,モデルには前者のmmprojが無いものを指定し,mmprojには前者を指定して起動し,Web UIで画像をアップロードしてタイムラインに並んだ画像をクリックしてVision AIをEnabledにしてからプロンプトを投げるとちゃんと答えられた. (GUIのLauncherだとLoaded Filesに項目がある)
この状態でChatBoxでgemma3をモデル認識させるとVision可能モデルとなり添付画像についてプロンプトで推論が可能
ちなみに,トロいけどデカいmmnga/Mistral-Small-3.1-24B-Instruct-2503-HF-ggufとmmproj-mistralai_Mistral-Small-3.1-24B-Instruct-2503-f16.ggufとの組合せでもちゃんと動いた.(20GBくらい占有)