LLM FastFlowLM - eiichiromomma/CVMLAB GitHub Wiki

(LLM) FastFlowLM

Ryzen AIなCPUに搭載されているNPUに対応したLLMフレームワーク.Windows版での利用を想定した説明.(プロプライエタリなので中身不明)

FastFlowLMで配布されており,デフォルトだとc:\Program Files\flmにインストールされる.パスは通るようなので,インストール後に起動したコマンドプロンプトから

flm --help

で使い方がわかる.基本的にollamaとかと同じノリで使える. サーバー駆動でクライアントは別アプリが楽(Chatbox AIがオススメ)

使えるモデル

NPUを利用するためonnxに変換したものしか動かず,自力で何とかするにはかなりハードルが高い.2025/12現在で

>flm list
Models:
  - deepseek-r1:8b ⏬
  - deepseek-r1-0528:8b ⏬
  - embed-gemma:300m ⏬
  - gemma3:1b ⏬
  - gemma3:270m ⏬
  - gemma3:4b ⏬
  - gpt-oss:20b ⏬
  - gpt-oss-sg:20b ⏬
  - lfm2:1.2b ⏬
  - lfm2:2.6b ⏬
  - llama3.1:8b ⏬
  - llama3.2:1b ⏬
  - llama3.2:3b ⏬
  - medgemma:4b ✅
  - qwen3:0.6b ⏬
  - qwen3:1.7b ⏬
  - qwen3:4b ⏬
  - qwen3:8b ⏬
  - qwen3-it:4b ⏬
  - qwen3-tk:4b ⏬
  - qwen3vl-it:4b ✅
  - whisper-v3:turbo ⏬

と出てくるものしか使えないと考えた方が良い.

gpt-oss:20b, gpt-oss-sg:20bだけが例外的で基本的にそこそこ軽いモデルを使いたいだけならNPUでも十分と言える.ここらへんのモデルが列挙されているのは,32GBモデルのPCを想定してと思われる.

サーバー運用

ChatBoxとかでの通信はOpenAI API互換で http://localhost:52625 (httpな点に注意)をURLとして Keyは EMPTYとでも入れておく.その後モデル一覧を取得してリストに入れ,VLについてはモデル一覧の設定を開きテストすれば認識される.

サーバー走らせるときは

flm serve qwen3vl-it:4b

みたいな感じだがオプションにある通り込み入ったチャットの場合は起動時に--ctx-len 16384とかコンテクスト長を増やさないとブツ切りになる(OpenAI APIでのやりとりは前の会話全部込みで送る)

flm serve qwen3vl-it:4b --ctx-len 16384