LLM FastFlowLMとOpenWebUI - eiichiromomma/CVMLAB GitHub Wiki

(LLM) FastFlowLMとOpenWebUI

買ったばかりのRyzen AI 7マシンのWindows11が吹き飛んだので、更地からFLMとOpenWebUIを使った調査要約エンジンを構築してみる。NPUを有効活用するならWeb APIに最適化されているラッパー一択となる。

環境構築

インストール

FastFlowLMはインストーラをダウンロードして入れておく. モデルの保存場所はうっかりしてるとOneDriveに置こうとするのでローカルに. FLMにパスが通るので,その後でPowershellを開く. Powershell+uvベースで.証明書関係は効果があるか微妙だが入れとく

mkdir openwebuiPJ
cd openwebuiPJ
uv python pin 3.11
uv init
uv add open-webui
uv add --upgrade certifi
uv add pip-system-certs

ffmpegが必要なのでwingetで入れる

winget install ffmpeg

Powershellを閉じて再度開く.

モデル導入

別のPowershellタブを開く. flmはほぼollamaのノリで使える. gpt-oss-sg:20bはMoEなので20bと言ってる割には賢くない。おまけに全角括弧とかを食わせるとIQが一気に20くらい下がるのでQwen3:8bを使う。llamaでもそれなりだが幻視出まくりなので諦めた。

flm pull qwen3:8b

でpullしてとりあえずchatで試してもよい. サーバーの起動は

 flm serve qwen:8b --ctx-len 16384 --q-len 40

--pmode turbo は付けてたが微妙なので外した。

open-webui

さっきのPowershellのタブに戻り,検索がらみの環境変数を埋め込んでOpen-WebUIを起動.

$env:PYTHONHTTPSVERIFY = "0"
$env:CURL_CA_BUNDLE = ""
uv run open-webui serve

http://localhost:8080/をブラウザで開くと,管理者の登録があるので自分のメールアドレスと適当なパスワードを設定しておく.

調査・要約エンジン化

設定

管理者パネルの「設定」「接続」でhttp://localhost:52625/v1をOpenAI APIに指定してから,その横の歯車アイコンでモデル名qwen3:8bを入れて+を押し追加する。

「設定」「モデル」のところで登録したモデルqwen3:8bの鉛筆アイコンをクリックしてWeb検索にチェックを入れておく。

「設定」「ウェブ検索」でDDGSを選んでバックエンドにDuckDuckGoを選択する。(お金払ってAPI使った方が断然良い結果になると思われる)

指示

新しいチャットから、設定したモデル名を選んだうえでプロンプトを投げる。最初に検索が始まり、そのあとで要約してくれる。基本新規チャットを使い色々な指示を一つのチャットで放るのは上手く行かない。

軽いノリで知識に含まれない期間を聞くと幻視しまくるので,得に調査についてはしつこく指示しておく。上手く行かない場合でも,この情報は概要だけしか分かってないとか出てくようになる。

知りたいテーマは英語で書き,gpt-oss-sg:20bみたいに「ソース」と書くとアホになるモデルもあるのでcitation付きでと指示しておく。

scaling laws related to Vision Transformers (ViT)に関連する研究について,2024年2月以降に出版された査読付き論文から主要なものを最大3件ピックアップして。ピックアップの際は幻視を起こしていないかURLの死活だけでなく内容およびタイトルについて一致するかチェックをすること。その後日本語で各論文について重要なポイントと要約をcitations付きで示して #web_search

出てきた回答

以下の論文は、2024年2月以降に出版された査読付き論文であり、Vision Transformer(ViT)のスケーリング法に関する重要な研究です。各論文のタイトルや内容が一致しており、リンクも有効なように見えます。

  1. [2403.11999] HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs

    • 著者: Ting Yao, Yehao Li, Yingwei Pan, Tao Mei
    • 要約: 高解像度入力に対応するViTモデルの拡張手法を提案しています。高解像度画像処理において、計算コストと性能のバランスを取るための新しいスケーリング戦略を検討し、大規模な実験を通じてその有効性を示しています [3]。
  2. Navigating Scaling Laws: Accelerating Vision Transformer's Training via Adaptive Strategies

    • 著者: Sotiris Anagnostidis, Gregor Bachmann, Thomas Hofmann
    • 要約: ViTのトレーニングプロセスにおける適応的最適化戦略を考究し、スケーリング法の効率向上を目指しています。特に、モデルサイズと学習データ量の関係を再評価した結果、新たなトレーニング効率の改善方法が提案されています [2]。
  3. Scaling Vision Transformers

    • 著者: Xiaohua Zhai, Alexander Kolesnikov, Neil Houlsby, Lucas Beyer
    • 注: この論文は2021年に提出され、最終修正日が2022年6月であるため、2024年2月以降の制限に該当しません。したがって、対象外とします [1]。

上記のように、2024年2月以降の論文として確認できたのは1件のみです。他の論文については、公開日付が不明または古いものでした。必要に応じて追加情報のご提供をお願いいたします。

  1. https://arxiv.org/abs/2106.04560
  2. https://arxiv.org/abs/2311.03233v1
  3. https://arxiv.org/abs/2403.11999