Ollama

Программа для инференса LLM-сетей на процессорах и GPU

Настройка

Установить на удаленном хосте следующие переменные:

OLLAMA_ORIGINS: * | chrome-extension://* | moz-extension://* (можно перечислить через запятую)
OLLAMA_MODELS: G:\AI\Ollama\models
OLLAMA_HOST: 0.0.0.0
OLLAMA_MAX_LOADED_MODELS: 3 (смотря сколько памяти у хоста и видеокарт, можно поставить 1)
OLLAMA_KEEP_ALIVE: -1 (или: "10m", "24h", 3600 for seconds or -1 keep models forever)
OLLAMA_FLASH_ATTENTION: 1 (нужно для использования квантизации контекста, отличной от дефолтной q16_0)
OLLAMA_KV_CACHE_TYPE: q8_0
OLLAMA_MAX_QUEUE: 512
OLLAMA_NUM_PARALLEL: 1

Настройки, которые еще не ставил:

OLLAMA_CONTEXT_LENGTH: 4096 (предпочитаю задавать для модели отдельно)
OLLAMA_NEW_ENGINE:

В Linux эти переменные окружение лучше всего положить в файл /etc/systemd/system/ollama.service.d/override.conf:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
#Environment="OLLAMA_ORIGINS=* | chrome-extension://* | moz-extension://*"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_NUM_PARALLEL=1"

Полезные команды

удалить все модели, которые соответствуют паттерну <PATTERN>:

  ollama ls | grep -i <PATTERN> | awk '{print $1}'  # сначала проверим, какие модели будут выбраны
  ollama rm $(ollama ls | grep -i <PATTERN> | awk '{print $1}' | xargs echo)  # затем удалим их

Настройки моделей

Документация для modelfile: https://ollama.readthedocs.io/en/modelfile

Установка параметров: /set parameter PARAMETER_NAME PARAMETER_VALUE

Установка системного промпта: /set system """PROMPT"""

Devstral 1.1 (2507)

Ссылки:

Unsloth
Рекомендуемые настройки: https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/devstral-how-to-run-and-fine-tune#official-recommended-settings

Параметры:

/set parameter repeat_penalty 1
/set parameter temperature 0.1 # recommended 0.15
/set parameter top_k 64
/set parameter top_p 0.95
/set parameter min_p 0.01
/set parameter num_ctx 45396 # q8_0, ollama v0.11.6, 2080Ti + 5060 Ti, Xorg reduced from GPUs (former value 45376)

GPT-OSS:20b

/set parameter num_ctx 43386 # q8_0, ollama v0.11.6, 2080Ti + 5060 Ti, Xorg reduced from GPUs

Qwen3-Coder:30A3

/set parameter num_ctx 45421 # q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs

Qwen3:30A3-Thinking

Скачать: ollama pull hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL

/set parameter num_ctx 45718 # q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs

Qwen3:32

Скачать: ollama pull hf.co/unsloth/Qwen3-32B-GGUF:UD-Q4_K_XL

/set parameter num_ctx 13228 # q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs

Скачать: ollama pull hf.co/unsloth/Qwen3-32B-GGUF:UD-Q3_K_XL

/set parameter num_ctx 20734 # q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs

Ollama - andyceo/documentation GitHub Wiki

Ollama

Настройка

Полезные команды

Настройки моделей

Devstral 1.1 (2507)

GPT-OSS:20b

Qwen3-Coder:30A3

Qwen3:30A3-Thinking

Qwen3:32

⚠️ GitHub.com Fallback ⚠️

Ollama - andyceo/documentation GitHub Wiki

Ollama

Настройка

Полезные команды

Настройки моделей

Devstral 1.1 (2507)

GPT-OSS:20b

Qwen3-Coder:30A3

Qwen3:30A3-Thinking

Qwen3:32

⚠️ **GitHub.com Fallback** ⚠️

⚠️ GitHub.com Fallback ⚠️