Ollama - andyceo/documentation GitHub Wiki

Ollama

Программа для инференса LLM-сетей на процессорах и GPU

Настройка

Установить на удаленном хосте следующие переменные:

  • OLLAMA_ORIGINS: * | chrome-extension://* | moz-extension://* (можно перечислить через запятую)
  • OLLAMA_MODELS: G:\AI\Ollama\models
  • OLLAMA_HOST: 0.0.0.0
  • OLLAMA_MAX_LOADED_MODELS: 3 (смотря сколько памяти у хоста и видеокарт, можно поставить 1)
  • OLLAMA_KEEP_ALIVE: -1 (или: "10m", "24h", 3600 for seconds or -1 keep models forever)
  • OLLAMA_FLASH_ATTENTION: 1 (нужно для использования квантизации контекста, отличной от дефолтной q16_0)
  • OLLAMA_KV_CACHE_TYPE: q8_0
  • OLLAMA_MAX_QUEUE: 512
  • OLLAMA_NUM_PARALLEL: 1

Настройки, которые еще не ставил:

  • OLLAMA_CONTEXT_LENGTH: 4096 (предпочитаю задавать для модели отдельно)
  • OLLAMA_NEW_ENGINE:

В Linux эти переменные окружение лучше всего положить в файл /etc/systemd/system/ollama.service.d/override.conf:

[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
#Environment="OLLAMA_ORIGINS=* | chrome-extension://* | moz-extension://*"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_NUM_PARALLEL=1"

Полезные команды

  • удалить все модели, которые соответствуют паттерну <PATTERN>:

      ollama ls | grep -i <PATTERN> | awk '{print $1}'  # сначала проверим, какие модели будут выбраны
      ollama rm $(ollama ls | grep -i <PATTERN> | awk '{print $1}' | xargs echo)  # затем удалим их
    

Настройки моделей

Документация для modelfile: https://ollama.readthedocs.io/en/modelfile

Установка параметров: /set parameter PARAMETER_NAME PARAMETER_VALUE

Установка системного промпта: /set system """PROMPT"""

Devstral 1.1 (2507)

Ссылки:

Параметры:

  • /set parameter repeat_penalty 1
  • /set parameter temperature 0.1 # recommended 0.15
  • /set parameter top_k 64
  • /set parameter top_p 0.95
  • /set parameter min_p 0.01
  • /set parameter num_ctx 45396 # q8_0, ollama v0.11.6, 2080Ti + 5060 Ti, Xorg reduced from GPUs (former value 45376)

GPT-OSS:20b

  • /set parameter num_ctx 43386 # q8_0, ollama v0.11.6, 2080Ti + 5060 Ti, Xorg reduced from GPUs

Qwen3-Coder:30A3

  • /set parameter num_ctx 45421 # q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs

Qwen3:30A3-Thinking

Скачать: ollama pull hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL

  • /set parameter num_ctx 45718 # q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs

Qwen3:32

Скачать: ollama pull hf.co/unsloth/Qwen3-32B-GGUF:UD-Q4_K_XL

  • /set parameter num_ctx 13228 # q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs

Скачать: ollama pull hf.co/unsloth/Qwen3-32B-GGUF:UD-Q3_K_XL

  • /set parameter num_ctx 20734 # q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs
⚠️ **GitHub.com Fallback** ⚠️