Ollama - andyceo/documentation GitHub Wiki
Программа для инференса LLM-сетей на процессорах и GPU
Установить на удаленном хосте следующие переменные:
-
OLLAMA_ORIGINS
:*
|chrome-extension://*
|moz-extension://*
(можно перечислить через запятую) -
OLLAMA_MODELS
:G:\AI\Ollama\models
-
OLLAMA_HOST
:0.0.0.0
-
OLLAMA_MAX_LOADED_MODELS
:3
(смотря сколько памяти у хоста и видеокарт, можно поставить1
) -
OLLAMA_KEEP_ALIVE
:-1
(или: "10m", "24h", 3600 for seconds or -1 keep models forever) -
OLLAMA_FLASH_ATTENTION
:1
(нужно для использования квантизации контекста, отличной от дефолтнойq16_0
) -
OLLAMA_KV_CACHE_TYPE
:q8_0
-
OLLAMA_MAX_QUEUE
:512
-
OLLAMA_NUM_PARALLEL
:1
Настройки, которые еще не ставил:
-
OLLAMA_CONTEXT_LENGTH
:4096
(предпочитаю задавать для модели отдельно) -
OLLAMA_NEW_ENGINE
:
В Linux эти переменные окружение лучше всего положить в файл /etc/systemd/system/ollama.service.d/override.conf
:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
#Environment="OLLAMA_ORIGINS=* | chrome-extension://* | moz-extension://*"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_NUM_PARALLEL=1"
-
удалить все модели, которые соответствуют паттерну
<PATTERN>
:ollama ls | grep -i <PATTERN> | awk '{print $1}' # сначала проверим, какие модели будут выбраны ollama rm $(ollama ls | grep -i <PATTERN> | awk '{print $1}' | xargs echo) # затем удалим их
Документация для modelfile: https://ollama.readthedocs.io/en/modelfile
Установка параметров: /set parameter PARAMETER_NAME PARAMETER_VALUE
Установка системного промпта: /set system """PROMPT"""
Ссылки:
- Unsloth
- Рекомендуемые настройки: https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/devstral-how-to-run-and-fine-tune#official-recommended-settings
Параметры:
/set parameter repeat_penalty 1
-
/set parameter temperature 0.1
# recommended 0.15 /set parameter top_k 64
/set parameter top_p 0.95
/set parameter min_p 0.01
-
/set parameter num_ctx 45396
# q8_0, ollama v0.11.6, 2080Ti + 5060 Ti, Xorg reduced from GPUs (former value 45376)
-
/set parameter num_ctx 43386
# q8_0, ollama v0.11.6, 2080Ti + 5060 Ti, Xorg reduced from GPUs
-
/set parameter num_ctx 45421
# q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs
Скачать: ollama pull hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL
-
/set parameter num_ctx 45718
# q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs
Скачать: ollama pull hf.co/unsloth/Qwen3-32B-GGUF:UD-Q4_K_XL
-
/set parameter num_ctx 13228
# q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs
Скачать: ollama pull hf.co/unsloth/Qwen3-32B-GGUF:UD-Q3_K_XL
-
/set parameter num_ctx 20734
# q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs