Ollama - andyceo/documentation GitHub Wiki
Программа для инференса LLM-сетей на процессорах и GPU
Установить на удаленном хосте следующие переменные:
-
OLLAMA_ORIGINS:*|chrome-extension://*|moz-extension://*(можно перечислить через запятую) -
OLLAMA_MODELS:G:\AI\Ollama\models -
OLLAMA_HOST:0.0.0.0 -
OLLAMA_MAX_LOADED_MODELS:3(смотря сколько памяти у хоста и видеокарт, можно поставить1) -
OLLAMA_KEEP_ALIVE:-1(или: "10m", "24h", 3600 for seconds or -1 keep models forever) -
OLLAMA_FLASH_ATTENTION:1(нужно для использования квантизации контекста, отличной от дефолтнойq16_0) -
OLLAMA_KV_CACHE_TYPE:q8_0 -
OLLAMA_MAX_QUEUE:512 -
OLLAMA_NUM_PARALLEL:1
Настройки, которые еще не ставил:
-
OLLAMA_CONTEXT_LENGTH:4096(предпочитаю задавать для модели отдельно) -
OLLAMA_NEW_ENGINE:
В Linux эти переменные окружение лучше всего положить в файл /etc/systemd/system/ollama.service.d/override.conf:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
#Environment="OLLAMA_ORIGINS=* | chrome-extension://* | moz-extension://*"
Environment="OLLAMA_MAX_LOADED_MODELS=1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=q8_0"
Environment="OLLAMA_NUM_PARALLEL=1"
-
удалить все модели, которые соответствуют паттерну
<PATTERN>:ollama ls | grep -i <PATTERN> | awk '{print $1}' # сначала проверим, какие модели будут выбраны ollama rm $(ollama ls | grep -i <PATTERN> | awk '{print $1}' | xargs echo) # затем удалим их
Документация для modelfile: https://ollama.readthedocs.io/en/modelfile
Установка параметров: /set parameter PARAMETER_NAME PARAMETER_VALUE
Установка системного промпта: /set system """PROMPT"""
Ссылки:
- Unsloth
- Рекомендуемые настройки: https://docs.unsloth.ai/basics/tutorials-how-to-fine-tune-and-run-llms/devstral-how-to-run-and-fine-tune#official-recommended-settings
Параметры:
/set parameter repeat_penalty 1-
/set parameter temperature 0.1# recommended 0.15 /set parameter top_k 64/set parameter top_p 0.95/set parameter min_p 0.01-
/set parameter num_ctx 45396# q8_0, ollama v0.11.6, 2080Ti + 5060 Ti, Xorg reduced from GPUs (former value 45376)
-
/set parameter num_ctx 43386# q8_0, ollama v0.11.6, 2080Ti + 5060 Ti, Xorg reduced from GPUs
-
/set parameter num_ctx 45421# q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs
Скачать: ollama pull hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL
-
/set parameter num_ctx 45718# q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs
Скачать: ollama pull hf.co/unsloth/Qwen3-32B-GGUF:UD-Q4_K_XL
-
/set parameter num_ctx 13228# q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs
Скачать: ollama pull hf.co/unsloth/Qwen3-32B-GGUF:UD-Q3_K_XL
-
/set parameter num_ctx 20734# q8_0, ollama v0.11.7, 2080Ti + 5060 Ti, Xorg reduced from GPUs