Ollama - andyceo/documentation GitHub Wiki
Программа для инференса LLM-сетей на процессорах и GPU
Установить на удаленном хосте следующие переменные:
-
OLLAMA_ORIGINS
:*
|chrome-extension://*
|moz-extension://*
(можно перечислить через запятую) -
OLLAMA_MODELS
:G:\AI\Ollama\models
-
OLLAMA_HOST
:0.0.0.0
-
OLLAMA_MAX_LOADED_MODELS
:3
(смотря сколько памяти у хоста и видеокарт, можно поставить1
) -
OLLAMA_KEEP_ALIVE
:-1
(или: "10m", "24h", 3600 for seconds or -1 keep models forever) -
OLLAMA_FLASH_ATTENTION
:1
(нужно для использования квантизации контекста, отличной от дефолтнойq16_0
) -
OLLAMA_KV_CACHE_TYPE
:q8_0
-
OLLAMA_MAX_QUEUE
:512
-
OLLAMA_NUM_PARALLEL
:1
Настройки, которые еще не ставил:
-
OLLAMA_CONTEXT_LENGTH
:4096
(предпочитаю задавать для модели отдельно) -
OLLAMA_NEW_ENGINE
: