Ollama - andyceo/documentation GitHub Wiki

Ollama

Программа для инференса LLM-сетей на процессорах и GPU

Настройка

Установить на удаленном хосте следующие переменные:

  • OLLAMA_ORIGINS: * | chrome-extension://* | moz-extension://* (можно перечислить через запятую)
  • OLLAMA_MODELS: G:\AI\Ollama\models
  • OLLAMA_HOST: 0.0.0.0
  • OLLAMA_MAX_LOADED_MODELS: 3 (смотря сколько памяти у хоста и видеокарт, можно поставить 1)
  • OLLAMA_KEEP_ALIVE: -1 (или: "10m", "24h", 3600 for seconds or -1 keep models forever)
  • OLLAMA_FLASH_ATTENTION: 1 (нужно для использования квантизации контекста, отличной от дефолтной q16_0)
  • OLLAMA_KV_CACHE_TYPE: q8_0
  • OLLAMA_MAX_QUEUE: 512
  • OLLAMA_NUM_PARALLEL: 1

Настройки, которые еще не ставил:

  • OLLAMA_CONTEXT_LENGTH: 4096 (предпочитаю задавать для модели отдельно)
  • OLLAMA_NEW_ENGINE:
⚠️ **GitHub.com Fallback** ⚠️