安装xinference及基本使用命令 - wxtt-github/blog GitHub Wiki

安装xinference及基本使用

Ollama目前不支持部署embedding和rerank模型,而Xinference支持,功能比较强大。环境为Ubuntu

准备Python环境

conda create -n xinference python=3.11
conda activate xinference

安装xinference

pip install "xinference[all]" -i https://pypi.mirrors.ustc.edu.cn/simple/

时间为2024.10.28,直接这样安装会附带openai库,不会报错

验证是否安装成功

xinference-local --host 0.0.0.0 --port 9997

启动成功后,可以通过访问 http://127.0.0.1:9997/ui 来使用 UI,访问 http://127.0.0.1:9997/docs 来查看 API 文档。

查看模型的各个版本及信息

xinference engine -e http://127.0.0.1:9997 --model-name <模型ID>
# 例如下面是查询qwen1.5-chat的各个版本的具体信息
xinference engine -e http://127.0.0.1:9997 --model-name qwen1.5-chat

调用大模型

curl -X 'POST' \
  'http://127.0.0.1:9997/v1/chat/completions' \
  -H 'accept: application/json' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "qwen1.5-chat",
    "messages": [
        {
            "role": "system",
            "content": "You are a helpful assistant."
        },
        {
            "role": "user",
            "content": "What is the largest animal?"
        }
    ]
  }'
⚠️ **GitHub.com Fallback** ⚠️