安装xinference及基本使用命令 - wxtt-github/blog GitHub Wiki
Ollama目前不支持部署embedding和rerank模型,而Xinference支持,功能比较强大。环境为Ubuntu
conda create -n xinference python=3.11
conda activate xinference
pip install "xinference[all]" -i https://pypi.mirrors.ustc.edu.cn/simple/
时间为2024.10.28,直接这样安装会附带openai库,不会报错
xinference-local --host 0.0.0.0 --port 9997
启动成功后,可以通过访问 http://127.0.0.1:9997/ui 来使用 UI,访问 http://127.0.0.1:9997/docs 来查看 API 文档。
xinference engine -e http://127.0.0.1:9997 --model-name <模型ID>
# 例如下面是查询qwen1.5-chat的各个版本的具体信息
xinference engine -e http://127.0.0.1:9997 --model-name qwen1.5-chat
curl -X 'POST' \
'http://127.0.0.1:9997/v1/chat/completions' \
-H 'accept: application/json' \
-H 'Content-Type: application/json' \
-d '{
"model": "qwen1.5-chat",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "What is the largest animal?"
}
]
}'