Ubuntu 22部署 vllm - housekeeper-software/tech GitHub Wiki
准备环境
先安装最新的显卡驱动
安装 conda
**不需要管理员权限**
wget https://repo.anaconda.com/archive/Anaconda3-2024.10-1-Linux-x86_64.sh
bash Anaconda3-2024.10-1-Linux-x86_64.sh
一路[yes],这样安装之后,系统自动启动conda环境。如果不想这么干:
You can undo this by running `conda init --reverse $SHELL`
创建python虚拟环境
创建一个名叫 vllm的虚拟环境,叫什么名字无所谓
conda create -n vllm python=3.12 -y
激活环境:
conda activate vllm
安装 vllm
pip install vllm
需要等待一段时间
安装模型下载工具
建立一个保存模型的目录,比如 /home/hp/models
cd /home/hp/models
pip install huggingface_hub
export HF_ENDPOINT=https://hf-mirror.com
这里示例下载 Qwen2-72B-Instruct-GPTQ-Int4,具体需要下载哪个模型,需要在 hf-mirror.com上找
找到了替换这个名称即可。与git操作类似。--local-dir是保存的目录
huggingface-cli download --resume-download Qwen/Qwen2-72B-Instruct-GPTQ-Int4 --local-dir Qwen2-72B-Instruct-GPTQ-Int4
如果下载变慢,可以按几次ctrl+c中断下载,然后再次上述 huggingface-cli...可以继续下载。这个有断点续传功能,无需担心会重新下载。
启动服务
cd /home/hp/models
vllm serve ./Qwen2-72B-Instruct-GPTQ-Int4 \
--tensor-parallel-size 2 \
--host 0.0.0.0 \
--port 8080 \
--served-model-name Qwen2-72B-Instruct \
--api-key 123456 \
--gpu-memory-utilization 0.9 \
--max_model_len 32768 \
--enforce-eager \
--quantization gptq
这样就可以了。其中 port是 http端口,可以随意指定。--api-key好像不能为空,因为 OpenAI接口中强制的。--tensor-parallel-size 2 ,使用两张显卡。
具体可以看:
https://vllm.hyper.ai/docs/serving/openai-compatible-server
serve参数可以看:
https://blog.csdn.net/sunyuhua_keyboard/article/details/143974150
服务多个模型
vllm一个实例只能服务于一个模型,要服务多个模型,需要启动多个实例,多个实例的话,就需要分别指定不同的服务端口。
服务运行在后台
nohup vllm serve ... > vllm.out 2>&1 &
看日志: tail -f vllm.out
https://deepseek.csdn.net/67d630a4807ce562bfe1666a.html
下载某个文件
huggingface-cli download Mungert/Qwen2.5-7B-Instruct-GGUF Qwen2.5-7B-Instruct-q4_k_m.gguf --local-dir Qwen2.5-7B-Instruct-1M-GGUF