Ubuntu 22部署 vllm - housekeeper-software/tech GitHub Wiki

准备环境

先安装最新的显卡驱动

安装 conda

**不需要管理员权限**
wget https://repo.anaconda.com/archive/Anaconda3-2024.10-1-Linux-x86_64.sh
bash Anaconda3-2024.10-1-Linux-x86_64.sh
一路[yes],这样安装之后，系统自动启动conda环境。如果不想这么干：
You can undo this by running `conda init --reverse $SHELL`

创建python虚拟环境

创建一个名叫 vllm的虚拟环境，叫什么名字无所谓
conda create -n vllm python=3.12 -y
激活环境：
conda activate vllm

安装 vllm

pip install vllm
需要等待一段时间

安装模型下载工具

建立一个保存模型的目录，比如 /home/hp/models
cd /home/hp/models

pip install huggingface_hub
export HF_ENDPOINT=https://hf-mirror.com
这里示例下载 Qwen2-72B-Instruct-GPTQ-Int4，具体需要下载哪个模型，需要在 hf-mirror.com上找
找到了替换这个名称即可。与git操作类似。--local-dir是保存的目录
huggingface-cli download --resume-download Qwen/Qwen2-72B-Instruct-GPTQ-Int4 --local-dir Qwen2-72B-Instruct-GPTQ-Int4
如果下载变慢，可以按几次ctrl+c中断下载，然后再次上述 huggingface-cli...可以继续下载。这个有断点续传功能，无需担心会重新下载。

启动服务

cd /home/hp/models
vllm serve ./Qwen2-72B-Instruct-GPTQ-Int4 \
    --tensor-parallel-size 2 \
    --host 0.0.0.0 \
    --port 8080 \
    --served-model-name Qwen2-72B-Instruct \
    --api-key 123456 \
    --gpu-memory-utilization 0.9 \
    --max_model_len 32768 \
    --enforce-eager \
    --quantization gptq
这样就可以了。其中 port是 http端口，可以随意指定。--api-key好像不能为空，因为 OpenAI接口中强制的。--tensor-parallel-size 2 ，使用两张显卡。
具体可以看：
https://vllm.hyper.ai/docs/serving/openai-compatible-server
serve参数可以看：
https://blog.csdn.net/sunyuhua_keyboard/article/details/143974150

服务多个模型

vllm一个实例只能服务于一个模型，要服务多个模型，需要启动多个实例，多个实例的话，就需要分别指定不同的服务端口。

服务运行在后台

nohup vllm serve ... > vllm.out 2>&1 &
看日志： tail -f vllm.out

https://deepseek.csdn.net/67d630a4807ce562bfe1666a.html

下载某个文件

huggingface-cli download Mungert/Qwen2.5-7B-Instruct-GGUF Qwen2.5-7B-Instruct-q4_k_m.gguf --local-dir Qwen2.5-7B-Instruct-1M-GGUF