DeepSeek-多机多卡集群部署-HQY 一个和谐有爱的空间

25

2025
03
20:19:55

DeepSeek-多机多卡集群部署

我们无论是直接部署，还是容器部署都还是单机的模型，受单机GPU限制，并不能跑比较大的模型，今天我们将用多台机器组成一个集群来跑一个更大的模型。

1.准备机器

机器IP	GPU	备注
172.16.0.102	Tesla T4*2	复用旧机器，扩容了GPU
172.16.0.43	Tesla T4*2	新机器
172.16.0.65	Tesla T4*2	新机器

2.安装驱动及必要软件

新加入的机器需要分别安装驱动，Docker，Nvidia-Docker

#安装驱动
dpkg -i nvidia-driver-local-repo-ubuntu2004-570.86.15_1.0-1_amd64.deb 
cp /var/nvidia-driver-local-repo-ubuntu2004-570.86.15/nvidia-driver-local-C202025D-keyring.gpg /usr/share/keyrings/
apt-get update
#安装驱动，甚至都不用安装cuda驱动就可以，安装完成系统需要重启系统
apt-get install nvidia-driver-570
reboot

#安装Docker
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo gpg --dearmor -o /usr/share/keyrings/docker-archive-keyring.gpg
echo "deb [arch=$(dpkg --print-architecture) signed-by=/usr/share/keyrings/docker-archive-keyring.gpg] https://download.docker.com/linux/ubuntu focal stable" | sudo tee /etc/apt/sources.list.d/docker.list > /dev/null
apt update
apt install -y docker-ce docker-ce-cli containerd.io
systemctl start docker
systemctl enable docker

#安装
nvidia-dockerdistribution=$(. /etc/os-release;
echo $ID$VERSION_ID)curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
apt-get update
apt-get install -y nvidia-docker2
systemctl restart docker

3.下载镜像&模型下载

可以参考上一小节或者直接从第一台服务器复制过来，过程略。

4.准备集群脚本

wget https://github.com/vllm-project/vllm/blob/main/examples/online_serving/run_cluster.sh

5.启动主节点

我这里选择的是是102这台服务器作为主节点。

bash run_cluster.sh \    
vllm/vllm-openai:latest \    
172.16.0.102 \    
--head \    
/root/deepseekr1_32b/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \    
-e VLLM_HOST_IP=172.16.0.102 \    
-e GLOO_SOCKET_IFNAME=eth0 \    
-e TP_SOCKET_IFNAME=eth0 &

简单来理解就是启动一个主节点(--head参数就是主节点)，然后把本地的模型挂载到了容器，并指定vLLM的监听的IP和IP对应的网卡名字。

6.启动从节点43

bash run_cluster.sh \    
vllm/vllm-openai:latest \    
172.16.0.102 \
    --worker \    
    /root/deepseekr1_32b/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \    
    -e VLLM_HOST_IP=172.16.0.43 \    
    -e GLOO_SOCKET_IFNAME=eth0 \    
    -e TP_SOCKET_IFNAME=eth0 &

这里就是启动了一个从节点(--worker),并指定主节点的ip地址是172.16.0.102。

7.启动从节点65

bash run_cluster.sh \    
vllm/vllm-openai:latest \    
172.16.0.102 \    
--worker \    
/root/deepseekr1_32b/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \    
-e VLLM_HOST_IP=172.16.0.65 \    
-e GLOO_SOCKET_IFNAME=eth0 \    
-e TP_SOCKET_IFNAME=eth0 &

这里就是又启动了一个从节点(--worker),并指定主节点的ip地址是172.16.0.102。

8.检查集群状态

#进入主节点容器
docker exec -it node bash

这里显示3个节点，总共6个GPU(下图是我只有5张卡的截图)，显示以后就ray集群启动成功。然后3台集群6张卡组成了一个小集群。

9.启动服务

#进入主节点容器docker exec -it node bash

vllm serve \  
--model-path /root/.cache/huggingface/ \
  --tensor-parallel-size 2 \  
  --pipeline-parallel-size 3 \  
  --served-model-name "DeepSeek" \  
  --host 0.0.0.0 \  
  --port 8000 \  
  --gpumemoryutilization 0.95 \  
  --trust-remote-code \  
  --max-num-batched-tokens 8192 \  
  --max-model-len 16384 \  
  --enable-reasoning \  
  --reasoning-parser deepseekr1 \  
  --enable-prefix-caching \  
  --enable-chunked-prefill \  
  --dtyp=half