04
2024
06
15:57:24

VMware vSphere 下 NVIDIA vGPU 驱动的安装和配置



推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

1、驱动准备,从NVIDIA网站下载对应驱动包

需有购买NVIDIA账号登陆访问:

https://nvid.nvidia.com/

2、NVIDIA常用链接

显卡和驱动版本匹配查询地址:https://docs.nvidia.com/grid/gpus-supported-by-vgpu.html

服务器和显卡兼容性查询地址:https://www.nvidia.cn/data-center/resources/vgpu-certified-servers/

英伟达最全vGPU 链接:http://vgpu.com.cn/可以查看所有相关的文档

NVIDIA Grid驱动版本匹配地址:

https://docs.nvidia.com/grid/get-grid-version.html

3、开启vsphere ssh功能

在vSphere平台下安装vGPU驱动之前需要打开ESXi的SSH服务,方便来传输vib驱动安装包以及后面一些命令行的操作。

ESXi需要加入vCenter,vGPU相关的一些配置都需要在vCenter下来修改。

4、上传驱动包

使用WinSCP把驱动压缩包中Host主机目录下相关文件传到ESXi的/tmp目录下,根据驱动版本不同,文件夹下文件也不同,对于目前的长周期支持分支vGPU 13.x(ESXi 7.0 推荐使用,不支持ESXi 8.0),Host主机仅有一个NVD-VGPU开头的驱动包,对于最新的产品分支vGPU 15.x及之后(支持ESXi 8.0) ,还会有一个nvd-gpu-mgmt-daemon开头的文件,Host主机下的NVD-VGPU开头的驱动zip文件不需要再次解压,请把文件直接拷过去。

对于nvd-gpu-mgmt文件,在最新的15.3版本中做了2次打包,所以nvd-gpu-mgmt-daemon_525.125.03-0.0.0000_21816754-package.zip这个文件需要解压,然后把解压得到的nvd-gpu-mgmt-daemon_525.125.03-0.0.0000_21816754.zip文件拷过去,注意我们需要的安装文件是不带package结尾的,之前的版本如15.2不用解压直接拷过去就行,最新16.0版本驱动也直接可用,安装之前先检查一下。

5、主机安装显卡驱动

5.1、安装驱动之前先检查一下GPU是否被正常识别到,SSH到ESXi,使用命令:lspci | grep NVIDIA 来检查。

5.2、服务器需要在BIOS里开启SR-IOV和Monitor/Mwait功能

登录ESXI网页将主机进入维护模式,开始安装驱动

对于vGPU 13.x:esxcli software vib install -d /tmp/NVD-VGPU*.zip

5.3、对于vGPU 15.x及之后需要执行俩次命令:

esxcli software vib install -d /tmp/NVD-VGPU*.zip

esxcli software vib install -d /tmp/nvd-gpu-mgmt-daemon*.zip

5.4、等待几分钟,提示安装完成,重启一下主机验证驱动是否正常,输入nvidia-smi

5.5、特别注意2点:1、ECC模式是否显示off 2、默认情况下vSphere会使用vsga模式,而不是vGPU模式,所以能看到最下面xorg条目,这个我们后面改。

如果看到nvidia-smi信息里面ECC区域不是off状态,而是0,这说明你现在的ECC是启用的状态,并不是所有vgpu都可以使用ECC,如果你不能确认你的环境是否需要启用ECC,那建议先关闭ECC

5.6、使用命令来关闭ECC,注意,启用或者关闭ECC都需要重启主机。

执行命令关闭ECC,关闭后需要重启主机  nvidia-smi –e 0

5.7、驱动安装完成后将主机退出维护模式。

6、vCenter配置显卡共享模式

6.1、登陆vCenter,定位到主机-配置-图形,编辑主机图形设置,可以看到默认是共享模式,也就是vsga,我们需要切换到“直接共享”才能使用vGPU。

6.2、默认为共享,修改成直接共享,并重启xorg服务。

更改成功以后就没有xorg条目了,可以开始使用vGPU了!

7、分配虚拟机显卡资源

7.1、编辑虚拟机,新增PCI设备,可根据授权来分配显卡Q B A

显存分配必须一致,比如一个主机下所有虚拟机显存都是2Q 或者4Q,

不能虚拟机1是2Q,虚拟机2是4Q,显卡资源调度会有问题。

7.2、GPU显卡选择类型如下:

8、系统安装驱动包 

8.1、Win10系统挂载好显存后,开机安装显卡驱动包

安装虚拟机驱动,注意一定要使用安装包内对应版本的驱动(使用不同版本可能会有问题),截图示例win10系统驱动包

安装驱动后,重启虚拟机,在控制台界面,看到“黑屏”,这是正常的。使用远程桌面RDP协议登录

8.2、安装CUDA 驱动包

9、安装英伟达许可授权服务器

1、安装一台windows server 2016或者2019系统服务器,将浏览器语言设置为英文

2、提前准备好JAVA 8 64位并安装,设置JAVA 8环境变量JAVA_HOME,路径指向到java的安装路径地址

3、安装许可包

4、许可服务器安装完成,浏览器输入http://localhost:8080/licserver,导入.bin格式的许可

10、获取英伟达License文件

1、登录到许可授权服务器,获取本机的网卡MAC地址

2、登录https://nvid.nvidia.com, DASHBOARD界面,创建 License Server

3、按照提示,先添加20个vDWS授权,并在MAC地址处添加前面抄下来的MAC地址。

4、保存好,返回 License Server ,下载,可以获取到.bin格式的授权文件。

5、返回到 http://localhost:8080/licserver 上传(注意一定要24小时内上传),提示成功即可。

11、Win10系统关联许可

1、找到添加了vGPU的虚拟机,右键NVIDIA控制面板,到管理许可证,添加许可证服务器IP即可。


本文链接:https://hqyman.cn/post/6473.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

您的IP地址是: