06
2025
03
00:43:52

ESXi直通GPU故障

ESXi直通GPU故障

最近服务器更换了显卡,跑的是ESXi 6.7 DellEMC的定制镜像,直通给Ubuntu的虚拟机。原显卡是Tesla M40,后来更换了Titan XP之后虚拟机无法正常启动。

直通的设置是按照正常的做法,包括添加hypervisor.cpuid.v0=“FALSE”,pciPassthru.use64bitMMIO=”TRUE”以及pciPassthru.64bitMMIOSizeGB = “64”,系统引导是UEFI。

但是更换显卡之后,Ubuntu的虚拟机直接无法正常引导了,切换了Windows的虚拟机倒是正常。随后删除了hypervisor.cpuid.v0的参数,虚拟机可以启动,安装驱动后nvidia-smi报错:Unable to determine the device handle for GPU 0000:0B:00:00: Unknown ERROR。

分析下,nvidia-smi报错大概率是老黄识别了虚拟机环境锁了驱动,但设置hypervisor.cpuid.v0会导致虚拟机无法启动,最开始怀疑是kernel的问题重新开了个虚拟机实例,故障相同,随后查找VMware官网的论坛和Nvidia的官网,发现这应该是VM的锅:

安装上对应的更新后问题解决,下载链接:ESXi资源,升级过程较为简单,首先网页上把安装包上传,再ssh上主机之后安装。

安装过程中遇到了一些小问题,由于跑的是Dell定制过的东西,升级遇到部分冲突:

解决的话直接卸载对应的包:esxcli software vib remove -n 冲突的包名




我的esxi和vcsa是7.0.3版本的,由于Dell7920没有集显输出所以安装esxi系统的时候不得已上了一块gt750显卡。
在Tesla p100切换直通的时候直接失败,提示GetDeviceID Field. 但是实际上我的驱动和系统所识别的ID都没有问题。。。。。





推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://hqyman.cn/post/9365.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: