20
2023
05
03:56:32

VMware vSphere容错虚拟机故障排除方法

VMware vSphere容错虚拟机故障排除方法

间隙填充

    在使用VMware虚拟化时,虚拟机会出现一些问题,正睿科技有限公司作为VMware的合作伙伴,今天就来与大家分享一下VMware vSphere容错虚拟机故障排除方法。

    1、硬件虚拟化未启用

    使用 vSphere Fault Tolerance 之前,必须启用硬件虚拟化 (HV)。

    现象问题:尝试打开启用了 Fault Tolerance 的虚拟机的电源时,如果未启用 HV,则可能会显示一条错误消息。

    原因分析:通常情况下,出现此错误的原因是:对于您尝试在其上打开虚拟机电源的 ESXi 服务器,HV 在其上不可用。硬件虚拟化不可用的原因可能是其不受 ESXi 服务器硬件支持或未在 BIOS 中启用。

    解决方法:
    a、如 ESXi 服务器硬件支持硬件虚拟化,但当前未启用硬件虚拟化,请在该服务器的 BIOS 中将其启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。
    b、如 ESXi 服务器硬件不支持硬件虚拟化,请切换到使用支持 Fault Tolerance 的处理器的硬件。

    2、无兼容主机可用于辅助虚拟机

    如果打开启用了 Fault Tolerance 的虚拟机的电源,但没有为辅助虚拟机提供任何兼容主机,可能会显示一条错误消息。

    现象问题:您可能遇到以下错误消息:辅助虚拟机无法打开电源,因为没有兼容主机可以容纳该虚拟机。

    原因分析:这可能是由多种原因造成的,包括群集内没有其他主机、没有其他已启用硬件虚拟化的主机、数据存储不可访问、可用容量不足或主机正处于维护模式中。

    解决方法:如果主机数量不足,请向群集内添加更多主机。如果群集内有多台主机,请确保它们支持硬件虚拟化且硬件虚拟化已启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。检查主机是否有足够容量,并确认它们未处于维护模式中。

    3、过载主机上的辅助虚拟机降低主虚拟机的性能

    如果主虚拟机的执行速度似乎缓慢,即便它所在主机上的负载较轻且有空闲 CPU 时间,也请检查运行辅助虚拟机的主机是否负载较重。

    现象问题:当辅助虚拟机所在的主机负载过重时,这会影响主虚拟机的性能。此问题的症状是主虚拟机“Fault Tolerance”面板上的“vLockstep 时间间隔”指示器为黄色或红色。这表示辅助虚拟机比主虚拟机的运行慢数秒。在这种情况下,Fault Tolerance 将减慢主虚拟机的速度。如果“vLockstep 时间间隔”指示器长时间保持为黄色或红色,则充分表明辅助虚拟机未能获取足够的 CPU 资源,因此跟不上主虚拟机的速度。

    原因分析:在 CPU 资源过载的主机上运行的辅助虚拟机获取的 CPU 资源与主虚拟机获取的 CPU 资源数量可能不同。当出现此情况时,主虚拟机必须减速以使辅助虚拟机跟进,将主虚拟机的执行速度大大降低至辅助虚拟机的较慢速度。

    解决方法:要解决此问题,请为主虚拟机设置明确的 CPU 预留(以 MHz 为单位),该预留应足以在所需性能级别上运行负载。此预留对于主虚拟机和辅助虚拟机均适用,能够确保两者均能以指定的速率执行。有关设置此预留的指导,请在启用 Fault Tolerance 前查看虚拟机的性能图表以查看在正常条件下使用的 CPU 资源量。

    4、具有较大内存的虚拟机会阻止使用 Fault Tolerance

    只能在内存最大为 64 GB 的虚拟机上启用 Fault Tolerance。

    现象问题:在具有 64 GB 以上内存的虚拟机上启用 Fault Tolerance 会失败。如果正在运行的容错虚拟机的内存大于 15 GB,或者如果内存的更改速率比 vMotion 通过网络复制的速率要快,则使用 vMotion 迁移此虚拟机也会失败。

    原因分析:如果由于虚拟机的内存大小而没有足够的带宽以在默认超时时间段(8 秒)内完成 vMotion 切换操作,则会出现此问题。

    解决方法:要解决此问题,请在启用 Fault Tolerance 前,关闭虚拟机电源并将下行添加到虚拟机的 vmx 文件中,以增加虚拟机的超时时间段:ft.maxSwitchoverSeconds = "30",其中 30 是超时时间段的数值,以秒为单位。启用 Fault Tolerance 并重新打开虚拟机电源。除了在网络活动极多的情况下,此解决方案均可正常使用。

    注:如果您将超时时间段增加到 30 秒,则在启用 FT 或在故障切换之后创建新辅助虚拟机时,容错虚拟机可能会在较长时间内都没有响应(最多 30 秒)。

    5、辅助虚拟机出现 CPU 使用过度

    在某些情况中,您可能会注意到某个辅助虚拟机的 CPU 使用率高于其关联的主虚拟机。

    现象问题:当主虚拟机空闲时,主虚拟机和辅助虚拟机的 CPU 使用情况之间的相对差异看起来可能会较大。

    原因分析:在辅助虚拟机上重放事件(如计时器中断)比在主虚拟机上记录事件的成本稍高。而额外开销较小。

    解决方法:不需要解决办法。检查实际 CPU 使用情况时会发现主虚拟机或辅助虚拟机当前消耗的 CPU 资源很少。

    6、主虚拟机遭受空间不足错误

    如果正在使用的存储系统内置了精简置备,则主虚拟机在遇到空间不足错误时可能会发生崩溃。

    现象问题:使用精简置备的存储系统时,主虚拟机可能会发生崩溃。辅助虚拟机替换了主虚拟机,但显示“没有更多空间可供虚拟磁盘 <disk_name> 使用”的错误消息。

    原因分析:如果精简置备内置到存储系统中,则 ESX/ESXi 主机不能了解是否已为一对容错虚拟机分配足够的磁盘空间。如果主虚拟机要求额外的磁盘空间,但存储器上没有剩余的空间,则该主虚拟机将崩溃。

    解决方法:错误消息会提供选项,您可以通过单击“重试”以继续会话,或者单击“取消”以终止会话。请确保具有足够的磁盘空间用于容错虚拟机对,并单击“重试”。

    7、Fault Tolerant 虚拟机故障切换

    即使主虚拟机或辅助虚拟机的 ESXi 主机未崩溃,主虚拟机或辅助虚拟机也可进行故障切换。在这种情况下,虚拟机执行不会中断,但会临时失去冗余。要避免此类故障切换,请了解可能会出现此类故障切换的一些情况,并采取措施进行避免。

    7.1、与存储器有关的部分硬件故障

    当存储器访问缓慢或无法访问某台主机时,可能出现此问题。此问题发生时,VMkernel 日志中将列出许多存储器错误。要解决此问题,必须解决与存储器有关的问题。

    7.2、与网络有关的部分硬件故障

    如果日志记录网卡不能正常工作或通过该网卡与其他主机的连接断开,将触发容错虚拟机进行故障切换,从而重新建立冗余。要避免此问题,请将每个独立网卡专门用于 vMotion 和 FT 日志记录通信,并仅在虚拟机活动较少时执行 vMotion 迁移。

    7.3、日志记录网卡网络上的带宽不足

    如果主机上有过多的容错虚拟机,则会发生此问题。要解决此问题,请将容错虚拟机对分布到更多的不同主机上。

    7.4、由虚拟机活动级别引起的 vMotion 故障

    如果通过 vMotion 迁移容错虚拟机失败,则虚拟机可能需要进行故障切换。此问题通常在虚拟机过于活跃(因而无法在对其造成最小损坏的情况下完成迁移)时发生。要避免此问题,请只在虚拟机活动较少时执行 vMotion 迁移。

    7.5、VMFS 卷上活动过多可能会导致虚拟机故障切换

    在单一 VMFS 卷上执行大量文件系统锁定操作、虚拟机打开电源/关闭电源或 vMotion 迁移时,可能会触发容错虚拟机进行故障切换。可能发生此现象的症状为在 VMkernel 日志中收到许多有关 SCSI 预留的警告。要解决此问题,请减少文件系统操作的数量,或确保容错虚拟机位于 VMFS 卷上,而且该卷上没有大量定期打开电源/关闭电源或使用 vMotion 进行迁移的其他虚拟机。

    7.6、文件系统空间不足导致无法启动辅助虚拟机

    请检查 /(root) 或 /vmfs/datasource 文件系统中是否有可用空间。这些文件系统可能会因多种原因而变得空间已满,空间不足会导致您无法启动新辅助虚拟机。




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://hqyman.cn/post/4149.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: