31
2024
05
16:04:26

VSAN故障案例分享——超经典三场景



推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

前言:虽然个人认为现VSAN的常规运维都已经很成熟便捷了(像磁盘更换),但还是有诸多需要注意的地方。近期又突然跟VSAN项目有了一些交集,整理原有资料时,发现有几个不错的案例,故拿出来出大家分享下。如有不足之处,也希望大佬们帮指正。


 


-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------


 


1.山西某大学商学院VDI和IDV的项目(VSAN磁盘被写满问题)


 


背景需求:150个用户的大电教习的上课VDI需求,需要能切换多个教学模版以满足不同环境的上课类型,并能一键切换到本地终端系统,以满足英语四六级口语考试和计算等级教室。


解决方案:VMware vsphere +VSAN +VDI产品 满足学生上课需求。 使用IDV产品方案满足本地终端的考试需求。


硬件平台:5台服务器+交换机+150个X86终端。(其中X86终端为双系统模式,既IDV+VDI双系统,可通过管理平台一键切换)


 


问题:收到代理商反馈学校VSAN群集内所有虚拟机近两个星期运行速度慢,已排服务器硬件,网络没有问题。


 


解决:1、远程排查服务器硬件,网络正常。


2、检查vsan健康检查,有提示vsan容量使用告警信息。查看vsan容量,使用率接近90%。


3、与客户沟通了解,学校近期有新增开课班级。VDI桌面新增100多个。


4、检查学生个人数据盘占用大量空间(占VSAN总容量的30%)(且多为视频,MP3,游戏)。


5、临时解决方案,与学校老师沟通,清理部分学生的个人数据盘,释放空间。


6、最终解决方案,增加节点服务器,扩容VSAN容量总空间。


总结:


发生“vSAN磁盘写满”时应该做什么?


关闭正在运行的vSAN释放vswap文件

迁移VM到其他存储

添加新的资源到vSAN当中,例如新的主机,新的磁盘。

(谨慎)调整VM的存储策略,例如从FTT=1到FTT=0,从"thick"调整到“thin”

检查故障的主机/磁盘/磁盘组,尝试把他们恢复到正常状态

(谨慎)删除一些不重要的VM

如何避免类似的问题发生?


确保vSAN有足够的使用可用空间(厂家建议使用率不超70%)

培养良好的使用习惯,定期进行vSAN健康检查。

 


 


2.安徽某职业教育中心电教室项目(节点故障RAID卡故障,RAID0)


 


背景需求:两个电教室共120多用户,需要满足高中专的教学需求。


解决方案:VMware vsphere +VSAN +VDI产品产品的解决方案


硬件平台:5台服务器做VMware vsphere +VSAN  +120台RAM架构终端


 


问题:收到学校老师反馈,VSAN容量变少,一台服务器开不了机。但学生机还可正常使用。


 


解决: 1、通过代理商与老师电话沟通,现VDI平台,VC平台正常,服务器没有配置远程BCM,老师对硬件也不熟悉


   2、学校出费用,打飞的,跑到现场。


  3、检查VC平台,故障主机状态为“未响应”。VSAN群集状态正常,FTT=1,


 4、检查服务器,不知名小厂家服务器,开机检查为RADI卡故障。更换同型号RADI卡


5、对照其他主机RAID信息,容量盘,缓存盘,均为RAID0配置。


6、沟通厂家,重做RAID,重装系统,重新添加到VSAN群集内


总结:


1、客户VSAN群集为BYO配置(用户自定义组合配置)多项VSAN健康检测告警。


2、RAID卡故障,且磁盘使用的RAID0


3、未使用正确IO控制器的配置方式


4、RAID0容量磁盘故障,增加运维风险,不能热插拔,需求通过RAID卡重做RAID0再加入


 


 


3.厦门某连锁品牌店 (VSAN群集异常关机,断电,VC在VSAN群集内)


 


背景需求:原办工电脑老旧,需要利旧并满足150个用户的办工需求。以减轻维护人员的工作量并集中管理用户


解决方案: VMWare Vsphere +VSAN +windows AD 解决方案


硬件平台:4台服务器+网络+部分终端 +旧电脑利旧


 


问题:接到客户反馈,公司新机房断电,所有四台物理机已开机ESXI主机可ping通,但是VC,VDI桌面都无法登录。


 


解决: 1、远程登录,登录每台ESXI主机,查找确定VC所在位置


2、开启VC平台,并设置VC和VDI平台随主机启动。


3、检测VSAN群集状态,VSAN健康状态为正常


4、检测数据,正常


 


总结:本次问题有,VSAN群集异常断电恢复。VC在VSAN群集内。


1、同时为所有主机回电,


2、等待主机VSAN完成自检校验


3、检验完成前,不能SSH,Client端登录ESXI主机


4、VC在VSAN群集中需要有正确的开关机顺序


VC在VSAN群集中关机顺序:


1、关闭除VC外的所有VM机器


2、关闭VC虚拟机,WEB页面将不可用


3、使用命令将所有ESXI主机进入维护模式


#esxcli system maintenancMode set -e true -m noAction

4、关闭所有主机


VC在VSAN群集开机顺序


1、优先开启VC所在的ESXI主机,再开启所有其它ESXI主机


2、使用client登录VC所在ESXI,退维护模式,启动VC虚拟机


3、VC正常后,登录VC控制台,对其它ESXI主机退出维护模式


4、检测VSAN分钟状态。


5、开启其它VM


本文链接:https://hqyman.cn/post/6402.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

您的IP地址是: