随着SSD的价格下降,业务对延迟的要求越来越苛刻,所以SSD在基础架构中的使用越来也多,VMware环境中大家最早接触到SSD可能就是vSAN环境,之前我已经发表了如何查询SSD寿命的方法,分别针对SCSI(SATA可以看成是SCSI的消费级别版本)协议和NVME协议:
esxicli了解SSD寿命》" linktype="text" imgurl="" imgdata="null" tab="innerlink" data-linktype="2">《通过esxicli了解SSD寿命》
还有一种场景是SSD不是采用直通模式,而是做成RAID0被vSAN使用,这种情况下上述命令无法检查SSD寿命,需要通过阵列卡来查询SSD寿命,因为我一直都反对采用这种模式,这种场景也比较少,所以就不深入讨论了。
但是我一直没有确定更换的阈值,我曾经咨询过华为存储的工程师,他告诉我全闪存储的SSD硬盘,华为设置的报警磨损阈值是90%,看到这个报警后,工程师就会更换,也就是华为存储SSD部件的更换阈值是90%;但我一直没有从VMware的官方了解到应该在磨损到什么程度时就应该更换SSD,直到看到这个KB
VOBs for vSAN SSD endurance alarm introduced in vSphere 8.0U2
https://knowledge.broadcom.com/external/article/326721/vobs-for-vsan-ssd-endurance-alarm-introd.html
在这篇KB中,VMware说在vSAN 8.0u2以上的版本,并且这个NVMe SSD是ESA架构的成员时,vSphere会监控其寿命,并在达到一定阈值时报警
VOB message | Category | Purpose | Release | |
esx.problem.vsan.health.ssd.endurance.error | One of the disks exceeds 90% of its estimated endurance threshold. | Warning | Any NVMe disk in vSAN ESA will trigger this event when it exceeds 90% of its estimated endurance threshold. | vSphere 8.0 U2 |
esx.problem.vsan.health.ssd.endurance.warning | One of the disks exceeds the estimated endurance threshold. | Critical | Any NVMe disk in vSAN ESA will trigger this event when it exceeds 100% of its estimated endurance threshold. | vSphere 8.0 U2 |
esx.problem.vsan.health.ssd.endurance | One or more disks exceed its/their warning usage of estimated endurance threshold. | Info | Users can customize endurance thresholds for vCenter clusters, hosts, and disks | vSphere 8.0 U3 |
从这里看到VMware 选择的90%作为报警(黄色)的阈值,100%时严重报警(红色),可以理解成在90%以上的SSD就可以考虑更换了,超过100%的时候,就应该马上更换。
VMware在SSD的寿命监控方面,其实还不如很多国产厂商,即使在8.0u2中开始做监控,还是很小气,只监控ESA架构下的NMVe SSD,相对于OSA架构,实际上ESA架构中如果损失一块SSD,影响不大,只是损失一块磁盘的容量,只需要修复一块磁盘的数据;但是OSA架构中,如果作为缓存的SSD故障,是会丢失一个磁盘组的容量,需要修复一个磁盘组的数据,实际上更应该监控的是OSA架构下的缓存盘的寿命;KB中说在8.0U3,VMware允许客户对这个报警进行客户化,就是说其有些不自信,在我看来对于ESA架构,可以设置为95%报警,100%严重,考虑到故障的代价,90%报警,实在有些浪费,而OSA架构下,由于故障的代价大,特别是一些客户已经在vSAN使用率到了70%以上,一个磁盘组的故障还会引起其他问题,如虚拟机无法写入数据,所以OSA架构应该将报警设置在90%,这时至少应该准备好备件,可以随时应对SSD故障。
根据我对一些客户SSD寿命的持续观察,发现SSD的磨损极其不均衡,可能是因为其所对应的业务特性,而vSAN并不会根据SSD磨损进行均衡分配,所以某个高写入的业务会一直使用某个SSD作为缓存,客户的环境中SSD的磨损速度可以相差3倍;在vSAN环境刚投产的时候,大约每个季度检查一下SSD是合适间隔,但到了SSD普遍磨损超过50%后,可能每个月都应该进行检查,做到有备无患;累计一些检测数据后,其实就可以摸清楚,每个SSD磨损速度,比如有些是每个月1%,有些更高,我见过每个月磨损7%的SSD,你可以进行估算,防止出现多块SSD在临近的时间内(比如同一天)故障,这是要特别小心的问题。
总结一下,SSD的写入量达到其估算总写入量90%,保守的客户就可以考虑更换了,一般的客户至少应该做好更换的准备,比如准备好配件;在达到了100%应该立刻更换,即使SSD现在还没有出现故障,不应该抱有侥幸心理,总比故障后手忙脚乱要好。
推荐本站淘宝优惠价购买喜欢的宝贝:
本文链接:https://hqyman.cn/post/8938.html 非本站原创文章欢迎转载,原创文章需保留本站地址!
休息一下~~