vSAN SSD的更换阈值-HQY 一个和谐有爱的空间

06

2025
02
09:58:46

vSAN SSD的更换阈值

随着SSD的价格下降，业务对延迟的要求越来越苛刻，所以SSD在基础架构中的使用越来也多，VMware环境中大家最早接触到SSD可能就是vSAN环境，之前我已经发表了如何查询SSD寿命的方法，分别针对SCSI（SATA可以看成是SCSI的消费级别版本）协议和NVME协议：

esxicli了解SSD寿命》" linktype="text" imgurl="" imgdata="null" tab="innerlink" data-linktype="2">《通过esxicli了解SSD寿命》

《通过esxicli了解SSD寿命之二》

还有一种场景是SSD不是采用直通模式，而是做成RAID0被vSAN使用，这种情况下上述命令无法检查SSD寿命，需要通过阵列卡来查询SSD寿命，因为我一直都反对采用这种模式，这种场景也比较少，所以就不深入讨论了。

但是我一直没有确定更换的阈值，我曾经咨询过华为存储的工程师，他告诉我全闪存储的SSD硬盘，华为设置的报警磨损阈值是90%，看到这个报警后，工程师就会更换，也就是华为存储SSD部件的更换阈值是90%；但我一直没有从VMware的官方了解到应该在磨损到什么程度时就应该更换SSD，直到看到这个KB

VOBs for vSAN SSD endurance alarm introduced in vSphere 8.0U2

https://knowledge.broadcom.com/external/article/326721/vobs-for-vsan-ssd-endurance-alarm-introd.html

在这篇KB中，VMware说在vSAN 8.0u2以上的版本，并且这个NVMe SSD是ESA架构的成员时，vSphere会监控其寿命，并在达到一定阈值时报警

VOB message	Category	Purpose	Release
esx.problem.vsan.health.ssd.endurance.error	One of the disks exceeds 90% of its estimated endurance threshold.	Warning	Any NVMe disk in vSAN ESA will trigger this event when it exceeds 90% of its estimated endurance threshold.	vSphere 8.0 U2
esx.problem.vsan.health.ssd.endurance.warning	One of the disks exceeds the estimated endurance threshold.	Critical	Any NVMe disk in vSAN ESA will trigger this event when it exceeds 100% of its estimated endurance threshold.	vSphere 8.0 U2
esx.problem.vsan.health.ssd.endurance	One or more disks exceed its/their warning usage of estimated endurance threshold.	Info	Users can customize endurance thresholds for vCenter clusters, hosts, and disks	vSphere 8.0 U3

从这里看到VMware 选择的90%作为报警（黄色）的阈值，100%时严重报警(红色)，可以理解成在90%以上的SSD就可以考虑更换了，超过100%的时候，就应该马上更换。

VMware在SSD的寿命监控方面，其实还不如很多国产厂商，即使在8.0u2中开始做监控，还是很小气，只监控ESA架构下的NMVe SSD，相对于OSA架构，实际上ESA架构中如果损失一块SSD，影响不大，只是损失一块磁盘的容量，只需要修复一块磁盘的数据；但是OSA架构中，如果作为缓存的SSD故障，是会丢失一个磁盘组的容量，需要修复一个磁盘组的数据，实际上更应该监控的是OSA架构下的缓存盘的寿命；KB中说在8.0U3，VMware允许客户对这个报警进行客户化，就是说其有些不自信，在我看来对于ESA架构，可以设置为95%报警，100%严重，考虑到故障的代价，90%报警，实在有些浪费，而OSA架构下，由于故障的代价大，特别是一些客户已经在vSAN使用率到了70%以上，一个磁盘组的故障还会引起其他问题，如虚拟机无法写入数据，所以OSA架构应该将报警设置在90%，这时至少应该准备好备件，可以随时应对SSD故障。

根据我对一些客户SSD寿命的持续观察，发现SSD的磨损极其不均衡，可能是因为其所对应的业务特性，而vSAN并不会根据SSD磨损进行均衡分配，所以某个高写入的业务会一直使用某个SSD作为缓存，客户的环境中SSD的磨损速度可以相差3倍；在vSAN环境刚投产的时候，大约每个季度检查一下SSD是合适间隔，但到了SSD普遍磨损超过50%后，可能每个月都应该进行检查，做到有备无患；累计一些检测数据后，其实就可以摸清楚，每个SSD磨损速度，比如有些是每个月1%，有些更高，我见过每个月磨损7%的SSD，你可以进行估算，防止出现多块SSD在临近的时间内（比如同一天）故障，这是要特别小心的问题。

总结一下，SSD的写入量达到其估算总写入量90%，保守的客户就可以考虑更换了，一般的客户至少应该做好更换的准备，比如准备好配件；在达到了100%应该立刻更换，即使SSD现在还没有出现故障，不应该抱有侥幸心理，总比故障后手忙脚乱要好。

推荐本站淘宝优惠价购买喜欢的宝贝: