06
2025
02
09:23:12

延伸集群并非皇冠上的明珠

   接触到vSAN的朋友,只要稍不留意就会或多或少知道延伸集群,从厂商的宣传资料,到实施的要求,让人感觉似乎是vSAN皇冠上的明珠,特别是工程师,很容易掉进这种“技术至上”陷阱,包括我自己。

        可能有些朋友第一接触这个概念,可以先参考官方的中文微博:
https://blogs.vmware.com/china/2018/12/29/vsan-%e5%bb%b6%e4%bc%b8%e9%9b%86%e7%be%a4-stretched-cluster-%e6%bc%94%e7%a4%ba/
图片

        厂商或供应商大都告诉了其优点,但往往避开讨论vSAN延伸集群将给您带来的限制,这里最关键就是当两个站点间用于vSAN数据同步的网络中断时,由于再也无法通过这个网络进行两个副本的数据同步,为了数据的完整性,延伸集群只能保留其中一个主要站点(prefer site)的副本,将另外一个次要站点(second site)的副本舍弃掉,也就是会将次要站点上的vSAN存储卸载掉,次要站点的虚拟机瞬间失去存储;如果HA被正确地配置,HA会POWER OFF在次要站点,失去存储的虚拟机,因为这些虚拟机还霸占了网络地址,也不太可能运行正常,并将这些虚拟机在主要站点重启;一般来说,延伸集群的负载在两个站点将大致各占一半,这样主要站点将承接全部的业务负载,这仅仅是因为一条网络发生故障!但还没有完,这是大多数客户由于成本考虑不大会采取站点内再增加副本的存储策略(如下图),如果是OSA架构,这样一个虚拟机将变成4个副本,存储消耗加倍,所以这时,大多数情况虚拟机已经只要一个副本了,假如这时同步网络长时间不能修复,主要站点中没有额外存储空间让虚拟机多一个冗余,如果出现了硬件故障,比如有磁盘坏了,就很可能丢失数据!
图片

        所以在设计vSAN延伸集群时你就要考虑清楚以下几个基本的问题:
1.站点间同步数据网络有多可靠?
2.任意一个站点能不能有足够的资源承载所有业务?
3.如果同步网络长时间无法修复,在任意一个站点上,有没有足够的存储空间,为所有虚拟机增加冗余?
        一个靠谱的延伸集群,首先需要比普通的vSAN集群,至少首先需要预留一半的计算资源和存储资源,这样的大手笔在财务上是否可以接受;还有就是配置和运维方面,HA一定要配置正确并打开,我遇到的一个事故,就是延伸集群在同步网络中断时,HA没有打开,糟糕的是这时,vCenter也无法管理次要站点的主机,处于次要站点的虚拟机,已经丢失了存储,但由于没有HA,无法自动关机并在主要站点重启,客户大约有200个虚拟机,相当于失去了一半的业务,由于业务间存在关联性,整体业务处于瘫痪状态,那真是一种生不如死的感觉。
        在我的经历中,实施和接触到的生产环境有4个延伸集群的案例,现在回想,其实只有1个还有实施的必要,其余3个延伸集群的必要性都不大,糟糕的是其中有2个还是在我的推荐下客户采用的,想想都有些后悔。
        当然延伸集群不是一无是处,其可以在成本很低的情况下实现业务的异地占线容灾,从技术上看,确实是皇冠上的明珠,但它同时也带来很多限制,需要客户综合地考虑,而工程师们,也不能仅仅将这个技术视为展现自己能力的机会,而是要考虑清楚必要性,客户的成本,客户的维护能力,慎重推荐。




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://hqyman.cn/post/8926.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: