13
2024
05
17:09:21

VSAN集群关机重启流程

VSAN集群关机重启流程

最近对一家用户实施搬迁机房,数据中心核心业务运行在VSAN中,vCenter的版本是7.0.3.00100,ESXi的版本是6.5.0.8294253

简单的就是一个7.0VC管理4台6.5ESXI的VSAN,搬迁机房需要关机和重启~

以前在公司做实验都是直接拔电没有进维护模式~~有过VSAN崩溃的经历,也有过进入维护模式关机第二天来VC虚拟机名字成乱码了的经历~

所以这次打算查VMware官网文档来操作关闭和重启VSAN~正路子

可以直接查看按照VMware链接来操作:

官网中提到 vSAN 7.0 Update 3 及更高版本可以直接提供关闭集群向导,我对于文中的VSAN7.0U3概念很模糊!是vCenter的版本呢?还是要求的ESXi版本呢?

我个人认为是vCenter的版本更合理,我立即查看用户的vCenter中是否有这个功能~

右键集群–>VSAN–>仅有上载支持包一个功能;又在集群配置中的VSAN查看–>仅有一个关闭VSAN的功能(和关闭集群不是一个类型)

在这里插入图片描述

在这里插入图片描述


随即,我登录了另一个客户,VC版本7.0.3.00700,找到一个VSAN集群看看是否有关闭集群功能–>有此功能;配置里面的VSAN也有这个选项

在这里插入图片描述

在这里插入图片描述


尝试点一下–>会有个关机预检查,都关机了估计就可以下一步了,这里不做更多叙述了,详细看官方文档

在这里插入图片描述


重新启动VSAN集群:打开服务器电源–>等VC起来(我理解的意思是VC会自启动不需要登录ESXI打开电源)–>右键集群重新启动集群

在这里插入图片描述


要干活的地方不能自动了,只能手动了!

先关闭VSAN集群

  • 询问是否有关联vCenter的或者主机的任务正在进行~比如备份任务正在做快照等,要先都确认关闭

  • 检查 vSAN 运行状况服务以确认集群处于正常运行状态。(用skyline检查一下,我这里提示两个告警,一个是磁盘存储空间告警,一个是假设主机失败告警,其实都是存储空间不足的问题,跟关机没关系),

  • 检查集群—>监控—>VSAN—>重新同步对象,确保当前没有重新同步任何 vSAN 组件

  • 检查集群—>监控—>VSAN—>虚拟对象,如果有单副本的虚拟机建议先改成双副本,有过一次系统故障,重建系统后单副本的虚拟机变成了不可访问对象,数据找不回来了

  • 如果 vSAN 集群中未托管 vCenter Server,请关闭该集群中运行的所有虚拟机的电源。如果 vSAN 集群中托管 vCenter Server,请勿关闭 vCenter Server 虚拟机的电源。(我这里是vCenter托管在VSAN里面的,除了VC都关机)

  • 单击配置选项卡,然后关闭 HA和DRS。因此,集群不会将主机关机事件登记为故障。(关闭HA还是要得,要不可能会因为服务器关的满了乱糟糟的,重启后虚拟机都到一个服务器上了)

  • 对于 vSphere 7.0 U1 和更高版本,请启用 vCLS 撤回模式。有关详细信息,请参见相应的 VMware 知识库文章。(突然想起来以前考VMware证书时候有一题是关VSAN前要做的操作,选项里面有vCLS撤回,使用config.vcls.clusters.domain-c<number>.enabled,值先填False,就可以看到vCenter任务里面删除虚拟机)

  • 登录四台SSH确保没问题,关机vCenter

  • 四台服务器登录SSHesxcli system maintenanceMode set -e true -m noAction(不迁移虚拟机和不迁移数据,要是单台维护才选数据可访问)

  • 然后四台服务器poweroff全部关机(全部进入维护模式以后看到虚拟机变成未知等状态不要紧)

开启VSAN集群

  • 交换机都正常起来了再打开四台服务器电源

  • web页面登录四台服务器,选择退出维护模式(SSH也可以esxcli system maintenanceMode set -e false

  • 找到开启vCenter虚拟机(都退出维护后不要着急,一会就能看到虚拟机都提示正常了)

  • 通过skyline健康检查确认vSAN状态

  • 找到config.vcls.clusters.domain-c<number>.enabled的值改为True(看到新建了vCLS虚拟机)

  • 开机其他虚拟机(不要大批量的开机,小心开机风暴,慢慢来)

  • 打开HA和DRS(确保任务完成再下一项任务)

如果出现不可用查看VMware文档

同时重新引导或关闭 vSAN 群集中的所有主机可能会导致在一次故障后出现数据不可用的情况 (60424)

在 vSAN 集群中执行集群级别维护时,如果使用“无操作维护模式”功能并随后重新引导,若集群启动期间出现故障或主机进入 vSAN 取消配置状态,可能会导致数据在维护后不可用。

备注:
维护模式选项“无操作”是指:6.7, 6.0: “无数据迁移”,6.5:“无数据撤出”

问题/故障示例:
- 磁盘故障
- 任何其他硬件问题
- 由于网络问题等情况导致主机无法加入集群

在以下情况下,不存在问题:
- 使用“无操作”以外的任何其他维护模式
- 通过执行“滚动重新引导”重新引导 vSAN 主机(将 vSAN 主机置于维护模式后)

注意:
在通过这种方式进行集群范围的维护之前,应正常关闭所有虚拟机的电源,包括 vCenter Server。
如果 vCenter Server 在 vSAN 集群外运行,且无法关闭电源,则请禁用 vSphere HA 并针对 vSAN 集群将 vSphere DRS 设置为手动。

我理解的意思是不撤出数据一定要关闭所有的虚拟机包括vCenter,曾经有一次是在vCenter开机情况下挨个主机进入维护模式最后再关闭vCenter再维护最后一台服务器导致了重启后vCenter虚拟机崩了变成了不可用状态!




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://hqyman.cn/post/6059.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: