前言
运维区域:remote,服务器区域:dmz,预发区域:predmz
问题
监控大批量告警dmz大部分服务器监控代理停止(prometheus所在remote区域),紧接着业务系统访问异常
排查处理
ping外网ip通,Telnet业务接口地址443端口不通。
检查防火墙和交换机是否存在告警,发现无异常。
内部测试访问同dmz区域无问题,remote访问dmz部分能通,目前看存在两个问题,外网不通,跨区域内网访问有问题。
怀疑部分外网ip问题,映射别的外网ip,并解析发现不通,同时给电信打电话让其排查是否443端口封禁,未查到问题。
这时别的同事反馈预发环境是通的,由此可排除外网问题,把后台网关服务部署在预发环境,防火墙放行predmz到dmz区域的访问策略,发现predmz无法访问dmz区域,再三确认策略建立的没有问题,于是静下心来分析到底什么原因导致的,推断防火墙策略部分失效了,为了验证这个推断,重启主防火墙,自动切到备机,一切恢复正常。
总结
本次故障处理中领导背后盯着催着有些自乱阵脚,处理思路不清晰,首先发现网络不通的情况后没有及时采取重启等措施先恢复业务,而是错误的把时间精力放在了分析定位问题上,同时也没有想着去测试下预发环境是否正常来排查一些问题。
推荐本站淘宝优惠价购买喜欢的宝贝:
本文链接:https://hqyman.cn/post/8200.html 非本站原创文章欢迎转载,原创文章需保留本站地址!
休息一下~~