11
2024
10
19:35:31

HUAWEI USG6000E, USG6000, USG9500, NGFW Module V500, V600 维护宝典 系统级故障案例

https://support.huawei.com/enterprise/zh/doc/EDOC1000160160/bb075be2


系统级故障案例

故障案例:整机或单板温度异常

现象描述

设备终端出现Temperature exceeded the upper prealarm limittemperature error之类的温度告警信息。

打印信息显示有温度报警,可以在主控板的串口环境下执行display alarm all指令,可以看到日志或串口打印信息中存在以下内容:

  • 告警信息1:

    SRM_ENTITY/2/UNSTABLERESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.13 The board temperature exceeded the upper limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143616)
  • 告警信息2:

    SRM_ENTITY/2/UNSTABLERESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.13 The board temperature exceeded the upper limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143617)
  • 告警信息3:

    SRM_ENTITY/2/BRDTEMPFATALALARM: OID 1.3.6.1.4.1.2011.5.25.219.2.10.15 The board temperature exceeded the fatal limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]",EntityThresholdType=[integer], EntityThresholdCritical=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143872)
  • 告警信息4:

    SRM_ENTITY/2/TEMPALARM: OID 1.3.6.1.4.1.2011.5.25.219.2.10.2 Ambient temperature was abnormal. (EntityPhysicalIndex=[integer], EntityThresholdType=[integer], EntityThresholdValue=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=140544)

相关告警与日志

打印信息显示有温度报警,可以在主控板的串口环境下执行display alarm all指令,可以看到日志或串口打印信息中存在以下内容:

  • 告警信息1:

    SRM_ENTITY/2/UNSTABLERESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.13 The board temperature exceeded the upper limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143616)
  • 告警信息2:

    SRM_ENTITY/2/UNSTABLERESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.13 The board temperature exceeded the upper limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143617)
  • 告警信息3:

    SRM_ENTITY/2/BRDTEMPFATALALARM: OID 1.3.6.1.4.1.2011.5.25.219.2.10.15 The board temperature exceeded the fatal limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]",EntityThresholdType=[integer], EntityThresholdCritical=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143872)
  • 告警信息4:

    SRM_ENTITY/2/TEMPALARM: OID 1.3.6.1.4.1.2011.5.25.219.2.10.2 Ambient temperature was abnormal. (EntityPhysicalIndex=[integer], EntityThresholdType=[integer], EntityThresholdValue=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=140544)

原因分析

图10-12 温度异常故障诊断流程

  • 原因一:空余槽位没有插入假拉手条。

  • 原因二:风扇模块故障。

  • 原因三:防尘网堵塞。

  • 原因四:环境温度过高。

  • 原因五:芯片温度过高。

操作步骤

  • 原因一:空余槽位没有插入假拉手条。

    空余的单板槽位如果没有插入假拉手条,会造成风扇散热效果减弱,致使温度超限。

    检查空余槽位是否插入假拉手条。

    • 如果有,执行原因二。

    • 如果没有,插入假拉手条。

  • 原因二:风扇模块故障。

    风扇模块故障会造成温度超限,风扇模块STATUS灯红色闪烁表示风扇模块故障,解决措施请参考故障案例:风扇异常

  • 原因三:防尘网堵塞。

    防尘网主要作用是为机框内部各组件的散热进风提供灰尘过滤功能,防尘网堵塞会造成风量减少,致使温度超限。

    检查防尘网是否被灰尘堵塞。

    • 如果是,清洗防尘网。

    • 如果不是,执行原因四。

  • 原因四:环境温度过高。

    设备长期正常运行环境温度为0℃~45℃。环境温度超过45℃,会造成设备温度超限。

    检查环境温度是否超过45℃。

    • 如果是,请降低环境温度。

    • 如果不是,执行原因五。

  • 原因五:芯片温度过高。

    检查完上述原因后,过几分钟,如果出现下面的加粗告警信息,说明问题解决;否则,温度超限的原因可能为芯片温度过高,请联系华为技术工程师。

    SRM_ENTITY/4/BRDTEMPRESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.14 The board temperature was restored to a normal value. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143616)
    SRM_ENTITY/4/BRDTEMPRESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.14 The board temperature was restored to a normal value. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143617)
    SRM_ENTITY/4/BRDTEMPFATALRESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.16 The board temperature was restored to a normal value. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName=[STRING], EntityThresholdType=[integer], EntityThresholdCritical=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143872)
    SRM_ENTITY/4/TEMPRESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.2 Ambient temperature became normal. (EntityPhysicalIndex=[integer], EntityThresholdType=[integer], EntityThresholdValue=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=140544)

建议与总结

在日常维护中可使用命令display temperature slot slot-id查看设备的温度是否正常。

<sysname> display temperature lpu slot 2  Base-Board, Unit:C, Slot1  PCB       I2C Addr Chl  Status  Minor Major Fatal Adj_speed Temp                                                TMin Tmax (C) ---------------------------------------------------------------  LPUF120A  0   74   0    NORMAL  85    90    96    73   83   42 LPUF120A  0   75   0    NORMAL  83    88    93    70   80   41  LPUF120A  0   73   0    NORMAL  83    92    100   70   80   40 LPUF120A  0   72   0    NORMAL  75    80    85    62   72   43 LPUF120A  7   175  0    NORMAL  92    100   105   80   90   52  LPUF120A  7   175  1    NORMAL  97    102   105   85   95   51  LPUF120A  0   76   0    NORMAL  83    88    95    70   80   41  EFGFB     7   177  0    NORMAL  95    100   110   88   98   52  EFGFB     5   73   0    NORMAL  80    85    90    68   78   40

表10-5 display temperature命令输出信息描述

项目

描述

PCB

单板类型

I2C

温度传感器编号

Addr

温度传感器地址

Chl

温度传感器通道

Status

温度传感器的状态

Minor

轻微告警最低值

Major

严重告警最低值

Fatal

致命告警值,当温度达到或者超过致命告警值时,可能会引起设备工作异常或设备损坏

Adj_speed TMin

表示温度达到这个值时风扇开始调速

Adj_speed TMax

表示温度达到这个值时风扇转速达到100%

Temp(C)

当前温度

故障案例:风扇异常

现象描述

USG9580和USG9560风扇框位于系统出风口,两个风扇框并排放置,每框有1个风扇,单风扇失效时能够支持系统在环境温度40℃下短期工作。风扇模块外观如图10-13所示。

USG9520的风扇模块位于机箱的后侧,完成对设备的抽风散热功能。

USG9520的风扇模块由风扇框、2个风扇、风扇监控板FCB等组成,外观如图10-14所示。单风扇失效时能够支持系统在环境温度40℃下短期工作。

可以通过风扇模块指示灯来查看FW风扇工作状态。当指示灯STATUS为绿色闪烁时(0.5Hz),表示风扇模块工作正常;指示灯STATUS为红色闪烁时(0.5Hz),表示风扇模块出现故障。

关于风扇模块指示灯的具体说明请见参考信息。图10-13 USG9580和USG9560风扇模块外观
图10-14 USG9520风扇模块外观

相关告警与日志

原因分析

图10-15 风扇故障处理诊断流程

操作步骤

  1. 在任意视图下执行命令display device,检查风扇的状态。

    <sysname> display device USG9560's Device status: Slot #    Type       Online    Register      Status      Primary                 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -      1         LPU        Present   Registered    Normal      NA    2         SPU        Present   Registered    Normal      NA   6         LPU        Present   Registered    Normal      NA  8         SPU        Present   Registered    Normal      NA  9         MPU        Present   NA            Normal      Master 10        MPU        Present   Registered    Normal      Slave 12        SFU        Present   Registered    Normal      NA   13        SFU        Present   Registered    Normal      NA  14        CLK        Present   Registered    Normal      Master 15        CLK        Present   Registered    Normal      Slave  16        PWR        Present   Registered    Abnormal    NA  17        PWR        Present   Registered    Normal      NA   18        FAN        Present   Registered    Normal      NA  19        FAN        Present   Registered    Normal      NA

    Type字段表示模块类型,Status字段表示状态。

    根据加粗的显示信息,如果FAN模块状态为Abnormal说明风扇出现异常。

  2. 插拔风扇模块,确认能否恢复正常。

    如果无法恢复正常,则继续执行3

  3. 将风扇模块拔出进行清洁后重新插入。

    如果无法恢复正常,则继续执行4

  4. 更换风扇框。

    如果更换风扇模块后仍无法恢复正常,请联系华为工程师进一步处理。

建议与总结

表10-6 USG9580和USG9560风扇模块指示灯说明

名称

指示灯颜色

状态描述

STATUS

绿色

闪烁(0.5Hz),表示风扇工作正常。

红色

闪烁(0.5Hz),表示风扇模块故障或PEM故障(包括PEM模块未全部上电)。

表10-7 USG9520风扇模块面板上的指示灯说明

名称

指示灯颜色

状态描述

STATUS

绿色

闪烁(0.5Hz),表示风扇模块工作正常。

红色

闪烁(0.5Hz),表示风扇模块故障或电源模块故障(包括其中一个电源模块没有输入)。

故障案例:电源异常

现象描述

USG9580和USG9560在直流电源供电时,直接将直流电源线连接到PEM的输入端。

USG9580在交流电源供电时,外置2个交流电源框,根据整机功率大小选配整流模块的数量,再将交流电源框的直流输出连接到设备的PEM输入端,给设备供电(交流电源供电是在直流供电的基础上增加外置的交流电源框)。USG9580采用8个70A的PEM模块,支持4+4备份。

USG9560在交流电源供电时,外置1个交流电源框,根据整机功率大小选配整流模块的数量,再将交流电源框接到设备的直流PEM输入端,给设备供电(交流电源供电是在直流供电的基础上增加外置的交流电源框)。USG9560采用4个70A的PEM模块,支持2+2备份。

USG9520系统支持直流及交流供电。两个交流电源或两个直流电源构成1+1冗余备份,来增加供电的可靠性。

图10-16图10-17图10-18图10-19所示,USG9500电源工作状态可以通过电源模块指示灯来查看。关于电源模块指示灯的具体说明请见参考信息。

图10-16 USG9580和USG9560的PEM模块外观示意图
图10-17 USG9580和USG9560交流电源框外观示意图

1.电源运行指示灯

2.保护指示灯

3.故障指示灯

图10-18 USG9520直流电源模块外观及面板示意图
图10-19 USG9520交流电源模块外观及面板

相关告警与日志

原因分析

图10-20 电源故障处理诊断流程

操作步骤

  1. 执行命令display device,检查电源的状态。

    <sysname> display device USG9560's Device status: Slot #    Type       Online    Register      Status      Primary  - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -      1         LPU        Present   Registered    Normal      NA  2         SPU        Present   Registered    Normal      NA  6         LPU        Present   Registered    Normal      NA  8         SPU        Present   Registered    Normal      NA   9         MPU        Present   NA            Normal      Master  10        MPU        Present   Registered    Normal      Slave  12        SFU        Present   Registered    Normal      NA  13        SFU        Present   Registered    Normal      NA  14        CLK        Present   Registered    Normal      Master  15        CLK        Present   Registered    Normal      Slave 16        PWR        Present   Registered    Abnormal    NA  17        PWR        Present   Registered    Normal      NA  18        FAN        Present   Registered    Normal      NA  19        FAN        Present   Registered    Normal      NA

    Type字段表示模块类型,Status字段表示状态。

    根据加粗的显示信息,如果PWR模块状态为“Abnormal”说明电源出现异常。

  2. 插拔故障电源,确定能否恢复正常。

    如果无法恢复正常,则继续执行3

  3. 更换电源插座,确认更换后能否恢复正常。

    如果无法恢复正常,则继续执行4

  4. 更换同类型的电源模块,确认更换后能否恢复正常。

    如果更换电源后仍无法恢复正常,请联系华为工程师进一步处理。

建议与总结

表10-8 USG9580和USG9560的PEM模块指示灯说明

名称

指示灯颜色

状态描述

RUN

绿色

输出正常指示灯。常亮,表示正常输出。

ALM

红色

电源故障指示灯。常亮,表示:

  • 电源模块防雷电路失效。

  • 电源模块没有接输入的电源线。

表10-9 USG9580和USG9560交流电源框面板指示灯说明

名称

指示灯颜色

正常状态

异常状态

异常原因

电源运行指示灯

绿色

市电故障(无交流输入、交流输入过欠压)、模块无输出。

保护指示灯

黄色

温度预告警(环境温度超过65℃~过温关机)

休眠关机(休眠关机时模块只亮保护指示灯,模块不上报告警)

故障指示灯

红色

输出过压关机、风扇故障、过温关机、模块内部原因引起的无输出。

表10-10 USG9520直流电源模块指示灯说明

名称

指示灯颜色

状态描述

RUN

绿色

输出正常指示灯。常亮,表示正常输出。

ALM

红色

电源故障指示灯。常亮,表示:

  • 电源模块防雷电路失效。

  • 其中一个电源模块没有输入。

表10-11 USG9520交流电源模块指示灯说明

名称

指示灯颜色

状态描述

RUN

绿色

运行正常指示灯。常亮,表示电源模块工作正常。

ALARM

黄色

保护指示灯。ALARM灯亮,表示电源模块出现可恢复故障。

  • 闪烁,表示当前通信中断。

  • 常亮,表示出现输入过压或欠压、过流等故障。

FAULT

红色

故障指示灯。常亮,表示电源模块出现不可恢复故障。如:风扇故障,无电流输出,输出电流短路等。




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://hqyman.cn/post/8170.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: