https://support.huawei.com/enterprise/zh/doc/EDOC1000160160/bb075be2
系统级故障案例
故障案例:整机或单板温度异常
现象描述
设备终端出现Temperature exceeded the upper prealarm limit或temperature error之类的温度告警信息。
打印信息显示有温度报警,可以在主控板的串口环境下执行display alarm all指令,可以看到日志或串口打印信息中存在以下内容:
告警信息1:
SRM_ENTITY/2/UNSTABLERESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.13 The board temperature exceeded the upper limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143616)
告警信息2:
SRM_ENTITY/2/UNSTABLERESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.13 The board temperature exceeded the upper limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143617)
告警信息3:
SRM_ENTITY/2/BRDTEMPFATALALARM: OID 1.3.6.1.4.1.2011.5.25.219.2.10.15 The board temperature exceeded the fatal limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]",EntityThresholdType=[integer], EntityThresholdCritical=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143872)
告警信息4:
SRM_ENTITY/2/TEMPALARM: OID 1.3.6.1.4.1.2011.5.25.219.2.10.2 Ambient temperature was abnormal. (EntityPhysicalIndex=[integer], EntityThresholdType=[integer], EntityThresholdValue=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=140544)
相关告警与日志
打印信息显示有温度报警,可以在主控板的串口环境下执行display alarm all指令,可以看到日志或串口打印信息中存在以下内容:
告警信息1:
SRM_ENTITY/2/UNSTABLERESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.13 The board temperature exceeded the upper limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143616)
告警信息2:
SRM_ENTITY/2/UNSTABLERESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.13 The board temperature exceeded the upper limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143617)
告警信息3:
SRM_ENTITY/2/BRDTEMPFATALALARM: OID 1.3.6.1.4.1.2011.5.25.219.2.10.15 The board temperature exceeded the fatal limit. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]",EntityThresholdType=[integer], EntityThresholdCritical=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143872)
告警信息4:
SRM_ENTITY/2/TEMPALARM: OID 1.3.6.1.4.1.2011.5.25.219.2.10.2 Ambient temperature was abnormal. (EntityPhysicalIndex=[integer], EntityThresholdType=[integer], EntityThresholdValue=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=140544)
原因分析
图10-12 温度异常故障诊断流程
原因一:空余槽位没有插入假拉手条。
原因二:风扇模块故障。
原因三:防尘网堵塞。
原因四:环境温度过高。
原因五:芯片温度过高。
操作步骤
原因一:空余槽位没有插入假拉手条。
空余的单板槽位如果没有插入假拉手条,会造成风扇散热效果减弱,致使温度超限。
检查空余槽位是否插入假拉手条。
如果有,执行原因二。
如果没有,插入假拉手条。
原因二:风扇模块故障。
风扇模块故障会造成温度超限,风扇模块STATUS灯红色闪烁表示风扇模块故障,解决措施请参考故障案例:风扇异常。
原因三:防尘网堵塞。
防尘网主要作用是为机框内部各组件的散热进风提供灰尘过滤功能,防尘网堵塞会造成风量减少,致使温度超限。
检查防尘网是否被灰尘堵塞。
如果是,清洗防尘网。
如果不是,执行原因四。
原因四:环境温度过高。
设备长期正常运行环境温度为0℃~45℃。环境温度超过45℃,会造成设备温度超限。
检查环境温度是否超过45℃。
如果是,请降低环境温度。
如果不是,执行原因五。
原因五:芯片温度过高。
检查完上述原因后,过几分钟,如果出现下面的加粗告警信息,说明问题解决;否则,温度超限的原因可能为芯片温度过高,请联系华为技术工程师。
SRM_ENTITY/4/BRDTEMPRESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.14 The board temperature was restored to a normal value. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143616)
SRM_ENTITY/4/BRDTEMPRESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.14 The board temperature was restored to a normal value. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName="[STRING]", EntityThresholdType=[integer], EntityThresholdWarning=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143617)
SRM_ENTITY/4/BRDTEMPFATALRESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.16 The board temperature was restored to a normal value. (EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntityPhysicalIndex=[integer], EntPhysicalName=[STRING], EntityThresholdType=[integer], EntityThresholdCritical=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=143872)
SRM_ENTITY/4/TEMPRESUME: OID 1.3.6.1.4.1.2011.5.25.219.2.10.2 Ambient temperature became normal. (EntityPhysicalIndex=[integer], EntityThresholdType=[integer], EntityThresholdValue=[integer], EntityThresholdCurrent=[integer], EntityTrapFaultID=140544)
建议与总结
在日常维护中可使用命令display temperature slot slot-id查看设备的温度是否正常。
<sysname> display temperature lpu slot 2 Base-Board, Unit:C, Slot1 PCB I2C Addr Chl Status Minor Major Fatal Adj_speed Temp TMin Tmax (C) --------------------------------------------------------------- LPUF120A 0 74 0 NORMAL 85 90 96 73 83 42 LPUF120A 0 75 0 NORMAL 83 88 93 70 80 41 LPUF120A 0 73 0 NORMAL 83 92 100 70 80 40 LPUF120A 0 72 0 NORMAL 75 80 85 62 72 43 LPUF120A 7 175 0 NORMAL 92 100 105 80 90 52 LPUF120A 7 175 1 NORMAL 97 102 105 85 95 51 LPUF120A 0 76 0 NORMAL 83 88 95 70 80 41 EFGFB 7 177 0 NORMAL 95 100 110 88 98 52 EFGFB 5 73 0 NORMAL 80 85 90 68 78 40
表10-5 display temperature命令输出信息描述
项目 | 描述 |
---|---|
PCB | 单板类型 |
I2C | 温度传感器编号 |
Addr | 温度传感器地址 |
Chl | 温度传感器通道 |
Status | 温度传感器的状态 |
Minor | 轻微告警最低值 |
Major | 严重告警最低值 |
Fatal | 致命告警值,当温度达到或者超过致命告警值时,可能会引起设备工作异常或设备损坏 |
Adj_speed TMin | 表示温度达到这个值时风扇开始调速 |
Adj_speed TMax | 表示温度达到这个值时风扇转速达到100% |
Temp(C) | 当前温度 |
故障案例:风扇异常
现象描述
USG9580和USG9560风扇框位于系统出风口,两个风扇框并排放置,每框有1个风扇,单风扇失效时能够支持系统在环境温度40℃下短期工作。风扇模块外观如图10-13所示。
USG9520的风扇模块位于机箱的后侧,完成对设备的抽风散热功能。
USG9520的风扇模块由风扇框、2个风扇、风扇监控板FCB等组成,外观如图10-14所示。单风扇失效时能够支持系统在环境温度40℃下短期工作。
可以通过风扇模块指示灯来查看FW风扇工作状态。当指示灯STATUS为绿色闪烁时(0.5Hz),表示风扇模块工作正常;指示灯STATUS为红色闪烁时(0.5Hz),表示风扇模块出现故障。
关于风扇模块指示灯的具体说明请见参考信息。图10-13 USG9580和USG9560风扇模块外观
图10-14 USG9520风扇模块外观
相关告警与日志
无
原因分析
图10-15 风扇故障处理诊断流程
操作步骤
在任意视图下执行命令display device,检查风扇的状态。
<sysname> display device USG9560's Device status: Slot # Type Online Register Status Primary - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 1 LPU Present Registered Normal NA 2 SPU Present Registered Normal NA 6 LPU Present Registered Normal NA 8 SPU Present Registered Normal NA 9 MPU Present NA Normal Master 10 MPU Present Registered Normal Slave 12 SFU Present Registered Normal NA 13 SFU Present Registered Normal NA 14 CLK Present Registered Normal Master 15 CLK Present Registered Normal Slave 16 PWR Present Registered Abnormal NA 17 PWR Present Registered Normal NA 18 FAN Present Registered Normal NA 19 FAN Present Registered Normal NA
Type字段表示模块类型,Status字段表示状态。
根据加粗的显示信息,如果FAN模块状态为Abnormal说明风扇出现异常。
插拔风扇模块,确认能否恢复正常。
如果无法恢复正常,则继续执行3。
如果无法恢复正常,则继续执行4
如果更换风扇模块后仍无法恢复正常,请联系华为工程师进一步处理。
建议与总结
表10-6 USG9580和USG9560风扇模块指示灯说明
名称 | 指示灯颜色 | 状态描述 |
---|---|---|
STATUS | 绿色 | 闪烁(0.5Hz),表示风扇工作正常。 |
红色 | 闪烁(0.5Hz),表示风扇模块故障或PEM故障(包括PEM模块未全部上电)。 |
表10-7 USG9520风扇模块面板上的指示灯说明
名称 | 指示灯颜色 | 状态描述 |
---|---|---|
STATUS | 绿色 | 闪烁(0.5Hz),表示风扇模块工作正常。 |
红色 | 闪烁(0.5Hz),表示风扇模块故障或电源模块故障(包括其中一个电源模块没有输入)。 |
故障案例:电源异常
现象描述
USG9580和USG9560在直流电源供电时,直接将直流电源线连接到PEM的输入端。
USG9580在交流电源供电时,外置2个交流电源框,根据整机功率大小选配整流模块的数量,再将交流电源框的直流输出连接到设备的PEM输入端,给设备供电(交流电源供电是在直流供电的基础上增加外置的交流电源框)。USG9580采用8个70A的PEM模块,支持4+4备份。
USG9560在交流电源供电时,外置1个交流电源框,根据整机功率大小选配整流模块的数量,再将交流电源框接到设备的直流PEM输入端,给设备供电(交流电源供电是在直流供电的基础上增加外置的交流电源框)。USG9560采用4个70A的PEM模块,支持2+2备份。
USG9520系统支持直流及交流供电。两个交流电源或两个直流电源构成1+1冗余备份,来增加供电的可靠性。
如图10-16、图10-17、图10-18和图10-19所示,USG9500电源工作状态可以通过电源模块指示灯来查看。关于电源模块指示灯的具体说明请见参考信息。
图10-16 USG9580和USG9560的PEM模块外观示意图
图10-17 USG9580和USG9560交流电源框外观示意图
1.电源运行指示灯 | 2.保护指示灯 | 3.故障指示灯 |
图10-18 USG9520直流电源模块外观及面板示意图
图10-19 USG9520交流电源模块外观及面板
相关告警与日志
无
原因分析
图10-20 电源故障处理诊断流程
操作步骤
执行命令display device,检查电源的状态。
<sysname> display device USG9560's Device status: Slot # Type Online Register Status Primary - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 1 LPU Present Registered Normal NA 2 SPU Present Registered Normal NA 6 LPU Present Registered Normal NA 8 SPU Present Registered Normal NA 9 MPU Present NA Normal Master 10 MPU Present Registered Normal Slave 12 SFU Present Registered Normal NA 13 SFU Present Registered Normal NA 14 CLK Present Registered Normal Master 15 CLK Present Registered Normal Slave 16 PWR Present Registered Abnormal NA 17 PWR Present Registered Normal NA 18 FAN Present Registered Normal NA 19 FAN Present Registered Normal NA
Type字段表示模块类型,Status字段表示状态。
根据加粗的显示信息,如果PWR模块状态为“Abnormal”说明电源出现异常。
插拔故障电源,确定能否恢复正常。
如果无法恢复正常,则继续执行3。
如果无法恢复正常,则继续执行4。
如果更换电源后仍无法恢复正常,请联系华为工程师进一步处理。
建议与总结
表10-8 USG9580和USG9560的PEM模块指示灯说明
名称 | 指示灯颜色 | 状态描述 |
---|---|---|
RUN | 绿色 | 输出正常指示灯。常亮,表示正常输出。 |
ALM | 红色 | 电源故障指示灯。常亮,表示:
|
表10-9 USG9580和USG9560交流电源框面板指示灯说明
名称 | 指示灯颜色 | 正常状态 | 异常状态 | 异常原因 |
---|---|---|---|---|
电源运行指示灯 | 绿色 | 亮 | 灭 | 市电故障(无交流输入、交流输入过欠压)、模块无输出。 |
保护指示灯 | 黄色 | 灭 | 亮 | 温度预告警(环境温度超过65℃~过温关机) 休眠关机(休眠关机时模块只亮保护指示灯,模块不上报告警) |
故障指示灯 | 红色 | 灭 | 亮 | 输出过压关机、风扇故障、过温关机、模块内部原因引起的无输出。 |
表10-10 USG9520直流电源模块指示灯说明
名称 | 指示灯颜色 | 状态描述 |
---|---|---|
RUN | 绿色 | 输出正常指示灯。常亮,表示正常输出。 |
ALM | 红色 | 电源故障指示灯。常亮,表示:
|
表10-11 USG9520交流电源模块指示灯说明
名称 | 指示灯颜色 | 状态描述 |
---|---|---|
RUN | 绿色 | 运行正常指示灯。常亮,表示电源模块工作正常。 |
ALARM | 黄色 | 保护指示灯。ALARM灯亮,表示电源模块出现可恢复故障。
|
FAULT | 红色 | 故障指示灯。常亮,表示电源模块出现不可恢复故障。如:风扇故障,无电流输出,输出电流短路等。 |
推荐本站淘宝优惠价购买喜欢的宝贝:
本文链接:http://hqyman.cn/post/8170.html 非本站原创文章欢迎转载,原创文章需保留本站地址!
休息一下~~