问题描述
异步远程复制一致性组是故障状态,手动拉起来后,起来后出现链路降级,又故障了。同时有误码产生,需要分析原因。
处理过程
链路降级分析
1、分析存储日子和12月份主端设备的0A/0C/1A/1C的1号槽位的P2 端口到远端存储18500V5_KLMY的复制链路频繁处于降级状态,
2、分析存储日志发现复制链路0A/0C/1A/1C的1号槽位的P2 端口的复制链路有因为复制IO超时复制主端下发ABTS以便重试IO,发现ABTS存在超时,复制链路会降级,如果下发ABTS都超时表明复制链路质量差,建议排查复制链路质量;

3、分析主端设备0A/0B/0C/0D/1A/1B/1C/1D的1号槽位的P2端口和0号槽位P2端口的光模块收发光功率正常

另外发现CTE0.L0.IOM1.P0和CTE1.L0.IOM0.P0的光模块接收光功率低于300uw,建议排除对应存储端口的交换机端口光模块功率和光纤线是否正常

4、分析从端设备复制链路的对应端口CTE1.L0.IOM0.P1接收光功率偏低,建议排查对应交换机端口的光模块的收发光功率是否正常及光纤线是否正常,与主端对应复制链路本端存储的其它0号槽位的端口P1和P2的光模块收发光功率正常。


端口误码分析
1、存储主端上报端口CTE0.L1.IOM0.P0误码告警如下所示:
2023-12-13 10:42:18 0xF01080015 Fault Major Unrecovered None FC front-end port (controller enclosure CTE0, SmartIO interface module L1.IOM0, port ID P0) has too many bit errors. The system performance may be affected.
2、存储主端端口CTE0.L1.IOM0.P0存在大量CRC误码,该误码应是从网络中传输的,需要排查网络有无异常;
[2023-12-13 09:55:22][155199213.290179] [][15000000c2696][INFO][LPort(0x110100)'s BadCrc(229542), BadRx(0), DisFrame(112403), LinkFail(0), LossOfSig(0), LossOfSync(0), ProtoErr(0), RxEof(0).][FC_UNF][UNF_PollPortErrCode,18852][kworker/5:0]
[2023-12-13 09:58:22][155199392.684386] [][15000000c2696][INFO][LPort(0x110100)'s BadCrc(229543), BadRx(0), DisFrame(112403), LinkFail(0), LossOfSig(0), LossOfSync(0), ProtoErr(0), RxEof(0).][FC_UNF][UNF_PollPortErrCode,18852][kworker/5:0]
[2023-12-13 09:59:48][155199478.078680] [][15000000c2696][INFO][LPort(0x110100)'s BadCrc(229550), BadRx(0), DisFrame(112406), LinkFail(0), LossOfSig(0), LossOfSync(0), ProtoErr(0), RxEof(0).][FC_UNF][UNF_PollPortErrCode,18852][kworker/5:0]
[2023-12-13 10:02:22][155199632.581577] [][15000000c2696][INFO][LPort(0x110100)'s BadCrc(229551), BadRx(0), DisFrame(112406), LinkFail(0), LossOfSig(0), LossOfSync(0), ProtoErr(0), RxEof(0).][FC_UNF][UNF_PollPortErrCode,18852][kworker/5:0]
[2023-12-13 10:08:21][155199990.443588] [][15000000c2696][INFO][LPort(0x110100)'s BadCrc(229552), BadRx(0), DisFrame(112406), LinkFail(0), LossOfSig(0), LossOfSync(0), ProtoErr(0), RxEof(0).][FC_UNF][UNF_PollPortErrCode,18852][kworker/5:0]
3、存储主端端口CTE0.L1.IOM0.P0收发光功率正常,如下所示:
ID: CTE0.L1.IOM0.P0
Health Status: Bit Errors Found
Running Status: Link Up
Type: Host Port
Working Rate(Mbps): 16000
WWN: 201804338932ebd4
Lost Signals: 0
Link Errors Codes: 0
Lost Synchronizations: 0
Failed Connections: 0
CRC Errors: 229606
SFP Info:
Vendor: FINISAR CORP.
Model: FTLF8529P3BCV
SN: P0JB15K
Health Status: Normal
Running Status: Link Up
Type: Multi Mode
Working Rate(Mbps): 16000
Temperature(C): 53
RxPowerReal(uW): 462.7
RXPowerMax(uW): 1258.9
RXPowerMin(uW): 10.0
TxPowerReal(uW): 509.4
TXPowerMax(uW): 794.3
TXPowerMin(uW): 158.5
4、当前设备的存储每个控制器的0号槽位的P0口都存在大量CRC误码,建议排查与其相连的交换机网络是否存在异常;
根因
分析结论:
存储主端到存储从端之间复制链路质量差,存在复制IO超时,主端下发取消IO重试,取消IO超时会造成复制链路降级。取消IO超时表明复制链路质量差,存储主端到存储从端之间的复制链路,设备主端的0A/0B/0C/0D/1A/1B/1C/1D的1号槽位的P2端口和0号槽位P2端口的光模块收发光功率正常,对应存储从端端口0号槽位的端口P1和P2的光模块收发光功率正常(除CTE1.L0.IOM0.P1端口接收光功率偏低)
存储主端每个控制器的0号槽位的P0口都存在大量CRC误码,建议排查存储端口与其相连的交换机网络是否存在异常;
解决方案
分析结论:
存储主端到存储从端之间复制链路质量差,存在复制IO超时,主端下发取消IO重试,取消IO超时会造成复制链路降级。取消IO超时表明复制链路质量差,存储主端到存储从端之间的复制链路,设备主端的0A/0B/0C/0D/1A/1B/1C/1D的1号槽位的P2端口和0号槽位P2端口的光模块收发光功率正常,对应存储从端端口0号槽位的端口P1和P2的光模块收发光功率正常(除CTE1.L0.IOM0.P1端口接收光功率偏低)
存储主端每个控制器的0号槽位的P0口都存在大量CRC误码,建议排查存储端口与其相连的交换机网络是否存在异常;
建议与总结
建议措施:
建议排查主端到存储从端之间复制链路的网络是否存在异常;
存储从端的CTE1.L0.IOM0.P1端口接收光功率偏低,建议排查与之相连的交换机端口光模块的发光功率是否正常同时排查两端口之间的光纤线是否有异常;
另外注意:
分远程复制一致性组处于分裂状态,当前配置需要手动恢复;
存储主端的CTE0.L0.IOM1.P0和CTE1.L0.IOM0.P0的光模块接收光功率低于300uw,建议排除对应存储端口的交换机端口光模块功率和光纤线是否正常