编辑: 喜太狼911 | 2013-04-16 |
3.15 杭州华三通信技术有限公司 版权所有,未经授权不得使用与传播 ? 熟悉网络故障的排查应急处理流程 ? 熟悉常用的排查手段 ? 熟悉常见故障的排查案例 ? 掌握基本维护命令 课程目标 学习完本课程,您应该能够: ? 网络故障的应急处理流程与规范 ? 系统资源故障处理方法 ? 硬件接口故障处理方法 ? 转发异常问题处理方法 ? 其他常见故障处理方法 ? 常用基本维护命令 目录 www.h3c.com
3 网络故障应急处理原则 ? 重要业务故障应以恢复业务为第一目标 ? 排查故障及业务恢复的相关动作应该不引入新的问 题,并且操作可回退;
? 网络架构设计时要考虑冗余性,以便在故障时快速 切换到备份设备或线路上 ? 应建立自动化的网络管理平台,实时监控网络设备 运行状态,重要事件及时通知运维人员 ? 应建立故障应急处理与上报机制,定期进行故障应 急演练以提高应急处理能力 ? 故障恢复时应先确定故障设备,并基本判断故障部 位,以防止误动作导致故障影响的扩大 ? 故障恢复后应观察2小时以上确认业务无异常 www.h3c.com
4 故障原因分类 ? 硬件原因:主要指导致故障的原因是硬件损坏或硬件缺 陷等. ? 软件原因:主要指导致故障的原因是产品软件设计考虑 不周全、代码实现错误等软件缺陷. ? 其它原因:除产品质量或客户原因外的导致故障的原因, 如合作方或我方工程师方案设计不合理、配置错误、操 作不规范等. ? 外界原因:主要指不按流程规范操作、违反日常维护建 议、在已有明确资料指导下数据配置错误或误操作、局 方提供的设备配套设施(包括与我司设备对接的其他厂 商设备、电源系统、机房环境、地线、光纤/电缆系统等) 问题、无法抗拒的自然力(如洪水、火灾或强烈雷击) 造成的故障,或理解有误. www.h3c.com
5 问题解决方法分类 ? 根本解决办法 通过更换备件,升级版本和补丁,更换网络组网和 规划,完全彻底的解决问题 ? 规避解决办法 故障本身没有解决,但是通过其他手段规避了问题 ,确保故障不再出现 出现问题时,应首先采用能够快速恢复业务的解决 办法,例如先实施规避解决办法,最后再实施根本 解决办法 www.h3c.com
6 规避解决的具体方法
(一) ? Reset协议 ? 如果某一个端口上的业务异常,但是端口上没有错包,可以执 行reset arp interface命令重新学习这个端口上的arp ? 如果设备上的业务异常,并且怀疑只跟路由协议相关,那么可 以通过reset 路由协议来恢复,注意reset路由协议可能会造成 整个设备的所有路由中断 ? 更换端口 ? 如果确认端口异常,那么可以通过更换光纤,光模块来检查是 否可以恢复,仍然不能恢复,请立即切换业务端口到其他单板 上的备用链路恢复业务 www.h3c.com
7 规避解决的具体方法
(二) ? 整机掉电重启 ? 如果所有端口都存在业务异常,并且无法确定故障所在,或者 通过以上手段都无法恢复业务,那么在有备用设备或者备用链 路的情况下,可以关闭设备电源,然后再打开,将整机断电后 重启,检查故障是否消除 ? 注意掉电重启将导致整机的业务都会受到影响 ? 掉电重启之前,确认已经收集相关信息或者备份相关配置 ? 网络故障的应急处理流程与规范 ? 系统资源故障处理方法 ? 硬件接口故障处理方法 ? 转发异常问题处理方法 ? 其他常见故障处理方法 ? 常用基本维护命令 目录 www.h3c.com