广州市公安局网络瞬断故障处理
1. 【问题描述】
网络拓扑如下图所示

问题现象:H3C S12508到H3C S9512E、H3C S7506E、C6509是三层连接,S9512E到6509-2 通过光纤进行二层互联,越秀区六个场馆、市局大楼、视频服务器的网关都在市局的C6509-2上。12日发现C6509到场馆、市局大楼的通信会偶发的中断1分钟左右,随后自动恢复。
2. 【处理过程】
1. 使用监控软件对6509-2上所有中继(trunk)端口进行流量实时监控,端口出方向不定时流量骤升到180M,持续1分钟左右恢复正常。流量骤升时,6509-2千兆端口被占用20%。百兆端口占满,引起网络异常。

2. 登入6509-2,选择广东体育馆接入端口,清空计数检查,广播报文占总报文数的85%,再对其他几个发生故障的端口进行检查,情况类似。
3. 使用ethereal对广东体育馆接入端口进行抓包分析,发现IP为10.41.218.66,10.41.218.67发大量ARP报文。

4. 因12日晚为亚运开幕式,13日即将在场馆举行亚运赛事,为了保障场馆网络正常运行,决定对接入场馆的端口限制Vlan通过,即只允许需要的Vlan通过。操作之后场馆接入的端口不再有瞬发大流量,六个场馆网络不再掉线。
5. 6509-2上其他端口依然有流量骤升的情况,因网络结构复杂,无法一一在各中继端口做限制Vlan的操作,需要找出网络中大量广播报文的源头。
6. 使用sniffer pro对端口进行抓包分析,发现IP为10.41.1.105-107四个IP流量异常,其中IP为10.41.1.107的设备收到瞬间流量达到230M,但返回流量为0。

7. 再次使用ethereal对端口进行抓包,筛选出10.41.1.107的数据报文,发现数据报文总量大且很多数据TCP报文异常。

8. 在6509-2上查看10.41.1.107 ARP及MAC地址,此MAC地址网络正常时的源端口为G7/11,流量骤升时查看MAC地址出现VLAN2 FLOOD,或者查询不到MAC地址2种情况。

9. 从用户处得知10.41.1.105-107为视频控制服务器,正常情况下流量较大
10. 检查此四台服务器的设置,发现网关设置为10.41.1.252,此IP位于服务器群S9512E上,实际网关在C6509-2上,正常应设置为10.41.1.254。修改四台服务器网关设备,对C6509-2各端口进行流量监控,不再有瞬发流量,网络恢复正常。

3. 【问题分析】
视频服务器的网关设置在S9512E上,则访问视频服务器的数据流量进和出的路径不一致(如下图所示)。当数据流量访问视频服务器时,数据被三层转发到C6509(10.41.1.254),然后通过二层交换到S9512到达视频服务器,而回的数据流则先到S9512E,然后通过三层路由转发到S12508,再回到源端,过程如下图所示:

这样的访问过程导致C6509上的视频服务器MAC地址得不到及时更新,当MAC地址老化之后,C6509向所有端口发广播报文请求视频服务器MAC地址,因视频数据流量很大,造成了端口带宽瞬间被占满,影响了网络的正常运行!
4. 【优化建议】
1、修改C6509-2的配置,下联场馆和大楼的端口仅允许所需的vlan通过;
2、需要市局派人到逸风酒店排查这两台PC(10.41.218.66、10.41.218.67)发出异常ARP报文的原因;
3、查找视频服务器大量错误报文的原因;
4、设备作为二层交换机使用时下联终端不需要设置网关为二层交换机的IP地址,正常设置默认网关即可;
5、将服务器的百兆网卡改千兆网卡提升服务器性能;
6、对服务器的流量进行抓包监控。
5. 【心得体会】
此次故障发生在亚运会开幕式的当晚,市公安局封网,在信息极度匮乏的情况下使用各种工具对故障进行排查,避免对网络造成影响。凌晨时解决了场馆的故障,保障场馆网络的正常使用。此后两天查出了故障源,解决市局大院网络故障,保障了市局网络的正常运行!
2016年01月
本期文章
-
刊首语
-
公司动态
-
行业聚焦
-
产品推荐
-
案例介绍
-
经验共享
-
服务明星
-
培训天地