编辑: 过于眷恋 | 2019-07-15 |
修回日期 :
2 0
1 1 ―
0 7 ―
1 6 基金项 目: 国家 自然科 学基金 (
9 O
6 0
4 0
0 6 ) 作者简介: 陈勇(
1 9
8 0 一),男, 湖北仙桃人, 硕士, 研究方向为计算 机网络配置 ;
王宏, 副研究员, 博士, 研究方向为计算机网络流量 控制 、 计算 机网络 配置. 的关键对进行分析. 对于数据中心网络故障检测, 希望通过图论来寻 找解决办法.给定逻辑拓扑图 G 和物理拓扑图 G. , 找到图 G . 中所有出现故障的部件的问题相当于获得 G 和G. 的最大公共子图( MC S ) G .因此, 通过比较 发现 G . 与G的不同之处, 这些地方就是出现故障的 部分.所有与这些部分相关的设备( 即服务器或交换 机) , 称之为故障设备.文献[
3 ] 提出了一种基于状态 转换图同构求解的时序电路等价性验证算法.算法将 两时序电路的等价性问题转化为验证相应状态转换图 的同构性.然而, 事实证明, MC S的问题是 N P - c o m- p l e t e l
4 和APX―hard[5问题.也就是说没有一个有效 的算法能解决这个问题, 特别是对于大型的数据中心 网络拓 扑结构 . r 为了达到更好的性能和更便于管理 , 大型数据中 心通常根据一定的模式或规则来设计和构建.这样的 模式或规则意味着数据中心结构有两个属性:
1 ) 拓扑上 的节点通常有规则 的度.例如, 在表
1 [
6 圳中显示了几个著名的数据中心网络模式的度;
2 ) 图是稀疏 的. ・
7 8・ 计算机技术 与发 展第21卷 对 于检测数据 中心 的故 障,这些属 性很重 要.在 判定 冲突检测 的思 想中, 第一 个属性 是用来 在有节 点 度的变化时检测故障设备 , 而第二个属性为在没有发 生度变化时检测故障设备提供了支持. 表1几种数据 中心网络 架构的度模式
1 配置 冲突概述 数据 中心 网络 的故 障可 能是 由硬 件 和软件错 误,或者简单 的人为配置 错误所 导致 .例如,坏的或不 匹配的网卡和 电缆故 障 比较常 见,接线错 误或不 正确 的 连接电缆往往也是存在的. 将数据中心的故障分为三种类型: 节点故障、 链路 故障和错误接线.节点故障发生在给定的服务器或交 换机上 , 由于硬件或软件的原因, 设备无法正常工作, 从而导致网络无法到达;
链路故障是电缆、 网卡等损坏 或存在错误地接人, 使设备之间的链接中断;
错误接线 故障是指 实际的电缆连接与 网络蓝 图不一致 .这些故 障可能会引发严重的问题, 降低性能. 从物理拓扑结构上 , 很难明确区分某些故障种类. 例如, 网卡或者软件的故障都有可能导致服务器处于 故障状态, 无法接人数据中心网络.因此, 我们的目的 是检测和定位所有相关的故障设备 , 并将设备信息报 告给网络管理员, 而不是确定故障类型.故障类型可 以由网络管理员对故 障设备进行相关操作来判断 .
1 .
1 故 障节点 的度变化 基于上述 三种故 障类型 , 逐 一讨论 如下 .通 过观 察,发现在大多数情 况下故 障会导致设备的度改变. ・ 节点.如果有一个故障节点 , 其相邻所有节点 的度都会下降
1 , 这样就可以通过检查它的邻居节点 来确定故障位置. ・ 链路.如果有一条故障链路 , 相关的两个节点 的度会下降
1 , 这使得它可以被发现. ・ 错误接线.错误接线稍微比上面两种故障复杂 些.正如图
1 左所示 , 错误接线导致其相关的节点增 加或减少其度 , 可以很容易被检测到.但是, 在图