基于SDN网络架构的故障检测和数据恢复

2018-08-31 10:22常春雷马军杨大伟李凯
中国科技纵横 2018年9期
关键词:数据恢复故障检测

常春雷 马军 杨大伟 李凯

摘 要:SDN网络极大的降低了网络的复杂性,在现阶段得到了大规模的应用。本文对SDN网络故障以及其故障检测和数据恢复技术进行了研究和探讨,希望能够起到抛砖引玉的作用。

关键词:SDN网络;故障检测;数据恢复

中图分类号:TP393.06 文献标识码:A 文章编号:1671-2064(2018)09-0018-02

进入新世纪后,随着我国信息技术、网络技术和通信技术的发展,在互联网业务更加多样化的同事,也对网络功能提出了更为严苛的要求。传统的网络要想实现智能化,会大量增加相关的网络设备而导致网络更加臃肿和复杂,极大的降低了网络的扩展性与灵活性,无法满足现代网络的发展趋势。于此,SDN技术应运而生,通过让SDN控制器来实现网络控制功能,从而在实现网络全局集中控制的同时,能够更为简单、便捷的开展网络管理活动。因此,SDN网络架构在目前得到了大规模的应用。

能否实现故障检测和数据恢复的及时性是衡量SDN网络的关键性评价指标,这是由于网络如果发生短时间的中断会对广大使用者造成不可弥补的损失,最大限度的提升网络的稳定性、可用性和可靠性是现阶段对SDN网络的关键指标要求。为了对相关故障进行及时、正确的应对,全面增强网络的服务质量,就必须对SDN网络下的故障检测和数据恢复技术开展全面而深入的研究。

1 SDN网络故障简介

SDN网络实现了数据平面和控制平面的分离,因此,其必须通过数据通道以及控制通道来传输数据信息和控制信号。就数据通道而言,完成了主机与交换机之间和交换机与交换机之间的数据信息的传递,是极其重要的通信链路。而就控制通道而言,则是交换机同控制器间的通信链路,能够基于OpenFlow消息实现流表项的下发、设备状态的报告以及信息的交换。总的来说,SDN网络的故障域主要涵盖以下方面:(1)控制域故障。主要指的是控制器之间的链接故障或者是控制器故障;(2)控制通道故障。主要指的是交换机和控制器之间的链接故障;(3)数据域故障。主要指的是链接故障或者是交换机故障。

以数据域的故障为例,包括的故障类别有:交换机之间的链路故障以及节点故障。首先,对于交换机之间的链路故障来说,包括网络接口引发的故障以及鏈路中断引发的故障。前者有可能是因为网卡硬件故障或者是网络接口引发的故障。虽然上述两类型的故障在表面上有着明显的差异性,然而就其后果来说,都会导致交换机之间正常通信的中断,所以,均被划归到链路故障的范畴之中。其次,对于节点故障来说,引发故障的原因多种多样,从而对SDN正常的流量转发功能造成具有明显差异化的影响。其主要故障类别包括:(1)计划的交换机关闭。处于对SDN网络中的交换机进行例行维护和软硬件升级的需要,会对交换机进行主动的关闭。数据信息的正常传递是确保网络稳定性、可靠性和安全性的基础。由于SDN网络数据网络的冗余性可以确保SDN网络在一些链路和节点失效的状态下继续保持正常的工作;(2)交换机转发功能失效。主要是由于流表储存器出现问题或者是硬件故障所导致的;(3)交换机安全通道故障。由于控制器同交换机之间的安全通道产生相应的问题,从而引发两者之间无法完成正常的通信活动,在无法接收到控制器管理指令的条件下,交换机只能按照流表储存器来继续完成相应的转发动作。

2 SDN网络的故障定位及检测

2.1 SDN网络的软硬件监控

SDN网络的自主资源池自身的组件服务在双机状态下运行,需要重点监控硬件指标、软件服务状态。其中硬件包括的各服务器的CPU、内存、硬盘、网络,CPU若大于70%需要重点监控,定期检查硬盘及内存状态,当出现报警时应及时更换;通过机房检查网络及路由设备状态,通过ping等命令检查服务器之间网络联通情况及网络延时情况。

2.2 主要的故障列表

如表1。

2.3 SDN网络故障检测及处理

2.3.1 网络类

采用PING服务器的方式,判断网络是否连通。

2.3.2 硬件类

(1)硬盘。参照SDN网络的自主资源池所采用硬件服务器厂商所提供的对应方法进行定位。(2)网卡。参照SDN网络的自主资源池所采用硬件服务器厂商所提供的对应方法进行定位。(3)存储。参照SDN网络的自主资源池所采用存储厂商所提供的对应方法进行定位。

对于SDN网络故障的处理,主要可以采取以下方法:

(1)客户端。

1)未授权 (1-0001)。

故障现象:Agent注册失败,后台报找不到授权文件。

故障排除:安装Agent时,缺少必要的文件,请检查安装包是否完整,安装源是否配置正确。

2)Job执行失败。

新增虚拟机硬盘失败(2-0001)。

故障现象:为虚拟机增加硬盘失败,后台报xx.py某行代码错误。

故障排除:代码行存在tab键导致job执行失败,换成空格后正常。

应用服务重启失败(2-0002)。

故障现象:系统管理员通过命令重启服务,服务启动窗口提示服务启动未成功。

故障排除:查看后台记载详细信息的日志,进行相应的处理。

3)虚拟机状态异常。

使用ssh登陆至agent查看KVM的相关信息,进行相应的处理。

(2)数据库。

数据库服务异常(3-0001)。

使用客户端访问数据库,查看数据库是否能正常连接。

使用ssh登陆至数据库服务器,查看数据库集群各节点各服务的状态。

(3)硬件类。

1)硬盘损坏(H-0001)。当确定硬盘损坏,无法恢复时,应当重新安装操作系统及相关软件。安装好以后重新配置和恢复已备份的数据。2)网卡损坏(I-0001)。SDN网络的自主资源池应使用双网卡绑定的模式,当其中一块网卡坏掉,不影响正常访问,但应当及时更坏掉该坏掉的网卡,如果两个网卡同时坏掉,则应立即全部更换掉坏的网卡。

3 SDN网络的数据备份与恢复

(1)确定数据库处于归档模式:以数据库用户登录操作系统,分别在两个节点上执行命令进行备份。(2)如果数据库不在归档模式,应使数据库处于归档模式再进行备份。

4 结语

随着SDN网络应用范围的提升,对于提升SDN网络的可靠性、稳定性和安全性提出了更高的要求。可以预见,随着SDN网络的发展,起故障检测和数据恢复技术将更为智能化、及时化和自动化,从而确保网络正常、稳定地运行。

参考文献

[1]左青云,陈鸣,赵广松,邢长友,张国敏,蒋培成.基于OpenFlow的SDN技术研究[J].软件学报,2013,(05):1078-1097.

[2]王水,马玉军.网络/图应用开发通用基础架构JUNG[J].电脑编程技巧与维护,2010,(23):69-80.

[3]张民贵,刘斌.IP网络的快速故障恢复[J].电子学报,2008,(08):1595-1602.

猜你喜欢
数据恢复故障检测
优化网络设备维护提高数据通信传输质量