电信设备虚拟化后的监测机制

2016-10-21 01:08潘欣欣
电子技术与软件工程 2016年5期
关键词:实时性虚拟化可靠性

潘欣欣

摘 要 基于虚拟化云平台,提出了一种可扩展集成的云平台监控机制,并最终实现了虚拟化云平台监控系统。从而保证云平台稳定运行,并向用户提供可靠的服务。

【关键词】虚拟化 监控 监测机制 实时性 可靠性

1 电信设备虚拟化

1.1 电信设备虚拟化的必要性

传统核心网由于软硬件耦合度很高,同一个网元不同设备商提供不同的软硬件,新业务功能的开发也依赖于设备商,往往开发耗时较长,代价大,且功能的定制化也很繁琐。虚拟化实现软硬件解耦,硬件资源虚拟化为多个虚拟机,各种应用部署于同一个硬件平台上,使得网元容量配置调整周期从数周缩短到数分钟,从而大大提升了网络扩容的敏捷性,并实现设备容量弹性扩充,消除设备瓶颈。

所以电信设备虚拟化一问世就迅速引起了各大运营商的关注,目前欧美一些运营商已经开始部署虚拟化设备。

1.2 传统电信设备和虚拟化电信设备的比较

传统电信设备和虚拟化电信设备的区别如表1所示。

电信设备最重要的一条原则就是要保证99.999%的高可靠性。虚拟化后,应用之间变为IP网络,要及时有效的监测各应用的正常运行,是电信设备的一条最基本的也是必须具备的功能。

电信设备的设备监测对实时性和可靠性要求极高。传统的电信设备监测主要是依赖硬件器件做监测,通过监测硬件寄存器,用硬件watch dog监测板卡状态是否正常。这种监测实时性强,可靠性高。虚拟化后的电信设备,没有专用的硬件设备监测,只能用软件来实现监测。如何保证同样的实时性和可靠性?这是虚拟化后要面对的一个难题。

虚拟化后的电信设备为了保证高可靠性一般都是双机热备份的,这也是监测机制实现的基础。如果是不可修复的错误先采取主备切换然后再进行修复,这样可以保证正常的电信业务不受影响。

2 虚拟化后的监测机制

虚拟化后的監测机制有以下几个不同的监测级别:

(1)主机级别的监控。当主机出现问题时,可以及时触发主机的主备切换。

(2)虚拟机级别的监控。当虚拟机出现问题,可以及时触发虚拟机级别的主备切换。

(3)进程级别的监控。当虚拟机里面运行的进程出现问题时,可以及时发现并触发相应的恢复机制。

上面几个级别的监测是同时存在,互相配合,可以保证虚拟化后监测机制的高可靠性和实时性。

3 主机级别的监控

虚拟化的监测首先要保证主机层面的可靠性。

首先,同一个应用的主备应该在不同的主机上,这样万一主机发生重启或者掉电,备用的应用可以继续承载业务。其次,当主机重启或者掉电时,为了保证虚拟机里面运行的应用能将及时触发切换,防止业务的丢失。通过英特尔制定的APCI(高级配置与电源接口),监测到主机关闭或者退出时,触发主机上的虚拟机,做相应的退出处理,这样可以做到平滑关机,不影响业务。再次,主机还要对运行的虚拟机进行监控,如果其有异常,及时触发主备切换,然后启动虚拟机。

对于主机突然掉电或者拔出的极端情况,虚拟机级别的监测机制可以监测到这种情况,进行相应的处理,只不过业务中断的时间稍微长比平滑关机的时间长一点。

4 虚拟机级别的监控

一个网元通常都是有多个应用组成。不同的应用运行在不同的主机不同的虚拟机上,之间是基于IP网络的。为了保证各个应用之间的正常运行还需要监测各个应用之间的通讯和状态。

虚拟机之间的监测有以下三种:

(1)主用的主控模块-->其他应用+备用的主控模块。主用的主控模块会监测系统中所有虚拟机的状态,如果发现状态异常或者网络中断,会先触发各应用的主备切换,然后采用自恢复措施,试图修复出问题的应用。

(2)备用的主控模块-->主用的主控模块。备用的主控模块会监测主用的主控模块的状态,如果发现异常,会触发主备切换,然后试图修复原主用的主控模块。

(3)应用自我监测。每个应用(包括主控模块)会监测自己和外界的通讯是否正常。因为这些虚拟机之间通讯都是通过网络的,如果出现网络中断的情况,虚拟机之间的控制消息也没有办法通讯。也即,即使主控模块发现与这个应用之间的网络中断了,也无法通知到这个应用。这个监测主要是针对这种情况,进行自我修复用的。

5 进程级别的监控

一个虚拟机对应原来的一个业务网卡,现在称为一个应用,每个虚拟机上至少要有应用进程,守护进程和监控进程三个进程。

(1)应用进程:负责处理网元内部的具体业务。

(2)守护进程:虚拟机启来后,立即启动该进程,负责监测监控进程的状态。

(3)监控进程:监测应用进程的状态。

为了保障高可靠性,首先需要各应用自己要能够监测自己的应用运行是否正常。在虚拟机内部的监测主要有:

(1)监测监控进程。守护进程会监测监控进程,如果监控进程不存在,就启动监控进程。

(2)监测应用。监控进程会监测应用的进程是否正常,如果不正常,会上报,并根据出错情况采取对应的修复措施,例如主备切换等。

(3)监测应用的线程。监控进程除了监测应用进程,还会对一些关键的线程进行监测,如果发现没有正常运行或者没有响应的情况,根据出错情况采取对应的修复措施。

有了以上这些监测机制,可以保证对每个虚拟机内部运行的进程做到实时监测,一旦发现问题,及时修复,保证每个网元上每个应用的高可靠性。

作者单位

上海贝尔软件有限公司 上海市 201206

猜你喜欢
实时性虚拟化可靠性
基于规则实时性的端云动态分配方法研究
可靠性管理体系创建与实践
基于OpenStack虚拟化网络管理平台的设计与实现
对基于Docker的虚拟化技术的几点探讨
基于虚拟局域网的智能变电站通信网络实时性仿真
虚拟化技术在计算机技术创造中的应用
5G通信中数据传输的可靠性分析
航空电子AFDX与AVB传输实时性抗干扰对比
存储虚拟化还有优势吗?
基于可靠性跟踪的薄弱环节辨识方法在省级电网可靠性改善中的应用研究