光大银行:同城双活网络新架构

2014-03-06 16:13洪蕾
中国信息化周报 2014年6期
关键词:光大银行灾备机柜

洪蕾

数据大集中之后,企业经营活动越来越依赖于数据中心与网络等IT基础设施,IT的7×24全天业务连续运营成为大型企业IT建设运营与企业经营追求的目标。如何实现减少甚至消除正常和非正常的停机对业务可用性造成的影响,不仅是IT建设与运维团队的目标,更成为企业决策层关注的核心。

出于灾备目的,企业一般都会建设两个或多个数据中心。如国内外银行等高端用户多采用“两地三中心”(即生产数据中心、同城灾备中心、异地灾备中心)的建设方案。这种模式下,多个数据中心是主备关系,即存在主次,业务部署优先级存在差别,针对灾难的响应与切换周期非常长,RTO与RPO目标无法实现业务零中断,资源利用率低下,投资回报无法达到预期。因而,目前以银行为代表的、包括政府、公共交通、能源电力等诸多行业用户,开始将关注点转向“分布式多活数据中心”,体现出企业级用户在建设与使用数据中心时对资源调度利用和业务部署灵活性的新思路。

“双活”与云不谋而合

光大银行成立于1992年8月,是中国光大集团下属子公司之一。截至2012年12月31日,光大银行资产总额2.28万亿元,负债总额2.16万亿元,全年实现营业收入599.16 亿元,净利润236.2亿元。在英国《银行家》杂志2012年发布的按总资产排名的“世界1000家大银行”中,中国光大银行位列第80位。

多项业务框架齐头快速发展背后离不开一套行之有效具有前瞻性的IT战略做后盾。光大银行信息处处长丁永健表示光大银行之所以快速发展取得了良好经营业绩,与IT战略快速部署、迭代、创新有着密不可分的关系。

在国内的商业银行当中,部署双活数据中心的银行为数甚少,而光大银行是最早开始这方面探索的银行之一。光大银行灾备体系是典型的“两地三中心”模式,目前在北京有两个规模相当的双活中心,在武汉有一个异地灾备中心。

光大双活数据中心始建于2002年。“当时还没有云的概念。” 光大银行信息科技部副总经理史晨阳表示,“但‘双活的思路和今天云计算的思路不谋而合。”据其介绍,所谓“双活”数据中心,是指两个数据中心都处于运行当中,且互为备份;而一个数据中心、一个灾备中心的模式是指一个数据中心投入运行,另一个处在不工作状态,只有当灾难发生时,生产数据中心瘫痪,灾备中心才启动。

“通过DWDM(密集波分复用)设备与传统网络设备(如路由器、交换机)混合组网,我们实现了同城双中心网络二层整合。从逻辑层面来说两个中心可看做同一个局域网,两个中心共用相同的IP地址空间,在网络设计上支持具备集群功能的多台服务器分别部署在两个数据中心,实现了真正的‘双活。” 史晨阳介绍说,传统的灾备中心模式采用备份模式,两个数据中心的地址是一样的,或者利用域名进行切换,切换影响较大,一般需要停机窗口,通常是必须生产中心倒掉,灾备中心才能起来,两个中心同时起来会有冲突。而双活数据中心能规避这个问题。

银行系统中很多资源都是弹性需求,故银行系统容量规划时是充分考虑交易峰值的,但这样也会带来非峰值时期的的资源浪费。这时双活数据中心的优势就得以发挥,可通过灵活快速的资源调度能力,基于云计算技术,随时调度多台机器提高服务能力,保证交易的突发需求,以及各种突发因素造成的交易量猛增。

传统网络架构面临挑战

“双活”数据中心的最大优势是有效利用资源。随着数据中心规模的扩大和新技术的不断涌现,光大双活数据中心基于“生成树”协议构建的传统二层网络架构遭遇一系列挑战。

据史晨阳介绍,传统网络架构面临三方面瓶颈。一是“生成树”协议无法支撑大型二层网络的缺陷越来越明显。由于“生成树”协议对网络半径要求较为严格,而同城双中心的网络规模本身较大,在数据中心扩容、网络设备不断增加时将面临较为明显的技术扩展瓶颈。此外,由于网络规模大,“生成树”协议的故障收敛时间较长,难以满足银行对IT系统可用性的要求。

二是随着万兆以太网、服务器虚拟化和大数据等多项新技术在金融行业的应用,对网络设备的高密度万兆端口接入能力、虚拟化支持能力以及快速部署能力有了更高要求。

三是在传统网络架构中,网络区域同城采用“核心交换机+接入交换机”的模式,其中接入交换机采用大量高密度端口的设备,一个机房内同一网络区域的服务器共用两台或两台以上的接入交换机。在该模式下,服务器采用跨机柜逐级跳线的方式连接到接入交换机上,需要提前在机柜之间进行大量的预布线,并要求根据服务器的实际布局情况进行预布线的扩容。由于服务器跳线和机柜之间预布线都需要经过机架顶端的布线架,对于布线密集的机柜和区域,综合布线的调整难度很大,成本投入较高。

为解决这些问题,光大银行于2010年启动了同城双活数据中心网络新架构研究和建设工作。经过详尽的方案论证和产品测试,于2012年初完成了同城双活数据中心新一代网络架构规划。

“为消除‘生成树协议扩展性差、故障恢复时间长的缺陷,我们通过广泛调研和深入测试,最终选择了二层多路径技术用于替代‘生成树协议。” 史晨阳表示:“该技术能够实现同城双活数据中心互联的多台核心层交换机之间以及单个数据中心内部的汇聚交换机和接入交换机之间的所有链路同时承担数据传输功能,保证网络整体无环路。在应用二层多路径技术后,单个数据中心即使到万平米级别,网络依然能够较好地支撑,扩展性有了质的提升。不仅如此,网络设备互联的可用带宽也提高了4倍。此外,网络故障恢复时间由原来的秒级(最长几十秒)缩短到毫秒级(最长几百毫秒),大大提升了IT系统整体的稳定性。”

为实现同城双活数据中心网络架构的平滑升级,光大银行采用分步骤、分阶段实施方式完成网络架构改造。首先完成新架构相关设备的网络搭建工作,并根据其板卡延伸技术的特点进行了综合布线系统的改造;之后将新架构与原有网络进行对接,逐步将连接在老架构中的服务器迁移至新架构;最后使用新架构完全取代老架构。“按照此方式,我们在改造过程中仅使用了不到半个小时的停机窗口,将网络架构全面改造对业务运行的影响降到最低。”史晨阳表示。

除上述工作,为尽量发挥板卡延伸技术的优势,光大银行信息技术部人员还对服务器的物理摆放位置进行了优化,一排机柜仅部署2~3个安全区域的服务器,进一步降低网络设备数量以及布线成本。自动化是“双活”必要前提

双活数据中心也需要依靠自动化手段帮助系统维护人员实现自动化的资源调配。比如,通过虚拟化技术虚拟出了上万台虚拟机器,白天需要50台机器给网银系统提供Web服务,晚上网银交易少了,贵金属交易多了,这50台机器要调配到另一个系统上。这五十台不可能一个人一台台调配,那可能配一晚上都配不完,就需要自动化的软件来自动调整资源分配。

在光大银行的“同城双活”工作模式下,据光大银行信息科技部系统运维处高级经理牟健君介绍:“假如这个数据中心有5台机器工作,另外一个数据中心有5台机器处于空闲状态,我想做一个操作:让这边的5台机器停下来做日常的运维、审检,让另外一边的5台投入生产。有自动化工具以后,我点一下鼠标,这5台机器上的应用就可以立即切换到那5台空闲的资源上去,整个业务不间断,调度灵活。如果没有自动化手段,过去的切换过程需要至少半个小时。”因此,自动化是云计算、“双活”数据中心应用必不可少的前提条件。

猜你喜欢
光大银行灾备机柜
光大银行
光大转债可能存在的套利机会
DCS机柜用电现状分析
一种计算机联锁机柜工程图纸的自动化生成方法
光大银行
基于PLC的通信车配电机柜设计
容易吗
企业级信息系统应用级灾备建设与应用
轨道交通清分系统灾备升级方案研究
深蓝云海“云灾备”正式上线