一种基于CDN网络的数据同步方法

2015-04-20 02:43黄伟杰吉国杰黄利民
测绘科学与工程 2015年4期
关键词:数据量广播服务器

高 凯,黄伟杰,吉国杰,黄利民

1.西安测绘研究所,陕西 西安,710054;2.地理信息工程国家重点实验室,陕西 西安,710054;3.77200部队,云南 昆明,650032



一种基于CDN网络的数据同步方法

高 凯1,2,黄伟杰3,吉国杰1,2,黄利民1,2

1.西安测绘研究所,陕西 西安,710054;2.地理信息工程国家重点实验室,陕西 西安,710054;3.77200部队,云南 昆明,650032

随着人们对网络访问速度、服务质量要求的提高,网络内容和网络用户急剧增加,构建一个地理位置分布的内容分发网络即CDN网络势在必行,其网络访问加速服务提高了网络的使用效率。本文针对动态地理数据的加速访问、CDN网络数据的缓存或复制,提出了一种基于CDN网络的数据同步策略,从而保障用户对地理信息资源服务的需求。

CDN;数据同步;数据为中心

1 引 言

为了减少用户的访问时间,CDN网络利用缓存、同步、负载均衡和客户请求重定向将数据资源推向网络边缘缓存节点,使得用户可以就近访问该区域数据,从而提高用户的访问速度。因此,应当依据一定的策略方法同步缓存节点的数据信息,且由用户访问度来决定缓存数据内容,从而满足特定环境需求,保证缓存节点数据最新并且准确。

2 CDN网络概述

CDN(Content Delivery Network)即内容分发网络,是在现有的Internet网络中增加一层新的网络架构,将源站的内容发布到最接近用户的网络“边缘节点/区域”,使用户可以就近取得所需的内容,提高用户访问数据的响应速度;从技术上解决网络带宽小、网络中断、用户访问量大和网点分布不均等引起的数据访问问题,提升源站数据的访问性能,为网络用户提供良好的地理信息资源与服务保障。

CDN是一个经策略性部署的整体网络系统,能够帮助用户解决分布式存储、负载均衡、网络请求重定向和内容管理等问题。数据资源存储在网络上供下载和访问,根据用户访问的区域和频度,数据资源被推送至离客户最近的网络节点,极大提升了下载的速度和质量,在为网络用户提供优质服务的同时,也能降低访问源站的数据传输压力。CDN网络架构如图1所示。

图1 CDN架构图

管理好缓存节点数据是CDN网络的关键,为了判断缓存节点与源站数据的一致性,需要建立节点的数据目录配置文件(以下称目录表),目录表存放在缓存节点上,记录各个节点在源站的数据目录,以获知该节点缓存的数据,也可以把目录表看成各个节点向源站订阅数据的订单。如果数据源有更新,源站就负责告知订阅其数据的各个缓存节点服务器。缓存节点访问申请更新的数据,负责更新同步。目录表的建立可以有效管理各个节点缓存数据,知道该节点需要更新哪些数据,也是数据同步策略实现的前提。目录表对同步进行了更精确的操作,通过使用目录表的记录,避免无目的的数据同步,并且需要将目录表与源站广播标记

状态信息配合使用来完成数据资源的同步操作。

3 数据同步策略

在CDN网络中,用户直接访问边缘缓存节点的数据资源,其数据与源站数据的一致性直接影响到用户的数据应用效果。当缓存节点内没有用户所需内容,则需向源站服务器请求数据资源,从源站获取内容会有较大延迟,因此要把热点数据部署在缓存中,提高缓存服务器空间的利用率[2-6]。数据访问有两种模式,模式一为缓存节点包含用户访问的数据,直接返回给用户;模式二为缓存节点不包含用户访问的数据,从源站请求相应数据再返回给用户。数据访问如图2所示。

图2 数据访问

本文采用的数据同步方法是基于事件的广播数据请求策略,即EB-Pull机制。该数据同步策略允许各个缓存节点有属于自己的本地缓存,当源站更改了某项数据后,除了更新本地数据外,广播数据修改信息。在此只广播被修改资源文件的状态信息,告知所有缓存节点该数据被修改,如果节点发现命中(目录表中包含广播的修改的数据名录)内容,则直接申请修改覆盖节点相应的缓存数据。在缓存服务器中并不需要把未命中(目录表中有名录,而数据修改状态信息中没有)内容都拉取到本地。该缓存服务器中的数据必须时刻与源站数据保持一致。考虑到用户访问数据的时效性与可靠性,EB-Pull方法主要是将源站热点数据同步到边缘节点,并且以必须的、最小的数据量传输确保各种环境下本地服务器有数据可用。

(1) 当源站数据发生修改、添加或删除时,事件监听进程记录其数据修改状态信息并通过Socket通信向所有缓存节点服务器发出广播信号,且标记变化数据的信息。其广播信息包含源站数据更新状态标识,即修改、删除或添加,以及更新数据文件的目录信息,直接对应到缓存节点本地的目录表,防止数据盲目的更新,这将大大减轻源站数据访问的压力。状态标识的广播信息,一方面数据量比较小,有利于网络传输;另一方面对后续的数据访问可以起到指引作用,即文件点对点的数据更新,保证整个节点有完整可用的数据。广播信息格式如表1所示。

表1 广播信息格式

节点数据1数据2目录状态目录状态Cache1./home/data1修改./home/data2添加Cache2./home/data3删除./home/data4修改…………

(2) 缓存节点接收到广播信息后,解析广播信息并与本地目录表比较,若包含该节点缓存数据的更新,则主动向源站发起数据同步进程,更新本地缓存数据。采用拉取缓存方式是一种主动的、动态的内容管理方法,能快速适应访问的动态变化,保证内容的同步。每次更新后修改完善目录表中的更新目录,目录表格式如表2所示。

表2 目录表格式

节点基础目录更新目录附加目录目录标识备注目录标识备注目录标识备注Cache1./home1/index1区域号权限、数据量、建立时间等./home1/index2区域号权限、数据量、建立时间等./home1/index3区域号权限、数据量、建立时间等Cache2./home2/index1区域号权限、数据量、建立时间等./home2/index2区域号权限、数据量、建立时间等./home2/index3区域号权限、数据量、建立时间等…………

数据请求同步主要采取SSH+Rsync方式,由缓存节点发出数据同步进程。基于密钥安全验证的SSH需要依靠密钥,即节点服务器自己创建一对密钥,并把公用密钥放在源站服务器上。当缓存节点发出数据请求,首先进行密钥的安全验证,密钥一致才允许缓存节点进行数据的访问,这样可以加密所有传输的资源数据,防止网络攻击。基于文件或文件目录同步的Rsync借助SSH协议连接到源站服务器并请求更新匹配数据,可以保存整个目录树以及保持源文件的权限、时间和相关链接等,而且数据在传输中可以实行压缩及解压缩操作,降低对网络带宽的要求。

用户访问本地缓存数据时,还有可能出现请求的数据既不在本地缓存,也不在本地的目录表中。这时CDN网络就直接从源站请求数据,而这一过程用户并不知晓,并且是偶尔才出现的,请求的数据量往往也较小。本地服务器可以根据一定规则修正完善本地目录表,追加目录表中的附加目录,经过若干次这样的过程后,本地目录表将自适应地趋于完善和平衡。

4 实验与结论

本实验选择Linux系统(CentOS-5.5),按照表3所示搭建实验环境。网络为局域网,带宽100MB。

表3 实验环境搭建

角 色数 量IP分配开源软件备 注Apache服务器3192.168.233.128:80|81|82Apache、Inotify、Rsync、NFS三个Apache服务器共享在一台主机上(虚拟服务器)全局智能DNS1192.168.233.129Bind将域名解析地址直接指向对应的负载均衡服务器地址Cache服务器2192.168.233.129/192.168.233.131Squid+Bind、Squid+Rsync两台缓存服务器同时指向Web服务器的对应端口负载均衡服务器1192.168.233.130LVS/Nginx对两台缓存服务器采用轮询访问方式

实验数据:数据量为10GB的任意数据,其中单个文件最大300MB,最小3KB,分布式存储在3台Apache服务器上。

实验结果:两种数据访问模式均正常运行。单次访问100MB任意数据,模式一在8s内完成数据访问及更新,模式二在20s内完成数据访问及更新。源站数据更新后,缓存节点立刻获悉更新消息,更新100M数据耗费时间约10s以内。数据访问100次更新同步正常,其中89次为模式一数据访问。

实验结论:本文提出的数据同步策略,一方面保证用户的数据请求绝大部分由最近的缓存服务器完成,另一方面保证以最小数据量进行数据同步更新,有利于网络传输。

5 结束语

CDN技术可以快速、高效地提供数据访问速度与服务质量,特别是在地理信息数据下载方面,有着无可比拟的优势。本文所阐述的在CDN网络上基于内容变化事件的数据同步策略符合以数据为中心这一需求在特殊环境下用户的访问要求,将区域保障数据完整地提供给用户。本文提出的数据同步分发策略将在保障用户基础数据的方面发挥重要作用,将最新、准确、完整的地理信息数据提供给终端用户访问。

[1]陈晓发,王挺. CDN技术在广东省地震信息网中的应用研究[J].地震研究,2012(4):583-587.

[2]Peichang Shi, Huaimin Wang. ACON:Adaptive Construction of the Overlay Network in CDN-P2P VoD System [C].Proceedings of 2011 IEEE 3rd International Conference on Communication Software and Networks(ICCSN 2011),2011.

[3]Chun Liu. The Research of audio and video public network platform based on CDN and P2P [C]. Proceedings of the 11th International Symposium on Distributed Computing and Applications to Business,Engineering & Science(DCABES 2012),2012.

[4]Lin Pan, Van Oostrum. Uncertainty Quantification of Group Synchronization and Control of a New Class of Adaptive Complex Dynamical Network with Brownian Motion and Time-varying Delay [C]. 第三十三届中国控制会议论文集(B卷),2014.

[5]张书波,康来成,黄莹. 分布式、异构、多时态空间数据的同步复制技术研究[J]. 国土资源信息化, 2010(4):38-43.

[6]Jong-Myoung Kim.DTPD: Data Transfer Tool Performance Diagnosis System in High Speed Networks[C].Proceedings of the 11th Asia-Pacific Network Operations and Management Symposium,2008.

[7]何江,陈育谦. 基于统一地理空间情报数据模型的测绘保障[J]. 指挥信息系统与技术, 2010(3):50-53.

A Method of Data synchronization Based on CDN Network

Gao Kai1,2, Huang Weijie3,Ji Guojie1,2,Huang Limin1,2

1. Xi’an Research Institute of Surveying and Mapping, Xi’an 710054, China 2. State Key Laboratory of Geo-information Engineering, Xi’an 710054, China 3. Unit 77200, Kunming 650032, China

As Internet content and network users increase sharply and one has higher requirement for network access speed and service quality, it is imperative to build a CDN network of location-distribution delivery. This kind of network access speed service improves the efficiency of the network. Considering the dynamic geographic data access and CND network cache or copy, this paper proposes a strategy of data synchronization based on CDN network. Thus it provides the users with good geographic information sources and service.

CDN; data synchronization; data-centric

2015-06-01。

高凯(1984—),男,工程师,主要从事地形分析与空间数据组织方面的研究。

P208

B

猜你喜欢
数据量广播服务器
基于大数据量的初至层析成像算法优化
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
通信控制服务器(CCS)维护终端的设计与实现
广播发射设备中平衡输入与不平衡输入的转换
中国服务器市场份额出炉
得形忘意的服务器标准
计算机网络安全服务器入侵与防御
网络在现代广播中的应用
论交警广播直播室的构建