海量地理国情普查数据分布式存储研究

2018-12-26 08:35齐东兰魏永强杨雨佳
地理空间信息 2018年12期
关键词:存储设备国情普查

齐东兰,向 娟,杜 鑫,魏永强,杨雨佳

(1.国家测绘地理信息局重庆测绘院,重庆 400015)

1 技术介绍

ISCSI(internet small computer system interface,网络小型计算机系统接口)是一种在TCP/IP协议网络上进行数据块传输的标准[1]。其目的是用IP协议将存储设备连接在一起,使服务器可以与使用TCP/IP网络的存储设备互相交换存储资料[2],它包括发起端和目标端,其工作原理是发起端将SCSI指令和数据封装成ISCSI协议数据单元,提交给TCP,最后封装成IP数据包在IP网络上传输,到达目标端后通过解封装还原成SCSI指令和数据,实现SCSI命令和数据在IP网络上的透明传输。

ORACLE RAC(ORACLE real application clusters)通常称作ORACLE真正应用集群[3],其实质是使位于不同服务器系统的ORACLE实例可以同时访问同一个ORACLE数据库。一个ORACLE集群由多台服务器组成,每台服务器是一个独立的数据库实例[4],用于监听自己的网络端口;每台服务器有自己的ORACLE RAC服务,用于数据库的集群访问;所有的服务器通过自己的操作系统访问一个共享的存储设备,数据库存储在共享设备上。

GlusterFS是一个开源的分布式文件系统,能够利用普通的存储设备来部署可集中管理、横向扩展、虚拟化的存储池,使用单一全局命名空间来管理数据,支持PB存储容量[5],支持运行在任何标准IP网络上标准应用程序的标准客户端。

2 基于ISCSI技术的地理国情普查数据分布式存储

2.1 研究路线

地理国情普查数据量大,如何有效进行管理,是必须考虑的问题。本文利用计算资源、网络资源、存储资源等构建数据库服务器集群和文件服务器集群,提供分布式存储环境。在数据库服务器集群和文件服务器集群上结合ISCSI技术,搭建ORACLE RAC数据库和分布式文件系统,其架构如图1所示。根据《第一次全国地理国情普查数据库建设技术设计》的要求,将地理国情普查的地表覆盖、地理国情要素及其元数据等矢量数据存储于ORACLE RAC数据库中,地形地貌数据、遥感影像数据、遥感影像解译样本数据等存放在分布式文件系统中,实现海量地理国情普查数据的分布式管理,然后验证使用ISCSI构建的存储环境能够满足海量地理国情普查数据的存储和读取;最后通过对比验证基于ISCSI的分布式管理和普通管理方式在数据存储和负载均衡方面的性能。

图1 分布式存储架构

2.2 分布式存储系统构建

2.2.1 基于ISCSI的ORACLE RAC数据库

使用相同配置的两台服务器部署ORACLE RAC集群,集群节点同时作为数据存储服务器,其配置信息如表1所示。基于ISCSI将服务器上的存储资源通过网络输送到所有ORACLE RAC节点,再利用ORACLE 的 ASM[6](automatic storage management,自动存储管理)将这两台服务器上的存储资源创建成共享存储来管理地理国情普查数据,集群内部实现分布式存储设备的维护。

表1 ORACLE RAC配置信息表

构建过程如下:

1)整体部署,包括硬件和软件环境部署,如表1。

2)配置公共网络和专用网络。

3)基于ISCSI配置共享存储。在网络协议的基础上,在集群节点上配置好ISCSI协议并添加ISCSI虚拟磁盘,启动ISCSI发起程序,连接至虚拟磁盘,从而绑定磁盘,实现磁盘的本地使用,再配置成共享存储。

4)安装集群软件和数据库。

5)配置客户端连接ORACLE RAC。

2.2.2 基于ISCSI的GlusterFS分布式文件系统

在GlusterFS中将服务器上剩余的存储空间使用ISCSI技术虚拟发布成网络存储设备,并加载多个网络存储设备和本地存储设备,采用两台配置信息如表1的服务器,搭建分布式文件系统环境。其构建过程如下:

1)将服务器上的空闲存储资源以虚拟ISCSI Target服务的方式发布出来,形成私有的存储区域网络SAN。

2)在5台存储服务器上分别安装GlusterFS,创建GlusterFS集群,各台服务器上使用GlusterFS将ISCSI存储设备或本地存储挂载为数据块并纳入管理。

3)配置多个节点的数据存储数据块融合成组,合并创建成大容量的网络存储卷,在网络上形成NAS存储网络。

4)主服务器节点,通过挂载分布式集群创建的NAS卷,使用Samba(Linux下的文件共享服务软件)为选定的目录建立网络共享,将NAS卷的存储空间提供出来,供网络内的其他服务器进行共享访问。

2.3 存储性能测试

选用一台配置为Intel(R) Core(TM)i5-2400、内存为4 GB、操作系统为Windows 7的台式机作为客户端,以某地地理国情普查成果数据为实验数据,分别对本文提出的分布式存储与普通集中式管理方式进行了存储效率和负载均衡性能的测试。

2.3.1 存储效率性能测试

1)选取记录数目分别为3万条、10万条和100万条的地理国情普查矢量数据,其对应的数据大小分别是50 M、200 M、1 000 M,比较导入基于ISCSI的ORACLE RAC数据库和ORACLE数据库的耗时,从ORACLE数据库中查询分别需要70 s、185 s和354 s;基于ISCSI的ORACLE RAC数据库查询分别需要31 s、93 s和159 s,其效率提高2.3倍,如图2所示。

2)选取数据量分别为0.1TB、1TB、5TB的地理国情普查影像数据,比较导入基于ISCSI的分布式文件系统和普通文件系统的耗时,导入普通文件系统分别需要4min、360min和1 800min;导入基于ISCSI的分布式文件系统分别需要2min、240min和1 200min,其效率提高1.5倍,如图2所示。

图2 存储性能测试

从图2可以明显看到,基于本文提出的分布式存储方式具有优势,存储效率高于普通的数据管理方式。

2.3.2 负载均衡性能测试

在ORACLE RAC集群上,首先关闭节点1上的数据库实例,在节点2上频繁执行查询操作,节点2的大量资源被占用,CPU利用率迅速升高,达到90%;再启动节点1上的数据库实例,此时节点1的CPU利用率升高到46%左右,节点2的CPU利用率降低到55%左右,几分钟之后两个节点的CPU利用率都保持在20%左右,如图3所示。

图3 ORACLE RAC集群CPU使用情况

通过测试验证,当集群某一节点的负载过高,而其他节点负载较小时,将请求分配给当前负载较小的节点上,从而实现数据交互的均衡分配。

2.4 测试结论

在反复的验证测试中,最终得出结论,基于ISCSI的ORACLE RAC数据库和分布式文件系统完全可以应用于地理国情普查数据的管理,且具有硬件成本低、存储效率高、负载能力强等优势。

3 结 语

深入研究了利用ISCSI技术构建的ORACLE RAC集群来管理地理国情普查数据,将数据分散地存储在多个普通的存储物理设备上,降低了硬件成本,实现了数据的高并发读写和海量数据存储,提高了系统的响应效率,并且系统具备灵活的分布式体系结构,支持横向伸缩;即便随着地理国情普查后续工作的推进造成数据量的几何级增长,也可以无缝扩展该存储系统以满足需求。

猜你喜欢
存储设备国情普查
立即全面普查 警惕二代粘虫发生
胡春华强调:确保脱贫攻坚普查取得圆满成功
家国情 诗词魂
推广生物乙醇汽油:迫切且合乎国情
Windows 7下USB存储设备接入痕迹的证据提取
基于Flash芯片的新型存储设备数据恢复技术研究
关于农业文化遗产普查与保护的思考
地理国情监测知识支持库初步设计
用批处理管理计算机USB设备的使用
特定国情教情中的中小学校自主权