大数据环境下高校信息资源库建设构想

2016-05-25 07:48羌栋强
关键词:云计算大数据

羌栋强

(江苏商贸职业学院,江苏 南通 226011)



大数据环境下高校信息资源库建设构想

羌栋强

(江苏商贸职业学院,江苏 南通226011)

摘要:当前高校信息资源建设在信息化建设中得到高度重视,信息资源库的建设正朝着结构复杂化、形式多样化以及内容多元化的方向发展。在此背景下,深度剖析了基于云计算构建高校信息资源库的体系架构和实现要点,借助目前较为成熟的云平台应用实例来构建高校信息资源库,以期为高校信息资源库建设指出新的思路。

关键词:大数据;云计算;信息资源库

随着云计算、移动互联、新媒体等网络应用的快速发展,各类数据资源库得到较大的发展空间与机遇,这也意味着大数据时代的到来。近年来高校信息资源库建设在信息化建设中得到高度的重视,高校当前在信息资源库的建设领域取得的成就日益增多,高校信息资源库的建设也呈现出结构复杂化、形式多样化以及内容多元化的特点。当然,随着信息资源数量与规模的逐渐扩大,在资源数据开发与利用的过程中就需要本着提升资源利用率、提升服务水平的原则来执行。在大数据环境下利用云计算这种新的共享基础架构方法,在高校信息资源库建设与应用方面大有可为。本文正是在这种背景下提出了大数据时代下基于云计算的高校信息资源库建设构想。

一高校信息资源库建设的思考

在大数据时代到来的背景下,高校推出了校园一卡通、精品课程建设以及统一身份认证平台等,这些领域与高校的信息资源具有较为密切的关系,这也会对数据库的结构提出更高的要求。高校信息资源数据库在建设的过程中,存在基础设施更新较快导致建设成本增加、各系统之间资源重复建设、信息系统相对独立形成“信息孤岛”导致信息使用率不高等问题,这就需要将数据的存储、管理以及利用等作为研究中心,尽可能地发挥出信息资源库在高校运行中的作用。

1.数据存储。

大数据环境下的高校信息资源库中,数据存储量需要达到TB甚至PB级别。数据系统架构作为数据资源建设领域的核心,需要考虑到系统的容量拓展以及架构的更改等问题。除此之外,针对数据库系统在运行过程中的停机行为很可能导致系统出现错误的问题,可借助于磁盘柜或者增加模块等方式来有效解决。与此同时,虚拟化存储技术运用到云计算平台后,除了可降低开发的成本外,最重要的是可大幅度提升存储的效率。特别是在对数据存储需求较大,能源紧缺的背景下,对数据存储设备选择就需要考虑到能耗问题,并且低能耗的设备在降低成本方面也具有较大的优势。

当然,高校在信息资源平台搭建的过程中,往往由于系统中的规划设计存在缺陷,部门间无法实现信息共享,便会出现存储信息孤岛的情况,意味着除了对部门间业务协同影响外,还会出现重复工作的情况,因此无法实现对有价值的数据进行挖掘。在执行的过程中,为了能够实现各个部门数据完美的共享,首先应该对数据中心进行构建,并且在系统的信息编码与数据标准方面也具有一定的要求,这对于后期数据在数据中心处的整合具有积极作用。其中涉及到的操作类型有复制、共享以及数据迁移等,通过以上操作可以避免存储信息孤岛的情况再次发生,也为下一步信息统计、数据挖掘、资源共享提供了数据基础。

2.数据挖掘。

数据存储解决了信息资源沉淀的问题,但是我们需要在沉淀的数据中找出有用的信息,实现对知识优化、信息的科学利用以及对数据中心的数据深层次挖掘,这才是构建信息资源库的终极目标。现阶段多数高校在数据库技术方面趋于成熟,但是在办公、科研以及教学方面分别拥有不同的数据库,特别是21世纪以来新媒体、互联网技术的蓬勃发展,促使高校在不同平台获取了更多可用的数据,形成了较完整的数据分析体系,这都给高校对数据资源的挖掘提供了较大帮助,高校在信息资源库建设的过程中,在数据领域方面主要从以下方面来研究。

(1)资源库系统。具体是指对统计资源平台的访问量、流量以及数据库响应时间等参数进行收集与整理,并借助于这些数据来构建相应的模型,其根本目标是提升服务器硬件资源的利用率。为了能够提升用户的体验满意度,同时需要安排相应的维护人员来对资源库系统进行看守。

(2)资产管理系统。具体是指对当前高校的资产情况进行管理,首先是根据不同类型的资产进行划分,然后对资产数据进行整合。除此之外,借助于数据分析技术还可了解到历年高校在资产管理方面的具体情况,这对于后期的决策具有较大的帮助。

(3)学生管理系统。学生是学校的核心,学校需要对每位学生的具体情况进行管理。采用统计的方式以专业、年级、班级为划分标准来进行信息整合,然后将学生的家庭情况、出生地以及毕业所在地等情况填写后,可为高校的招生提供较大的帮助。

(4)科研系统。高校是科研领域的主力军,导师与学生在课堂中积累了大量的科研资料,这对于高校在科研研发方面提供了较大的便利。因此,应该对科研系统中的数据进行深层次的挖掘,最终得到最有价值的信息。

总之,通过前文的分析可看出高校信息化建设受到了大数据时代的影响,在当前环境下面临着众多机遇与挑战。尤其是在大数据环境下,高校信息系统的建设需要充分认识到大数据的概念与优势,这对于数据挖掘、数据存储等都具有较大的帮助。

二基于云计算的核心架构设计

面对错综复杂的数据资源,“云计算”的运用具有降低成本、可靠安全、兼容性强和海量存储等优势。经过分析,设计思路是以面向服务的架构为核心,涉及到访问层、应用层、资源整合层、云平台层以及物理层五个模块,具体的情况如图1所示。

图1 基于云计算的高校信息资源库核心架构

1.物理层。

物理层作为高校信息资源库体系架构的核心,通常也被称为基础设施层,其功能是为信息资源平台提供硬件支持,也就是指基础设施管理。在物理层中,具体可分为服务器集群、网络设施以及高性能存储集群等分支。与此同时,借助于虚拟化技术可构建大型资源池。

2.云平台层。

在云平台层模块中,主要包含数据运行环境、程序开发环境以及通过Web和标准接口来调用API和Web service模块。[1]而对平台进行分类可划分为三种,其一是程序运行平台,其二是数据库平台,其三是开发测试平台。将物理层所提供的虚拟硬件资源部署在平台层后,便可实现两个模块间的连接与沟通。在此基础上来满足不同业务需求,构建相互隔离的虚拟机。在数据服务的可用性以及数据的安全性、稳定性方面提供了较大的帮助。

3.资源整合层。

资源整合层作为整体架构的中间部分,同时也是平台建设过程中不可缺少的部分之一。通常情况下,此部分包含元数据库与索引库两个部分,在资源元数据操作的过程中,涉及到的工具类型也是较多的,例如编目工具、导出工具以及元数据生成工具。在操作的过程中,资源整合层可对高校各个部门的信息资源进行整合与分类,并采用标准化的方式来构建信息资源视图,其根本目标是实现对信息资源管理有效地简化与优化,这对于应用层与访问层是非常重要的。由于资源整合层较为重要,因此在构建的过程中需要严格按照技术规范来操作才能最终实现互操作性与规范性的目标。因此,为了能够更好地对资源标准化进行制定,可通过对国内外的建设标准进行总结与规划,在此基础上实现了元数据提取的流程。

4.应用层。

应用层分为应用管理服务和中间件,在此模块中,能够根据用户的实际需求来对资源进行合理的、科学的、安全的配置,有效地发挥出资源共享云平台的真正价值与作用。除此之外,根据不同用户的需求来设计个性化的资源应用系统,在此背景下便可达到实时对校内信息资源系统登录与访问的目的。

5.访问层。

访问层的主体包含云平台管理门户与用户自主服务门户两个方面,他们分别代表着不同的身份角色,登陆到平台后有不同的功能与权限。同时,由于本系统是基于云计算而构建的,因此软件硬件存储、应用程序的运行都不是在本地计算机中执行的,而是在云中操作。也就是说此系统对于用户的设备并没有较高的要求,无论是平板电脑、笔记本电脑还是智能手机都能够访问。

三高校信息资源库的关键技术[2]

在对高校信息资源库构建的过程中,虚拟化技术、分布式技术、数据计算等技术会运用在物理层、云平台层以及应用层当中。

1.物理层。

物理层中运用到的技术是虚拟化技术,现阶段较为主流的虚拟化软件有XenServer平台、vSphere系列以及Hyper系列等管理软件,实现了对物理设备的虚拟化管理。具体来说,在服务器虚拟化技术中,主要的原理是将服务器虚拟为多个虚拟机,在此基础上根据应用层中用户的实际需求来合理准确地对硬件资源进行分配,最终实现大幅度提升服务器利用率的目标。在执行虚拟化的过程中,具体操作是在物理层中架构虚拟化平台,并且原有的US不需要做改动便可在虚拟化平台中运行。举例来说,当前运用比重较大的是VMware ESX虚拟化软件,在此类型软件对虚拟机构建的过程中,可划分为虚拟机管理器与VMkermel。其中,前者的功能是对内存、CPU等进行虚拟化操作,后者则是实现虚拟机的托管。关于物理层中服务器虚拟化见图2所示。

图2 物理服务器的虚拟化管理

2.云平台层。

云平台层在整个核心架构中承担对上层应用的托管和对下层虚拟资源实现对系统管理的重要功能,提供面向服务的PaaS平台,一般通过模块化、集成化、动态组装等构建模式来获得云应用系统的重用性、可靠性、可扩展性和开放性。[3]当前较为成熟的技术有GAE、Hadoop平台等,可实现对网络应用程序的开发、测试以及部署等。以当前较主流的Hadoop平台为例,该平台可借助于具体日志、结构化以及可扩展的功能,比较适用于大数据集应用程序的分布式文件系统,在数据读写与容错能力方面具有较大的优势。除此之外,该平台还包含对文件与目录进行创建、修改、删除以及复制等,用户使用浏览器或命令接口的方式来对HDFS进行浏览。当然,在HDFS中运行的HBase分布式数据库,在有序性、可用性以及伸缩性等方面是其他平台无法相对比的。此外,MapReduce分布式计算模型的运用也较多,多数情况下是在对数据计算需求较大的系统中使用。作为数据分析人物的编程模型,为计算机集群提供了分布式并行处理的方式,具体情况如图3所示。其中包含主服务器与子服务器两个方面,主服务器则是对所有任务进行调度,而后者的功能则是对Map任务和Reduce任务进行执行。

图3 Hadoop分布式计算

3.应用层。[4]

应用层的功能是提供SaaS服务 (Software as a Service,软件即服务),[5]根据用户的实际需求来制定智能检索、个性化定制等服务,在特点方面尤其突出,包含一站式访问、统一接口以及单点登录等。现阶段在应用层运用的核心技术是web2.0技术与多租户技术、服务整合技术等。具体来说,web2.0技术是基于互联网技术而构建的,在社会性与交互性方面都具有较大的优势。而应用层中采用web2.0技术的最终目的是对界面灵活性、交互性的提升。而多租户技术的功能是对软件资源、硬件资源的共享,并且可根据用户的实际需求来对资源合理配置,最大限度地提升资源利用率。Force.com多租户架构为当前较为常用的技术,实现了借助元数据驱动的体系结构,构建出共享数据库。需注意的是,在运行过程中引擎调度的情况下会使得用户的元数据处于相互隔离状态,最终达到构建可扩展、高性能以及按需定制的多租户应用的目标,具体情况如图4所示。

图4 基于元数据驱动的多租户应用

四结语

近年来高校信息资源库建设在信息化建设中得到高度的重视,高校当前在信息资源库的建设领域取得的成就日益增多,高校信息资源库的建设逐渐向结构复杂化、形式多样化以及内容多元化的方向发展。而在此背景下,高校在对信息平台建设的过程中,需要将核心放在服务质量、资源利用率等方面,这对于促进高校信息资源库的建设具有积极作用。

本文的研究是大数据环境下基于云计算技术构建高校信息资源库,将体系结果的构建作为研究的重心。其中运用到的技术有多租户技术、虚拟化技术以及分布式计算技术等,最终实现降低平台开发成本、缩短平台开发周期的目标。通过本文的研究,能够为高校的信息资源平台建设提供新的思路,对后期的研究和实践有积极的作用。

参考文献

[1]羌栋强.基于Web服务的网络软件运行平台的分析与实现[J]. 电子技术与软件工程,2014(2):26.

[2]姜晓旭,罗辉. 基于云计算构建高校信息资源共享平台的设计方案[J].中国医学教育技术,2013,27(1):38-41.

[3]徐星,周剑雄,王明哲.基于模型仿真的云计算PaaS构建模式选择[J].微电子学与计算机,2014,31(6):90-93.

[4]过怡.基于Force.com平台的SaaS应用的设计与实现[J].电脑知识与技术,2009(10):2620-2621.

[5]CHONG F, CARRARO G.Architecture strategies for catching the long tail [R] .MSDN Library, Microsoft Corporation, 2006: 9-10.

Class No.:TP392Document Mark:A

(责任编辑:郑英玲)

Proposition to Build the Colleges Information Resources Libraries in the Environment of Big Data

Qiang Dongqiang

(Jiangsu Vocational College of Business, Nantong, Jiangsu 226011,China)

Abstract:Currently, much attention has been paid to construction of the colleges information resources libraries, which is complicated structurally and diversified in both the form and the content. The framework to build the colleges information resources libraries based on cloud computing as well as the key points for materialization has been analyzed, and the existing mature cloud platform application cases have been employed to build the libraries in order to find out a new thought for construction of the colleges information resources libraries.

Key words:Big Data; Cloud Computing; information resources

中图分类号:TP392

文献标识码:A

文章编号:1672-6758(2016)05-0039-4

基金项目:江苏商贸职业学院2015年度教改课题“基于云计算的高校信息资源库建设研究”(编号: SY20151221-05)阶段性研究成果。

作者简介:羌栋强,工程师,江苏商贸职业学院。研究方向:高校信息资源建设。

猜你喜欢
云计算大数据
志愿服务与“互联网+”结合模式探究
云计算与虚拟化
基于云计算的移动学习平台的设计
大数据环境下基于移动客户端的传统媒体转型思路
实验云:理论教学与实验教学深度融合的助推器
云计算中的存储虚拟化技术应用
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索