基于课程体系的高校大数据集成与服务平台系统研究与设计

2020-06-11 09:26卜南翔徐述王玉婷曾海洋王吉祥
电子技术与软件工程 2020年1期
关键词:数据服务结构化集群

文/卜南翔 徐述 王玉婷 曾海洋 王吉祥

(湖南城市学院 信息与电子工程学院 湖南省益阳市 413000)

随着智慧校园的建设,高校教学科研等各类应用中累积的大数据呈指数级规模增长,高校大数据蕴含着大量有价值的教改、科研、创新信息,必将在高校教学科学研究与实践中发挥重要作用。

高校大数据既包括信息化建设以来,高校各部门信息系统中的结构化数据、文本,也包括与高校相关的社交媒体、网页、移动端所产生的非结构化数据。这些数据缺少统一的数据处理平台。在高校建立大数据收集与服务平台,以服务为核心,通过机器学习算法分析出高校大数据中的有价值的信息为国家高等教育提供决策依据,为师生提供更智能的信息指导服务,是高校优化资源配置、增强人文气质、提升国家高等教育核心竞争力的重要保障。

1 大数据(Big Data)

数据仓库之父BillInnmon 最早提出了大数据的概念,《The definitive guide》将大数据真正定义为一个词汇。维基百科对大数据的定义如下:数据集大小与复杂性无法通过现有的数据处理软件及集成开发环境,有效地进行组织、存储、管理和处理的数据集。一般地,大数据具有4V 特征:

(1)巨量(Volume);

(2)多样(Variety),数据不再是单一结构化,更多的是半结构、非结构化;

(3)快变(Velocity),要求数据到达的速度快、实时响应速度快;

(4)价值(Value),这种价值往往是隐含的,需要挖掘的。

此外,最近IBM 还提出了大数据的第五个特征,即真实性(Veracity)。

2 高校大数据(College Big Data)

高校范畴内的各类数据构成了高校大数据,其形式上可以是结构化、半结构化、非结构化等,各种结构的大数据中蕴含了丰富的社会科学及自然科学各门类教学科研信息与应用实践信息。

2.1 高校大数据的特点

高校在数字化建设过程中建立了各种信息管理或处理系统,这些各自独立的纵向系统产生了大量的结构、非结构数据,如文本类文档、日志等。此外,互联网及物联网技术支持的网络和终端,也动态产生着大量高校数据。从数据结构角度看高校大数据大致分两类:第一类为七八十年代数据库技术流行以来,高校关系数据库中累积的关系数据;第二类为高校一些非关系系统、移动终端所产生的半结构、非结构化数据。

高校大数据处理具有如下特点:

(1)数据加载速度快。向系统快速加载数据才能满足高校大数据实时类服务快变的需求;

(2)系统集群易于水平扩展。根据需求灵活的扩展集群,既可以随时满足大数据系统的数据增长与处理需求,又可以控制成本;

(3)支持基于机器学习算法的多维度查询。大数据时代下的用户对于简单查询的需求并不多,更多的需求是复杂度更高的基于推荐、预测等的决策分析查询,如专家系统;

(4)实时处理。快速对包含最新数据的数据集做出合理地实时挖掘与更新分析是大数据存储与处理的共同目标,也是两者的瓶颈。

为了更好地挖掘高校大数据中蕴含的价值,基于高校大数据分散存放在高校各处独立纵向数据处理系统,缺乏统一的存储平台的现状,本文对高校大数据集成与服务平台系统展开研究与设计。

2.2 国内外研究现状和发展动态

目前,国外高校大数据的研究可以总结为五大主题:

(1)技术环境研究。

(2)数据挖掘及应用。

(3)高校应用研究。

(4)用户研究。

(5)开放资源与个性化教学。

国内高校大数据的研究也可分为五大主题:

(1)高等教育教学改革。

(2)教学模式研究及应用。

(3)高校专业个性化学习研究。

(4)人才培养模式研究。

(5)教师发展分析与合理化推荐。

国外高校大数据分析侧重应用研究,同时研究通常可以转化为实际应用,如美国将高校数据应用到医疗、保险、户籍等方面。而我国对于高校大数据的研究侧重于理论层面的探索以及对国外案例介绍,应用研究相对不足,处于起步阶段,高校大数据生态尚未形成规模。

3 高校大数据集成与服务系统设计

针对国内高校大数据分析与服务方面的不足,高校大数据研究应该从智慧校园建设入手,为数据挖掘与分析创造充分条件。将高校范畴内众多软件系统融入到校园云,实现高校实时数据的收集、清洗、存储和分析,开展基于分布式存储的大数据服务,实现教学、科研、产业的科学化、智能化管理。

同时,利用大数据技术创造大数据学习实验环境,通过虚拟实验室、虚拟仿真平台、及各类仿真实训系统,使学生增加课程学习的深度与广度,学以致用。

3.1 高校大数据集成平台设计

高校大数据统一存储平台多采用分布式文件系统HDFS 搭架。HDFS 将海量数据存储在廉价计算机集群上,节约成本的同时又能保证数据的安全可靠。

分布式集群由命名节点(NameNode)和数据节点(DataNode)组成。命名节点负责数据文件的空间名称管理以及客户端交互操作,数据节点负责存储数据。命名节点将数据文件分块分配给数据节点存储。HDFS 默认采用3 副本形式进行存储,分放在多个机架(Rack)上。若集群中某数据节点发生故障,系统直接将副本拷贝过来就可以恢复故障节点数据,因此系统稳定可靠。基于HDFS 的高校大数据集成与服务平台模型如图1 所示。

3.2 高校大数据集成服务研究内容

高校大数据集成与服务,研究的内容涉及(以课程体系服务为例):

(1)基于高校各类大数据,构架适合高校实际情况的大数据集群实验平台。常见的平台实现方案有:Hadoop 集群;Spark集群;Hadoop 集群分布式存储+Spark 分布式运算框架。其中Hadoop+Spark 集群存储与运算框架适用于高校大数据成本规模,并且基于内存的并行运算比Hadoop+MapReduce 速度快数十倍。

(2)高校各类大数据特征、收集方案及其分布式存储;实现高校现有各类结构化、半结构化与非结构化数据到大数据实验平台的复制以及流数据存储功能。

(3)研究高校大数据服务(课程服务为例)的特征与需求。

(4)研究基于邻域推荐算法、基于内容推荐、基于关联规则等各类机器学习算法,分析比较各种推荐方法的特点研究确定推荐算法组合思路,设计适用于高校大数据服务(课程服务为例,设计并实现课程体系服务中的选修课程推荐/参考书目推荐)的混合算法,并考虑算法改进;

(5)学习研究各类大数据可视化库,确定适用于高校大数据服务(课程服务为例)的可视化工具;

(6)对高校大数据收集与服务平台及其分布式存储系统开展安全性研究。

3.3 高校大数据集成与服务的特点

(1)数据存储与计算解耦模式。大数据计算与存储是解耦的,数据与计算不必在同一位置,这样的系统更灵活、资源利用率更高、成本更低,也更适用于高校的实际经济成本情况。

(2)高校大数据服务与大数据课程实验结合的复合平台。设计实现的平台系统既可以实现高校大数据收集与服务,也可以做为大数据课程体系实验平台为专业学习提供服务。

(3)大数据分布式存储的安全性研究。根据高校大数据的特点,开展适合高校具体情况的分布式存储系统的安全性规划与设计。

3.4 高校大数据集成与服务平台系统的实现框架为:

(1)Linux+Hadoop 构架分布式存储集群。Hadoop 最主要在Linux 操作系统环境下运行,并且适用于需要成本控制(例如高校)的大数据存储环境,使用Linux+Hadoop 可以实现稳定而易于扩展并且造价低廉的集群平台与分布式数据存储;

(2)Spark 分布式计算框架。Spark 是基于内存、具有弹性的分布式集群运算框架,用来分析项目中的大数据服务,速度快。

(3)Eclipse+Python+Spark 大数据服务(以课程服务为例)开发。Eclipse 是很受欢迎的跨平台的开发框架,具体地Spark 大数据服务应用程序通过在Eclipse IDE 中加载插件支持Python Spark 应用程序开发,Python 语法简洁、开发效率高,可以高效完成基于机器算法的课程体系服务开发任务。

4 高校大数据平台与服务系统体系结构

系统体系结构分为终端接入层、应用服务层与底层资源架构层。

4.1 终端接入层负责终端用户接入

用户使用个人微型计算机、笔记本、瘦终端、平板电脑、智能手机等接入节点接入系统。

4.2 应用服务层向用户提供各种资源推荐服务

图1:高校大数据集成与服务平台

资源推荐服务可以是课程资源搜索、课程资源推荐、以及用户访问教学资源统计等。以课程服务为例,可以向用户进行课程选修、图书借阅等个性化推荐并收集用户评分,训练改进服务算法。业务应用层中的用户访问的数据资源分布在分布式文件系统HDFS 上,根据高校大数据应用需求部署安装大数据生态软件包(如Hive、HBase、Flume、Azkaban、 Sqoop、MySQL 等);

4.3 底层资源架构层对用户屏蔽

将一台物理服务器虚拟抽象为若干逻辑计算机,用户面对一台终端就像使用本地机器一样,感受不到区别。在同一台物理服务器上同时运行多台逻辑计算机,每台逻辑计算机独立运行在不同的操作系统下,即可以有效隔离资源,又可以提高集群节点工作效率。

5 结语

本文围绕高校大数据,研究了在高校大数据收集与服务系统的特点、开发框架与系统体系结构。今后的研究可以围绕各类高校大数据算法的效率比较,混合算法的参数设置,加权处理等方面开展。

猜你喜欢
数据服务结构化集群
地理空间大数据服务自然资源调查监测的方向分析
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
如何运用税收大数据服务供给侧结构性改革
基于频繁子图挖掘的数据服务Mashup推荐
基于图模型的通用半结构化数据检索
一种基于数据服务超链进行情景数据集成的方法*