基于PaaS平台的数据可视化研究

2021-11-07 09:17赵艳平
安阳师范学院学报 2021年5期
关键词:海量插件聚类

赵艳平

(安徽水利水电职业技术学院,安徽 合肥 230001)

0 引言

信息化时代背景下,数据产品分析加工至关重要。传统数据产品分析加工周期长,业务部门和技术部门之间沟通不畅,导致数据加工的实效性和质量较差,不利于企业市场竞争力的提升。PaaS平台数据管控技术具有结合企业业务需求进行数据模型设计的优势,通过对企业经营和发展过程中产生的海量大数据分析,实现数据产品的可视化,从而达到提升企业市场竞争力的目的。数据可视化是当前学术界研究的热点,侯雪等设计了用电行为数据可视化分析系统,该系统将数据挖掘和可视化分析有机结合起来,能够有效地帮助专家分析和理解数据,发现用电行为数据中未知的趋势,得到更有价值的结论[1]。符晓洪等借助PaaS技术构建了大数据云化平台,该平台不仅可以满足技术需求,同时也大大提升了资源的利用率[2]。数据可视化在快速的发展过程中积累了大量数据处理、存储、组织模型,但是依旧存在可视化环境下分布式转换的难题。基于开源技术,构建基于PaaS平台的数据可视化系统框架,对地理空间海量大数据可视化进行研究。

1 数据可视化系统架构

平台即服务(Platform as a Service,PaaS)是一种将服务器平台作为一种服务提供的商业化模式,属于云计算的三种服务模式之一。借助PaaS技术构建海量大数据分析平台,能够实现资源的充分利用,在海量大数据中找出事物内在的发展规律。基于PaaS平台的数据可视化为用户提供了大数据分析的平台,使得企业大数据部署成本大大降低[3]。图1为基于PaaS平台的数据可视化系统架构。

图1 基于PaaS平台的数据可视化系统架构

2 数据可视化系统技术

2.1 应用类型调度

应用类型不仅包含框架类的应用,还包含普通交易类的应用,对于不同的应用类型可以采用不同的调度方式。应用类型调度方式有独立调度方式和两层调度方式,其中独立调度方式是Hadoop集群对自身资源进行的调度,对框架类的应用调度提供支持。两层调度方式需要先对两种类型的应用进行叠加,不仅能够对资源进行共享,还能够对应用进行统一化的管理。YARN/Mesos是海量大数据应用下的两层调度器,具体如图2所示[4]。

图2 两层调度器应用

2.2 数据聚类分析

聚类分析是将物理对象或抽象对象集合进行分类的过程,是重要的人类行为,在数学、统计学、经济学、人文社科等领域具有广泛的应用。K均值算法是经典的聚类分析算法,通过计算距离来衡量对象之间的相似性[5]。设定待分类集合的聚类数目为k,将距离函数进行反复迭代可以将集合分为k类。K均值算法的目标是使得误差平方和函数J最小,即

(1)

式中:nj、mj、xi(j)分别为第j类样本的样本数、样本均值以及第i个样本。

采用K均值算法对样本进行分类,设定聚类数目,同时初始化聚类中心,计算集合中每一个样本数据到聚类中心的距离。根据距离的大小来将样本进行分类,同时对聚类中心进行更新,判断聚类中心是否发生变化。如果聚类中心发生变化,重新计算数据到更新后聚类中心的距离;如果聚类中心未发生变化,那么输出聚类中心,从而完成对样本的分类。K均值算法的流程如图3所示。

图3 K均值算法流程

2.3 分布式计算框架

在当前信息化、网络化时代背景下,数据量快速增加,传统的计算框架在处理海量大数据方面明显不足,单机计算模式无法支撑海量数据,必须采取分布式计算处理模式。分布式计算框架主要有三种模式,分别为Hadoop、Storm和Spark[6],其中Hadoop分布式计算框架具有强大的计算功能,是基于Google提出的MapReduce开发模式,研究采用Hadoop模式。

Hadoop模式对海量大数据处理采用的是函数式编程思想,数据处理包括map和reduce两个过程。通过函数式编程思想,庞大的计算任务转变为许多较小的计算任务,同时每一个较小的计算任务将分配到整个集群的每一个计算节点上。对每一个计算节点的计算结果进行收集整理,从而得到海量大数据的计算结果。图4为Hadoop分布式计算处理流程。

图4 Hadoop分布式计算处理流程

2.4 PaaS作业管理

通过浏览器,使用者将作业文件上传到云端,同时云端将使用者上传的文件读取到HDFS中,终端使用者借助浏览器下载可视化的分析结果文件。PaaS作业管理架构如图5所示。

图5 PaaS作业管理架构

由图5可知,PaaS作业框架是使用者将脚本文件Browser提交到API Server,API Server将任务信息存储在数据库Database中,同时选择与之对应的文件服务Cloudware Instance。Docker启动运行相应的作业脚本,同时和API Server之间保持心跳通信。Cloudware Instance任务处理完毕之后会给API Server发送异步消息,同时API Server将异步数据存储在数据库中。终端用户可以在NFS(网络文件系统)下载可视化的作业分析结果,从而实现对数据的可视化分析。

3 地理空间数据可视化实例分析

3.1 可视化相关软件

ArcGIS是用于地图绘制的基础架构,使用ArcGIS能够科学合理地利用资源,更好地做出决策,同时提升团队与团队之间、团队成员内部之间的沟通效率。ArcGIS具有强大的功能,具体如图6所示。

图6 ArcGIS功能示意图

Spatial Database,即空间数据库,可以存储和查询空间对象,如点、线、面等。空间数据库提供了SQL模式与函数,能够对空间对象集合进行更新、检索、查询等。GEOSS,即全球地球观测系统,该系统可以提供对地观测信息,实现对各种信息的处理,基于可视化相关软件与PaaS平台来实现对各种地理空间数据的可视化。

3.2 数据可视化结果

GIS引擎实现对PaaS平台中的各种地图信息进行整理并实现可视化,桌面以及服务器通过GIS引擎实现访问GIS地图的目的。图7为GIS引擎示例,即将GIS引擎嵌入到桌面的应用程序中,可以快速显示该地区的水系统数据,从而为防洪救灾、兴修水利提供参考。

图7 GIS引擎示例

桌面可视化应用程序包含数据存储、分析以及显示等功能,通过使用插件设计模式使各种软件的功能被剥离,降低了软件框架的复杂性。桌面可视化程序包括插件框架、插件契约和插件组件,其中插件框架主要进行插件的下载、加载等操作,实现接口和框架之间的通信;插件契约主要以接口形式存在,确保接口规范统一,同时有效地对插件进行组织和管理;插件组件主要是功能的实现,包含格式的转换、数据的基础统计等。图8为桌面主界面。

图8 桌面主界面

桌面主界面实现了数据分析的可视化,通过菜单栏、工具栏、状态栏等显示地理位置信息,同时还可以使用插件来进行二次开发,完成特定的地理空间信息大数据分析功能。

为了说明基于PaaS平台数据可视化模式的优势,将其和传统的模式进行对比,结果如表1所示。

表1 不同模式对比

由表1可知,基于PaaS平台的数据可视化开发模式的硬件准备、开发准备、数据准备以及应用部署的时长远远小于传统的开发模式,同时PaaS平台实现了对资源的共享利用,这使得资源的利用率大大提升,具有十分显著的优势。

4 结论

网络化、信息化产生了海量大数据,对海量大数据的可视化分析研究能够充分地挖掘数据潜在价值。基于开源技术,构建了PaaS平台数据可视化系统架构,对应用类型调度、数据聚类分析、分布式计算框架等数据可视化技术进行了研究,并应用于地理空间数据可视化分析实例中。结果表明,基于PaaS平台的数据可视化能够更好地实现对各种地理海量大数据的共享,提高数据资源的利用率,这对有效挖掘地理海量空间大数据的潜在价值具有一定的参考价值。

猜你喜欢
海量插件聚类
一种傅里叶域海量数据高速谱聚类方法
海量GNSS数据产品的一站式快速获取方法
基于知识图谱的k-modes文本聚类研究
一种改进K-means聚类的近邻传播最大最小距离算法
用好插件浏览器标签页管理更轻松
基于模糊聚类和支持向量回归的成绩预测
海量快递垃圾正在“围城”——“绿色快递”势在必行
请个浏览器插件全能管家
基于jQUerY的自定义插件开发
一个图形所蕴含的“海量”巧题