基于PaaS平台的数据可视化研究

2021-11-07 09:17赵艳平

安阳师范学院学报 2021年5期

赵艳平

(安徽水利水电职业技术学院，安徽合肥 230001)

0 引言

信息化时代背景下，数据产品分析加工至关重要。传统数据产品分析加工周期长，业务部门和技术部门之间沟通不畅，导致数据加工的实效性和质量较差，不利于企业市场竞争力的提升。PaaS平台数据管控技术具有结合企业业务需求进行数据模型设计的优势，通过对企业经营和发展过程中产生的海量大数据分析，实现数据产品的可视化，从而达到提升企业市场竞争力的目的。数据可视化是当前学术界研究的热点，侯雪等设计了用电行为数据可视化分析系统，该系统将数据挖掘和可视化分析有机结合起来，能够有效地帮助专家分析和理解数据，发现用电行为数据中未知的趋势，得到更有价值的结论[1]。符晓洪等借助PaaS技术构建了大数据云化平台，该平台不仅可以满足技术需求，同时也大大提升了资源的利用率[2]。数据可视化在快速的发展过程中积累了大量数据处理、存储、组织模型，但是依旧存在可视化环境下分布式转换的难题。基于开源技术，构建基于PaaS平台的数据可视化系统框架，对地理空间海量大数据可视化进行研究。

1 数据可视化系统架构

平台即服务(Platform as a Service，PaaS)是一种将服务器平台作为一种服务提供的商业化模式，属于云计算的三种服务模式之一。借助PaaS技术构建海量大数据分析平台，能够实现资源的充分利用，在海量大数据中找出事物内在的发展规律。基于PaaS平台的数据可视化为用户提供了大数据分析的平台，使得企业大数据部署成本大大降低[3]。图1为基于PaaS平台的数据可视化系统架构。

图1 基于PaaS平台的数据可视化系统架构

2 数据可视化系统技术

2.1 应用类型调度

应用类型不仅包含框架类的应用，还包含普通交易类的应用，对于不同的应用类型可以采用不同的调度方式。应用类型调度方式有独立调度方式和两层调度方式，其中独立调度方式是Hadoop集群对自身资源进行的调度，对框架类的应用调度提供支持。两层调度方式需要先对两种类型的应用进行叠加，不仅能够对资源进行共享，还能够对应用进行统一化的管理。YARN/Mesos是海量大数据应用下的两层调度器，具体如图2所示[4]。

图2 两层调度器应用

2.2 数据聚类分析

聚类分析是将物理对象或抽象对象集合进行分类的过程，是重要的人类行为，在数学、统计学、经济学、人文社科等领域具有广泛的应用。K均值算法是经典的聚类分析算法，通过计算距离来衡量对象之间的相似性[5]。设定待分类集合的聚类数目为k，将距离函数进行反复迭代可以将集合分为k类。K均值算法的目标是使得误差平方和函数J最小，即

(1)

式中：nj、mj、xi(j)分别为第j类样本的样本数、样本均值以及第i个样本。

采用K均值算法对样本进行分类，设定聚类数目，同时初始化聚类中心，计算集合中每一个样本数据到聚类中心的距离。根据距离的大小来将样本进行分类，同时对聚类中心进行更新，判断聚类中心是否发生变化。如果聚类中心发生变化，重新计算数据到更新后聚类中心的距离；如果聚类中心未发生变化，那么输出聚类中心，从而完成对样本的分类。K均值算法的流程如图3所示。

图3 K均值算法流程

2.3 分布式计算框架

在当前信息化、网络化时代背景下，数据量快速增加，传统的计算框架在处理海量大数据方面明显不足，单机计算模式无法支撑海量数据，必须采取分布式计算处理模式。分布式计算框架主要有三种模式，分别为Hadoop、Storm和Spark[6]，其中Hadoop分布式计算框架具有强大的计算功能，是基于Google提出的MapReduce开发模式，研究采用Hadoop模式。

Hadoop模式对海量大数据处理采用的是函数式编程思想，数据处理包括map和reduce两个过程。通过函数式编程思想，庞大的计算任务转变为许多较小的计算任务，同时每一个较小的计算任务将分配到整个集群的每一个计算节点上。对每一个计算节点的计算结果进行收集整理，从而得到海量大数据的计算结果。图4为Hadoop分布式计算处理流程。

图4 Hadoop分布式计算处理流程

2.4 PaaS作业管理

通过浏览器，使用者将作业文件上传到云端，同时云端将使用者上传的文件读取到HDFS中，终端使用者借助浏览器下载可视化的分析结果文件。PaaS作业管理架构如图5所示。

图5 PaaS作业管理架构

由图5可知，PaaS作业框架是使用者将脚本文件Browser提交到API Server，API Server将任务信息存储在数据库Database中，同时选择与之对应的文件服务Cloudware Instance。Docker启动运行相应的作业脚本，同时和API Server之间保持心跳通信。Cloudware Instance任务处理完毕之后会给API Server发送异步消息，同时API Server将异步数据存储在数据库中。终端用户可以在NFS(网络文件系统)下载可视化的作业分析结果，从而实现对数据的可视化分析。

3 地理空间数据可视化实例分析

3.1 可视化相关软件

ArcGIS是用于地图绘制的基础架构，使用ArcGIS能够科学合理地利用资源，更好地做出决策，同时提升团队与团队之间、团队成员内部之间的沟通效率。ArcGIS具有强大的功能，具体如图6所示。

图6 ArcGIS功能示意图

Spatial Database，即空间数据库，可以存储和查询空间对象，如点、线、面等。空间数据库提供了SQL模式与函数，能够对空间对象集合进行更新、检索、查询等。GEOSS，即全球地球观测系统，该系统可以提供对地观测信息，实现对各种信息的处理，基于可视化相关软件与PaaS平台来实现对各种地理空间数据的可视化。

3.2 数据可视化结果

GIS引擎实现对PaaS平台中的各种地图信息进行整理并实现可视化，桌面以及服务器通过GIS引擎实现访问GIS地图的目的。图7为GIS引擎示例，即将GIS引擎嵌入到桌面的应用程序中，可以快速显示该地区的水系统数据，从而为防洪救灾、兴修水利提供参考。

图7 GIS引擎示例

桌面可视化应用程序包含数据存储、分析以及显示等功能，通过使用插件设计模式使各种软件的功能被剥离，降低了软件框架的复杂性。桌面可视化程序包括插件框架、插件契约和插件组件，其中插件框架主要进行插件的下载、加载等操作，实现接口和框架之间的通信；插件契约主要以接口形式存在，确保接口规范统一，同时有效地对插件进行组织和管理；插件组件主要是功能的实现，包含格式的转换、数据的基础统计等。图8为桌面主界面。

图8 桌面主界面

桌面主界面实现了数据分析的可视化，通过菜单栏、工具栏、状态栏等显示地理位置信息，同时还可以使用插件来进行二次开发，完成特定的地理空间信息大数据分析功能。

为了说明基于PaaS平台数据可视化模式的优势，将其和传统的模式进行对比，结果如表1所示。

表1 不同模式对比

由表1可知，基于PaaS平台的数据可视化开发模式的硬件准备、开发准备、数据准备以及应用部署的时长远远小于传统的开发模式，同时PaaS平台实现了对资源的共享利用，这使得资源的利用率大大提升，具有十分显著的优势。

4 结论

网络化、信息化产生了海量大数据，对海量大数据的可视化分析研究能够充分地挖掘数据潜在价值。基于开源技术，构建了PaaS平台数据可视化系统架构，对应用类型调度、数据聚类分析、分布式计算框架等数据可视化技术进行了研究，并应用于地理空间数据可视化分析实例中。结果表明，基于PaaS平台的数据可视化能够更好地实现对各种地理海量大数据的共享，提高数据资源的利用率，这对有效挖掘地理海量空间大数据的潜在价值具有一定的参考价值。