大数据技术在城市运行管理服务信息化中的应用

2023-12-29 02:54王立明刘仕伟
信息记录材料 2023年11期
关键词:结构化数据挖掘信息化

王立明,李 迎,刘仕伟,翟 优

(衡水学院 河北 衡水 053000)

0 引言

随着互联网和信息化的发展,为城市运行管理服务的供水、供电、供气、供暖、卫生等各方面带来了便利,但这些信息化系统在处理数据信息时产生了很多结构化、非结构化和半结构化的数据集,这些数字化信息在地理空间上不断向外延展并且需要经过复杂运算和数据挖掘算法才能满足管理者预测分析的需求。 大数据技术就是在上述需求下应运而生,利用大数据的存储、计算、处理和可视化技术解决城市运行管理信息化中的突出问题,依托大数据技术能够有效收集、存储、整理和挖掘海量数据,对城市运行服务管理的数字化、智能化和精细化具有重要的意义。

1 大数据与城市运行服务管理信息化概述

1.1 大数据

大数据来源主要是各类信息管理系统,此外,大数据还包括操作日志、交易信息、音视频资料以及地理位置信息的非结构化和半结构化数据。 在大数据技术成熟之前,人们受限于数据收集、存储和分析能力,样本数据量相对较小,大数据技术的出现让数据存储和分析能力不再是瓶颈,可以在更大规模的数据上,以更快的速度、更全面有效的方式进行数据分析,得到数据的价值,为决策提供支持。

1.2 城市运行服务管理信息化

城市运行服务管理涉及的部门有水利、电力、交通、供暖、市政、公共安全、气象、环境保护、卫生防疫、食品安全、应急指挥等。 随着信息技术的迅速发展,城市运行服务管理信息化经历了手工管理、办公自动化、业务系统管理、数字化城市、智慧化城市五个阶段。 站在信息技术的角度来看,这些不同阶段的改变其实是对城市运行服务管理数据更加完整、更加量化以及更加及时的改变,在完整的信息基础上,利用这些数据积累构建科学的城市运行模型,辅助管理者做出更加科学的管理决策,提高城市运行效率,改善城市公共服务水平。

2 大数据在城市运行管理信息化中的重要作用

充分利用大数据技术对城市交通中的数据进行分析与计算,能够及时发现城市交通道路的问题并予以疏导和修复道路,为广大市民提供更加便捷的出行服务。 大数据技术实时监控车流量情况,与红绿灯交通指挥系统和车载导航终端设备等进行联动和广播,使城市交通流量管理更加高效和智能。 利用大数据技术服务于气象行业,使气象检测预报工作更准确更及时,便于农业、电网、电厂、铁路等多部门快速共享气象信息,在气象灾害防御和气象资源趋利避害方面发挥重要作用,有利于提升气象信息产业化发展,为保障地方经济社会发展提供更有力的支持。

充分利用大数据技术对城市规划提供数据支持,将北斗地理信息数据、城市人口空间分布数据、自然资源信息等基础数据资源进行建模分析,通过数据挖掘算法生成模型知识库,为城市规划设计编制、资源行政审批及自然资源量化等提供科学的数据依据和支撑。 利用大数据技术将城市中水利、电力、市政、交通等相关部门各自建立的信息管理系统的数据进行批量采集和处理,最终达到有效整合的效果并提供数据接口服务。 解决城市运行管理服务信息中不同行业不同部门信息不能共享或只能有限共享的难题,最终解决城市运行管理信息化中存在信息孤岛的问题,让数据实现有效流通和安全共享。

业务部门所建信息系统往往只用于为本部门、本行业提供业务支撑服务,而未对信息的利用进行更深层次的挖掘,无法为城市整体运行服务管理提供数据支撑,使业务信息系统的效能大打折扣。 对于城市运行服务管理者而言,决策缺乏反映整个城市宏观运行情况的数据支持。 大数据技术正是从各行业部门的基础数据中提取出有价值的信息的一种技术,并能够以直观的方式展现给决策者,综合各行业各部门的运行情况,形成全市的城市运行服务管理信息,从而让决策者能够一目了然地了解整个城市的运行服务管理的态势。

大数据技术能够在海量信息积累的基础上[1],实现对城市运行服务管理中不良情况的智能判断和预测,城市管理者通过大数据反映的城市运行服务管理的状态信息预测某方面可能发生的突发事件和问题,从而提前预防、处理和应对,提高城市应急处置能力,让突发事件对城市的负面影响降到最低,使人民的基本服务得到保障。

3 城市运行管理服务信息化大数据平台架构

城市运行管理服务综合评价数据指标体系包含城市运行检测指标数据和城市管理监督指标数据,其中城市运行检测指标数据包含市政设施类指标、房屋建筑类指标、交通设施类指标、人员密集区类指标、群众获得感类指标等;城市运行检测数据指标包含城市运行检测批次、城市运行检测指标构成和城市运行检测指标结构等。 搭建数据指标治理体系,解决各业务数据存在的数据不准确、不完整、不一致等数据质量问题,逐步梳理数据资产,利用元数据属性,规范数据标准,在数据源头进行纠错和去重等校验操作,降低数据治理和数据管理成本,提升基础数据的质量,促进数据共享。

城市运行管理服务信息化大数据架构主要采用目前主流大数据技术,包括数据提取工具、数据清洗工具、数据序列化工具、分布式数据库、分布式数据仓库、大数据日志数据处理框架、大数据文本搜索框架、大数据可视化等技术。 综合运用上述大数据技术,对水利、电力、燃气、市政、交通等数据、资料文档、图片、音视频等数据进行存储,建立统一的数据标准,完善数据采集机制,提高数据质量,构建数据交换平台和数据仓库,经过一系列的数据提取、数据清洗、数据集成、数据存储、数据分析和挖掘,实现对海量数据的大数据采集、存储、管理、分析、可视化和服务应用。 其架构设计如图1 所示。

图1 城市运行管理服务信息化大数据架构图

3.1 基础设施层

基于云计算平台方便快捷地管理计算、存储资源、网络资源等资源。 在云环境中,主要有硬件集群、网络集群、数据库、系统软件以及操作系统等构成,通过对基础设施资源池化,可以动态伸缩地按需提供给城市管理内部业务人员使用,其中云环境是指以超融合资源池为基础的私有云结合商业化的公有云所形成的混合云,以实现资源的整合,大大提高资源利用率,并且能够保障数据的安全管理。

3.2 数据采集与传输层

主要包含城市运行管理服务的结构化、半结构数据(如JavaScript 对象简谱数据)与非结构化数据,如水利、电力、燃气、市政等业务数据以及报告、文档、交通流量数据、视频监控数据等。 城市运行服务管理信息化中数据来自不同的产生源,并且数据源的结构也不相同,有关系型、非关系型和半关系型。 数据来源主要包括业务数据和过程数据。 对于传统关系型数据库(如mysql、oracle、mssql等)结构的数据,可以利用大数据开源工具(sql-tohadoopsqoop,Sqoop) 完成关系型数据库与Hadoop(如Hbase、Hive、分布式文件系统等)之间的数据转换,也可以将关系型数据库中的数据通过数据仓库技术(Extract-Transform-Load,ETL)工具加载到数据仓库Hive 中,为后续大数据的存储和处理加工做准备。 Flume 和Logstach 是用于抽取非结构化和半结构化数据的工具,对于非结构化数据(如视频和语音数据)和半结构化数据(如用户上网记录信息),也可以利用大数据开源工具Avro 序列化到Hadoop 中进行处理。 引入Sqoop、Flume、Kafka 等大数据集成技术共同完成数据采集工作,Sqoop 与Flume 是Hadoop 大数据生态圈的数据接入工具,适用于传统数据库与Hadoop 之间数据传输与交换的利器,能够在关系型数据库、数据仓库Hive 和Hadoop 之间交换数据。

3.3 大数据存储层

海量城市运行管理服务数据从原始采集填报阶段到形成城市运行管理服务大数据,需要进行清洗、整合、集成等综合处理,包括对传统关系型数据库的抽取、转换与装载、非结构数据的序列化与传输存储等。 清洗后的海量数据在进行传输存储时,通过kafka 分布式发布订阅消息系统实现高吞吐量数据交换。 将城市运行管理服务数据存放到分布式文件系统(hadoop distributed file system,HDFS)、HBase、Hive 及Druid 中。 大数据资源层主要负责对数据文件进行并行抽取、传输、加载、转换以及存储。 数据存储采用具有高扩展性的分布式存储结构,数据存储以Hadoop 分布式系统HDFS 为存储组件,是采用分布式、高扩展、高容错、高吞吐量的体系架构,能够提供层次化的存储和计算服务,可提高大数据管理的高扩展性、方便性和可靠性。 除此以外,大数据存储还集成了分布式数据库Hbase 和数据仓库Hive,这使其具备海量非结构化数据存储能力以及非结构化数据挖掘能力。 HDFS 文件系统存储文件具备高度容错性能以及高吞吐量的数据访问,非常适合大规模数据集上的数据存储和管理;分布式数据库HBase 具备高可靠性、高性能、面向列、可伸缩的特性,能够对不同数据类型的异构数据进行加载和存储,并使用一种键值对的形式处理不同类型数据,能够高效解决数据后台请求业务,为了保障HBase 提供稳定服务和失效转移机制,同时启用了分布式应用程序协调服务Zookeeper。

3.4 数据分析处理层

城市运行管理服务大数据是基于Hadoop 框架,并配合使用大数据子项目Hive 和HBase,能够实现全面的数据分析功能,利用Hive 查询和分析存储在Hadoop 上的数据,HBase 可以实现对音视频资料的存储,利用该数据库能够对离线数据进行查询、分析和归纳。 数据存储到HBase 后,通过Hive 进行管理数据,也实现了对元数据的解析,再利用MapReduce 进行计算处理。 在经过初步的ETL 之后经过大数据存储,再将对海量数据进行分析计算与数据挖掘。 此时针对大批量数据进行统计和分析,使用建立在Hadoop 生态圈[2]上的Hive 数据仓库进行离线分析。 经过Hive 分析处理后提取出来的关键指标信息点选用建立在Hadoop 生态圈上的Mahout 进行数据挖掘。Hive[3]作为数据仓库也提供了对于海量数据进行统计分析的技术,Hive 的核心机制是HQL 语言,其原理类似于SQL 语言,能够将HQL 转化为MapReduce 程序在分布式集群上进行执行。 数据分析处理层还对城市运行管理服务数据建立列索引,进行数据识别、全文检索、分析挖掘等操作,然后再利用可视化工具将分析挖掘的结果进行显示。 数据识别可借助HBase 列索引,也可借助全文检索引擎Elastic Search。 大数据挖掘可使用Mahout 数据挖掘库进行处理。 数据识别、全文检索等技术能从海量数据中提取蕴含的城市运行管理服务信息知识,大数据可视化工具如Hue 将结果进行展示[4-5]。

3.5 数据共享与服务层

通过大数据分析技术获取的结构可进行可视化、报表服务、业务智能(business intelligence, BI)服务、统计分析结果展示、数据定制等服务。 对于获取的大数据结果为第三方提供应用程序编程接口(application programming interface,API)或提供统一的服务化Restful 接口实现外部应用与大数据平台的解耦,同时对数据访问全过程进行监控保障数据安全,或利用Sqoop、Avro 等工具将大数据分析结果导出到关系型数据库,供用户实时查询与统计分析,从而丰富了服务方式。

4 大数据在城市运行管理服务信息多个场景下的应用

场景1:对某市一段时间以来每日收集到的危险货物车辆电子运单和车辆全球定位系统(global positioning system,GPS)数据统计分析,掌握了危险货物运输车辆的停留情况,方便执法部门精准性检查管理工作开展。 大数据处理过程为:对于结构化的车辆电子运单数据和车辆GPS 数据,利用Sqoop 工具将其进行清洗和转换并加载到Hive 中,利用Mahout 数据挖掘算法进行数据挖掘与分析,并利用大数据可视化工具如Hue 将结果进行展示。

场景2:通过读取某地周边400 余个地面观测站近1 h、0.5 h 及近5 s 的观测数据、空气质量数据,进行气象预报,方便于交通、电厂、工商等多个行业部门快速共享气象信息。 大数据处理过程为:将观测站原始数据通过Flume发送采集到Hbase 中,利用提前设定额指标进行分析和处理,利用Elasticsearch 建立全文索引,基于文本进行数据查询。

场景3:为解决电力系统异构数据存储困难、可扩展性差、吞吐性能低等问题,利用大数据技术框架构建基于HBase 的电力数据中心,利用Sqoop、Flume、Kafka 等大数据技术完成数据的高质量采集工作,采用HBase 的“发布-订阅”模式实现数据的分发与共享,使用Mahout 数据挖掘算法进行大数据挖掘与分析,也可以将HBase 与Hive进行整合,实现较快地查看目的。

5 结语

大数据技术在城市运行管理服务信息化的应用,利用大规模数据的快速存储与处理以及可视化的管理界面等特点,有效解决传统方式难以对大规模数据进行分析与管理的难题。 本文以城市运行管理服务信息化大数据为例,基于当前主流大数据技术,设计了城市运行管理服务大数据框架,该框架为后续城市运行管理服务大数据平台建设实施提供了技术参考和思路。

猜你喜欢
结构化数据挖掘信息化
月“睹”教育信息化
促进知识结构化的主题式复习初探
探讨人工智能与数据挖掘发展趋势
幼儿教育信息化策略初探
结构化面试方法在研究生复试中的应用
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于图模型的通用半结构化数据检索
信息化是医改的重要支撑
信息化