政务大数据共享与融合：问题、模型与框架

2022-12-27 22:00仲崇高董义炜宋天慧

中阿科技论坛(中英文) 2022年10期

仲崇高董义炜宋天慧

（1.泰州学院计算机学院,江苏泰州 225300；2.泰州市大数据发展有限公司,江苏泰州 225300；3.泰州学院,江苏泰州 225300）

当下，大数据的时代背景给政府管理变革带来了新的契机，政府在社会治理的过程中，积累了大量的数据，政务大数据的应用将充分挖掘规模化数据要素的潜力，促使政府治理朝着更加科学、便捷、高效的方向发展，政务大数据已经成为推动政府治理现代化的新动能。近年来，基于大数据的广泛应用以及其蕴藏的巨大潜在价值，许多国家纷纷将推动大数据产业发展上升为国家战略。

在我国，党中央、国务院高度重视大数据在推进经济社会发展中的地位和作用。2014年，大数据首次写入政府工作报告，大数据逐渐成为各级政府关注的热点。2015年9月，国务院发布《促进大数据发展的行动纲要》，大数据正式上升至国家战略层面。自然资源部办公厅于2019年1月印发《智慧城市时空大数据平台建设技术大纲（2019版）》，推动各级政府进一步做好智慧城市时空大数据平台建设。

有学者对政务大数据的研究情况进行了梳理，发现政务大数据的研究概貌是以大数据时代为背景[1]，数据主权为支撑，重点开展电子政务、国家治理、政府公开数据等相关领域的研究[2-3]。对政务大数据共享和融合的研究，主要集中于政府管理的治理方式[4-5]，以及实时共享平台建设的研究[6-7]，对政务大数据融合模型和框架的研究较少。

本文分析了政务大数据建设的现状与问题，在分析政务大数据的特征和设计模型的基础上，阐释了政务大数据融合参照FEA-DRM模型，刻画了基于知识图谱的政务大数据融合框架，进而提出推进政务大数据共享与融合的建议。

1 我国政务大数据建设的现状与问题

近年来，政务大数据的应用实现了从之前的政务信息公开（向民众、相关方公开）到现在的政府数据开放（覆盖不同层面、更广范围，有条件、有步骤地开放），是一个里程碑式的跨越。截至2022年5月，开放部门68个，7 408万条数据，开放数据集1 280个。从各地开放的数据集来看，主要集中在经济发展类型、教育科研、交通出行、文体娱乐、信用服务、卫生健康领域。

2014年10月，国内政务大数据行业主要厂商浪潮在Inspur Word 2014浪潮技术与应用峰会上首次提出政府数据开放五级技术成熟度模型（一级：信息公开；二级：数据网站；三级：数据门户；四级：数据平台；五级：数据生态）。根据政府数据开放五级技术成熟度模型中描述的等级划分，国内已经开始政府数据开放的城市大都处于二级或三级，但绝大部分的城市仅仅还停留在信息公开阶段（一级）。在达到数据生态的阶段时候，全社会的数据，包括政府数据、公共事业数据、科学机构、大企业数据等全都在这个平台上，围绕这些数据形成丰富的数据生产、数据消费、应用培育、产业升级的生态圈。由此可见，推动政府数据开放任重而道远。

政务大数据信息资源需要自由流动，只有加速其流动，才能创造巨大的效益，以促进经济增长。目前，虽然部分地区政府部门已经建成了一些大数据平台，但是这些平台相互不连通，形成多个“数据孤岛”，部分平台还处于“沉睡”状态。当前，政务大数据建设存在的问题主要体现在以下四个方面：（1）需求调研不深入；（2）没有解决组织机构保障问题，缺乏行之有效的整体推动；（3）未建立健全标准规范体系，数据采集、处理和共享困难重重；（4）未对源数据清洗、加工与处理，数据质量堪忧。

2 政务大数据的特征与设计模型

2.1 政务大数据的特征

政务大数据，是政府在治理社会时积累和沉淀的各类数据。政府大数据工程是大数据技术在政府业务领域的实例化。首先，政务大数据的核心是“政务”，大数据是其表现形式和载体。要想实现常规政务服务的精准化和主动政务服务的常态化，信息获取的全面性与准确性是基础条件，大数据是信息的载体，大数据相关技术是政务数据全面性和准确性的保障条件。其次，政务大数据的重点是让政务数据“会说话”。最后，政务大数据的未来是数据自治。政务大数据的建立依赖于自上而下的数据规划和自下而上的数据治理。政务大数据的未来一定是能够实现自我治理的，并能够实现对业务变化的自适应性。

2.2 政务大数据的设计模型

政务大数据的本质是政务，其设计模型与政务业务是紧密联系的。政务大数据的内容仍是数据，其设计模型可分为概念模型（Who）、逻辑模型（What）和物理模型（How），以软件工程来作对应说明，数据的概念模型对应于软件系统之需求、逻辑模型对应于软件系统之设计、物理模型对应于软件系统之实现。政务大数据是大数据的一种，其设计模型需充分考虑大数据的相关特征。

要梳理清楚政务大数据的脉络，需要先刻画好其概念模型。政务大数据按照其产生和利用方式，可以分为五类数据：业务作业数据、行政监管数据、规范治理数据、决策分析数据和综合服务数据。可见，政务大数据的概念模型一方面要对政务大数据提供和使用全过程、全周期的业务实体关系进行刻画，另一方面要对政府职能行使过程中所产生和利用的五类数据进行基于业务主题的数据建模。

政务大数据提供和使用全过程、全周期的业务实体关系，可以从其五个主客体（即所有者、运营者、管理者、提供者和使用者）来展开。各级政府的最终目的是通过社会治理服务于民，行政和监管是手段，规范治理是方法。其中，每类数据又都可以按照公民、企业、外国人和社会组织四种被服务的对象来分别展开描述。具体到政务大数据而言，很多时候体量并不大，原因在于长期以来人们按照地域、职能、主题、数据类型将大数据分割了。这种分割源于之前对全样本数据进行存储、通信和计算的能力局限，以及数据的价值密度过低而持有成本过高。如果政务优化比作一个人的综合价值，存储层就是其记忆的信息和知识（记忆力和记忆量），计算层是其学和做的能力（智商和反应能力），服务层是其结果规划、产出能力（大局观、情商和效率）。

政务大数据的逻辑模型（模式）是基于其概念模型，对其逻辑结构进行数据建模，重在说明数据之间的业务逻辑关系。政务大数据的物理模型是服务于概念模型，依据逻辑模型进行政务大数据的落地实施。

3 政务大数据融合：参照FEA-DRM模型

目前，面对城市数据整合的“信息孤岛”的难题，“数据整合”的需求非常迫切，但实施起来困难重重，在进行系统整合时，随着不同应用系统的数量呈算术级数增加，资源接口数就会呈指数级增长，“资源整合”的投入呈指数级增长，面向应用数据的整合，工作量庞大。对如此庞大的数据进行整合，需要设计合理的逻辑模型重构逻辑关系，本文选择了美国联邦企业架构数据参考模型（FEADRM）作为数据融合的逻辑模型。FEA（Federal Enterprise Architecture）是美国联邦政府为统一电子政务的实施而由联邦政府开发的联邦企业架构模型，FEA由5个参考模型组成，它们共同提供了联邦政府的业务、绩效与技术的通用定义和架构，5个参考模型分别为绩效参考模型(PRM)、业务参考模型(BRM)、服务构件参考模型(SRM)、数据参考模型(DRM)和技术参考模型(TRM)。其中，数据参考模型（DRM）也是数据整合的逻辑模型，以下阐释FEA-DRM模型。

3.1 数据参考模型（DRM）的架构

数据参考模型（DRM）的目标是通过标准的数据描述、通用数据的发现以及统一的数据管理实践的推广使得联邦政府实现跨机构的信息共享和重用，此模型用来解决信息化过程中面临的“信息孤岛”问题，实现数据的共享融合。DRM的思路是以整个数据元为基础，通过梳理业务关系、数据分类，实现数据的交换共享。

数据参考模型的适用范围很广，它可以用在一个机构内部，也可以用在某一个利益共同体（COI，Community of Interest，即指一组为了实现共同利益和目标而相互合作的人或组织，而为了达成这一目标，他们需要一个共享的词汇表来实现信息共享）内或不同利益共同体之间。为了实现这一目的，数据参考模型采用了一种灵活的且基于标准的方式对数据的描述、分类和共享进行定义，数据参考模型的内容被划分为如下三个标准领域：

（1）数据描述（Data Description）：提供对于数据的统一描述方法，从而支持数据的发现和共享。

（2）数据上下文（Data Context）：采用某种分类法对数据进行归类，从而便于数据的发现。此外，数据上下文还使得定义一个利益共同体的权威数据资产（authoritative data assets）成为可能。

（3）数据共享（Data Sharing）：支持数据的访问和交换，其中数据访问是指单次性的特定请求（例如对于数据的查询），而数据交换是指在不同团体之间经常性发生的针对固定模式或需求的数据的往来交互事务。

数据参考模型作为一个参考模型为各机构提供了一套抽象的框架，而对其具体实现就由各机构在符合参考模型原则的基础上自行决定了，从而为各机构对于数据方面的描述提供了较大的灵活性。此外，由于各个机构可以将组成其数据架构的各种元素与该抽象框架相关联，从而使得原本隔绝的不同机构在数据方面获得了沟通途径，促进了不同机构之间的相互操作。

数据参考模型的抽象模型为各机构用来进行信息集成、发现和共享数据架构的优化提供了一套架构模式。为了达到该目标，该抽象模型对数据架构概念元素以及他们之间的关系进行了明确定义，并且针对每个概念元素此抽象模型还分别定义了一系列的通用属性。此抽象模型按照上述三个标准区域被划分为三个部分，分别用于包含与这三个标准区域相关的概念元素及其关系。由于这三个标准相互关联，一些概念元素会出现多次，但是只有具有实线边框的概念元素才是其真正的定义，虚线边框的概念元素则用来表示从其他标准区域“借用”而来的意义。

除了抽象模型之外，数据参考模型还包含了对于数据在安全和隐私方面的考虑。数据参考模型强调了在这三个标准区域中都需要遵循安全和隐私方面的策略，并允许现存的联邦安全和隐私策略被应用到这些标准区域中。

3.2 数据参考模型（DRM）的元素

3.2.1 数据描述

数据描述标准区域的目标是为利益共同体提供关于数据结构（语法）和意义（语义）的共识。为了达成这一共识，利益共同体需要基于数据参考模型在这一标准区域中的内容创建各种相关的数据描述制品，关于数据标准领域的内容都已被定义在DRM抽象模型的相关部分中。

3.2.2 数据上下文

数据上下文用于为数据添加与其被使用和创建的目标相关的意义，从而便于具有不同视角的数据消费者对于数据的发现和使用。根据数据描述的定义，利益共同体内部或者他们之间对于数据的描述将会产生共识，但是这并不意味着具有不同视角的数据消费者就对所有的数据实体或者数据实体的所有属性都关心，甚至即便是针对某个数据实体的实例数据，不同的数据消费者由于其视角的不同也可能只对其中部分实例数据感兴趣。数据可以根据不同的方式进行分类，而针对分类方式的描述和定义构成了“数据上下文”。除了关于数据的分类划分这一核心概念，在数据参考模型中数据上下文相关的各种制品能回答如下几个具体问题：数据资产中数据的主题是什么？什么组织负责维护数据资产？数据与业务参考模型的关系是什么？用于访问数据资产的服务都有哪些？

3.2.3 数据共享

在定义了数据描述和数据上下文之后，利益共同体需要把精力放在规划和实现信息访问及相互交换方面上面，而在数据参考模型中数据共享标准区域为这一方面能力的实现提供了参考。信息交换通常是指在信息生产者和信息消费者之间所存在的相对固定且时常发生的信息交互过程，而针对信息的使用除了这种交换的方式外，作为信息源的信息生产者还需要对外提供各种信息访问接口和服务，从而为各种不确定的外界信息消费者提供信息访问的能力，而这种通过各种信息访问接口和服务而获取信息的能力就是信息访问能力。

4 基于知识图谱的政务大数据融合

上文基于数据描述、数据上下文、数据共享的DRM逻辑模型，建立了数据融合的架构。在政务大数据的共享和融合的框架设计上，借鉴当下人工智能（AI）的知识图谱算法，可按主题实现更高效的数据整合，为数据价值的进一步挖掘奠定基础。

4.1 政务大数据的共享与融合流程

政务大数据的共享与融合可分为现有数据的梳理和标准化、主体规划和治理结构建立、基础资源层构建三个阶段。

第一阶段：现有数据的梳理、标准化，确定采集交换规格。本阶段要完成的任务：广泛支持传统的结构化数据存储源（如关系数据库）、NOSQL数据源、地理空间数据和非结构化数据存储源等多种数据存储形式。通过网络爬虫、数据服务接口以及第三方系统对接等多种方式获取采集数据，把现有的政务大数据进行梳理、标准化。对于大量的已建系统需要结合国家、行业的相关标准对其进行规格化转换，以形成统一的采集交换标准，这是一个典型的自底向上的汇聚、标准化的过程。

第二阶段：主题规划、治理结构建立。本阶段需要对重点数据实体进行质量评估，对数据质量问题进行归类、质量趋势分析和质量监控预警、逻辑错误处理、去重和关联性验证、访问及使用安全防控等。同时，需要按业务主题对行业数据进行顶层规划，提供三种能力：基于元数据的原始业务数据集成、基于业务/行业主题的主题数据集成和基于元数据、主题数据的综合业务信息数据集成。最终，建立从数据的产生、交换、汇聚、加工和安全利用等全生命周期的治理结构和管理流程。

第三阶段：基础资源层构建，本阶段是主题数据规划的阶段性收尾，协同数据的生产者、消费者、加工流通及运营者，并使之达到动态平衡和可持续发展。政务主题数据管理（SDM，Subject Data Management）的最佳实践在于：让政务业务参与进来，即把政务主题数据、元数据、数据治理体系一体化考虑。从业务全局视角服务于资源整合的SDM（主题数据管理）系统将是合规、已集成和标准化的单一数据源，能够通过多领域主题数据进行管理。

4.2 知识图谱的数据融合过程

知识图谱的实体面临数据融合的问题，因为知识图谱的数据源可能有多个，在不同数据源有对同一实体的不同表达，即使在同一个数据源里也可能存在这种情况，需要通过一定方法将其合并。知识图谱的数据融合过程如下：数据预处理→数据分组→属性相似度→实体相似度。

（1）数据预处理：输入的原始数据源往往存在格式不一致的数据，需要进行人工规整。

（2）数据分组：目标是找出所有相同的实体，要事先进行分组，分组的效果既要保证能够比较均衡地分而治之，又要尽量保证不要漏分。常见的方法包括通过数据本身的类目信息进行分组，比如在融合商品数据的时候可以根据商品的类目信息进行分组；或者根据数据的关键信息，比如在融合人物数据的时候可以根据其出生日期进行分组。

（3）属性相似度：经过上一步的分组，每个分组下的实体是有可能是相同实体的集合，接下来需要对实体的属性进行相似度计算，有了实体各个属性的相似度才容易进行下一步的实体相似度计算。常见的方法包括：

①纯字符串类型：计算编辑距离（Levenshtein Distance）；

②集合类型：计算Jaccard相似度，计算集合交集个数/集合并集个数；

③文档类型：通过TF-IDF找出每篇文档的关键词，再通过余弦相似度计算关键词集合的相似度。

（4）实体相似度：在实体各个属性的相似度的基础上计算实体相似度，常见的方法有两种，回归和聚类。回归：通过逻辑回归的方式计算出各个属性相似度的权重；聚类：通过聚类操作，计算出相似实体，可以进行层次聚类，相关性聚类，Canopy+K-means聚类等。

5 推进政务大数据共享与融合的建议

5.1 建立大数据需求管理机制

大数据分析所能产生的效应正在被逐渐重视，但目前大数据需求端和数据占有端的错配，使得政府部门大数据分析的需求被严重抑制，也制约了政府部门管理水平的提升。建议建立统一的大数据信息需求机制，让大数据在实际政务工作应用上真正地发挥作用。以建立统一的大数据信息需求机制为桥梁，将大数据建设方与大数据需求方进行有效关联。例如，城市人口预测是多个部门需要的信息，但数据占有端在人口管理部门，因此该部门应该及时提供整体服务（包括数据和概率），与公安、工商、税务、社保等部门掌握的流动人口数据之间进行定期比对，以提高数据质量，更好地辅助决策。

5.2 建立大数据信息共享融合机制

如何将各部门海量信息数据互联互通，不仅是技术问题，更是机制问题。搭建大数据共享平台、促进大数据信息共享融合，第一，要打消各部门对数据共享的疑虑，准确提供数据；第二，要建立数据接口规范，统一平台数据格式；第三，要适应当前数据去中心化、移动化的趋势，开发简易统一的操作平台。应按照《政务信息资源交换体系》和《政务信息资源目录体系》等国家标准要求建设大数据信息共享融合机制，实现政务信息资源的共享和交换。

5.3 建立大数据信息安全防范机制

政府有关部门应有效地防止内部敏感数据泄露。传统的防火墙、反病毒软件、入侵检测等信息安全防护措施，已难以独立应对敏感数据泄露问题。因此，可以借鉴现代科技手段，配合内部数据防泄漏管理长效机制来防止数据泄露，利用人工智能身份识别认证数据管控技术与加密、隔离等技术相互结合，共同防止敏感数据的泄露与扩散。