基于机制、标准和技术的政府数据治理体系研究

2023-07-25 18:02颜家远宋彦棠刘峻
中国新通信 2023年9期
关键词:治理技术治理机制数据治理

颜家远 宋彦棠 刘峻

摘要:数据治理使政府治理更智能,本文分析政府数据治理的现状和存在问题,提出政府数据治理体系,包含体系框架、治理机制、治理标准和治理技术等内容。针对政府数据共享开放难的问题,提出政府数据共享开放的治理机制;针对“有数无治”,提出综合人口数据库设计规范和数据质量评价规范;针对“有数难治”,提出LSTM-XGBoost融合模型的治理技术模型。通过实践,政府数据治理体系在实践中是可行的。

关键词:数据治理;治理机制;治理标准;治理技术;LSTM-XGBoost模型

一、引言

目前,政府数据治理主要集中在技术治理,文献[1]对政府数据治理和区块链技术的相关性进行深度分析,探讨如何通过区块链技术提高政府数据治理需求,并提出基于区块链的政府数据治理架构;文献[2]指出要大力推进数据治理技术;文献[3]研究了人工智能技术在政府数据模型、数据安全和数据治理等方面的应用,提出人工智能技术可提高政府数据治理水平;文献[4]提出基于SSM的政府数据治理联盟链框架,表明在数据安全、数据确权等方面发挥联盟作用,可促进政府数据治理。文献[5]通过在WSR视域下研究政府数据治理的影响因素,表明物理-事理-人理纬度可影响政府数据治理的成效。以上方法均从技术角度研究政府数据治理,但当政府数据不一、标准不一、机制不一时,最终的政府数据治理效果往往达不到预期目标。因此,政府数据治理亟须丰富治理手段。

政府数据治理面临“数据共享难”“有数无治、有数难治”的问题,为破解这些问题,需从“制防、人防、技防”多维度解决[6]。本文首次提出了政府数据治理的框架体系。

二、政府数据治理体系

(一)体系框架

政府数据治理,关键要点就在于挖掘政府数据隐藏的潜在价值,并应用于社会经济各方面,进而为社会经济赋能。结合不同层级、不同地域和不同部门在数据共享开放存在的痛点和难点,提出政府数据治理体系框架,包含数据层、治理层、应用层三个层次,如图1所示。

1.数据层

数据层是数据的来源,政府数据按部门分为公安数据、民政数据、人社数据、环保数据、教育数据、国土数据等,按可机读性分为非结构化数据、半结构化数据、结构化数据等,按人的生命周期分为出生数据、户籍数据、社保数据、病历数据、教育数据、就业数据、不动产数据、征信数据、死亡数据等。

2.治理层

治理层是政府数据治理体系的核心,由“二个导向”“三项治理”“四个防范”组成。

“二个导向”是指目标导向、问题导向。政府数据治理应坚持目标导向,设定政府数据治理的短期、中期和长期目标,并通过行动逐步达到目标;政府数据治理应坚持问题导向,针对治理过程中存在的痛点和难点,要“奋勇向前”“知不足而后进”“防患于未然”,不断解决问题、弥补不足,不断在新形势下创新发展。

“三项治理”是指治理机制、治理标准、治理技术,是政府数据治理的核心内容。通过建立政府数据共享开放治理机制,从机制层面解决数据共享难的问题。通过健全治理标准,规范数据库设计、数据质量评价等标准规范,确保政府数据治理“有规可依,有规可循”。

“四个防范”是指防范决策风险、防范管理风险、防范技术风险、防范数据风险。由于主观和客观、宏观和微观、规划与实际等多种不确定因素的影响造成决策不能达到预期目标,甚至与预期目标大相径庭的决策风险;由于政府数据治理过程中因信息不对称、管理不善等因素造成管理风险;由于技术不成熟、技术不配套、技术保障不足、技术创新性和适应性无法适应新形势的发展等因素造成的技术风险;由于数据采集、传输、存储、使用等不当造成数据截取、篡改甚至数据泄露或暴露的数据风险,都需要提前加以防范。

3. 应用层

应用层是政府数据治理的目标,政府部门可通过应用层开展数据交易、数据应用、数据服务等,大型数据应用开发宜采用瀑布型软件生命周期模型[7]。

图1 政府数据治理体系架构

(二)治理核心内容

本文重点就治理机制、治理标准和治理技术进行探讨。

1.治理机制探讨

政府数据治理的治理机制中,重点和难点是政府数据共享开放治理机制,提出政府数据共享开放治理机制。

政府数据按照共享属性分为无条件共享、有条件共享和不予共享三种类型;政府数据按照开放属性分为无条件开放、有条件开放和不予开放三种类型,政府数据调度体系如下所示:

(1)共享数据调度

无条件共享的政府数据,数据使用部门通过政府数据共享平台直接获取[8];有条件共享的政府数据,数据使用部门在政府数据共享平台上提交申请后,按照以下流程调度:

数据提供部门为本级行政主管部门的,本级大数据主管部门在规定时间内完成初审。初审未通过的,驳回申请;初审通过的,转至数据提供部门在规定时间内审核和授权。

数据提供部门为上级(或下级)行政主管部门的,由数据使用部门所在层级的大数据主管部门在规定时间内完成初审。初审未通过的,驳回申请;初审通过的,逐级转至数据提供部门所在层级大数据主管部门进行复审。复审未通过的,驳回申请;复审通过的,转至数据提供部门在规定时间内审核和授权。

数据提供部门审核不通过的,数据使用部门有权提起申诉;数据使用部门提起申诉的,由数据提供部门和数据使用部门共有的上级大数据主管部门协调处理。数据提供部门授权给数据使用部门使用政府数据后,数据使用部门应在规定时间内将政府数据应用成效报大数据主管部门备案登记。

(2)开放数据调度

无条件開放的政府数据,申请人(自然人、法人和非法人组织)通过政府数据开放平台直接获取[9]。依申请开放数据,按照以下流程进行调度:

依申请开放的政府数据,申请人通过政府数据开放平台提交数据开放申请,并填写数据名称、数据需求类型、数据描述、所属领域、数据格式、数据用途及其他相关信息。

申请人在政府数据开放平台上提交申请后,数据提供部门应在规定时间内完成审核。审核通过的,数据提供部门在规定时间内开放所需数据;审核未通过的,数据提供部门必须提供不予开放的依据或理由。

政府数据开放应当遵守《保守国家秘密法》《政府信息公开条例》等有关规定。数据提供部门不同意提供依申请开放的政府数据,申请人确需使用的,由数据提供部门所在层级的大数据主管部门协调处理。数据提供部门同意提供依申请开放的政府数据后,数据提供部门应将开放的数据情况提交同级大数据主管部门备案登记。

(3)调度保障机制

健全运转机制。建立覆盖国家、省级、市级、县级的统一政府数据共享和开放平台;形成“数据使用部门提需求、数据归集部门做响应、大数据主管部门保流转”的运转机制。

健全归集权机制。加快推进政府部门内部业务系统整合,形成“大系统、大平台、大数据”,实现一个部门一个系统,一个部门一套数据。同时,按照“谁归集、谁维护”的原则,各级政府部门依法履职所获取和产生的政府数据拥有归集管理的权利和义务,强化数据维护,使得数据更加准确、更加完整、更加有效、更加可用。

健全使用权机制。各级政府部门对数据拥有使用权,按照“谁使用,谁负责”的原则,各级政府部门依法依规对政府数据享有使用权利和确保安全的义务。

健全管理机制。政府数据归政府所有,可委托大数据主管部门管理。按照“谁管理、谁统筹”的原则,各级大数据主管部门拥有对该区域各部门数据的统筹管理权,确保数据共享和开放高效进行。

建立仲裁机制。数据提供部门不同意提供有条件共享(或依申请开放)的数据时,可由数据使用部门和数据提供部门共有的上级大数据主管部门协调处理,协调处理无法解决问题时,可通过建立解决争议的仲裁机制,解决数据共享开放过程中的争议问题。

2.治理标准探讨

政府数据治理过程中,由于政府的部门不同、服务厂商不一,导致承载政府数据的业务系统数据库设计不规范、字段命名不一,造成数据质量参差不齐,但是各行各业为了破解这一问题,亟需统一标准,实现口径统一。

(1)综合人口库设计规范探讨。

提出综合人口数据库设计规范,在已出台标准的基础上,对人的全生命周期各项活动及产生的数据进行综合分析和整合利用的数据标准,将各个政府部门的人口相关的数据进行梳理、分析、融合,形成人从出生到死亡全生命周期的信息分类,为汇聚、融合各行业、各领域涉及人口相关数据提供一套切实可行、符合实际的综合人口数据库标准,助推数据资源“聚”“通”“用”。规范涵盖了人从出生到死亡的数据集,设计出具备数据关联的业务表模型,数据关联分析比较容易,工作量少,便于开展政府数据治理。综合人口数据库由21类数据共107个数据库表组成,包括身份识别信息、基本信息、生育信息、教育信息、就业信息、职业资格信息、医疗健康信息、社会保险信息、公积金信息、纳税信息、消费收入信息,社会关系信息、资产信息等,记录了人从出生到死亡的主要信息,数据库表设计由字段名称、字段编码、数据类型、长度、精度、是否主键、是否可空、值域、备注共9项组成。

(2)数据质量评价规范。

政府数据一般来源于各个政府部门的应用系统,但因系统建设的标准不统一,或者数据采集规则存在缺陷,导致产生了大量的问题数据,严重影响数据的使用。国家和一些地方出台了数据质量的评价标准,如,国家2018年出台了《GB/T 36344-2018信息技术数据质量评价指标》,明确了规范性、完整性、准确性、一致性、时效性、可访问性共6个数据评价指标,但针对每个表、每个部门的数据质量,未提出评价方法。又如,贵州2021年出台了《DB52/T 1540.4-2021政务数据—第4部分:数据质量评估规范》,该规范较为宏观,通过该规范难以对每个部门、每个表的数据质量进行精细化评估,难以精准识别问题数据,难以输出数据质量评价报告。

提出数据质量评价规范,可对每个部门、每个表的数据质量进行精细化评估,输出可执行的质量评价报告,有利于部门整改问题数据。数据质量评价流程包括确定业务目标和要求、剖析评价数据、明确数据评价指标、设计质量校验规则、配置质量校验规则、评价数据质量并输出报告、整改问题数据,设计完整性、一致性、准确性、合理性、唯一性、及时性共6项评价指标和字段完整性校验、空值校验、记录数据校验、参照校验-双向校验、一致性校验、值域校验、格式校验、参照校验-单向校验、逻辑校验、波动性校验、关系校验、重复校验、记录数校验共12项质量校验规则。

數据质量评价包括规则级得分、表级得分和部门级得分。其中:

(1)表级得分均遵循下列计算公式进行计算得出:

(1)

式中:X为表级得分,Si、Wi分别第i个规则的得分和权重,Wsum为总权重,n为规则总数。

(2)部门级得分均遵循下列计算公式进行计算得出:

(2)

式中:Y为部门级得分,Xi为第i个表的得分,n为表的总数。

3.治理技术探讨

以技术提升政府数据治理能力应坚持“四变”,即变“模糊治理”为“精准治理”,变“线下治理”为“线上线下融合治理”,变“一元主导”为“多元共治”,变“碎片化治理”为“整体性治理”,为更好地实现“四变”,提升政府数据治理能力,人工智能的相关算法模型在政府数据治理的过程中发挥着举足轻重的作用。

在政府数据治理过程中,一些政府数据对时间的预测性要求较高,比如,通过气温的历史数据,结合相对湿度、风速风向、日照等历史数据,预测某一地区的最高气温,分析最高气温变化趋势,进而分析城市是否宜居,为招商引资和政府决策提供参考。

文章以某地最高气温预测为例,通过LSTM-XGBoost融合模型为切入点,探讨政府数据治理技术。

(1)基于LSTM-XGBoost融合模型的政府数据治理

LSTM模型。长短时记忆网络(Long Short Term Memory Network, LSTM)内部结构包含遗忘门、输入门和输出门,在训练过程中,LSTM根据其内部结构,可以有效避免梯度爆炸、梯度消失等问题[10]。

每个Sigmoid 层产生的数字在0 和1 的范围内。每个LSTM 通过3 种类型的门来控制每个单元的状态:遗忘门决定了上一时刻的单元状态有多少保存到当前时刻,输入门决定了当前时刻网络的输入有多少保存到单元状态,输出门控制单元状态有多少输出到LSTM 的当前输出值,每一步的状态更新满足以下的步骤[11]:

ft=Sigmod(Wxfxt+Whfxt-1+bf)                       (1)

it=Sigmod(Wxixt+Whixt-1+bi)                      (2)

ot=Sigmod(Wxoxt+Whoxt-1+bo)                       (3)

ct~=Sigmod(Wxoxt+Whoxt-1+bo)                       (4)

ct=ft·ct-1+it·ct~                                 (5)

ht=tan(ot·ct)                                    (6)

其中,bi、f、c和Wi、f、c分别是偏置和权重。

XGBoost模型。极限梯度提升树(eXtreme Gradient Boosting,XGBoost)是一个优化算法,该算法基于Boosting框架,XGBoost是梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的优化和拓展。在政府数据治理过程中,XGBoost模型通过不断迭代,生成一棵树拟合前一棵树的残差,随着迭代次数的增多,精度不断提高[12]。

LSTM-XGBoost融合模型。LSTM模型和XGBoost模型的原理相差很大,其任意一种方法都适用于政府数据治理中的最高气温预测,本文使用LSTM-XGBoost融合模型进行社保资金支出金额的预测,模型结构如图2。

经气象部门授权后,得到近10年的历史气象数据,按照6:2:2的比例将样本分为训练数据(Train Data)、验证数据(Validation Data)、测试数据(Test Data);首先进行数据预处理与特征选择,得到一些关键特征参数(如气温、风速、风向、日照等)作为LSTM-XGBoost融合模型的输入特征集,特征参数对应时刻的下一时刻最高气温作为输出;重要性排前的特征中分别随机选取60% 的特征输入XGBoost1与LSTM 进行训练,得到气温预测值Z1与Z2(由于特征选取的随机性,且模型结构存在差异,两个模型预测结果相关性较低,从而提升了最终的融合结果精度);再将Z1和Z2输入XGBoost2 得到不同气温预测值情况下的权重W1、W2,最后计算社保金预测结果Z[13]。

(2)基于LSTM-XGBoost模型的气温预测流程。首先将构建好的训练集输入 LSTM-XGBoost模型进行训练,然后通过同样的特征选择方式将气温测试数据(Test Data)输入模型对下一时刻的气温进行预测,预测流程如图3。

三、政府数据治理分析

政府数据治理的成效主要取决于共享数据量级、数据授權时间、完整准确数据集占比、数据质量评分等方面,数据共享集越多、完整准确数据集占比越大、数据质量评分越高、数据授权时间越少,在实践中表明数据治理成效越好[14-15]。

以A市2018年和2021年的25个市级党政部门的政府数据共享情况进行分析:A市2018年的数据共享方式主要靠传递申请函、授权函、拷贝数据等方式,也未构建政府数据整理体系,2019年建立治理机制后,数据治理成效大幅提升。从共享数据集的数量来看,2018年可共享的政府数据集有100项,2021年为280项,平均每年(2019-2021年)提高了90%。从共享数据集授权时间来看,2018年成功共享数据集的平均授权时间为360小时,2021年为168小时,平均每年(2019-2021年)降低了26.7%。从数据质量上来看,2018年可共享的100项数据集中,相对完整、准确的数据集仅有40项,占比40%;2021年可共享的280项数据集中,相对完整、准确的数据集有265项,占比95%,较2018年平均每年(2019-2021年)提高27.5个百分点。从数据质量评分来看,按照数据质量评价规范,2018年的数据质量评价得分为65分,2021年的数据质量评价得分为83分,数据质量评分平均每年(2019-2021年)提高了14%。

影响政府数据治理成效因素中,共享数据量、完整准确数据集占比、数据质量评分均逐年上升,数据授权时间逐年减少,分析出政府数据治理成效逐年提升。

四、结束语

为提高政府数据治理效能,提出治理机制、治理标准和治理技术为核心的政府数据治理体系,实践表明,通过治理机制、治理标准和治理技术,提高了政府数据治理水平,可破解政府数据互联互通难、信息共享难、业务协同难和数据治理不高等問题。

颜家远 广西大学 计算机与电子信息学院   黔南州大数据发展管理局

宋彦棠 黔南州气象局

刘峻广西大学 计算机与电子信息学院

参  考  文  献

[1] 段月岚. 基于区块链技术的政府数据治理研究[D].中国矿业大学,2021.

[2] 邢春晓.大力推进数据治理技术与系统的学术研究[J].计算机科学,2021,48(09):3-4.

[3] 江锡强.人工智能技术在政府数据治理中的应用[J].计算机产品与流通,2020(06):128.

[4] 王常珏,段尧清,朱泽.基于SSM的政府数据治理联盟链框架构建[J/OL].情报科学:1-18[2022-09-05].

[5] 李锋,柳浩.WSR视域下政府数据治理影响因素与路径研究[J].河海大学学报(哲学社会科学版),2021,23(06):44-53+110.

[6] 颜家远.“一平台一基地一学院”网络安全监管体系研究[J].数字通信世界,2021(08):34-35+43.

7[] 颜家远,刘峻.瀑布型软件生命周期模型的案例实践研究[J].数字通信世界,2022(01):26-28+31.

[8] 王淼.“大数据+网格化”模式中的公共数据治理问题研究—以突发公共卫生事件防控为视角[J].电子政务,2021(01):101-109.

[9] 张珺.政府数据开放的法制路径[J].研究生法学,2019(02).

[10] Luo Junling,Zhang Zhongliang,Fu Yao,Rao Feng. Time series prediction of COVID-19 transmission in America using LSTM and XGBoost algorithms.[J]. Results in physics,2021,27.

[11] 冯晨,陈志德.基于XGBoost和LSTM加权组合模型在销售预测的应用[J].计算机系统应用,2019,28(10):226-232.

[12] 陈振宇,刘金波,等.基于LSTM与XGBoost组合模型的超短期电力负荷预测[J].电网技术,2020,44(02):614-620.

[13] 滕伟,黄乙珂,等.基于XGBoost与LSTM的风力发电机绕组温度预测[J].中国电力,2021,54(06):95-103.

[14] 郭少青,谢明. 以数据治理为中心推进数字政府建设[N]. 中国社会科学报,2022-06-15(007).

[15] 高志华.数据治理背景下政府数据开放共享研究[J].行政科学论坛,2021,8(07):29-33.

猜你喜欢
治理技术治理机制数据治理
基于本体的企业运营数据治理
云端数据治理初探
专用性人力资本、治理机制与企业创新
论我国网络表达的治理机制与转型
安置农民参与社区公共环境治理机制构建
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理