科技大数据资源及分类分级研究*

2021-09-24 06:13刘召栋周亿城
科技与创新 2021年18期
关键词:分级分类资源

刘召栋,周亿城

(湖南省科学技术信息研究所,湖南 长沙410001)

大数据成为继土地、劳动力、资本、技术之后最为活跃的生产要素,被誉为是“21世纪的钻石矿”,是国家战略性基础性资源。科技大数据资源是一个国家和区域第一生产力和第一动力形成的基础性战略性资源,核心竞争优势体现在科技大数据资源的配置效率、资源规模质量优势和资源开放利用率上[1]。然而,当前在中国局部区域还没有从根本上解决科技大数据资源配置效率低、共享难、利用难、安全保障存在风险等突出矛盾。因此,为最大效率地对科技大数据资源进行采集、组织、整合、挖掘、利用、共享、销毁和保护,如何科学地对科技资源进行分类编码和分级保护就成为一个非常值得研究的问题。本文在分析科技大数据资源内涵、现有科技大数据资源在分类和定级保护存在问题的基础上,尝试较系统地构建科技大数据资源分类编码体系,并根据《数据安全法》的规定,构建了分类分级思路和安全管理框架,为科技大数据资源管理和利用提供决策参考。

1 科技大数据资源内涵

科技大数据具有海量性、高增长性、多样性、时效性、可变性、价值高等大数据一般典型特征,但不同于一般意义上的网络及行业大数据,在大数据、云计算、人工智能、移动互联网和物联网等新兴信息技术深度融合时代,科技大数据作为新的生产要素资源,支撑供给侧结构性改革、驱动创新发展、绿色发展的作用日益显现,正成为推动质量变革、效率变革、动力变革的第一动力。

本文所指的科技大数据资源包括科技实物数据资源、科技人力数据资源、科技财力数据资源、科技信息资源、科技载体数据资源、科技组织数据资源、科技服务业数据资源、科普数据资源等。

2 制约科技大数据资源发挥最大效能的因素分析

2.1 缺乏全局性顶层规划设计

从科技管理实践视角来看,科技大数据资源利用在宏观层面上缺乏管理与协调,没有形成系统性大数据交换标准体系和服务体系。一方面,尽管全国各地都开展了政务大数据中心的建设、数据治理和数据整合工作,但是同区域各部门为了部门利益,内部业务系统产生的数据仅部分数据实现集中、聚合、交换、共享,核心业务数据没有集中和聚合;另一方面,科技创新要素管理部门分散在各个行政管理部门、企事业单位等,如大型仪器设备资源,各组织均在大量重复购置仪器设备,造成了科技资源的严重浪费。

2.2 缺乏规范性法规和政策

科技大数据资源开发利用缺乏规范性政策、法规体系的保障,未能形成健全的大数据开发利用机制。据可查询的公开渠道,至今尚未出台一个规范性政策性文件来明晰科技大数据资源的归属权、管理权、使用权等问题,也没有法规要求占有科技资源的组织必须同时承担科技大数据资源建设和开发的责任及义务,也缺乏保障科技大数据资源发挥最大化效益的激励制度设计。

2.3 缺乏促进科技大数据资源利用的有效手段

科技大数据资源管理手段主要包括经济、行政、法律、技术等,过去乃至现在,政府更多的是依赖行政手段,没有注重以经济或其他手段来综合应用配置资源、利用资源,在整体上存在着管理体制的行政性、分割性,导致了资源利用的失灵。

2.4 没有形成统一的资源建设关键技术标准,缺乏对科技资源的统一分类和统一分级

随着新兴信息技术的融合发展,科技大数据中心建设如火如荼,但是各行各级行政管理部门或组织在大数据中心建设时,依然存在“重在建设,轻管理”,尤其是传统的基于边界安全域(security domain)和基于已知特征库(feature library)的网络安全防护方式已经无法有效应对大数据环境下新的安全威胁,其原因之一在于没有形成统一的标准化设计,缺乏全局性标准制定,缺乏对科技大数据资源的系统性分类分级,不利于实现科技大数据资源的开发利用[2]。

3 科技大数据资源分类和标准化的必要性

开展科技大数据资源分类标准化工作是科技大数据中心建设中聚集数据资源、治理数据资源、挖掘资源、利用资源的一项基础性工作。

3.1 开展标准化有利于科技大数据资源治理

科技大数据治理覆盖的内容包括大数据生命周期、数据资产梳理、大数据安全与隐私、大数据架构、数据质量和大数据服务创新等。如开展大数据中心建设时,通过大数据资源的标准化实现跨层级、跨地区、跨系统、跨部门、跨业务的系统的整合。

3.2 开展标准化有利于科技大数据资源顶层设计

科技大数据平台或中心建设过程中需要应用数量庞大、种类繁杂的标准规范,这些标准规范对推动科技大数据资源建设提供了基础性保障,但是也存在着一些问题,如缺乏全局性顶层设计,没有形成统一的标准化建设体系框架[3]。开展标准化研究和编制科学合理的科技大数据资源标准体系,在现有标准的结构和规划基础上达成共识,能够科学地指导资源分类标准的制定、修订、复审等计划、规划的编制和实施。

3.3 开展标准化有利于提高科技数据资源的质量和利用效率

按照标准体系中确定的统一标准,如共性描述规范、数据质量控制规范,对资源进行标准化整理和数字化表达,保证数据资源的完整性、可开发性和可靠性,有利于建立规范统一的资源数据资源目录,方便资源利用者准确、快速地获取高质量的资源信息和实物,提高资源利用效率和效益[4]。

3.4 开展标准化有利于建立数据分类分级保护制度,提升数据安全

数据安全以数据为中心,重点考虑数据生命周期各阶段中的数据安全,大数据应用中包含海量数据,存在对海量数据的安全管理。大数据场景下,多源数据关联分析可能导致传统保护措施失灵。《中华人民共和国数据安全法》于2021-09实施,数据安全上升到了法律层面。《数据安全法》提出要依法制定数据安全行为规范和团体标准,提高数据安全保护水平。开展标准化可进一步明确资源的分级标准、分类标准以及相应的安全标准,清晰界定科技资源的开放程度和共享范围。

4 基于科技管理实践视角构建科技大数据资源分类分级体系

4.1 分类分级原则

在构建科技大数据资源分类分级体系时,本文对科技大数据资源的分类分级应充分考虑资源的系统性、唯一性、实用性、均衡性、扩展性和兼容性[5]。

系统性。科技大数据资源信息涉及面广、资源种类多且繁杂,因此在对科技大数据资源分级时,应从系统性视角聚合各类科技资源并对其进行科学分类,分级时应符合科技资源数据的属性特征及其相互间客观存在的逻辑关联[6]。

唯一性。在分类体系中,一个科技大数据资源类只能用一个名称、一个代码。某资源类被调整变更后,其原有的分类代码撤销,不得再赋予其他类科技资源使用[7]。

实用性。首先在进行分类时,类目设置要全面、实用,受关注的、重要的资源作为二级类目列出,满足科技资源管理者的实际需求。其次类目划分要符合用户对科技资源普遍认识,考虑用户对科技资源使用的习惯,不设没有意义的类目[8]。

均衡性。在大类、二级类、三级类中,必要时采用合并列类方式,适当控制类目层级和数量,使分类表中类目的展开比较均衡[9]。

扩展性。为未来的新兴大数据资源或者特色资源内容留有适当的余地,在二级分类和三级分类类目的扩展上预留空间,保证分类体系有一定弹性,可在本分类体系上进行延拓细化,在设计代码结构和进行具体编码时留有适当的余地和确定相应的扩充方法[10]。

兼容性。分级分类应遵循国家、地方、部门法律法规、相关规定的要求。当前已出台《科普资源分类与代码》《信息安全技术 政务信息资源安全分级指南》《国家科技基础条件平台资源元数据核心元数据》等国家标准、行业标准、团体标准和地方标准,为保持与国内已有的相关信息分类标准相协调,开展分类定级过程中应尽可能保持继承性和延续[11]。

4.2 分类分级内容

构建科技大数据资源分类体系。资源分类编码体系是针对各类科技大数据资源的属性,按照分类编码的一般原则与方法,进行统一分类和一致编码的子体系。分类编码是组织科技大数据资源的有效手段,也是实现科技大数据资源管理和利用的基本保障[12]。

构建科技大数据资源编码体系。建立科技大数据资源目录体系,就是要实现对科技大数据资源的编目、注册、发布、查询和维护,对科技大数据资源实施高效的管理。因此,为了提供对科技大数据资源进行检索和查询的依据,有必要对每一项资源赋予一个唯一不变的标识码。

构建科技大数据资源安全体系。科技大数据资源的安全是数据资源管理和使用的基本保障,基于科技大数据资源科学分类和合理分级,建立资源安全标准体系,可以对重要数据的种类、数量开展风险监测,发现数据安全缺陷、漏洞等,有利于贯彻落实《中华人民共和国数据安全法》。

4.3 分类与编码方法

4.3.1 分类方法

本标准采用线分类法(也称层次分类法),将初始的科技大数据资源分类对象按选定的属性(或特征)作为划分基础,逐渐分成相应的若干个层次级类目,并排列成一个有层次的、逐级展开的科技资源分类体系。

4.3.2 编码方法

本标准编码分为四层7位代码,左边两个字符是第一层级为一级码,用一位大写英文字母表示,取值为A~E,结合科技大数据资源的特性,将科技大数据资源分为八大类;第二层级为二级码,用两位数字表示,取值为01~99,表示业务领域类主题;第三层级为三级码,用两位数字表示,取值为01~99,表示某领域内业务分支主题;第四层级为四级码,用两位数字表示,取值为01~99,表示业务分支下的专业主题。科技大数据资源分类代码结构如图1所示。标准中所有代码仅表示该科普资源在本分类体系中的级别和位置,不表示其他含义。

图1 科技资源分类代码结构

4.4 科技大数据资源分类的基本思路和框架

4.4.1 基本思路

从管理实践视角来看,管理活动基本遵循“5W”管理要素,即管理什么?管理目标是什么?谁来管理?什么条件下管理?如何管理?从管理的要素出发,科技大数据资源的管理对象是科技大数据资源,管理主体是行政管理主体及科研院所、高校、中介组织等各类科技资源生产者、拥有者和使用者;管理手段包括经济、行政、法律、技术等;管理目标是对科技大数据资源进行科学规划和顶层设计,进一步开展资源配置、资源聚合、数据治理、资源挖掘开发和高效利用,以使科技大资源有效支撑科技创新活动,最终实现组织战略目标的过程;管理环境基于大数据时代。具体思路为:首先按照科技管理实践业务逻辑划分,作为一级分类;其次业务按照数据属性、重要程度、管理需要、用户使用需要进行数据细分,作为二级或三级分类;最后对分类后的数据确定级别。

4.4.2 分类框架及编码

结合以往相关文献对科技大数据资源的分类和本文对科技分类的认识与理解,本文认为科技大数据资源包括科技实物数据资源、科技人力数据资源、科技财力数据资源、科技信息资源、科技载体数据资源、科技组织数据资源、科技服务业数据资源、科普数据资源等八大类资源[13]。科技实物资源包括科研仪器、科研基础设施、生物资源、标本资源、实验材料资源库等;科技人力资源包括百人计划、千人计划、万人计划、长江学者、国家杰青等高层次科技人才,以及农村科技特派员、企业特派专家、三区科技人才等其他科技人才;科技财力资源包括国家自然科学基金、国家科技重大专项、国家重点研发计划、国家技术创新引导专项等国家计划项目体系,以及省重大项目、省重点研发计划、创新平台与人才计划、省自然科学基金等省级计划项目体系;科技信息资源包括科技文献、研究与试验报告、标准、专利、科学数据等;科技载体资源包括国家实验室、国家重点实验室、国家工程实验室、院士工作站等科研基地平台资源,以及科技园区和创新创业平台资源;科技组织资源包括省级科技管理部门、园区科技管理部门、科研院所、高等院校、科技企业等;科技服务业资源包括科学研究与试验发展服务、专业化技术服务、科技推广及相关服务、科技信息服务、科技金融服务、科技普及和宣传教育服务、综合科技服务等;科普资源包括历史文明、天文地理、军事科技、数学、物理、化学、生命科学、医药健康、安全科学、信息技术、环境科学等。科技大数据资源分类基本框架如图2所示。

图2 科技大数据资源分类基本框架

4.5 科技大数据资源分级的基本思路和框架

结合《数据安全法》和《科学数据管理办法》,本文对科技大数据资源的分类基本思路为:对数据全生命周期为主线进行分类分级保护,明确“数据从哪里来(Where)、放在什么环境下(What)、允许谁(Who)、什么时候(When)、对哪种信息(Which)、执行什么操作(How)”,做到全生命周期、全流转过程“可管可控”,满足“大数据参与者数据安全的要求”,是当前大数据安全建设的重要目标[14]。

对数据进行不同类别和密级的划分;根据类别和密级制定不同管理和使用原则,对数据做到有差别和针对性的防护;明确数据的保密期限、开放条件、开放对象和审核程序等。科技大数据资源分级基本框架如图3所示。

图3 科技大数据资源分级基本框架

猜你喜欢
分级分类资源
我给资源分分类
资源回收
做好绿色资源保护和开发
按需分类
教你一招:数的分类
说说分类那些事
2016年年末净值规模低于5000万元的分级基金
激活村庄内部治理资源
给塑料分分类吧
完形填空分级演练