基础研究竞争力平台构建方法研究

2023-12-24 10:34李贞贞钟永恒王辉刘佳孙源
数据与计算发展前沿 2023年6期
关键词:国家自然科学基金竞争力基础

李贞贞,钟永恒,王辉,刘佳,孙源

1.中国科学院武汉文献情报中心,湖北 武汉 430071

2.科技大数据湖北省重点实验室,湖北 武汉 430071

引 言

面对新一轮科技革命和产业变革的蓬勃兴起,基础研究和底层技术研究成为了科技创新的关键突破口[1]。2021 年3 月公布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》明确提出要制定实施基础研究十年行动方案,重点布局一批基础学科研究中心,加大基础研究财政投入力度,创造良好的科研生态[2]。作为我国自然科学最高学术机构,中国科学院在2021 年11 月召开的全院基础研究工作会议中,制定并发布了《中国科学院关于加强基础研究的若干意见》,强调要把加强基础研究和关键核心技术攻关确立为科技创新的两大中心任务[3]。密集的政策出台足以表明我国对基础研究的重视与决心。

基础研究是以认识自然现象与自然规律为直接目的,开展的一系列研究与实验,其研究成果多具有理论性,主要包括期刊论文、著作以及专利等[4]。基础研究竞争力是研究涉及基础研究投入、基础研究队伍与基地建设以及基础研究产出的能力,主要包括基础研究的科研经费投入、项目数量、科研队伍、高水平学者、基础研究创新平台、产出成果等[5]。对基础研究竞争力进行多维度的综合评价与分析,能够科学有效地反映我国基础研究发展轨迹,客观评价中国各地区、各机构基础研究综合竞争力,凝练各地区基础研究优势学科方向和重点研究机构,为相关政府部门、大学和科研机构进行基础研究自身判断、政策制定等工作提供数据支撑与借鉴。

大数据时代的蓬勃发展使得每年产生的基础研究相关数据增长迅猛,2021 年国家自然科学基金委员会共批准资助各类项目48,962 项,同比2020 年增长7.24%[6-7]。逐年递增的资助项目产生了大量的科研成果,利用大数据技术使用工具和平台有效的聚合、关联、存储和管理历年国家自然科学基金项目、学术论文、专利技术、科研人员、创新平台等基础研究数据,必然成为科技发展的要求。本文针对大数据环境下的中国基础研究科学评价服务需求,基于中国国家自然科学基金、学术论文、基本科学指标、发明专利、基础研究创新平台、国家科技奖励和高端人才的相关数据,对基础研究数据体系建设、基础研究竞争力评价方法进行深入研究,构建基础研究竞争力分析系统平台,为辅助基础研究管理工作与政策制定提供支撑。

1 相关研究

1.1 基础研究竞争力指数研究

国家自然科学基金(National Natural Science Foundation of China, NSFC)作为我国重要的基础研究资助基金,其公平、公正、公开的特点,被研究学者认为最能反映研究者的竞争能力。利用国家自然科学基金资助项目相关数据,我国研究学者做了一系列的研究,有了一定的研究基础。钟永恒等[8]在NSFC资助的项目数量和项目经费指标纳入基础研究学科竞争力指数基础上,新增了NSFC 主持人数量,考虑了NSFC项目负责人指标的重要参考因素,构建了“双一流”高校基础研究综合竞争力指数,对比分析了我国42所“双一流”高校的基础研究学科竞争力及基础研究综合竞争力。夏新曙等[9]将NSFC 资助项目数量、资助金额、申请人数和自然科学研究人员数量4 个指标纳入师范院校基础研究竞争力评价体系,构建师范院校基础研究竞争力指数,分析了我国25 所师范院校的基础研究竞争力。此后,高端人才、基地建设、研究产出等指标被更多地纳入到科技竞争力评价体系中,从而更全面地对地区或机构科技竞争力进行评估。魏鑫等[10]参考国际主流科技竞争力评价方法与评估体系,构建了基于基础科研人才、学术带头人、科研投入、科研产出、科研发展为指标体系的中国科学院科技发展态势评估模型,包含职工情况、学生培养、高端人才、经费结构、项目总况、科技论文、专利总况、国家奖励等指标。

中国科学院武汉文献情报中心自2017 年以来,持续深耕我国基础研究竞争力分析研究,每年发布的《中国基础研究竞争力报告》受到广泛关注,本系统基于报告中研究方法和研究成果,计算得到中国区域基础研究竞争力指数和中国大学与研究机构基础研究竞争力指数。

1.2 国家自然科学基金相关系统研究

近年来,随着大数据、云计算、人工智能等技术的蓬勃发展,结合新兴技术的国家自然科学基金数据平台受到广泛的关注与应用。姚畅等[11]采用图数据库、数据立方体等新型大数据技术构建了国家自然科学基金大数据知识管理服务平台,详细阐述了科学基金数据的汇聚、组织、存储及实体关联,通过关联分析和多维统计分析形成基金委大数据知识库。崔海媛等[12]基于DSpace 开源软件开发开放获取知识库平台,实现自然科学基金委资助项目成果数据的查重、清洗、增强和标准规范化处理,构建基础研究知识库。周园春等[13]以科研项目、学术论文、专利和科技动态数据构建科技领域大数据知识图谱平台,提供支持面向科技领域的学科分析、影响力分析以及关联挖掘服务。

现有的系统在多源异构数据的汇聚、清洗、存储及关联上做了大量的研究和实践,本系统重点研究中国国家自然科学基金、学术论文、基本科学指标、发明专利、基础研究创新平台、国家科技奖励和高端人才七类数据的集成、关联和分析,利用基础研究竞争力指数模型和数据挖掘方法,展现我国各地区、各机构基础研究竞争力发展现状及趋势,推动决策的精准化、科学化与智能化。

2 基础研究竞争力平台总体设计

2.1 设计思路

基础研究竞争力平台按照“总体架构设计—数据体系建立—评价方法研究—服务平台构建”的研究路径展开,深入分析我国基础研究竞争力数据体系构成,重点进行基于国家自然科学基金、学术论文、基本科学指标、发明专利、基础研究创新平台、国家科技奖励和高端人才的基础研究竞争力评价理论方法,并构建知识服务平台推进成果应用。首先,明确我国基础研究多源异构数据资源的获取、清洗、整合、组织与存储;然后,全面梳理基础研究竞争力评价理论、方法和实践,构建中国基础研究竞争力评价模型;最后,明确知识服务对象,实现大数据视角下的基础研究竞争力平台,将理论研究成果与知识服务实践进行有效结合。

2.2 总体架构

基础研究竞争力平台对多源异构科技数据进行收集与融合,采用基础研究竞争力评价模型理论与方法对发展趋势、省域竞争力、机构竞争力、学科竞争力和人才竞争力等内容进行科学评价,形成分析结果的可视化呈现,实现对我国基础研究的现状洞察和发展趋势分析。平台的整体架构分为基础设施层、数据体系层、数据分析层以及应用服务层,具体研究框架如图1。

图1 基础研究竞争力平台总体框架Fig.1 General framework of basic research competitiveness platform

(1)基础设施层。基础设施层包含服务器、网络、存储等硬件设施以及平台运行环境,为平台各功能组件的整体运行提供所需的计算、存储和网络资源。

(2)数据体系层。数据体系层为平台提供基础的数据环境,是平台的核心内容,包括数据集成、数据处理和数据存储,为上层提供基础数据。其中,数据集成采用多渠道收集的方法实现多源异构数据的获取,得到各类别的基础源数据;数据处理实现对源数据的加工,包括数据清洗、数据结构化以及构建数据间的关联关系;数据存储用于对采集和加工完成的数据进行存储。

(3)数据分析层。数据分析层实现对结构化数据的多维统计分析与数据挖掘分析,多维数据统计分析实现不同维度的基础研究竞争力分析,数据挖掘分析实现对文本关键词抽取、精准推荐及聚类分析等深层次的知识发现功能。

(4)应用服务层。应用服务层面向基础研究竞争力分析评价需求,利用基础数据与分析数据,构建基础研究竞争力平台,为用户提供交互式检索、数据展现、专题研究、分析评价、研究报告、个人中心等在线应用功能。

3 基础研究竞争力平台关键技术

基于上述基础研究竞争力平台总体框架,对平台实现过程进一步分析与整理,将其关键技术划分为数据体系建立、分析方法研究和服务平台构建。

3.1 数据体系建立

我国基础研究竞争力数据体系是基于基础研究关联数据,搭建基础研究竞争力数据分析体系,包含收集源数据、建立数据仓库和确定分析指标3个步骤,具体内容如图2所示。

图2 基础研究竞争力平台数据体系Fig.2 Data system of basic research competitiveness platform

(1)收集源数据。本文原始数据包括国家自然科学基金、学术论文、基本科学指标、发明专利、基础研究创新平台、国家科技奖励和高端人才七大类型,其中国家自然科学基金数据来自国家自然科学基金网络信息系统(ISIS系统),学术论文数据来自科睿唯安旗下Web of Science核心合集数据库,基本科学指标数据来自科睿唯安旗下的ESI指标数据库,发明专利数据来自中外专利数据库服务平台(CNIPR),基础研究创新平台来自我国各地区科技厅,国家科技奖励数据来自科技部,高端人才数据来自中国科学院、中国工程院、科技部、国家自然科学基金委员会等。利用计算机技术与人工处理相结合的方式,对源数据进行收集、汇聚和集成,存储在数据资源池中。

(2)建立数据仓库。将收集获取的源数据进行加工与处理,对原始文本数据进行网页标签的解析,转换成有效数据,并进行规范化处理与结构化存储,建立标准、规范、统一的数据仓库[14]。平台的数据仓库包含项目库、论文库、基本科学指标库、发明专利库、创新平台库、奖励库、人才库和机构库8 个主要的数据库,采用MySQL 分布式集群的存储方式,以保障平台的高性能和容错性。同时选用ElasticSearch 分布式搜索和数据分析引擎,集中存储海量分类数据,实现数据的高实时搜索[15]。

(3)确定分析指标。基础研究竞争力分析指标分为两部分:人才实力和基础研究资源投入、基础研究学术成果产出[16]。平台使用国家自然科学基金、高端人才、创新平台和投入增长率4 类指标表征基础研究的投入,其中,国家自然科学基金指标包括争取国家自然科学基金项目数量和项目金额;高端人才指标包括现有院士人数和新增国家杰出青年人数;创新平台指标包括国家重点实验室数量、省实验室数量、省级重点实验室数量、科学研究中心数量和野外科学观测站数量;投入增长率指标包括国家自然科学基金项目数量增长率、项目经费增长率、高端人才增长率和基础研究创新平台增长率。基础研究产出使用规模、质量、增长率和效率4 类指标进行表征,其中,产出规模指标包括学术论文发文量、国家科技奖励数和发明专利申请量;产出质量指标包括发表高质量论文数、获得国家科技奖励排名第一单位的奖励数和有效发明专利量;产出增长率指标包括学术论文增长率、国家科技奖励增长率和发明专利申请量增长率;产出效率指标包括人均发表论文数、百万人国家科技奖励数和万人发明专利拥有量。

3.2 分析方法研究

基础研究竞争力分析方法按照数据的类型与使用场景分为多维数据统计分析和数据挖掘分析两部分。多维数据统计分析是基于数值型的多维度大数据对指标进行数学模型统计分析;数据挖掘分析是基于语义层面的数据挖掘与分析,发掘文本数据中隐含的价值与服务。

3.2.1 多维数据统计分析

基础研究竞争力评价是探索基于多维度大数据的基础研究竞争力评价模型[17],属于数据统计分析方法。平台基于上述七类科技数据,构建了基础研究竞争力指数(Basic Research Competitive Index,BRCI),实现融合多源数据对基础研究竞争力进行全面精确的评价,形成了对于省域的中国区域基础研究竞争力指数和对于机构的中国大学与研究机构基础研究竞争力指数[18]。

中国区域(省、自治区、直辖市)基础研究竞争力指数计算公式如下:

其中,m表示中国某省(自治区、直辖市),t表示年份,At、Bt、Ct、Dt、Et、Ft分别表示某年某省(自治区、直辖市)投入规模指数、投入增长率指数、产出规模指数、产出质量指数、产出增长率指数、产出效率指数,各指标代号对应的具体内容见图2。

中国大学与研究机构基础研究竞争力指数计算公式如下:

其中,n表示某机构,t表示年份,At、Bt、Ct、Dt、Et分别表示某年某机构投入规模指数、投入增长率指数、产出规模指数、产出质量指数、产出增长率指数。针对各指标数量级和单位的不同,采用正态分布的累计分布函数对基础研究竞争力指数中的数据进行无量纲化处理[19]。

3.2.2 数据挖掘分析

为有效提供语义层面的知识服务与应用,平台利用自然语言处理、机器学习、深度学习等技术建立基金项目关键词抽取与相似项目推荐功能。

面对日益剧增的海量基金项目,利用关键词自动抽取技术从项目文本中提取权重较高的词语,可以快速反映项目的核心主题,实现对数据资源进行有效的组织和分类。平台基于国家自然科学基金项目标题、摘要等文本数据,使用Jieba分词工具、TextRank[20]方法计算得到项目的所有词语权重值,抽取出前5个最大值对应的词语作为每个项目的关键词集合。假设基金项目文本为D,分词后得到词语集合{v1,v2,…,vn},文本D构造的词图结构为G(V,E),V为文本词语的集合,E 为词语间各个边的集合,文本D 中各词语权重的计算公式为:

其中,W(vi)为词语vi的权重值,In(vi)为指向vi的节点集合,Out(vi)为vk指向的节点集合,d为阻尼系数,默认取值为0.85。

基金项目提取的关键词集合能够最大程度体现项目的主旨内涵,根据关键词集组合形成的向量表示可得到项目的文本向量,通过计算项目间的相似度,得到每个基金项目的相似项目排序,最终实现国家自然科学基金项目的精准推荐,为平台提供更深层次的分析服务。Word2Vec[21]是Google公司开源的一款词向量工具,可以通过神经网络模型将词语映射到高维空间中,转换成一个向量表示。本文将全部基金项目数据集经过数据预处理后,训练Word2Vec 词向量模型,得到数据集中每个词语的词向量表征。对于每个基金项目,将关键词的Word2Vec词向量加和平均值作为基金项目的向量表示。假设基金项目D 提取出的关键词集合为{kw1,kw2,…,kwn} ,D 的文本向量计算公式为:

余弦相似度[22]是用来度量两个向量在空间上相似性的常用方法,本文利用余弦相似度来计算得到基金项目间的相似性,提取每个项目相似度值最高的10个基金项目作为相似项目进行推荐展示。定义项目di的文本向量为Y(di)=(x1,x2,…,xm) ,项目dj的文本向量为Y(dj)=(y1,y2,…,ym),m 表示向量的维度,di和dj的文本相似度计算公式为:

3.3 服务平台构建

基于基础研究竞争力数据体系与分析评价结果,构建我国基础研究竞争力知识服务平台,主要包含交互式检索、全方位数据展示、专题研究、分析评价、研究报告和个人中心6 个功能模块。基础研究竞争力平台功能如图3所示。

图3 基础研究竞争力平台功能Fig.3 Functions of basic research competitiveness platform

交互式数据检索模块提供简单检索、高级检索和二次检索3种即席检索方式,检索国家自然科学基金项目,包含项目名称、项目批准号、所属省域、负责人、依托单位、学科分类、项目类型、资助金额和批准年度9 个字段,为用户提供最全面、最直观、最便捷的数据检索功能。数据展示模块呈现了国家自然科学基金项目的全部详细字段内容,项目对应成果,项目标签以及项目的相关推荐,方便用户快速发现项目关键技术及相关性排名TOP10的项目。专题研究模块从微观层面帮助用户了解研究个体的详细分析数据,为用户提供竞争力排行榜、省域竞争力专题和机构竞争力专题研究,展示指定省域或机构在某一年争取国家自然科学基金项目类型、经费、学科、发表SCI 论文数量等排名情况。分析评价模块为用户提供可视化、可交互的分析功能,通过年度、地区、学科、机构、人才等多个维度进行直观分析,帮助用户及时了解我国的资助布局、把握国内外资助热点、获知各机构科研项目竞争能力,包含指数分析、全球趋势分析、中国趋势分析、省域竞争力分析、机构竞争力分析、学科竞争力分析和人才竞争力分析。研究报告模块为用户提供免费的中国基础研究竞争力报告系列产品,展示智力成果,为科技决策、机构发展、学科规划等提供知识服务。个人中心模块主要面向用户,提供用户的注册与登录、信息管理和收藏管理等功能。

4 基础研究竞争力平台应用

基础研究竞争力平台采用B/S结构,Apache服务器、PHP编程语言、Vue.js前端框架、MySQL关系型数据库、ElasticSearch 搜索引擎以及memcached缓存开发实现。该平台使用简洁、直观、友好的图形化中文界面设计,用户可浏览、检索系统中的数据、专题研究及分析主题,同时根据用户权限对报告成果进行了访问控制。

平台提供对国家自然科学基金项目数据的简单或高级、精确或模糊检索,检索结果即席显示。根据省域、依托单位、学科分类、项目类型等不同字段的检索功能,用户可以查看指定范围的基金项目数据列表和基本分布情况,如图4所示。

图4 数据检索模块Fig.4 Data retrieval module

专题研究对指定省域或机构的项目类型、学科分类、项目经费、论文发表数量、专利申请量等数据进行统计分析,以图表全面展现专题的竞争力排名,如图5所示。图5(a)展示了省域竞争力专题部分内容,图5(b)展示了机构竞争力专题部分内容。

图5 专题模块Fig.5 Special module

平台基于竞争力评价模型得到的分析结果,设计了两个层级的分析主题结构,以提供不同维度的分析评价图表可视化展示,通过折线图、柱状图、饼图等多种图形表示方法对评价主体进行全方位的深入分析。以中国省域基础研究竞争力指数排行榜、项目类别分布趋势、中国省市自然科学基金趋势和学科结构4 个分析主题为例,分析结果如图6所示。

图6 分析评价模块Fig.6 Analysis and evaluation module

中国省域基础研究竞争力指数排行榜如图6(a)所示,展示了按照基础研究竞争力指数统计的中国各地区排名情况,以发现基础研究竞争力较强的地区。项目类别分布趋势如图6(b)所示,展示了国家自然科学基金资助项目类别的发展趋势,从宏观层面把握分析对象在各时期的基础研究发展战略。中国省市自然科学基金趋势如图6(c)所示,展示了中国各地区国家自然科学基金获批情况,了解各地区历年项目经费、项目数、主持数变化趋势。学科结构如图6(d)所示,展示了特定地区获批国家自然科学基金在各学科方向的分布情况,以了解该地区覆盖的学科类别以及研究热度。

5 结 语

我国从“基础研究大国”发展成为“基础研究强国”的关键核心是科技创新,而基础研究是科技创新的源头和先导,基础研究既推动了自然科学本身的发展,也为高新技术的发展提供了内在的动力,代表着国家和地区的科技发展水平。文本深入研究了中国基础研究竞争力数据体系结构及其分析评价模型,将国家自然科学基金、学术论文、基本科学指标、发明专利、基础研究创新平台、国家科技奖励和高端人才七类异构数据进行了有效集成与融合,最终构建了基础研究竞争力服务平台,推动了信息的增值与知识的创新。该平台不仅实现了对基础研究关联数据的组织与管理,而且为基础研究知识发现、分析决策提供强有力的应用支撑。未来将继续加强基础研究竞争力理论体系研究与实践,逐步建成完整、全面的基础研究数据资源体系,加快提升技术水平与应用服务能力,实现为国内外科研机构、政府部门、相关企业等提供更加科学、高能效的基础研究数据与知识服务。

利益冲突声明

所有作者声明不存在利益冲突关系。

猜你喜欢
国家自然科学基金竞争力基础
“不等式”基础巩固
常见基金项目的英文名称(一)
“整式”基础巩固
我校喜获五项2018年度国家自然科学基金项目立项
论外卖品牌的竞争力
“防”“治”并举 筑牢基础
2017 年新项目
日本竞争力
国家自然科学基金项目简介
“北上广深”pk城市竞争力