基金项目研究的主题挖掘与动态演化分析
——以美国NSF数据中AI领域为例

2022-10-18 06:05靳嘉林王曰芬巴志超岑咏华

情报学报 2022年9期

靳嘉林，王曰芬，，巴志超，岑咏华

（1.南京理工大学经济管理学院，南京 210094；2.天津师范大学管理学院，天津 300387；3.天津师范大学大数据科学研究院，天津 300387；4.南京大学数据智能与交叉创新实验室，南京 210023）

1 引言

研究主题作为学术成果的一种隐性特征，反映了该学术成果的主要研究内容。领域研究是由大量该领域学术成果及其主要研究内容构成的，因此，领域研究的方向和热点及其演进态势的深入揭示需要从研究主题切入。基金项目资助领域的研究主题更具有科技发展的政策引领性、学术前瞻性、应用迫切性和未来探索性，所以，基于情报学视角与数据驱动思想，审查与分析国家级基金项目数据特性，通过数据表征间的内在关联构建面向国家级基金项目数据的主题挖掘与演化分析框架，具备情报研究的重要意义。

在国家级基金中，美国国家科学基金会（National Science Foundation，NSF）在美国科学进步中发挥着重要作用并且资助领域具有广泛的覆盖面，其资助的科研项目能够在一定程度上反映美国科学研究和工程开发的政策导向和发展趋势。同时，人工智能（artificial intelligence，AI）的飞速发展引发世界各国政策规划与科技资助计划的竞相涌现，各国纷纷通过加大研究投入推动人工智能发展。美国也相继采取了一系列措施来维护其在AI 领域的领先地位，基金项目的资助便是主要形式之一。

由此，本文以科学基金数据为研究对象，采用关键词提取、词向量建模、主题挖掘等方法，构建基金项目数据主题挖掘与演化分析框架和研究流程，以探测基金项目领域研究主题分布与变化，并通过主题演化路径变动识别出演化主路径。在实证中，选取NSF 资助的AI 领域为例，研究美国人工智能领域政策引导的方向、前沿瞄准的范围、应用示范的侧重及其发展变化，为学术研究与政策规划提供参考借鉴。

2 相关研究

目前，关于基金数据的研究中以NSF 为数据来源的较少。在国内，多是使用明确学科划分的领域数据，例如，王文娟等[1]选择NSF 资助的海洋酸化相关研究项目作为研究数据，徐路路等[2]选择NSF石墨烯领域项目作为研究数据。在国外，有关NSF数据的研究则更多地是通过直接限定年份来获得数据，例如，Coccia 等[3]和 Barrios 等[4]选择 1997—2012年NSF 研究项目作为研究数据，Kawamura 等[5]选择2012—2016 年NSF 研究项目作为实验对比数据。

主题挖掘是利用文本集合中文本特征项之间的关联关系发现研究主题的过程，目前常见的主题挖掘方法有词频分析法、共词分析法、引文分析法、主题模型法等。例如，赵常煜等[6]基于LDA（latent Dirichlet allocation）模型和情感分析进行主题情感交叉分析；王艳东等[7]以微博为节点构建共词网络，结合Louvain 社区探测算法进行文本主题挖掘；杨玉娟等[8]通过结合词向量模型、凝聚型层次聚类算法和k-means 算法进行主题聚类；Nichols[9]通过构建主题模型来测量NSF 项目的跨学科性。通过现有大量研究可以发现，LDA 模型由于其词性标注的便捷性，在情感分析中能够发挥不错的效果，但短文本的主题分析不尽如人意；共词网络能够很好地构建词之间的相关关系，但忽略了语义在主题中的重要作用；而词向量模型能够很好地结合上下文关系和语义特征构建模型，以此为基础的聚类算法能够得到更准确的主题挖掘结果。因此，在以主题内容挖掘为目的的主题分析中，选择基于词向量和聚类的方法，能够得到更优的结果。

随着主题挖掘研究的不断加深，主题演化的研究也逐渐引起重视，研究方法根据需求也有所不同。有直接使用研究工具的，例如，隗玲等[10]使用NEV-iewer（network evolution viewer）工具进行主题演化，并结合社区活跃度、社区节点数量、社区变化情况等指标确定学科主题演化路径；有进行标签梳理的，例如，陈悦等[11]以论文发表时间和作者辅助信息的外生标签梳理出中国科学学研究主题的变迁；有使用相关算法的，例如，李海林等[12]提出基于时间序列聚类的主题发现与演化分析方法，将发现的文献主题转化为反映主题热度时间序列数据，并结合时间序列聚类方法对各主题进行分类以及演化趋势的分析。虽然演化研究的方法不尽相同，但通过时间维度的演化分析，能够有效地把握主题变化趋势。

3 研究设计与方法

3.1 分析框架设计

本文遵循“数据获取-数据预处理-数据挖掘与分析-结果展示与验证”的研究范式设计针对国家级基金数据的主题挖掘与演化分析框架，在“数据层-分析层-展示层”的三层结构中融入基金项目数据单元的表征及其信息含义，开展针对基金项目研究内容的分布与演变研究，如图1 所示。

数据层执行的是数据准备环节，包括数据获取与数据预处理。数据获取阶段，由于基金项目本身不同于论文发表，具备一定的政策引导性，所以在获取数据时应考虑基金数据特征。领域检索词的选择一方面要完整覆盖学术研究方向，另一方面要紧密贴合国家政策导向，从而确保数据的全面性。数据预处理阶段，在完成初步清洗去重后，对已获得数据进行二次筛选，特别是基金代码未覆盖的研究领域，以确保数据的准确性。由于基金数据的获取过程难以获得关键词信息，蕴含内容属性的只有标题和摘要，需要采用关键词提取、术语切分等手段提取出能够表征基金内容的特征。

分析层执行的是数据挖掘环节，是实现主题挖掘与演化分析的主要过程，通过词向量模型、主题模型、深度学习等方法，实现主题抽取和相似度的计算，从而形成基金研究的主题分布与动态演化。

展示层执行的是结果分析与验证环境，主要针对主题分布和动态演化两个部分开展。从分析的角度来看，通过主题抽取获得研究领域基金项目数据的主题分布，引入基金分析的独特视角，如学部视角等，将主题分布落实至不同的维度中。从验证的角度来看，主题抽取部分需要对结果进行效果评估，在确定主题模型主题数时通常需要进行预检验，诸如k-means 算法中的误差平方和与轮廓系数、LDA 算法中的困惑度与一致性等指标。主题演化部分需要对识别出的主路径进行检验，可以从两个途径进行，一是现实检验，利用已有数据溯源到具体基金项目中，判断现实中的基金的实际支持力度是否契合演化主路径；二是交叉检验，针对基金相关的政策文本或受基金资助的学术成果等多源数据开展相关挖掘工作，利用不同数据的实验结果交叉验证演化主路径是否合理。

3.2 研究流程与方法

为了发掘AI 基金数据中的主题内容，本文从数据挖掘与分析的角度出发，运用RAKE（rapid automatic keyword extraction）算法、word2vec 建模、kmeans 聚类、 WMD （word mover's distance）算法等，选取美国NSF 数据中AI 领域主题发展态势进行挖掘分析，研究流程如图2 所示。

首先，在检索数据并对初始数据集进行筛选过滤的基础上，采用RAKE 算法从标题和摘要中提取关键词，将基金项目数据表示为关键词的集合；然后，进行主题挖掘，使用word2vec 建模方法对基金项目数据进行词向量建模，针对词向量模型，通过手肘法确定k值，并进行k-means 聚类，得到AI 领域研究主题以及学部视角下的主题分布；最后，开展动态演化分析，在主题分布中加入时间维度，利用WMD 算法计算不同主题间的相似度，得到主题演化态势，对比所有演化路径的演化强度，识别出演化主路径。

3.2.1 基于RAKE算法的关键词提取

基于语料库的关键词抽取方法存在一定的缺陷，例如，尽管某些关键词很可能被评估为在语料库内具有统计区别性，但在语料库内的许多文档中出现的关键词却被认为不具备区别性。面向语料库的方法通常也仅对单个单词起作用。这进一步限制了统计上有区别的单词的度量，因为单个单词经常在多个不同的上下文中使用。而快速自动关键词提取算法（RAKE），是一种非监督的、与文本域和语言无关的方法，用于从单个文档中提取关键词，能够有效避免上述弊端。

RAKE 算法的输入参数包括停用词列表、一组词组定界符和一组词定界符。RAKE 通过使用停用词和词组定界符将文本解析为一组候选关键词来对文本进行关键词提取。首先，通过指定的单词定界符将文本分成单词数组；接着，将数组在短语定界符和停用词位置分成连续的词序列，序列区域内在文本中的相同位置的单词被分配在一起，视为候选关键词，并构建候选关键词共现图；最后，对每个候选关键词计算得分，并将其定义为其成员单词分数的总和[13]。其中，关键词得分的计算公式为

即单词w的得分是该单词的度（每与另一个单词共现在一个短语中，度就加1）除以该单词的词频（该单词在该文档中出现的总次数）。

3.2.2 基于word2vec的词向量建模

在自然语言处理中，词在计算机中有两种表示方式：离散表示和分布式表示。传统的基于规则或基于统计的自然语义处理方法将单词看作一个原子符号，把每个词表示为一个长向量，这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的词。分布式表示则将词表示成一个定长的连续的稠密向量，即词向量。

word2vec 是Google 于2013 年以深度学习的思想为基础开发的一种词向量模型，主要用于实现文本信息由非结构化形式到向量化形式的转变[14]。word2vec 包含 CBOW（continuous bag-of-word model）和skip-gram 两个模型，CBOW 模型是拿一个词语的上下文作为输入，来预测这个词语本身；skip-gram模型是拿一个词语作为输入，来预测这个词语的上下文，如图3 所示[15]。由于word2vec 方法在获得词向量时会考虑上下文情况，与其他词嵌入方法相比，其得到的词向量效果更好，维度更少，所以，处理速度也更快，更适合应用在自然语言处理的任务中。

4 实证分析

4.1 数据来源

本文以AI 领域为例，采用关键词组合检索的策略，根据前期综合研究确定的418 个关键词[16]，构造检索式“"semantic analysis" or "neural network" or"support vector machine" or "machine learning"…”，在NSF 官网上检索相关基金项目，限定基金资助时段为2008.01.01—2018.12.31 （检索时间为2020 年2月）。去重处理后，共获取42126 条基金项目数据；经人工筛选与研判后，最终得到AI 领域基金项目数据20524 条。

4.2 研究主题挖掘

为了充分利用NSF 数据，从整体与局部两个方面把握美国AI 领域基金项目发展概况，本文分别从学术领域和学部两个视角进行主题分布的研究。经过关键词抽取，将各基金项目用关键词的集合来表示，删除掉无效的关键词以及关键词数量为1 的基金项目，最终剩余19743 条基金项目数据，涉及关键词8291 个，表1 显示了Top 20 的高频关键词。

进一步解读表1 所示数据以及其他高频关键词，可以明显地发现，一些倾向于计算机和数理方向的词汇，如机器学习、计算机科学、数据分析、大数据、数据科学、计算模型、数学模型等，在表格中排名前列，表明在基金项目资助方面人工智能领域的技术需求以计算机技术和数理科学为主，其他学科理论知识则依照相关应用起辅助作用。大规模、先进技术、实时、一致状态、开放资源等则体现出人工智能研究中数据与方法的特征。在这些关键词中，出现最多的单词就是数据，这充分显示在数据密集型的第四科学研究范式下，基金项目的研究同样以数据为驱动，合理使用计算机技术对各类数据进行挖掘与分析，进而实现人工智能。除此之外，决策支持、气候挑战、材料科学、科学教育等词语则展示受资助项目的主要应用方向。由此可见，NSF 资助的人工智能研究项目侧重于研究计算机方法并用于解决美国所面临的实际问题。

表1 NSF人工智能领域Top 20高频关键词

4.2.1 领域研究主题挖掘与分布

开展主题挖掘之前需要首先确定研究主题个数。误差平方和（square sum of error，SSE）是所有样本的聚类误差，能够代表聚类效果的好坏，换句话说，SSE 值的计算与比较可以实现对聚类结果的预检验。实验过程中，随着聚类个数k的逐渐增大，每个类簇的划分都变得更加细粒度，聚合程度也相应提高，但并非k取值越大越好。当k值达到真实聚类个数时，SSE 值随k值增加而减小的幅度会迅速降低进而趋于平稳。因此，可以通过SSE 值对聚类结果进行预检验，根据其随k值变化的曲线来确定最优聚类数。

使用python 的gensim 包将项目关键词数据通过word2vec 转化为 300 维词向量，随后k取值从 2 到50 并依此计算SSE 值，图4 展示了误差平方和随k值的变化曲线。

在图4 中，纵轴的上下边界分别为误差平方和的最大值和最小值，横轴表示k的取值，范围为2～50。观察发现，在k取值15 前后，误差平方和的变化首次明显减缓，因此确定k的取值为15。在此基础上，进行词向量的聚类，得到的结果如表2所示。

NSF 所资助的AI 研究项目涉及15 个主题。表2展示了各主题的前10 个主题词，研究涵盖了计算机、数学、教育、环境、材料等多个领域。各主题间界限相对清晰，这反映出融入基金特征的分析框架能够针对基金数据获得较好的结果，其中：

表2 主题分布情况

Topic1 主要涉及使用数学或计算机理论方法解决用户行为问题或经济问题；Topic2 主要涉及各种类型多源数据的研究与采集；Topic3 主要涉及在实际工程项目中使用计算机方法解决所遇到的复杂问题；Topic4 主要涉及生命科学领域的研究，并在此基础上使用计算机方法仿真出生物运作的机能，以此解决医疗、生物、计算机等多方面问题；Topic5主要涉及AI 在材料和化学领域的应用，通过AI 方法处理多维空间以及不同环境的数据，从而找到改良材料的突破口；Topic6 主要涉及AI 硬件及系统设计中的问题；Topic7 主要涉及教育领域，一方面是教育AI 领域知识，另一方面是使用AI 方法进行教育；Topic8 主要涉及数学与物理的理论方法，在AI研究中要大量应用数学与物理的相关知识，这是理论研究的重点；Topic9 主要涉及数据挖掘与机器学习的典型方法，是AI 领域的方法论基础；Topic10主要涉及光电领域工程以及信号降噪等问题研究；Topic11 主要涉及对各类系统的持续性检测、优化与评价问题；Topic12 主要涉及数据的处理与分析，在数据密集型的第四研究范式下，数据是所有研究的基础，这一主题的研究为其他研究提供有效的数据支撑；Topic13 主要涉及物联网的研究，从效率、能源、数据、安全、隐私等多方面进行传感器的研发；Topic14 主要研究美国气候环境变化所造成的影响，并预测短期内的环境变化，为决策者提供决策支持；Topic15 主要涉及服务提供商的虚拟系统及现实工程的构建。

4.2.2 学部研究主题挖掘与分布

NSF 人工智能领域基金项目共涉及7 个学部和1 个办公室。同一学部下的研究者和研究项目通常拥有着相似的研究领域或学科，而人工智能领域研究的15 个主题涵盖了大量的学术领域以及现实应用场景。因此，学部下的研究主题分布能够反映该学部学科交叉度以及应用范围。

通过对比各学部项目关键词与各主题所包含的主题词，得到各学部研究项目在各个主题下的分布情况，如图5 所示。雷达图的各个指标分别对应Topic1～Topic15（12 点方向为Topic1，按逆时针方向依次递增至Topic15），每个学部在各主题下阴影的长度代表该学部研究与各主题的相关性。

雷达图中各学部的阴影部分形状越接近正15 边形，说明该学部研究的学科交叉程度越高，现实应用范围越广泛。从学部涉及的研究主题来看，计算机信息科学与工程学部、工程科学学部、数学与物理科学学部的项目在人工智能领域覆盖广泛，15 个主题的研究均位列前茅，显示出这3 个学部的学科交叉研究明显优于其他学部；主任办公室由于不与具体学科相关且项目较少，在各个主题上的研究均不突出；社会行为与经济科学学部在Topic1（用户行为与经济问题）和Topic9（数据挖掘与机器学习等方法）中研究表现突出；地理科学学部的优势集中在Topic8（数学与物理理论方法）和Topic14（气候环境问题）中；教育与人力资源学部在Topic7（教育问题及应用）上彰显了该学部的特点，同时，在Topic9（数据挖掘与机器学习等方法）、Topic12（数据处理与分析等基础）等主题都表现不错；生物科学学部除了在Topic4 （生物仿真与应用）和Topic5（材料与化学及应用）有侧重外，在Topic9（数据挖掘与机器学习等方法）、Topic12（数据处理与分析等基础）等主题涉及的也比较多。

从研究主题所属的学部来看，研究主题Topic9（数据挖掘与机器学习等方法）、Topic12（数据处理与分析等基础）、Topic13（物联网与传感器）、Topic14（气候环境问题）等是各个学部都关注的研究，体现出人工智能研究的领域属性与需求；而Topic3（复杂工程问题）、Topic6 （硬件与系统设计）和Topic11（系统检测与优化评价）在各个学部的研究都明显弱于其他主题，主要的研究集中在计算机信息科学与工程学部、工程科学学部、数学与物理科学学部这3 个学部中，这可能是由于现实问题的复杂性导致研究难度过大，进而使项目的资助受到一定的影响。但从获得资助项目的经费额度看，其中计算机信息科学与工程学部在这3 个研究主题上的投入不低，说明NSF正在加强攻克难关，突破技术瓶颈。

综上可见，NSF 在对人工智能的资助上，既重视根据现实需求与学科领域核心而展开的研究，也鼓励多学科的交叉发展，同时，又针对攻关项目加大重点投入与支持。

4.3 研究主题演化

通过领域主题挖掘能够揭示美国NSF 基金项目人工智能领域的整体态势，但是缺乏对演化趋势的把握。因此加入时间维度，以时间切片的形式展示各时间段主题分布以及相邻时间段的演化关系。同时，根据各演化路径的演化强度比较，识别出主演化路径及其对应的研究主题，从而更加深入地研究NSF 基金资助的侧重点及其变化。

由于2014 年之前每年项目数量较少，且关键词分布散乱，所以将2008—2014 年作为第一个时间切片，其后每一年为一时间切片，按时间维度将数据集分为6 份。分别对各时间段数据进行主题挖掘处理，图6 展示了历年数据的误差平方和随k值变化曲线，各图横轴均为k值，范围2～50，纵轴均为误差平方和SSE 值，范围从SSE 的最小值到最大值。

在所获得的数据集中，有2019 年的部分数据，但是不完整，数据量明显少于其他年份，没有形成固定的主题，所以在时间切片中剔除2019 年数据，仅使用前5 个时间段。从图6 可以看出，前5 份数据的误差平方和变化趋势相似，因此在进行聚类时k值均取 9。

4.3.1 领域主题演化趋势分析

为分析NSF 基金资助的人工智能领域演化态势，需要首先计算主题间的相似度。WMD 是2015年提出的一种衡量文本相似度的方法[17]，通过两个主题间词语的相互转移，使其转移代价降到最小，这个最小的转移代价即为两个主题之间的WMD，计算公式为

其中，c(i,j)表示词向量i和j的欧几里得距离；n是词的个数；分别是两个主题中各个词权重（模）组成的向量。

通过计算相邻时间各主题的WMD 得到主题的动态演化情况，如图7 所示。从图7 呈现的不同主题的大小与主题之间的变化上看，各时间段人工智能领域的研究主题在统计的范围内都处于不断的扩张、分裂和融合的过程状态。2008—2014 年各个主题规模都较小且分散，随着时间的推进，2015—2017 年逐渐形成规模较大的几个主题，主题规模呈现两极分化态势。到2018 年，大规模的主题开始出现缩减，而小规模主题有扩张趋势，表明人工智能研究正在经历从零散到融合的过程，也就是研究性质与发展事态逐渐从探索性研究步入到系统化研究。

同时，从图7 中代表该主题词频最高术语的标签看，主题演化呈现出明显的融合、分裂、再融合的复杂过程，每年大小规模的主题均有不同程度的裂变，并从前序主题中吸纳大量研究内容。其中，2008—2014 年的 Topic7、2015 年的 Topic3 和 Topic5、2016 年的Topic8 在演化过程中向后时间段均未出现强相似度主题。经调查发现这些主题所涉及项目均属于融合多个学科基础理论方法进行实践的，其研究主题术语在下个时间段被分裂至各个主题中，导致每个主题与其相似度均不为0 但都不高，属于普适性质的主题。而2016 年的Topic3（复杂系统中高维空间数据的计算与应用）和2017 年的Topic6（物联网中信号处理问题及对开放环境数据的学习）向前未出现强相似度的主题，在演化过程中突然出现并持续作用，属于新兴主题。

4.3.2 领域主题演化路径分析

为研究主题演化过程的完整路径，将演化子路径界定为相邻时间切片主题间的路径，演化强度定义为演化子路径前后主题的相似度。通过计算得到表3 所示的各时间段演化强度较高的演化子路径。同时，图7 所展示的主题动态演化中共存在212 条演化子路径，通过对比这些子路径的演化强度以及是否能构成完整演化路径，得到人工智能领域主题演化的主路径。

由表3 所显示的演化强度可以发现，每个时间段演化强度最高的路径组成了一条完整的演化路径，即 2008—2014:Topic9→2015:Topic2→2016:Topic1→2017:Topic3→2018:Topic2。 2008—2014 年 Topic9 代表的是视频动作捕捉，属于人工智能中的计算机视觉研究；2015 年Topic2 在此基础上扩充了智能检索、语音识别的研究；2016 年Topic1 开始追求图像保真，并根据用户需求进行虚拟组织；2017 年Topic3 则致力于研究路径规划和远程控制；2018 年Topic2 中，一批无人控制设备显现出来，无人机、无人驾驶汽车等成为该主题的研究热点。在这条主路径的基础上参照表3 中的高演化强度子路径进行溯源，如表4 和图8 所示。

表3 各时间段高演化强度子路径

表4 主题演化主路径演化强度

图8 中的标签为主题内容相近的主题词，代表该主题研究的主要内容。从图8 可见，2008—2014年涉及的5 个主题分别是视频图像捕捉、图像处理、系统工程、信息处理、编程模型。2015 年，图像捕捉、图像处理和系统工程的部分研究内容相融合，形成以图像为基础的智能检索研究，并在此基础上增加语音识别研究，建立起较为系统的计算机视觉研究；系统工程与信息处理通过加强对数据本身的研究，构成数据管理相关研究；信息处理和编程模型则融合出社会网络研究，余下的编程模型研究更为深入形成以神经网络为主的机器学习方法研究。2016 年，计算机视觉研究继续深入，结合数据管理的相关问题，着重研究成像问题；社会网络与数据管理进行融合，形成以用户需求为基础的项目管理与知识管理研究，技术方法研究则参考社会网络构建，建立复杂系统并进行定量评估。2017 年，计算机视觉研究结合项目管理经验，形成远程控制研究并进行最优路径规划；项目管理和定量评估则融合成视频直播与动作控制管理方向。2018 年，前序积累的所有技术与应用相融合，形成无人设备方面的研究。

通过溯源主题对应的基金项目发现，主路径中主题对应的基金项目数量在历年各主题中均处于前列，但受设备需求所限，资助金额并非处于领先位置。这在一定程度上佐证了演化主路径的研究内容确实受到NSF 的高度关注，在现实层面验证了结果的可靠性。

5 结论与讨论

本文以科学基金数据为研究对象，从情报研究的视角设计了分析框架与研究流程，以开展基于基金数据的领域研究主题挖掘与演化路径分析；并以美国NSF 数据中AI 领域为例，通过word2vec 方法将项目转化为300 维的词向量模型，在此基础上使用k-means 算法进行主题挖掘，发掘出了15 个人工智能领域研究主题，以及NSF 各学部的主题分布。最后加入时间维度，探索了NSF 资助的人工智能领域的主题演化情况，得出以下结论。

（1）对主题涉及的范围与集中度开展研究，能够把握国家级基金在领域研究中的覆盖程度，体现其对该研究领域的整体支持力度。在人工智能领域，NSF 资助的研究在理论基础与技术方法上覆盖得比较全面，应用的产业范围广泛，集中支持的研究主题明晰。

（2）对学部主题分布的学科属性与侧重度开展研究，能够识别国家级基金在学科研究与交叉研究中的权衡，在彰显该领域的学科属性的同时，落实其政策倾向。在人工智能领域，NSF 一方面大力资助该领域核心学科广泛开展相关研究，另一方面鼓励该领域的应用学科或者关联学科突出重点研究，加大投入由核心学科进行攻关项目的研究，将交叉研究与重点突出相结合。

（3）对领域主题演化状态与路径变化开展研究，能够监测国家级基金对领域核心技术关注与资助的状况，揭示相关技术发展的过程。在人工智能领域，NSF 资助的研究呈现明显的融合-分裂-再融合的特征，研究导向从尝试多种方法解决现实问题向特定方法解决特定问题的方向发展，研究状态正趋于系统化。整个演化过程的主路径呈现的是一条从图像处理、信息处理逐渐通过成像研究、系统优化、远程控制过渡到无人设备研究的路线轨迹，它显示了NSF 是如何资助研究人员一步步将各类无人设备相关技术融合起来，并使技术从萌芽到逐渐成熟的发展过程。

因此，挖掘和分析基金资助项目领域主题的分布与演化，从政府投入支持角度把握领域研究的主题内容、发展态势与趋向，并借助国外相关数据进行实证分析，对于我国的学术研究与政府规划将提供有力的决策参考。

本文也存在一定的局限性。虽然k-means 聚类算法在确定k值的过程中存在SSE 值的检验，但是在主题演化的分析中仅通过与已有数据的比较来检验结果的可靠性，缺乏与多源数据相结合的对比分析。后续研究可采用不同来源的数据，如政府科技政策文本、国家级基金资助项目的论文产出等，对多源数据的主题分析进行交叉验证，增强结果的可靠性。

基金项目研究的主题挖掘与动态演化分析——以美国NSF数据中AI领域为例

1 引 言