科技论文引用对象和引文功能的联合自动识别方法研究

2022-06-06 19:56唐晓波彭映寒
现代情报 2022年6期
关键词:三元组自动识别类别

唐晓波 彭映寒

摘 要:[目的/意义]国家强调重视科技成果的质量,科技成果的质量体现了科技成果的学术价值和贡献。科技论文是科技成果的重要载体之一。基于文本语义分析识别科技论文的引用对象和引文功能,对于科技论文的学术贡献和价值的評价具有重要的作用。[方法/过程]本文利用文本数据挖掘技术提出基于BERT-BiGRU-CRF的科技论文引用对象和引文功能的联合自动识别方法模型。首先从知网数据库获取科技论文全文本,利用正则匹配引用标记的方式获取科技论文引文内容;其次借鉴已有研究确定科技论文引用对象和引文功能标注方法,实现科技论文引文内容的人工标注;然后在预训练语言模型BERT的基础上结合BiGRU与CRF构建科技论文引文内容的序列标注模型,实现科技论文引用对象和引文功能的联合自动识别,将识别结果利用三元组进行表达;最后采用图情领域5本高质量期刊2021年上半年的科技论文文本数据进行实验。[结果/结论]实验结果表明,本文提出的方法模型在引用对象、引文功能和两者联合自动识别上的F1值分别为71.78%、68.33%、64.23%,均优于对比模型,初步验证了本文模型对于科技论文引用对象和引文功能自动识别的有效性。

关键词:科技论文;价值评价;引用对象;引文功能;联合自动识别;BERT-BiGRU-CRF

DOI:10.3969/j.issn.1008-0821.2022.06.004

〔中图分类号〕G250.2 〔文献标识码〕A 〔文章编号〕1008-0821(2022)06-0038-11

Abstract:[Purpose/Significance]The state attaches importance to the quality of scientific and technological achievements,which reflects the academic value and contribution of scientific and technological achievements.Scientific papers are one of the important carriers of scientific and technological achievements.Identifying citation objects and citation functions of scientific papers based on text semantic analysis plays an important role in the evaluation of academic contribution and value of scientific papers.[Method/Process]Using text data mining technology,this paper proposed a joint automatic recognition method model of citation object and citation function of scientific papers based on Bert-BiGRU-CRF.Firstly,the full text of scientific papers was obtained from HowNet database,and the citation content of scientific papers was obtained by regular matching citation markers;Secondly,using the existing research to determine the citation object and citation function annotation method of scientific papers,the manual annotation of citation content of scientific papers could be realized;Then,based on the pre training language model Bert,combined with BiGRU and CRF,the sequence annotation model of citation content of scientific papers was constructed to realize the joint automatic recognition of citation objects and citation functions of scientific papers,and the recognition results were expressed by triples;Finally,the experiment was carried out with the text data of scientific and technological papers in five high-quality journals in the field of graphics and information in the first half of 2021.[Results/Conclusion]The experimental results show that the F1 values of the method model proposed in this paper are 71.78%,68.33% and 64.23% respectively,which are better than the comparison model,and preliminarily verify the effectiveness of this model for the automatic recognition of citation objects and citation functions of scientific and technological papers.901E1773-29E0-4DE9-B2FF-E1280F48292C

Key words:scientific papers;value evaluation;citation object and its relationship;joint automatic identification;BERT-BiGRU-CRF

近年来,国家提出“克服唯论文、唯职称、唯学历、唯奖项倾向”、破除“SCI至上”,强调科技成果的质量。科技论文是学者在实验研究或理论研究基础上,分析、概括和阐明研究存在的现象或出现的问题,结合学者自身观点对研究进一步总结和创新,最后根据各个科技期刊的要求进行撰写和表达[1],是科技成果的重要载体之一。科技论文的学术贡献和价值体现了科技成果的质量,对其评价成为重要的研究问题。引文分析一直是科技论文学术价值的重要评价方法[2]。传统的引文分析方法没有明确引文被引用的具体内容和功能,无法从语义层面揭示科技论文的引用行为。科技论文在引用文献时提及引文中的具体内容对象称为引用对象[3],被引文献在施引文献中的作用和功能称为引文功能[4]。科技论文中不同类别的引用对象和引文功能的识别能够进一步明确科技论文的引用行为,揭示引用关系的实质,为科技论文的学术贡献和价值评价提供重要维度。随着文本挖掘、深度学习等技术的发展,深入科技论文文本识别不同类别的引用对象和引文功能成为可能。

国内外学者对于科技论文引用对象、引用对象类别以及引文功能三者的研究已有一些成果。对科技论文引用对象的研究主要有人工识别和自动识别,如陆伟等[4]、Qazvinian V等[5]对论文引文内容中的引用对象和引文功能进行人工标注,验证了文中提出的引文内容标注框架的可行性。章成志等采用不同机器学习模型,按不同粒度切分被引文本,对科技论文引用对象进行自动识别[6];Ma S T等在基于上下文的引文推荐方法中,介绍了通过识别引文文本和被引论文内容中最相关的部分实现引文推荐的方法[7];Khalid A等[8]利用引文上下文主题来表示科技论文的引用对象,但实验结果表明,存在部分引文上下文主题无法准确反映引用对象的不足;马娜等[9]尝试将引用对象的识别转化为序列标注问题,利用深度学习模型对引文内容中的术语型引用对象做自动识别,模型F1值为60.18%,但引用對象类别划分粒度较粗,且只面向术语型引用对象进行识别研究。对引用对象类别的研究主要有不同学者提出的分类框架。对引文功能的研究主要有不同学者提出的分类框架和分类方法模型,如陈颖芳等[10]提出了引文功能分类框架并进行人工标注,探讨科学知识的发展演进规律;尹莉等[11]在建立分类框架后利用机器学习模型对引文的功能和极性进行分类;Bakhti K等[12]针对6个类别的引文功能提出了一种半注释标注方法,提高了引文功能的分类性能。目前较少有深入文本语义对科技论文引用对象做自动分类识别的研究;大多数现有研究仅面向科技论文引用对象和引文功能的其中一个问题进行研究,较少将两者结合起来进行研究,无法全面揭示文献间引用关系的实质。

本文提出基于BERT-BiGRU-CRF的科技论文引用对象和引文功能的联合自动识别方法模型。首先,从知网数据库获取科技论文全文本,利用正则匹配引用标记的方式获取科技论文引文内容;其次,借鉴已有研究确定引用对象和引文功能的标注方法,对科技论文引文内容进行人工标注;然后,利用BERT-BiGRU-CRF模型对科技论文文本进行序列标注,实现了引用对象和引文功能的联合自动识别;最后,将识别结果用3个三元组进行表达。识别结果的三元组实际上是引文内容的知识表示,可以作为科技评价知识库的一个重要组成部分。本文提出的方法模型深入科技论文文本语义,利用文本挖掘、深度学习方法将引用对象和引文功能的自动识别任务转换为序列标注问题,将自动抽取结果表达为三元组,更好地揭示了科技论文的引用行为和文献间的引用关系,为科技论文学术价值的评价提供了一定的参考意义。

1 相关研究

1.1 科技论文引用对象和引文功能的分类

科技论文是科研创新成果的重要载体之一,是最主要的科学技术信息传播和交流手段/工具。科技论文引用对象是施引文献引用被引文献的具体内容,常以名词或名词术语的形式表示,是引文内容的概括性表达,解释了施引文献引用被引文献的“什么”;科技论文引文功能是被引文献在施引文献中的具体作用,解释了施引文献为什么引用被引文献[4]。

本文科技论文引用对象的识别是指科技论文引用对象及其类别的识别。科技论文引用对象的分类是科技论文引用对象类别识别的基础。现有研究对于科技论文引用对象的分类有很多成果。Garzone M等[13]将引用对象划分为“材料、设备、工具”“公式”“方法、程序”等5个类别;张春博等[14]对一篇社会科学领域被撤销的论文进行解构,将引用对象划分为“概念、理论、方法、工具”等5个类别;Radoulov R[15]将引用对象分为“背景、历史工作、概念、方法、数据”等9个类别;张梦莹等[16]将引用对象划分“定义、方法、理论、工具”等10个类别;陆伟等[4]将引用对象的类别划分为“概念、方法、理论、工具”等11种。在已有研究中,部分引用对象的类别划分粒度较粗,识别出的内容难以突出其意义和作用;部分引用对象的类别划分粒度较细,人工识别过程的难度加大,识别结果的准确性降低。本文借鉴陆伟提出的11个类别的引用对象分类方案,考虑自动识别的准确度,将“方法、模型、算法”统一归为“方法”,最终将科技论文引用对象的分类方案确定为“概念、方法、理论、工具、应用、数据、公式、结果和未提及”9个类别。

科技论文引文功能的分类是科技论文引文功能识别的基础。已有研究对于引文功能的分类有很多成果。陆伟等提出了一个较小粒度的引文功能分类方法,将引文功能划分为“基于、启发、使用”等15类[4];尹莉等[11]将引文功能分为“使用、比较、批判、背景”4个大类,并分别对不同类别的功能进行详细解释;Bakhti K等[12]将引文功能划分为“基于、有用的、承认已有工作、比较、批判”等6类;Jurgens D等[17]选择自然语言处理领域的52篇文章进行标注,将引文功能分为“背景、使用、比较或对比、动机、扩展、未来展望”6个类别;Dong C等[18]将引文功能划分为“背景、基本概念、技术基础、比较”4类。已有引文功能分类体系在类别和数目上差别较大,本文在比较了这些分类体系后,认为尹莉的分类体系区分度较强,陆伟的分类体系更全面,但粒度较小,不易于自动识别。本文结合两位学者的分类方案,认为陆伟提出的“基于”功能和“启发、使用、拓展”3个功能有重叠。“详细引用、肯定”功能含义比较笼统,“启发、使用、拓展”也包含了这两个功能。“相似”功能可以包含在所有引文功能中,不具有区分度。“相关研究、简单引用、相关工作之间比较、历史背景”这几个功能可以被尹莉提出的“背景”这一引文功能所概括。因此,本文将科技论文引文功能分类方案确定“启发、使用、拓展、比较、背景、批判、未来工作”7个类别。901E1773-29E0-4DE9-B2FF-E1280F48292C

1.2 基于序列标注模型的实体关系联合自动识别方法

科技论文引用对象是可以概括性表达引文内容的实体,科技论文引文功能反映的是施引文献与引用对象的关系。科技论文引用对象和引文功能的自动识别可以借鉴实体关系自动识别的思路。已有多数实体关系识别的研究将实体和关系分开识别,存在忽略子任务模块之间的关联性及前一个子任务的错误顺延到下一个子任务等问题。联合识别是将实体和关系同时识别,这种方式避免了分开识别存在的问题[19]。本文借鉴实体关系联合识别的方式来进行科技论文引用对象和引文功能的联合识别。

序列标注方法用于实体关系联合识别的思路由Zheng S等[20]于2017年提出,目前已有很多学者运用这种方法进行研究,并取得了不错的成果。如Liu X Y等[21]将序列标注方法用于医学领域文本,实现了实体和关系的联合抽取;王仁武等[22]将序列标注方法用于抽取在线评论文本中的实体及其属性关系,实验证明,相较于传统的基于规则或一般的机器学习方法,该方法具有更大优势;马建红等[19]提出了联合抽取模型,对化学领域的资源实体及关系进行联合抽取;王一钒等[23]将古汉语的实体关系的识别转换为序列标注问题,并取得了较好的效果;唐晓波等[24]将利用序列标注模型对金融文本中的实体及其关系进行联合抽取。

本文采用序列标注的方法实现科技论文引用对象和引文功能的联合自动识别。科技论文引用对象和引文功能的识别依赖科技论文文本的语义信息,本文考虑结合深度学习方法,采用BERT-BiGRU-CRF序列标注模型,利用BERT模型的深层语义分析能力、BiGRU对于上下文语境的理解能力以及CRF的全局优化处理能力,对科技论文的引用对象和引文功能做联合自动识别研究。

2 科技论文引用对象和引文功能的联合自动识别方法模型

本文提出的科技论文引用对象和引文功能的联合自动识别方法模型包括4个部分,分别是科技论文引文内容的获取、科技论文引文内容的序列标注、基于BERT-BiGRU-CRF模型的引用对象和引文功能的联合自动识别以及引用对象和引文功能识别结果三元组表示。模型如图1所示。

2.1 科技论文引文内容的获取

科技论文引文内容的获取包括以下步骤:

1)科技论文全文本的采集及清洗。从知网数据库下载科技论文全文的PDF文件,利用Python语言将论文全文PDF转化为TXT格式的文本,保留引用标记“[]”,剔除少数文本内容不全的论文文本。

2)科技论文引文内容的获取。引文内容是指文献正文中的引文句及其上下文[25],其中引文句是指引用标记所在句。本文借鉴李卓等[25]和周好等[26]的做法,将引文上下文确定为引文句的前两句和后两句,5个句子共同组成科技论文的引文内容,帮助识别科技论文的引用对象和引文功能。本文采用句号將科技论文文本切分为句子,利用正则匹配引用标记的方法获得科技论文引文句及其上下文,实现科技论文引文内容的获取。

2.2 科技论文引文内容的序列标注

本文在已有研究基础上确定科技论文引文内容的标注方法。人工标注时首先通过引文句判断句中的引用对象和引文功能,如果能够准确判断,则对引文句这一句话进行标注;如果通过引文句无法准确判断,则进一步查找引文句的上下句,直到找到能够准确识别引文句中的引用对象和引文功能的句子,并对这些句子进行人工标注。句中的每一个字都赋予一个标签,标注示例如图2所示。

2.2.1 引用对象和引文功能的标注

1)引用对象的标注

本文引用对象的标注是指引用对象名称和引用对象类别的标注。在前文确定的9个类别的引用对象中,本文实验部分将考虑选择概念、理论、方法、工具这4类被学者纳入分类框架最多的引用对象进行方法模型的验证,借鉴陆伟和已有研究对这4类引用对象的定义,确定4类引用对象的标注方法。引用对象的标注描述(部分)如表1所示。

2)引文功能的标注

在前文确定的7个类别引文功能中,本文实验部分将考虑选择“使用”“背景”和“批判”这3类最具区分度且被学者纳入分类框架最多的功能进行本文方法模型的验证,借鉴陆伟和尹莉对这3类引文功能的定义,确定3类引文功能的标注方法。引文功能的标注描述(部分)如表2所示。

2.2.2 标签类型

本文提出的标签包含3部分,依次是引用对象边界、引用对象类别和引文功能。对于引用对象边界标签,本文采用“BIO”标签对引文内容进行字粒度的标注,其中,B表示引用对象的头部,I表示引用对象的中部或尾部,O则表示该句中其他部分。

引用对象类别标签由本文预先定义的类别来确定,由每种类别英文单词的前3位大写字母作为对应标签。引文功能标签由数字“1”“2”和“3”表示,其中数字“1”表示引文功能是“使用”,数字“2”表示引文功能是“背景”,数字“3”表示引文功能是“批判”。部分引用对象和引文功能的标签类型如表3所示。

2.3 基于BERT-BiGRU-CRF模型的引用对象和引文功能的联合自动识别

本文的科技论文引用对象和引文功能联合识别是指将科技论文引用对象和引文功能同时进行识别,解决了将两者分开识别存在的错误在任务间传递,无法更全面揭示文献间引用关系实质[4]等不足。本文采用BERT-BiGRU-CRF模型,将科技论文引用对象和引文功能的联合自动识别问题转化为序列标注问题,模型的结构如图3所示。整个模型依次由BERT层、BiGRU层和CRF层3部分组成。句子首先输入BERT预训练语言模型层获得科技论文引文内容每个字基于上下文计算的向量表示,然后使用BiGRU提取前后上下文时序特征,得到科技论文引文内容每个字对于各引用对象和引文功能标签的非归一化概率分布,最后运用CRF层考虑相邻标签间依赖关系的优势,获得全局最优的标记序列[30]。901E1773-29E0-4DE9-B2FF-E1280F48292C

2.3.1 BERT词向量层

BERT(Bidirectional Encoder Representations from Transformers)是一个语言表示模型,由Devlin J等[31]在2018年提出。相较于传统的语言模型,BERT模型使用了双向Transformer结构,在预训练阶段还使用了遮蔽语言模型(Masked Language Model,MLM)以及下一句预测(Next Sentence Prediction,NSP)两个任务进行联合训练。

Transformer的本质是一个Encoder-Decoder模型[32],Transformer中的编码单元主要由自注意力模块和前馈神经网络模块构成,其中注意力模块是编码单元中最重要的结构,该模块的核心目标是从众多信息中选择出对当前任务目标更关键的信息。BERT使用的双向Transformer结构可以更好地融合上下文信息。预训练阶段的遮蔽语言模型任务是指随机抹去一句话中15%的词,要求模型根据剩余词汇预测被抹去的部分;下一句预测任务的实质是一个二分类问题,在实际预训练过程中判断两个句子是否是连续的。两个任务的联合训练使模型输出的每个字的向量表示都尽可能全面、准确地刻画输入文本的整体信息,适用于本文的任务。

2.3.2 BiGRU层

门控循环网络(Gated Recurrent Unit Networks,GRU)在2014年由Cho K等[33]提出,是一种特殊的循环神经网络。循环神经网络(Recurrent Neural Network,RNN)的递归结构对于本文需结合文本语义识别实体关系的任务十分有效。但RNN模型在对长序列进行学习时会出现梯度消失(Gradient Vanishing)和梯度爆炸(Gradient Explosion)现象[34],无法掌握长时间跨度的非线性关系。在普通RNN的基础上,GRU有效解决了长期记忆和反向传播中的梯度等问题。相较于RNN的另一个变体LSTM(Long Short-Term Memory Network),GRU以更简化的门控单元达到和LSTM相当的功能,简化了训练的成本,提升了训练速度。

BiGRU(Bidirectional Gated Recurrent Unit Networks)是由两个单向、方向相反GRU组成的双向门控循环网络,可以分别处理正序和逆序的语言序列,再将处理结果进行合并[35],综合考虑了上下文语义。科技论文引用对象和引文功能的识别依赖于引用对象所在引文句及其上下文的语义信息,而BiGRU模型能够兼顾文本的上下文语义,避免了单向结构会造成的信息缺失的问题,适用于本文的研究。

2.3.3 CRF层

CRF(Conditional Random Field)是自然語言处理的基础模型,其作为无向图模型下的一种马尔可夫网络,在通过自定义特征模板的同时,通过实体左右两边的边界特征以及内外部多重信息等,采用丰富特征集的办法来提高识别精准度,从整体上考虑句子前后的标签信息。在文本词向量经过BiGRU层后,BiGRU层对标签间的依赖关系的欠缺考虑可能会导致实体标签的混淆。例如,实体边界标签“I”本应当出现在“B”之后,但预测的标签结果出现“I”标签在“B”标签之前的情况;或在同一个实体中,每个字的类别标签、引文功能标签应当是一致的,但预测的标签结果出现不一致的情况。此时模型中的CRF层结合句子前后的标签特征,对以上可能出现的情况进行规避,对整体标签进行全局优化处理,最终输出每个字对应的最优标签。

2.4 引用对象和引文功能识别结果的三元组表示

本文将模型正确识别出的科技论文引用对象和引文功能表示为3个三元组,包含引文功能三元组,引用对象文献三元组和引用对象类别三元组。3个三元组共同表达科技论文引用行为,揭示引用关系实质。引文功能三元组表示为(施引文献,引文功能,被引文献),表达了施引文献和被引文献间的引用关系;引用对象文献三元组表示为(引用对象,Part-of,被引文献),表达了引用对象和被引文献间的包含关系;引用对象类别三元组表示为(引用对象,ISA,引用对象类别),表达了引用对象的类别属性。

引用对象和引文功能的正确识别须同时包含3个条件:首先,引用对象的实体标签完整且实体边界标签符合“B”为头部“I”为非头部;其次,同一个引用对象每个字的引用对象类别标签都相同且正确;最后,同一个引用对象每个字对应的引文功能标签都相同且正确。本文的引用对象和引文功能三元组的表示思路如下:

1)通过引用对象实体边界标签获取每个引文句中模型自动识别的引用对象,判断引用对象类别和引文功能是否均标注正确。

2)保留正确标注的引用对象实体,将引用对象和引文功能标签拆分为实体边界、引用对象类别和引文功能3个部分,根据前文确定的标签得到引用对象名称、引用对象类别和引文功能。

3)根据前文确定的引用对象和引文功能的三元组表示方法,得到引用对象和引文功能三元组。

3 实验与结果分析

3.1 数据采集与处理

本文选取《FMS管理科学高质量期刊推荐列表》中5本中文图情领域期刊作为数据来源,分别是《中国图书馆学报》《情报学报》《图书情报工作》《图书情报知识》以及《数据分析与知识发现》。从知网数据库下载5本期刊2021年上半年发表的PDF格式的论文全文190篇,共包含参考文献6 832篇;利用Python将期刊论文全文PDF转换为TXT格式;利用正则表达式匹配引用标记的方法,获得科技论文的引文内容6 852条。本文随机选取了1 145条引文内容进行人工标注,构建实验数据集。平均每条引文内容83.75字,其中915条引文内容作为训练集,230条引文内容作为测试集。实验样本标签分布如表4所示。901E1773-29E0-4DE9-B2FF-E1280F48292C

本文由两名具有领域知识的专业人员结合引文内容对科技论文中的引用对象和引文功能进行标注,初步筛查后去掉了样本数量过少的CON-3、THE-3标签,最终保留21个标签。为验证人工标注结果的一致性,本文随机选取300条标注数据进行Kappa系数[36]的一致性检验。Kappa系数的计算方法如式(1)。

K=P(A)-P(E)1-P(E)(1)

其中P(A)表示标注结果一致性的实际值,P(E)表示标注结果一致性的期望值。本文计算得到两位标注者标注结果的Kappa值为0.821。根据Carletta J[37]给出的一致性参考指标,本文的人工标注结果十分可靠。对于不一致的标注结果,由两名标注人员探讨后确定最終的标注方式。

3.2 实验过程

本文使用BERT-BiGRU-CRF序列标注模型验证引用对象和引文功能自动识别方法的有效性。随机选取实验样本数据的80%作为模型的训练集,20%作为模型的测试集,并从训练集中随机选取10%作为验证集用于模型超参数的调整。BERT-BiGRU-CRF模型采用了Google提供的BERT-Base、Chinese版本,模型训练阶段选取的主要超参数(部分)如表5所示。

此外,本文采用了BiGRU-CRF和BERT-BiLSTM-CRF模型与本文提出的序列标注模型进行对比。BiGRU-CRF模型由BiGRU层和CRF层组成。BERT-BiLSTM-CRF模型由BERT层、BiLSTM层和CRF层3部分组成。BiGRU、CRF和BERT原理如前文所述。双向长短时记忆网络BiLSTM(Bidirectional LSTM)由前向和后向长短时记忆网络LSTM组成。LSTM是循环神经网络的一种变体,与RNN相比,其在隐藏层的神经元中加入特别设计的记忆单元,对输入值进行遗忘、更新和保存后输出,有效解决RNN在训练中由于序列过长而产生的梯度弥散和梯度消失问题[38]。BiGRU-CRF模型用以对比BERT预训练语言模型在本文任务中的效果。BERT-BiLSTM-CRF模型用以对比循环神经网络变体的效果。

3.3 实验结果与分析

本文使用分类问题中常用评价指标:精确率(Precision)、召回率(Recall)、F1值(F1-score)对本文的模型训练结果进行评价。精确率是指预测为正的样本中实际为正的占比;召回率是指实际为正的样本中被预测为正的占比;F1值是调和平均数,综合指标P与R。3个指标的计算方法见式(2)~(4)。

P=TPTP+FP×100%(2)

R=TPTP+FN×100%(3)

F1=2PRP+R×100%(4)

其中,TP是指预测为正,实际为正;FP是指预测为正,实际为负;FN是指预测为负,实际为正;TN是指预测为负,实际为负。

实验使用测试集对本文提出的模型以及对比模型进行试验,引用对象、引文功能、引用对象和引文功能联合识别在不同模型下的精确率、召回率、F1值如表6所示;引用对象和引文功能联合识别正确三元组(示例)如表7所示;引用对象和引文功能联合识别错误三元组(示例)如表8所示。

引用对象和引文功能联合识别正确是指3个部分的标签均识别正确的情况,即引用对象名称、引用对象类别和引文功能均识别正确。而模型训练结果可能出现引用对象和引文功能中的其中一个识别正确,而另一个识别错误的情况,例如引用对象名称和引用对象类别识别正确,但引文功能识别错误。本文将这种情况视为引文功能识别错误,但引用对象识别正确。

表6的训练结果表明,本文使用的方法模型在引用对象和引文功能的识别中取得了较好的效果,引用对象、引文功能、引用对象和引文功能联合识别的F1值分别为71.78%、68.33%、64.23%。对比本文模型与BiGRU-CRF模型,引用对象、引文功能、引用对象和引文功能联合识别的F1值分别提升了22.90%、20.89%、23.33%,相较于传统的字向量表示方法,BERT模型对于本文的任务更有优势;对比本文模型与BERT-BiLSTM-CRF模型,本文模型在同等条件下以更简单的结构达到了更好的识别效果。

对比引用对象和引文功能的联合识别与分开识别结果,联合识别结果略低于两者分开识别结果,但在本文模型和对比模型中,引用对象和引文功能联合识别与两者分开识别得到的F1值相差均不超过8%。本文模型的联合识别任务能更高效地达到与分开识别任务差别不大的结果。实验结果初步验证了本文模型对于引用对象和引文功能联合自动识别的有效性。

表8呈现了模型联合识别错误的示例。句1中是引用对象类别识别错误,模型将“扎根理论”这一方法识别为理论;句2中是引用对象名称识别错误,模型将句中“可视化方法”这一非引用对象的方法实体错误地识别为引用对象;句3中是引文功能识别错误,模型将引文功能由“背景”错误识别为“使用”。针对本文模型识别错误的情况,在后续研究中可以进一步扩充模型的训练样本,让模型更好地对不同语义下的引文句进行引用对象及其功能的自动识别。

4 结 语

本文提出了科技论文引用对象和引文功能的序列标注及联合自动识别方法模型,将科技论文引用对象和引文功能识别转化为序列标注的问题,利用BERT-BiGRU-CRF模型实现引用对象和引文功能的自动识别,最终得到引用对象和引文功能三元组,基于深层文本语义分析,解决了传统引文分析方法的不足,为科技论文学术价值的评价提供了参考意义。

本文的创新点在于:①提出了新的科技论文文本序列标注方法,将科技论文引用对象和引文功能的识别问题转换为序列标注问题;②利用BERT-BiGRU-CRF模型,基于深层文本语义实现了科技论文引用对象和引文功能的联合自动识别。实验结果验证了本文方法模型的有效性。901E1773-29E0-4DE9-B2FF-E1280F48292C

本文的研究依然存在著局限和不足。图情领域期刊论文引用对象中的方法较多,理论较少,标签样本中引用对象类型的不平衡影响了本模型的自动识别效果。在未来的研究中可以选择更多的学科领域,增加并且平衡标签样本,使模型达到更好的识别效果。

参考文献

[1]李润竹.科技论文类型与影响力的相关性研究[D].济南:山东师范大学,2021.

[2]姜霖,张麒麟.基于引文细粒度情感量化的学术评价研究[J].数据分析与知识发现,2020,4(6):129-138.

[3]马娜,张智雄,于改红.科技论文引用对象研究综述[J].图书情报工作,2019,63(23):139-145.

[4]陆伟,孟睿,刘兴帮.面向引用关系的引文内容标注框架研究[J].中国图书馆学报,2014,40(6):93-104.

[5]Qazvinian V,Radev D R.Scientific Paper Summarization Using Citation Summary Networks[C]//Proceedings of the 22nd International Conference on Computational Linguistics.Manchester:Association for Computational Linguistics,2008:689-696.

[6]章成志,徐津,马舒天.学术文本被引片段的自动识别研究[J].情报理论与实践,2019,42(9):139-145.

[7]Ma S T,Zhang C Z,Liu X Z.A Review of Citation Recommendation:From Textual Content to Enriched Context[J].Scientometrics,2020,122(3):1445-1472.

[8]Khalid A,Khan F A,Imran M,et al.Reference Terms Identification of Cited Articles as Topics from Citation Contexts[J].Computers & Electrical Engineering,2019,74:569-580.

[9]马娜,张智雄,吴朋民.基于特征融合的术语型引用对象自动识别方法研究[J].数据分析与知识发现,2020,4(1):89-98.

[10]陈颖芳,马晓雷.基于引用内容与功能分析的科学知识发展演进规律研究[J].情报杂志,2020,39(3):71-80.

[11]尹莉,郭璐,李旭芬.基于引用功能和引用极性的一个引用分类模型研究[J].情报杂志,2018,37(7):139-145.

[12]Bakhti K,Niu Z D,Nyamawe A S.Semi-Automatic Annotation for Citation Function Classification[C]//2018 International Conference on Control,Artificial Intelligence,Robotics & Optimization(ICCAIRO),2018:43-47.

[13]Garzone M,Mercer R E.Towards an Automated Citation Classifier[C]//Advances in Artificial Intelligence.Berlin:Lecturenotes in Computer Science,2000:337-346.

[14]张春博,丁堃,王贤文,等.全文引文分析视角下的造假论文学术影响研究[J].科学学研究,2021,39(4):577-586.

[15]Radoulov R.Exploring Automatic Citation Classification[D].Waterloo:University of Waterloo,2008.

[16]张梦莹,卢超,郑茹佳,等.用于引文内容分析的标准化数据集构建[J].图书馆论坛,2016,36(8):48-53.

[17]Jurgens D,Kumar S,Hoover R,et al.Measuring the Evolution of a Scientific Field through Citation Frames[J].Transactions of the Association for Computational Linguistics,2018,6:391-406.

[18]Dong C,Schfer U.Ensemble-style Self-training on Citation Classification[J].International Joint Conference on Natural Language Processing,2011:623-631.

[19]马建红,魏字默,陈亚萌.基于信息融合标注的实体及关系联合抽取方法[J].计算机应用与软件,2021,38(7):159-166.

[20]Zheng S,Wang F,Bao H,et al.Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme[C]//Proceedings of the 55th Annual Meeting of the ACL.Stroudsburg,PA:ACL,2017:1227-1236.901E1773-29E0-4DE9-B2FF-E1280F48292C

[21]Liu X Y,Liu Y,Wu H Y,et al.A Tag Based Joint Extraction Model for Chinese Medical Text[J].Computational Biology and Chemistry,2021,93:107508.

[22]王仁武,孟现茹,孔琦.实体—属性抽取的GRU+CRF方法[J].现代情报,2018,38(10):57-64.

[23]王一钒,李博,史话,等.古汉语实体关系联合抽取的标注方法[J/OL].数据分析与知识发现:1-18[2021-08-19].

[24]唐晓波,刘志源.金融领域文本序列标注与实体关系联合抽取研究[J].情报科学,2021,39(5):3-11.

[25]李卓,赵梦圆,柳嘉昊,等.基于引文内容的图书被引动机研究[J].图书与情报,2019,(3):96-104.

[26]周好,王东波,黄水清.古籍引书上下文自动识别研究——以注疏文献为例[J/OL].情报理论与实践:1-10[2021-08-19].

[27]赵洪,王芳.理论术语抽取的深度学习模型及自训练算法研究[J].情报学报,2018,37(9):923-938.

[28]章成志,张颖怡.基于学术论文全文的研究方法实体自动识别研究[J].情报学报,2020,39(6):589-600.

[29]刘昆雄,秦顺,孔鹏,等.国内外高校图书馆科研数据管理工具应用现状调查——以部分“双一流”和世界一流大学图书馆为例[J].新世纪图书馆,2019,(6):67-72.

[30]吴俊,程垚,郝瀚,等.基于BERT嵌入BiLSTM-CRF模型的中文专业术语抽取研究[J].情报学报,2020,39(4):409-418

[31]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of Deep Bidirectional Transform-ers for Language Understanding[J].arXiv Preprint arXiv:1810.04805,2018.

[32]Vaswani A,Shazeer N,Parmar N,et al.Attention is All You Need[C]//Advances in Neural Information Processing Systems,2017:5998-6008.

[33]Cho K,Merrinboer B,Gülehre ,et al.Learning Phrase Representations Using RNN Encoder-decoder for Statistical Machine Translation[J].arXiv Preprint arXiv:1406.1078,2014.

[34]张尧.激活函数导向的RNN算法优化[D].杭州:浙江大学,2017.

[35]Schuster M,Paliwal K K.Bidirectional Recurrent Neural Networks[J].IEEE Transactions on Signal Processing,1997,45(11):2673-2681.

[36]Warrens M J.Chance-Corrected Measures for 2×2 Tables That Coincide with Weighted Kappa[J].The British Journal of Mathematical and Statistical Psychology,2011,64 (2):355-365.

[37]Carletta J.Assessing Agreement on Classification Tasks:The Kappa Statistic[J].Computational Linguistics,1996,22(2):249-254.

[38]Sundermeyer M,Schlüter R,Ney H.LSTM Neural Networks for Language Modeling[C]//Proceedings of the 13th Annual Conference of the International Speech Communication Association,Portland,USA,2012:601-608.

(責任编辑:陈 媛)901E1773-29E0-4DE9-B2FF-E1280F48292C

猜你喜欢
三元组自动识别类别
基于带噪声数据集的强鲁棒性隐含三元组质检算法*
特征标三元组的本原诱导子
关于余挠三元组的periodic-模
自动识别系统
金属垃圾自动识别回收箱
基于IEC61850的配网终端自动识别技术
服务类别
论类别股东会
兰姆凹陷稳频工作点自动识别技术
中医类别全科医师培养模式的探讨