基于多元神经网络融合的分布式资源空间文本分类研究

2020-02-13 09:17刘孝保陆宏彪阴艳超陈志成
计算机集成制造系统 2020年1期
关键词:分布式卷积神经网络

刘孝保,陆宏彪,阴艳超,陈志成

(昆明理工大学 机电工程学院,云南 昆明 650500)

0 引言

《国务院关于加快科技服务业发展的若干意见》明确提出了重点发展研究开发、技术转移、检验检测认证、创业孵化、知识产权、科技咨询、科技金融、科学技术普及等专业科技服务和综合科技服务[1]。我国科技资源分布复杂多样,科技服务系统众多,科技服务系统内部、与实体经济产业之间的组成与关系均很复杂,是典型的分布式资源巨系统。“互联网+”模式下的企业正试图通过“智能设备、智能系统、智能决策”实现与机器、设施和系统网络的全面融合,而这种机器、数据和人的新型连接模式迫切需要将科技资源与业务流程相结合,形成一种科技服务[2-3]。科技资源的文本分类问题是分布式科技资源按需服务的核心问题之一。

近年来,利用深度学习技术实现文本分类已经成为主流,是有效管理和深度挖掘文本的一种重要手段,文献[4]提出将卷积神经网络(Convolutional Neural Network, CNN)模型运用于文本分类任务中,通过选取不同大小的卷积窗口来捕获文本中不同视野下相邻词语间的关联特征,以提高文本分类性能;文献[5]针对序列数据的特点,基于当前节点状态对下一个节点状态的影响,提出了循环神经网络(Recurrent Neural Network, RNN)的特殊网络模型结构,有效解决了信息保存问题,即获取范围更广的文本特征信息。然而,在处理文本数据的实际过程中,使用RNN模型会导致文本中长距离的信息无法进行有效传递,造成远距离的梯度值非常小,从而丢失文本深层特征,由此出现了基于长短期记忆(Long Short Term Memory, LSTM)[6]和门控循环单元(Gated Recurrent Unit, GRU)[7]的特殊RNN模型,并在情感分析[8]、问答系统[9]、数据预测[10]等应用中显示出很好的效果。为了充分利用上下文信息进一步挖掘文本深层关联特征,文献[11]提出了双向循环神经网络(Bidirectional RNN, BIRNN)处理文本数据,并通过实验证明了该模型的有效性。目前,注意力机制在使用encoder-decoder结构进行神经机器翻译(Neural Machine Translation, NMT)过程中被提出来,可以动态学习不同任务下不同文本特征的重要程度,已经在深度学习领域获得广泛应用[12]。上述方法的资源文本分类体系大多以自身描述对象的所属工程领域作为分类标准,少量文献以基于语义识别的采样主题为分类标准[13]、以上下文信息中具有区分性的特征为分类标准[14-15]进行研究。然而鲜有文献针对实体产业用户的科技资源需求,以资源服务效应作为分类标准,从科技资源按需服务实体产业的视角对科技资源文本进行分类,进而实现实体产业用户对科技资源的按需共享和使用。

本文基于实体产业服务需求对分布式资源空间的文本分类方法进行了研究,通过需求—效应—资源的检索方式为产业用户提供产品研发过程中的效应知识,实现从定性科技资源需求到定量资源服务效应求解,再到对应的多个定性科技资源输出的映射变换。进而从分布式科技资源空间中快速准确地获取效应知识,提升产品研发效率和创新能力。本文从分布式科技资源按需服务实体产业的视角出发,以服务效应作为分类标准对资源文本进行分类,提出了基于多元神经网络融合的文本分类模型(CNN, BIGRU, Attention, 3C-BGA)。该模型融合了CNN模型和基于注意力(Attention)机制策略的双向门控循环单元(Bi-directional GRU, BIGRU),形成了包含词嵌入层、卷积层、BIGRU层、Attention层和softmax层的多元神经网络通路,重点解决了分布式科技资源局部和全局语义特征形式多样、文本长距离依赖特征显著、重要资源信息难以准确识别的问题,为更加全面地挖掘资源文本特征和按需服务实体产业提供了一种新的思路和手段。

1 分布式科技资源文本分类问题分析

1.1 分布式科技资源构成与特点

科技资源是一个以统一标准和规范为基础,包含不同层次、不同类型,相互联系、密切配合的资源库群,通过分散建库、统一提供,形成如图1所示的层次化、分布式科技资源体系。该体系采用分布式汇聚的方式,整合包括科技图书、科技期刊、科技报告、科技成果、专利文献、标准文献、学位论文等在基础科学研究与技术开发过程中产生的科技信息资源,以及在实际应用过程中产生的业务数据与业务流程等信息资源。因此,分布式资源空间涉及跨领域多学科知识库,这些知识、资源和数据种类繁多、形式多样、耦合互联,所有这些因素使得分布式科技资源具有如下特点:

(1)资源属性构成复杂 科技资源不仅涉及跨领域多学科的专业知识资源,如论文文献、专利情报、专业书籍、设计标准、参数规范、典型案例等,还包括实际应用过程中业务数据和业务流程资源,如结构数据、仿真数据、测试数据,设计流程、预测流程、服务流程等。科技资源空间中存在大量复杂异构资源文本,这些资源文本带来了海量无序、耦合互联的属性特征信息,如资源类别、资源量、关联状态、覆盖范围、贡献者、资源评价、资源所属单位、专家、地域,以及资源本身的属性特征,从而给实体产业业务需求中资源的搜索、配置和推送带来困难。因此,采用基于深度学习方法构建文本分类模型可以更好的利用词序信息,通过无监督自主学习文本的效应特征,提升文本分类可靠性。

(2)局部和全局语义特征形式多样 目前我国科技资源分布于全国各地、各行业和各单位,甚至部分经验参数、特殊案例等隐性科技资源分散于不同的人员个体,科技资源空间中大量的非结构化乃至碎片化信息来源多样,导致资源文本中局部和全局语义特征呈现异类异构的特点。因此,采取文本效应特征来调整神经网络结构,通过卷积提取资源文本局部特征,并在此基础上采用增强其记忆能力反映同类及异类资源文本中全局特征和整体分布情况,提高资源文本的分类质量。

(3)文本长距离依赖特征显著 科技资源大多为长文本数据,其中某些特征在文本中并不是相邻出现,它们具有一定的内聚性,能够结合在一起承担某些关联信息,从而形成比较固定的框架结构。因此,通过双向循环神经网络增强学习效应特征的记忆能力,离散长距离文本中类间的资源文本,聚合类内的资源文本,进而高效地抽取长距离资源文本中语义相关信息,反映上下文特征之间的联系与影响。

(4)重要资源信息难以准确识别 科技资源不但字符数多,而且文本中蕴含多个主题。现有分类方法虽然可以管理一些数据,但大都与目标主题相关度不高,重要资源信息识别不明确。因此,基于融合卷积神经网络与双向循环神经网络的各自优点,采用注意力机制对所提取的资源文本效应信息分配不同权重,在聚焦更有价值信息的同时,减小无关或弱相关信息对最后文本识别准确度的影响。

1.2 基于服务效应的分布式科技资源描述

按需分配和使用知识资源的模式迫切需要将资源与业务流程结合,形成一种知识服务。基于服务效应的资源服务是根据资源需求,深入挖掘实现产品功能的技术或各项组件间存在的科学原理,进而主动推送与业务活动相关的各种科技资源,建立科技资源的顺畅流动通道,从而最大限度地保障企业知识资源的共享与按需使用。因此,在分析科技资源的属性构成、局部和全局信息关联及资源信息细节特征的基础上,本文设计了一种基于需求—效应—资源的分布式资源描述方法。

若用Si表示满足科技服务需求的某一服务效应,Di表示该效应对应的复杂科技资源文本,则有

Si={(D1,D2,…,Di)}。

用fi表示施加于科技服务效应Si上的科技服务需求,其推动服务效应的转移,则科技服务的效应转换过程可描述为:

由此,科技资源的服务效应可表示为

Ms={Sn,S0(Di)Di,(fi)fi}。

式中:v表示Di在变量约束下的值域;Z表示满足资源空间规范约束所允许的科技服务需求;S0,Sn分别表示服务效应的初始状态和目标状态。

用Sf表示分布式资源空间对应的服务功能,Pc表示资源空间中科技资源所描述的产品对象,则分布式资源空间的描述模型Cs可以表示为:

Cs=Sf,Ms,Pc。

复杂科技资源文本Di所支持的产业创新设计知识是从分布式资源空间Cs中获取产品设计的服务效应知识Sn,在明确了科技产业用户所需产品功能Sf后,其服务需求通常也能确定。通过深度学习方法构建从服务需求到具体资源的映射关系fi,以服务效应Ms作为分类标准,可以保障产品设计人员获得准确的效应知识,帮助产品创新的推理和具体创新方案的生成。

2 基于多元神经网络融合的资源空间文本分类模型

本文以资源服务效应作为分类标准,从分布式科技资源按需服务实体产业的视角对科技资源文本进行分类。通过构建集成融合卷积神经网络和Attention机制策略的BIGRU网络通路,建立3C-BGA文本分类模型,模型结构如图2所示。该模型中每种神经网络通路依据自身结构特点,能够提取科技资源文本中不同层次特点的服务效应特征。卷积层可以将长的科技资源文本输入序列转化为不同视野下局部效应特征组成的更短序列。BIGRU层用于捕获输入资源文本服务效应特征,反映上下文信息之间的效应关联与影响。引入Attention机制对BIGRU中每个输出向量施以不同大小的权重,体现出对重要效应信息的识别能力。最后通过softmax分类器输出结果,为实体产业用户提供可靠的效应知识资源文本。

2.1 卷积层特征提取

卷积神经网络最初在图像识别领域得到广泛的应用,由其特有的卷积、池化、全连接等结构层能从原始图像中过滤不同的非线性特征,有效避免了图像复杂的前期预处理工作[16]。在文本数据处理领域,卷积能够自主捕捉文本中词之间的语义相关特征,从而获得更好的分类效果。

首先词嵌入层采用词向量的方式将科技资源文本转化为易于神经网络处理的连续稠密序列数据,即得到一个I∈Rl×n的矩阵(l表示句子长度,n表示词向量维度)。以“驱动构件是装在输入轴上的偏心盘”这一句科技原文为例,进入词嵌入层前,句子以词为单位被切分为“驱动/构件/是/装/在/输入轴/上/的/偏心盘”,然后每个词经过词嵌入层转化为相同维度的词向量,再以词在原句中的位置拼接成矩阵,作为卷积层的输入。然后在卷积层中,多个W∈Rn×h的卷积核(n为词向量维度,h为卷积核窗口大小)在词嵌入层的输出矩阵上滑动,自动检测不同宽度视野下的文本效应特征mi。最后每个卷积核捕获的效应特征通过连接,得到卷积层的输出结果M,计算公式如下

mi=σ(W·Ii:i+h-1+b),

(1)

M=[m1,m2,m3,…,ml-h+1]。

(2)

式中:mi为卷积得到的第i个效应特征;Ii:i+h-1为第i个输入矩阵块;l为输入长度;h为卷积核窗口大小;σ为Sigmoid非线性激活函数;b为偏置项。

2.2 双向门控循环神经网络通路

门控循环神经网络是LSTM神经网络的一种特殊改变模型,相比于LSTM,其网络结构更简单、使用参数更少、训练速度更快,两者在多数情况下实际性能的表现相差无几[17]。GRU通过刻意的设计来实现记忆功能,可以更好地捕捉两个相距较远元素之间的依赖关系。GRU模型的内部结构如图3所示。

图3中,GRU单元只使用一个门结构准确控制数据的遗忘和选择记忆功能,大大减少了计算机硬件的计算能力和训练时间。假设xt表示当前节点的输入,ht-1表示t-1时刻节点传递下来的隐藏状态,包含了上一个节点的相关数据信息。利用xt和ht-1可以得到t时刻更新门zt和重置门rt的门控信号,更新公式如下:

zt=σ(Wzxt+Uzht-1)

(3)

rt=σ(Wrxt+Urht-1),

(4)

(5)

(6)

虽然GRU通过门的内部机制有效解决了RNN在处理长序列数据时出现的短期记忆问题,但只考虑了单方向过去的序列x1,x2,…,xt-1和当前输入xt的信息,忽视了反方向未来信息对当前t时刻的影响。对于处理长序列数据而言,同时依赖过去和未来两个不同方向的序列信息,而不必指定t时刻周围固定大小的窗口,对提高该时刻输出状态的精度具有重大意义。

因此,为了能充分利用科技资源文本数据上下文中更深层的效应信息特征,本文所提方法采用BIGRU。如图2所示,BIGRU层由一个从序列起点前向传递学习的GRU单元与另一个从序列末端反向传递学习的GRU单元组合而成,其中每个GRU单元对输入的序列数据xi=[x1,x2,…,xt,…,xn]TRn分别按照正反两个传递方向进行处理,然后t时刻输出的隐藏状态ht由正反两个不同传递方向的输出结果共同决定,计算公式如下:

(7)

2.3 基于资源服务效应的Attention机制模型

Attention机制的核心思想是受人类视觉系统所具有的选择性视觉注意力启发,一直被广泛运用于自然语言处理、图像或语音识别等各种不同深度学习模型中,是近年来深度学习中最值得关注的算法之一[18]。在浏览文章时,人们通常会利用有限的注意力从大量信息中快速聚焦和获取关键细节信息,从而忽略大多无用信息以提高视觉信息处理的效率与准确性。将Attention机制引入文本分类模型后,每个文本序列数据中的关键信息将会被分配不同大小的概率权重,使一些词语可以获得更多的关注,从而提高该隐藏层获取的文本特征质量。基于资源服务效应的Attention机制模型结构如图4所示。

该模型以BIGRU层作为编码器对经过文本预处理后的序列数据xi=[x1,x2,…,xt,…,xn]T进行编码,获得正反传递方向下的最终隐藏状态hi=[h1,h2,…,ht,…,hn]T,然后在隐藏层中引入Attention机制,学习获得注意力概率分布值ai=[a1,a2,…,at,…,an]T,其核心思想是计算隐藏层输出与整个文本表示向量的对齐关系,计算公式如下:

(8)

(9)

通过得到的注意力概率分布值at,可计算出包含文本中资源服务效应的特征向量ct,最后经过softmax分类器实现效应知识分类。ct的计算公式为:

(10)

3 实验分析

3.1 资源数据准备

为验证采用基于多元神经网络融合的3C-BGA模型进行分布式科技资源文本分类的效果,本文以资源空间中的专利科技文献为对象进行实验。从实体产业用户的视角来看,专利资源中所蕴含的效应知识对提升企业产品创新能力具有重要的推动作用,专利效应知识中包含了实现特定设计目标的功能原理和结构信息,可为用户产品研发提供准确的效应知识,提高产品研发效率。本实验采集了资源空间中万方科技资源2017~2019年间的部分中文机械类专利文档(5 320篇)构建语料库,并选用离心效应、摆动效应、虹吸效应、弹性变形和热效应5种效应作为分类标签。首先分析每篇专利内容并根据效应知识做好分类标注,为保证实验结果的稳定性,所有语料数据均随机打乱,按照7∶3的比例将数据集划分为训练集和测试集。具体划分的数据集结果如表1所示。

表1 训练与测试数据集统计

3.2 资源数据预处理

原始科技资源文本Di格式复杂,无法满足多元神经网络对数据的要求,因此需要对资源文本进行预处理,将文本数据数值化。文本预处理的主要步骤如下:

(1)中文分词 由于基于字的特征粒度会丢失过多“n-gram”信息,在文本表示之前需要对文本数据进行分词处理。为更多地提取文本中特征值对比的词组,本实验首先借助自行编纂的机械领域分词字典,再利用Python库中Jieba分词工具包进行精确模式分词。

(2)去停用词 去停用词是指去除一些对文本分类无意义的高频词,目的在于过滤文本冗余,提高文本分类的准确率。

(3)文本表示 文本表示的目的是将完成分词、去停用词后的文本进行向量化,转化成便于计算机处理的数字形式,是保证文本分类质量最重要的部分。本文通过Word2vec算法对完成分词和去停用词步骤的文本数据进行预训练,并生成指定维度的向量词典,然后按照文本中的序列顺序将输入文本替换为对应的词向量形式。

3.3 实验环境搭建与参数设置

本文以PC为硬件基础,Windows7系统为操作平台,采用支持GPU和以Tensorflow为后端的keras平台作为深度学习引擎,使用Python语言编程实现,相比于CPU、GPU更适合用于神经网络通路大量的并行重复运算,可以有效提升模型训练速度。

神经网络模型的参数设定对最后的分类结果有直接影响,本实验通过不断调整网络结构,遍历多种参数组合,采用交叉验证的方式确定最佳模型参数。表2所示为实验模型中的部分参数设置。

表2 实验模型中部分参数设置

续表2

3.4 实验结果与分析

为评估3C-BGA模型的性能,在相同数据集上基于3CNN模型、GRU模型、3CNN-BIGRU模型、BIGRU模型、BIGRU-ATT模型和3C-BGA模型进行实验对比。其中:3CNN模型由窗口大小为3、4、5 3种不同卷积核组合而成;3CNN-BIGRU模型由1条3CNN通路和1条双向GRU通路拼接融合;BIGRU-ATT模型为引入注意力机制的BIGRU网络通路;3C-BGA模型为本文提出的多元神经网络融合模型,具体分类结果如表3所示。实验得到不同模型在测试集上准确率(precision)与迭代次数(epochs)之间的关系,如图5所示。

表3 各分类模型的分类结果

在结果评估上,本实验采用准确率P、召回率R和F1值(F1-score)作为模型性能的评价指标。由表3可以看出,基于相同数据集上的3CNN模型比GRU模型准确率P提升了2.8%,召回率R提升了2.53%,F1值提升了2.65%,这是因为不同视野下的一维卷积可以捕获更多的数据特征,而且计算代价相比GRU要小很多,因此分类效果相对较好;而BIGRU模型相比3CNN模型准确率P提升了2.99%,召回率R提升了2.7%,F1值提升了2.85%,从模型角度来看,其原因在于BIGRU可以融合前向与后向信息之间的关联特征,而3CNN虽然可以获取句子的局部特征,但缺乏对全局信息的捕获能力;融合注意力机制的BIGRU模型通过分配不同大小的注意力权重,以获取更多所需要关注目标的细节信息,从而提高文本识别能力,使得BIGRU-ATT模型相比BIGRU模型准确率提升了2.35%,召回率提升了2.12%,F1值提升了2.23%;3CNN-BIGRU模型借鉴了文献[19]的模型思想,首先通过卷积操作对文本数据中位置不变的局部特征进行采集,然后再利用BIGRU来捕获长距离依赖信息。由实验结果可见,3CNN-BIGRU模型的准确率较上述单一神经网络模型分类效果更好,准确率为87.25%,召回率为78.79%,F1值提升了82.80%;本文所提出的3C-BGA模型相比于3CNN-BIGRU神经网络模型在相同条件下准确率提升了1.4%,召回率提升了1.21%,F1值提升了1.31%,说明通过多元神经网络的融合可以学习到数据集中更为深层的效应知识特征,有效提升文本识别能力。

为进一步探索词向量维度对模型的影响,分别在不同模型中取100、200、300和400 4个不同词向量维度对3C-BGA模型进行实验对比,表4所示为不同词向量维度下3C-BGA模型的分类结果对比。图6所示为不同词向量维度下3C-BGA模型的准确率与迭代次数之间的关系。

表4 不同词向量维度下3C-BGA模型的分类结果对比

从实验结果可以看出,随着词向量维度的增加,模型的分类效果有所提升,这是因为更高维度的词向量可以携带更多的效应特征,更准确地区分词之间的语义信息,从而提高模型分类性能。词向量维度从100维增加到300维的过程中,模型的分类准确率明显上升,其中最高准确率相差约4%;而取词向量维度为400后,准确率曲率上升平缓,最终分类效果与300维度比较差异并不明显。因此,针对语料库文本信息,词向量维度设置为300更为合适。

通过以上实验结果分析可以看出,多元神经网络融合的分布式资源空间文本分类模型在取词向量维度为300的情况下与相同条件的传统神经网络模型相比,对文本类别的识别能力更好。同时,通过对不同维度3C-BGA模型的分类结果进行对比,进一步揭示了词向量维度对模型的影响。

3.5 工程应用

为验证本文所提分类方法在进行产业资源服务中的实际应用效果,将基于多元神经网络融合的分布式资源空间文本分类方法进行服务封装,依托科技资源服务平台,采用基于需求—效应—资源的分类方法为产业用户提供产品研发过程中的效应知识。平台主要以Eclipse作为集成开发环境,利用SQL构建平台数据库,集成采用Java、XML、JavaScript、VRML等语言开发文本分类资源服务组件。如图7所示,针对金属切屑处理问题,确定产品设计功能需求,结合效应关联图中的主体效应,最终确定采用离心效应对专利资源进行分类,为研发人员提供符合产品功能设计需求的技术方案。

4 结束语

本文设计了一种基于多元神经网络融合的分布式资源空间文本分类模型,服务于实体产业用户对科技资源的实际需求,并利用科技资源中的专利资源数据进行验证分析。其特点在于:一方面通过选取3种不同尺寸大小的卷积核以捕获不同视野下科技资源文本的局部特征,同时融合引入Attention策略的BIGRU网络来实现资源文本深层效应特征的自动提取,减少对人工的依赖;另一方面,较于常规的文本分类,选取服务效应作为分类标准更加符合实体产业科技资源需求,为用户获取正确的效应知识,助其在产品研发过程中产生新的创新原理或技术方案。为了使文本信息更具有代表性,下一步将使用其他类型的科技资源文本进行模型验证,如资源空间的期刊、报告、会议、产品资料、技术档案等文献资源。对于分类模型,将进一步对算法、框架结构和模型参数进行改进和优化,提高模型性能。

猜你喜欢
分布式卷积神经网络
基于3D-Winograd的快速卷积算法设计及FPGA实现
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析
基于傅里叶域卷积表示的目标跟踪算法
分布式光伏热钱汹涌
分布式光伏:爆发还是徘徊
基于神经网络的拉矫机控制模型建立
基于DDS的分布式三维协同仿真研究