基于深度学习的专利自分类模型设计

2020-11-25 23:19庄良源

电子技术与软件工程 2020年24期

庄良源

（福建省南安市市场监督管理局福建省南安市 362300）

1 序言

专利是衡量一个国家创新能力的重要标准，在各行各业都起着重要的知识产权的保护作用。分类检索系统是专利系统重要组成部分，一方面通过分类检索系统能够有效的节约研究者的搜集时间，另一方面也能通过精准的检索标签为研究者提供最新的研究方向。传统的专利子分类模型是采用机器学习方式，在准确率方面一直都有所不足，面对复杂的文本有些捉襟见肘。而深度学习能够应对复杂文本类型，是当前专利自分类模型新的研究方向，本文基于多标签分类、专利文本和大样本数据处理等问题进行研究，使用深度学习中的卷积神经网络来对专利自分类模型进行研究，希望能为相关模型的构建提供参考。

2 专利文本分类技术

专利文本分类技术可以分为文本输入、文本预处理、文本表示、分类器和类别输入。利用计算机技术对现有的文本特征进行提取，转变为可视化的特征值，进而转换为专利的类别值后输出。所以专利文本技术本质是在挖掘专利文本的所属特征信息，然后基于训练分类模型去学习各个类别专利的相应特征，最后进行表述性的判断[1]。

2.1 专类文本预处理

首先是针对专利数据集中的标题、摘要等信息进行相应的文本提取，对其中所出现的网络符号和乱码等文字进行清理，然后是对文本进行分词，保证文本的词语变成有序文本，方便下一步提取文本的特征词，同时去除文本的停用词，最后将文本的转化成分类器能读取的数值形式。其中分词是保证文本处理质量的关键步骤，相较于英文的自然分割，汉语的分词步骤显然更加复杂，基于汉语特殊的表现形式，当前研究人员将中文专利分词算法分为四个类型：

2.1.1 基于词典的机械方法

基于词典的机械方法是针对字符进行匹配，在进行分词之前导入相关词汇的大辞典，按照相应的算法将带分词的文本与词典中的词条进行匹配，进而确定文本的词语，导出分词结果。通常基于词典的机械方法有双向匹配算法和正向最大匹配算法，在实际应用中两者分别确定分词算法的扫描方向和文字长度[2]。

2.1.2 基于统计的方法

基于统计的方法是针对专利文章中的字词出现频率进行统计，如果相邻的字出现越多，其成为一个分词的概率越大。因为缺少大词典的匹配过程，所以基于统计的方法在应用之前需要进行相应的人工分词，利用分词模型对此类算法进行训练。[3]通常此类算法包括N-gram 模型、隐马尔科夫模型和条件随机场算法，其优势在于训练过程简单，能有效地提高分词效率，但是缺点在于计算的复杂度较高，传统的计算方式花费的代价较大，所以本文采用深度学习的方式来设计此类算法。

2.1.3 基于语义的方法

基于语义的分词方法是模拟人对于中文词句的理解来进行分词，能够自动对中文词句的整体信息进行解读和推理。但是需要不断的对此类算法进行词汇补充，现有的技术实现此类分词算法较为困难，所以暂不在讨论之列。

2.1.4 基于字标注的方法

基于字标注的分词方法是指不依靠大词典，而是依靠文本的构词进行分词，基于词句中的关键信息来对文本进行解构，将构词在文本中标注出来，通过构词的位置对现有子串和字符进行分词，将分词过程转变为字在子串中的标注过程。

2.2 专类文本分类方法

专利文本的表示方法是指将专利预处理后的文本记过表示为数值形式。在文本预处理之后，需要将分词结构转化为特征词，然后将特征词转化为数值形式，这一方面能够减少文本的工作量，另一方面能够明确文本住址。常用的几种文本表示方法有词频-逆文档频率算法、N-Gram 模型和word2vec 模型[4]。

2.3 卷积稀疏编码

卷积稀疏编码是基于卷积神经网络结构的一种无监督学习方法，可以将卷积稀疏编码结构分为卷积神经网络结构和稀疏编码两部分。首先是稀疏编码，稀疏编码的最主要特征是将元特征空间映射到稀疏表示，从而提升计算机视觉性能。但是稀疏编码应用到文本识别技术需要给一个特定的样本进行输入，从而完成线性组合的超完备字典表示。这就需要卷积神经网络提供相应的输入数据空间位置信息；其次是卷积神经网络，卷积神经网络结构包含了池化采样层、卷积层和全连接层三种不同类型的层。卷积神经网络在针对输入数据空间位置信息方面有着良好的表现，此结构的三层能够依次完成输入样本的特征表示、特征表示的平移和提取抽象特征三个步骤。同时应用到特征词处理工作时，能够凭借线性修正单元的深度神经网络单元函数优势进行速度的提升，同时卷积层的存在还能够构建出两个不同模式的非线性映射，进而完成特征转换工作。同时还能够引入时间概念来对卷积神经网络的多个平台进行数据处理，进而完成时间域和空间域的互补。文本识别系统可以分为检测模块、对准模块和识别模块，其中检测模块主要是针对文本进行检测，对文本信息进行基础的收集，同时也为后续的对准和识别奠定基础；对准模块是针对文本特征词和实现模板的对其工作，同时避免文本特征词因一系列其他因素而出现变形等情况；识别模块是指对文本特征词进行识别，进而完成个人身份的识别。基于上述三个模块可以看出文本识别的任务主要在于文本辨识和文本验证，基于卷积稀疏编码的文本识别系统可以很好地完成此类文本识别任务。本次试验的测试库为国际公开测试库，保证不同算法之间的对比，进而达成直观的对比效果。其中最主要的测试平台为AR 数据集，进而对基于深度卷积稀疏编码文本识别算法的鲁棒性和识别性能进行研究。

3 基于深度学习的专利自分类模型

3.1 词向量模型

从上述介绍可以看出，卷积神经网络具有很强的特征提取能力，所以基于卷积神经网络对现有的专利子分类模型进行设计，最重要的一步就是建立相应的词向量模型，为专利自分类模型的学习模式提供基础的模板。因为卷积神经网络能够增加相应的网络深度和激活函数的进程优化，所以在整体识别率方面要远高于传统的文本分类方式。与一般的数据识别相比，专利数据识别具有其自身的特征，即专利数据序列中的字符与字符相关。循环神经网络可以利用序列间的关系来预测当前字符。卷积神经网络一般是由五个卷积层构成的，本章节提到的措施是将它的每一个卷积层后面都加上一个池化层和一个激活层，并且将它的主要结构改为由三个卷积层组成。最后在卷积神经网络的最后一层的基础上将最后一层的feature dimension 进行了转换，以便于长短时记忆网络层的计算。典型的卷积神经网络可以分为特征提取、类标预测和交叉嫡监督函数三部分。典型的卷积神经网络结构特别适合用于分类任务，属于一种端到端的模型。这类模型下，学习出来的深度特征呈可分性，能够通过分类器区分开来。特征的可分性指的不同类别的特征能够通过分类器区分开来，这里提到的分类器可以是线性的或者非线性的。而特征的判别性指通过特征之间的相互关系就能够进行类别判断。具体可以分为以下几个步骤：

3.1.1 CNN+LSTM 深度神经网络算法的信息提取

经过前面的文本上传和文本预处理之后，便可以调用数据识别模块的CNN+LSTM 深度神经网络算法来提取文本中的数据信息。

3.1.2 数据识别功能

卷积神经网络中的数据识别方法将文本中分割出来的数据与字符库中的数据进行相似度匹配，所以还需要与待识别内容相匹配的字符库。本文所研究的基于卷积网络神经的专利文本数据识别方法中主要识别的还是中数据符，所以只需要将下载的中数据符库安装在指定目录下即可。

3.1.3 字符库训练功能

卷积神经网络可以识别大部分识别文本中的数据，但是因为专利文本字符比较复杂，识别起来经常会存在识别错误的情况，导致卷积神经网络自带的字符库识别的准确率不高，难以满足实际识别场景下的需求。为了提高卷积神经网络识别的准确率可以根据自己的需求训练出自己所需要的字符库来替代原字符库，即通过修正系统中识别错误的字，重新生成所需的文件字库，将其作为识别匹配的字符库。

3.2 基于深度学习的自分类模型

基于对深度学习中，卷积神经网络和循环神经网络的研究。本文提出了二维卷积神经网络结合双向长短时记忆网络所构成的深度神经网络模型。该网络模型能够从文本的句子到词进行特征学习，其中卷积神经网络负责提取专利文本中以句子为单位的特征值，双向长短时记忆网络负责提取句子特征融合后的词特征。这样的特征提取过程，符合人类的阅读习惯，也有助于神经网络对文本中的特征进行深度的挖掘。为了进一步提高模型的分类效果，模型中使用了基于词的注意力机制对双向长短时记忆网络的输出词特征进行了加权，将模型的注意力集中在对文本贡献度更高的特征向量上。

该二维深度神经网络的具体算法可以描述为：

输入：专利文本

输出：专利类别值

步骤一：在专利文本预处理时，在去停用词时，保留其中的断句标点符号，如“。”，“;”等。

步骤二：将文本分句，每个专利文本划分为包含1000 词的15个句子，其中词不够的自动补零。

步骤三：对句子词向量化，根据预先训练得到的词向量库，将句子中的每个词对照词库转化为词向量，将专利文本转化为句子二维矩阵。

步骤四：使用搭建好的CNN2d 模型进行特征提取，其中卷积核的大小设置为3*3，维度根据词向量设置为300 维，池化层的大小为2*2。得到专利文本的句子特征向量。

步骤五：将句子特征向量进行维度转换，从二维特征向量降为一维特征向量，成为由每个句子中的特征组成的词特征向量。

步骤六：使用双向LSTM 对词特征向量进行进一步的学习，提取出其中的关键词特征，其中隐藏神经元设置为128，Dropout 值为0.20

步骤七：使用注意力机制对双向LSTM 中提取的词特征进行加权。

步骤八：根据深度神经网络的输出信息，在全连接层，利用Sigmoid 激活函数计算得到专利对应12 个类别的概率值。

为得到最佳的专利分类模型，在实验过程中将CNN2d 和加入注意力机制的CNN2d+Att，CNN2d+Bi-LSTM+Att 进行了对比实验，除了神经网络的不同，两个模型的其他实验参数都一致。后续笔者进行了相应的实验对比，从实验结果表中可以看出，CNN2d与双向LSTM 结合后的分类模型明显要优于CNN2d 的分类模型，CNN2d虽然善于提取局部特征但在处理文本信息时还是有所不足，提取的特征范围过大，导致分类的召回率不佳。并且添加注意力机制后的分类模型能够更好地掌握专利文本中的关键特征，从而有效提高模型效果。

4 总结

深度学习是专利文本自分类领域的重要研究方向，对其进行进一步研究不但能提高专利分类的效率，更能提高专利文本分类的准确程度，同时快速地构建起相关的预测模型。当然本次实验的研究也存在着许多的不足，虽然卷积神经网络在专利文本识别应用中存在的问题进行了分析，但仍不够深入，希望将来能有机会继续对专利自分类领域的问题进行研究，进而为我国相关领域的发展作出贡献。