一种基于深度学习的PDM文档自动审核算法

2018-06-14 11:52宁凌
计算机与网络 2018年10期
关键词:分词语句文档

宁凌

(中国电子科技集团公司第五十四研究所,河北石家庄050081)

0 引言

PDM是一种帮助工程师管理产品数据和产品研发过程的工具,作用是确保跟踪设计、制造所需的大量数据和信息的正确性,并由此支持和维护产品。针对不同阶段的工程设计需求,设计人员需按照标准模板输出文档并上传至PDM系统[1],通过相关管理人员的审核之后进行发布,作为产品设计及研发的依据。在操作过程中,技术文档和设计文档需要相关管理人员进行审核,大量的审核工作给审核人员带来了巨大的工作压力,降低了审核效率与准确率。随着人工智能技术的发展,可以利用深度学习[1]的方法,将文档审核人员的各类操作转化为知识,由机器自动对文档进行审核评判,降低审核人员的工作强度。

深度学习是指通过多层神经网络拟合训练样本分布[2]的一种机器学习算法,与传统神经网络算法相比,克服了多层神经网络中出现的局部最优问题,并且其训练过程不依赖于样本标签信息,可以实现特征的自主学习,这一特性为许多问题提供了新的解决思路和途径。2000年,Hilton等人提出了适合训练的马尔可夫随机场模型的对比散度新算法,为深度学习的诞生奠定了基础。2006年,Hinton等人提出深度信念网络[3],并利用对比散度算法对模型进行训练,迎来了深度学习的发展浪潮,深度信念网络也成为深度学习的主流框架之一。

1 PDM文档自动审核算法框架

整个框架包括训练和审核2个部分:①训练部分:深度学习模块根据专家产生的训练集对文档识别参数进行训练,形成能够识别各类文档错误的模型参数;②审核阶段:文档审查模块根据产生的参数对新文档进行审查,提示用户文档中存在的各类错误。PDM文档自动审核算法框架如图1所示。

图1 PDM文档自动审核算法框架

从现有PDM文档系统中选取不同类别、不同质量的PDM文档,构成PDM文档集,组织多位专业审核人员对PDM文档集进行评审,主要对文档标题、字词级错误和语法级错误进行标注,并将相关句子记录形成标注信息文档,并分为训练集和测试集。利用相关技术对标注信息文档进行预处理,实现标注语句的分词;利用Skip-gram模型进行词向量[4]训练得到分词结果的词向量表示;利用深度学习方法实现语句的表示,实现标注语句特征的自学习;利用Softmax回归设计多分类器,对语句进行分类;利用测试集对模型进行测试,并根据测试结果对模型进行优化,当模型效果达到预期时,则可以发布并进行使用。

当有新文档上传至PDM系统时,对新文档进行语句分割后则可以接入PDM自动审核模型,对文档中的语句类型进行标注,实现PDM文档的自动审核,以上过程需要解决PDM文档分词和语句表示等处理算法。

2 PDM文档分词及语句表示

2.1 PDM文档分词

PDM文档分词模型如图2所示,主要包括初步分词、去除停用词、领域专用词筛选及词典库构建等过程,最终实现PDM文档的分词结果,主要过程如下:

① 采用国内比较成熟、用户较多的NLPIR[5]汉语分词系统对PDM文档进行分词;

图2 PDM文档分词模型

②根据停用词表去除停用词,由于各类PDM文档都具有较规范的格式,可将文档中常出现的对文档评分无用的词添加到停用词表;

③由于NLPIR系统是一个普适性的分词工具,PDM文档包含多个领域的专业词语,识别可能不精确,可由相关领域专家根据停用词删除后的分词结果筛选各领域的专用词,构成领域的词典库,加入到分词系统;

④重复步骤②和步骤③,完成各类PDM文档分词模型的构建。

2.2 基于深度学习的语句表示及分类

通常使用向量空间模型对语句进行表示,但是向量空间模型忽略了语句中词与词之间的顺序,假设语句中的词与词之间是相互独立的,忽略了词与词之间的依赖关系,并且存在维度灾难和稀疏表示的问题。

为实现对语句的表示,实现PDM文档的自动审核,本文首先利用Word2vector中的Skip-gram模型训练得到词向量,再利用RNN中的长短记忆模型(LSTM)[6]对输入进行逐级抽象表示,得到语句的高层次抽象表示,其原理如图3所示。

图3 基于深度学习的PDM文档表示及审核模型

将经过深度学习网络获取的语句高层次抽象表示输入到基于Softmax的多类分类器中,最终获取对当前语句是否为标题以及是否存在相关错误进行标注,完成PDM文档的自动审核,PDM文档评审人员可根据标注信息实现对文档质量的评价。

3 PDM文档自动审核算法的优势

与传统方式相比,算法主要的优势有:① 客观性:采用机器学习方法对文档质量进行初步评价很客观,因为它的评价标准地定义清楚,避免了人工审核中因疲劳、经验等主观因素的影响;② 经济实用性:设计人员提交文档众多,在对文档进行审核的过程中需要耗费大量的人力、财力和物力,采用自动评分不仅可以降低工作的强度,而且可以提高工作的效率;③即时性:在未来的PDM系统中,自动审核以网络为媒介,实现信息的实时传递,可以在提交文档后短的时间内获得审核结果及相应的回馈信息。

4 结束语

PDM系统是一项不断发展的综合技术,特定内涵和外延在不断发展变化。本文提出了一种基于深度学习的PDM文档自动审核算法,可以实现文档质量的初步评价,为审核人员提供辅助支撑,在客观性、经济实用性和即时性等方面都优于传统人工审核,为海量PDM文档的审核管理提供了一种解决途径,为以后PDM文档的智能化处理奠定了基础。

[1]房晓楠.深度学习进化编年史:一路走来,几十年的风风雨雨[J].机器人产业,2017(4):102-110.

[2]韩伟,张雄伟,张炜,等.深度学习中的经典网络模型及训练方法[J].军事通信技术,2016,37(1):90-97.

[3]乔林,张雄伟,史海宁,等.深度学习应用中的常见模型[J].军事通信技术,2016,37(1):98-104.

[4]王耀华,李舟军,何跃鹰,等.基于文本语义离散度的自动作文评分关键技术研究[J].中文信息学报,2016,30(6):173-181.

[5]李良杰.基于统计和语义信息的中文分词算法研究[D].青岛:青岛科技大学,2016.

[6]谢逸,饶文碧,段鹏飞,等.基于CNN和LSTM混合模型的中文词性标注[J].武汉大学学报(理学版),2017,63(3):246-250.

猜你喜欢
分词语句文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
分词在英语教学中的妙用
重点:语句衔接
结巴分词在词云中的应用
结巴分词在词云中的应用
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
我喜欢
作文语句实录