基于机器阅读理解的答案抽取方法解析

2020-12-23 02:00徐飞陈浩
科学与信息化 2020年32期
关键词:注意力机制

徐飞 陈浩

摘 要 在问答系统中,根据问题从给定答案文本材料中抽取包含的答案。基于特征的传统方法费时费力,本文提出双向长短记忆结合注意力机制的网络模型,提升给定文本中的答案抽取效果。

关键词 Bi-LSTM;注意力机制

引言

当前,基于非结构化文本的问答系统的研究方法主要是基于递归神经网络,通过将文档和问题进行编码来获取答案。这种方法没有有效利用上下文信息,语义提取较差。本文利用Bi-LSTM 能够捕捉时序信息的特点,创建网络模型,并引入注意力机制。实验表明,仅用少量特征即可实现较好的答案抽取效果。

1模型构建

模型主要分为四层,如下所述。

(1)输入层

输入层(Embedding)主要为两部分,模型左侧为question长度为m的输入序列,模型右侧为answer长度为n的输入序列。

本文使用200维的Glove词向量初始化Embedding层,在训练过程中進行微调。

(2)Encoder层

在Encoder层我们使用Bi-LSTM作为提取句子序列特征的编码器,原因在于这种结构相比于CNN,可以提取句子时序特征,主要步骤如下公式所示:

(3)交互层

问题句与答案句匹配,实验进一步使用问题对段落进行编码,计算问题编码器输出和答案句编码器输出的相关分数,如下公式所示

在模型中利用向量平均操作表示问题语义向量,根据实践经验,我们使用self-attention对问题向量编码进行改进,如下公式:

(4)Answer层

我们将问题的Bi-LSTM编码层输出进一步整理,对输出采用简单平均计算,表示问题最后的向量编码,如下公式所示,其中Z表示Bi-LSTM编码层的输出矩阵,Y表示平均句子向量:

Answer层使用Bi-LSTM结构对段落语义进一步提取特征,如下公式所示:

在Answer层,答案结束的位置与答案起始位置和问题语义都是相关的,我们将继续使用问题的语义向量Y和起始位置i的隐藏层向量hi参与计算,定义以i为起始位置,j为结束位置的条件概率,如下公式所示 :

最后计算以i为起始,j为结束的整体概率,将两个概率相乘,如公式下公式所示:

通过最大化的概率进行训练和预测。

2实验结果

2.1 数据集

InsuranceQA数据集提供训练集,验证集和两个测试集。下列列出表中数据集的问题和答案的数量。

2.2 实验结果比较

使用TensorFlow深度学习框架编写网络,输入词向量使用200维度的Glove词向量初始化Embedding层,训练过程进行微调,编码层LSTM隐藏层维度设置为128维度,我们在两层双向LSTM的基础上,分别增加了”qa-Attention”和”q-Attention”,对句子语义向量表示。

引入双向 LSTM 和注意力机制进行实验,得到对比结果,如下表所示

3结束语

本文基于Bi-LSTM的深度学习模型进行候选答案句抽取,并对已有问题提出了相应的改进措施,将句内注意力机制应用于答案抽取,实验结果表明相较于 CNN和 LSTM 模型,提升了答案抽取效果。

参考文献

[1] 栾克鑫,孙承杰,刘秉权,等.基于句内注意力机制的答案自动抽取方法.智能计算机与应用,2017, 7(5):87-91 .

[2]  LIUYang,SUN Chengjie,LIN Lei,et al.Learning natural language inference using bidirectional LSTM model and inner-attention.arXiv preprint arXiv: 1605.09090

作者简介

徐飞(1994-),男,安徽省桐城市人,学历:研究生,沈阳理工大学在读,研究方向:自然语言处理。

陈浩(1981-),男,河北省滦县人;毕业院校:中国地质大学,专业:项目管理专业,学历:硕士研究生,现就职单位:沈阳市教育研究院,研究方向:项目管理领域工程。

猜你喜欢
注意力机制
基于注意力机制的行人轨迹预测生成模型
基于注意力机制和BGRU网络的文本情感分析方法研究
多特征融合的中文实体关系抽取研究
基于序列到序列模型的文本到信息框生成的研究
基于深度学习的手分割算法研究
从餐馆评论中提取方面术语
面向短文本的网络舆情话题
基于自注意力与动态路由的文本建模方法
基于深度学习的问题回答技术研究
基于LSTM?Attention神经网络的文本特征提取方法