徐飞 陈浩
摘 要 在问答系统中,根据问题从给定答案文本材料中抽取包含的答案。基于特征的传统方法费时费力,本文提出双向长短记忆结合注意力机制的网络模型,提升给定文本中的答案抽取效果。
关键词 Bi-LSTM;注意力机制
引言
当前,基于非结构化文本的问答系统的研究方法主要是基于递归神经网络,通过将文档和问题进行编码来获取答案。这种方法没有有效利用上下文信息,语义提取较差。本文利用Bi-LSTM 能够捕捉时序信息的特点,创建网络模型,并引入注意力机制。实验表明,仅用少量特征即可实现较好的答案抽取效果。
1模型构建
模型主要分为四层,如下所述。
(1)输入层
输入层(Embedding)主要为两部分,模型左侧为question长度为m的输入序列,模型右侧为answer长度为n的输入序列。
本文使用200维的Glove词向量初始化Embedding层,在训练过程中進行微调。
(2)Encoder层
在Encoder层我们使用Bi-LSTM作为提取句子序列特征的编码器,原因在于这种结构相比于CNN,可以提取句子时序特征,主要步骤如下公式所示:
(3)交互层
问题句与答案句匹配,实验进一步使用问题对段落进行编码,计算问题编码器输出和答案句编码器输出的相关分数,如下公式所示
在模型中利用向量平均操作表示问题语义向量,根据实践经验,我们使用self-attention对问题向量编码进行改进,如下公式:
(4)Answer层
我们将问题的Bi-LSTM编码层输出进一步整理,对输出采用简单平均计算,表示问题最后的向量编码,如下公式所示,其中Z表示Bi-LSTM编码层的输出矩阵,Y表示平均句子向量:
Answer层使用Bi-LSTM结构对段落语义进一步提取特征,如下公式所示:
在Answer层,答案结束的位置与答案起始位置和问题语义都是相关的,我们将继续使用问题的语义向量Y和起始位置i的隐藏层向量hi参与计算,定义以i为起始位置,j为结束位置的条件概率,如下公式所示 :
最后计算以i为起始,j为结束的整体概率,将两个概率相乘,如公式下公式所示:
通过最大化的概率进行训练和预测。
2实验结果
2.1 数据集
InsuranceQA数据集提供训练集,验证集和两个测试集。下列列出表中数据集的问题和答案的数量。
2.2 实验结果比较
使用TensorFlow深度学习框架编写网络,输入词向量使用200维度的Glove词向量初始化Embedding层,训练过程进行微调,编码层LSTM隐藏层维度设置为128维度,我们在两层双向LSTM的基础上,分别增加了”qa-Attention”和”q-Attention”,对句子语义向量表示。
引入双向 LSTM 和注意力机制进行实验,得到对比结果,如下表所示
3结束语
本文基于Bi-LSTM的深度学习模型进行候选答案句抽取,并对已有问题提出了相应的改进措施,将句内注意力机制应用于答案抽取,实验结果表明相较于 CNN和 LSTM 模型,提升了答案抽取效果。
参考文献
[1] 栾克鑫,孙承杰,刘秉权,等.基于句内注意力机制的答案自动抽取方法.智能计算机与应用,2017, 7(5):87-91 .
[2] LIUYang,SUN Chengjie,LIN Lei,et al.Learning natural language inference using bidirectional LSTM model and inner-attention.arXiv preprint arXiv: 1605.09090
作者简介
徐飞(1994-),男,安徽省桐城市人,学历:研究生,沈阳理工大学在读,研究方向:自然语言处理。
陈浩(1981-),男,河北省滦县人;毕业院校:中国地质大学,专业:项目管理专业,学历:硕士研究生,现就职单位:沈阳市教育研究院,研究方向:项目管理领域工程。