基于机器阅读理解的答案抽取方法解析

2020-12-23 02:00徐飞陈浩

科学与信息化 2020年32期

徐飞陈浩

摘要在问答系统中，根据问题从给定答案文本材料中抽取包含的答案。基于特征的传统方法费时费力，本文提出双向长短记忆结合注意力机制的网络模型，提升给定文本中的答案抽取效果。

关键词 Bi-LSTM;注意力机制

引言

当前，基于非结构化文本的问答系统的研究方法主要是基于递归神经网络，通过将文档和问题进行编码来获取答案。这种方法没有有效利用上下文信息，语义提取较差。本文利用Bi-LSTM 能够捕捉时序信息的特点，创建网络模型，并引入注意力机制。实验表明，仅用少量特征即可实现较好的答案抽取效果。

1模型构建

模型主要分为四层，如下所述。

（1）输入层

输入层（Embedding）主要为两部分，模型左侧为question长度为m的输入序列，模型右侧为answer长度为n的输入序列。

本文使用200维的Glove词向量初始化Embedding层，在训练过程中進行微调。

（2）Encoder层

在Encoder层我们使用Bi-LSTM作为提取句子序列特征的编码器，原因在于这种结构相比于CNN，可以提取句子时序特征，主要步骤如下公式所示：

（3）交互层

问题句与答案句匹配，实验进一步使用问题对段落进行编码，计算问题编码器输出和答案句编码器输出的相关分数，如下公式所示

在模型中利用向量平均操作表示问题语义向量，根据实践经验，我们使用self-attention对问题向量编码进行改进，如下公式：

（4）Answer层

我们将问题的Bi-LSTM编码层输出进一步整理，对输出采用简单平均计算，表示问题最后的向量编码，如下公式所示，其中Z表示Bi-LSTM编码层的输出矩阵，Y表示平均句子向量：

Answer层使用Bi-LSTM结构对段落语义进一步提取特征，如下公式所示：

在Answer层，答案结束的位置与答案起始位置和问题语义都是相关的，我们将继续使用问题的语义向量Y和起始位置i的隐藏层向量hi参与计算，定义以i为起始位置，j为结束位置的条件概率，如下公式所示：

最后计算以i为起始，j为结束的整体概率，将两个概率相乘，如公式下公式所示：

通过最大化的概率进行训练和预测。

2实验结果

2.1 数据集

InsuranceQA数据集提供训练集，验证集和两个测试集。下列列出表中数据集的问题和答案的数量。

2.2 实验结果比较

使用TensorFlow深度学习框架编写网络，输入词向量使用200维度的Glove词向量初始化Embedding层，训练过程进行微调，编码层LSTM隐藏层维度设置为128维度，我们在两层双向LSTM的基础上，分别增加了”qa-Attention”和”q-Attention”，对句子语义向量表示。

引入双向 LSTM 和注意力机制进行实验，得到对比结果，如下表所示

3结束语

本文基于Bi-LSTM的深度学习模型进行候选答案句抽取，并对已有问题提出了相应的改进措施，将句内注意力机制应用于答案抽取，实验结果表明相较于 CNN和 LSTM 模型，提升了答案抽取效果。

参考文献

[1] 栾克鑫，孙承杰，刘秉权，等.基于句内注意力机制的答案自动抽取方法.智能计算机与应用，2017， 7（5）：87-91 .

[2] LIUYang，SUN Chengjie，LIN Lei，et al.Learning natural language inference using bidirectional LSTM model and inner-attention.arXiv preprint arXiv： 1605.09090

作者简介

徐飞（1994-），男，安徽省桐城市人，学历：研究生，沈阳理工大学在读，研究方向：自然语言处理。

陈浩（1981-），男，河北省滦县人;毕业院校：中国地质大学，专业：项目管理专业，学历：硕士研究生，现就职单位：沈阳市教育研究院，研究方向：项目管理领域工程。