基于HM-SVMs的问句语义分析模型

2016-06-08 06:08范士喜韩喜双
计算机应用与软件 2016年5期
关键词:马尔科夫分析方法语义

范士喜 韩喜双 相 洋 陈 毅

(哈尔滨工业大学深圳研究生院 广东 深圳 518055)



基于HM-SVMs的问句语义分析模型

范士喜韩喜双相洋陈毅

(哈尔滨工业大学深圳研究生院广东 深圳 518055)

摘要由于传统的问句语义分析主要针对事实类的简单问句,而对于面向开放域的复杂问句缺少有效的语义分析方法。针对这种情况,提出一种新的问句语义分析模型。该模型将问句从文字空间映射到结构化的语义空间,实现问句的语义分析和表示。通过标注问句中的语义信息,模型实现问句分类、问句主题识别、限制信息识别三项分析工作。使用隐马尔科夫支持向量机(HM-SVMs)序列化标注工具实现了模型的自动标注,取得了86.7%的准确率。实验结果表明,HM-SVMs在标注准确率和效率上好于MEMM、CRF、M3N等模型,达到了预期效果。

关键词问答系统问句语义分析隐马尔科夫支持向量机

0引言

问句语义分析是问答系统的核心问题之一,其目的是理解用户的意图,指导问题求解[1]。传统的问答系统主要面向事实类简单问题,处理关于“时间”、“地点”、“机构”等事实类问句,传统问句语义分析包含问句分类和关键字提取两项工作[2]。其中问句分类和答案的命名实体类别相对应,即,问句分类直接指导答案的抽取,而问句语义分析所提取的关键字则用于答案的检索。这种问句语义分析方法在事实类问句中取得了较好的效果[3 ],但并不适用于通用的问句语义分析,尤其是一些语义复杂的问句。研究人员已经发现了传统问句分析方法的不足,一些研究者开展了通用问句语义分析的相关研究工作。中国科学院的吴晨等提出基于HNC理论的问答系统[4];太原理工大学的郝晓燕等使用框架语义来对问句进行语义标注;北京理工大学余正涛等通过潜在语义分析将问句从表层的文字空间映射到语义空间中进行分析[5]。另外语义依存分析和浅层语义分析也被广泛用于问句分析中[6]。江苏科技大学钱强等利用互信息计算两个词之间的共现程度,然后根据字词本身的语义信息进行问句主题词抽取[7]。

在自然语言中,问句是一类特殊的句子,具有特定的语义功能,其表达形式也有其自身的特点。传统的分析方法将文句分类和关键字提取分开进行,丢失了问句的结构化信息。而直接将通用的自然语言语义分析方法应用于问句处理又无法体现问句语义的特殊性。

目前问答系统的研究者越来越关注复杂问句的处理,如TREC增加了描述类问题和列举类问题的评测。近年来互联网上出现了一种基于网络社区的问答系统CQA(Community Question and Answering system)也叫问答社区、协作式问答系统或者网友问答系统。例如百度的知道、新浪的知识人、雅虎的知识堂等。CQA是一种用户提问用户回答的系统,其发展非产迅速,已经在互联网上形成了海量的问答知识库。CQA的发展进一步推动了通用问句语义分析的研究工作。针对CQA中的问句进行语义分析和挖掘,对于问答系统研究和应用具有重要的理论意义和现实价值,国内外学者已经做了一些有益的研究和探索[8,9]。CQA中的问句不再有领域限制,其表达形式更趋向于人们的日常对话,有些甚至还有语法错误,预期的答案表达形式也更为复杂,这些都为问句的语义分析带来了挑战。

本文提出一个基于HM-SVMs的问句的语义分析模型用于通用的问句语义分析。该模型充分考虑到问句的特殊性从句法学和语义学的角度对问句进行语义块的标注。问句语义块之间具有紧密的语义关系。问句语义块的标注对于加深问句理解,以及问句相似度计算等具有重要的意义。

1问句语义分析模型

2010作者首次提出了问句语义块标注QICA(Question Information Chuck Annotation)分析方法[2]。本文提出的问句语义分析模型是对QICA模型的一个改进。QICA定义了五类信息块,即“问句主题块”、“主题焦点块”、“限制信息块”、“疑问信息块”、“其他信息块”。其中“主题焦点块”是对问句主题的进一步说明。在实际应用过程中,我们发现,“主题焦点块”和“限制信息块”都是对问句主题的进一步限制,并且对答案范围进一步界定。例如问句:(1)鲁迅的生日是什么时候?(2)鲁迅生日是哪天?这两个问句,按照QICA的分析方法,问句主题都是‘鲁迅’,问句:(1)包含主题焦点信息‘生日’因为‘的’字短语指明了‘生日’为‘鲁迅’的进一步说明。而问句(2)中的‘生日’则被分析为‘限制信息’。实际上,主题焦点和限制信息都是对主题的限制,应该统一归为限制信息。因此,本文改进了QICA分析方法,取消了主题焦点这一语义块。新的问句语义分析模型只包含四类信息,具体内容如表1所示。

表1 语义块标记表

在表1中,我们用T标记代表问句的主题,用R代表问句的限制信息,用W*代表问句疑问信息,用O代表其他标记。其中,‘W*’是一个问句类型集共有13个分类,代表问句的分类体系。本模型沿用了QICA分析方法的分类体系,由于篇幅限制,问句分类体系不在本文中过多介绍,详细信息可以查阅文献[11]。

下面通过几个问句分析的实际例子来说明问句语义块标注方法的分析特点,如表2所示。

表2 问句分析实例表

这6个问句都是来源于百度知道的关于地震的问题,所以问句的主题都是“地震”。前2个问句都是问地震的定义,虽然表达方式出入很大,但是经过语义标注后,可以判断他们具有同样的主题和疑问语义。第3个问句是关于“地震的前兆”,所以问句的主题仍为“地震”,但限制信息为“前兆”,而疑问信息Wlis表示这是一个列举类问句。第4个问句是地震的成因,所以是一个原因类问句。第5个问句是关于地震中自救的问题,问句的主题仍然是地震,通过限制信息“自救”来进一步确定用户的意图。第6个问句虽然没有任何疑问词,但通过分析仍然能够看出这是一个关于时间的问句,这个问句中虽然也是关于地震的,但问句的主题是“唐山大地震”。可以看出,问句语义分析方法通过将问句信息划分为不同的语义块使得问句能够被计算机理解,实现了语义分析的目的。

2问句语义分析自动标注模型

首先看一个问句语义标注的例子:

原始问句办公桌椅可以直接计入管理费用吗?

原始标注{办公 桌椅}/ T{可以}/ Wyes {直接 计入 管理费用}/F {吗 ?}/ Wyes为分析直观,标注中省略了词性标注,句法分析等标记。凭直觉分析,问句语义自动标注问题可以分成两个步骤来解决:(1) 将问句按照语义规则划分成不同的块,(2) 给这些块分配相应的语义标记。然而这种分析方法处理起来比较复杂,机器学习方法不容易实现。因此,我们借鉴中文信息处理中组块分析问题的解决思路,将问句语义块标注问题转化为序列化标注问题。具体做法是修改语义标记,以标记T为例,将语义标记T修改为B-T 和I-T,其中B-T表示问句主题语义块的开始,I-T表示问句主题语义块的继续。通过这种标记改造后,上述例句可以转化为序列化标注:

办公/ B-T 桌椅/I-T 可以/ B-Wyes 直接/B-F 计入/I-F 管理费用/I-F 吗/ B-Wyes ?/I-Wyes

在自然语言处理研究中,有很多成熟的模型可以用于序列化标注问题,例如隐马尔科夫模型、最大熵马尔科夫模型、条件随机场模型等。本文使用隐马尔科夫支持向量机模型(HM-SVMs)。

2.1HM-SVMs模型介绍

隐马尔科夫HMM模型是经典的序列化标注模型,在早期的语音识别、音字转换问题中取得了较好的应用效果。但是HMM模型属于生成模型,难以使用长距离上下文信息,只能产生局部最优结果。近年来支持向量机SVM在有监督分类问题中得到了广泛的应用。SVM通过使用核函数方法,在减少计算量的同时提高了模型的分类能力。另一方面SVM同时考虑经验风险和结构风险两个约束条件,使用大间隔方法训练模型,保证了模型的泛化能力。然而很多实际问题属于结构化预测问题,不再是简单的分类或标记问题,标记之间存在着相互依赖或者某种结构化特性,SVM无法很好地解决这类问题。这类问题包括音字转换问题,词性标注问题,组块分析,图像分割等问题。

隐马尔可夫支持向量机(HM-SVMs)是Altun等2003年 提出的序列化标注模型[10]。HM-SVMs将支持向量机(SVM)和隐马尔可夫模型(HMM)两个模型有机结合。HM-SVMs摒弃了HMM的生成模型原理,采用更为先进的辨识学习技术。与CRF模型一样,HM-SVMs也同时考虑观测序列的上下文,解决了HMM模型的发射概率只考虑当前观测节点的缺陷。 HM-SVMs保留了HMM模型的主要优点,即标签之间马尔可夫链结构的依赖性以及动态规划思想。同时,HM-SVMs采用SVM模型的最大间隔理论,使用核函数算法提高模型的性能。下面简要介绍一下HM-SVMs模型:

给定一个训练样本序列集合x={(x1,x2,…,xt},预测标记序列为y={(y1,y2,…,yt}; 则HM-SVMs模型针对x、y的概率计算公式为:

(1)

其中,k代表马尔科夫的阶,当k为1时代表一阶马尔科夫。

ej(x,yi)相当于HMM模型中的发射概率,当然,它产生的是一系列的特征向量,i表示当预测位置为,j是与马尔科夫阶相关的一个特征序号,用于区分不同的特征。

tj(x,yi-j,…,yi)相当于HMM模型中针对观测序列X以及从位置i-j到i的标记之间的的转移概率,产生的是一系列的特征向量,j是与马尔科夫阶相关的一个特征序号,用于区分不同的特征。We j和Wt j是权重向量,分别对应于ej(x,yi)和tj(x,yi-j,…,yi)。

下面介绍模型的参数学习:

给定带有m个实例的训练集S={(xn,yn)∈X×Y|n=1,…,m}),则HM-SVMs模型的训练过程就是解决下面的最优化问题:

(2)

2.2基于HM-SVMs的问句语义自动标注

HM-SVMs使用特征作为输入,根据统计和语义关系我们选择了如下11类特征作为模型的预选特征。预选特征模板如表3所示。

表3 特征模板表

在特征模板中,W代表词,P代表词性,括号内的数值代表位置信息,例如W(0)代表当前词,P(0)代表当前词的词性,P(-1)代表前一个词的词性;+号代表多个特征的组合,例如P(-1)+ P(0)表示前一个词的词性和当前词的词性的组合。

3实验验证

用来训练和测试的问句是从“百度知道”网站上收集的。训练问句为10 000句,测试问句为4800句。所有问句的语义块标记都是手工标注,并通过交叉检查确保准确。标注后,问句信息包括词、词性标记、语义块标记信息。其中语义信息,采用BIO方式标注。HM-SVMs工具采用康奈尔大学提供的开放工具包(http://www.cs.cornell.edu/people/tj/svm_light/old/svm_hmm_v3.03.html)。根据特征模板表共提取了47 307个特征,这些特征作为HM-SVMs工具的原始特征输入。HM-SVMs模型参数设置如下:马尔科夫链为1阶,惩罚参数C为1000,迭代中止参数e为0.01,核函数为多项式核。训练后模型共生成支持向量240个。

为了验证HM-SVMs模型的性能,同时使用最大熵模型(ME),最大熵马尔科夫模型(MEMM),条件随机场模型(CRF),大间隔马尔科夫模型(M3Ns)进行了对比实验。实验数据完全相同,所有模型的特征模板完全相同,MEMM中采用1阶马尔科夫链,表4给出了实验结果。

表4 实验结果表

从标记准确性上来看,ME模型效果最差;MEMM模型因为考虑了标记之间的关系,准确性有所提高;CRF模型解决了MEMM模型的标记偏执问题,准确性明显提高;M3Ns 模型采用大间隔思想,性能进一步提升;HM-SVMs模型结合了HMM模型和SVM两个模型的优点,取得了最好的标注效果。

从时间性能方面来看,MEMM模型的训练时间与ME接近,这是因为MEMM模型需要额外训练标记之间的转移概率。在预测过程中,由于MEMM模型要使用Vitebi算法进行全序列计算,所以时间比ME模型长。CRF模型训练花费的时间远远超过其他模型。HM-SVMs模型在训练中采用切平面法,较M3Ns模型的训练时间明显减少。而HM-SVMs模型在预测中通过核函数和向量内积计算来预测标记,所以时间较短。

为了验证训练数据量对模型预测能力的影响,将训练数据从300句逐步增加到10 000句。标记预测的准确率随训练数据数量的变化曲线如图1所示。当训练数据只有300句时,模型仍然取得了63.2%的准确率,这说明模型具有较好的泛化能力。可以看出当训练问句的数量少于5000句时,随着训练数据的增加,模型预测的准确率逐步上升。当训练数据大于5000句后,模型预测的准确率基本稳定在86.7%,这也验证了HM-SVMs模型的稳定性。

图1 模型预测准确率随训练数据变化图

4结语

本文提出了一种新的问句语义分析方法,并使用HM-SVMs模型对语义块进行标注。实验的结果取得了86.7% 的准确率,也是在当前数据集上取得的最好成绩。实验证明HM-SVMs模型对语义块标注分析是有效的。在接下来的研究中,我们将继续探索语义块内部词与词之间的语义依赖关系。

参考文献

[1] 郑实福,刘挺,秦兵,等.自动问答综述[J].中文信息学报,2002,16(6):46-52.

[2] 范士喜,王晓龙,王轩,等.面向真实环境的问句分析方法[J].电子学报,2010,38(5):1131-1135.

[3] 牛彦清,陈俊杰,段利国,等.中文问句分类特征的研究[J].计算机应用与软件,2012,29(3):108-111.

[4] 吴晨,张全.基于概念匹配的中文问答处理模型核心问题探讨[J].中文信息学报,2006,20(4):49-55.

[5] 余正涛,樊孝忠,郭剑毅,等.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893.

[6] 张志昌,张宇,刘挺,等.基于浅层语义树核的阅读理解答案句抽取[J].中文信息学报,2008,22(1):80-86.

[7] 钱强,庞林斌,高尚.一种基于词共现图的受限领域自动问答系统[J].计算机应用研究,2013,22(1):841-843.

[8] Xiaoqiang Luo,Hema Raghavan,Vittorio Castelli,et al.Finding What Matters in Questions[C]//Proceedings of NAACL-HLT 2013:878-887.

[9] Guangyou Zhou,Fang Liu,Yang Liu,et al.Statistical Machine Translation Improves Question Retrieval in Community Question Answering via Matrix Factorization[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,2013:852-861.

[10] Altun Y,Tsochantaridis I,Hofmann T.Hidden Markov Support Vector Machines[C]//Proceedings of the 20th International Conference on Machine Learning (ICML) 2003:3-10.

[11] 延霞,范士喜.基于问答社区的海量问句检索关键技术研究[J].计算机应用与软件,2013,30(7):315-317.

A QUESTION SEMANTIC ANALYSIS MODEL BASED ON HM-SVMs

Fan ShixiHan XishuangXiang YangChen Yi

(ShenzhenGraduateSchool,HarbinInstituteofTechnology,Shenzhen518055,Guangdong,China)

AbstractTraditional question semantic analysis mainly focus on simple questions in regard to category of facts, but lacks effective semantic analysis method for open field-oriented complex questions. In view of this, we present a new question semantic analysis model. The model maps questions from text space onto a structured semantic space, and achieves semantic analysis and expression of questions. By annotating semantic information in questions the model implements three kinds of analysis works of questions classification, question topic identification and restrictive information identification. We employ hidden Markov support vector machines (HM-SVMs), a serialisation annotation tool, to realise the automatic annotation of the model, and reaches an accuracy of 86.7%. Experimental results show that HM-SVMs is better than MEMM, CRF, M3N and other models in annotation accuracy and efficiency, and achieves the desired effect.

KeywordsQ&A systemSemantic analysis of questionHM-SVMs

收稿日期:2014-10-23。广东省教育科学规划教育信息技术研究专项课题(11JXN039)。范士喜,助理研究员,主研领域:问答系统。韩喜双,研究员。相洋,博士生。陈毅,博士生。

中图分类号TP18

文献标识码A

DOI:10.3969/j.issn.1000-386x.2016.05.021

猜你喜欢
马尔科夫分析方法语义
基于三维马尔科夫模型的5G物联网数据传输协议研究
基于EMD的MEMS陀螺仪随机漂移分析方法
基于叠加马尔科夫链的边坡位移预测研究
一种角接触球轴承静特性分析方法
基于改进的灰色-马尔科夫模型在风机沉降中的应用
语言与语义
中国设立PSSA的可行性及其分析方法
“上”与“下”语义的不对称性及其认知阐释
马尔科夫链在教学评价中的应用
认知范畴模糊与语义模糊