融合事件信息的中文问答系统问题语义表征

2015-04-25 09:57魏楚元樊孝忠张大奎
中文信息学报 2015年1期
关键词:组块焦点语义

魏楚元,湛 强,樊孝忠,毛 煜,张大奎

(1. 北京理工大学 计算机学院,北京 100081;2. 北京建筑大学 计算机系,北京 100044)



融合事件信息的中文问答系统问题语义表征

魏楚元1,2,湛 强1,樊孝忠1,毛 煜1,张大奎1

(1. 北京理工大学 计算机学院,北京 100081;2. 北京建筑大学 计算机系,北京 100044)

复杂类问题理解是中文问答系统研究的难点,基于组块的问句分析方法将整个问句转化为若干组块,降低了问句分析的难度和复杂性。针对以含有事件(动作)信息的复杂类问题,提出基于语义组块的中文问答系统问题语义表征模型,采用语义组块的思想将问题的语义成分定义为疑问焦点块、问题主题块和问题事件块三个语义组块,对问句中的事件语义信息,建立了问题事件语义结构,将一个问句表征为一个基于语义组块的问题语义表征结构,用于问答系统的问题理解。通过序列标注学习方法实现问题语义表征中语义组块自动标注。实验结果表明: 问题语义组块标注效果较好,问题语义表征模型获取了问题的关键语义信息,为语义层面上的问题理解提供基础。

复杂类问题;事件;问题语义表征;语义组块;问题理解

1 引言

问句分析、问题理解一直是中文问答系统研究的重点和难点,许多学者开展了大量的研究工作,特别是近年来在句法分析、语义分析方面取得了一些新的研究成果应用于问题理解,提高了中文问答系统的准确率。与英文问答系统不同的是,中文问答系统问句分析有其自身的复杂性和困难,主要在于汉语问句指代复杂性和问句结构复杂性,疑问句蕴涵信息丰富、提问方式灵活多样性、语法不够严谨,造成问句分析、问题理解更加困难[1-2]。近年来提出的依存句法、组块分析、语义角色标注等句法分析或语义分析方法,其最终目的在于分析出一个问句的完整语义信息,以有助于抽取更准确的答案。但这些方法目前更多适用于中文问答系统的事实类问题。中文问答系统的问题分为事实型、列举型、定义型和复杂类问题[3],特别是含有事件(动作)信息的复杂类问题,成为中文问答系统新的关注点[4]。

世界上的一切事物都可以分为: 万物和事件。事实上,疑问句也可以分为对万物的疑问和对事件的疑问。对万物的疑问可以表现为“什么、哪里”等疑问所期待答案的实体信息;对事件的疑问可以表现为“怎么样、怎么、如何、为何”等疑问所期待答案的事件信息。在特定的时间和空间等环境影响下,实体之间的相互作用和影响可以描述为事件。在疑问句中,对实体和事件的描述从一定程度上反映了用户所期望的答案类型,也表达了提问者的真实意图。因此,疑问句中除疑问信息之外,实体和事件都是非常重要的信息。在含有事件(动作)信息的疑问句中的疑问词突出了疑问焦点信息;实体信息实际对应的是问句的主题信息;还有一类表达事件(动作)的信息。复杂类问题处理的一个难点如何处理其中包含的事件信息以及这些事件的语义信息[4]。一个对复杂类问题语义信息表示的结构,能够完整地将一个疑问句通过句法分析、语义分析获取该问句核心的语义信息并映射到一个结构化的语义空间,对复杂类问题理解将起到十分重要的作用。本文从语义分析的角度,将复杂类问题作为问题理解的研究对象,将其蕴涵的最重要的语义信息抽象为疑问焦点、问题主题、问题事件三个语义成分,通过语义块标注方法,将问题语义成分标注为疑问焦点块、问题主题块和问题事件块等主要组块,将一个问题表征为一个基于组块的问题语义表征结构,用于问答系统的问题理解。

本文的组织结构如下: 第2节介绍相关的工作;第3节对问题语义成分进行了分析;第4节是对问题语义表征模型的描述;第5节是语义组块标注方法;第6节为实验结果分析;第7节为结论及展望。

2 相关工作

问句与普通句子一样,除疑问成分以外,也有关键的语法成分(主、谓、宾)和修饰成分(定、状、补等),通过句法分析方法可以解析出问句的句法信息,但是仅仅从句法层面理解一个问题是远远不够的。语义分析指的是将自然语言句子转化为反映这个句子意义(即句义)的某种形式化表示,即将人类能够理解的自然语言转化为计算机能够理解的形式语言,做到人与机器的互相沟通[5]。要实现对问题的理解,必须要识别出问句的关键语义信息。因此,语义分析是问题理解的关键任务和挑战。当然,语义分析是自然语言领域需要解决的根本性问题和目标,目前还只能进行以语义角色标注为代表方法的浅层语义分析,深层语义分析方法还很难实现,效果并不理想。

中文句子语义信息的表示并没有统一的标准和体系,《知网》、汉语框架网、HNC等理论和语义资源的建立,极大提升了中文语义分析的水平,但面向单个句子的语义表示模型并不多见。构建单个句子的语义表示模型也是一种浅层语义分析方法,根据句中每个实词的词义,推导出能够反映这个句子意义的某种形式化表示。文献[6]提出了“义面—义原—义境”的汉语句子语义三维表示模型并提出了基于三维模型的语义计算方法,该方法基于框架网络表示语义,但是义面到义原的映射难以用规则进行表示、而且义境很难确定和表示。在中文问答系统的问句语义表示方面,北京理工大学自然语言处理研究室提出了问句语义表征(Question Semantic Representation, QSR)的概念,问句语义表征是问句语义信息的形式化表示,剔除了问句中无关或者干扰的信息,是问句语义的必要表示,后续的答案提取模块可以很方便地依据它进行答案的提取[7]。文献[8]结合实体和事件的语义提出问句语义表征模型,其局限性是用基于问句句型模板规则匹配的方法提取问句语义表征。文献[9]提出了汉语问句的语义组块,从语义角度识别出问句中能表达问句语义信息的语义块,以《知网》知识库为基础,提取和定义了表达汉语问句的6种语义块,将问句复杂的语义表示转化为一种组块结构。文献[4]提出了一种融合事件信息的复杂问句分析方法,利用相关的事件抽取方法获取复杂问句中的事件信息,生成事件的语义模型实例,然后利用事件语义模型实例构成的矢量表征复杂问题的完整语义信息,从而根据表征矢量计算复杂问句的相似度,实验结果显示在受限领域里取得78.6%的准确率。

近年来在自然语言处理领域还提出了一些基于主题和焦点的问句分析方法。关于疑问句焦点的概念多来自于语言学家的研究成果,吕叔湘最早提出“特指问句里的疑问词代表疑问所在,是疑问的焦点”[10];邵敬敏认为疑问点即疑问句的信息焦点[11]。文献[12]认为特指疑问句都有焦点,疑问焦点在语言中体现在疑问句的疑问部分。关于问句主题的概念,语言学家并未明确提出,文献[13]提出通过句法分析选择合适粒度的问句中心词和相关的修饰词成为问题的主题。文献[14]认为问句的主题通常代表一个问题的主要背景或约束,它描述提问用户的兴趣;问句焦点代表问句主题的特定的某个方面的特征。文献[9]将询问的焦点定义为问题的问点,问点语义块通常由疑问词或由疑问词和相关的词结合而成。文献[15]提出了一种基于用户问题的主题和焦点的问题理解的方法,找出主题和焦点等关键信息在知网中的首义原作为问题分类特征,提高分类效果。文献[2]研究了面向真实环境的问句分析方法,将问句中的信息分为问句主题、主题焦点、限制信息、疑问信息块和其他标记五类,并定义了疑问信息块的12种类型,通过标注的方式进行识别。

本文主要关注了问题语义表征模型、问题主题和焦点两个方面的研究,从上述问句分析、问题理解的研究方法与成果来看,问题语义信息的抽取仍然较为困难,准确率不高;基于主题和焦点的问题理解方法最大的特点是抓住了问题理解最重要的语义信息,但是忽略了问题中重要的事件信息,而且对含有事件信息的问题理解研究仍然不够深入。现有的问题语义表征模型表示的语义信息是不完整的,不利于整个问题的理解。本文和文献[2,9]的研究目的相同,区别是本文的研究对象是含有事件(动作)信息的问句,试图从焦点、主题和事件三个维度表征问题的语义成分。

3 问题语义成分

问题理解的关键是要识别出问题的主要语义成分,获取问题的语义信息。问题语义成分及其标注并没有统一的标准。文献[16]对现代汉语句子语义成分标注进行研究,将句子划分为施事、受事等25类语义成分,细化到对句子中每一个词标注出准确的语义;文献[2]根据语义将问句中的信息分为问句主题、主题焦点、疑问信息、限制信息和其它信息五类并进行了分类标注;文献[9]将问句的主要语义成分分为实体、事件、属性、属性值、问点等,以语义块的方式进行了标注。结合语言学家和自然语言处理专家提出的焦点和主题的概念,本文将问句中的焦点、主题、事件看作是一种抽象的问题语义成分,与文献[16]总结的句子语义成分不同的是,本文提出的问题主题、疑问焦点及问题事件并不是传统意义上的词的语义成分,而是将问句关键的语义成分以组块的形式标注为疑问焦点、问题主题和问题事件,构建一种新的问题语义表征模型。

3.1 主题和焦点

一个问题的提出一定是围绕某个话题展开的,问题的背景、上下文能够对这个问题的领域、范畴给出一些关键信息,对回答这个问题能给出一些指导和帮助。一个问题必定有一个主题,就是该问题疑问的对象究竟是什么。没有疑问对象的问题,也是没有意义的。例如,问句“什么是期货”,可以看出这个问题的主题是“期货”,它是针对“期货”这个对象提出疑问;如问句“什么是期货操盘手”,这个问题的主题是“期货操盘手”,它是针对“期货操盘手”这个对象提出疑问,而不是“期货”。本文认为,主题是提问者最关切的疑问对象及相关背景信息,是问题的信息主体,也是问题的关键语义信息。通过找出问题(问句)的主题,在信息搜索时可以检索出与主题相关的文档和段落,有利于后续答案抽取。

语言学家关于焦点的研究成果逐步被引入到中文问答系统问句分析中,文献[9]将疑问的焦点定义为问题的问点,由疑问词或由疑问词和相关的词结合称之为问点块;文献[17]将焦点定义为疑问类型和疑问内容的二元组。特指疑问句的疑问词指代了问题中提问者未知但是需要回答的内容,实际就是问题的焦点信息。问题焦点由问句中疑问词或疑问词短语构成,在问句中反映出最有强度的疑问信息,代表着该问题期待获得的答案类型及疑问内容。如问句“北京银行的京卡具有哪些用途”,问题期待的答案是“用途”,疑问词“哪些”反映出问题类型可能是列举,“哪些用途”反映出该问题的疑问焦点。

3.2 事件

通过对大量汉语特殊疑问句的观察发现,特别是以“怎么、如何、怎么样、为什么”等疑问词为代表的特殊疑问句,往往含有大量的事件(动作)信息。如果忽略这些信息,不利于对整个问题的理解。例如,问句1“央行为什么下调县域农村商业银行存款准备金率?”和问句2“央行为什么上调县域农村商业银行存款准备金率?”,问句1包含了一个“下调”事件;问句2包含了一个“上调”事件,如果忽略这些事件语义信息,问句1和问句2同义,显然是不正确的。事件抽取是一个研究热点问题,国际评测会议MUC(Message Understanding Conference) 和ACE(Automatic Content Extraction)专门负责事件抽取任务的评测,给出了事件的定义和实例,认为事件由事件触发词(Trigger)和描述事件结构的论元(Argument)构成[18],文献[19]基于这种定义,采用最大熵分类方法实现了事件抽取,取得不错的结果。文献[20]认为事件是在某个特定的时间和环境下发生的,由若干角色参与,表现出若干动作特征的一件事情。事件六元组中的元素称为事件要素,分别表示动作、对象、时间、环境、断言和语言表现。在问答系统中事件的识别与抽取也引起了相关学者的研究,时态(Temporal)问答系统中事件之间的时态关系识别、时态知识库、事件知识库是研究的重点问题[21]。文献[22]给出了时态问答系统中时态和事件识别的具体算法和实例。文献[17]以计算机诊断受限领域问答系统为例构建领域事件关键词库,定义了事件语义模型,事件由事件触发词触发,事件触发词是标识事件的动词或者动词性名词,是表示事件发生的术语;事件发生的空间(Where)、时间(When)、参与者(Who,Whom) 和事件发生的状态、方式、程度或效果等要素是事件的论元,事件触发词和事件论元构成了事件完整的语义信息。

本文认为: 汉语疑问句即使是复杂类问句,句子构成的词语数量有限、句式较短,所包含和揭示的事件信息并没有中文文本中描述的事件信息丰富,对事件发生的过程、状态、作用效果、程度难以完整地呈现,但又是不可缺少的重要因素。通常一个问句的事件往往包含有一个或有限个动词或动名词,事件之间的关系并没有文本中的事件关系复杂。借鉴上述事件相关定义,结合汉语疑问句的特点,定义一种问题事件语义结构,事件由事件触发词和事件论元构成,事件触发词是标识问句中事件的动词或者动词性名词(Action);事件的论元表示为事件发生的空间(Location)、时间(Time)和事件发生的状态、方式、程度或效果等辅助描述要素。触发事件的核心动词或动名词作为事件核心要素,是识别事件的主要特征;事件的时间、空间或事件效果等作为事件的辅助描述要素。

定义1 问题事件语义结构(SSQE,Semantic Structure of Question Event )。SSQE=,其中A表示事件触发词动词或动名词;L表示事件发生的空间要素;T表示事件发生的时间要素;D表示事件发生的状态、方式、程度或效果等辅助描述要素。

问题事件语义结构将事件简化表征为包含为动作、时间、空间和效果四要素,事件的施事主体和受事客体等信息被分解为问题主题或疑问焦点信息,并且忽略问句中较少体现的断言、语言表现、复杂时态等因素。例如,问句“1998年中国出台了什么政策成功化解金融危机?”,根据文献[20]中事件的定义,该问句的核心事件是“金融危机”。但根据本节对问题语义成分的分析和定义1,该问句的主题是“金融危机”,问题焦点是“什么政策”。该问句的问题事件核心触发词是“出台”、“化解”,“1998年”是时间要素,“中国”是空间要素,“成功”是效果要素。“金融危机”是该问题主题。

基于上述分析,对一个含有事件(动作)信息的问句,将其主要语义成分标记为问题主题、疑问焦点和问题事件。获取这些问题包含的关键语义信息,对问题理解和答案抽取具有非常重要的意义。例如,问句“2013年国内哪个银行率先上调了房贷利率”,用户需要知道的答案是“2013年第一个上调了房贷利率的银行”,问题的答案一定是“某个银行”。从问题主题、疑问焦点和事件问题这几个关键语义要素来解析问句,可以分析出: 问题主题是“房贷利率”,是这个问题的基本背景和话题,也是问题的信息主体,代表着疑问对象;疑问焦点是“哪个银行”,代表着问题的疑问内容;问题事件是“上调”,“上调”是金融领域的某个事件信息。“2013年”、“国内”、“率先”等信息是关于时间、地点、程度或效果等事件的辅助描述要素。

4 问题语义表征模型

4.1 问题语义组块的相关定义

通过对问题主要语义成分的分析,问题理解的重点是对一个问句中疑问焦点、问题主题和问题事件的表征与识别,抓住了这三个核心语义要素,从语义层面促进了问句分析与问题理解。在问答系统中,为了降低问句句法分析的难度,可采用组块方式分析问句,提取能表达汉语问句语义层面上的语义块,通过这些语义块来帮助实现问句的理解是一种很好的实现模式[9]。将问句中具有固定语义,且位置相对固定的部分称为语义组块(Semantic Chunk)。根据问句中出现的词及上下文环境特征,通过构建问题的语义组块,将问句中的词及词与词的组合,归并到表示问题主要语义信息的疑问焦点、问题主题和问题事件组块中。Abney[23]最早给出了一个完整的组块描述体系,组块是一种语法结果,其核心思想是把组块定义为从句内的一个非递归的核心成分,每个组块有一个中心词,组块内的所有成分围绕该中心词展开,任何一种类型的组块内部不包含其它类型的组块。文献[24]也提出了两条中文组块的基本规则并进行了语义类组块分析。问题语义组块的目标是为了从语义角度识别问句中能表达问题语义信息的语块,对其进行语义上的标注。本文参照组块的相关概念,给出三个语义组块的定义。

定义2 疑问焦点块(question focus chunk,QF)。 疑问焦点是与问题类型和答案内容密切相关的疑问内容,是问题中最有强度的信息。疑问焦点块对应的是问句中的疑问词或疑问词与名词短语等词组的组合。

定义3 问题主题块(question topic chunk,QT)。 问题主题是一个问题的疑问对象所在,是问题的信息主体,描述某个与该问题密切相关的话题和背景。问题主题块对应的是问句中主要实体信息。

定义4 问题事件块(question event chunk,QE)。问题事件是问题中在某个特定的时间和地点下发生的若干动作行为。一般情况下,动作的触发词是问句中的主要动词或动名词。问题事件块由<(动作),(时间),(空间),(效果)>四元组构成。

4.2 问题语义表征模型

问题语义表征是一种问句语义信息表示的方法,通过语义组块的形式,将问句最直观的疑问焦点、主题和事件等主要信息看作是一种抽象的语义标记,从而达到对问句进行语义分析的目的。通过定义疑问焦点块、问题主题块、问题事件块三个核心语义组块,对一个问句进行问题语义表征。问题语义表征将一个问句映射为一个问题理解的语义数据结构,表示问题的语义信息。对一个问句Q,定义一个三元组表示问题语义组块结构(Question Semantic Chunk Structure,QSCS),如式(1)所示。

QSCS (Q) ={Qf, Qt, Qe}

(1)

Qe=SSQE==

(2)

式(1)中的Qf表示疑问焦点块,Qt表示问题主题块,Qe表示问题事件块。式(2)表示问题事件块的问题事件语义,是一个复合结构。Qea表示问题事件块的触发词核心动作要素;Qet表示问题事件块的时间要素;Qel表示问题事件的空间要素;Qed表示问题事件的程度和效果等描述要素。三个语义组块及其要素由问句中相应的词语组成。通过问题语义组块结构,采用向量表示问题主要语义成分。

例句Q: 2013年国内哪个银行率先上调了房贷利率?

2013年/Qet国内/Qel/哪个银行/Qf/率先/Qed/上调/Qe/了/O/房贷利率/Qt

QSCS(Q)={Qf(<哪个>,<银行>),Qt(<房贷>,<利率>),Qe}

Qe=),Qet(<2013年>),Qel(<国内>),Qed(<率先>)>,O表示语义组块以外的其他无关信息。

问题语义组块结构是问题语义表征的一种形式化表示。通过对问句进行问题语义表征,将一个问句转化为一个语义结构,而且以语义组块的形式进行表示,降低了问题语义分析的复杂性。问题语义表征模型获取了问题的关键语义信息,从而为从语义层面上问题理解提供基础。在问题语义表征的基础上,还可以进行问题语义相似度计算。

例如,问句Q1={2011年哪位运动员艰难获得了澳大利亚网球公开赛单打冠军?}、问句Q2={2011年谁最终拿到了澳大利亚网球公开赛单打冠军?},对两个问句分别进行问题语义表征后,得到的结果是:

QSCS(Q1)=,<运动员>),Qt(<澳大利亚>,<网球>,<公开赛>,<单打>,<冠军>),Qea(<获得>),Qet(<2011年>,Qed(<艰难>))>

QSCS(Q2)=),Qt(<澳大利亚>,<网球>,<公开赛>,<单打>,<冠军>),Qea(<拿到>),Qet(<2011年>,Qed(<最终>))>

可以看出,问句Q1和Q2进行问题语义表征之后,建立了问题语义表征结构向量。通过对两个问题语义表征结构进行相似度计算,可以判断两个问题所表达语义的一致性。利用问题语义表征结构还可以对语义组块的词语进行语义标注和同义词扩展,更深层次表达问题的语义信息,也可以采用基于问题语义表征结构对社区问答系统中大规模真实问句进行表征后,检索相似问题。

5 问题语义组块标注方法

在建立问题语义表征之后,如何获取其对应的语义信息,是要解决的关键问题。不同于文本事件抽取的是,本文面向开放域自动问答系统,并不能预先设定事件类别和区分候选事件。事件抽取方法分为基于规则的方法和基于机器学习方法。基于规则的方法依靠经验建立事件触发词库和时态知识库,更适合于受限领域。基于机器学习的方法在事件抽取中得到了广泛的应用,例如,隐马尔科夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy Model,ME)、最大熵马尔科夫模型(Maximum Entropy Markov Model,MEMM)和条件随机场模型(Conditional Radom Fields,CRFs) 等,这些方法基本思想是将事件抽取任务形式化为序列标注问题[25]或分类问题[18],取得了不错的效果。本文在识别问题事件信息的同时,还要抽取问题焦点和问题主题等语义信息,因此采用机器学习方法进行语义组块的识别。IOB2[26]标注体系在中文组块分析取得了很好的效果。本文使用IOB2策略,将一个问句看作一个序列,问题语义组块标注转化为序列标注问题,并使用机器学习算法条件随机场模型进行求解。

5.1 组块标注

采用IOB2策略刻画每个问句语义组块标注序列,为此设计一种专门用于问题语义组块的标注集合。在标注集中,每一个标记均有两个部分构成: 第一部分是词语在问句语义成分中的位置,起始位置用B(Begin)表示,内部位置用I(Inter)标识;第二个部分标识问题语义组块的类别,分别为Qt(问题主题块),Qf(疑问焦点块)、Qea(问题事件块动作要素)、Qet(问题事件时间要素)、Qel(问题事件空间要素)和Qed(问题事件效果要素)。标注集合为{B-QT,I-QT,B-QF,I-QF,B-QEA,I-QEA,B-QET,I-QET,B-QEL,I-QEL,B-QED,I-QED,O}。不属于问题语义成分的词语,统一标记为O(Outer)。

5.2 序列标注学习模型

条件随机场模型(Conditional Random Fields,简称CRFs)[27]是一种判别式训练的概率无向图模型,它具有表达元素之间的长距离依赖性特征能力以及较好地解决标注偏置问题等特点,在汉语组块分析取得了最好的识别效果[28]。

其中,w~v互为图G中的相邻节点。此时,(X,Y)可以看作是一个条件随机场。

CRFs模型最简单的形式是线性的CRFs,即模型中各个节点之间构成线性结构。设观测序列X=(X1,X2,…,Xn)和输出标注序列Y=(Y1,Y2,…,Yn),并且假设X,Y的长度相同。联合概率分布的表达形式可以写为式(4)。

(5)

其中i遍历输入数据序列的所有位置,fk(yi-1,yi,x,i)表示在i位置时各个特征组成的特征向量。于是,CRFs定义的条件概率分布为式(6)。

在确定概率分布公式后,CRFs需要进行参数估计和解码。CRFs参数估计是对概率的对数最大似然函数求最值。对于该CRFs概率模型来说,对数最大似然参数估计的任务是从相互独立的训练数据中估计参数λ=(λ1,λ2,…,λn)的值,文献[27]提出了两个迭代缩放的算法GIS算法和IIS算法,用于估计条件随机场的极大似然参数。给定一个输入数据序列x,标注的目的就是找出其对应的最可能的标注结果序列y*,如式(7)所示。

CRFs使用维特比解码(Viterbidecoding)算法来得到最佳的标注结果序列。

5.3 特征选择

在语义组块标记实验中采用CRFs模型的实现软件CRF++作为序列标注工具[29],定义特征函数

模板,包括状态特征函数和转移特征函数。CRF++工具包区别了两个类型的特征,一个是Unigram特征;另一个是Bigram特征,区别是构建特征时是否包含前一个输出。Bigram可以产生更多的特征但是效率较低。本文利用了两种特征,定义的语义组块是针对每一个词进行的,对每一个词按照一定的规则进行语义块标注,在词层面选择的特征有词(Word)特征、词性(POS)特征以及二者的组合特征。选取特征的范围包括以当前词为中心,前后两个词,大小范围为5的窗口内的词和词性。设计的特征模板如表1所示。

表1 语义组块标注特征模板

其中,特征模板中W代表的是词本身,P代表了词性。括号内的数值代表了与当前词的位置信息,例如,W(0)表示当前词,W(+1)表示当前词的后一个词,W(-1)表示当前词的前一个词;“+”号代表特征的组合。CRF++根据特征模板和训练语料中的语义组块标记集,生成全部的特征函数。

6 实验结果分析

6.1 实验语料及评价方法

本文实验从百度知道、新浪爱问等互动媒体上搜集了金融、电脑等领域含有事件(动作)信息的问句共11 370个(其中金融领域问句6 670个,电脑领域问句4 700个),使用中科院分词系统进行了分词和词性标注,采用5.1节中定义的13个标记组成的标记集,对问句集的所有问句按照问题语义表征的标注方法人工进行了语义组块标注,为了保证人工标注的正确性,在两人同时标注的基础上交叉核对,遇到争议的情况讨论决定。在对收集到的问句进行人工标注的过程中,发现社区问答系统领域真实问句存在大量事件信息不完整的情况,事件信息完整的问句仅有851个,占7.48%;问句中的时间要素、空间要素或效果部分缺失或全部缺失的情况较为普遍。对标注后的语料的事件要素进行统计情况如表2所示。

表2 实验语料事件要素统计

在实验中取问句集的2/3(7 580句)用作训练语料,其余1/3(3 790句)用作测试语料。对于测试结果的评价分析,本文采用信息检索常用的3个评测指标: 准确率(P)、召回率(R)和综合指标F值(F)来评测问题语义组块识别的结果。其定义如式(8)所示。

6.2 实验结果分析

条件随机场模型在序列标注上具有优势,本文的标注实验采用CRF++工具包完成。考虑到标注数据量有限,实验中CRF++的参数设置频率阈值f默认为1 ;拟合度c 值取值为5。实验结果如表3所示。

表3 基于CRFs的组块识别实验结果

表3是对疑问焦点块、问题主题块及问题事件要素组块的标注实验结果,从中可以看出,问题事件的疑问焦点和问题主题的标注效果较好;问题事件的动作要素标注正确率达到了83.48%。但是,问题事件时间要素、问题事件空间要素、问题事件效果要素等标注正确率并不高。进一步我们做了一个实验,将疑问焦点块、问题主题块全部手工标注为无关信息(O),定义四个语义组块QEA,QET,QEL和QED,只对问题事件语义信息进行学习标注,发现问题事件动作要素的标注正确率达到86.78%,而问题事件其他要素的标注正确率仍然较低。从本实验中可以发现,问题事件时间、空间和效果等要素的数据稀疏,对语义组块的训练学习效果具有较大的影响。

本文还采用最大熵模型、最大熵马尔科夫模型对本文的语料进行了实验,并与条件随机场模型进行了比较,其结果如表4所示。

表4 不同模型实验结果比较(%)

从表4不同模型的实验结果比较来看,在相同特征和语料库的条件下,与ME、MEMM模型相比,CRFs取得了较好的性能,CRFs模型能够考虑到上下文标记间的转移概率,克服了最大熵马尔科夫模型所具有的标记偏置的问题。

7 结论及展望

研究复杂类问题的问题理解算法是实现面向中文问答系统的关键步骤。目前很少有针对复杂类问题的问题理解方法,复杂问题处理的一个难点如何处理其中包含的事件信息以及这些事件的语义信息。复杂类问题所蕴涵的语义信息如没有得到全面的分析和理解,导致句子理解并不能从语义层面上进行处理,问答系统难以获得满意的效果。由此可见,要提高中文问答系统的水平,关键在于提高问题理解,特别是在问题理解语义分析上的水平。本文从疑问焦点、问题主题和问题事件三个语义成分的角度,提出了一种问题语义表征模型,试图获取复杂类问题的问题语义信息,目前较为困难的是对问题中事件语义的表征,且语义组块内的结构信息或语义组块之间的关系难以获取,同时缺乏足够的问题语义组块标注语料,在自动标注方面还难以取得出色的效果。下一步将尝试采用半监督学习算法,探索在语料标注资源有限的情况下的自动标注算法,并且考虑加入语义组块内部结构信息或语义组块之间的关系,以提高问题理解的性能。

[1] 郑实福,刘挺,秦兵等.自动问答综述[J]. 中文信息学报,2002, 16(6):46-52.

[2] 范士喜,王晓龙,王轩等.面向真实环境的问句分析方法[J].电子学报,2010,38(5):1131-1135.

[3] 张志昌,张宇,刘挺等.开放域问答技术研究进展[J].电子学报,2009,37(5):1058-1069.

[4] 刘小明,樊孝忠,刘里.融合事件信息的复杂问句分析方法[J].华南理工大学学报, 2011,39(7):140-145.

[5] 由丽萍,范开泰,刘开瑛. 汉语语义分析模型研究述评[J].中文信息学报, 2005, 19 (6) : 57-64.

[6] 朱倩,程显毅,韩飞.汉语句子语义三维表示模型[J].智能系统学报,2009,4(2):122-130.

[7] 陈康,樊孝忠,刘杰等.基于问句语义表征的中文问句相似度计算方法[J].北京理工大学学报,2007,27(12):1073-1076.

[8] 陈康,樊孝忠,刘杰等.受限领域问答系统的中文问句分析研究[J].计算机工程,2008,34(10):25-27.

[9] 余正涛,樊孝忠.基于最大熵模型的汉语问句语义组块分析[J].计算机工程,2005,31(17):3-5.

[10] 吕叔湘. 疑问•否定•肯定[J]. 中国语文, 1985, 4: 241-250.

[11] 邵敬敏.现代汉语疑问句研究[M]:华东师范大学出版社,1996.

[12] 尹洪波.现代汉语疑问句焦点研究[J].江汉大学学报(人文科学版),2008,27(1):92-96.

[13] 陈永平,杨思春,毛万胜等.中文问答系统中基于主题和焦点的问题理解[J].计算机系统应用,2011,20(6):56-60.

[14] Huizhong Duan, Yunbo Cao, Chin Yew Lin, et al. Searching questions by identifying question topic and question focus[C]//Proceedings of ACL 2008: HLT. Columbus, Ohio, USA: Association for Computational Linguistics, 2008: 15-20.

[15] 孙景广,蔡东风,吕德新.基于知网的中文问题自动分类[J].中文信息学报,2007,21(1),90-95.

[16] 亢世勇,许小星,刘金凤等.现代汉语句子语义成分标注研究[C]//第七届中文信息处理国际会议论文集.2007.

[17] 刘小明,樊孝忠,李方方.一种结合本体和焦点的问题分类方法.北京理工大学学报[J].2012,32(5):498-502.

[18] ACE (Automatic Content Extraction) Chinese Annotation Guidelines for Events. National Institute of Standardsand Technology, 2005.

[19] 赵妍妍,秦兵,车万翔等.中文事件抽取技术研究[J].中文信息学报,2008,22(1): 3-8.

[20] 刘宗田,黄美丽,周文等.面向事件的本体研究[J].计算机科学,2009, 36(11):189-192.

[21] Frank Schilder, Christopher Habel.Temporal information extraction for temporal question answering[R]. AAAI Technical Report SS-03-07,2003.

[22] James Pustejovsky, Luc Belanger.NRRC summer workshop on temporal and event recognition for question answering systems[R].Technical Report,2002.

[23] Abney S.Part of speech tagging and partial parsing,In: Ken Church,Steve Young and Gerrit Bloothooft(eds.)[C]//Proceedings of the Corpus-Based Methods in Language end Speech,An ELSNET Volume.Kluwer Academic Publishers,Dordrecht,1996, 119-136.

[24] 孙广路,郎非,薛一波.基于条件随机域和语义类的中文组块分析方法[J].哈尔滨工业大学学报,2011,43(7):135-139.

[25] 胡博磊,贺瑞芳,孙宏等.基于条件随机域的中文事件类型识别[J].模式识别与人工智能,2012,25(23):445-449.

[26] Ramshaw L, Marcus M. Text chunking using transformation-based learning [C]//Proceedings of the 3rdWorkshop on Very Large Corpora. Stroudsburg, PA: Association for Computational Linguistics, 1995: 82-94.

[27] Lafferty J, McCallum A, Pereira F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the 18th Int Conf on Machine Learning. San Francisco, CA: Morgan Kaufmann, 2001:282-289.

[28] 周俊生,戴新宇,陈家骏等.基于大间隔方法的汉语组块分析[J].软件学报,2009,20(4):870-877.

[29] Taku K.CRF++ Toolkit[CP].(2003-01-06)[2009-01-02].http://crfpp.sourceforge.net.

Event Information Enhanced Question Semantic Representation for Chinese Question Answering System

WEI Chuyuan1, 2, ZHAN Qiang1, FAN Xiaozhong1, MAO Yu1, ZHANG Dakui1

(1. School of Computer Science &Technology, Beijing Institute of Technology, Beijing 100081, China;2. Department of Computer Science&Technology, Beijing University of Civil Engineering and Architecture, Beijing 100044, China)

Question understanding of complex questions is a challenging issue in question answering system. For complex questions containing events (actions) information, this paper presents a question semantic representation (QSR) model based on semantic chunk. The semantic components of a complex question are labeled abstractly as the question focus, the question topic and the question event. A Semantic Structure of Question Event is then created to represent the semantic information of question event, including the question focus chunk, the question topic chunk and the question event chunk. To map the interrogative sentence into this question semantic representation, the Conditional Random Fields model is adopted for automatic semantic labeling of question semantic representation. The results show that automatic semantic labeling gains better performance.

complex classes of questions; event; question semantic representation; semantic chunk; question understanding

魏楚元(1977—),博士研究生,副教授,主要研究领域为自然语言处理、问答系统。E⁃mail:weichuyuan@bucea.edu.cn湛强(1975—),博士研究生,讲师,主要研究领域为自然语言处理。E⁃mail:zq156259@126.com樊孝忠(1948—),教授,博士生导师,主要研究领域为自然语言处理、数字化网络教学。E⁃mail:fxz@bit.edu.cn

1003-0077(2015)01-0146-09

2014-05-14 定稿日期: 2014-09-19

国家重点基础研究发展计划 (973 计划)(2013CB329303);国家自然科学基金(61371194);北京市优秀人才培养资助项目(2013D005017000006)

TP391

A

猜你喜欢
组块焦点语义
真实场景水下语义分割方法及数据集
焦点
语言与语义
组块理论的解读及启示
融入注意力机制的越南语组块识别方法
“两会”焦点
本期焦点
批评话语分析中态度意向的邻近化语义构建
焦点
“吃+NP”的语义生成机制研究