一个面向信息抽取的中文跨文本指代语料库

2015-04-25 09:57赵知纬钱龙华周国栋

中文信息学报 2015年1期

关键词：歧义指代语料

赵知纬，钱龙华，周国栋

(1.苏州大学自然语言处理实验室,江苏苏州 215006)(2.苏州大学计算机科学与技术学院,江苏苏州 215006)

一个面向信息抽取的中文跨文本指代语料库

赵知纬，钱龙华，周国栋

(1.苏州大学自然语言处理实验室,江苏苏州 215006)(2.苏州大学计算机科学与技术学院,江苏苏州 215006)

跨文本指代(Cross Document Coreference, CDC)消解是信息集成和信息融合的重要环节，相应地，CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库，因此该文在ACE 2005语料库的基础上，采用自动生成和人工标注相结合的方法，构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库，并将该语料库公开发布，旨在促进中文跨文本指代消解研究的发展。同时，该文以该语料库为基础，分析了中文环境下跨文本指代现象的类型和特点，提出了用“多名困惑度”和“重名困惑度”两个指标来衡量跨文本指代消解任务的难度，为今后的跨文本指代消解研究提供一些启示。

跨文本指代；信息抽取；语料库标注；困惑度

1 引言

指代是一种常见的语言现象，即在文章中多个指代词指向同一个实体。指代消解的任务就是把所有指向相同实体的词组合在一起形成一个指代链[1]。指代消解可以分为文本内的指代消解和跨文本的指代消解。以往大量的研究工作都集中于文本内的指代消解[2]，取得了一定的成就。随着信息抽取技术向信息融合和知识工程等方向发展，跨文本指代消解也获得了广泛的重视[3]。所谓跨文本指代消解是指将不同文章内指向同一实体的所有指代词归入同一个指代链。MUC-6[4]就提出把跨文本指代(Cross Document Co-reference，CDC)消解作为一个潜在的任务，之后在ACE2008[5]中引入的全局实体检测和识别(Global Entity Detection and Recognition，GEDR)任务就包含了跨文本指代消解任务。跨文本指代消解不仅是信息抽取和信息融合中的关键任务，对信息检索、文本摘要等其他应用也有重要作用。

跨文本指代通常包含两种情况，“多名”现象和“重名”现象。前者指的是同一实体在不同文本中有不同的指代词，例如，“蓝色巨人”和“国际商业机器”均指代IBM公司；而后者则是指不同文档中的相同指代词指向不同的实体，例如，“比尔”可能指代“比尔·克林顿”，也有可能指代“比尔·盖茨”。因此，跨文本指代消解系统既需要将指代一个实体的多个名称归入到同一个指代链中，称为“多名聚合”，也需要将相同名称的不同实体归入到各自的指代链，称为“重名消歧”。

无论是采用有监督的学习方法，还是采用无监督的方法，跨文本指代消解都需要一个标准的语料库进行学习或评估。为此，近十年来，研究人员收集和标注了大量的跨文本指代语料库，并在这些语料库上利用各种方法进行跨文本指代消解的研究[3，5-8]。由于人工标注大规模的CDC语料库是一个费时费力的工作，因而大部分的语料库都是面向信息检索、用于人名“重名”消歧的英文CDC语料库[6-7，9-10]。而NIST组织的ACE2008任务GEDR则包含了面向信息抽取的、同时用于多名聚合和重名消歧的英文和阿拉伯文的CDC语料库。同样，JHU在ACE2005英文语料的基础上标注了一个小规模的实验性英文CDC语料库。到目前为止，还没有面向信息抽取的中文CDC语料库。

本文的研究工作就是要弥补这一方面的缺陷，其出发点是利用ACE2005的中文语料库，构建一个面向信息抽取、包含多名聚合和重名消歧两个子任务以及具有多种实体类型的实验性中文CDC语料库，称为ACE2005中文CDC语料库，并且将该语料库在苏州大学自然语言处理实验室网站上公开发布*http://nlp.suda.edu.cn/～qianlonghua/ACE2005-CDC.zip，以使同行可以使用该语料库进行中文跨文本指代消解的研究工作。尽管受ACE2005中文语料的限制，语料库规模较小，我们希望，本文的初步研究工作可以为面向信息抽取的跨文本指代消解提供一个开放的基准语料库，从而促进中文跨文本指代消解研究的发展。

2 相关工作

为了更清楚地比较目前的跨文本指代消解研究中所用到的语料库，我们按语料库的不同口径，例如，语料库规模、语料来源、所用语言、实体类型、消解任务、面向应用、标注粒度和标注方式等，对其进行分类和比较，结果如表1所示。

表1 各CDC语料库的比较

续表

总体上讲，CDC语料库可分为WEB挖掘型和人工收集型，下面分这两种情况进行说明：

a) WEB挖掘型：即按一定的查询条件从WEB中检索到语料，然后再进行手工或自动标注。这一类型语料库以小规模的手工John Smiths语料库[6]和大规模的自动Wiki Link语料库[11]为典型代表。前者还包括用于评测任务的WePS[9]和CIPS[10]语料，其主要特点是：

• 语料库的基本构建方法是挑选一个至数个人名作为查询条件从搜索引擎里面搜集相关网页，再用人工的方法将同一姓名而不同人物的网页分别归类，最后形成语料库；

• 人力的有限，以及各研究者很难自行构建具有规模的语料库，催生了Person-X[7]这样的人工增加歧义的方法。具体做法是选择几个人名，然后在被选中的人名所在文档中将该人名人工替换为Person-X以增加歧义；

• 面向信息检索任务，因而标注的粒度限于篇章级。

为了克服小规模CDC语料库中存在的实体分布单一和只有重名消歧的缺陷，Singh[11]提出了从海量的互联网数据中自动挖掘出一个大规模的高可靠性的CDC语料库。其具体做法是，针对不同网页中指向同一个维基百科实体条目的超链接，抽取锚点文本作为该实体的一个名称引用，将超链接附近的上下文作为该实体所在的文本，从而构造出一个CDC语料库。

b) 人工收集型：由于构建大规模的CDC基准语料库需要相当大的精力和时间，这部分的工作主要由NIST通过相关的评测任务来完成。特别地，ACE2008引入了GEDR和GRDR(Global Relation Detection and Recognition)两个跨文本的评测任务，即跨文本的实体识别和跨文本的关系识别。相比之前的CDC消解任务，ACE2008特点主要体现在：

• 将实体类型从单一的人名(PER)扩展为人名和机构名(ORG)；

• 面向信息抽取任务，因而将标注粒度从文本级别细化到句子级别，即同一个文本内的同一名称也可归入到不同的指代链；

• 引入“多名聚合”任务，即除了考虑“重名消歧”外，也同时将同一实体的不同名称归入到同一个指代链中；

• 语料规模较大，包含10 000篇不同来源的文本，且根据文本所包含的实体进行精心挑选，因而保证了实体分布的多样性。

在ACE2008之前，JHU 2007 CLSP暑期研讨会[12]会议，以ACE2005英文语料库为基础，构建了一个实验性的英文ACE2005 CDC语料库。此语料库虽然规模较小，但却具备了多种特点，如面向信息抽取、多种来源和多种实体类型等。鉴于此，本文以ACE2005中文语料为基础构建一个实验性的中文CDC语料库，选择ACE2005中文语料的主要原因有以下几点：

• 鲜有在中文方面信息抽取任务的CDC消解研究，相关语料库的缺失是一个主要问题，而ACE2008语料库很遗憾地没有提供对中文的支持；

• 希望研究多种类型的实体出现CDC现象的语言特征，而不是仅限于PER和ORG，结果表明GPE实体也拥有相当丰富的CDC歧义现象：该类型实体不仅占据了最多的实体引用数量，达到2 419个，而且其内部的具有跨文本指代的实体引用数量比例也高达85.4%；

• 进一步比较中文和英文在CDC现象上所呈现的语言特征的同异点，揭示CDC的跨语言共性；

• ACE2005语料库已经完成了文本内的指代标注工作，因而有助于快速地进行跨文本指代的标注。

值得一提的是，与跨文本指代消解相关，TAC (Text Analysis Conference) 评测的KBP (Knowledge Base Population)[13]任务中就有一个称为实体链接(Entity Linking)的子任务，其目的就是将在文本中出现的实体名称映射到一个包含大量实体的知识库中，从而为丰富知识库中的实体信息打好基础。由于同一名称往往对应知识库中的不同实体，因此同跨文本指代消解类似，实体链接也是解决实体消岐(Entity Disambiguation)[14]的两条途径之一。通常情况下，知识库中的实体来源于维基百科中的条目，其信息从信息盒(Infobox)中提取。实体链接与跨文本指代消解相比，虽然都涉及到实体名称的消岐，但前者是将文本中出现的实体名称归入到知识库中已有的某一实体下，该实体往往具有丰富的信息，这些信息有助于实体的链接；而后者是将一个文档集合中的同一实体归并起来，其所依赖的信息只有实体名称和上下文信息。另外，从语料的差异性上来看，实体链接大多使用维基百科中的网页作为训练和测试语料[15-16]，也有一些使用了Web上的链接信息以及领域特定语料库[14]；而跨文本指代消解一般使用从Web上检索到的网页文本作为训练和测试语料[9]，维基百科的网页比普通Web网页更规范，结构性更好。

3 标注方法及过程

基于ACE2005中文语料库的跨文本指代语料的标注过程分为语料库预处理、初始指代链生成、指代链手工调整和指代链输出等四个过程。

3.1 语料库预处理

原始的ACE语料库均使用XML标注方式，即所有的实体及实体对之间的语义关系等信息均以XML标记的形式嵌入到自由文本中，目的是提高标记的通用性、可读性及标注效率。为了处理方便，我们首先把含有XML标记的文本转换成不含标记的纯文本。这样，每个文档就得到两种形式：一个是文本文件，其中每一个句子占据一行，并且所有单词成分(包括标点符号等)之间都用空格分隔；另一个是标注文件，其中包含实体和关系的标注信息，并且实体之间通过相同的ID号来表明其指代关系。

3.2 初始指代链生成

首先，为每个文本的每个实体确定中心词，挑选原则是文本中某个实体中字符长度最长的名称引用。然后，就是按照字符串完全匹配的简单规则，将不同文本之间的相同中心词的实体链接在一起，形成初始的跨文本指代链。

3.3 指代链手工调整

这是真正的人工语料标注阶段。安排两位标注者A和B，要求他们逐一查看每一项实体，然后仅凭实体所在的文本信息来判断初始指代链是否存在错误，并且对不当的指代链做出修改。该过程中，两位标注者不得相互讨论，也不能借助于外部资料。在标注者完成人工标注完成后，仲裁者C介入。仲裁者首先要找出两标注者之间的差异，针对这些差异，仲裁者寻求外部知识来解决分歧，确定最终的指代链。

如图1所示的语料标注工具是由我们专门为此任务开发的，它由三个部分组成。第一部分列出指代链的中心词(headword)；第二部分列出的是每个中心词下面的指代链信息；第三部分是文本，即某一实体指代链中的某一引用所在的整个文本。根据预处理所得到的标注文件以及ACE定义的七大实体类型，将不同类型的实体以不同色彩来显示以增加清晰度。

图1 CDC标注界面

在标注过程中，经常会遇到指代链分解和合并等两种情况：

a) 分解：在初始指代链生成的时候，具有相同名称的实体引用全部归入到同一指代链中。当标注者发现其中部分引用名称指向另一实体时，就需要将它们归入已有的另一个指代链或者为其新建一个指代链。例如，“中国队”，这个时候只有上下文赋予其特定的含义：中国跳水队或者中国游泳队等，碰到这样的例子是就需要进行分解的操作。

b) 合并：当标注者发现两个不同的名称引用指向同一个实体时，就需要将其合并成一条指代链。如“重庆”和“渝”是同一个GPE实体的不同名称，需要将它们进行合并。

在实际的标注过程中，由于指代现象的复杂性，两种情况还会嵌套出现，特别是一些意义非常多样化的实体引用上。例如，“中国”和“北京”，两者可能指向不同的地理实体，也可能同时指向“中国政府”这一概念。

3.4 指代链输出

标注完成后生成如图2所示的标注文件。其中一级标记CDC中的ID属性表示某个实体在整个语料库中的编号，ENT_TYPE表示实体类型；次级标记ENTITY中的DOC属性表示指代链实体所在的文本名称，ID表示该实体在该文本中的实体编号，MENTION表示该实体在该文档中的字符串长度最大的引用名称。

图2 CDC标注结果

4 语料库统计与分析

本节首先对标注得到的CDC语料库按不同口径进行统计，然后对该语料库上的跨文本指代消解任务的难度进行分析。

4.1 一致性检验

为了衡量跨文本指代标注结果的一致性，我们让两位标注者同时对整个语料库进行标注。根据Passoneau[17]提出的语料库指代标注的可靠性计算方法，采用Krippendorff[18]的alpha系数来表示两位标注者之间的一致性。该系数通过计算指代链之间的相似度距离来表示不同标注者之间的一致性。Passoneau的相似度距离度量原则为：

• 当两条指代链完全吻合时距离为0；

• 当一条指代链是另一条指代链的子集时则距离设为0.33；

• 当两条指代链不互相包含且有公共的非空子集时，则距离设为0.67；

• 否则当两条指代链交集为空集时，距离值设为1。

使用以上方法，我们计算得到两位标注者的标注结果的alpha系数为96%。Krippendorff认为，低于67%的alpha系数表明标注结果不可靠，因此我们认为两位标注者的标注结果是高度一致的。

4.2 语料库统计

4.2.1 按实体类型分布情况

在最终的语料库中，共有3 618个实体和6 771个实体引用(名称)。在所有实体引用中，FAC类型占299个，GPE有2 419个，LOC有233个，ORG有1 939个，PER有1 860个，VEH和WEA分别为17个和4个。从实体引用是否具有跨文本指代的角度来看，有2 795个引用对应2 795个孤立实体，这些引用不存在“重名”，对应的这些实体也不存在“多名”，即名称和实体是完全的一对一映射的关系。这部分孤立实体的引用占总数的41.3%，其余3 976个引用对应643个实体，即存在“多名”或者“重名”的跨文本指代现象。

图3显示了各个实体类型中，存在跨文本指代消解现象的引用所占的比例。从图中可以看出，对于不同的实体类型，跨文本指代现象的分布不尽相同。GPE类型的实体引用存在指代的比例高达85%，占据了所有实体引用指代的55%；ORG和PER次之，而LOC和FAC则最小。可见，GPE类型的实体指代消解性能将会对整个系统的性能造成较大的影响。

4.2.2 “多名”指代的分类及分布

图3 CDC按实体类型分布图

在整个语料库中，具有跨文本指代的实体一共有643个，其中“多名”实体，即拥有多个名称的实体数量为255个，占CDC实体总数的40%，占整个语料库所有实体的7%。通过对这些实体名称进行分析可以发现，具有“多名”指代的实体名称可以分为以下四种类型：

• 名字省略，即两个名称之间具有包含关系，但指向同一个实体，例如，“山东省”和“山东”均指向同一个GPE实体；

• 翻译差异，主要表现在两个方面，一是外来词音译时的用词差异，例如，“班达亚齐”和“班达雅奇”均指印尼的Banda Aceh；二是港澳台地区和大陆地区的不同翻译，比如“朝鲜”和“北韩”分别是大陆地区和台湾地区对DPRK(Democratic People’s Republic of Korea)的不同称呼；

• 错别字，例如，“宏基”和“宏碁”，后者是台湾宏碁公司的正式名称，而前者是别字；

• 别称或者转喻，即字串间的交集为各字串的真子集，例如，“重庆”和“渝”，“北京”或指“中国”；

我们注意到，有些实体会出现一种以上的多名指代现象。

表2列出了四种多名指代类型在总数中所占的比例，从中可以看出，多名现象中“名称省略”占了大多数，而“别称”所占比例最小，因此解决名字的省略问题可以显著提高该语料库中的跨文本指代消解的性能。

表2 多名指代的分布

4.2.3 “重名”歧义中的分类及分布

整个语料库中出现的所有实体引用可归结为 3 795种不同的名称。这3 795种名称，在语料库里面出现次数大于1的名称为666个，这其中具有“重名”歧义的共有70个，这说明重名歧义的现象相当少。我们的分析表明，该语料库中具有“重名”歧义的实体名称可以分为三种类型：

• 名称转喻所引起的重名歧义，例如，“北京”既可以指北京这个城市，在外媒中往往又代表中国政府；

• 名称省略而导致的重名歧义，这个类型比较复杂，在各ACE实体类型中表现不同：在ORG实体中，省略定语等修饰词的实体名称，如“共产党”可以是中国共产党也可以是古巴共产党；在GPE实体中，地名简称造成了重名歧义，例如，“苏”可以指江苏，或者指苏州，也可以是指苏联；在PER实体中，用姓来称呼人，例如，姓“布莱尔”的人，可以有不同的名，亦如“张某”，可能指向不同的张姓人士；

• 不当标注而造成的重名歧义，例如在语料库中存在二个实体引用“利马”，其中一处说的是秘鲁首都，而另一处说的是马来西亚的“利马航展”，ACE在标注时把“利马”和后面的被修饰成分分开不太合适。由于不同语言之间语言现象的复杂性和差异性，我们认为ACE的某些标注原则在中文环境下欠妥。

还有一种在人名中较为常见的，名称完全相同造成的重名歧义，在本语料库中并未出现。

表3统计了这三类“重名”歧义现象在总数中的分布情况，其中省略所占的比例最高，而转喻则比例最低。有趣的是，名称省略也是引起“多名”现象的主要原因，因此有效解决省略问题能显著提高跨文本指代消解的整体性能。

表3 重名歧义的分布情况

4.3 语料库的困惑度分析

Popescu[19]在研究人名的重名消歧问题时，将一种名称所对应的实体数量称为“困惑度”，并且认为人名的“困惑度”与进行消歧所需的特征数量成正比。为了更好地考察在本文所构造的语料库上进行跨文本指代消解的难度，我们结合Popescu的观点以及信息论中困惑度的概念，提出了衡量“多名聚合”和“重名消歧”复杂度的“多名困惑度”和“重名困惑度”以及“CDC语料库等效模型”等概念。

4.3.1 多名困惑度

要衡量某一实体的不同引用的分布，不仅要考虑该实体有多少个不同名称，还要考虑每种名称所占的比例，这两个因素都会对跨文本指代消解系统的性能产生影响。为了更好地描述问题，引用下列形式化表示：

根据上述公式计算得到整个语料库的“多名困惑度”为1.19。由于语料库中存在2 795个既没有“多名”也没有“重名”的孤立实体，把这些孤立实体排除后语料库的“多名困惑度”上升为1.36。语料库的“多名困惑度”可以直观的理解为每个实体平均拥有多少个等概率出现的名称。由此可见，上述计算结果表明语料库中一个实体平均拥有1.19个引用名称，把孤立实体排除后，多名现象加重，一个实体平均拥有1.36个引用名称。

4.3.2 重名困惑度

与“多名困惑度”不同的是，“重名困惑度”衡量一个名称被不同实体所引用的不确定性，但其实只是将实体和引用的位置进行了互换，因此可以采用与“多名困惑度”相同的方法进行计算，即对于语料库中的一个名称Mi，计算其被不同实体引用的数量分布。由此，我们得到整个语料库的“重名困惑度”(PPr)等于1.06，排除孤立实体后，语料库的“重名困惑度”上升到1.10，它表明一个名称分别对应于1.06或1.10个实体。

4.4 基准性能

为了评估在该语料库上进行跨文本指代消解的难度，我们使用理论计算、字符串精确匹配以及向量空间模型等三种方法进行基准性能的评估。

首先从计算基准性能的理论值，根据上一节分析所得到的原始语料库中的实体以及名称引用的概率分布，本文用信息熵的办法将原始语料转换成与原始语料库“等效”的虚拟语料库。在这个语料库中，|Ce|个实体等概率出现，而且每个实体的所有引用也是等概率分布的——即每个实体平均拥有PPv种等概率出现的名称；从名称的角度来说，|Cm|种名称等概率出现，并且每种名称平均对应PPr个等概率出现的实体。假设对该语料库采用字符串精确匹配的方法进行跨文本指代消解，即将具有相同名称的实体都归入同一个指代链，遵循B3打分方法[20]的思想，那么其精度就是该指代链中所含实体的纯度，即精度就是“重名困惑度”(PPr)的倒数，而其召回率参考指代链中名称引用的纯度，即为“多名困惑度”(PPv)的倒数。

需要注意的是，在计算性能的时候，我们通常使用去除了孤立实体后的重名困惑度和多名困惑度。原因是孤立实体在字符串匹配方法中必然100%匹配成功，因而不考虑在内。同样，下面实验中的性能评估也使用这一原则：如果孤立实体匹配成功则不计算其带来的性能收益，若匹配错误则计算其带来的性能损失。

接着，我们使用字符串精确匹配的方法来进行跨文本指代消解，也就是认为具有完全相同名称的实体为同一实体，实验结果使用B3打分方法进行评估。

最后，在不考虑实体名称的前提下，我们使用了广泛采用的向量空间模型来进行跨文本指代消解，具体方法为：首先在一个特定的窗口范围内抽取待消解实体名称的上下文特征词；然后计算TF*IDF衡量每个特征的权值并由此构成每个实体的特征向量；最后使用层次聚类的办法合并实体名称。在此过程中通过调节窗口大小以及聚类阈值来获得最佳性能。实验结果同样使用B3打分方法进行评估，三种方法的性能如表4所示。

表4 跨文本指代消解的基准性能比较

从实验结果可以看出：

• 字符串精确匹配方法的性能明显高于理论分析的结果，这是由于CDC语料库中实体和引用分布的“长尾效应”[3，21]所导致的，即每种名称总是对应于某个占统治地位的实体，同时每个实体中总是对应于某个占统治地位的名称，因此原始语料库上的CDC消解要比虚拟语料库上的CDC消解来得简单。

• 无论是采用哪种方法计算基准性能，精度值都显著大于召回率，这是由于语料库中的“重名”歧义现象较少(“重名困惑度”较小)，即使武断地将相同的名称都聚到同一实体链下，也能获得较高的精度。而“多名”指代现象略微丰富一些(“多名困惑度”稍高)，于是召回率明显低于精度。

• 采用向量空间模型得到的性能明显低于另二种方法得到的性能，其主要原因有二个，一是主题多样性。同一实体，如“台湾”，既可能出现在政治和经济新闻，也可能出现在社会、娱乐和体育新闻中。不同主题的文档语境不同，上下文迥异；二是上下文稀疏性。很多情况下，一个待消解的实体名称在文档中仅仅是顺便提到，其上下文信息也就非常稀疏。

虽然简单的字符串匹配就能取得较好的性能，而且就信息检索的角度来看，能够捕获文本中的最主要实体及其引用在某些情况下已经足够了，但是，本语料库的出发点是面向信息抽取的跨文本指代消解，因而其最终目的是为信息集成和信息融合提供服务，即将分布在不同文本的实体及其相关信息通过跨文本指代消解构成一个内容更丰富的知识库。为确保信息的可靠性和丰富性，信息融合对跨文本指代消解的性能特别是召回率有更高的要求，因此，我们下一步的工作是如何进一步提高面向信息抽取的跨文本指代消解的性能。

5 结论和下一步的工作

本文在ACE2005中文语料库的基础上，采用自动生成和人工标注相结合的方法，构建了一个面向信息抽取的中文CDC语料库，并将该语料库公开发布，旨在促进中文跨文本指代消解研究的发展。通过对该语料库的进一步统计和分析发现，在所有的ACE实体类型中，跨文本指代现象较为严重的类型依次为GPE、ORG和PER等，且实体的多名现象和重名现象主要是由于名称省略而引起的，因而有效地解决名称省略问题能显著提高跨文本指代消解的性能。另外，本文还提出了“多名困惑度”和“重名困惑度”两个指标，以便从理论上衡量跨文本指代消解的难度，在此基础上分析了理论分析和实验方法所得到的性能之间的差异。

不足之处在于，由于本文所构建的CDC语料库是基于现有的ACE 2005语料库，因而其规模较小，因此今后的工作重点是一方面利用自动或手工的方法进一步扩充其规模，另一方面，在该语料库上尝试使用不同的方法来提高中文跨文本指代消解的性能。

[1] Dagan I， Itai A. Automatic Processing of Large Corpora for the Resolution of Anaphora References[C]//Proceedings of the 13th conference on Computational linguistics. Stroudsburg, PA, USA: Hans Karlgren, 1990： 330-332.

[2] 王厚峰．汉语指代消解与省略恢复研究[D]. 中国科学院声学研究所2000届博士后出站报告．

[3] Mayfield J, Alexander D, Dorr B, et al. Cross-Document Coreference Resolution: A Key Technology for Learning by Reading[C]//Proceedings of the AAAI 2009 Spring Symposium on Learning by Reading and Learning to Read. Stanford, California: March 23, 2009： 65-70.

[4] Grishman R, Beth S. Message Understanding Conference-6: a brief history[C]//Proceedings of the 16th Conference on Computational Linguistics (COLING'96). Copenhagen, Denmark: August, 1996： 05-09.

[5] NIST Speech Group. The ACE 2008 evaluation plan: Assessment of Detection and Recognition of Entities and Relations Within and Across Documents[EB/OL]. http://www.nist.gov/speech/tests/ace/2008/doc/ace08-evalplan.v1.2d.pdf, 2008.

[6] Bagga A， Baldwin B. Entity-Based Cross-Document Coreferencing Using the Vector Space Model[C]//Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and the 17th International Conference on Computational Linguistics (COLING-ACL'98). Montréal, Québec, Canada: 1998： 79-85.

[7] Gooi C H, Allan J. Cross-Document Coreference on a Large Scale Corpus[C]//Proceedings of HLT-NAACL 2004. USA，2004： 9-16.

[8] Batista-Navarro R T, Ananiadou S. Building a Coreference-Annotated Corpus from the Domain of Biochemistry[C]//Proceedings of the 2011 Workshop on Biomedical Natural Language Processing, ACL-HLT 2011. Portland, Oregon, USA: June 23-24, 2011： 83-91.

[9] Artiles J, Gonzalo J， Sekine S. Web People Search Task at SemEval-2007[EB/OL]. http://nlp.uned.es/weps/weps2007_data_readme_1.1.txt, 2007

[10] CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP2010)[EB/OL]. http://www.cipsc.org.cn/clp2010/task3_ch.htm, 2010.

[11] Singh S, Subramanya A, Pereira F, et al. Large-Scale Cross-Document Coreference Using Distributed Inference and Hierarchical Models[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Portland, Oregon: 2011: 793-803.

[12] CLSP Summer Workshop. Exploiting Lexical & Encyclopedic Resources for Entity Disambiguation[EB/OL]. http://www.clsp.jhu.edu/ws2007/groups/elerfed/documents/ELERFED-CDC-Overview.v2.ppt, 2007.

[13] Task Description for Knowledge Base Population at TAC 2009[EB/OL]. http://apl.jhu.edu/～paulmac/kbp/090601-KBPTaskGuidelines.pdf, 2009

[14] 赵军, 刘康, 周光有, 等. 开放式文本信息抽取[J]. 中文信息学报, 2011, 25(6): 98-110.

[15] Rao D, McNamee P， Dredze M. Entity Linking: Finding Extracted Entities in a Knowledge Base, Multi-source, Multi-lingual Information Extraction and Summarization[M]. Germany, Springer, 2011.

[16] Cucerzan S. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of Empirical Methods in Natural Language Processing. Prague: June 28-30, 2007： 708-716.

[17] Passoneau R J. Computing reliability for coreference annotation[C]//Proceedings of the International Conference on Language Resouces (LREC). Lisbon, Portugal: May 2004.

[18] Krippendorff K H. Content Analysis: An Introduction to Its Methodology[M]. Beverly Hills, CA: Sage Publications, 1980.

[19] Popescu O. Person Cross Document Coreference with Name Perplexity Estimates[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Singapore: 6-7 August 2009： 997-1006.

[20] Bagga A. Evaluation of Coreferences and Coreference Resolution Systems[C]//Proceedings of the First Language Resource and Evaluation Conference. Granada, Spain: May 1998.

[21] Baron A, Freedman M. Who is Who and What is What: Experiments in Cross-Document Co-Reference[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Honolulu: October 2008： 274-283.

Construction of Information Extraction-orientated Chinese Cross Document Coreference Corpus

ZHAO Zhiwei, QIAN Longhua, ZHOU Guodong

(1. Natural Language Processing Laboratory, Soochow University, Suzhou, Jiangsu 215006, China;2. School of Computer Science & Technology, Soochow University, Suzhou, Jiangsu 215006, China)

Cross Document Coreference(CDC) resolution is an important step in information integration and information fusion. As a consequence, a CDC corpus is indispensable for research and evaluation of CDC resolution. Given the fact that no Chinese CDC corpus is publicly available oriented for information extraction, this paper describes how to build a CDC corpus based on the ACE2005 Chinese corpus via automatic generation and manual annotation, which covers all the ACE entity types. The corpus is made publicly available to advance the research on Chinese CDC resolution. In addition, this paper analyses the types and characteristics of CDC in Chinese text as well as proposes the concept of two metrics, i.e., “variation perplexity” and “ambiguity perplexity”, to evaluate the difficulty of Chinese CDC resolution, providing some insights for further CDC research.

cross document coreference; information extraction; corpora annotation; perplexity

赵知纬(1987—)，硕士研究生，主要研究领域为信息抽取。E⁃mail：none．zhao@gmail．com钱龙华(1966—)，通讯作者，副教授，硕士生导师，主要研究领域为自然语言处理。E⁃mail：qianlonghua@suda．edu．cn周国栋(1967—)，教授，博士生导师，主要研究领域为自然语言处理。E⁃mail：gdzhou@suda．edu．cn

1003-0077(2015)01-0057-10

2012-04-09 定稿日期： 2012-08-06

国家自然科学基金(60873150，90920004);江苏省自然科学基金(BK2010219,11KJA520003)

TP391