面向机器翻译的句类依存树库构建及应用

2015-04-25 09:57王慧兰张克亮
中文信息学报 2015年1期
关键词:句法类别语义

王慧兰, 张克亮

(1. 空军指挥学院,北京 100097;2. 解放军外国语学院,河南 洛阳 471003)



面向机器翻译的句类依存树库构建及应用

王慧兰1, 张克亮2

(1. 空军指挥学院,北京 100097;2. 解放军外国语学院,河南 洛阳 471003)

该文以汉英机器翻译为应用目标,以概念层次网络理论的语义网络和句类分析方法为理论基础,探讨了句类依存树库构建的理论和标注实践等问题,描述了构建树库所需的概念类别标注集和句类关系标注集。并通过与已有汉语树库进行对比,以汉语显性轻动词句的标注为例,分析了汉语句类依存树库的特点。该文在应用层面定义了面向汉英机器翻译的融句法语义信息于一体的“句类依存子树到串”双语转换模板,尝试基于汉语句类依存树库提取汉英转换模板。

机器翻译;概念层次网络理论;句类依存树库

1 引言

以句法树为基本元素的树库是自然语言理解与处理的重要资源。目前国内外的树库基本上可以分为两大类,一类是主要呈现句法信息的树库,例如,英国的Lancaster-Leeds树库、美国的宾州树库;还有一类主要呈现词语之间的语义支配关系,例如,德国的Tiger树库、捷克的布拉格依存树库PDT,另外Fillmore主导建设的框架网络FrameNet中每个框架都配有若干经过句法语义分析的例句,从广义角度讲FrameNet也可以看作某种树库。

2 现有汉语树库的标注信息对比

目前国内外比较有影响的汉语树库主要包括,宾州大学汉语树库PennCTB、“台湾中央研究院”(以下简称“中研院”)汉语树库Sinica、清华大学树库TCT、北京大学汉语树库、哈尔滨工业大学汉语依存树库HIT-IR-CDT以及山西大学汉语框架语义知识库Chinese FrameNet(CFN)。文献[1]对现有汉语树库的规模、应用领域等进行了总结,现有汉语树库均有各自的标注体系以及标注特点,树库包含的标注信息决定了树库已开发的以及潜在的应用领域。本文综述的重点则在于现有汉语树库所标注的句法和语义信息,如表1所示(√表示已标注,其后的数字表示标注集的大小;×表示未标注相关信息)。

表1 现有汉语句法树库已标注信息

PennCTB[2]以乔姆斯基的短语结构语法为理论基础,标注了句子的层次关系、短语的结构类型、功能类型以及词语的词类。台湾中研院语言所和资讯所联合建设的Sinica树库[3]以信息为本的格语法为理论基础,兼顾了句法和语义信息,不仅标注了句子的层次关系、短语的结构类型以及词类,还标注了名词短语的语义角色,并开发了包含9个特征标记的标注集。北京大学计算语言学研究所的汉语句法树库[4]与清华大学TCT句法树库[5]二者一脉相承,均以汉语传统的层次分析法为理论基础来标注句子层次,采用了相对较小的词类标注集,并在词类标注的基础上对于直接成分之间的句法关系进行了标注。国家语委的现代汉语语料库也基本上采用了相似的构建思路[6]。哈工大汉语依存句法树库[7]以依存语法为理论基础,采用了国家语委863项目开发的词类标注集(由23个词类标记符组成)[8],并开发了一个包含24种句法依存关系的关系标注集。山西大学CFN句子库的标注信息包括词类、短语类型、语法功能以及框架元素[9-10]。

现有的汉语树库在句法、语义的描写方面各有侧重,采用的句法分析方法也各不相同,但无论在句法标注还是语义标注层面,都存在一定局限。以往汉语树库的共同点在于,基于现有的词类体系进行汉语句法分析,该词类体系是从印欧语系中引进的舶来品,对于汉语而言,由于现代汉语语法体系中词类和句法成分之间不存在一一对应的关系,导致兼类词、词类歧义偏多。而语义层面的标注目前主要还停留在语义表层,语义标注的类型主要分为语义角色(semantic role)标注和语义框架(semantic frame)标注,还没有涉及到深层次的语义信息。“由于语义角色类型有限,忽略了语言表达中的细节,实用价值受到限制[9]。”

“既然我们的普遍共识是,汉语的词性和句法功能是不像英语中那样严格对应的,那么一个以词性为基础,以主谓宾等句法功能为架构的汉语树库,真的能够全面而真实地反映汉语的语言现实吗?[11]” 对于“词无定类,离句无品”的现代汉语而言,我们尝试寻找一种更适用于汉语的词的分类方法,以及句子分析方法,并在此基础上构建一个更为本土化的汉语树库。本文在概念层次网络(Hierarchical Network of Concepts, HNC)理论框架下,以HNC语义网络和句类理论为理论基础,拟构建一个面向机器翻译领域的汉语句类依存树库,重点标注词语级的概念类别信息和句子级的语义依存信息,并尝试探讨该句类树库在汉英机器翻译领域的应用。

3 汉语句类依存树库的构建研究

本小节拟在概念层次网络(Hierarchical Network of Concepts, HNC)[12-14]理论框架下,研究汉语句类依存树库构建中的相关理论与操作实践问题。

3.1 树库构建的理论背景

目前基于句法的机器翻译研究仍然依赖于词类体系,而词形、词类都具有较强的语言个性,但是与词形词类相比,概念则具有跨语言共性,可以成为翻译过程中的中介体系。众所周知,语义范畴具有相对性,概念体系的具象化亦非常难,我们仅从语义知识颗粒度相对较粗的概念类别出发,构建基于词的语义类的句类依存树库,为基于句法的汉英机器翻译定义一种新的双语转换模板。

HNC理论是关于人类语言认知机制的理论,也是面向计算机的自然语言理解理论体系,该理论以概念类别为基础,而非词类,根据句子核心动词的语义类别对句子进行分类(即句类),更适合于意合的汉语。HNC对于概念之间层次性和关联性的描述体现在三大语义网络中: 基本概念、基元概念以及逻辑概念语义网络。基本概念语义网络包括时间、空间等基本概念;基元概念语义网络的构建以作用效应链为基础,包含作用、过程、转移、效应、关系及状态六个主体基元概念子网络,是HNC句类分析的基础;逻辑概念语义网络包括语言逻辑概念(如语义块标识符、句间逻辑说明符等)和基本逻辑概念(如比较、判断等概念)。HNC语义网络具有概念化、基元化、层次化和网络化等四个基本特征,是概念联想脉络的线索[13]。

句类由语义块构成,是句子的语义类型,HNC句类划分的标准是“作用效应链+判断”,他们表述事物的基本侧面及句子的基本语义信息,一共有作用句、过程句、转移句、效应句、关系句、状态句和判断句七大句类共57组基本句类,基本句类彼此之间又可以形成混合句类,依靠57组基本句类及其混合句类可以穷尽表达自然语言中的所有句子,且所有句类都可以利用句类表达式进行形式化表达[13]。

以 “中国今天公布了去年打击走私的巨大成果。”为例,句子的特征语义块(主要动词)为“公布”,是整个句子的支配者,该句的句类为信息转移(T3)与效应(Y30)的混合句,句类表达式如式(1)所示。

T3Y30*21J=TA+T3Y30+YC

(1)

该句类表达式可以预测句子的主要语义类别以及包含的主语义块数目和类型等相关句类知识。“中国”为转移者TA,“今天”为j1(时间概念),即时间辅语义块,“了”为hv(特征语义块的后附加成分,也称为特征语义块核心的下装),小句“去年打击走私的巨大成果”为效应内容YC。

3.2 树库标注集

标注树库需要完善的标注体系和规范的标注流程,从而保证标注语料的高质量和一致性。用于标注句类依存树库的共有两个标注集,其一为概念类别标注集,其二为句类关系标注集。

3.2.1 概念类别标注集

概念类别标注集基于HNC语义概念体系而建立,用于表示词语的主要概念类别意义,例如,“普京”标注为fp(人名)等。我们构建句类依存树库时主要利用了已建成的HNC词语知识库资源,该知识库中一共标注了53 000多个词形,每个词形可能具有多个语义类别,例如,“后院”具有两个概念类别: wj01(具体空间);pj01(社会空间)。

HNC词语知识库中每个词形的各语义类别都分别标注了该词语的概念类别、HNC符号、句类代码、语句格式、句类知识等知识,目前在HNC句类自动分析系统中仅仅利用了词语的概念类别知识,还无法对HNC符号进行自动解读。我们在构建句类依存树库时主要利用了词语知识库中的概念类别、句类代码等知识,并对其中的概念类别进行了规范统一处理。

概念类别标注集分为以下11大类: v类概念(动态概念)、g类概念(静态概念)、u类概念(属性概念)、z类概念(值概念)、r类概念(效应概念)、p类概念(人)、w类概念(物)、jw类概念(基本物)、j类概念(基本概念)、l类概念(语言逻辑概念)、f类概念(语习概念)。

例1 中国/pj2 今天/j1 公布/v 了/hv 去年/j1 打击/v 走私/v 的/l41 巨大/u 成果/r 。/pun

例2 此外/lb ,/pun 委员会/pe 还/uv 相继/uv 派/v 团/pe 赴/v 台/pj2- 访问/v ,/pun 与/l02 台湾/pj2- 工商界/pj01 进行/vv 了/hv 广泛/u 的/l41 接触/v 和/l42 交流/v 。/pun

3.2.2 句类关系标注集

句类关系标注集用于标注词语之间的语义依存关系,与以往树库关系类标注集的最大区别在于我们的句类关系标注集不是封闭集合,是以HNC句类分析理论为支撑的半开放集。仍以例1 “中国今天公布了去年打击走私的巨大成果。”为例,来具体说明句类关系标注集的类别。

句类关系标注集分为以下两大类6小类。

(1) 句类核心成分,其与支配者的句类关系利用句类表达式中的符号表示,包括以下a、b两个小类:

a) v类概念自身的语义类别,包括充当全局特征语义块的v概念以及充当局部特征语义块(块扩、句蜕的核心成分)的v概念,如图1中全局特征语义块“公布”,其语义类别为T3Y30(信息转移与效应),局部特征语义块“打击”的语义类别为X(基本作用);

b) v与相关广义对象语义块之间的关系,如图1中“中国” 与其支配者“公布”的关系类别为TA(转移者),“成果”与其支配者“公布”的关系类别为YC(效应的内容),“走私”与其支配者“打击”的关系类别为XB(作用的对象);

图1 句类依存关系图示

(2) 句类非核心成分,其与支配者的句类关系利用其本身的概念类别符号表示,一共有以下4个小类:

c) 特征语义块Ek的复合构成,如图1中结构助词“了”为特征语义块的后附加成分,也称为Ek的下装,关系类别用“了”本身的概念类别hv表示;

d) 时间、地点、方式、工具、参照等辅语义块,如图1中的“今天”、“去年”概念类别均为时间概念,其与支配者的关系类别用概念类别j1(时间)表示;

e) 语义块核心成分的修饰性成分,包括传统的定语及补语,如图1中的属性概念“巨大”,其与支配者“成果”的句类关系利用概念类别u(属性)表示;

f) 句子的附加成分,主要包括连接词、插入语等成分,如图1中的结构助词“的”,其与支配者“成果”的句类关系利用概念类别l41(语习概念l4中的一类,语义块内部的偏正组合)表示。

3.2.3 两个标注集的关系

正如句法分析以词类为基础,在句类依存树库的构建中,句类分析以词的概念类别为基础,概念类别标注集是词语层面的标注集,句类关系标注集则为句法层面的标注集(此处的句法更偏向于语义层面)。

我们对于句子的句类依存分析基于以下假设: 汉语中词语的概念类别决定了词语在句类中能够充当怎样的句类角色(即广义对象语义块,如上例中的TA、XB、YC等),例如,TA类广义对象语义块往往是由人、物、组织机构等具有行为能力的概念来充当。因此,对于句类角色的标注必然要以概念类别为基础;对于句子中的非句类角色成分而言,其概念类别与句类关系是一致的,因为概念类别本身就决定了其与相邻成分间的句类关系,例如,l41类概念是指修饰关系,上例中“的”为l41类概念,“的”与“成果”之间的句类关系也正是修饰关系,因此直接用概念类别符号l41表示句类关系。

3.3 句类依存树例释及标注工具

在现有研究基础上,本文利用xml语言构建了基于HNC句类理论和HNC词语知识库的汉语句类依存树库,样例如图2所示*本文依存树的可视化方式基本上沿用了哈工大依存树库的可视化方法。。

图2 可视化句类依存树

句类依存树上标注的句法和语义信息包括: 句子的句类(句子的主要语义类别)与语句格式(语义块排列的表层顺序),句子中每个词语的概念类别,每一个词语的父节点(支配者),词语之间的有向弧表示了相关词语之间的语义支配关系,有向弧上的标记表示词语之间的句类关系。在可视化句类依存树上仅显示了语义支配关系及句类关系。

本研究开发了基于HNC词语知识库和同义词词林的句类依存树辅助标注工具(图3),在构建树库过程中主要采用半自动化标注方法从HNC词语知识库中自动查找词语的概念类别,当有多个语义类别时人工选择其中一个语义类别,并由标注者人工标注词语之间的语义支配关系和句类关系。目前,HNC词语知识库的规模为53 000个左右词形。为了扩展词语知识库,我们利用同义词词林进行辅助,即当在HNC词语知识库中无法查询到目标词时,自动转入同义词词林中查询,并在同义词词林中选择与该词最接近的一个同义词重新进入HNC词语知识库中进行查询,直到在HNC词语知识库中找到该词为止。如果以上两个步骤都未能查询到目标词,则由标注者人工判断并手动输入该词的概念类别。本树库目前的标注规模为试验性的2 000个汉语复杂句子,语料均为政论语体。

图3 句类依存树库辅助标注工具

4 句类依存树库的特点

构建句类依存树库,并不是为了标新立异,本文希望这种新的树库模式能够为中文信息处理提供另一种的视野和思路,在现有研究的基础上进一步深化现代汉语句法语义的形式化分析。

4.1 特点之一: 以概念为核心来理解词与句

汉语句类依存树库最大的特点是以概念为核心。首先根据概念类别对词进行分类。郭锐指出,“词类本质上说是词在内在表述功能上的类别。”汉语中,词的表述功能往往是由词的意义决定的,意义在认知层面则体现为概念。因此我们尝试在HNC语义网络框架下为汉语词汇进行概念分类,我们将词分为11大类(共93个小类),例如,

“调查”为动态概念,记作v类概念;

“中国”为行政区划概念,记作fpj2;

“主席”为人类概念,记作p。

其次,根据句子核心动词的概念类别对句子进行句类分析。汉语的句子构造并不依赖于词的功能类别体系。探求汉语句子的本质,需要以汉语词汇的概念类别体系为基础,对汉语的词,特别是句子的中心动词进行概念层面的分门别类。HNC句类分析正是基于句子核心动词的概念类别,并综合句子语义块的切分对句子进行分类。

4.2 特点之二: 擅长处理汉语多动词句

汉语多动词句是自然语言理解与处理的难点之一,汉语动词不带形态标记导致计算机难以准确判断各动词之间的主从关系,而以往树库对于多动词句的分析并没有突出其特点,以多动词结构“显性轻动词+V”为例,以往树库对于显性轻动词(如“进行”)的词性标注或该结构的句法语义分析,都与语言事实存在较大差距,国家语委制定的“信息处理用现代汉语词类标记集规范”[8]将“进行”类动词处理为“形式动词”,区别于一般动词,符合语言学家们的判断,但该标记集并没有在中文信息处理领域获得广泛应用,而宾州树库将“进行”标注为VV(一般动词),Sinica树库标为VC(动作及物动词),北大树库标为V(一般动词),均没有将这类在句法和语义上有别于一般动词的显性轻动词做特别标注,这必然导致该类结构的句法语义分析不够准确。句类依存树库在构建过程中将重点关注汉语多动词句的标注规范与技巧,以使之体现和保持汉语本色。

以宾州汉语树库为例,调查发现,宾州树库在“进行”句的句法分析中将“进行+V”处理为一般性的动宾结构,例如,

例3 两岸可先就正式结束敌对状态进行谈判。

例4 该处现正就6宗较严重的山泥倾泻事件进行详细调查。(本例选自宾州汉语树库3.0)

在宾州汉语树库中,“进行谈判”与“进行详细调查”的句法分析如图4所示。

图4 宾州汉语树库对汉语显性轻动词结构的句法分析

这样的分析至少存在以下两个弊端: 首先,未将“进行”与一般动词进行区别,无法表现出“进行”的特殊性,无法体现该类句式在语义表达上的独特之处,即无法突出动词性宾语的语义中心地位,这在句子的深层理解中将导致句子语义角色确认不当,并影响整个句子的语义理解;其次,“进行”后的宾语均处理为一般名词,这显然与语言学家们对“进行”后接谓词性宾语这一共识相冲突。由此可见,宾州树库对“进行”句的处理并不完全符合语言学家们的认识,对该类句式的句法以及语义分析方法仍有待深入。

文献[12]将“进行”类形式动词定义为高层v概念,在词语知识库中利用5元组符号vv表示,“vv类概念是HNC引入的v类概念之一,它要求补充另一个v类概念,才能形成意义完备的E块主体。[12]”HNC理论在概念表达的层面就给形式动词赋予了特殊的地位,这一处理方式突出了“进行”类动词在句法语义表达上的特殊性,使之区别于一般v类概念。

在句类分析层面,仍以例3“两岸可先就正式结束敌对状态进行谈判。”为例, “vv+v”类特征语义块,如“进行谈判”,黄先生称之为“高低搭配”,是特征语义块核心构成的其中一种形式。这类高低搭配的语义中心在“进行”后的低位动词v,即“谈判”,句子的核心动词由低位动词“谈判”充当而非高层概念词“进行”,句中名词性成分“两岸”与低位动词“谈判”之间的语义关联构成了整个句子的语义结构,这与语言学家们对“进行”句的认识是一致的。图5显示了汉语句类依存树库对例3的分析。

图5 句类依存树库对汉语显性轻动词结构的句法分析

对于这类结构的分析,我们在FrameNet中找到了类似的分析思路,如例5(摘选自文献[15])是一个英语的显性轻动词句。

例5 The senator paid me a compliment on my work.

Fillmore的分析思路是将动词“pay”分析为支持动词(support verb),整个句子的源框架来自于框架“Compliment”,而非“pay”,句中的名词性成分“senator”、“me”及“work”分别源于框架“Compliment”的框架元素“speaker”、“addressee”及“reason”[15]。这一阐述亦可作为汉语句类依存树库对汉语显性轻动词句的分析佐证。

5 汉语句类依存树库的应用

句类依存树在自然语言表征方面与以往树库相比,其创新之处在于加入了词语的语义类别知识以及句子主要成分之间的句类关系知识,本节通过实例说明句类依存树库在汉英机器翻译领域的应用前景。

现有机器翻译系统采用的双语表征方式各不相同,由此得到的翻译模板也各有千秋,以往基于语料库的机器翻译方法(无论基于实例的还是基于统计的),主要使用的翻译模板可以分为以下几类: 基于非结构化句法的、基于短语结构树的、基于句法依存树的及基于语义框架或语义特征的翻译模板几大类。基于语言学句法的机器翻译方法表现出了一定优势[16],而且目前汉外机器翻译研究方法中,“树到串”的方法应用也较为广泛[17],因此,本文定义的汉英翻译模板为基于汉语句类依存树库的“句类依存树到串”的语义转换模板。

心理语言学的研究表明,人在翻译过程中的翻译单元(translation unit)往往并不是一个句子,而是比句子低一级的单位。在机器翻译领域,随着双语对齐技术的发展深化,短语级对齐和词语级对齐技术不断发展完善,语块(chunk)级的匹配单位以及语块级的双语转换模板逐步成为主流。本节尝试从经标注的汉英双语平行语料(汉语语料标注为句类依存树)中提取基于“句类依存子树”[18]的双语语义转换模板库,期望为汉英机器翻译提供一种包含更多语义信息的模板。

仍以例1 “中国今天公布了去年打击走私的巨大成果。”为例,下图为该例在模板抽取过程中的子树划分图示(图6)。

图6 “句类依存子树到串”模板抽取子树

“句类依存子树到串”的模板抽取结果:

模板5~13为包含终结点的底层模板,均源于双语串的词级对齐信息,模板2~4为中层模板,模板1为包含根节点的高层模板。现以高层模板1为例,对其抽取过程解释如下: 以T3Y30为支配者的子节点与T3Y30一起构成源语子树T3Y30(x1:TA x2:j1 x3:hv x4:YC),该子树包含一个支配节点与四个子节点x1-4,其与支配节点之间的句类关系分别为TA、j1、hv、YC。通过语料库中的词级对齐信息我们得到以下知识,T3Y30(公布)对齐于目标语串announced,其对应节点表示为T3Y30: announced,x1:TA(中国)节点对齐于目标语语串的单词China,x2:j1(今天)节点对齐于目标语语串today,x3:hv(了)节点无对齐单词,x4:YC(成果)节点对齐于目标语语串results,图7展示了从汉英词对齐“句类依存树到串”词级对齐语料中人工抽取“句类依存子树到串”汉英转换模板的过程。

图7 “句类依存子树到串”汉英转换模板抽取

6 结语

树库的构建是一项非常复杂的工程,树库标注一方面需要标注者具备专业的理论知识以及对于现代汉语的分析能力;另一方面,标注的准确性、一致性等问题都需要重点关注。在标注的过程中,发现的问题主要集中在两个标注集的规范上: 概念标注集中部分小的类别出现频率太低,可以合并,其中以l类语言逻辑概念为主;部分小类如hv类概念则可以继续细分;概念关系的标注则表现出了一定主观性,需要进一步细化标注规范,保持整个语料库的前后一致。另外,在模板抽取过程中,可尝试自动抽取的方法以提高效率。

[1] 王跃龙, 姬东鸿. 汉语树库综述[J]. 当代语言学, 2009,11(1): 47-55.

[2] Xue N, Xia F, Chiou F D, et al. The Penn Chinese Treebank: phrase structure annotation of a large corpus[J]. Natural Language Engineering, 2004, 10 (4): 1-30.

[3] 陈凤仪, 蔡碧芳, 陈克健, 等. 中文句结构树资料库(Sinica Treebank)的构建[J]. Computational Linguistics and Chinese Language Processing, 1999, 4 (2): 87-104.

[4] 周强, 张伟, 俞士汶. 汉语树库的构建[J]. 中文信息学报, 1997,11(4): 42-51.

[5] 周强. 汉语句法树库标注体系[J]. 中文信息学报, 2004,18(4): 1-8.

[6] 靳光瑾, 肖航, 富丽,等. 现代汉语语料库建设及深加工[J]. 语言文字应用, 2005,2:111-120.

[7] Liu T, Ma J, Li S. Building a dependency treebank for improving Chinese parser[J]. Journal of Chinese Language and Computing, 2006, 16(4): 207-224.

[8] 国家语委语言文字应用研究所计算语言学研究室. 信息处理用现代汉语词类标记集规范[J]. 语言文字应用, 2001,3:16-20.

[9] 刘开瑛, 由丽萍. 汉语框架语义知识库构建工程. 中文信息处理前沿进展[C]//中国中文信息学会二十五周年学术会议论文集.北京, 2006:64-71.

[10] 刘开瑛. 汉语框架语义网构建及其应用技术研究[J]. 中文信息学报, 2011,25(6):46-52.

[11] 董振东.下一站在哪里[J].中文信息学报, 2011,25(6):4-12.

[12] 黄曾阳. HNC(概念层次网络)理论: 计算机理解自然语言的新思路[M].北京: 清华大学出版社, 1998.

[13] 苗传江. HNC理论导论[M]. 北京: 清华大学出版社, 2005: 300-315.

[14] 张克亮, 黄曾阳. HNC作用效应句的汉英句类转换[J]. 中文信息学报, 2003,17(5):19-26.

[15] Fillmore, C J. FrameNet and the Linking Between Semantic and Syntactic Relations[C]//Proceedings of COLING 2002, 2002.

[16] 刘群. 机器翻译研究新进展[J]. 当代语言学, 2009(2):147-158.

[17] Liu Y, Liu Q, Lin S. Tree-to-string alignment template for statistical machine translation[C]//Proceedings of COLING/ACL 2006:609-616.

[18] Xie J, Mi H, Liu Q. A novel dependency-to-string model for statistical machine translation[C]//Proceedings of EMNLP 20112011:216-226.

Construction of Chinese Sentence-Category Dependency Treebank and Its Application

WANG Huilan1, ZHANG Keliang2

(1. Air Force Command College, Beijing 100097, China; 2. PLA University of Foreign Languages, Luoyang, Henan 471003, China)

Aimed at the application in Machine translation, this paper conducts a research on the construction of Chinese Sentence-Category Dependency Treebank (CSCDT) based on the theory of Hierarchical Network of Concepts (HNC). The conceptual category tagset and the Sentence-Category relation tagset for the treebank are presented together with the example tree of CSCDT. Compared with other Chinese treebanks, this paper discusses two advantages of CSCDT. In addition, the translation template of Sentence-Category dependency subtree to string are defined to construct translation template library for Chinese-English machine translation.

machine translation; hierarchical network of concepts; sentence-category dependency treebank

王慧兰(1982—),博士,讲师,主要研究领域为计算语言学,现代汉语语法。E⁃mail:hlwang9@sina.com张克亮(1964—),博士,教授,主要研究领域为计算语言学,机器翻译,知识工程。E⁃mail:kliang99@sina.com

1003-0077(2015)01-0075-07

2012-04-15 定稿日期: 2012-11-19

国家社科基金(10BYY009);河南省哲学社会科学规划一般项目(2012BYY004)

TP391

A

猜你喜欢
句法类别语义
真实场景水下语义分割方法及数据集
述谓结构与英语句法配置
一起去图书馆吧
语言与语义
句法二题
诗词联句句法梳理
批评话语分析中态度意向的邻近化语义构建
“吃+NP”的语义生成机制研究
多类别复合资源的空间匹配
信息结构与句法异位