词性标注规范化探索

2009-05-13 08:34万红雅刘丙丽牛雅娴
现代语文 2009年11期

万红雅 刘丙丽 牛雅娴 董 艺

摘 要:词性标注问题一直是计算语言学中的一个难点问题,对于一些词类的标注标准和方法,至今仍未统一,如兼类词、区别词,这给进一步的句法分析和语料库的共享带来了很大困难,甚至有时候会造成资源的浪费。本着实用的目的,在参考各家标注策略的基础上,本文对兼类词、区别词和状态词的标注给出了统一的标注策略。

关键词:词性标注 句法分析 兼类词 区别词 状态词

一、引言

在大多数情况下,对语料进行词性标注,只是语料库建设的一个开始,而不是终点。句法标注是当前的一个研究热点,是建立在词性标注基础上的一项工作。我们在对语料进行句法标注的过程中发现,分词系统中一些词类标记会给句法分析工作带来一些困扰。这些问题不仅影响到句法标注的效率,也影响到标注的准确性和一致性。因此,在分词及词性标注阶段,应考虑词类标记对句法层面的影响,以节省人力、物力。

首先,分词类别(或POS标记)应该在句法上有功能意义,例如名词、动词等。因为那些不是从句法层面划分出来的标记,即使标示出来也无法在句法分析中进行处理。

其次,在有意义的基础上,我们需要把握一个度。因为与语言本体或语言理论研究追求细致和完美的目的不同,语言工程更多地是要求时效性和可行性。在语料库的标注过程中,词类划分不宜过多或过少。词类过少,对句法分析的深度和精度不够。词类过多,又会使语言分析和处理的过程太复杂,代价太高。那么,到底划分多少词类才能在句法层面达到自足呢?对世界上13种语言依存句法的考察表明,在进行自动句法分析时,一种语言所划分出的词类数量一般应当控制在在10~20之间。

本文通过系统①,探讨了兼类词以及区别词和状态词的词性标注问题。我们将首先对所讨论的标记概念进行界定,然后对比当今国内几大分词系统对其的处理,最后经过综合分析探讨之后,提出一些具有可行性的建议。

二、兼类词

兼类词从狭义上讲是指同一个义项(严格说是同一概括词)兼属多个词类。如“小时(n/q)”。从广义上讲还包括意义上有联系的几个义项属于不同词类。如“通知(v/n)”。

兼类词的处理在计算语言学中一直是个颇有争议的难点问题,怎么来处理兼类词,区分还是不做区分,粗分还是细分。为了回答这些问题,我们从语言本体和计算机处理的角度,对国内的几个分词系统进行了分析和比较。

据统计,兼类词主要出现在名词、动词、形容词、副词之间。那么,这几个分词系统是如何处理这些词类的呢?表1为几个系统对五种词类的标注:

表1:四大标注系统的五类标记对比

从上面的对比和对具体语料的考察可知,四个系统对兼类都做了不程度的区分:A和D较严格地区分了各种兼类情况,并且连“名物化”现象都做了区分。B系统的分词类别最为详尽,但具体对兼类的处理和C系统并没有大的差别,它们都只对明显的兼类情况做了区分。

但是,当在这些系统输出的基础上进行句法分析时我们却发现:(1)由于语言使用的灵活性,机器还不能对大量的兼类做很好的区分,如像“工作”类广义的兼类词都不能很好地区分,仍需要人工排查。(2)由于动词性兼类大量不做区分,致使动词成了全能词,其功能在数据上的区分度在所有词类中最低。(3)兼类词的不做区分不利于计算机句法分析,也不利于基于语料库的语言学研究。

基于以上分析,我们认为,对兼类的处理应该采取严格区分的标准,综合考虑进一步句法分析的需要和宽泛意义上的通用性需要,并参考本体语言学的有关研究成果。因此我们提出如下建议:

第一,对于兼类词的第二种情况,也即意义上有联系的几个义项属于不同的词类的,既然是不同词类,就必须分开,如“锁、领导、工作、死”等。陆俭明认为,从本体研究的需要出发,这些词并不属于兼类词,也就是说虽同音,但意义不同,所以必须分开。

第二,对于兼类词的第一种情况,这也是分词系统的难点问题,是我们主要解决的问题。在四个系统中,只有A和D对其做了区分,但其区分并没有改变词类,只是从活用的角度在小类内部做了区分,如vd与vn,虽然从词类上看似比较合理,但对进一步的句法分析并没有什么大的帮助。况且我们仔细分析就会发现,不只是动词和形容词存在这种情况,名词也会有这种情况,比如现在看来已经很普遍的“很+名”现象,如果按这样的观点,很大一部分名词如“阳光、女人”都应该标为na,但为什么没有标呢?

这类兼类主要有以下几种情况:

1.“v-n”兼类、“v-d”兼类

在黄昌宁等的统计中,动词和名词的兼类在《中学生词典》中占兼类词总数的49.8%,在《兼类词选释》中占兼类词总数的37.6%。据郭锐统计,具有名词性的动词在10300个动词中有2381个,占23%,在词频最高的前3925个词中共有1220个,占31%。因此,对这类词的处理对句法分析会产生较大的影响,应分开处理,如“研究、调查、学习、发展、解决”等。动词和副词的兼类虽然数量上没有前者多,但由于其功能性比较明显(直接作状语),因此我们也建议分开。

2.“a-n”兼类、“a-d”兼类

因为动词和形容词同属谓词类,且这类兼类情况在兼类中的数量仅次于动名兼类,因此,我们也建议区分开来。形容词和名词的兼类如“安全、健康、平衡、奥妙”等,形容词和副词的兼类如“认真、深入”等。

3.“n-q”兼类

有些名词可以经常用在数词的后面表示物量或者动量,前者如“碗、桶、车”等,后者如“刀、笔、天”等。因为其功能比较明显,并且在数据库中这类词的数量也并不少,因此按量词处理。

4.名词的其他活用

虽然我们对动词、形容词的活用都做了区分,但考虑到这类名词活用现象的数量有限性和意义单一性,我们对名词临时具有形容词性质的情况不做区分,仍按名词处理。

三、区别词和状态词

形容词是汉语实词中非常重要的一类词,一般表示事物的性质、状态,其内部分类比较复杂。在比较早期的语法书当中,以下的几类词统统被归为形容词:

a.黄、慢、大、幼稚、美妙、透明、简单,安全……

b.黝黑、雪白、火热、碧蓝、稀里糊涂、古里古怪……

c.上等、慢性、有线、长途、活期、金、副……

其中,c类最早由吕叔湘、饶长溶(1981)提出,他们称之为“非谓形容词”,是形容词的一个次类。朱德熙先生在《语法讲义》里首次将c类形容词单列为“区别词”。

对应于语法上的不同分类,现存的国内语料库在词性标注这一问题上,存在着明显的差别。有的系统把区别词从形容词中划分出来,如系统a、c。在系统a中,还对区别词进行了更为细致的区分:①一般为切分单位,并标以词性b,如女/b司机/n,金/b手镯/n;②单音节区别词和单音节名词或名语素组合,作为一个切分单位,并标以名词词性n,如雄鸡/n,雌象/n;③少数“单音节区别词+双音节词”的结构作为一个词收入了词典,则不再切分。总书记/n。与之不同,系统b把形容词分为四类:性质形容词aq、区别词b、唯谓形容词ap、状态形容词as;系统d则把区别词从形容词当中分割出来,将区别词分为b区别词、b1区别词性惯用语,而且把状态词也从形容词中分割出来并给予一个z作标记。

从计算语言学的角度来看,这些对形容词的分类都因太复杂而影响到了句法分析的效率。如何处理才能更适合进一步的句法分析呢?首先从语言本体的方面,针对这三类词的不同性质特征,作一个比较,见表2:

表2:三种形容词的对比

不难发现,尽管这三类词的语法功能各不相同,但是,它们有一个唯一的共同点,即作名词的定语。不同的分词标准,服务于不同的研究目的。由于“区别词的词类本质是修饰,功能固定而单一”。较好地体现了形容词性成分的功能,所以遵循着灵活的分类意见,本文建议将这三类词归并在一起。区别词可以看作作定语的形容词当中的一个小部分,状态词则或作谓语,或作补语,或作定语的形容词中的一个小部分。

在语言本体研究上应该把区别词和形容词作一个明确的区分,区分的理论价值不容否认。而“区别词的词类本质是修饰,功能固定而单一”。从工程的角度,即从语料库的建设角度所采取的划分则与之迥异。因为与语言本体或语言理论研究追求细致和完美的目的不同,语言工程更多是要求可行性和可操作性。

四、结语

在计算语言学中,语料库的标注是进行一切研究的基础,从语料库工程建设的角度讲,我们应坚持经济省力原则,对于不必要的词类标记建议能简则简。正如本文所述,在参考各家本体语言学研究的基础上,对于兼类词,除少数名词活用之外,我们建议严格按功能区分词性,将其划到各个词类之中;而区别词、状态词,则建议不再和形容词区分开来。标注方案的一致性不仅能节约资源,减少建设语料库的资金投入,同时也能给我们的研究和应用带来便利,为进一步开发语料库奠定基础。

(本文为中国传媒大学“211工程”三期重点学科建设项目,名称为“汉语有声媒体语言依存句法树库构建与应用研究”。)

注 释:

①A系统:北京大学现代汉语语料库加工规范,《中文信息学报》,

16卷第5期;B系统:国家语言文字应用研究所计算语言学研究室,信息处理用现代汉语词类标记集规范,《语言文字应用》,2001年8月第3期;C系统:哈工大信息检索研究室汉语依存树库;D系统:中科院计算所汉语词性标记集。

参考文献:

[1]郭锐.现代汉语词类研究[M].北京:商务印书馆,2002.

[2]Liu,Haitao&Huang,Wei.A Chinese Dependency Syntax for Treebanking[M].Beijing:Tsinghua University Press,2006.

[3]陆俭明.现代汉语语法研究教程[M].北京:北京大学出版社,2005.

[4]黄昌宁,童翔.汉语真实文本的语义自动标注[J].语言文字应用,1993,(4).

[5]俞士汶,段慧明,朱学峰,孙斌.北京大学现代汉语语料库加工规范[J].中文信息学报,2002,(5).

[6]北京大学中文系现代汉语教研室.现代汉语专题教程[M].北京:北京大学出版社,2003.

(万红雅 刘丙丽 牛雅娴 董艺 北京 中国传媒大学应用语言学研究所 100024)