基于语义角色和句法标注的新词语语义类识别研究

2016-04-07 08:55张晨
安徽文学·下半月 2016年3期

张晨

摘 要:对语义的理解能帮助我们更好地理解某个词语、整句话乃至整个篇章或整个对话的含义,而找出语义识别则就是帮助计算机“理解”词语、句子和篇章含义的前提性工作。其中,词语的语义识别是基础。新词语的增长早已是一个不可忽视的趋势,中文信息处理作为应用语言学的一大触手,面对这样的形势当然也要迈出自己的步伐。本文以语料的句法成分和语义角色的标注为基础,研究满足某句法成分和语义角色条件的词语的义类倾向,以期能够将研究成果用于中文信息处理中新词语义类的推测研究,来帮助推进中文信息处理早日实现“智能化”。

关键词:中文信息处理 语义角色标注 句法成分标注 义类识别

一、引言

在信息处理中,若能让计算机对语义做出分析、判断、预测,让计算机能够识别和理解人类自然语言,这将是信息处理的一项重大举措,也是让计算机真正实现“智能化”的重要前提。其中,词语的语义识别是基础,也是信息抽取、机器翻译等应用领域的基础问题。本文的研究重点就是词语的语义识别。

在句法与语义对应关系的接口问题的研究上,我们认为是词汇语义在这条锁链中起着决定性作用,它决定着语义角色,进而影响到句法成分,部分研究也正是选用了从词汇语义到语义角色、句法成分的研究方向。结合阿普列相的语言整合描写理论,本文采取了与上述研究方向相反的逆向研究方向,以语义角色和句法成分为抓手,反推词汇语义,以期用于中文信息处理的新词语处理工作中。

二、本研究思路

词语组成句子,句子进而构成篇章,这是人类自然语言通常的构成层次,我们也可以据此将语义识别分为词语语义识别、句子语义识别和文本(篇章)语义识别。对于中文信息处理来说,对词语的识别是一系列后续工作的基础。目前,新词语的增长早已是一个不能忽视的事实,又加上汉语的博大精深,这些都无疑不给中文信息处理带来巨大的挑战。同时,阿普列相在他的语言整合描写理论中主张将词汇和语法这两个不同意义层面的概念结合起来,融为一体。综合以上三点,作者以语料的句法成分和语义角色的标注为基础,研究满足某句法成分和语义角色条件的词语的义类倾向,结合当前新词语增长给中文信息处理带来重重困难的汉语真实现状,以期能够将研究成果用于新词语义类的推测研究,来帮助推进中文信息处理进一步实现“智能化”。

(一)语料库的建设

整个实验研究分析是以语料库为依托的,本文研究需要两个语料库,分别为《中小学语文课本标注语料库》和《义类倾向信息库》。下文将分别介绍这两个语料库的构建步骤和方法。

一、《中小学语文课本标注语料库》的建设

《中小学语文课本标注语料库》是以人民教育出版社的语文课本为基础,然后进行扩充形成的。我们选用其中全日制普通高级中学教科书部分为母库,语料总计约40万字左右。

我们将目标语料通过分词系统进行分词,并做词性标注,在一定的人工检查后进行语义角色和句法成分的标注。需要注意的是,在标注语义角色和句法成分时,是以语块为单位的,而并不是单个的词。在做句法成分的标注时,我们这里把语块分为主语语块(S)、谓语/述语语块(P)、宾语语块(O)、定语语块(A)、状语语块(D)、补语语块(C)、兼语语块(J)和独立语语块(T)。在做语义角色的标注时,我们选用以下几个语义角色:施事(S)、当事(D)、领事(L)、共事(Y)、受事(O)、客事(K)、致事(Z)、结果(R)、与事(T)、系事(X)、分事(F)、同源(B)、材料(H)、方式(Q)、依据(W)、原因(C)、目的(G)、时间(H)、处所(P)、数量(N)、基准(J)、杂类(U)。同时,还需要注意的是,我们虽然在同一句语料上同时标注句法成分和语义角色,但这两个工作是互相独立的,互不干扰。因为句法成分和语义角色是不同的两个概念,不在同一个层面上,语义角色是更深层次的概念,并且两者各有一套完整的标注标记,两者互不牵连。下面用例句来展示标注结果:

(1)[D在/p 20/m 世纪/n 的/u 百年/m 中/f]H ,/w [S中华/b 民族/n 的/u 命运/n]D [P发生/v]V 了/u [O历史性/b 的/u {转折/n}@ 和/c {巨变/n}@]K 。(《在庆祝北京大学建校一百周年大会上的讲话》)

(2)[D几乎/d [S所有/b 可/v 被/p 动物/n 用/v 来/v 发声/v 的/u 东西/n]D [D都/d 被/u [P用/v]V [C上/v] 了/y(《这个世界的音乐》)

(3)[D在/p 文学/n]E ,/w 无论/c [D{阅读/vn}@ 或/c {写作/vn}@]E ,/w [S我们/r]L [D必须/d [P有/v]V [O一字/n 不/d 肯/v 放松/v 的/u 谨严/n]K 。/w(《咬文嚼字》)

二、《义类倾向信息库》的生成

我们在已有句法成分和语义角色标记的语料基础上,设计抽取程序,以语义角色和句法成分为经纬,两者两两组合形成抽取条件,在《中小学语文课本标注语料库》中抽取符合条件的所有中心词。由于我们在查询义类时是参照《同义词词林》的义类体系,所以我们在抽取时尽量保证中心词是一个词,而不是多个词或是短语。另外,为了实验结果的准确,在同一词语多次出现的情况下,会将其出现的频次计入统计结果,用于计算概率。按照《同义词词林》中的语义分类体系和符号体系给提取出的中心词打上相应的义类标记。同时,本文将抛弃单纯的新词语本身研究,在对提取出的中心词,特别是中心词是多义词的情况下进行义类标注的时候结合其所在上下文语境情况来帮助确定其语义类。

我们把经过上文操过的信息,包括提取出的中心词及其频次、义类,录入到EXCEL表格中,生成《义类标注信息库》,以用于后续的研究分析。

(二)词语语义类倾向研究

在以26个语义角色和8个句法成分两两组合作为提取中心词条件的框架下,我们对语料进行了穷尽式的排查和统计,由于实验所用的语料库覆盖面有限,有些语义角色和句法成分的组合在语料中并未出现,这种情况并不是说明在语言事实中绝对不会出现,但也可以据此推断,这些现象在实际的语言运用中大多出现的频率比较低,甚至是几乎不出现。

由于篇幅有限,我们仅以SS施事主语为例做统计结果的展示:

通过统计可知,处于SS施事主语位置的词语义类的分布情况,可得其优先度不等式:A人(2716)>B物(341)>D抽象事物(168)>E特征(56)>C时间与空间(39)>K助语(14)>H活动(9)>G心理活动(8)>I现象与状态(3)>J关联(2)>F动作(1),没有出现的是L敬语。其中A类所占比重远大于排在第二位的B类,是由于A类中包含指代人称的代词,像“你”“我”在语料中出现的频次非常多。

由于仅按照义类大类进行分析比较粗糙,为了细化信息颗粒度,得出更加深入、更精确的结果,我们将义类从大类细化到中类,可得优先度前五名不等式如下:Aa泛称(2310)>Ah亲人眷属(122)>Ba统称(116)>Al才识(55)>Af身份(51)。

通过上述操作,我们发现处在SS位置的词语义类中,Aa类出现的频次远大于处于第二位的Ah类,则SS施事主语位置的词语义类的显著性特征为Aa类。

我们依据这个思路,依次考察SO施事宾语、SD施事状语、SP施事述语、SJ施事兼语等位置的词语义类情况。发现以S为纲的几个不等式中,大类前几位保持一致,即A>B>D>C/E,而中类则保持Aa>Ba/Ah的序列。

按此思路继续考察以当事D为纲、以领事L为纲、以共事Y为纲、以受事O为纲等等不同语义角色与8个句法成分两两组合位置的词语义类情况,并得出符合各个条件的词语的显著性特征义类。

(三)新词语义类的倾向研究

我们选用《新词语大词典》,选取其中出现的新词语的例句作为检测词语义类倾向研究效果的测试语料。限于篇幅,我们还是以SS施事主语位置词语义类情况为例说明。

在我们选取的《新词语大词典》的新词语释义举例例句中,经过分词、语义角色和句法成分标注、提取中心词等一系列工作,统计出出现在SS施事主语位置的词语约有2851个,经过义类的标注,发现义类为Aa的约有2365个,占总数的约83%,符合我们在第二步工作中得出的实验结果,因而,此显著特征可作为中文信息处理在推测SS位置新词语义类的一个依据。

其他位置新词语的义类情况推测思路与做法与上述一致。

三、总结

本研究将词类、句法成分、语义角色结合起来,从句法成分和语义角色反推词汇意义,进一步丰富和完善汉语句法语义理论,为汉语句法语义理论研究提供了一种新的思考方式。同时,本研究是基于大型标注语料库得出的,可以基本反映汉语的真实状况。研究成果可用于新词语的词义识别,为中文信息处理的自动分析提供帮助,也可用于机器翻译、新词语词典的编纂以及信息检索等有新词语出现的地方,帮助机器更好地“理解”新词语,进而更准确地进行语义方面的处理,有助于推动中文信息处理的进一步发展,具有一定的实践意义。

本研究的创新之处在于在新词语的识别研究上着重在对其语义类的识别上。采取了在句法、语义接口方面研究时不同的研究方向,并将实验与中文信息处理有机结合。而不足之处在于本研究所采用的语料库取材有限,覆盖面有限,因而实验结果还有待完善。另外,由于本人专业知识有限,疏漏之处还请批评指正。

参考文献

[1] 于鑫.阿普列相及其语义理论[J].解放军外国语学院学报,2006(2):29.

[2] 周明海.核心语义角色句法实现的词汇语义制约[D].鲁东大学硕士学位论文,2011.

[3] 秦春秀,祝婷,赵捧未,张毅.自然语言语义分析研究进展[J].国家情报工作,2014(22):58.

[4]邹煜,李开拓.汉语新词语检测:检测的不只是语言——新词语监测与研究5年回顾[J].北华大学学报:社会科学版,2012(5):13.

[5] 杨辉.汉语新词语发现及其词性标注方法研究[D].上海:复旦大学,2008.

[6] 田震.非核心语义角色句法实现的词汇语义制约[D].鲁东大学硕士学位论文,2014.

[7] 梅家驹,等.同义词词林[M].上海:上海辞书出版社,1983.