基于语义关系的藏语依存树库构建研究

2021-03-10 09:20夏吾吉黄鹤鸣华却才让
电子技术与软件工程 2021年20期
关键词:句法结构藏语支配

夏吾吉 黄鹤鸣 华却才让

(1.青海师范大学计算机学院 青海省西宁市 810008)(2.青海师范大学藏语智能信息处理及应用国家重点实验室 青海省西宁市 810008)

1 引言

为了计算机能够理解自然语言,首先要对原始句子进行分词、词性标注、命名实体识别以及句法分析;若想要计算机更加智能,并像人类一样能够理解和运用自然语言,那么需要对句子进行更深层次的研究和分析,即语义分析。语义分析作为自然语言处理中深层的研究课题之一,其主要任务体现在确定句子的语法结构、句法结构以及句子中任意词对之间的语义关系,从而提高机器对自然语言的理解程度。构建相应的语义树库是语义处理分析的基础,并且具有重要的理论意义和广泛的应用前景。目前,英语等主流语言的树库构建研究已经达到了相当高的精度,比如:英语[1]、德语[2]、俄语[3]、瑞士语[4]、汉语[5、6]等。

近年来,藏语树库构建逐渐得到了相关研究者的重视,扎西加等人结合藏语的语法体系,提出了符合语法体系的藏语句法标注关系体系[7];祁坤玉提出了基于依存关系的藏语语义角色标注[8];华却才让等人提出了藏语依存句法分析体系[9]。相比主流语言,藏语的树库构建工作相对滞后,处于句法分析及构建相关树库阶段,主要原因体现在:

(1)用于信息处理方面的藏语词语目前没有相对完整的定义;

(2)在藏语分词标注和依存标注方面没有统一实用的标准。

本文从藏语语法功能研究所面临的问题入手,对已有的研究成果[10]所提出的标注体系进行优化和合并,提出新的语义依存标注体系,构建语义依存树库。

2 藏语依存语法

所谓的藏语依存语法,建立在依存理论基础上,它融合了句子的依存关系结构和语义信息,并且能够直接表达语义的本质。依存理论是1959年由法国语言学家泰尼埃提出,其依存关系具有五种特性[11]:

(1)二元性,即句子中两个词语或一个词对之间的语义关系;

(2)方向性,句子中相互有语义关系的两个词语中,一个词语为支配词,另一个词语为被支配词,依存方向从支配词指向被支配词;

(3)有标记性,通过有向弧连接起来的词对之间的语义关系标注在有向弧上,即为语义依存关系类型;

(4)无环性,词对之间的有向弧只能支配词指向被支配词,即不存在指向词对相互而形成环形现象;

(5)无交叉型,同一个句子中各依存词对之间的有向依存弧互不相交,即句子中一个支配词及其所有的被支配词都是连续的[12]。对于一个句子,这种有方向的无环图实际上就是一个树形结构,称之为依存树。此外,对句子进行语义依存分析时,句子中的谓词是整个句子的中心部分,该谓词没有支配词,语义依存标注时设一个虚拟根来支配句子中的谓词,虚拟根与谓词之间的语义依存关系用标签Root 来表示。句子的树形结构分析中,支配词称为父节点,被支配词称为子节点。

2.1 依存句法和语义依存

依存句法同语义依存都建立在依存理论基础上,依存语法通过分析构成句子各成分之间的依存关系揭示其依存句法结构。直观来讲,依存句法分析研究句子中的“主谓宾”、“定状补”等语法成分,并分析各成分之间的依存句法关系,为下一步语义依存分析研究做好铺垫,奠定基础。依存句法分析的正确与否直接影响着语义依存分析的准确率,依存句法分析与语义依存分析虽然都借用了依存结构,但是两者之间具有显著的区别。依存句法按照句法结构的功能建立依存关系并为句子的依存结构标注句法关系,句法的结构随着字面词语的变化而变化,更强调助词、介词等对句法结构划分的作用。而语义依存注重句子中各成分之间语义事实上或逻辑上的关系,并能够跨越句子表面的变化直达语义的本质。比如两个句子“བློ་(洛桑给妈妈下午打电话了。)”和(洛桑下午给妈妈打电话了。)”的语义相同,但表达形式不同,导致句法结构不同。句法结构如图1所示:

图1:语义相同表达形式不同的句法结构树

图2:语义不同句法结构完全相同的句法结构树

图1 和图2 可知,句法分析和语义分析之间有着不可逾越的鸿沟,但两者则形似而实异。无论从标注对象还是语法理论,语义依存分析与依存句法分析相比,语义依存针对整个句子,分析更加全面,还涵盖了藏语语义角色所标注的标注范围。因此,有必要去分析研究并构建相应的树库。

2.2 藏语语义依存关系颗粒度的确定

藏文作为黏着性语言,在藏语传统语法中格词类的语法功能灵活丰富。比如(妈妈说的)”和(给妈妈说。)”两个句子,其中和都是格词类,但跟一词粘着在一起所表达的语义各有不同,且与核心词之间的语义依存关系也不相同。其语义依存关系见图3所示。

图3:语义依存基本关系图

图4:语义依存树库构建流程

经过以上分析,发现对藏语句子进行语义依存分析时,句子中除了实词以外,格词类和虚词也体现着重要的语义依存结构关系,格词类语法结构关系、虚词类语法结构关系及其接续规则也是确定语义依存关系颗粒度的重要依据和遵循规则。确定语义依存关系类型时,若分类过细,关系标注集过大,标注难度就会增加,标注结果正确率也会降低,导致依存关系类型之间因存在细微差别而产生不一致性,尤其在语料规模不够庞大的情况下,更会产生严重的数据稀疏问题;若语义依存关系分类过粗,将无法全面描述藏语的语法特征和复杂的语义现象。因此,本文依据藏语的语法特征、格词类语法结构以及藏文虚词的接续规则,在颗粒度粗细程度较适中的情况出发,将构建基于语义关系的藏语依存树库,为藏语语义依存分析研究提供了新的数据资源。

2.3 藏语语义依存关系

无论是依存句法还是语义依存,关注的是对句子中词和词之间的依存结构关系。对于不同的语言,由于各自的词性集和语法结构的不同,依存关系类型数量也不相同。譬如:德语制定了49 中依存关系类型[2],汉语当初制定了106 种依存关系类型,后来又缩减至44 种[14]。依存关系类型数量的多少与计算机的识别正确率息息相关,类型数量过多,会增加时间复杂度;类型数量过少,又不能完全覆盖语言的语义现象,从而降低模型的鲁棒性。本文在对藏语的传统语法和依存结构进行深入分析的基础上,借鉴了其他语言的语义依存关系分类经验[15],同时针对依存关系类型数据颗粒度对标注结果产生的影响等问题,从理论基础出发,对文献[10]所制定的藏语语义依存关系类型进行了再整理并分层归类。归类时将各种语义组合关系分为语义关系、语义标记以及特殊关系,其中语义关系分为对称关系(如:并列、选择和等同等)和非对称关系(如:先行和顺承等);语义标记分为关系标记(如:连词、介词和格词等)和附加标记(如:时间、范围和趋向等);特殊关系分为反关系、嵌套关系和虚拟根节点。同时提出了新的语义依存分析体系,本体系中将区分不明的关系类型进行合并,同时去掉了出现频度极小的关系类型。新的藏语语义依存分析关系体系见表1。

表1:语义依存关系类型

3 语义依存树库

建立健全带有各类关系标注附加信息的语料库,是解决当前藏语自然语言处理的句法分析和语义分析知识缺乏的有效方法和途径。因此,藏语语料库的建设和设计理论成为了当前人们研究的热点,并以大规模、多层次、高速度向前发展。同时,除分词和词性标注因出现时间较早且研究趋于饱和而逐渐淡出业界视线外,句法关系和语义关系标注逐渐受到了前所未有的重视。深入研究藏语语义依存分析的关键和基础是构建语义依存树库。之所以称为藏语语义依存树库,其与标注后的藏语语义依存句子呈显出的树形结构有关。藏语语义依存树库作为语义分析研究的必要数据资源,对藏语自然语言处理具有重大影响,建设也具有一定难度。尤其是建设标注语法信息的数据,不仅要制定复杂的标注规范,还要投入大量的时间精力。

3.1 树库构建方法

构建树库是一种深度加工的语料资源之一,语义依存树库中不仅包含了实词、虚词和词缀等各种词性以及形态学层面的各种信息,还包含了语法结构、句法结构、语义角色以及语义框架等句法语义层面的各种信息,其研究能够对自然语言理解提供数据支撑。虽然人工构建语义依存树库耗时长、难度大、成本高,但具有质量高、规范性强等特点。因此,本文将藏语言的语法特征、句法结构以及依存语法等作为依据,从网站新闻、法律和日常用语中抽取出一些简单句作为取材,对不同句型的2106 句藏语句子进行了藏语语义依存分析,标注了语义依存关系类型,并人工构建了语义依存树库。对藏语自然语言处理提供了数据资源。具体构建流程见图4。

对语料进行实际标注时,用括弧的层次级别来确定句子中的支配词、被支配词以及虚拟根Root,具体构建方法包括:

(1)找出句子的核心词;

(2)找出句子中的各语义单位;

(3)若语义单位包含两个或两个以上的词,则在该语义单位中找出存在语义依存关系的依存词对,并标注关系类型;

(4)判断中心词与各语义单位之间的关系类型并进行标注;

(5)标注虚拟根Root。

3.2 树库结构分析

经过以上分析,对不同句型的句子进行语义依存分析后发现各种句型的谓词所支配的关系类型和语义结构都不同。陈述句的谓词一般支配客事、成事和涉事等关系;疑问句和感叹句中的谓词一般支配语气标记;祈使句中的谓词一般支配助词标记。

4 结语

构建语义依存树库是一项非常复杂的工作,对句子标注依存关系类型,既要具备专业的理论知识和传统藏语的语言分析能力,又要关注标注的准确性和一致性。因此,本文从藏语依存语法及语义关系特点出发,深入分析了藏语的语义依存关系,在原有的研究基础上进行了优化,制定了新的藏语语义依存分析体系,提出了藏语语义依存树库的构建方法,并人工构建了侧重于简单句型的2106句藏语语义依存树库,在一定程度上加快了藏语语义依存分析的标注进展,保证语义依存标注的正确性。对藏语自然语言处理提供了新的数据资源。在今后的工作中,要继续扩大树库规模,并构建侧重于复杂句型的藏语语义依存树库,为藏语语义依存分析研究提供更加可靠、准确的数据资源。

猜你喜欢
句法结构藏语支配
浅谈藏语中的礼仪语
汉藏语及其音乐
跟踪导练(四)4
藏语拉达克话的几个语音特征
基于决策空间变换最近邻方法的Pareto支配性预测
现代汉语句法结构解读
《基本句法结构:无特征句法》评介
随心支配的清迈美食探店记
藏语地理分布格局的形成原因
构词派生:语义关系与句法结构