一个基于完整结合逻辑的汉语范畴语法

2024-04-06 10:04刘盼盼王庆江
电脑知识与技术 2024年3期

刘盼盼 王庆江

关键词:结合逻辑;结合子;范畴语法;结合范畴语法;树库

中图分类号:TP301.2 文献标识码:A

文章编号:1009-3044(2024)03-0015-04

0 引言

近年来,神经网络与深度学习在自然语言处理中被广泛应用,但在训练神经网络时,其运行机制难以从语言学的方面得到理性解释[1]。语言语法的研究仍十分重要。

范畴语法[2](Categorial Grammar,CG)是一种同时兼顾句法和语义且把自然语言的句法分析看作是逻辑推理的形式语法。组合范畴语法[3](Combinatory Cat?egorial Grammar,CCG)是20世纪末的理性主义产物,对CG的扩展在于增加结合逻辑[4]结合子C、B、B对应的类型提升及函数组合,用斜线类型将范畴结合的精准控制由规则一侧转向词汇一侧[5]。CCG对于计算语言学具有重要价值[6],然而在运用CCG于缺乏屈折的汉语时,需要对扩展CG的基本依据——结合逻辑重新做一系统的考虑。

文献[7]构建CCG汉语谓词词库,收集多义谓词在真实语境中的不同分布,其目标是为每个谓词选择在句中合适的范畴标记,该方法可用于对汉语其他词类的句法类型消歧。文献[8]分析CCG和汉语句法之间的差异,提出一个改进的组合性方案,但本质上还是基于CCG的句法规则对汉语句法结构进行分析。

汉语不像其他语言能够通过改变词的形态来表示词的语法功能和语义特征,它的词基本上保持了固定的形式,不会出现屈折变化。文献[9]认为词类或短语结构在参与构建短语时可发生语法性质转变,使用转类后的句法范畴,为此在组合范畴语法中增加了范畴转换规则。文献[10]认为“类有定职”违反语法简约,“类有多职”是汉语缺乏屈折的必然结果,范畴转换是未转类情况下词类选择其非典型句法范畴,建立带有范畴转换的组合范畴语法 (CCG with CategoryConversions,CCG-C2),该语法使句子结构中同一词类或短语结构可指派不同句法范畴。只考虑部分结合子来对CG进行扩展,使CCG句法的解释能力获得有限的提升,这对英语来说可能已经足够,但对汉语来说可能还不行。CCG句法规则有8条,CCG-C2用51 种范畴转换才取得其树库所需的句法解释能力。若更充分地考虑结合逻辑,使CCG句法规则更强大,解释汉语所需的范畴转换种数就会下降。在范畴语法中系统地引入结合子,可建立一个基于完整结合逻辑的语法,简称结合范畴语法(Combinatory CategorialGrammar,CCG),其英文名称与Steedman的CCG一样,区别在于结合范畴语法考虑了可用作二元句法的所有结合子,而Steedman的CCG只考虑了结合子C、B、B。

结合逻辑是一个基于结合子把经典一阶逻辑里所有逻辑常量规约为单个逻辑常量而形成的符号系统。从结合逻辑的类型系统找到常见结合子类型,得到能够作为范畴语法句法规则的结合子类型,再增加少量范畴转换,形成结合范畴语法,使其能够解释汉语的各种短语结构。语义组合是范畴语法的一个亮点,用结合子的归结模式解释每一步句法分析的语义。

本文的创新在于:1)在范畴语法中系统地引入常见结合子类型,找出能够作为范畴语法句法规则的类型,形成一套语法规则体系。2)用结合子对短语成分义项的依次应用,作为句法规则关联的语义式。

本文第1節介绍结合范畴语法的定义;第2节介绍结合子的类型指派以及与范畴规则的对应关系;第3介绍如何给汉语句法成分指派范畴;第4节通过示例说明结合范畴语法的分析能力;最后一节总结研究内容,给出接下来的研究工作。

1 结合范畴语法的定义

范畴语法(CL) 中范畴衍生的唯一方式是函数范畴对参数范畴的“应用”,结合逻辑中项衍生的唯一方式是一个项“应用”到它右边的项(也称两个项的并置)。若不考虑范畴符号内部结构,则范畴系统与项系统一开始就是一回事。结合子使右边项之间有各种各样的应用关系,要保持范畴系统与项系统等价,范畴系统就应该有对应这些结合子的东西。。范畴语法的全部扩展就是引入结合逻辑的所有结合子,而全部结合子无限可列,被分为基本和衍生两部分。如果按已知结合子在左、新衍生的结合子在右排列所有结合子,只引入基本结合子和排在前面的能用于形成二元句法规则的结合子就足够了。下面是基本结合子S、K和一开始衍生的结合子,其中‘?表示左边归结到右边,大写字母是结合子,小写字母x、y、z、v 是结合子的参数。

词类或短语直接通过结合规则结合成句子[11],首先给句子中的每个词指派范畴,通过以上结合规则可以使相邻范畴进行一步步结合,每一步使用到的结合规则直接用结合子来表示,从而得到句子的结构,用范畴结合解释句子的基本结构。

3 词类或短语的范畴指派

词是按句法功能分类[12],可以为句法成分指派范畴。如为主谓结构小句指派范畴s,为名词性短语指派范畴np,这两个范畴为基本范畴,通过斜线拼接基本范畴得到衍生范畴,使用结合规则结合相邻的两个范畴得到一个新范畴。由S、K、B、T等规则可得谓语范畴s/np、定语范畴np/np和np、述语范畴(s/np)/np和((s/np)/np)/np、状语范畴np/np、(s/np)/(s/np)、(np/np)/(np/np)和((np/np)/(np/np))/(np/np)等、补语范畴np/np、(s/np)/(s/np)和(np/np)/(np/np)等。

汉语的句法基本结构有主谓(subject-predicate,SP)、述宾(verb-object,VO)、定中(attribute-headword,AHn)、状中(adverbial-headword,DHa 或DHn)、中补(headword-complement,HnC 或HaC)、联合(coordina?tion,XX)等,这里中心成分H的语法性质可为名词(n)、动词(v)或形容词(a),这些结构的范畴都可根据其句法成分使用范畴结合规则得到。其中联合结构是两个成分直接用连词或顿号连接,用(X/X)/X来表示其范畴,X表示可以匹配任意范畴。使用CCG对例句“主考教师亦是本校教师”进行分析,其分析树如图1所示,首先给每个词指派范畴,‘:后是使用结合子归结后的语义表达式,虚线后表示两个范畴组合所用到的句法规则。当一个小句是不饱和的,即没有完整的句法结构时,结合子的参数是不完整的,那么结合子的归结语义式则是不完全归结的,如图2所示。

本文CCG的句法规则部分是跨语言通用的范畴结合规则,由于汉语没有屈折变化,CCG在用于汉语时应考虑其语法的词组本位特征[13],词组本位是由于汉语的句子构造原则与词组的构造原则基本一致,可在词组的基础上来描写句法,建立一种以词组为基点的语法体系。在分析汉语时,有的词组入句其语法性质发生变化,词组应该转类,需要通过增加范畴转换规则来满足词组入更大词组的结构需要。如在例句“在校学生一百五十三点七万人”中,“在校”修饰“学生”作定语,需转换规则A/v,即把动词转为定语,“在校”和“学生”结合作主语,“一百五十三点七万”和“人”结合作“在校学生”的谓语,需转化规则P/n,该句的分析树如图3所示。

4 结合范畴语法的分析能力

在使用本文的CCG对汉语的句子结构进行分析时,首先考虑使用跨语言通用的句法规则,当直接使用句法规则对汉语句子结构无法解释时,增加相应的范畴转换,两者相结合,使其形成完整的结合范畴语法,能够对汉语的各种结构进行分析。

用本文CCG和CCG-C2分别对“学生成绩有了大幅度上升”进行分析,分析树如图4、图5所示,其区别在于两者使用的句法规则不同,且前者未使用范畴转换,后者则通过增加了相应的范畴转换规则,最终两者同时产生相同结构的分析树。

CCG为满足对汉语的分析,也加入了少量的范畴转换,对比CCG-C2 存在67个范畴转换规则,CCG在增加句法规则的基础上只保留39个范畴转换规则,是由于CCG充分融入了结合子的类型,其句法规则更强大,可以减少对范畴转换的使用,这样就减少了对汉语分析时的主观性,在对例句“国家教委打算出台一项改革方案”分析时,CCG也使用了范畴转换,如图6 所示,但对比CCG-C2的分析,如图7所示,范畴转换的数量相对减少。对树库进行比较表明,引入完整结合逻辑可使范畴语法的句法能力比CCG-C2只引入部分结合逻辑的句法能力增强37%。

5 结论

汉语由于缺乏屈折变化,其词类有多种句法功能,基于以前的范畴语法及其扩展,需要对词类进行大量转类,用转类的方法分析汉语具有主观性,这是由于以前的范畴语法及其扩展没有更充分地考虑结合逻辑。因此根据结合逻辑的类型系统找到常见结合子的类型,提取出可以作为对应范畴语法句法规则的结合子类型,得出一套基于结合逻辑的范畴语法的句法规则,并增加少量的范畴转换,形成一套能解释汉语的语法体系。语义部分使用結合子的归结模式来表示,其语义逻辑式也是完全由句法范畴决定,因此支持范畴类型的透明性。结合逻辑中是否还存在其他的结合子类型可以用来减少词类的转类问题,以及CCG是否能够解释汉语中所有的句子结构情况,需要通过构建树库去验证,这也是本文接下来的工作。

【通联编辑:李雅琪】