依存理论视域下的汉语复杂事件句研究热点与趋势
——基于CiteSpace文献计量分析

2024-01-22 05:30吴锋文周龙豪
关键词:复句语法语义

吴锋文,周龙豪

(四川外国语大学 中国语言文化学院,中国 重庆 400031)

一、引言

事件(events)分析是一种新兴的连接语言与认知的“句法-语义”界面理论[1]。Dowty把“事件”看作现实映射在句子的命题集合[2],当单一现实事件通过逻辑关系联系之后就构成了复杂事件表达[3-4],因此“复杂事件句”是多个事件命题映射的句子类型,整体表现为一个复合事件,内部子事件(命题)相互关联。这类句子跨度较大,其句法语义繁复,涵盖了兼语句[5]、连动句[6]、复句[7]等句子结构类型,形成了一个连续的句型统。

“句处理”是当前中文信息处理的主要任务,其研究现状是“对单句研究较多,对复句的研究相对薄弱”[8]。目前学界对简单句的处理已经能够达到较高的精度,但对包括复句在内等复杂事件句却无法实现精准的分析,复杂事件的处理存在许多问题。黄娴、张克亮指出,当前信息处理领域“重实践而轻理论”的现状普遍存在,过度依赖规则、数据以及模型,忽视了语言本体知识的剖析[9]。因而,对复杂事件句的处理,目前尚缺乏来自语言学领域的自觉理论思考,也缺少行之有效的分析方法。

依存语法是法国语言学家泰尼埃提出的一种研究句子内部词与词之间联系的语法分析理论[10]。该语法思想自创立以来,被广泛运用于语言分析和信息处理领域并得以进一步发展,如Robinson提出关于依存语法的“四大公理”[11],Nivre结合实际语料的依存分析探索[12],为依存语法在世界范围内的应用奠定了坚实基础。刘海涛指出,依存语法以“配价”为实现条件,最终目的是分析词与词之间的“支配-从属”联系,构建一个以谓词为核心的层级树状结构,通过依存树能实现句子的分析、处理、形式化[13]。

已有研究表明,依存语法理论对拥有“意合性”特征的汉语分析有着较强的契合性和可操作性(刘挺[14])。依存分析能够将复杂的句子序列转化为一棵二元互联的句法树(图),从而更直观地表征与呈现句子的整体面貌。以连动句“福贵上坎干活”为例,其依存分析如图1所示。

图1 依存分析示意图

图1表明两个事件复合的连动句被分解成为一组组依存对,词与词之间互相关联并通过建立核心谓词的依存联系,揭示了不同事件之间的语义联系,使整个复杂事件的内部结构得到清晰的反映,如将上述图分析结果转写为形式化的计算机语言,有助于实现对复杂事件句的精准分析。

在大数据时代,中文信息处理前进的脚步不断加快,而复杂事件句的处理是亟待解决的难题。汉语复句的句际关系分析、兼语句和连动句的识别、标注等仍是依存语法研究中的难点,已有资源的分析结果错误率较高[15]。基于上述背景,本论文采用CiteSpace①软件对从中国知网(CNKI)搜集的有关复杂事件句依存研究文献进行聚类及可视化分析,引入文献计量方法研究相关领域的基本面貌,并对计量分析结果展开分析,以期全面反映该领域的研究现状及热点,并对研究趋势进行展望和预测,为面向智能时代的语言学研究创新思路并提供参考。

二、复杂事件句依存研究背景及空间分布

(一)基本研究情况统计

依存语法研究近年来一直是中文信息处理的热点。有关依存语法的发文量近几年来呈现出明显的上升趋势,在中国知网中以“依存语法”为检索词,并增添“语义依存”“句法依存”等作为辅助关键词,检索年份设定为2000-2022年,检索范围设定为“CSSCI+北大核心+CSCD”,共检索到有效研究文献266篇。文献研究趋势如图2所示。

图2 “依存语法”研究的发文趋势图

图2显示,2000-2006年期间年发文量不足10篇,研究处于起步阶段,直到2006年之后发文量有所增加,进入稳步发展的时期。从整体看来呈现上升趋势,尤其是进入2010年后增速逐年加快,这种趋势与语言智能研究的主题是密不可分的,技术手段的提升,研究内容的深入以及依存语法的独特优势,汉语的依存研究成为当前中文信息处理领域的热点。

同时,本文对近20年发表在CSSCI期刊上的以“复杂事件句”为研究对象的文献进行检索,以“复句”“复杂谓语”“兼语”“连动(连谓)”等词为检索词,经过去重以及筛除一些会议文献记录外,最后共整理得到有效文献1 197篇。该文献数据具体构成情况见表1。

表1 复杂事件句文献检索数量表(CSSCI)

从上表1文献结果看,复句是最为引人关注的复杂事件句类型,占据研究总量的65%以上,有关兼语式、连动式等复杂事件句的研究则相对较少。值得注意的是,检索结果中出现了48篇交叉论文,这些成果既符合复句的检索条件也符合其他句型的检索条件,该状况反映出有学者认识到复句、兼语句、连动句的内在统一性从而进行了综合研究。

(二)研究空间分布

1.软件介绍

CiteSpace是由陈超美开发的一款科学文献分析工具,可以将某一学科领域的文献数据导入,生成可视化图谱,通过分析可视化结果中节点之间的关联,发现研究成果间的共现关系与共引关系,追踪和反映学科研究中的动态与前沿进展[16]。

2.数据统计

随着语言智能化与信息化要求的提高,运用依存理论进行复杂事件句在本体研究与应用研究的观点也越来越受到人们的重视。将检索时间设置为1996-2022年,主题词设置为“复句+依存语法”“兼语+依存语法”“连动(连谓)+依存语法”分别进行文献检索,结果显示依存理论下复杂事件句的研究成果逐渐成为热点,不仅发表期刊上的优秀论文不断增多,并且不少研究者将其作为硕博论文的选题方向进行攻关,产生了许多优秀成果,具体情况如表2所示。

表2 基于依存的复杂事件句研究文献数量表

由表2可知,在复句、兼语句、连动句相关的依存研究方面,复句依存研究仍是产出量最多的研究方向,相对来说后两者的依存研究并未引起较高的关注。最终检索出67篇相关文献,7篇交叉文献,占总体的10.4%,相较于本体领域的交叉占比,基于依存理论的复杂事件句的相关研究趋势有所上升。

3.合作网络共现分析

不同作者节点之间相互连接,反映出研究的合作情况,本文对文献中作者之间的合作网络进行分析,结果显示当前有关复杂事件句依存团体较为集中,形成了多个合作网络聚集,共现情况如下图3所示。

图3 作者合作网络共现图

从图3分布上看,复杂事件句依存研究形成了三大合作网络:首先是以杨进才、胡金柱、李源为核心的研究团体,人数较多,研究最为集中,研究人员之间的合作流动性很高,相关成果主要体现为复句的依存研究;其次是以姬东鸿为核心的研究团体,聚类较少,主要讨论特殊句式的分析标注问题;再次是杨尔弘、邵艳秋等人形成的合作,其研究方向多集中于语义依存的分析。合作网络反映出当前研究形成了较为集中的局面,有着较强的合作交流,这一特点有助于复杂事件句与依存研究的发展。

4.机构分布

研究机构的分布已经初具规模,形成了以华中师范大学、北京语言大学、武汉大学为核心的三大主要研究阵地。在机构性质上形成了文理交融的场景,计算机技术以及语言学理论的相互配合,反映出跨学科深度交流与合作,具体如图4所示。

图4 研究机构分布图

三、依存视野下复杂事件句研究主题与热点追踪

关键词能够直接反映某一研究领域的热点。当多个关键词形成聚类之后往往可以体现研究领域内的主题,为更精确地反映复杂事件句依存研究的内容及现状,在将文献信息进行提取之后,对关键词的聚类与共现进行分析,时间切片设置为1年,从时间聚类、平面共现两个维度来反映复杂事件句依存分析的研究主题与趋势,并通过突变词的强度与爆发年份来追踪研究前沿。

(一)时间聚类及主题分析

时间聚类反映的是相关研究领域中共同主题及其历时分布,能够从线性角度直观呈现本研究领域各研究热点的历时发展状况,将文献数据导入后得到的时序图如图5所示。

图5 复杂事件句依存研究关键词聚类时序图

从历时角度看,该领域在时间轴上呈现出两个阶段:2010年之前的研究是分散的、零星的,研究类别、产出成果等较为单一;2010年之后成果有大幅度增加,研究领域更为广泛,内容更为多样,成果产出和研究聚类都变得更为丰富。

从研究聚类看,主要集中于6个方面,分别是“依存关系”“依存句法”“语义资源”“依存语法”“关系词”“句法分析”等,分布上互有交叉,在系统分析图3的基础上,本文认为各聚类关键词分别反映了以下几方面的主题。

一是“依存关系”的探讨是贯穿始终的主题,如何分析复杂事件句的依存关系,并用恰当的形式表示出来,是学界较为关心的问题。

二是“依存句法”“句法分析”“关系词”代表了学界对复杂事件句本体知识的关注,希望采用依存方法实现对复句关系词乃至复杂事件句的完整分析。

三是“语义资源”则在2006年之后一直是研究的热点,构建面向复杂事件句的语义资源,对加快语言智能研究进展有至关重要的作用。

(二)关键词的共现及其热点分析

关键词的时序聚类从线性角度反映出了研究的主题,而通过在平面内的共现聚类,可以对基于依存理论的复杂事件句的研究内容与热点进行真实反映,我们将共现频次(threshold)设置为4③,得到了该研究领域相关的关键词知识图谱,如图6所示。

图6 关键词共现知识图谱

关键词的共现与分布呈现出较为集中的状态,将上图中的内容进行归纳,得到复杂事件句依存研究热点主题词聚类表,如表3所示。

表3 关键词共现聚类情况表

关键词共现的次数越多,越能代表研究的受重视程度。通过共现聚类,能够对研究热点进行有效反映。结合表3和图6,我们认为当前学界的研究重点主要体现在以下方面。

一是复杂事件句的依存分析与理论探讨。例如,“控制语”“连词”“搭配网络”等关键词反映出学界立足于复杂事件句的特征,提出了多种适应依存分析需要的理论与方法,如冯文贺的连词“虚谓说”和“控制语”说[17]、陈建雄基于上下文意图的复句分析方法[18]、李源等总结的“综合分析法”[19]等,各种兼顾结构和语义依存分析方法被提出,推动了依存语法方法论的构建与发展。

二是依存图思想的提出与应用。依存图的思想是区别于树结构的深层语义描写方法,依存树分析要求节点与句子序列一一对应,该特征被称为投影性,但针对复杂事件句依存结构中多父节点②以及依存弧交叉等非投影特点,依存图思想能更准确地表达复杂事件句的句法语义内容[20]。这方面的主要研究成果有:王跃龙对连动句、兼语句的依存标注问题的探讨,提出应将句内所有的依存关系都要考虑到,不仅是事件内部,还要照顾到动词间的依存联系,并着手构建汉语依存图库[21];丁宇在分析兼语句和连动句的依存图时,提出了兼语嵌套结构,并将连动句的一个动词作为事件的支配成分[22]。

三是复杂事件句的依存资源库建设。“语料库”“图库”“语义资源”“标注”等关键词都是这一主题的集中反映。学界借鉴LTP、UD等大规模的依存资源库的建设经验④,对复杂事件句的相关语言资源的构建进行了有益探索,邢翠娟认为句法树结构无法很好处理汉语中的非投影现象,提出需要构建汉语依存图库,就汉语中的连动句、兼语句和复句等复杂事件句的标注问题做了探讨,给出了复杂事件的标注范式;郑丽娟、邵滟秋结合句模理论,区分兼语句的层级结构,构建了兼语依存图库[23];胡泉研究并提出了一种自动识别有标复句中搭配关系词的二阶段方法,构建了一个包含457个汉语复句关系词的“汉语复句关系词搭配库”[24]。

四是基于依存语法的句法语义分析。复杂事件句的研究与分析本身也是学界较为关心的话题,不同于面向信息处理的处理方式,复杂事件句的本体依存分析,更需要在方法和思路上实现创新。这方面的研究如肖明以“虽然-但是”类复句为例,利用复杂网络等理论,通过建立关联词之间的语义框架,试图摆脱传统的表层句法束缚,促进了有标复句的语义依存分析[25]。

五是面向信息处理的复杂事件句依存探索。“关系词”“自动识别”“层次”等关键词是这一主题的代表。得益于依存语法在信息处理领域的广泛适用性,复杂事件句的处理进展迅速,研究成果主要集中在关键词识别、自动句法分析、词义消歧等方面,如杨进才将对汉语复句关系词的信息内容、搭配关系、约束条件等方面的深入探索,运用于复句语义依存关系的分析中,利用改进的随机森林模型,实现了复句关系词的自动识别[26];黄文灿对传统树库中并列结构等特殊句式的标注不足进行改进,结合神经网络模型和“综合分析法”,采用协同训练,实现复句的依存句法自动分析[29];李源将目光对准中文信息处理中的词义消歧领域,设计依存句法复合特征模板,运用最大熵模型训练,提高复句内部词语尤其是关联词的歧义分析精度[30]。

(三)突变词及前沿趋势

突变词是一项重要评测标准,不仅能够反映研究发展历程,还在一定程度上能够预测未来研究中的演化趋势[31]。我们将γ值⑤设置为0.25,突变时间为2年,得到10个复杂事件依存研究的突变关键词,如表4所示。

表4 Top10突变词分析结果

突变词一般由两个维度来体现:一是突变爆发的起止年份,这一维度代表了在某一时期某个研究热点持续性的爆发,并且反映了该研究热点也会对未来的研究进展有持续影响;二是突变的强度,这一维度代表了某一研究热点的研究价值与受重视的程度,强度越高也反映出该研究对象的关注度越高[32]。从表4的关键词突变数据来看,未来复杂事件句依存研究有以下几方面的发展。

一是基于机器学习的研究方法会成为今后研究的重要前沿。在突变强度前5的关键词中“神经网络”“词向量”等表示机器学习的方法赫然在列。基于依存理论的机器学习方法处理复杂的语言现象,近年来受到了学界的关注,机器学习模拟人类大脑的运行机制能够使处理结构更为精深。今后机器学习的信息处理方式与依存研究的结合将会对复杂事件句的发展起到重要作用,深度学习将会成为该领域未来的发展方向。

二是对语义研究的重视以及将依存分析的维度转变到语义平面。突变词中反映语义研究的“语义分析”“语义资源”“特征结构”等均有着较高的突变强度,这表明复杂事件句语义研究是未来研究的重点之一。传统的复杂事件句多采用句法依存作为研究切入点,句法层面可以表达的信息相对较少,一些外围语义成分如时间、空间等无法得到准确表达,因此对于该类句式而言,浅层的句法理解不足以支撑该句式信息处理的要求,只有过渡到深层语义平面才能推动复杂事件句句处理的前进。

三是语义依存图思想,将成为未来具有持续性的研究热点。从爆发年份看,“依存图”的爆发年份长达7年,这种情况说明“依存图”的研究在复杂事件句依存研究领域受到了长时间的关注,而这种关注往往是具有持续性的,表明“依存图”思想在未来的研究中有可能继续成为前沿的研究热点。

四、复杂事件句依存研究的反思与启示

综观近20年来学界现状,有关复杂事件句的依存研究发展迅速。尽管该领域的研究起步较晚,但也取得了相当可观的成果,这些成果为智能化时代语言学的本体研究和应用型研究提供了新的思路和有益借鉴。过往成果虽然在不同句型上的分析方法有所不同,但在不同程度上为复杂事件句的信息处理提供了便捷的资源;在探索面向信息处理的自动分析方法上取得了一定进展,特别是在关系词识别、层次识别、自动分析等方面打下了坚实的基础。但是过往研究也存在一些需要引起反思和重视的问题,主要体现在以下几个方面。

首先,复杂事件句依存理论的探索和应用研究尚未形成统一的机制,复杂事件结构的语义描写机制的系统性亟待加强。兼语句、连动句、复句等都是属于复杂事件结构,这些句型有着共同的特性,理应采取一种能够贯通所有类别的系统研究理论。而目前学界尚缺乏一种有关复杂事件句的形式化描写机制,面向机器理解并不致用。尽管郑丽娟、杨进才、李源等的成果已触及复杂事件依存分析的冰山一角,但成果相对零散,缺乏系统性且形式化描写不足,以至机器理解的精度不高、识别正确率也不高。因而,复杂事件结构的语义描写机制的相关研究亟待加强。

其次,学界普遍遵循的是“树结构”的分析模式,而有关“依存图”的新思想、新探索并不多见。突变词数据表明,依存图思想将会在未来继续成为研究热点,但当前在构建依存资源库,标注语言资源时,学界往往还是采用依存树结构的方式进行标注。复杂事件的非投影性表明依存树的标注模式并不适合其依存研究。遗憾的是已有资源对复杂事件句还不能做到较为精准的分析,因此“改树为图”是未来研究中需要解决的问题。

再次,当前依存语法研究多是面向应用层面的,而基础与应用结合的综合性研究极其鲜见。适合信息处理领域的研究可以称得上是依存语法的优势,是它的特性之一,可这并不代表依存语法的全部能力,回溯依存语法的历史,它对语言本体的分析能力同样有目共睹,配价理论在汉语研究领域的重视就足以证明这一点。因此,我们认为必须注重依存语法与汉语的研究,尤其是复杂事件句的基础层面的分析研究,努力打造基础研究与信息处理“对接槽口”。

依存理论下的复杂事件句研究目前正处于稳步发展的阶段,需要不断整合、吸收和借鉴学界已有成果,走本体研究与应用研究相融合的发展道路,更新研究的思路、方法与手段,以期更好地推动中文信息处理“句处理”的前进。随着“语言学+”研究的深入发展,依存语法的应用型研究的深度与广度仍有发展空间,因而我们必须紧扣汉语语法事实,从汉语言实际问题出发,不断拓宽研究领域,推动智能化时代语言学研究向纵深发展,助力“语言+”发展的新趋势。

猜你喜欢
复句语法语义
连动结构“VP1来VP2”的复句化及新兴小句连接词“来”的形成
汉语复句学说的源流
韩国语复句结构的二分说
语言与语义
跟踪导练(二)4
Book 5 Unit 1~Unit 3语法巩固练习
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
复句内部不应当用句号
语义分析与汉俄副名组合