句法复杂性测量指标研究:回顾、反思与展望

2021-11-30 11:47朱慧敏唐建华
关键词:句法复杂性短语

朱慧敏,唐建华

一、引言

句法复杂性作为语言复杂性的一个重要维度,是二语学习者书面语产出的一个关键指标,能有效预测写作质量,因此如何界定句法复杂性测量维度和不同维度的具体指标尤其重要。本文将围绕句法复杂性不同维度的测量指标,梳理国内外相关文献,对现有测量指标进行回顾,尝试提出对该领域的研究展望,以期优化测量指标,从而进一步提升句法复杂性测量的精准性和精细度。

句法复杂度研究始于20世纪六七十年代,此后关于概念和具体测量指标等国内外相关研究方兴未艾。学界对句法复杂性概念界定不一,多从句式多样化、语言精细度、语言形式复杂化、离散成分数量等方面考察。例如,Ellis[1]认为语言复杂性是指语言的复杂和多样化的程度。Foster 和Skehan[2]强调指出“句法复杂性是指更为复杂的语言和更加多样化的句式”。Wolfe-Quintero, K.、Inagaki, S.和Kim, H.-Y.[3]指出句法复杂性表现为语法单位的变化和复杂化程度。Ortega[4]将句法复杂性界定为“语言产出形式的范围和形式复杂化的程度”。Bulté和Housen[5]认为句法复杂性由句子、从句和短语结构等多组件、多维度构成,是代表语言熟练程度和语言发展进步的语言子系统。

根据上述句法复杂性的基本内涵,学界对句法复杂性测量指标的研究也多从长度、句式、短语等方面进行考察。目前学界已提出至少几十种句法复杂性测量指标。按照指标所考察的语言形式的精细程度,可大致将其分为粗粒度指标(large-grained indice)和细粒度指标(fine-grained indice)[6]。顾名思义,粗粒度指标可对句法复杂性进行整体性测量,但缺乏具体语言结构等细节体现,透明性低,因此对指标结果的解释也较模糊;而细粒度指标则能对具体语言结构等细节提供更多信息,透明性高,较易对指标结果进行精确解释,是粗粒度指标的重要补充。下面将句法复杂度测量指标相关研究以粗粒度和细粒度分类回顾。

二、粗粒度指标研究

粗粒度指标是相对概念,其在测量精细度上也有程度之别,但均因缺乏具体语言结构等细节信息,被统称为粗粒度指标。其通常是传统的测量指标,根据测量方法不同,大致可分为基于单位长度和基于比率的研究。

(一)基于单位长度的研究

早期句法复杂性测量研究主要关注语言产出的单位长度,多认为结构越长,复杂性越高。单位长度包括句子(sentence)、子句(clause)和T单位(T-unit)长度等。尤其是“T单位”长度,备受学界关注。

1.单位长度概念

为加深对该领域研究的理解,首先有必要厘清句子、子句和T单位等单位长度的概念。第一,句子指由主谓结构构成,且意义完整的一组词,其概念清晰,无需赘述。第二,子句包含独立子句 (independent clause) 和从属子句 (dependent clause)。独立子句,又称主句(main clause)是本身能表达完整意思的句子;而从属子句,又称非独立从句或从句(subordinate clause),本身不能表达完整意思,包括名词性从句、定语从句及状语从句等。例如,在“They often travel to America because their daughter lives there”中,“They often go to America”是独立子句,本身能表达完整的意思;而“because their daughter lives there”是从属子句,意思表达不够完整。第三,“T单位”(the minimal terminable unit,简称T-unit),即最小可终止单位。最初由Hunt[7]提出,被界定为“独立子句和所有从属子句及附着或嵌入的非从句结构组成的句法单位”。换言之,T单位是1个句子能够被缩减的最短单位,包括1个主句及它所附带的任何从句。每个T单位都是一个完整的句子,且每个T单位必须要有1个谓语。因此,前文所述例句是1个句子,1个T单位,2个子句(1个独立子句和1个从属子句)。再如,在句子“They often travel to Ameica and they love the country”中,“They often travel to America”和“they love the country”是用“and”连接的具有并列关系的两个T单位。但是由于出现在一个句号内,属于一个句子。因此,这个例句是1个句子,2个T单位,2个子句(均为独立子句)。可见,1个句子可能包含1个或多个T单位。

2.单位长度研究

在Hunt[7]提出“T单位”概念前,更早期的句法复杂性研究包括平均句子长度 (MLS)、平均子句长度 (MLC) 和每个子句中的从属子句数量(DC/C)。但在“T单位”概念提出后,T单位长度被认为是一种更有效的句法复杂性测量方法。很多学者认为平均T单位长度(MLT)与二语写作熟练程度显著正相关,此后MLT得以广泛应用。Ortega[4]在梳理二语写作研究后发现,在27个前人研究中有25个将MLT作为句法复杂性测量的唯一指标,或与其他指标结合。但也有学者对用产出单位长度来判断句法复杂性的观点提出质疑[8-9],认为高水平写作者倾向于使用更简化的句子结构。Craig和Judit[10]也指出,与新手相比,专业演讲者和作家由于已熟练掌握如何高效生成信息,会用更简单的方法表达复杂的思想。另外,在汉语二语学习者书面语句法复杂性的测量指标研究中,吴继峰[11]等也发现,T单位不是汉语句法复杂性的有效测量指标,话题链子句数、话题链数量及零形成分数量等才是有效指标。可见,对于二语写作的熟练程度是否体现为句子、T单位等单位长度的多寡仍存分歧。学者们逐渐将指标测量的方法从单位长度本身转向基于单位长度的比率。

(二)基于比率的研究

在基于单位长度的比率研究方面,Wolfe-Quintero, K.、Inagaki, S.和Kim, H.-Y.[3]指出比率方式对句子复杂性测量最具有效性,并建议使用每个T单位中的子句数量 (C/T) 、每个子句中的从属子句数量(DC/C)、每个T单位中的从属子句数量(DC/T)或其它基于 T 单位的指标来衡量句法复杂性。其后,根据这些指标,出现了很多相关研究。Norris和Ortega[12]在总结前人相关研究的基础上指出,常用且易于计算的指标有平均句子长度,每个T单位中的子句数量,子句与 C-unit 之比等。鲍贵[13-14]则从单位长度 (MLT, MLC)和子句密度(CT/T, DC/C)来研究句法复杂性。Lu[15]在研究中较全面地使用了包含单位长度(MLS, MLT, MLC)、句子复杂度(C/S)、从属子句使用量(C/T, CT/T, DC/C, DC/T) 、并列结构使用量(CP/C, CP/T, T/S)、特定短语结构(CN/C, CN/T, VP/T) 五种类型共14个测量指标。其中,除一些常用指标外,还补充了以下指标:每个句子中的子句数量(C/S)、每个子句中的并列短语数量(CP/C)、每个T单位中的并列短语数量(CP/T)、每个句子中的T单位数量(T/S)、每个子句中复杂名词性短语数量 (CN/C) 、每个T单位中的复杂名词性短语数量(CN/T)、T单位中的动词短语数量(VP/T)。需要说明的是,虽然上述指标同属粗粒度指标,但单位长度指标比特定短语结构指标的颗粒度更大。根据单位长度指标只能了解T单位、句子、子句的平均长度,但无法了解引起这些单位长度变化的具体语言成分。相比之下,特定短语结构指标能提供相对较精细的语言结构细节,如复杂名词性短语数量、动词短语数量等,但这些复杂名词性短语或动词短语也分很多小类,无法判断更具体的小类的使用情况。因此,虽然上述指标的精细度有别,但总体可被归为粗粒度指标。此外,赵俊海和陈慧媛[8]用每个T单位中的从属句数量、从属句、非限定动词和衔接成分这四个指标测量二语书面语句法复杂性。李梦骁和刘永兵[16]使用单位长度(W/T, W/C)、单位密度(CT, DC/C)、独立子句、从属子句等测量指标,研究中学英语学习者书面语句法复杂性。郑咏滟和冯予力[17]用W/T、DC/T和 CN/T指标研究了15名学生句法复杂性的发展趋势。吴雪和雷蕾[18]采用元分析方法指出长度指标可作为句法复杂性研究主要观测变量,而从属性和并列性指标可作为次要观测变量。Jiang Jingyang、Bi Peng和Liu Haitao[6]认为有必要精简Lu[15]提出的14个测量指标,因此在其研究中只用了其中的7个指标(MLC, MLT, MLS, DC/C, T/S, CP/C, CN/C),并指出与其他传统的粗粒度指标相比,MLT、MLS和 DC/C能更好预测写作熟练度。

另外,对于粗粒度的从属子句相关指标是否能测量句法复杂性,并预测二语写作水平,不同学者观点不一。一些研究认为从属子句相关指标与语言水平不显著相关。例如, Halliday[19]认为与口语句法复杂性主要体现在从属结构上相比,书面语句法复杂性更多通过名词结构和名词化实现。Biber、Gray和Poonpon[20]、Parkinson和Musgrave[21]均指出高级学习者的写作更倾向于用复杂名词性短语的阐述,而不是更多的定语从句。Lu[15]发现,与写作相比,从属关系与口语的关联性更强。Ai和Lu[22]研究结果表明,从属结构维度指标并未随语言水平发展而提高。Jiang Jingyang、Bi Peng和Liu Haitao[6]也均在研究中指出,从属相关的度量如C/T和DC/C似乎无法有效衡量大学水平学习者写作中的句法复杂性。但也有学者持不同观点,认为从属子句、句法复杂性和语言水平显著相关。例如,Crossley和McNamara[23]发现,在学术写作中从属子句能很好地预测评分者对写作质量的评估。可见,对于从属结构相关指标能否有效衡量二语写作水平,仍需深入研究。

基于比率的粗粒度指标研究的另外一个重要方面是对短语复杂性相关指标的研究。Monroe[24]研究显示紧缩子句(主要成分是短语)的数量对不同语言水平具有显著区分性。秦晓晴和文秋芳[25]则提出可通过统计名词短语、动词短语、形容词短语、副词短语等的数量,来验证不同类型短语是否对语言水平有区分度。Lu[26]也使用了短语复杂性指数,发现高水平学习者倾向于使用更复杂的名词性短语。郑玉荣[27]则关注句子、T 单位、子句间的关系(如C/T等)和这些单位中是否有某种特殊的语法结构(如T单位中复杂性名词短语的数量CN/T等)两类测量指标。

可见,粗粒度指标研究主要经历了从基于单位长度和基于比率的转变。且在基于比率的测量指标中,对从属子句和短语复杂性相关指标的分歧较大。

三、 细粒度指标研究

如前所述,细粒度指标的优势在于能体现具体语言结构细节,易于精确解释。不少学者基于子句复杂性和短语复杂性两个维度对细粒度指标进行研究。值得一提的是,子句复杂性和短语复杂性指标,也有粗粒度和细粒度之分。前文在梳理粗粒度指标时,提到了DC/C等子句复杂性指标和CN/T,VP/T等短语复杂性指标。由于这些指标考察的语言结构细节不够精细,被归为粗粒度指标,但此处分析的两个维度更加精细到从句类型和限定词等子类,属于细粒度指标。对于这两个维度的指标在测量写作质量的有效性对比上,有些学者认为短语复杂性更具有效性。如Biber、Gray和Poonpon[20]研究发现,子句复杂性是非正式对话的鲜明特征,而学术写作的鲜明特征是短语复杂性。Taguchi、Crawford和Wetzel[28]研究表明,与低分作文相比,高分作文往往包含更多的短语复杂性特征(如后置介词短语修饰名词)和更少的子句复杂性(如that定语从句)特征。短语的子类名词短语或名词修饰语也受到关注。名词短语的使用被认为是高级学习者写作的一个主要特点[21][23]。但也有学者持不同观点,Jiang Jingyang、Bi Peng和Liu Haitao[6]认为子句复杂性维度的状语从句、补语从句、定语从句和名词修饰语(属于短语)维度的介词短语和形容词性定语从句均在高水平学习者的写作中频繁出现。

(一)细粒度子句复杂性指标研究

Biber、Gray和Poonpon[20]研究的子句复杂性包括状语从句、补语从句、定语从句。这三种从句又均有限定性和非限定性两个子类。因此其研究中共包含了6个子句复杂性指标。Kristopher和Scott[29]的研究考虑了30种子句复杂性指标,包括形容词补语(acomp)、副词修饰语 (advmod)、状语从句 (advcl)、直接宾语(dobj)、间接宾语 (iobj)、名词主语(nsubj)、名词补语 (ncomp) 等,其中28种指标计算每个子句中某特定结构的平均数。研究发现与短语复杂性指标相比,子句复杂性指标预测写作质量的效果较差。Jiang Jingyang、Bi Peng和 Liu Haitao[6]在研究高中生记叙文时,除使用7个传统的粗粒度指标(MLC, MLT, MLS, DC/C, T/S, CP/C, CN/C)外,也使用了从属子句维度的3个细粒度指标,包括状语从句(advcl)、补语从句 (ccomp) 和定语从句(acl:recl)。

(二)细粒度短语复杂性指标研究

Biber、Gray和Poonpon[20]在测量短语复杂性时,使用了状语和名词修饰语两种类型的指标。其中,状语包含副词作状语和介词短语作状语两个子类;名词修饰语包括定语形容词、名词作名词前置修饰语、介词作后置修饰语等子类。Kristopher 和 Scott[29]在研究中考虑了多达66种短语复杂性指标。这些指标包含在7种短语类型 (phrase types) 包括被动句中的名词主语 (nsubj-pass)、介词后的宾语 (pobj) 等和10种依存类型 (dependent types) 中,包括限定词 (det)、形容词修饰语 (amod) 和所有格 (poss) 等。该研究发现,与传统的粗粒度指标及细粒度的子句复杂性指标相比,细粒度的短语复杂性指标能更好地预测写作质量。 Jiang Jingyang、Bi Peng和Liu Haitao[6]使用的细粒度短语复杂性(短语包含名词修饰语)指标共5个,包括所有格修饰语 (nmod: poss)、复合名词 (compound)、形容词修饰语 (amod)、介词短语作定语 (prep:attr) 和形容词性定语从句 (acl:recl1)。Crossley 和McNamara[23]研究发现,高水平论文会使用形容词修饰名词、介词后置修饰名词和分词修饰名词等名词短语,而低水平论文较缺乏复杂的名词短语。刘黎岗、缪海涛[30]也指出与句法复杂性指标中的句子、子句指标相比,短语复杂性指标不足。Elliott和Joseph[31]指出名词短语类型包括形容词修饰的名词、介词后置修饰的名词、分词修饰的名词、所有词修饰的名词、定语从句修饰的名词等,并得出结论:复杂名词性短语的最高密度出现在高评分作文中。Jiang Jingyang、Bi Peng和Liu Haitao[6]的研究结果均表明,基于长度、从属和名词修饰语的测量方法可反映初、中级学习者的句法复杂性发展情况。这些结果进一步支持了名词短语修饰语作为二语学术写作能力指标的重要性。同时,一些基于长度的测量 (如MLS, MLC) 和基于名词短语密度的测量也被发现对高级学习者的发展是有效的[15]。Taguchi、Crawford、Wetzel[28]和Jiang Jingyang、Bi Peng、Liu Haitao[6]的研究均表明,介词短语的使用频率也可预测高级学习者的写作质量。

另外,有学者关注了其他维度的测量指标,如句子衔接成分和动词等。例如,Wolfe-Quintero, K.、Inagaki,S.、Kim, H.-Y.[3]和Norris、Ortega[12]则将动词列为潜在的测量语法复杂性的最佳指标。

四、反思与展望

通过梳理句法复杂性测量指标已有研究成果,本文认为可从以下角度开展后续研究。其一,加强测量指标的纵深和细化研究。在过去几十年的研究中,由于粗粒度指标更易操作,二语写作研究者主要使用粗粒度的、基于长度的指标来测量句法复杂性。但由于这些指标既未区分从属类型,也未考虑从属、语篇类型和产出方式间的潜在互动,掩盖和模糊了句法复杂性的细节发展过程。以从属子句为例,把从属子句作为一种整体结构来衡量,掩盖了具体句法类型如名词性从句、状语从句和定语从句。对学习者写出的更长的从句,也无法了解导致从句长度增加的具体结构,如介词短语作状语、介词短语作名词修饰语、不定式短语等,导致研究结果较难得到精确解释。因此,要加强测量指标的纵深和细颗粒化研究,尤其是在名词短语、状语和从句等维度上进行的更细粒度的测量指标研究,以考察在各个发展层次上出现的具体句法构式类型,以便做出更精确的解释。另外,由于句法能力的动态发展,不同熟练程度的学习者会依赖不同的句法复杂性手段。因此,有必要采取各种不同的指标来评估学习者在不同阶段的写作句法水平。其二,更加关注细粒度短语复杂性等指标研究。对细粒度短语复杂性指标的研究近年来才兴起,但多项研究表明,细粒度的短语复杂性指标能有效预测二语写作水平,因此应更加关注细粒度短语复杂性指标研究。其三,考量子句复杂性指标的有效性。很多研究都将子句复杂性作为测量句法复杂性的重要维度,但多数研究结果表明,在二语书面语中子句复杂性与句法复杂性并不显著相关,因此需谨慎考量是否将子句复杂性列入测量指标。其四,精简等效或相似测量指标,增加其他相关领域指标。许多现有的研究使用了等效或非常相似的度量,而语言复杂性的一些其他领域,如形态学则较少被考虑。可在考量有效性的前提下,将其他相关领域研究成果融入到句法复杂性指标研究中。其五,关注测量指标用于纵向动态研究。与横向静态研究相比,纵向动态研究的周期更长,更耗时费力,导致这方面的研究尚显缺乏。已有研究多聚焦中上或高水平学习者的句法复杂度发展轨迹,但是较低或中低水平的二语学习者的句法发展特征更需要关注,其研究结果对提高他们的二语产出水平会有较好的启示意义。其六,关注测量指标用于个体发展差异性研究。现有研究多考察某学习者群体的句法复杂性指标,对个体不同维度的句法指标发展变化关注较少,未来研究可进一步关注个体学习者发展特征以及揭示出的关于学习过程细节变化的特征,这样更易于考察群体研究发展趋势所遮掩的个体二语书面语句法复杂性发展过程中的本质属性。

综上,从指标粒度上看,二语书面语句法复杂性测量指标研究已经取得了长足进步,出现了由单纯的粗粒度指标向粗细粒度指标结合的发展趋势,且对细粒度指标的研究日益细化和深入。但在细粒度指标研究中,具体测量指标的增减,历时动态发展研究和个体发展差异性研究等方面仍有较多的研究空间。在二语书面语句法复杂度研究领域,究竟哪些测量指标能更精准地反映学习者的语言发展特征还需要学界进一步深入研究以达成共识。

猜你喜欢
句法复杂性短语
新时代城乡学前教育均衡发展的复杂性挑战与路径优化——基于复杂性理论
非接触广角镜联合玻璃体切割系统治疗复杂性视网膜脱离的疗效及预后
复杂性背后
句法二题
《空间句法在中国》段进、比尔?希列尔等(著)
诗词联句句法梳理
“分”的音变构词及其句法语义特征
《健民短语》一则
复杂性的未来