不同年级学生词边界划分的发展研究

2015-06-30 22:07付或何立媛吴蕊涵闰国利
心理与行为研究 2015年1期
关键词:发展研究

付或+何立媛+吴蕊涵+闰国利

摘 要 汉语书写系统中不存在明显的词边界,中文读者对于词的划分存在较大的差异。词意识和词性均是影响这一差异的因素,本研究从发展的角度来探讨这两个因素是如何作用于词边界划分的。实验分别选取三年级、五年级、八年级及高二年级学生完成词切分任务。结果发现: (1)词切分认同率随年级的升高而降低,切分出来的词单元逐渐增大: (2)词切分认同率随年级变化的趋势会因词性的不同而发生变化,助词、形容词前、连词和介词后的切分认同率与总体趋势保持一致,但形容词前、数词、量词和介词前的切分认同率并未随年级的变化而变化。结果表明,词意识对中文读者词切分的影响受到词性的调节。

关键词 词切分,词意识,词性,发展研究。

分类号 B842.5

1 引言

阅读是人们获取信息的重要途径,在阅读过程中.读者要理解句义乃至段落篇章,首先要完成词汇识别进而整合句义,提取相关信息。可见,词汇识别是阅读过程的首要环节。然而,要完成词汇识别需要把词从连续呈现的文本中切分出来,即词切分(word segmentatton)。研究表明,词边界信息不仅能够促进单词识别,还有助于眼跳目标的选择(Rayner,Fisher,&Pollastek,1998;白学军,等,2012)。因此,如果能够正确完成词切分,将会促进词汇识别进而保证阅读过程的顺利进行。

不同文字具有各自的书写系统和呈现特点,这会影响读者对于词的认识和词的切分。如以英语为代表的拼音文字,词与词之间存在空格等明显的词边界,读者对词的认识是比较清晰的,在标记词边界上也较为一致。然而汉语中,仅仅存在字与字之间的固定距离,没有明显的词边界,如果要求中文读者给出词的定义或者将连续的文本划分成单一的词汇单元,将会出现较大的差异。许多研究者对此进行了探讨并发现,中文读者在完成词切分时,往往认为词包含两个及其以上的词素,倾向于将虚词和实词连在一起,且把虚词看作词缀,如“母亲的”,即相邻词的词性会影响读者的切分(Hoosain,1991; Tsai, McConkie, & Zheng, 1998; Miller,Chen,&Zhang, 2007; Liu, Li, Lin,&11, 2013;闫国利,张兰兰,孙莎莎,白学军,2013)。

尽管中文读者没有清晰的词概念,也不能正确有效地划分词单元,但在阅读中并未出现加丁困难。有研究表明,读者在阅读中文、英文和芬兰语文本时,阅读效率不存在显著差异( Liversedge,eta1.,2011)。尽管在词间插入空格,也没有对阅读产生促进作用(Hsu&Huang, 2000a,2000b; In-hoff, Liu, Wang, & Fu, 1997; Bai, Yan, Liv-ersedge,Zang,&Rayner,2008)。那么中文读者是如何在词边界模糊的情况下顺利完成阅读的呢?Li,Rayner和Cave (2009)提出并验证了关于汉语词切分机理的整体假设(holistic hypothesis)。该假设认为,字识别、词识别等各层级之间相互影响,直接从整体上激活词汇表征以完成词切分过程。也就是说,在没有空格等物理边界信息的情况下,中文读者利用诸如自身的知识经验等自上而下的信息完成词切分(李兴珊,刘萍萍,马国杰,2011)。另外有研究者提出,语言使用者在长期大量的语言接触和语言经验基础之上,心理词典中会存在一些形式与意义的组合一语块,这些语块是整体存储和加工的,即读者心理意义上的“词” (易维,鹿士义,2013)。由此可见,阅读经验有可能是导致中文读者词切分存在差异的重要因素。张兰兰,闰国利和白学军(2013)在研究中采用与前人相同的词切分任务,从发展的角度探讨了阅读技能水平对中文读者词意识的影响。结果发现,被试词切分的差异量随阅读技能水平的提高而增加,而且切分出来的词长也随之增大。即随着阅读水平的提高,汉语读者的词意识逐渐模糊。这一研究为探讨中文阅读中的词切分问题提供了新的思路。综合以上研究,可以推测,中文读者最初对词的认识是清晰的,但为了提高阅读效率,在一定阅读经验的基础之上,将较小的词单元合并成为较大的单元加工连续呈现的文本,进而使得词意识逐渐模糊。

然而,现代汉语句子由实词和虚词构成。实词包括名词、动词、形容词、数词、量词、代词六类,具有实在意义,能够单独充当句子成分。虚词包括副词、介词、连词、助词、叹词五类,这些词没有实在意义,一般不能充当句子成分和单独回答问题(少数副词如“不”、“也许”、“没有”等可以单独回答问题),只能配合实词造句,表示各种语法关系。Liu等人(2013)的研究发现,中文读者切分出来的词并非均不符合现代汉语的信息加工词切分说明(conte,nporary Chinese language word segmentation specification for information processing, CCLWSSIP),随着词性的变化,读者的词切分一致性也不尽相同,如助词前、形容词后、数词后和量词前的切分一致性较低,即被试对这几类词的词边界认识较为模糊,而对连词和介词的切分一致性较高,词边界的认识较为清晰。可见,中文读者对词边界划分的不一致性,并非完全是词意识的不断模糊造成的,还可能会受到词性的影响,然而这两个因素是相互独立还是共同作用于词切分过程?目前未有相关研究涉及。本研究将采用词切分任务.从发展的角度探讨中文读者对助词、形容词、数词及量词这类边界模糊词以及连词和介词边界清晰词的词边界认识的发展变化特点,为解读中文阅读过程中的词切分机理和基本信息单元问题提供参考。

2 研究方法

2.1 被试

从天津市的中小学选取了4个年级的被试,三年级选取50人(男32人,女18人),五年级选取54人(男27人,女27人),八年级选取55人(男19人,女36人),高二年级选取50人(男29人,女21人)。

2.2 材料选择及评定

从北京大学汉语语言学研究中心语料库中选取194个句子,请12名三年级学生(不参与随后的切分实验)和3名三年级语文教师分别评定这些句子是否适合三年级学生阅读,并且标出三年级学生不认识的汉字和不理解的句子。最终选取63个句子.句子的长度为18-24个汉字。以《现代汉语词典》(第5版)作为判断词的标准,63个句子共1294个汉字,包含905个词,其中单字词的比例为58.90%,双字词的比例为39.560/0,三字词和四字词的比例为1.540/0,平均每个词包含的汉字数为1.43个。

2.3 程序及指导语

要求被试认真地阅读所有的句子,按照自己的经验将句子用竖线“/”把词切分出来。实验进行时间为40分钟,保证被试有充足的时间完成实验任务。

3 结果及分析

句子开始、结尾以及句中标点标明了一侧的词边界,因此排除每个句子开头和结尾的两个词.以及句中标点临近的前后两词不计入统计分析,共排除214个词。使用Excel 2010及Spss 19.0进行数据统计和分析。前期以《现代汉语词典》 (第5版)作为分词标准,根据被试纸质版材料的词切分任务结果,统计词前和词后划分的认同率,即按照每年级组被试在该位置划分人数除以该组被试总数计算得到的比率:

词边界划分的认同率=该词的被试划分数/该组被试总数

随后对词边界划分的认同率进行方差分析,包括总体分析和词性分析两部分。

3.1 总体分析

对材料中包含的所有的词进行了以年级为变量的分析,以获得总的发展趋势。由于词边界既可以是前一个词的后边界同时也是后一个词的前边界,被试对词前和词后的切分认同率应该是相同的,因此仅对词前认同率进行单因素方差分析。结果如图1所示。

不同年级之间差异显著.F(3,2716) =16.8,P <0.001。事后检验发现,三年级切分认同率(M=0.68)显著高于五年级(M=0.60)、八年级(M=0.59)和高二年级(M=0.55),ps<0.01。五年级切分认同率显著高于高二年级,p<0.05,其他无显著差异.ps>0.05。这一结果表明,随着年级的上升,词切分认同率逐渐下降。

3.2 词性分析

材料包含助词91个,形容词55个,数词25个,量词30个,连词19个,介词31个,现分别对这6种不同词性的词进行词前和词后切分认同率分析,结果见表1。

3.2.1 形容词

材料中共有形容词55个,其中单字形容词20个,双字形容词35个。对形容词的切分认同率进行方差分析,结果见图2。

不同年级在词前切分认同率上差异不显著,F(3,216) =2.01,p>0.05,平均切分认同率为0.70(>0.5)。不同年级在词后切分认同率上差异显著,F(3,216) =16.85,p<0.01。事后检验表明,三年级(M:0.29)和五年级(M=0.51)的切分一致性概率显著高于八年级(M=0.29)和高二年级(M=0.27)的切分认同率,其他无显著差异,ps>0.05,说明随着年级增加,形容词词后切分认同率降低,而读者对形容词之前的边界认识是比较清楚的。

为明确形容词后切分认同率降低的情况,对形容词后的词类进行了分析。形容词后的词种类集中在助词(26)、名词(15)以及动词(6)等,助词占绝大多数,因此对“形容词+助词”组合的形容词后切分认同率进行比较发现,不同年级间差异显著,F(3,104) =99.77,p<0.01。事后检验发现,三年级(M=0.58)和五年级(M=0.57)的切分认同率显著高于初二(M=0.15)及高二年级(M=0.12),与形容词后切分认同率的变化趋势一致。同时.关于形容词后接名词的切分认同率进行分析,结果无显著差异,F(3,60) =1.02,p>0.05,平均值约为0.37。由此可见,所有被试均倾向于将形容词和其后的名词视为一个词单元,这一倾向更可能形成于三年级之前,而随着年级的上升,被试逐渐地将形容词与其后接的助词视为一个词单元。

3.2.2 数词、量词

无论是实验材料还是日常阅读,数词与量词经常一起出现,因此把数词与量词共同分析。在材料中共有数词25个,其中后接量词的数词22个,量词30个。分析结果见图3。

不同年级在数词和量词的词前、词后切分认同率上差异均不显著,Fs<2.00,ps>0.05,然而,总体切分认同率平均值是不同的:数词前和量词后分别为0.78和0.60,高于0.5,数词后和量词前分别为0.07和0.03,低于0.5。这些结果说明被试对数词前和量词后的边界是清晰的,而对数词后也就是量词前的边界非常不清晰,所有被试均把数词和量词认为是一个词单元。

3.2.3 助词

材料中助词共有91个,均为单字词,包括“的(61)、了(8)、地(6)、得(4)”等。对这些单字词进行以年级为变量的单因素方差分析,结果见图4。

不同年级在词前切分认同率上差异显著,F(3,360) =98.07,p<0.01。事后检验表明,三年级(M=0.55)和五年级(M=0.54)的切分认同率显著高于八年级(M=0.18)和高二年级(M:0.16),ps <0.05;不同年级在词后切分认同率上差异也是显著的,F(3,360) =16.36,p<0.01。事后检验发现,五年级被试的切分认同率显著低于三年级(M=0.83)、八年级(M=0.83)以及高二年级(M:0.76),其他年级间没有显著差异,ps>0.05。这一结果表明,相较于高年级,小学生倾向于把助词和助词前的词分开,初中和高中学生则更倾向于把助词前的单位和助词一起构成更大的单位。但是,五年级被试在词后切分认同率上显著低于其他年级可能与这一阶段具有过渡性有关。

3.2.4 连词

材料中共有连词19个,主要集中在“和(8个)、或者(3个)及并(2个)”等。方差分析发现如下结果(见图5)。

不同年级在连词的词前切分认同率上差异显著.F(3,72) =7.89,p<0.01。事后比较发现:三年级的切分认同率(M=0.95)显著高于八年级(M:0.79)和高二年级(M=0.76),五年级(M=0.62)显著高于高二年级,其他年级间无显著差异,ps>0.05。不同年级在连词的词后切分认同率上差异显著.F(3,72) =3.72,p<0.05。事后比较发现,三年级被试的连词后切分认同率(M=0.78)显著高于五年级被试(M=0.62),其他年级间没有显著差异,ps>0.05。

3.2.5 介词

材料中共有介词37个。主要包括“在( 12个)、把(4个)、从(3个)”等,共有单字介词35个,双字介词1个。对介词进行方差分析,结果见图6。

不同年级在介词前切分认同率上差异不显著.F(3,120) =1.84.p>0.05,平均切分认同率0.69(p>0.5)。这一结果表明,各年级对介词前的词边界比较清晰;不同年级在介词后切分认同率上差异显著,F(3,120) =7.56,p<0.01。事后检验表明,三年级被试在介词后切分认同率(M:0.76)上显著高于五年级( M=0.62)、八年级(M:0.60)、及高二年级(M=0.56),其他年级间无显著差异,ps>0.05。虽然对介词后的词边界划分认同率处在较高水平(M=0.64),然而这种清晰划分随着年级的增长而逐渐减弱,同时这种趋势在五年级时趋缓。

4 讨论

本研究通过描述汉语读者对词边界认识的发展特点,探讨汉语读者词切分差异产生的原因。结果发现:被试的词切分认同率随年级的升高而逐渐下降,切分出来的词单元逐渐增大,然而,这种趋势会因词性的不同而发生变化,被试对助词和连词边界划分的认同率与总体趋势是一致的,而形容词、数词、量词、介词的切分认同率并未随年级的变化而变化。

4.1 词意识对词切分的影响

在总体分析中,被试的词切分认同率随着年级上升而下降,到高二年级时趋于稳定。相比于高年级的被试,三年级被试的词切分正确率更高,这一结果与张兰兰等人( 2013)的研究结果基本一致。说明随着阅读水平的提高,其词概念越来越模糊,倾向于将多个词结合在一起形成独立的词单元。徐芬(2002)的研究表明,中文读者大约在六岁左右产生词意识,即为小学一年级阶段。在小学教学过程中,特别是语文教学,教师会首先要求学生学习生字词,儿童的词意识得到进一步的强化,但随着年级的升高,这种学习模式会发生改变,词汇的学习逐渐弱化,过渡到以短语、句子、段落、篇章为重点的学习模式。因此,中文读者的词意识逐渐模糊.只能根据这种模糊的意识确定词边界,不同的读者其词意识会存在差异,因此在词切分时产生了较大的不一致性。

然而.一个有趣的发现是,词切分认同率随年级升高而降低的这一趋势的最低点出现在五年级期间,之后的初二年级和高二年级间差异不十分明显。在单个词性分析中,从助词和连词的词后切分结果中可以看出,五年级的切分认同率低于其他所有年级。这可能是由于五年级具有过渡性导致的,无论是知识的储备还是新策略的采用,五年级儿童正处于一个过渡期,因此出现了这一现象。但是这一过渡性是否确实存在,还需要在未来的研究中进一步验证。

4.2 词性对词切分发展趋势的影响

汉语中存在名词、动词、形容词、助词、介词等不同词性的词,本研究发现,形容词前、数词、量词、介词前的切分认同率均未出现年级之间的显著差异.而且形容词前、数词前、量词后和介词前被试的切分认同率均高于0.5,即所有被试对这些词边界的认识较为清晰,而被试在数词后、量词前的认同率分别为0.07和0.05,远远低于0.5.不论高年级还是低年级的被试都不能正确划分这两类词边界。由此可见,并不是每一类词其边界划分一致性都会随年级的变化而变化。这可能是由于两个连续呈现的词所形成的单元是否具有实质意义所决定的。Liu等人(2013)的研究发现,多于80%的被试报告.汉语词必须具有意义且能够传递信息。即便随着知识经验的丰富,将形容词与其前面的词结合起来.如句子“他从朋友那里听到一个真实的故事,又告诉了家人”中, “真实”是形容词,若将其与前面的“个”或者“一个”连接在一起的话,不是一个具有完整意义的单元,但它可以与其后的“的”这一助词联系在一起成为一个能够表达完整意义的单元,而数词和量词“一”、 “个”结合在一起后,能够表达完整意义,而且还可以省去切分两个词所耗费的认知资源。具有不同语法类别的词在句子中充当的成分是不一样的,其前后的词类基本上是固定的,所以能否与前后的词构成一个意义单元依赖于词性。

综上,汉语这一特殊的书写系统没有明显的词边界,读者必须利用自上而下的策略完成词切分。同时汉语的字往往具有多个含义,与不同的字组合会有不同的意义( Liu,et a1.,2013),具有很强的灵活性,读者若要减轻认知负担,完成阅读任务就需要运用自身的知识储备进行灵活的加工。从某种程度上来说.不论是词意识还是词性都可能是中文读者在长期阅读的基础上得出的可以高效完成词切分的依据,而且还可能会有其他的依据。这是一个值得深入探讨的问题。

5 结论

综上所述,本研究从发展的角度探讨了中文读者词切分出现差异的原因。结果发现,词切分认同率随年级的升高而降低,切分出来的词单元逐渐增大:然而这一趋势会因词性的不同而发生变化。结果表明,词意识对中文读者词切分的影响会受到词性的调节。

猜你喜欢
发展研究
我国文化类真人秀节目的突破
贵州高铁经济带发展研究
东北粮食物流发展研究
“互联网+”时代国际贸易新方向跨境电商发展研究
经济全球化背景下中国经济发展研究
儿童早期工作记忆发展研究
略谈现代机械加工技术的发展