基于DDL理论的汉日同素逆序词库建设及应用*

2021-03-08 05:46马瑞祾
佳木斯大学社会科学学报 2021年1期
关键词:词库语料词典

马瑞祾

(西南民族大学 中国语言文学学院,四川 成都 610041)

在“互联网+教育”的时代语境下,信息技术在教育领域的普及和应用推动了国际中文教育向智慧教育的方向发展[1]。教学资源的数字化、教学环境的网络化、教学模式的智慧化、教学管理的自动化等已成为未来汉语教学发展的显著趋势。同时,我国颁布的《教育信息化“十三五”规划》[2]和《教育信息化2.0行动计划》[3]两份文件中均提出利用信息化手段对学习者开展差异化、精细化、智能化教学和管理的要求,这为汉语教学的新一轮变革指明了方向。1991年由Johns和King提出的DDL(Data-Driven Learning)即“数据驱动学习”理论,近年来被广泛应用于二语词汇教学,特别是同义词辨析和多义词教学。该理论主张学习者运用教师筛选、编制的语料库工具进行自主学习,通过探索、输入、分析大量真实的语料,从而完成对规则的掌握和意义的建构。这种运用数据库技术进行自主化、探索式的词汇学习模式有效贴合了汉语教学智慧化的需要。

日本与中国有着深远的历史渊源,在长期的文明互鉴和语言接触中,日语词汇系统中保留了大量的汉字词。此外,在汉、日两种语言中都存有“AB—BA”式特殊构词现象,汉语称之为“同素逆序词”,日语则称为“二字逆顺語”或“鏡像語”。张博(2008)指出,汉字文化圈的学生易受到本民族语言的负迁移影响,在汉语表达中出现“径用母语词”的现象,特别是日、韩学生对汉字词的混用[4]。相反,若以同素逆序词为切入,抽绎两种语言间的对应关系,可作为对日词汇教学的重要“抓手”。鉴于此,本文以《汉语水平词汇与汉字等级大纲》(以下简称《等级大纲》)、《新HSK大纲词汇(1-6级)》(以下简称《词汇大纲》)和《新实用汉语课本》《博雅汉语》为汉语语料蓝本,以《新明解国语辞典》(第七版)为日语语料蓝本,穷尽式统计出498个汉日同素逆序词,并运用Microsoft Access 2016数据库管理系统建立“汉日同素逆序词库”,进一步探析DDL理论在创新对日词汇教学模式中的具体应用。

一、 建库意义及设计原则

语料库是指“机器可读的大量的自然语言素材的有序集合,这些语言素材是书面文本、言语录音或其转写”[5]。汉日同素逆序词库既是双语语料库,也是为教学服务的专用语料库。

(一)词库搭建目的

1.满足二语教学中本体研究的需要:在语言教学中,本体研究能够帮助教学者达到“知本”的目的。首先,建库过程需对汉、日语言中的同素逆序词进行全面梳理,有助于进一步明晰同素逆序词的定义。其次,汉日同素逆序词的数据库化能将两种语言间的对应关系以二维关系表的形式表征和存储。再次,词库设计与字段标注有助于教师和科研人员快捷地检索、查询到所需词语的义项分布、句法功能和语用实例等信息,有助于定量研究的开展。

2.满足学习者探索式学习的需要:传统的词汇学习模式,学生只能依靠教材、词典和老师课堂教学,学生难以根据自身需求学习新词语。在“以学生为中心”理念的驱动下,词库的建成有助于学习者根据自身需求针对性地开展词汇学习,并通过例句构建的近乎真实的语境帮助学习者完成词义的识解。

3.满足学习词典和教材编撰的需要:现下,学习词典和二语教材迎来了从纸质件向电子化发展的趋势。教材和词典的编撰愈发依靠大规模、高精度的语料库。词库能为教材和词典的编写提供释义、词性、用例等信息,提高编修速率。词库的动态管理能帮助编写者快速捕捉词目义项的演变和隐退,从而及时更新教材和词典。

4.满足跨文化视域下语际对比的需要:词汇是民族文化信息的重要载体,是不同民族认知心理、社会习俗、审美情趣等文化因素在语言上的映射[6]。汉日同素逆序词的差异反映了两个民族的异质文化特征。若学习者无法对词汇间的差异进行准确把握,就容易造成词义识解的偏差。依托词库的对比查询功能,师生可对汉日同素逆序词进行句法、语义等不同界面的辨析,进而帮助学习者掌握目的语。

(二)词库设计原则

1. 规范性原则:该词库是服务留学生自主习得同素逆序词的教学库,规范的语料是首要的建库要求。数据表中词目的词形、拼音、词性需严格按照《现代汉语词典》(第七版)和《新明解国语词典》(第七版)两部规范词典进行标注。例句均选自北京语言大学汉语语料库(BCC),且严格按照现代汉语的语法规范和汉民族的语用习惯进行挑选,避免使用含有文言或方言词汇、句式的例句,为学习者提供真实的目的语日常交际实例。

2. 多样性原则:与教材、词典相比,词库最大的优势在于所提供的语料量不受篇幅和纸张的限制。为帮助学习者全面掌握汉日同素逆序词的句法、语义、语用等角度的差异,满足其个性化需求,词库既要不断拓宽语料来源,又要保证用例的平衡性和多样性。受同素逆序词标准的限制,词库的词目总量有限。但各词条包含的例句数量却较为庞大,语例总量达3280句。每个词的不同义项均保证有2个及以上的语例,且尽量涵盖不同语体、话题和语境。

3. 实用性原则:为适配学生自主学习的要求,库中用例应保证除目标词外其他的词语和句式基本上贴合学习者的汉语水平和学习进度,实现语言的可理解性输入。在标示词义时,还需综合参考《汉语8000词词典》等多部外向型学习词典,从中选出学习者最易理解的释义内容,并注重展示词语的搭配情况。在选用语例时,用例需围绕目标词的语义和用法,并注意补足例句中省略的语义和语境信息,使例句更利于学习者理解和掌握。

二、词库的建库流程

(一)同素逆序词的厘定

入库语料的选定是建库的关键,语料筛选需对同素逆序词进行准确把握。目前,学界对于“AB-BA”这类特殊的词汇现象的界说尚存争议,表现为命名的众说纷纭。“同字异序词”“同形逆序词”等别称大行其道。本文所采用的“同素逆序词”既高度概括了该类现象的特征,又较好贴合了汉、日词汇的实际情况。首先,“同素”而非“同字”。“同素”即参构语素的音、义相同。汉字的本质是符号的符号,且字的义项不唯一,而语素的义项唯一。基于语言的可比性,在进行语际对比时仅要求语素义相同,忽略音位系统不同造成的语音差异。其次,“逆序”而非“异序”。异序是指标记语素的汉字顺序不同,是逆序的上位概念。在双音节词中异序仅有逆配列一种情况,而在三音节词语中则有多种排列组合情况,如“读好书”的异序形式可以为“读书好”“好读书”等。最后,“词”需为复合构词。同素逆序词是由两个词根语素复合成词,并非单纯词。此外,当词对中有一方为短语时则不属于同素逆序词的范畴,如雪白(词)—白雪(短语)。

(二)语料的筛选及预处理

为使得语料更加贴合二语学习者的学习需求和实际情况,数据库的汉语语料主要采自《等级大纲》《词汇大纲》《新实用汉语课本》《博雅汉语》4份文本。两份大纲文件是我国对留学生汉语水平考察的重要凭依和参考,所收词汇均为留学生必须掌握的。两套教材是当下高校对外汉语教学较常使用的系列教材。在已检索出的汉语词(对)基础上从《新明解国语词典》(第七版)中找出相对应的日语词(对)。由于汉、日书写符号系统演变路径不同,在收词时忽略了同一汉字在语际间的异写现象,如“介绍—紹介”。

在上文词汇观的指导下,通过机器和人工相结合的方式遍历来源文本,共采集出符合标准的词目498条。下文以《词汇大纲》为例展示语料的检索和遴选。首先,将《词汇大纲》导入Access中,命名为“HSK”表。运用LEFT和RIGHT函数分别查询表中各词的左、右第一个汉字,并用LEN函数将词长限定为2,生成“HSKz1”和“HSKy1”两个查询。其后,将两表中的汉字所在字段进行合并,拼接成反序组合“FXZH”表。通过“FXZH”和“HSK”进行关联查询,通过对比词目字段相同的即为反序词[5]。最后,对生成词表进行人工筛查,删除叠音词、重叠式合成词及语素义无关的同形逆序词,最终所得即为《词汇大纲》中的同素逆序词对。

语料的预处理环节主要包括语料降噪和分类。本文对同素逆序词分类标准以词形为主:首先,根据两种语言中正、逆序词的对应分布情况分为对称型和不对称型。其次,根据两种语言中构成同素逆序关系的词语数量细分为四个小类。

1. 1:1对称型:汉语和日语中各有一个由相同语素构成的词,且两词互为逆序关系。如:“伴随—随伴”。该类词共63对,126个词目,占比约25.3%。

2. 2:2对称型:汉语和日语中各有一对互为同素逆序关系的词对。如:“感情、情感—感情、情感”。该类词共30对,120个词目,占比约24.1%。

3. 2:1不对称型:汉语中有一对互为同素逆序关系的词对,日语中仅有单个对应的同素词。如:“演讲、讲演—講演”。该类词共32对,96个词目,占比约19.3%。

4. 1:2不对称型:汉语中仅有单个对应的同素词,日语中有一对互为同素逆序关系的词对。如:“运气—気運、運気”。该类词共52对,156个词目,占比约31.3%。

(三)词库数据表结构设计

汉日同素逆序词库按照概念单一化原则创建数据表,即每张表仅描述一个实体或实体间的联系。为使不同主题的信息分散在不同表中,从而提高数据组织和维护工作的便捷性,该词库由词对总表、汉语词表、日语词表3份数据表构成。图1数据库的管理系统选用的是关系型数据库。词对总表与汉语词表、日语词表间通过“词对序号”分别建立一对多的关系。汉语词表和日语词表间通过“词对序号”建立多对多的关系。

图1 汉日同素逆序词库的结构模型

表结构创建是词库建设的基础和核心,是用二维表的形式表征汉日同素逆序词间的对应关系,并通过在不同表间建立关系将多个表的数据联系起来的过程。受文章篇幅限制,本文仅以词对总表为例展示数据表的设计思路及字段的规定说明,如下表所示:

表1 词对总表(CDZB)表结构

(四)词库的功能及实现

汉日同素逆序词库主要面向对日汉语教师,以及母语为日语的汉语学习者开放的。词库包含用户查询和词库管理两大功能。目标用户可依托词库进行语料的检索、查询等。词库管理员负责定期对词库进行更新和维护。词库的词目检索流程及例词的前端查询界面如图2、3所示。同时,用户也可利用数据库的查询窗体功能进行同素逆序词不同维度的对比。本文以“收买”一词的词义对比为例建立查询窗体,如图4所示。

图3 “加倍”一词的前端检索界面

图4 “收买”一词的词义对比查询窗体

三、词库的教学应用

DDL模式的教学应用理据与建构主义强调“情境”对意义建构的作用具有一致性。词库的教学应用主要涉及环境、对象和课型问题。

(一) 智慧课堂是词库的主要教学环境

在汉语智慧课堂环境中,语言技术和语言知识教学良性互动,教学过程的参与者迭变为教师、学生和机器共同组成的三元关系。DDL模式下的同素逆序词教学,教师可以利用词库完成生词展示、词汇释义、造句练习等教学环节。学习者可利用词库输入丰富、真实的语料,利用各项功能制定个性化的学习方案,实现自下而上的归纳式学习。同时,结合AI技术完成对学习者学习行为的动态监测,及时掌握其对词汇的习得情况,针对性提供学习资源。词库在智慧课堂中的应用有助于教师打通虚拟网络与现实生活的屏障,延伸课堂。学习者也不再受限于时空,可以自由、自主地获取语言知识。

(二) 中、高级学习者是词库的主要适用对象

DDL模式主要适用于中、高级阶段的二语学习者。该类学习者正处在扩容词汇储备量和知识面的阶段,所具备的词汇基础和学习经验可以帮助他们完成自主学习任务,且不会因接触的语料量过大而对词汇学习形成干扰[7]。通过对《词汇大纲》中同素逆序词等级分布情况的考察发现,汉语同素逆序词主要分布在4至6级,少数为3级。由此进一步确定中、高级学习者为主要适用对象。此外,词库对年轻、学习动机较强的学习者较为适用。该类学习者大多有良好的信息素养和技术适应性,且更愿意利用课余时间拓展自己的词汇知识。

(三) 读写类课型是词库的主要应用课型

由于词汇学习贯穿于汉语二语教学的所有课型中,赋予了DDL模式广泛的教学适用性。在各类课型中,读写课是学习者接触、掌握生词的重要课型,也是词库主要的应用课型。读写课中,教师受课程时长和教学任务的限制,无法过多扩充词汇知识。而课外的时间相对宽裕、灵活,学习者可随时利用词库进行学习。因此,教师在课堂中可优先讲解重点词汇、语法点和课文。把依托词库开展探索式学习留到课后的生词巩固和拓展环节。

随着大数据时代的到来和智慧汉语国际教育的兴起,现代教育技术在汉语二语教学中发挥着不容忽视的作用。在“数据的驱动学习”理论的视角下,本文依托数据库管理系统搭建了内含498条记录的“汉日同素逆序词库”,为对日词汇教学提供新的教学模式参考。

猜你喜欢
词库语料词典
面向低资源神经机器翻译的回译方法
一“吃”多用
米兰·昆德拉的A-Z词典(节选)
米沃什词典
输入法词库取证比较研究
可比语料库构建与可比度计算研究综述
词典引发的政治辩论由来已久 精读
输入法词库乾坤大挪移
国内外语用学实证研究比较:语料类型与收集方法
漫画词典