面向SELL语料库的AI虚拟英语教育训练系统研究

2020-12-26 08:22田烨
微型电脑应用 2020年12期
关键词:语料库母语短语

田烨

(咸阳师范学院 外国语学院, 陕西 咸阳 712000)

0 引言

英语学习一直是当前社会各界的热点,与此同时,各培训机构也开展了英语在线学习业务。由于英语语法的特点,导致英语学习者普遍缺乏英语语感,口语、写作能力欠佳。近些年,随着虚拟现实技术和人工智能的发展,利用VR技术和AI技术来构建一个符合中国英语学习者的学习氛围,成为英语学习教育的重要发展方向[1-3]。如基于VR技术和AI技术开发的语音识别[4]、文字转换语音[5]、基于对话管理的聊天机器人等[6-7],通过构建浸入式的学习环境能有效激发学习者的兴趣和动力[8];如基于TLTS游戏系统让学习者在AI虚拟角色下进行交互性学习,获得真实的语境对话环境等[9]。本文在相关研究基础上,针对国内英语学习者的现状,首先构建了基于国内学习者的SELL语料库,并通过利用AI技术,设计一套语言驱动的英语学习系统,实现不同应用场景下的英语交流。

1 SELL语料库构建

语言学习过程中,语料库是在真实语料基础上,通过专门加工形成的一组大型结构化文本。根据形式不同,语料库主要有口语语料库、书面语料库、通用语料库、专用语料库等。本文在考虑到英语动结构作为构式语法框架,同时也是众多英语学习者在学习过程中存在的难点,借助语料库语言学分析方法来建立英语动结构句法和语义特征的语料库。

1.1 语料选取

选择中国学生英语口语语料库WECCL[10]。WECCL中包括了20多所高校英语文献共计4 950篇,27余种不同类型英语作文,形符数约125万个,能够较好地提高大学生的英语写作水平。英语母语语料库采用目前流行的COCA语料库,其中包括了学术期刊、新闻、流行杂志、口语、小说几大类,形符数约2 000余万个[11]。WECCL用于分析学习者动结构语言特色,分析英语母语者的中动结构特点,并进行相互间比较,如表1所示。

表1 WECCL和COCA语料库基本信息

从表1中可以看出,COCA语料库的总形符数较WECCL多达16倍。由于不同语料库间存在较大的容量差异,为降低比较误差,在对单库检索汇总时将使用标准化频数或百分比率来保证不同语料库的可比性。

在WECCL语料库数据检索中,以Simargool中的171个动词或短语作为检索词,AntConc在WECCL库中检索该类动词和短语句子,其中包括动词的五种形式,即动词原型,时态等,提取数据并筛选,得到34个动结构例子,包括12个动词和短语。动词形式以及出现的频数,如表2所示。

表2 WECCL动结构中动词或短语频次

以WECCL语料库中得到的12个动词和动词短语作为检索词,在COCA中进行检索。由于COCA语料库中数据量庞大,从语料中进行数据提取并筛选,检索到630余个动结构句子,应用频率高的单词为open、extend、melt,而bath、feed、finish的应用频率低于10次,应用频率较低,如表3所示。

表3 COCA中动结构中动词或短语频次

1.2 动结构使用句法分析

WECCL语料库检索的34个中动句,其中包括了12个动词和动词短语,相较于Simargool中涉及到的动词和中动句使用方面存在明显的差距[12],一方面是学习范围存在一定差异性。Simargool中对于中动结构使用较少,是由于采用了大多数不具备延时状态动词,因而不需要采用中动结构。

采用treetagger对WECCL语料库的34个中动结构进行赋码[13],英语用语中表现出以下几个特征。主语:采用名词为主语句子有23个,11个采用代词做主语;谓语动词:17个句子采用一般现在时,13个句子采用其他时态,表明学习者能较好的掌握典型的中动结构,可利用多种谓语形式建立非典型中动结构;修饰语:介词短语为修饰词的句子20个,6个句子采用副词,5个句子采用不定式、复杂句式,3个句子未采用修饰,其中采用介词短语和副词作为修饰词的占总修饰词数量的76%,表明学习者在掌握中动结构使用多类修饰语中,除介词和副词的使用外,其他修饰语应用并不多。

对COCA语料库检索的636个中动结构句子采用treetagger赋码,分析英语母语者的表现形式。主语:593个名词或名词短语做主语,占总用词的93%,43个代词做主语,不定代词为主语的有3个,表明英语母语者在中动句的使用方面更多的是采用名词来引出的;谓语动词:一般现在时的句子有255个,361个句子采用其他时态,表明英语母语者采用谓语动词更为丰富,能采用肯定句、否定句等多样化的谓语形式实现中动结构;修饰语:其中共有289个句子使用了介词短语,71个句子采用副词,61个句子采用不定式、复杂句式,介词短语或不采用修饰语占句子数量达到79%。

针对WECCL和COCA中检索的中动句检索结果进行比较,由于两库存容量差异较大,因此先对语料库进行标准化频数计算,由卡方检验进行差异显著性评价,如表4所示。

表4 不同语料库中动句总频统计

可以看出,英语学习者和母语者的结构频数地域显著性值(L>3,P<0.05),因此,二者间不存在显著差异。

从上述针对中介语语料库分析发现,英语学习者在应用英语过程中,对中动结构使用较为接近,但受限于词汇量的局限,中国学生使用extend、crumble类型词汇较低,在谓语动词形式方面,英语母语使用者更多的采用零修饰词进行写作交流,而中国学习者较多的采用修饰词,但很少采用非典型的中动结构形式,而这部分复杂句式在英语母语者中应用的较为频繁。

2 英语教学训练系统

本节中针对中国学习者和外语母语使用者间在英语阅读、写作和交流中存在的差异,将SELL语料库融合虚拟现实技术来构建英语学习交流在线系统,营造逼真外语学习环境。

2.1 系统架构

系统采用三层式的架构体系,分为表现层、逻辑层和数据层。通过三层结构来构建一个灵活的、可扩充的平台,如图1所示。

图1 系统三层体系框架

表现层模块实现管理系统和用户的人机交互,初学者可通过智能穿戴设备进入到虚拟的英语环境中,并通过模块实现系统和用户间的各种交互操作。注册/登录模块提供用户管理功能,学习者在系统注册账号后获得分配的默认配置文件,自行选择模块来进行个性化定制。在虚拟环境下,学习者根据自身的学习进程和兴趣爱好参加课程。课程体系以树状结构组织,一个大课程关联多个子课程,每个子课程以树状连接至父课程中。各课程和系列课程采用标签标记,方便学习者直接搜索选择。学习者通过应用界面的课程中心来确认已经选定的课程,并且用户中心中提供了个人信息、个性化学习路径以及往期的学习测试评估结果。

中间逻辑层包括中间逻辑各项模块,其中Language/AI模块下包括部分英语语言框架和部分AI功能,如智能对话机器人、语音识别、写作评估。为高效组织故事路径和训练场景,本文将系统逻辑层和实际功能应用进行拆分,引入脚本来实现对训练场的控制,保证系统灵活性。控制模块主要管理3D环境、动画表情,虚拟工具包含了一些列虚拟工具,如利用白板、虚拟工具和视频等,通过白板界面进行仿真涂鸦,并将涂写内容给实时共享给他人,支持多人同时书写。此外系统提供文档和视频方面学习者来进行展示,社交模块用于学习者的社交互动,其中添加了好友列表和具体的信息,能实现学习者间的互访交流。其他功能模块包括VR设备管理、听写通多控制模块等。

数据层包括数据服务器、文件服务器和同步服务器。数据服务器包含一个小型cache服务器,方便快速获取数据,营造不同的场景环境,对话界面。文件服务器包括课程文档、PPT、写作文档,比较文档等文件数据,通过同步服务器实现各客户端的实时数据同步,包括角色位置、动作、模拟环境内容等。

2.2 浸入式学习平台

浸入式学习利用智能、互动、有趣的虚拟环境提高学习者积极性,使学习室更贴近于英语母语使用者。系统主场景全方位模拟了一个虚拟小组,众多学习者可同时进入某一场景,并相互交流,场景中设计了多个AI角色,当学习者接近AI角色后,AI角色主动与学习者招呼,在不同场景下会有不同AI角色提供各种场景形式,如图2所示。

图2 虚拟场景平面图

学习者根据自身需求,与相应场景中AI角色互动,同时,场景中各学习者都能看到其他学习者动态。

系统中设计了多个日常用语场景,如正式演讲、辩论、广播、面试等场景。以面试场景为例,如图3所示。

图3 面试场景训练

该场景设定学习者准备赴美留学,进入到大使馆申请签证的面试场景。整个模拟场景在模拟面试房内进行,面试官为通过AI技术构建的虚拟人物。面试过程中,面试官会根据系统中预先给出的实际面试问题向学习者询问关于签证和留学的相关细节,要求学习者做出正确回答,并根据学习者应答做出不同反应,表示对面试者答案的认可或疑惑,最后给出面试结果,并给出面试中存在的问题和优势,供学习者进行修正。

3 总结

文章选择中国学生英语口语WECCL和英语母语COCA作为语料库,比较分析中国英语学习者和英语母语者在使用中动结构间的差异性,并通过将SELL语料库融合虚拟现实和AI技术来构建英语学习在线交流系统,营造逼真外语学习环境,研究获得的结论如下。

(1) 在使用动词结构频率方面,中国英语学习者与英语母语者之间较为相似,但在复杂句式应用、谓语动词形式以及修饰词使用方面存在一差异,英语母语者更倾向于extend、crumble类型词汇,采用零修饰词,通过复杂句式来表达。

(2) 基于英语学习系统采用三层式的架构体系,构建一个灵活的、可扩充的平台。通过设计多维虚拟场景和智能AI角色,来实现不同场景下AI角色的交流和学习。

猜你喜欢
语料库母语短语
基于语料库的清末民初日源外来词汉化研究
母语
《语料库翻译文体学》评介
母语教育:从美出发
《健民短语》一则
语篇元功能的语料库支撑范式介入
论《远大前程》的语言特色及其母语迁移翻译