使用“结巴”分词和Excel制备双语口译词汇表

2022-02-18 11:32李晨辉
科教导刊·电子版 2022年36期
关键词:词汇表结巴词表

李晨辉

(同济大学浙江学院,浙江 嘉兴 314200)

0 引言

口译词汇表是译前准备阶段必不可少的材料。口译词汇的提取有多种方法。传统的方式是通读稿件,人工标注并手工提取,词汇表的形式多为纸媒或word文档[1]。诸多技术手段也被用来实现口译词汇的自动提取,如TTC TermSuite、Syllabs Tools和Teaboat[2]。但其提取对象往往是术语,更适合专业的口译译员,而非口译学习者,准确率也有待提高。还有一类是使用商业化的口译软件,如Intragloss、InterpretBank、Interplex UE、LookUp、AnyLexic、Intraplex等,这类软件的结果也有准确性不高,特别是价格不菲的缺点,因而未得到译员的青睐[3]。因此,如何利用现代技术高效、廉价、准确地获取面向口译学习者的双语词汇就成了十分现实的需求。

1 口译词汇

牛津词典对“glossary”的定义是“某个文本中附有意义解释的技术性或特别词汇的列表”[4]。由此可以得出如下含义:第一,口译词汇包含术语,即某个领域内固定的行业词汇。第二,口译词汇还包括一些特殊的词汇。就口译领域而言,它可以是口译学习者需要习得的非术语类词汇。由此,就可以确定口译词汇提取的对象是术语和特殊词汇。

特殊词汇的分布是杂乱无章的,但必须是口译学习者未掌握的。从词汇长度看,口译词汇小到一个汉字,多到涵盖整个短语。从频率分布上看,尽管名词词组和动宾短语占据较大比例,仍不乏其他类型的口译词汇存在。从口译学习者的角度看,不同学习者对同一词语的掌握程度不同,导致口译词汇存在个体差异,因此很难建立标准的口译词汇数据库。

为此,要实现高效提取口译词汇并制备双语对照的词汇表,一种可行的思路是利用中文分词工具获取中文词汇,筛选过滤后调用翻译软件进行批量翻译。前者可以利用“结巴”中文分词组件实现,后者可以通过Excel调用翻译工具的API接口或利用其自带翻译功能实现。

2 “结巴”中文分词

中文分词算法及模型分为知识驱动的机械分词和数据驱动的统计分词[5]。“结巴”中文分词是GitHub上的一款开源中文分词组件,致力于做最好的python中文分词组件。它结合了上述两种模型并提供4种分词模式:精确模式适合文本分析;全模式尽可能地切分汉语词汇,但会造成歧义,切分太细导致无用词过多;搜索引擎模式适用于在线搜索;paddle模式基于PaddlePaddle深度学习框架,可进行词性标注[6]。

3 获取双语词汇表

论坛的主旨演讲是最常见的口译场景。因此本实验选取了新华社发布的习近平总书记在博鳌亚洲论坛2022年年会开幕式上的主旨演讲作为分词实验材料。整体思路如图1(P268)所示。

图1 双语口译词汇表制备流程

3.1 分词前

首先,进行文本预处理。访问新华社官方网站获取实验材料并保存为.“txt”文件,删除不必要的空格、换行等字符。

其次,制备停用词表。停用词表是“结巴”中文分词组件中用于过滤无效字符的文本文件,使用停用词表,可以大大减轻对分词结果的数据清洗工作。有许多停用词表可使用,如哈工大停用词表、百度停用词表、四川大学停用词表等。但口译词汇与口译学习者的英汉互译能力关系密切,故这类停用词表的字符并不能直接用于口译词汇的过滤。因此,需制备一个停用词表备用。参考成熟的各类停用词表,本次实验的停用词表首先收录了GB/T15834-2011中的所有标点(“·”未收录,因为它常用来标示某些相关联成分之问的分界,说明前后内容是一个词条[7])。其次,收录了现代汉语中的人称代词、介词、能愿动词、连词和助词这类口译学习者大多都能翻译的词汇。

3.2 分词中

分词的基本思路是在python集成开发环境中读取实验材料(“test.txt”)中的文本,使用jieba.lcut()方法分词并将结果暂存于一个临时列表中,再经过去重、过滤操作写入新的文本文件(“result.txt”)中。所有文件均存放在“D:python”文件夹中,代码如下:

3.3 分词后

分词结果无法保证100%的正确率,在获取双语词汇表前,需进行分词结果的人工校验和删改,删改后的分词结果另存为文本文件(“result_filtered.txt”),后期可用于构建用户词典或口译语料库。为了数据处理方便,先通过python中的 xlwt模块将制备好的词汇文件(“result_filtered.txt”)写入Excel文件(“result.xls”)中。代码如下:

3.4 翻译词汇表

分词后得到的中文词汇,还需进行翻译才可获得双语词汇表。显然,这一步不能通过人工逐条检索。更为高效的做法是通过翻译软件进行批量翻译。Excel提供了自带的翻译功能,可以在“审阅-翻译”中进行调用,翻译结果通过记事本软件去除格式后,再存入表格的第4列中。许多翻译软件提供了API接口,但出于节约资源等目的,普遍存在访问限制。有道翻译的服务相对友好,可以通过Excel中的WEBSERVICE()函数配合FILTERXML()函数获取有道翻译结果(需注意对应的单元格的变化),最终生成的双语词汇表如图2所示。

图2 翻译结果展示(部分)

此次实验共计得到123条双语词汇。逐条检查翻译质量后发现,两种翻译结果还是具有较大差异的,有道翻译的结果中存在33条不符合预期的词条,如有道翻译将“博鳌亚洲论坛”翻译成了“Boao Asia BBS”,“脆弱乏力”翻译成了“weak weak”。而Excel的结果中只有7条存在较大问题,只需稍加订正就可以作为口译学习的双语词汇表使用。因此可以认为Excel内置的翻译功能提供了更为可靠的翻译结果。当然,必须承认的是机器翻译的结果无法做到100%正确,因此在后期的口译学习中逐条审核这些词汇还是十分必要的。

4 结语

测试结果表明,通过“结巴”中文分词组件获得口语语料中的汉语词汇,人工校验后再通过Excel软件自带的翻译功能获取双语口译词汇表的方法是高效、简便和较为准确的。对口译学习者和教师来说,可以使用这种方法生成的口译词汇表,并配合双语文本,逐条学习记忆。在这个过程中,还可以不断修改词汇表,积少成多建构学习或教学用双语语料库。

猜你喜欢
词汇表结巴词表
Video Star Gets Job Promoting Tourism
Peritoneal dissemination of pancreatic cancer caused by endoscopic ultrasound-guided fine needle aspiration: A case report and literature review
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
叙词表与其他词表的互操作标准
结巴侠
张亮:扼住命运的结巴
国外叙词表的应用与发展趋势探讨*
常用联绵词表
词汇表
词汇表