国内外语料库建设研究简述

2018-05-14 16:38陈梦圆

知识文库 2018年21期

陈梦圆

语料库研究兴起于20世纪60年代其在语言学各领域所引发的革命，引起了语言学家、教育学家的极大关注。语料库研究以及基于语料库的语言研究，正逐渐成为语言学研究领域的话语中心，其涵盖范围及应用领域也日益广泛。本文首先对国内外语料库建设研究进行梳理、分析，且就与语料库相关的方面如自动标注与检索研究等进行了阐述，重点介绍中医文献语料库建设研究概况，旨在于为中医文化研究及中医翻译提供借鉴。

1 国内外语料库建设

语料库（corpus）就是计算机应用于语言领域的一种形式，是存放语言的仓库，将实际使用中真实出现过的语言材料经过加工（分析和处理）成为有用的资源以电子计算机为载体的语言知识基础资源。近年来，语料库的建设已在世界范围广泛展开，容量逐步扩大，种类繁多，其应用已渗透到语言领域的各个方面，成为语言研究、词典编纂、语言教学的有力工具，受到语言研究者和教育工作者的重视。

1.1国外语料库建设

计算机语料库建设始于1964年美国布朗大学发布的BROWN语料库以及1987年英国Lancaster大学发布的LOB语料库。欧美学者利用这两个语料库开展了大规模的研究，范围涉及自然语言文本的采集、存储、检索、统计、语法标注等问题以及语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用，取得了丰硕的成果（Leech，1987;Sinclair， 1999; Thomas， 2001）。此后的十几年里，语料库建设在全球范围内快速发展：欧洲相继建成了COBUILD语料库、BNC语料库（British National Corpus）;美国的宾州大学发布了树库语料库（TreeBank）;日本建成了RWC日语语料库;台湾的中央研究院建成了现代汉语平衡语料库。

1.2中国的语料库建设

中国的语料库建设发端于上海交通大学的科技英语语料库和国家语委的现代汉语语料库。此后，北京大学计算语言研究所开发了《人民日报》语料库，中国科学院自动化研究所、清华大学、哈尔滨工业大学、山西大學等等也建设了各具特色的语料库（冯志伟，1999;何安平，2001;杨惠中，2002）。国家语委现代汉语语料库是一个大规模的平衡语料库，语料选材类别广泛，时间跨度大。在线提供检索的语料经过分词和词性标注，可以进行按词检索和分词类的检索，还录入了一部分未加工的古汉语语料，但没有涉及《黄定内经》、《难经》等中医经典著作。

进入21世纪以来，语料库建设中的文本加工、存储、检索、管理等等问题基本上已经解决，研究语料库的学者们开始关注基于语料库的数据统计、句法分析、语义分析、机器翻译、自动对齐、知识自动获取等等深层次的自动处理与应用问题。

2 国内外语料库自动标注与检索研究

国内外语料库标注与检索（Annotation & Concordance）方面的文献非常丰富，综合既有文献看，标注与检索研究主要涉及具以下几个方面的内容：第一，语料库标注规范及词典研究，包括词汇的词性分类和语义分类，标注符号的制定等。BROWN语料库使用了不足40种词类标注符号，LOB语料库却使用了120多种，北大语料库使用的词类标注符号跟中科院的也各不相同;词汇语义分类中，Wordnet使用了词义相互关系的网络结构，北大语料库词典主要采用了上下义关系的层次结构（Leech，1994;于江生，2002;詹卫东，2004）。第二，自动标注程序开发，BROW语料库设计了一个基于规则的自动标注系统 TAGGIT，LOB语料库则设计了基于统计模型的 CLAWS 自动词性标注系统，我国中科院研制的中文分词系统ICTCLAS具备汉语分词和词性标注的双重功能（Sinclair， 1991;俞士汶，2004;刘群，2005）。第三，语料库检索方法研究，除了跟大型语料库配套的专用检索工具之外，还出现了一些语料库通用检索工具，Wordsmith、 Antconc等工具具有关键词检索和搭配分析等功能;nooj系统还具有根据正则表达式、语法规则进行检索的能力。第四，语料库应用研究，主要集中在计算语言学领域，自动句法分析和机器翻译研究是此方面的典型代表，已提出很多算法如转换生成语法、依存语法、词汇功能语法、富田胜算法、概率算法等等（刘开瑛，2000;刘颖，2004）。第五，基于语料库的数据挖掘和知识发现研究，主要涉及自动文摘、知识提取等方面，这种研究往往以语义词典为基础，其研究范围已经扩展到自由文本分析和网络资源分析等等方面。

3.中医文献语料库建设研究

纵观语料库建设方面的既有文献可见，随着语料库自动标注工具的开发，语料库建设的规模越来越大，语料库建设的难度也在不断降低，然而，关于中医经典文献语料库建设方面的研究文献却寥寥无几，已有文献大多是泛泛的建议或可行性研究、或者是一些定性概括。中医经典文献，按照中医学的观点，至少应该包括《黄帝内经》、《难经》、《神农本草经》、《伤寒杂病论》和《金匮要略》五部作品。建设一个中医经典文献语料库，不但需要面对语料库建设过程中关于文本存储、标注、检索等等基本问题，还必须解决错讹字、假借字、异体字规范化、古汉语自动分词与标注、中医术语分类词典设计等等特殊问题，尤其是语料库的检索系统，不能仅仅停留在语言问题的检索方面，还必须研究如何充分利用分词和标注符号进行信息筛选提取的问题。

已有文献调查显示，字词研究以及中医术语词典研究相对丰富，已出版有《内经词典》、《实用中医词典》等等（马继兴，1990;张登本，1990）。深加工的古汉语中医文献语料库建设及其标注与数据分析方面的研究尚未见到。由陕西中医药大学闻永毅在研的“中医经典文献语料库建设及其数据分析方法研究”（2016-2019）是一种深加工的古汉语中医经典文献语料库建设项目，在国内外尚无先例，填补了古汉语语料库建设方面的空白。本研究目的截然不同于其他语料库，已有语料库建设项目主要服务于语言自身问题研究或者机器翻译研究，对本课题而言，这只是语料库的一种基本功能;本研究高度关注如何从古汉语文献语料库中自动筛选并提取有价值的信息，探索一整套适合古汉语自动加工和数据分析的具体方法才是本研究的最终目的。再者，以分词与标注的方法处理并保存中医经典文献，是保护与传承古籍的一种新思路，含有古籍文献标准化的理念，是对标准化研究古汉语文献的一种创造性探索。

十八大以来，党和国家领导人多次强调要保护好、传承好中医药文化，屠呦呦获得诺贝尔奖的青蒿素故事更进一步激发了人们从中医古籍文献中挖掘数据的积极性，中医经典文献语料库能够在此方面发挥重要作用。中医经典文献语料库能够彻底改变一边翻阅纸质资料、一边手工记录的资料查阅方式，而只需在计算机上输入关键词或特定模式，然后由检索系统自动筛选并提取所需信息，无需担心因异体字、假借字、分词断句、古汉语阅读障碍等因素而造成信息检索不全的问题，其检索准确性会远远优于谷歌、百度等搜索引擎。另外，深加工的中医经典文献语料库又是一个古汉语研究平台，能够用于古汉语的字词、语法、语义问题研究，彻底扭转古汉语研究缺乏大规模统计数据支持以及汉语研究与医古文研究长期相互脱节的局面。

本文为国家社会科学基金项目;课题编号：16xyy011

（作者单位：陕西中医药大学）