邢富坤谈语料库语言学与计算机技术

2015-02-12 06:01解放军外国语学院邢富坤
语料库语言学 2015年2期
关键词:语料语言学语料库

解放军外国语学院 邢富坤

邢富坤谈语料库语言学与计算机技术

解放军外国语学院 邢富坤

1. 您觉得哪些计算机技术与语料库语言学研究密切相关?

计算机技术可以分为3个层面来看待,分别是(1)工具;(2)方法;(3)思想。不同层面的计算机技术都与语料库语言学研究有联系。

1)工具层面。计算机是用于表示、存储和处理数据的工具。语料库语言学研究的基本素材是机器可读的语言数据,因此在工具层面,语料库语言学必然与计算机技术之间有着密切联系。首先是数据编码技术。语料库语言学的研究对象是语言文字,利用计算机对语言文字进行研究,首先要使语言文字在计算机内部能够得到统一表示,理想目标是人类使用的每一个语言符号在计算机内部都有一个唯一的编码与之对应,并且该编码在不同国家、不同语言、不同操作系统以至不同计算机之间都具有一致性,使得同一编码能够被不同计算机解释为同一语言符号。其次是存储技术。存储技术的发展表现为存储能力不断提升,存储成本不断降低,这为语料库的建设与管理提供了重要支持,尤其是大容量的存储设备,甚至是分布式存储技术的出现,为构建和应用超大规模语料库提供了基本前提。第三是数据检索技术。数据检索技术提供了发现与挖掘语言内在特征与模式的技术条件,研究者可以根据研究需求设定检索条件,利用计算机检索并统计真实语言中的语言实例,从而针对实例开展语言研究工作。第四是数据呈现技术。该技术是将语料库的数据分析结果以恰当的方式传递给研究者,使得研究者能够透过数据更全面地观察和分析语言特征与模式。语言数据呈现技术既包括以数据形式呈现语料基本特征,如型符数、类符数等,以索引行的形式呈现检索结果,也包括利用数据可视化技术,例如词云、词网、频谱图等形式对语言现象的分布以及词语等语言单元之间的关系等予以呈现。

2)方法层面。在方法层面,与语料库语言学研究相关的计算机技术主要表现为文本表征、序列标注、分类聚类等技术。文本表征有多种方法,主要包括字符串表征、词袋表征、词向量表征、语境向量表征等类型,其中字符串表征最为简单,表示能力也最弱,语境向量表征则较为复杂,表示能力也更强。文本表征方法的主要目的是服务语言计算,但也能够为语料库研究提供多种观察语言的视角,辅助研究者更好地归纳总结语言的规律特征。序列标注技术是为语言符号序列标注属性信息的技术,词性标注是典型的序列标注,此外还包括命名实体标注、基本短语标注、句法结构标注、语义角色标注等,甚至中文分词目前采用的主流方法也是基于序列标注方法。序列标注能够为文本增加额外信息,这些信息并没有显性地表现在语言符号层面,借助序列标注将隐含的信息给予显性表达,能够更好地支持语言的研究工作。目前序列标注主要借鉴了机器学习的思想与方法,基于大规模的文本数据学习标注模型,实现较高准确率的标注效果。分类聚类技术以文本表征技术为基础,利用分类聚类方法实现对文本的分类或聚类,将特征相似的文本归并在一起,特征差异较大的文本分属不同的类别。分类聚类技术能够帮助研究者从语言特征的整体以及关联关系的视角观察语言,在不同类别下考察语言特征。

3)思想层面。形式化思想是计算机技术的核心思想。形式化思想要求以有限符号和确定步骤的形式将研究对象与过程给予表示,在给定输入的前提下,计算机能够经过确定的有限步骤处理,给出输出结果。形式化思想与语料库研究联系紧密,一方面是因为语料库研究的工具是计算机,计算机处理问题时必然要求研究问题与处理过程能够形式化;另一方面是因为形式化的思想对于充分利用计算方法,定量研究语言现象具有基础性作用。实际上,语料库本身就是形式化思想的一种体现,是利用了人类实际语言中具有代表性的一小部分样本代表了不可能完全获取到的人类语言的全部,这种以有限样本代替无限总体的抽样思想使得本来漫无边际的人类语言可以使用定量方法开展研究。在此基础上,当语料库达到一定规模后,某些层面的语言现象就会呈现出统计规律性,可以利用统计方法对语言现象进行深度挖掘,这是更具体的形式化思想。例如,当语料库达到一定规模后,词语的使用规律就会呈现出统计性特征,利用统计方法可以将一些特有的搭配和使用模式抽取出来,基于这些数据可以更加深入地研究语言的特征规律。当然在语料库基础上提出的N元统计语言模型、基于互信息的搭配获取方法、基于向量空间的语义计算方法等具体语言表示与计算方法,是形式化思想在语言研究与处理中更为具体的体现。

2. 您如何看待语料库语言学与计算机技术之间的关系?

语料库语言学与计算机技术之间的关系表现在3个方面:

1)语料库语言学为计算机技术提供了应用场景,计算机技术是语料库语言学研究的基本工具。技术要为应用服务,根据不同的应用需求和特点,会产生与发展相应的计算机技术。例如针对生物医学的需求,会研制开发出存储、表示和挖掘生物基因模式的计算机技术;针对金融服务的需求,会研制开发出预测证券市场波动变化的计算机技术。语料库语言学研究为计算机技术提供了一个新的应用场景,针对语言学研究的需求,研制开发针对语言分析的计算机技术。语料库语言学研究的需求具体表现在大规模语料库的构建与管理、多样化语言特征的检索与统计、语言模式的识别与发现、语言特征的演化与比较、语言意义的形式化表示与计算等方面。这些特定需求依靠已有的通用计算机技术难以满足,必须针对语言特点,在语言学研究基础之上,开展相应计算机技术的研制与开发。

2)计算机技术为语料库语言学研究提供了新的动力。语言学研究需要动力,传统动力来源于人的需求,人对语言理解与使用的需求推动着语言学研究的发展。随着计算机的出现与普及,人类更多地依靠计算机处理语言,并利用自然语言与计算机进行交互。由于计算机的机械特质,其与人在语言学习与语言能力方面有着本质差别,因此计算机对语言研究提出了新的需求,主要表现在:计算机不仅需要简单且概括的语言规律和语法规则,同时需要更小颗粒度的语言知识与特征;计算机不仅需要典型的个案式语言分析,更需要在真实语言中具有广泛覆盖度的语言知识;计算机需要将只可“意会”的语言意义转变为可“言传”的具有形式化特征的意义形式等。以上需求对语料库研究提出了新的要求,需要在语言自身规律特点、语言形式与意义等方面开展深入的工作。

3)计算机技术为语料库语言学研究提供了新的检验评价途径。科学研究需要检验评价,在检验评价的基础上才能查找不足,不断前进。语言学研究同样需要检验评价,以往对语言学研究成果的检验评价大多依靠专家评判或是小规模的验证测试,可重复性与可比较性都难以得到保证。计算机技术以应用为目标,构建系统规范的评价体系,实现对研究结果的客观检验,从而不断改善和提高研究水平。例如,语音识别、信息检索、机器翻译等领域都拥有自己的评价体系,在统一评价机制下,这些领域都得到了快速发展(Palmer & Strassel 2007)。语料库语言学研究以真实语言为研究对象,研究结果需要接受真实语言的检验。计算机技术提供了一种新的检验途径,可以将语言研究成果应用到特定计算机技术之中,如语音识别、信息检索、机器翻译、文本分类等技术中,通过检验计算机技术的性能指标,达到对语言研究成果进行评价的目的。以文本分类为例,选择并确定文本分类的特征是语言学研究者需要回答的问题,一般计算机研究者会直接以字或词为特征单位进行文本分类,但字或词是否是最好的特征单元,是否还有一种能够更好地代表文本特征的语言单位,这些需要语言研究者进行研究。研究结果的有效性可以通过文本分类性能进行评价。以计算机技术应用为评价途径,能够更客观地评价语言研究成果,增强语言研究与语言应用之间的相互支撑。

3. 您认为计算机技术在语料库发展过程中有过什么重要影响?

计算机技术对语料库发展的重要影响主要体现在关键技术对于语料库建设与使用上的影响,概括为以下几项:

1)编码技术的影响。编码技术是将人类使用的符号转化为计算机内部的编码,从而使得计算机能够对语言符号进行存储与计算。编码技术的发展受制于计算机自身的编码表示能力。最初计算机的编码能力只有8位,也就是只能编制出256个不同的代码,这大大限制了计算机对语言符号的处理。随着计算机处理能力的提升,编码能力也不断提升,目前的主流计算机都具有32位编码能力,不少计算机已经可以有64位编码能力,编码能力的提升为计算机表示人类语言符号提供了基础保证。此外,编码还受到不同组织机构之间编码不统一的影响。随着统一码(Unicode)编码体系在国际上的普遍应用,编码也趋于一致,这就使得在不同平台、不同语言环境下可以一致性地存储与处理不同语言符号,为多语言语料库的建设与应用提供了重要保障。

2)索引技术(indexing)的影响。索引技术的发展对大规模语料库的高效检索与使用具有重要影响。索引的基本结构是词项与词项所在的位置。根据研究需求不同,可以将词项定义为字、词、短语等语言单位,也可以是作者、语体、年代等关于文本自身的信息。索引技术需要解决的问题是索引构建、索引更新、多层级索引、索引压缩等技术。高效率的索引具有占用空间小、索引结构优、更新速度快等特点,是语料库应用的基础条件。

3)互联网技术的影响。互联网使得语料库构建有了源头活水,电子文本难以获得不再成为构建语料库的瓶颈。由于互联网已成为人类信息交流的重要媒介,不仅传统媒介,如图书、报纸、期刊等媒体都将各自的信息内容通过互联网传播,同时还出现了一批网络特有媒体,例如论坛、邮件、博客、微博等,这些媒体每天都由普通民众生成和传递大量信息,信息内容多样,语言特色鲜明,为语料库的构建提供了重要素材来源。同时,互联网技术也为语料库应用平台的开发设计提供了新的渠道。很多语料库的使用都基于浏览器-服务器的模式开发,用户不需要在本地机器上存储语言数据,也不需要安装专门的语料库应用软件,就可以通过浏览器访问语料库所在的服务器,使用服务器提供的各类检索功能,不仅减轻了用户存储负担,也避免了诸如版权等问题的困扰。此外,利用互联网的搜索引擎进行语言检索也成为一种语料库研究的形式。

4)机器学习技术的影响。机器学习技术的基本思想是利用已有的经验数据,通过一定的学习算法,得到一个与经验数据拟合度较高且泛化能力较强的模型,利用该模型对未知数据进行计算分析(Pustejovsky & Stubbs 2012)。机器学习以经验数据为基础,这一点与语料库语言学如出一辙,不过机器学习更多的是利用计算方法对经验数据进行分析总结,形成可计算的模型,而语料库语言学更强调在机器辅助之下,对语言的内部规律进行深度研究。但无论如何,机器学习技术的出现,使得机器对于语言的处理能力变得更强,也为语言研究者提供了更多的观察与分析手段。目前,在机器学习框架下,语言模型得到了很大程度的优化,从以往的N元语言模型发展到基于词向量表示的分布式语言模型。模型的优化最直接的体现是对语义计算的更好支持,在分布式语言模型的支持下,机器可以进行语义的代数计算,例如vector (“Madrid”) - vector (“Spain”) + vector (“France”)得到的结果是vector (“Paris”),再例如vector (“King”) - vector (“Man”) + vector(“Woman”)得到的结果是vector (“Queen”),这种计算方法是以往其他语言模型难以比拟的(Mikolov et al. 2013)。基于机器学习技术得到的计算结果,结合语言自身的属性特征,语料库研究者可以更加深入地开展语言研究工作。

5)可视化技术的影响。可视化技术利用了人类对图形敏感的特点,以图形形式展现数据内容,从而辅助研究者把握数据的整体特点,更好地作出推断总结。可视化技术的发展对语料库建设与应用都有重要影响,主要表现在语料库检索结果、语料内部模式的直观展示以及研究者与应用系统之间的交互等方面。

4.请您结合自己的研究实践,谈谈计算机技术在语料库建设加工、语言学分析以及研究成果应用方面的作用。

1)计算机技术在语料收集中的作用。语料收集有多种渠道,最直接的就是将已有的电子文本收录到语料库,间接的则需要文本的识别转换,例如通过OCR识别将图片类的文本转换成电子文本,或是在语音识别技术辅助下将语音素材转录为电子文本。随着网络的发展,从互联网直接获取网页文本成为构建语料库的重要素材来源,利用网络爬虫技术可以提高网络文本的获取效率,并实现网络文本内容的动态更新,为构建开放的动态语料库提供重要支持。

2)计算机技术在语料加工标注中的作用。语料加工标注主要包括语言素材的格式加工、文本元信息标注、语言属性标注等内容。在格式加工方面,主要利用了文本内容的解析技术,例如通过正则表达式对网页文本进行解析,提取其中关键部分内容,去除格式标记等内容,也可以通过分析文本的内部结构,构造相应的数据解析结构,实现对文本内容的解析与提取。文本元信息主要包括文本的来源、时间、作者、语体等关于文本自身的属性信息。语言属性则包括词语切分、词性、命名实体、基本短语等属性信息,语言属性信息的标注需要根据语料库的构建目的进行有选择性的标注。在属性标注方面,目前采用比较广泛的是XML格式语言,根据标注属性的需要,统一XML标注语言的格式,在统一格式框架下进行标注,在该框架下的标注结果具有很好的兼容性,能被不同应用程序解析和使用(邢富坤 2015)。

3)计算机技术在语言学分析中的作用。在语言学分析方面,计算机技术的首要任务是充当研究者的助手,辅助研究者开展语言研究。最典型的辅助功能是按照研究者的需求实现在大规模语料中对特定语言现象的查找,并对查找结果进行直观展示。研究者基于查询结果,观察和分析语言现象,总结语言特征规律。其次,在计算机技术辅助下,能够实现对不同语料的对比分析,通过对比发现不同语料的独特语言特征,例如通过对不同语体语料中词语使用进行对比分析,查找出隶属于不同语体的特有词汇,形成具有某种领域特征的关键词汇,进而辅助相关研究与教学工作。第三,利用计算机技术,可以实现对历时语料的分析,给出语言与时间之间的关系,辅助语言演化研究。利用计算机技术,在一定程度上也能够主动发现语言中蕴含的某些模式特征,最典型的就是通过一些统计方法,例如互信息、t检验、卡方检验等方法,自动提取语言中的典型搭配,计算得到的结果对于提高词典编纂效率以及对搭配的深入研究都有重要意义(邢富坤 2012)。随着语料规模的不断扩大,机器学习方法在文本特征挖掘方面的应用越来越广泛,它能帮助研究者更全面深入地考察语言特征。

4)计算机技术在研究成果应用中的作用。从研究成果的应用角度看,计算机技术有两方面作用,一方面是通过构建人机交互的良好界面系统,实现语言研究成果的实用化,使得用户可以比较方便地获取和使用已有的研究成果。例如,基于语料库的词典编纂工作就可以利用计算机技术开发出的词典辅助编纂平台,平台集成了语料库研究中有关检索、搭配、聚类等研究成果,方便编纂者对词条进行检索、统计、排序以及聚类分析等工作,提高词典编纂效率。另一方面是将语言研究成果集成到已有的应用系统之中。例如,将搭配研究成果集成到信息检索系统之中,利用搭配信息优化查询与文档之间的相似度计算效果。由于信息检索本身具有一套较为成熟的评价体系和评测数据,因此可以通过评测实验,比较不同语言研究成果加入后的系统性能指标,从而判断语言研究成果的有效性。

5.您觉得目前计算机技术在应对英语、汉语和双语语料库建设和研究方面的重点和难点有哪些?

1)语料库的规模、结构与加工问题。随着互联网发展,电子文本的获取越来越容易。但语料库建设的规模该如何确定,是否越大越好;如何定量地评价语料库效益,能否以某种评价函数的形式给出语料库效益的计算方法,指导语料库建设;如何确定语料库的内容结构,是否需要按确定比例对不同文类的语料数量进行规定;如何利用计算机技术辅助开展语料加工工作,在不同加工者之间建立协同机制,提高加工的一致性,这些问题无论对于单语还是多语语料库建设都是需要面对的问题(邢富坤 2013)。在应对这些问题时,需要考虑语料库应用目标、构建成本、计算能力等因素,综合给出应对办法。对于双语语料库建设而言,具有翻译关系的平行语料获取难度更大,在扩大语料规模的同时,更要有效地评价语料质量,有效地滤除翻译质量低劣甚至是机器翻译的文本进入语料库。对于构建双语或多语可比语料库而言,语料的获取难度要更低,但需要面对如何确定可比关系以及如何有效分析利用可比语料的问题。解决以上问题不仅需要计算机技术,更需要计算机技术与语料库研究很好地融合,从语言自身规律与计算机能力两方面共同给出解决办法。

2)语言形式与语言意义的对应问题。在语言问题上,计算机面临的是符号形式与语义内涵不对等的难题。计算机技术擅长对数据进行匹配与计数,这些工作都是在符号层面进行。但由于语言中同一符号会对应多种语义,有些词的不同语义之间具有一定关联,例如“包裹、命题、发明”等,这些词的不同语义之间具有行为与行为结果的关联,而有些词的不同语义之间没有任何关联,例如“制服、分别、把手、马上”等。对于形式相同而语义不同的词语进行匹配与计数时,就出现了形式与意义的不对等问题,如果不顾语义而只求形式上的相同,则会造成匹配与计数结果与实际目标之间的偏差。此外,形式与语义的不对等问题也会对机器学习方法造成影响,不同语义的同一个形式在特征层面具有本质性差异,应该作为不同特征对待,如果将其混同为同一个特征,会给机器学习带来噪音,影响机器学习效果。因此,在利用计算机技术开展语料库研究的过程中需要重视形式与语义的关系问题,寻找可行的办法对该问题给予一定程度的解决。

3)语言属性与语言结构的研究与使用问题。语言属性是指在语言符号层没有显性表现,而是蕴含在语言内部、具有规律性的特征。语法类别属性(词性)是传统语言学研究中被广泛使用的语言属性,借助词性可以将具体的语言实例划分为不同的语言类别,从而使得语言研究结果具有一定的泛化能力,词性也可以辅助分析语句结构。当然语言的属性不局限于词性,语料库语言学视角下的搭配、语义倾向、语义韵等都可以作为语言的属性,如果让计算机使用此类属性,需要对此类属性有较为明确的定义,并针对属性的标注有规范的操作规格和流程。语言结构是在语言形式层之上的一种隐含的特殊语言属性,这类属性并不是在单独的语言单位上,而是语言单位之间的彼此关系。研究者对语言结构有不同的认识,有研究者将语言结构当作层级树状结构,也有研究者将语言结构当作线性结构,但无论何种结构都需要将其外化,并形成具有较大覆盖度的语言实例。语言属性与结构是语言研究的关键问题,计算机技术在面对这一问题时需要作两方面工作,一是在人工标注基础上,实现语言属性与结构的自动标注,为语言的深层挖掘与研究提供基本素材,这方面工作面临的困难是语言属性与结构的研究还有待深入,自动标注方法与标注模型的研究仍需不断提升。另一难题是基于已经标注语言属性与结构信息的语料进行有效检索与分析,从大量标注数据中发现规律性的语言使用模式,进而提高语言研究成果在语言教学、词典编纂、信息处理等领域的应用水平。

6. 您最期待语料库分析技术在哪些方面有所突破?

语料库分析技术的突破依赖于语言研究与计算机技术的融合与发展,其中以语言研究为突破关键。现有的语料库分析技术主要包括频数统计、词语索引、搭配、词丛、主题词等分析技术,分析对象主要是词,分析方法以频数统计和词语检索为主。语料库分析技术的目的是辅助研究者对语言进行观察分析,更好地总结归纳语言规律,支持相关语言应用。语言分析技术的辅助功能主要表现在两个方面:一是为语言研究者提供相关语言分析数据,使研究者能更全面地观察语言;二是为语言研究发现的相关规律提供检验,验证语言规律的有效性。

从提供语言分析数据的角度看,目前语料库分析技术主要集中在符号层,将语言作为一种数据符号,利用统计、检索等方法进行分析。期待下一步能够从符号层进入到语言属性层与语言结构层,能够支持语言属性、语言结构的统计与检索,在复杂多样的语言形式之上,找到具有更强概括性的语言模式特征,在不同语言形式之间建立起联系,更好地发现语言内含的规律性特征。实现该突破的核心是对语言属性、语言结构的研究,研究成果需要具有较强的形式化特征,且能够在较大规模的实际语言数据中得到实现与验证。

从检验语言规律的角度看,对语料库分析技术的更大期待是构建一套语言研究成果的检验评价机制与相关评价数据集。语料库语言学对于语言研究的重要贡献在于提出了一种从真实语言数据出发对语言进行研究的思想、方法和工具,并取得了一系列的语言发现。面向真实语言的研究发现应具有“可操作性”与“高覆盖性”(宋柔 2013),因此需要将已经取得的研究发现,放回到真实的语言数据上进行检验,检查相关语言发现在真实语言上的吻合程度,查找例外并加以完善。

构建评价机制与评价数据集的目的在于为不同的研究者提供统一的评价平台,从而对不同研究成果进行客观评价,减少不必要的争论,推动整个研究领域的滚动发展。实现这一突破的难度更大,因为语言研究绝大多数都是对语言规律的探索性研究,大部分成果是概念性、个案性的,且未最终定型,而构建评价数据集的前提是对研究问题已经有了较成熟的研究基础,形成了较完备的评价标准与评价实例。解决这一问题不能期待一步到位,也不能期待先构建一个完备的评价数据集,而是需要研究者在研究过程中边探索,边总结,边检验,边完善,需要多轮反复。在这个过程中,语料库分析技术需要承担的任务是管理已有的研究数据,将已有研究数据与最新研究数据进行对比分析,为研究者提供对比分析结果,更好地辅助研究者开展相关评价。

7. 您能给语料库研究初学者在计算机技术的学习方面提供一些建议吗?

计算机是语料库研究的辅助工具,工具的基本特征是技术门槛尽可能低,操作使用尽可能便捷。对于语料库研究初学者而言,应尽可能降低技术对语言研究的影响与限制,将研究重心与精力放在语料库研究的基本方法与研究问题上,针对研究问题,使用已有的语料库分析软件有目的地开展研究工作。对于某些语言研究问题,可能现有分析软件难以满足研究需求,对于这类问题,首先是考虑是否有必要开发程序,如果手工能在可接受的时间内完成处理工作,则不必专门开发程序。如果处理数据量大,且以后需要重复进行类似工作,那么可以考虑专门开发程序加以实现。在程序开发之前,应对研究问题进行认真梳理,按照计算机处理的流程给出具体处理步骤,最好能够给出形式化的流程描述,为程序设计提供基本依据,一定要避免边写程序边设计。初学者如果有一定的数理基础,可以学习一门程序开发语言,但不是必需。通过学习和使用程序设计语言,可以提高形式化思维能力,培养形式化思维习惯,同时也能够通过程序自主实现一些特定的语料库分析功能,更好地辅助开展研究工作。在选择程序设计语言时,主要考虑的因素是自己身边是否有人在使用并能够教授这门语言,如果身边有一位对自己所学语言非常熟悉、经验丰富的使用者,那么可以大大提高语言的学习效率。

8. 在大数据时代,语料库分析方法可能会发生哪些变化?

大数据是相对于传统数据而言的。人类产生并可供使用的数据规模较过去有了很大幅度的提高。语言数据也是如此。语言数据规模扩大至少体现在两方面,一是语言数据的量大了,二是与语言数据相关的信息多了。语言数据量的扩大对于语料库分析方法影响不大,因为自语料库产生之初,就面对语言总体无限的难题,采用以有限语言样本代表无限总体的处理办法,到了大数据时代依然如此,不过有所改变的是语言素材的来源更广,话语形式更丰富,语言的动态特征也更强。语料库规模扩大,需要在存储、计算性能上有新的发展,借鉴分布式存储与计算的模式,有效地对大规模语言数据进行存储、管理与使用。

相对于语言数据规模的扩大,语言数据相关信息的增多对于语料库分析方法的影响更大。语言相关信息包括语言使用者的信息,例如微博中发表的内容都与博主关联;相关信息还包括话语的时间、位置等信息,尤其是随着移动智能设备和移动互联网的普及,在移动设备上产生的话语信息都带有了时间、位置等信息,这类信息与语言内容信息进行有效整合,对于更全面地把握语言特征具有重要价值。如果能够通过合理渠道获得语言相关信息,那么语料库分析方法也要随之发生变化。例如,语料库的索引就不再只是对语言符号进行索引,而是要加入语言相关信息索引,使用户在语料库检索时,不仅能够得到查询词的语言内容索引行,同时也能够根据语言相关信息对内容索引行给予更全面的描述,将言内与言外信息有效融合。

相对于变化而言,大数据时代也需要关注语言研究不变之处,加强对语言自身形式特点的研究,以语言研究的成果支持大数据的深度处理与分析。目前在大数据研究领域,针对语言数据的处理方法与声音、图像等数据的处理方法基本相同,语言学知识的使用非常有限,研究重点在于大规模数据的存储与计算方法上。但从语言的本质上看,语言具有不同于语音、图像等符号的特点,提高语言的处理效果,必须建立在语言自身规律全面深入研究的基础之上,就如同计算生物学的发展建立在生物学自身研究基础之上,计算本身无法替代研究对象的自身规律特点研究。在大数据时代,应该利用好语言数据与计算机工具,深入研究语言自身问题,例如语言的基本单元确定问题、语言的属性与结构问题、语言形式与意义之间的对应问题等。通过语言自身的规律特点研究,提高计算机分析与处理语言的能力,让计算机技术更好地服务语言研究与应用。

综上,本文认为计算机技术与语料库研究之间有着密切关系,彼此影响,互相促进,共同发展。计算机作为技术工具必然为语料库研究服务,其基本角色是研究助手,而不是研究的门槛或阻碍。计算机技术有严格的形式化要求,这也对语料库研究提出了挑战,语料库语言学的研究需要面向真实语言,研究成果要尽可能形式化,并且研究成果要接受真实语言的检验,通过检验评价来指导语料库语言学的发展。在大数据时代,语料库语言学有着新的发展机遇,需要新的变化,但同时也需要更加清醒地认识语言学自身的使命与任务,守住语言研究的主线,以语言自身研究的成果支持大数据时代的语言处理与应用。

Mikolov, T., W. Yih & G. Zweig. 2013. Linguistic regularities in continuous space word representations [A]. In Proceedings of NAACL-HLT [C]. 746-751.

Palmer, M. & S. Strassel. 2007. Historical development and future directions in data resource development [OL]. http://www.itl.nist.gov/iaui/894.02/minds.html (accessed 12/20/2014).

Pustejovsky, J. & A. Stubbs. 2012. Natural Language Annotation for Machine Learning [M].Beijing: The O’Reilly Press.

宋 柔,2013,汉语篇章广义话题结构的流水模型[J],《中国语文》(6):483-493。

邢富坤,2012,多词单位的描写识别与词典编纂[J],《当代语言学》14(4):407-417。

邢富坤,2013,中文分词中未登录词分布规律及处理方法研究[J],《解放军外国语学院学报》36(5):27-32。

邢富坤,2015,面向语言处理的语料库标准:回顾与反思[J],《解放军外国语学院学报》38(3):8-13。

通讯地址:471003 河南省洛阳市解放军外国语学院语言工程系

猜你喜欢
语料语言学语料库
基于归一化点向互信息的低资源平行语料过滤方法*
体认社会语言学刍议
平行语料库在翻译教学中的应用研究
《复制性研究在应用语言学中的实践》评介
《语料库翻译文体学》评介
《神经语言学和心理语言学视角下的二语习得》述评
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
语篇元功能的语料库支撑范式介入
异种语料融合方法: 基于统计的中文词法分析应用