中国少数民族语言语义电子文件初探★

2017-06-05 09:32赵生辉
云南档案 2017年5期
关键词:语种本体语言文字

■赵生辉

中国少数民族语言语义电子文件初探★

■赵生辉

本文参照语义网思想,提出了“中国少数民族语言语义电子文件”的概念,构建了少数民族语言语义电子文件的逻辑模型,分析了作为核心技术的多民族语言通用语义本体模型的构建原理,并对这一领域需要关注的重点研究方向进行了梳理。

电子文件管理 少数民族语言 语义网 跨语言信息检索

中国是统一的多民族国家,多语言、多文字是民族地区社会生活的基本特征。一般认为,除了全国通用的汉语普通话和规范汉字之外,目前全国正在使用的少数民族语言在80种以上,正在使用的少数民族文字在30种左右[1]。近年来,伴随着少数民族语言文字信息处理技术的快速发展,以蒙古文、藏文、哈萨克文、柯尔克孜文、朝鲜文、状文、彝文等为代表的少数民族语言字处理软件、办公自动化系统、编辑出版系统、广告照排系统、节目制作系统等开始在民族地区的政府机关、企事业单位和社会生活中得到应用,一大批少数民族语言文字网站相继开通[2]。与此同时,如何应对语言文字多样性带来的挑战,稳妥、科学、有效地管理随之产生的少数民族语言电子文件,已成为民族地区档案管理工作迫切需要研究和解决的问题。

一、概念提出

中国少数民族语言电子文件(Electronic Records in Minority Languages of China)是核心内容以我国境内现存的或者曾经存在过的少数民族语言文字或语音符号作为信息记录形式的电子文件[3]。与国家通用语言文字电子文件相比,少数民族语言电子文件的管理需求具有诸多特殊性,其中最为显著的就是“异构性(heterogeneous)”特征。“异构性”是信息工程学术语,是指信息系统各组成要素之间的差异性。少数民族语言电子文件的“异构性”可分为“编码异构性(Coding heterogeneous)”、“逻辑异构性 (Logic heterogeneous)”和“语义异构性(Semantic heterogeneous)”三个方面。“编码异构性”是指由不同语言文字底层代码之间的冲突而出现的不可兼容的现象。例如,我国政府自上个世纪80年代起陆续制定并颁布了使用人口较多的几种少数民族语言文字字符集编码国家标准,当时主要考虑单机版的应用需求,因而所使用的编码空间是重合的。采用上述国家标准的少数语言字信息处理系统产生的不同语种的少数民族语言电子文件在同一系统读取时就会出现代码冲突或乱码现象。目前,这一问题可以通过包括多种语言文字的中文统一编码体系GB18030、GB13000或国际统一编码体系Unicode得以解决。“逻辑异构性”是指不同来源的电子文件在逻辑结构上可能是千差万别的,要进行信息共享必须进行特定的加工处理,使之可以实现互操作。目前,在基于XML的元数据结构自定义技术的支持下,逻辑异构电子文件的整合问题已经得到部分解决。

与“编码异构性”和“逻辑异构性”相比,最难解决的是语义层面上的异构性问题。“语义异构性”是指由于语言文字本身的差异性所造成的用户阅读和理解障碍,即通常意义上的“语言鸿沟(Language Divide)”。在传统电子文件管理模式下,计算机和网络充当信息传递的媒介,只负责产生、保存和传递电子文件,其中蕴含语义信息必须依靠人的阅读和理解完成。如果用户没有掌握某特定语种少数民族语言文字,即使该语种电子文件记录的内容非常重要,也不能被该用户所理解和利用。作为统一的多民族国家,我国民族地区特殊的信息生态决定了少数民族语言电子文件应用的“非孤立性”。在民族地区社会生活当中,国家通用语言文字和少数民族语言文字同时发挥着重要作用,以其中一种作为信息记录符号的时候,同时要考虑不能识读这一文字的其他社会群体的阅读需求。由于人类语言系统的复杂性,“语义异构性”的消除还面临巨大障碍,很多技术难题短期内难以攻克,但是采取可能的措施降低语义异构性带来的沟通障碍,已成为少数民族语言电子文件管理的核心需求,语义电子文件(Semantic Electronic Records)正是在上述背景下提出的。

“语义电子文件”是语义网(Semantic Web)思想在电子文件管理领域的应用。语义网是万维网创始人蒂姆·伯纳斯 -李(Tim Berners-Lee)1998年提出的概念,其核心思想是通过给万维网上的各类文档添加语义标记,从而使计算机能够“理解”互联网的内容。语义网要求数据及其参照统一规范产生的语义信息同期创建,这一点正好符合电子文件管理的“前端控制”原则,也就是要从源头开始为电子文件的共享和利用做准备。中国少数民族语言语义电子文件就是通过标注通用语义符号支持多语言信息交流的少数民族语言电子文件。这里的语义标记是用来表征某少数民族语言文字语义信息的代码符号,通常由事先设计好的多民族语言通用语义参照体系映射而来。少数民族语言语义电子文件在生成文字符号的同时,可以标注和传递语言文字背后所蕴含的语义信息,从而使各少数民族语言文字与国家通用语言文字之间、各语种少数民族语言文字之间有了共同的语义基础,可以基于共同的语义代码体系进行高精度信息共享和交换。本文拟在构建少数民族语言语义电子文件研究框架的基础上,分析这一领域研究的核心问题,展望未来研究趋势。少数民族语言语义电子文件对于提高民族地区电子文件管理的一体化程度,促进各民族人口之间的沟通和交流具有重要的促进意义。

二、逻辑模型

少数民族语言语义电子文件是按照语义网思想提出的一种解决我国多民族语言电子文件信息共享问题的构想方案。蒂姆·伯纳斯-李在提出语义网理念之初,曾经提出过著名的“语义网分层模型”[4]。该模型将语义网的实现分为Unicode/URI、XML、RDF Schema、Ontology、Proof、Trust共七层,其中信任层Trust伴随数字签名DigitalSignature的使用。参照上述模型,对我国少数民族语言语义电子文件的结构模型概要分析和规划如下:

图1 少数民族语言语义电子文件的逻辑模型

图1是中国少数民族语言语义电子文件的逻辑模型,其中左侧的层次结构模型整体上分为6层,自底向上分别为:编码层通过一体化的编码方案确保不同语种电子文件直接能够兼容;内容层是电子文件通过源语言记录和表达的核心内容;语义层是语义电子文件的核心部分,需要参照通用语义体系进行映射和标注;元数据层是维护电子文件真实性、完整性和可读性的重要方式,电子文件是否具有证据效力,与元数据的完整程度有非常紧密的联系,元数据著录内容也可以嵌入通用语义标记实现跨语言信息共享;检索层,即通过语义检索语言实现多语种电子文件的内容检索;应用层,基于统一的语义参照体系实现的诸如数字资源整合、跨语言辅助阅读、跨语言信息检索、跨语言知识发现等应用。少数民族语言语义电子文件实现跨语言信息交互的方式如图1右侧所示。国家通用语言文字电子文件(N)和各语种少数民族语言电子文件(Mi)在生成时参照共同的语义表达体系进行映射,在正文或者元数据当中嵌入通用语义标记(Sj)。基于这些通用语义标记,不同语种电子文件在逻辑上就被联结为一个整体,可以支持全局性的信息检索。在检索系统中以国家通用语言文字检索词进行检索的时候,系统会根据该检索词的语义联系,自动查找与之对应的各少数民族语言文字的检索词,从而获得所有与某一主题相关的电子文件。由于不同语种电子文件都标注了语义标记,基于这些标记可以开发出多种类型的应用,使得计算机辅助跨语言阅读、机器翻译等技术的实现变得相对容易。在语义电子文件管理模式实现之后,采用某种少数民族语言文字作为记录符号的电子文件可以转换为其他各语种的信息,方便对应语种人口的阅读和理解。例如,如果国家通用语言文字“政府”一词的通用语义代码用G001表示,那藏文的、蒙古文的、彝文的、朝鲜文的等词汇都可以用G001进行标注,从而基于通用语义代码将各语种少数民族语言文字联结为一个整体,可以基于通用语义代码实现各少数民族语言文字与国家通用语言文字之间的相互转换,也可以实现任意两种少数民族语言文字之间的转换。

三、技术原理

中国少数民族语言语义电子文件的实现,关键在于构建可供多种语言语义映射的“通用语义参照体系”。“通用语义参照体系”是对“通用语义空间(UniversalSemantic Space)”的形式化表述方式。这里的“通用语义空间”,是指人类社会的各种自然语言所描述的语义对象及其关系所构成的虚拟空间,是客观世界和思维活动中各类语义对象的总和。“通用语义空间”与各种自然语言的“语义空间”之间是“表现”和“映射”关系:一方面,通用语义空间是一种观念意义上的空间,它无法脱离自然语言空间而独立存在,通用语义空间的语义对象必须通过某种具体的自然语言才能展现出来从而被人们所理解;另外一方面,任何一种自然语言本质上是对“通用语义空间”进行映射的结果,相当于以某种具体的自然语言所展现的“通用语义空间”视图。从“通用语义空间”视角看来,跨语言信息阅读实际上是实现“通用语言空间”不同语种“自然语言视图”的切换过程。那么,如果可以用代码表达通用语义空间的语义对象,并基于这一代码,实现多个自然语言视图当中等价语素的语义关联,则可以非常方便地实现这些等价语素不同语种语义符合之间的切换,可以大大降低不同语种语言文字等价语素转换的难度和执行速度,如图2所示。

图2 通用语义参照体系的实现原理

“通用语义代码 (Universal Semantic Code,USC)”是一种为实现多语言信息交流而专门设计的人工编码体系,该体系独立于任何一种具体的自然语言,其存在主要是为多种自然语言同义语素的定位和关联提供逻辑基础,也是多种自然语言一体化信息检索和语义共享的逻辑中介。“通用语义代码”本身并没有任何特殊含义,其建构必须以某种具体的自然语言作为语义参照对象,结合我国语言文字工作的总体规划,多民族语言通用语义代码体系的构建应当以国家通用的汉语和规范汉字作为参照语言文字。因此,对少数民族语言电子文件进行“通用语义代码(USC)”的标注,本质上是参照国家通用语言文字进行语义映射的过程,因而也是以国家通用语言文字为核心的多民族语言信息资源共享体系的实现方式。

由于人类语言的复杂性,“通用语义参照体系”的建立是一项非常艰巨的任务。目前,实现不同语种语言文字等价语素之间的语义转换常用的语义参照体系主要有:机读双语词典(Machine-Read BilingualDictionary)、双语语料库(Bilingual Corpus)、多语言叙词表(Multilingual Thesauri)、 多 语 言 本 体(MultilingualOntology)等等,这些方法主要是为实现语言文字的对等翻译而设计的,需要有专门的语言学知识作为基础,并且需要经过长期的积累和优化才能最终投入应用。从发展的趋势来看,基于多语言本体的语义转换正在日益受到重视而成为主流方法。作为信息学术语,本体是指共享概念的形式化说明,能够用规范化的方式描述关键概念及其逻辑关系。目前,全球最著名的本体模型是由美国普林斯顿大学的语言学家、心理学家和计算机专家联合创建的Word Net,该模型囊括了绝大多数英语常见词汇,并揭示了这些词汇直接的语义关系。本体建立需要投入巨大的精力和成本,为了降低工作难度,目前世界上绝大多数国家和地区的多语言本体都是基于Word Net或者采用与Word Net类似的架构建立的,例如欧盟建立的欧洲多语言词网Euro Word Net,俄罗斯建立的俄英双语本体模型Russian Word Net等等,我国一些机构建立的多语言本体的技术原理也与之类似,例如北京大学计算语言学研究所的中文概念词典CCD、中科院计算机语言信息中心的How Net、我国台湾地区建立的中英双语知识词网等[5]。

我国少数民族语言文字语义信息技术目前还处在初级阶段,能够支持跨语言信息组织与检索的技术资源非常少,需要国家民族事务管理委员会和各民族地区信息化管理部门高度重视,国内相关研究机构共同协作,完成我国多民族语言通用语义本体的设计与开发工作。鉴于通用本体开发工作的复杂性和长期性,在研究初期可以在确定整体模型开发原则和规范的前提下,优先一些跨语种信息共享需求较为迫切的领域本体模型,随着领域本体模型的逐步积累,再进行多民族语言通用本体模型的整合。根据现实需求,我国多民族语言通用语义本体模型可以采用开放式结构设计,初期进行国家通用语言文字和蒙古语、藏语、维吾尔语、哈萨克语、柯尔克孜语、壮语、傣语、朝鲜语等使用人口较多,具有较大社会影响力的少数民族语言文字的统一编码,今后根据实际需要可以继续补充其他语种的少数民族语言文字。

四、研究方向

与语义网一样,“少数民族语言语义电子文件”到目前为止还只是美好的技术愿景,需要档案管理机构、业务工作部门、技术支持部门的协同工作,共同推进。当前,中国少数民族语言语义电子文件研究领域需要关注的问题主要有以下方面:

1.“中国多民族语言文字通用语义本体模型”的协同构建。

这是语义电子文件构建最为核心的任务,需要以国家通用语言文字为参照,设计通用语义代码体系,实现藏语、蒙古语、维吾尔语、哈萨克语、柯尔克孜语、壮语、傣语、朝鲜语等少数民族语言文字的语义映射。要完成这一任务,必须由精通各少数民族语言文字的学者与计算语言学、知识管理、计算机科学等学科的专家共同协作完成。鉴于这一任务的艰巨性,可以采用任务分解的方法,分期完成。同时,需要立足我国民族地区信息化建设实际,在满足应用需求的前提下,适度降低通用本体构建的精度要求。

2.中国少数民族语言电子文件语义信息标注与质量控制规范。

在通用语义本体模型建立之后,如何进行语义信息标注也是需要探讨和研究问题,例如人工标注的工作效率太低,要实现自动化语义信息标注又面临诸如词语切分、语义选择、语义消歧等多方面困难。此外,标注的精度和粒度也是需要考虑的问题,大粒度、低精度语义信息标注只需要对篇章内容进行概括,用多语言主题词表就可以满足要求,但是高精度、细粒度的语义信息标注则要细化到每句话,甚至要进行词语切分后对每个词的语义信息进行高精度标注。究竟要采用哪一种精度和粒度,取决于电子文件内容的重要程度和它的利用场合。同时,语义信息标注质量也需要进行评价和控制。

3.基于领域本体的少数民族语言语义电子文件管理实践。

本体分为通用本体和领域本体两种,多民族语言通用本体模型的长远目标是实现对各语言主要词汇的全面覆盖,从而为构建多语言无障碍交流奠定基础。然而,本体构建是一项高度负责的工作,从更加现实一些的角度出发,可以优先发展部分领域的多语言本体模型,以满足这些领域的跨语言信息共享需要。例如,我国民族地区司法机关当中,国家通用语言文字司法文书和少数民族语言文字司法文书都是认可的,可以结合司法机关的多语言信息共享需求,开发司法领域多民族语言电子文件管理的相关探索。

4.少数民族语言语义电子文件管理需求的嵌入与生命周期控制。

少数民族语言语义电子文件语义信息是要在内容信息生成后就要进行标注的,需要与内容信息一同参与电子文件的处理、保存、归档和利用等环节。因此,语义信息嵌入式需要在概念阶段就嵌入电子文件管理系统功能需求当中,成为系统设计考虑的重要问题。在电子文件的整个生命周期当中,语义标记信息需要完整保存,而且在业务处理过程中产生少数民族语言文字处理结果是同样需要进行语义信息标注。在电子文件对应的业务处理完成之后,电子文件执行归档操作时,语义信息的完整程度也是归档鉴定的重要内容。总之,在少数民族语言电子文件管理生命周期当中,作为表征内容和管理过程的语义代码,需要与核心内容信息同期创建,同时管理,最终成为归档电子文件不可或缺的组成部分。

5.基于通用语义代码的少数民族语言电子文件利用模式。

由于电子文件当中嵌入了通用语义代码,不同语言文字的电子文件就建立了语义关联,从而使电子文件的利用方式变得更加多样。例如,可以开发基于跨语言阅读系统,用户读取少数民族语言文字电子文件的时候,鼠标可以提示对应词语的国家通用语言文字或者另外一种少数民族语言文字的词义,供利用者概要理解电子文件的主题信息。在电子文件的所有词语进行了语义标注的情况下,可以通过词频分析等方法,揭示电子文件内容的深层次规律,从而使电子文件编研具有新的可能性。

五、结论

中国少数民族语言电子文件是核心内容以我国境内现存的或者曾经存在过的少数民族语言文字或语音符号作为信息记录形式的电子文件。中国少数民族语言语义电子文件就是通过标注通用语义符号支持多语言信息交流的少数民族语言电子文件,是语义网(Semantic Web)思想在电子文件管理领域的应用。少数民族语言语义电子文件的逻辑模型整体上分为编码层、内容层、语义层、元数据层、检索层和应用层共6个层次,关键在于构建可供多种语言语义映射的“通用语义参照体系”。“通用语义参照体系”的主流实现方式是多语言通用本体模型,其建立是一项非常艰巨的任务,需要相关研究机构共同协作设计与开发。中国少数民族语言语义电子文件研究领域需要关注的问题主要有“中国多民族语言文字通用语义本体模型”协同构建、中国少数民族语言电子文件语义信息标注和质量控制规范、基于领域本体的少数民族语言语义电子文件管理实践、少数民族语言语义电子文件管理需求的嵌入与生命周期控制和基于通用语义代码的少数民族语言电子文件利用模式等方面。

[1]中华人民共和国国务院新闻办公室,中国的民族政策与各民族共同繁荣发展[M],北京:人民出版社,2009.10:32.

[2]赵生辉,数字纽带:中国少数民族语言电子文件集成管理的体系架构研究[M].西安:陕西师范大学出版社,2014.3.

[3]赵生辉,中国少数民族语言电子文件管理初探[J].档案学通讯.2011(2).

[4]Grigoris Antoniou.语义网基础教程[M].北京:机械工业出版社.2014.09:10.

[5]刘伟成,孙吉红,多语言本体及其在跨语言信息检索中的应用[J],武汉科技大学学报,2008(10).

[6]司莉,庄晓喆,贾欢.近10年国外多语言信息组织与检索研究进展与启示[J].中国图书馆学报.2015(4).

[7]吴丹,本体驱动的跨语言信息检索研究[J].现代图书情报技术.2006(5).

[8]塔娜等.面向跨语言信息检索的蒙汉语义词典构建[A].第三届全国少数民族青年自然语言信息处理学术研讨会论文集.北京:中央民族大学出版社,2002:12-15.

[9]刘登峰.艾斯卡尔·艾木都拉.维、汉多语种档案信息管理系统 [J].计算机工程,2008(20): 263-268

[10]赵小兵,邱莉蓉.多民族语言本体知识库构建技术[J].中文信息学报,2011(4):34.

作者单位:西藏民族大学管理学院

猜你喜欢
语种本体语言文字
语言文字运用专项练习
语言文字运用题的变与不变
小题精练(四) 语言文字运用
小题精练(三) 语言文字运用
《波斯语课》:两个人的小语种
眼睛是“本体”
基于本体的机械产品工艺知识表示
专题
Care about the virtue moral education
走出报考小语种专业的两大误区