藏文音节拼写自动校对系统的设计

2014-03-12 19:57陈小莹艾金勇
语文学刊 2014年7期
关键词:助词辅音藏文

○ 陈小莹 艾金勇

(西藏民族学院,陕西 咸阳 712082)

一、引 言

在信息化时代,藏族文化要跟上时代的步伐,首先要解决的就是藏文的信息处理问题,藏文信息化和网络化是藏民族发展的必然趋势。从20世纪80年代起,随着对藏文字符编码、字符属性和输入技术等诸多领域不断深入的研究,藏文信息处理技术已取得较好的成果。随着藏文网络信息时代的发展,藏文正在迅速与现代化、信息化以及世界文化接轨。[1]藏文信息处理已从字处理研究逐步向词、短语、句法以及语义的研究发展。以藏字为媒介向世界介绍西藏文化是对西藏优秀传统文化的继承,藏文报刊、电子书、网站、电子邮件及藏文办公自动化的字处理等电子文本也越来越广泛地应用于藏文信息处理多个领域,而这些都需要通过计算机进行处理,难免会出现错误。[2]如何保证这些电子文本的正确性,显得越来越重要。这使得其中的校对环节工作量大大增加,对藏文文本的人工校对带来了很大的压力,这样对其进行校正就显得尤为重要。[3]所以对藏文音节拼写自动校对的研究具有非常重要的现实意义。

国内藏文自动校对的研究工作是从20世纪80年代初的字处理研究起步的。自八十年代中后期起,北京、上海、西藏、甘肃、青海等地的一些院校及科研机构纷纷研制开发了许多藏文信息处理系统,推动了藏文信息技术的发展,特别是计算机藏文文字处理技术的发展较快。很多藏文信息界的专家对此做了较多的研究。刘文香发表《藏文文本词校对模型研究》一文,文中阐述了音势约束理论和二元邻接矩阵在藏文自动校对中的应用。[4]关白等人发表的《现代藏文音节字自动校对研究》一文,通过音节字预处理、字表匹配、混淆集匹配、二元接续关系、最小编辑距离法等方法对现代藏文音节字的自动校对进行了研究。[5]王维兰等人发表的《印刷体现代藏文识别研究》一文,将藏文自动校对应用于藏文文字识别的后期处理,对识别后所形成文本中的单字进行了次校正。[6]多杰卓玛发表《N元模型在藏文文本局部查错中的应用研究》一文,提出将一个藏文音节字按其构件分成若干个字丁,利用N元模型对这些字丁建立模型,采用这一模型对音节字进行侦错的方法。[7]黄小兰等人发表的《现代藏文音节的划分与确定》一文,通过应用程序对藏文编码的占位和不占位的有效判定找出组合字符。对找出组合字符的藏文字符通过藏文正字法的限定对藏文音节进行有效的判定和音节组件的拆分。[8]

二、主要内容

藏文音节拼写自动校对系统共分为四个模块:

(1)藏文文本规范化处理模块

藏文文本中除了包括正常的规范字符外,还常常出现各种不属于藏文字符的其他字符,例如数字、日期、电话号码等使用阿拉伯书写的字符。这些不属于藏文字符的其他字符会对后期音节的切分时发生错误,从而使整个音节拼写校对系统的校正率降低,所以这些非规范的文本在进行音节切分之前应该要进行规范化处理,并给出它们对应的在规范化藏文词表上的规范写法。

(2)音节切分模块

现代藏文的字符流是两维呈现的,有一套严格而完整的字母组合排列规则,自左向右横行书写。传统藏文文法根据字母在音节中的结构位置,将30个辅音字母分为分为基字、上加字、下加字、前加字、后加字、再后加字加上“元音”共7个构件,各个构造位上出现的字符其性质与数量均有一定的限制。藏文音节字是用音节点进行间隔的,在音节切分时,以音节点为标记对藏文音节进行切分。[9]

(3)黏着语的分离与还原模块;

在现代藏文的实际文本中有些格助词和接续词、终结词是黏着在后加字或者基字上,形成一个音节字的。这种具有黏着性的格助词有:a.黏着性属格助词“ ”;b.黏着性接续词“ ”;c.黏着性疑问助词“ ”;d.黏着性终结词“ ”;e.黏着性作格助词“ ”;f.黏着性LA格助词“ ”。这样形成的音节字虽然可能不符合藏文的正字法结构,但是又是正确的书写形式,因此需要对对待校文本中存在黏着现象的音节字进行分离和还原。具体过程如下:

①对“ ”的分离与还原:判断字符串中可能黏着的格助词或接续词是否有“ ”等,如果有则对该音节进行黏着语分离和还原操作;否则不做任何处理读取下一个音节字进行判断。

②对“ ”的分离与还原:判断字符串中可能黏着的格助词是否有“ ”,因为“ ”还可能作为后加字成分存在,所以如果存在,还需要根据构字规则判断其是否为后加字,如果不是则对该音节进行黏着语分离和还原;否则不做任何处理读取下一个音节字进行判断。

(4)音节校对模块

现代藏文具有最多3个辅音和最多1个元音的垂直叠加形成的组合字符。藏文字符显示时,一个组合字符只占据一个字母的宽度,这个宽度由第一层辅音决定,这个辅音称为占位辅音,这个辅音的编码也就称为占位辅音编码,其它字母只是叠加在占位辅音的上方或者下方而不单独占据宽度,称为不占位字母或不占位编码。[10]项目实施中首先可以依据音节编码中占位辅音编码和非占位辅音编码的顺序来确定基字所在的组合字丁的位置,然后再根据前后编码的序列确定前加字、后加字和再后加字;其次通过组合字符对应的编码特点即一个占位编码紧接着最多三个连续的不占位编码确定 “上加字”、“下加字”;最后根据藏文正字法确立的构字规则对该藏文音节各部件进行判别校对。

三、结 语

通过对藏文文本规范化处理、音节切分、黏着语的分离与还原和音节校对四个部分内容的研究与分析,设计了藏文音节拼写自动校对系统。该校对系统可以广泛应用于藏文信息处理的其他领域。比如:藏文字识别和藏文语音识别、藏文拼写检查、文本编辑、自动分词、语料库制作、辅助教学等诸多的藏文信息处理的研究领域当中,可以减少人工校对带来的压力,从而大大提高校对环节的工作效率。所以对其的研究必将提升现有藏文信息处理研究的成果,具有非常重要的现实意义。

【参考文献】

[1]关白,洛藏,才科扎西.现代藏文自动校对现状分析[J].西藏科技,2011(8).

[2]张仰森,俞士汶.文本自动校对技术研究综述[J].计算机应用研究,2006(6).

[3]扎西次仁.一个藏文拼写检查系统的设计[C]//中文信息处理国际会议论文集,1998.

[4]刘文香.藏文文本词校对模型研究[J].西藏大学学报(自然科学版),2009(2).

[5]关白,才科扎西.现代藏文音节字自动校对研究[J].计算机过程与应用,2011(6).

[6]王维兰,丁晓青,等.印刷体现代藏文识别研究[J].计算机工程,2003(3).

[7]多杰卓玛.N元模型在藏文文本局部查错中的应用研究[J].计算机工程与科学,2009(4).

[8]黄小兰,黄鹤鸣,才科扎西.现代藏文音节的划分与确定[J].计算机应用与软件,2012(9).

[9]李永宏,孔江平,等.藏语文-音自动规则转换及其实现[J].清华大学学报,2008(1).

[10]黄鹤鸣,达飞鹏.基于排序的藏文音节类型判定[J].计算机应用,2009(7).

猜你喜欢
助词辅音藏文
失去爆破和不完全爆破
韩国语助词的连续构成与复合助词的区分
BR Sounds
英语的辅音连缀
西藏大批珍贵藏文古籍实现“云阅读”
高校朝鲜语专业学生助词使用偏误调查分析
黑水城和额济纳出土藏文文献简介
日语中“间投助词”与“终助词”在句中适用位置的对比考察
江永桃川土话的助词
第二讲 元音和辅音(下)