基于信息处理的乌兹别克语语音变化现象自动还原技术研究

2017-03-17 09:13帕提古丽·艾合买提艾孜尔古丽阿不
电脑知识与技术 2016年32期

帕提古丽·艾合买提++艾孜尔古丽++阿不都热依木++玉素甫·艾白都拉

摘要:语音变化现象的自动还原是词干提取的基础。为了提高词干提取的准确率,本文深入研究乌兹别克语中的语音变化现象,并提出音变现象的自动还原模型。分析乌兹别克语中发生语音变化的词干本身的特征,设计音变现象的还原模型,并结合了词干库配对方法来实现自动还原。实验以乌兹比克斯坦的官方网站(www.kutubxona.com)截取的语料为实验对象,验证处理模型的有效性。

关键词:乌兹别克语;语音脱落;语音同化;增音

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)32-0177-03

乌兹别克语属于阿尔泰语系突厥语族,是个典型的黏着性语言。语法特征名词跟不同词缀连接表示不同的语法意义。乌兹别克语中常见的音变现象有音的同化、脱落、增音等[3],上述三种变化已体现在文字上。语音变化是指因发音器官的制约和发音方便的需要,在连续发音中会受前后音的影响而发生的变化。所以语音变化的处理是乌兹别克语文字信息处理、乌-维机器翻译、跨语言信息检索等自然语言处理的重要环节。语音脱落是指名词词干末尾连接固有的构形词缀时,词干中的元音或辅音会脱落。如:“shahar城市”这个名词词干末尾连接名词的领属词缀时词干“shahar”中第二个音节里的元音“a”会脱落,即shahar+i=shahri(他的城市)。语音同化是指有些固有的名詞末未连接构形词缀时,词干末尾的辅音换另一个辅音。如:tilak+im = tilagim(我的愿望)。增音是指部分名词末未连接构形词缀时,词干和词缀之间会增多一个音,这种现象叫做增音。如:orzu+ing=orzuying(你的梦想)。这种语音变化现象对乌兹别克语名词词干提取增加难度,降低词干提取的准确率。所以,在处理乌兹别克语中发生的语音变换现象是乌兹别克语名词词干提取的基础、重点,也是最基本的前提。

1 相关工作

在音变还原的研究领域上,属于突厥语族的维吾尔语进行的工作比较广阔。文献[1]中指出,维吾尔语词干在接词缀时按维吾尔语语音和谐规律有些语音会发生弱化、脱落、增音等现象。该论文提出了一种自动还原模型,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。思路是:维吾尔语词被看作是所包含语音的线性序列,先假设音变现象会发生在每个语音上,那么构成一个词的语音序列中每 一个语音就可以有 n ( 0≤ n ≤31)个原形候选,找到它们的原形就类似于词序列自动标注,再利用序列标注的方法即可解决还原问题。文献[4],重点研究维吾尔语中弱化现象及处理算法,并分析了维吾尔语词法结构、音节结构、词干—词缀连接形式等技术。处理弱化问题时,要根据词干库检查弱化属性,并根据语音和谐规律分析是否正确连接。该算法在文本检索、词频统计、文本校对等研究领域得到很好的应用。运行结果表明该算法具有可行性和有效性,并在实践中不断完善。

2 乌兹别克语语音变化现象分析

2.1乌兹别克语语音脱落、同化、增音现象的分析

1)语音脱落

①元音脱落:有些以辅音字母结尾的双音节名词词干末尾连接领属词缀“i,im,imiz,ingiz,ing”时,第二个音节里的元音字母会脱落。这种脱落字母有“u,i,a”等三个。如:

Burun(鼻子)+i=burni(他的鼻子), shahar(城市)+im=shahrim(我的城市),qorin(肚子)+im=qornim(我的肚子)

②辅音脱落:乌兹别克语里的“men”和“sen”等两个人称代词末尾连接宾格词缀“ni”、领属格词缀“ning”和词缀“niki”时,这些人称代词词尾的辅音“n”就会脱落。如:

Sen(你)+ni=seni(把你),men(我)+ni=meni(把我),men(我)+niki=meniki(我的)

2)语音同化

①以“q”结尾的多音节名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干末尾的“q”同化为“g”,然后继续连接词缀。如:

Quloq(耳朵)+im=qulogim(我的耳朵),barmoq(手指)+ing=barmoging(你的手指),oyoq(鞋子)+i=oyogi(他的鞋子)

②以“k”结尾的多音节名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干末尾的“k”同化为“g”,然后继续连接词缀。如:

Ertak(童话)+ing=ertaging(你的童话),istak(欲望)+im=istagim(我的欲望),tilak(希望)+i=tilagi)(他的希望)

注:单音节词、外来借词和少数一部分多音节词不会发生同化现象。如xalq(xalqim我的人民),bank(bankimiz我们的银行)[4]。

3)增音

以元音字母开头的部分名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干和词缀之间增多一个辅音“y”。比如parvo+i=parvoyi。Orzu(愿望)+im=orzuyim(我的愿望)

注:发生增音的这些词里还有部分词的末尾连接第一、第二人称领属词缀是增加辅音“y”,但是连接第三人称领属词缀时直接连接“si”。比如:(Orzu+im=orzuyim我的梦想),(Orzu+si=orzusi他的梦想)。

2.2语音脱落、同化、增音的还原分析

1)语音脱落还原

(1)元音脱落的还原:首先去掉发生元音脱落的词汇末尾的领属词缀“i,im,imiz,ingiz,ing”,即词干提取。然后分析该词干中出现的第一个元音字母。词干中出现的第一个元音字母有“u”“o”“a”三种。下面分别讨论以上三种情况:

①如果词汇中出现的第一个元音字母为“u”的话,那么在该词干的最后一个辅音字母前面加元音字母“u”,即词干还原。

②如果词汇中出现的第一个元音字母为“o、o、i”的话,那么在该词干的最后一个辅音字母前面加元音字母“i”,即词干还原。

③如果词汇中出现的第一个元音字母为“a”的话,那么在该词干的最后一个辅音字母前面加元音字母“a”,即词干还原。

(2)辅音脱落的还原:第一步,切取词缀“ning、niki”,其次在剩下的词干末尾增加一个“n”。

2)语音同化还原

语音同化的还原:首先去掉词汇末尾的 “i,im,imiz,ingiz,ing”等词缀,其次分析剩下词干的末尾的字母。若词干末尾的字母是“g”,那么还原为“q”。如果是“g”,那么还原为“k”。

3)增音的还原

增音的還原:首先切取词汇末尾的 “i,im,imiz,ingiz,ing”等词缀,然后再一次与词干库进行配对。如果能配对直接输出结果,如果不能配对就继续判断是否以“y”结尾。如果是,就切取最后的辅音“y”即可。此时还原已完成。

3 语音变化现象的还原方法研究

3.1语音变化的还原模型的研究

乌兹别克语音变分析模型的建立是实现还原的关键。此模型根据乌兹别克语中发生音变现象的词汇本身的特征来设计的。

3.2乌兹别克语语音变化自动还原过程

乌兹别克语语音变化的自动还原利用上述设计的分析模型,并结合词干库查找方法来实现的。利用乌兹别克斯坦的官方网站(www.kutubxona.com)截取的乌兹别克语文本信息作为实验对象,内容主要是短篇小说。首先对这些文本进行统计和人工处理准备了由“i,im,imiz,ingiz,ing”等名词词缀结尾的8177个名词。利用词干库配对方法的原因是:部分词干的词尾与以上的构形词缀相似。比如(yangi新的)是以“i”结尾,这里的“i”不是构形词缀而是一个词干的词尾。不需要进行还原,直接输出结果即可。

步骤一:词干库配对。若能配对直接输出结果;若不能配对,去除构形词缀。

步骤二:再次进行词干库配对。

步骤三:根据表1中的六种模型来实现语音脱落、同化、增音的还原。

4 实验及分析

4.1实验结果

实验利用已筛选的8177个以“i,im,imiz,ingiz,ing”等构形词缀结尾的名词进行测试。采用计算准确率P来评测实验结果。计算公式如下:

P = A / B * 100 %

其中,A表示自动切分正确的词数;B表示语料中的词汇总数;P衡量的是切分方法的准确度。

测试结果如下:

4.2实验结果分析

本测试中,发生语音脱落和增音现象的词汇还原的准确率一律达到100%。词干库未登录词干的出现直接影响同化还原的测试结果。比如:“bargi”这一词去除构形词缀“i”得出“barg”,这个词已经是正确的词干,但是是词典未登录词,所以根据规则自动还原,还原成这个没有意义的词。这样,导致了发生语音同化的词汇还原准确率为96%。下面举例实验结果:

1)脱落还原 shahri shahr+i shahar

2)同化还原 istagimiz istag+imiz istak g→k

3)增音还原 parvoyim parvo+y+imiz parvo

本次研究可知,在8177个词中发生语音变化的词的频率为21.3%。提高乌兹别克语名词词干提取的准确率,首先处理其中的语音变化极其重要。试验中,没有进行还原的词干都不是准确的词干、不表示任何意义。应用规则和词典查找的混合方法进行还原才可以得到正确的词干。由此可知,语音变化处理方案的可靠性和实验结果的准确率直接影响词干提取的准确率。本次试验因出现未登录词而降低了实验结果的准确率,在今后的研究过程中进一步的完善规则库,扩建词干库,提出更科学、可行的处理方案为自动提取乌兹别克语名词词干提取和还原研究打下基础。

参考文献:

[1] 麦热哈巴·艾力,姜文武,吐尔根·依不拉音. 维吾尔语词法中音变现象的自动还原模型[J].科技信息,2013(11):222.

[2]A.nurmonov,Asobirov,N.qosimova,等.Hozirgi ozbek adabiy tili[M].Toshkent,2013:1-592.

[3]古丽巴努木·克拜吐里,古丽巴霍尔·伊斯坎达洛娃.乌兹别克语教程[M].北京:中央民族大学出版社,2016:1-348.

[4]OZBEK TILI.[M/OL].http://n.ziyouz.com/#.OZBEKISTON.TOSHKANT.2010.

[5] 米热古丽·艾力,米吉提·阿不力米提,艾斯卡尔·艾木都拉.基于词法分析的维吾尔语元音弱化算法研究[J].中文信息处理学报,2008,22(4):43-47.

[6]艾尼瓦尔·艾合买提江.初谈维吾尔语与乌兹别克语元音区别[J].科技信息,2013,11:222.

[7]胡振华.中亚五国及其语言文字(上)[J].中央民族大学学报,1996(4):85-89.

[8]胡振华.中亚五国及其语言文字(下)[J].中央民族大学学报,1996(5):79-87.

[9]早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,帕里旦·吐尔逊,吴小川.混合策略的维吾尔语名词词干提取系统[J].计算机工程与应用,2013:49(1).

[10]买力坎·苏来曼.现代维吾尔语元音弱化的实验分析[J].计算机应用研究,北民族大学学报,2012(6).

[11]早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,艾斯卡尔·艾木都拉.维吾尔语名词构形词缀有限状态自动机的构造[J].中文信息学报,2009(1):23-6.

[12]阿达来提 . 乌兹别克语的传据范畴初探[J].民族翻译,2013(1):82-88.

[13]力提甫·托乎提.电脑处理维吾尔语语音和谐律的可能性[J].中央民族大学学报,2004(5):108-113.