面向自然语言处理的现代乌兹别克语名词词缀研究

2018-11-15 01:33玉素甫·艾白都拉艾孜海尔江祖力克尔江艾孜尔古丽
电脑知识与技术 2018年20期

玉素甫·艾白都拉 艾孜海尔江 祖力克尔江 艾孜尔古丽

摘要:该文以社会语言学和计算语言学相结合的角度,根据乌兹别克语言特点提出乌兹别克语“词干(词根)+词缀+词尾”的词法结构模型、构词模型及名词构形词缀规律,为了计算机处理方便,将原来的六种格扩充十种格,为下一步开展词干提取、词性标注等乌兹别克语自然语言处理技术的研究提供基础支撑。

关键词:乌兹别克语;词法结构模型;构词模型;名词构形词缀;词干切分

中图分类号:TP312 文献标识码:A 文章编号:1009-3044(2018)20-0200-02

The Research of the Noun Affixe in Modern Uzbek for Natural Language Processing

Abaydula Yusup, Azhar, Zulkar, Azragul

(Xinjiang Normal University,Urumqi 830054,China)

Abstract:This paper takes the perspective of social linguistics and computational linguistics, according to the characteristics of Uzbek language Uzbek "stem (root) + affix and suffix" lexical structure model, the formation model and configuration of terms affix rules, convenient for computer processing, the original expansion of ten kinds of six frames. It will provide a basis for the further research on the processing technology of Uzbek natural language such as word stem extraction and word tagging.

Key words:Uzbek language; Lexical structure model; Word formation model; Noun conformation affixes; Stems segmentation

1 引言

为加强与“一带一路”沿线国家交流,与沿线国家的语言文化融通,为建立“语言互联网”发挥积极作用。本文利用信息化手段挖掘乌兹别克语的语言现象和规律,为方便采取定性和定量相结合的方法研究,在现有的维吾尔语言文字信息化技术的研究基础之上,根据乌兹别克语的特点提出乌兹别克语“词干(词根)+词缀+词尾”的词法结构模型、构词模型及名词构形词缀规律,为了计算机处理方便,将原来的六种格扩充十种格。为研究乌兹别克语语料库构建技术、构建乌兹别克语言资源库,建立“语言互联网”提供语言基础支撑。对及时了解语言生活状况,建立语言监测、分析和预警机制,正确引导 “一带一路”沿边国家语言服务、社会语言生活的和谐发展打下基础,具有十分重要的意义。

2 乌兹别克语词语研究

2.1 乌兹别克语词法结构模型

从传统语言学角度考虑,乌兹别克语词具有“词根+词缀+词尾”的词法结构,词根、词缀和词尾的结合存在严格的次序规则,其中乌兹别克语中的词缀有改变词义的功能,词尾具有语法功能。乌兹别克语词去除词词缀剩下的部分称为词干,因此乌兹别克语词也是由词干和词尾构成的,具体词法结构模型见图1。

图1中,A表示词根,B表示词缀,C表示词尾,D表示词干,W表示词语。

一个乌兹别克文词语是由零个或者一个前缀,一个词根,零个或者多个后缀而组成。例如:

yordam(帮助)

yordam+lash = yordamlash(去帮忙)

yordam +lash + moq = yordamlashmoq (将帮助)。

2.2 烏兹别克语构词模型

“词汇在句法信息作为词汇形式出现的一种方式称为语素”[1]。语素(morpheme)是语言中的最小语法单位,不能再分成其他有意义的成分[2]。语素可以分为两种,分别是自由语素(free morpheme)和黏着语素(boundary morpheme)。自由语素指的是能够独立成词的语素,具有词汇意义,词汇再不能进行分割的语言单位,既通常叫作词根(root) [3]。而黏着语素是不能够单独成词的,它只能作为单词的附加成分出现在词根或者其他黏着语素的旁边。黏着语素也会被叫作词缀(affix),它有两种形式,前缀(prefix) 和后缀(suffix),前缀链接在词根前面,而后缀链接在词根后面[4]。

乌兹别克语中的前缀可分为两种,一种是构词(derivational)前缀,这种前缀是链接在词根前面的,会给原词根带来语义上的(semantic)变化,即生成一个新的词干,图2构词前缀所示。

另外一种是强调性(imphatic)前缀,这种前缀是不会生成新词,只会起强调原词义的作用,图3强调性前缀所示。

乌兹别克语中的后缀也分为两种:一种是词干链接构词后缀是产生语义变化的,也就是说它会生成新的一个词干。另一种,词干链接构形后缀是不会生成新词,只会更改单词的形式和单词在句子中的语法作。词干后面缀接后缀的时候往往是先缀接构词后缀再缀接构形后缀,图4多种后缀链接缀所示[3]。

乌兹别克语中有很多构词附加成分,而且构词附加成分的构词能力是很强的,正是因为这样,理论上说,乌兹别克语有无限的词汇量。构形附加成分对词干的词汇意义不会有任何影响,它表示的是词语和词语之间的语法关系。无论是构词附加成分还是构形附加成分肯定语义发生变化[3]。

3 乌兹别克语构形词缀

3.1 名词词缀

乌兹别克语中有构形词缀的词类有名词、动词、代词、形容词、数词[6]。,名词词缀包括名词的1个复数词缀和10个格词缀。其中在乌兹别克语语法里只存在六种格,即主格、属格、宾格、从格、向格、位格[3]。并没有把“gacha,cha,chali,dagi,dek”等词缀归属为格,而是把它们当作单独的词缀来处理。但是这些词缀的作用与格词缀相同。本文根据计算语言学需求,增加了格的范围,扩充了“止格,gacha”,“围特征格,dagi”,“量拟格,cha,chali”,“形拟格,dek”等4个格[5]。此外,乌兹别克语非人称动词中的动名词也会受到以上格词缀的影响。

3.2 名词数词缀

乌兹别克语名词一般都是单数和复数两种形式,单数没有特殊标志,乌兹别克语名词的复数词缀只有一种。名词复数构形附加成分lor 缀接在名词后面以后就会形成乌兹别克语名词复数形态。根据乌兹别克语的复数构形附加成分连接规律,名词词干的后缀接复数词缀,再在复数词缀后连接其他词缀的这种特征这对词干提取研究带来一定的方便。

3.3 人称词缀

乌兹别克语名词的还有一个语法范畴是人称。利用人称词缀来表达名词所指的事物之间的隶属关系。乌兹别克语名词人称范畴按照连接的人称词缀的不同,表达不同的领属关系。包括能表达单数、复数的是第一人称和第二人称,第三人称没有复数标志。例如:第一人称(单、复数)“m\im(miz\imiz)”,第二人称(单、复数)“ng\ing(ngiz\ingiz)”,第三人称(复数)“i\si” [3]。

4 结 论

本文主要从传统语言学和计算语言学角度考虑乌兹别克语词具有的“词干(词根)+词缀+词尾”的语法结构规律,提出乌兹别克语词法结构模型。并以乌兹别克语词法结构模型作为基础,深入探索乌兹别克语语素,在此基础上研究三种乌兹别克语构词模型,探讨构词规律。为计算机处理方便,在现有的乌兹别克语6种格基础上,扩充10到种乌兹别克语格。分析了乌兹别克语名词构形词缀情况,为下一步研究乌兹别克名词分析和词干提取提供科学依据,对以后要开展的乌兹别克语自然语言处理方面有较好的应用,是语言信息化中最基本和最重要的一項工作。

参考文献:

[1] 早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,帕里旦·吐尔逊,吴小川.混合策略的维吾尔语名词词干提取系统[J].计算机工程与应用.2013,49(1).

[2] 塔依尔·阿不都外力,艾山·吾买尔,吐尔根·依布拉音,张健.基于标注词典和规则的维吾尔文动词词干提取方法[J].新疆大学学报,2013,30(1).

[3] 古丽巴努木·克拜吐里.乌孜别克语教程[M].北京:中央民族大学出版社,2016.

[4] 哈米提·铁木尔.现代维吾尔语语法学[M].北京:民族出版社,2011.

[5] 哈米提·铁木尔.关于维吾尔语名词“格”的范畴[J].新疆大学学报,1980(3).

[6] 高莉琴,阿不都许库尔·艾山.关于维语的词类划分问题[J].新疆大学学报,1987(3).