藏文信息技术中的人名词汇音节分类与语音切分研究

2017-06-08 13:05尕松永藏当曾扎西
中文信息 2017年5期
关键词:格萨尔音节词汇

尕松永藏+当曾扎西

摘 要: 人名的音节特征研究是藏文信息技术处理中最重要的工作之一,

等文献中出现大量的人名词汇,对其进行分类和相关的语音切分方法研究,可为当前通过藏语信息技术构建格萨尔史诗人名知识库,提供基础性的分类思路和方法。

关键词:格萨尔 人名 词汇 音节 切分

中图分类号:G64 文献标识码:A 文章编号:1003-9082(2017)05-0132-02

《格萨尔王传》是一部具有很高的文学、美学和欣赏价值的史诗,作为世界上最长的诗篇,它既是藏族民间文化的代表,更是藏族历史中各类神话、传说、谚语和诗歌的总和。由于《格萨尔王传》在藏文化的特殊地位,向来被认为是研究藏文化的桥梁,进入二十一世纪以来,关于《格萨尔王传》相关的历史、文学、语言等各领域的研究日渐深入,但限于诗传的篇幅和各类名词含义解读的多元化,仍有诸多问题难以深入到应有的程度。我们将自身专业特点与研究人员的需求结合,尝试通过藏语信息处理技术构建格萨尔史诗知识库。由于人名音节相对其他名词更为复杂和多元,对其正确解读与否,有时甚至会影响研究人员对关键事实的判断,因此,我们将人名知识库的构建作为这项工作的首要阶段。鉴于计算机和人类思维方式之间差异性的存在,为了方便计算机识别翻译和人工检索使用,我们在录入海量人名的同时,需要对人名词汇进行基础的分类,并对其进行相关的语音切分方法研究,并将之转换为相应的符号语言,最大限度的增加计算机获取和输出信息的准确性与科学性。

目前我们暂以《格萨尔王传》中著名诗篇

等文献为基本资料,对其中人名词汇相关的分类方法和语音切分方案进行初步的探讨。由于这一工作的长期性和复杂性,我们的专业水平也存在一定的局限,在这一工作的初步展开阶段,诚挚的希望得到相关领域不同专业学者的指导与批评。

一、人名词汇的音节分类方案

《格萨尔王传》中的人名音节多样,从单个音节到十个音节的人名词汇都有不同程度的出现,对其进行合理的分类是建立计算机与人互动的必要前提。根据当前藏语信息处理技术的特点,我们将相关人名词汇按音节数量的不同,初步划分为九个子分类,并对其进行简要说明。

1.单音节人名

《格萨尔王传》中极少出现单音节人名,但其中若干姓氏用一个音节表示的情况较多,诸如:

根据我们目前的统计,尚未在格萨尔史诗中发现单音节人名。

2.双音节人名

格萨尔史诗中出现的双音节人名基本都是以单纯人名为主,并未发现任何附加在名字前后显示身份等内容的信息。

例如:

3.三音节人名

三个音节的人名多是在名字前后附加了姓和身份。例如

4.四音节人名

四音节人名在格萨尔史诗中出现较多,成为音节分类中出现数量较多的人名类型,多数是在名字的前后附加了身份等方面的信息。例如:

5.五音节人名

五音节的人名在格萨尔史诗中属于相对出现较少的类型,仅有部分人名的乳名、美名和地名信息等内容组成。例如:

6.六音节人名

六音节人名一般是在人名前后附加地名、身份、部落名等信息组合形成的称谓。诸如:

7.七音节人名

七音节的人名多数是由姓名、地名和性格等附加信息组成的称谓。例如:

8.八音节人名

八音节的人名出现较少,同于前述六、七音节的人名,这类人名也是多数由姓名、地名、尊号等信息共同构成。诸如:

9.九、十音节人名

就我们收集到的材料而言,目前尚未发现九个音节的人名,但十个音节的人名数量仍有个别出现。例如:

二、人名语音的切分方法

格萨尔史诗中的人名音节长短不一,开展人名知识库的构建工作,必须首先人工对这些人名进行正确的切音和标注。切音和标注工作的准确性将会直接影响知识库的质量,不同的语音切分,可能导致对人名和相关信息理解上的歧义。在计算机人名知识库的构建过程中,由于电脑信息处理和人脑思维方式差异性的存在,为了便于计算机高效识别与正确理解,在较长音节的人名语音切分中,我们暂以藏文“ ”和“ ”分别表示人名词汇语音切分中的单、双音节停顿,用“◎”和“○”符号分别作为用于计算机藏文信息识别的单双音节的切分停顿符号。按照这一思路,对这些人名音节的切分方法暂列如下:

1.格萨尔史诗中几乎未出现单音节人名, 若有出现也可为单音节来切音,不会混淆于其它人名。

2.双音节的人名在格萨尔史诗中属于数量最多的类型,基本都是以双音节作为语音切分点。

3.三音节的人名多数以双、单语音切分点的形式表现,但也有个别人名以单和双的语音切分点的形式表现,大体归纳为如下:

4.四音节人名基本都以双音节为语音切分点划分,几乎没有单音节的语音切分现象。

5.五个音节的人名在格萨尔史诗出现较少,在语音切分上主流以双双单形式划分音节,也有个别人名是单双双形式的进行音节切分。

6.六音节的人名都是以双双双形式的音节语音切分。

7.七音节的人名在语音切分上没有一致的音节语音切分,相对其他分类而言规律性较弱。

8.八音节的人名都是以双音节为单位进行语音切分,目前尚未发现单音节切分点的人名出现。

9.九个或九个以上音节的人名在格萨尔史诗中只个别出现,基本除格萨尔王的别称外没有其他的人物名称。

三、结语

《格萨尔王传》中出现海量的人物形象,人物名称的音节变化多样,尤其部分人名具有多个别称,诸如格萨尔王即有十数个称谓,多是终其一生不同的友人和敌人出于各自立场对其进行褒贬,因而形成的形成各种称名,此类人名的出现,给研究者造成极大困扰。将这些人物名称进行準确的分类和研究,对于构建格萨尔知识库的工程而言有着难以估量的意义,这些工作的共同开展,又将会极大的有助于理清格萨尔史诗中诸多人物之间的相互关系,从根本上推动和提升当前关于《格萨尔王传》的研究能力和认识水平。

参考文献

[1]《仙界占卜九藏》,兰州:甘肃民族出版社,1982年。

[2]《花岭诞生六部》,成都:四川民族出版社,1980年。

[3]《玛玉封地》,成都:四川民族出版社,1980年。

[4]《赛马称王》,西宁:青海民族出版社,1981年。

[5]《玛燮扎》,西宁:青海民族出版社,1982年。

猜你喜欢
格萨尔音节词汇
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
拼拼 读读 写写
关于建立“格萨尔文献数据中心”的初步构想
本刊可直接用缩写的常用词汇
《格萨尔》的音乐体系
40年西藏《格萨尔》工作回顾
藏文音节字的频次统计
《格萨尔》向何处去?——后现代语境下的《格萨尔》史诗演述歌手
木管乐器“音节练习法”初探