基于虚词和句尾词特征的藏语句子抽取方法

2018-02-15 06:32扎西吉
关键词:藏语助词虚词

扎西吉,罗 巴

(甘肃民族师范学院 计算机科学系,甘肃 合作 747000)

0 引言

1 藏语句子特征分析

1.1 藏语句子概述

1.2 藏语句尾词性特征分析

我们通过对大量藏语句子的分析得出11种句尾词性,包括形容词、动词、存在助词、判断助词、比喻助词、助动词、终结助词、祈使助词、时态助词、语气助词和疑问代词.本文提出若尾部词性是表1所列词性之一,则一定构成一个句子,反之,若尾部词性不是表1所列词性之一,则一定不是句子.本文以尾部词性是否属于表1为标准判断藏语字符串是否构成句子.藏语句尾词性及标记、描述和例句见表1,本文采用青海师范大学的藏语词类标记集[6].

表1藏语句尾词性表

表2藏语句尾词性后能搭配的虚词及标记表

2 虚词和句尾词特征的藏语句子抽取方法

逆向回溯虚词的句子抽取时,首先进行文本预处理,将文本中以“空格”或“空格”或“空格”为结尾中的“空格”替换为“”,同时将文本进行分词和词性标注.为了便于描述本文用形式化方法表示句子,将一个以单垂符或双垂符结尾的文本内容看成是它所含有的词节点组成的集合,即:句子S表示为(w1,w2,w3,…,wn),句子S中n个词的词性表示为T(t1,t2,…,tn),数据集中的词节点是指文本已分好的词,wk就是词节点,tk是词节点wk的词性,1≤k≤n;用P_DB表示句尾词性表1,用F_DB表示表1后能搭配的虚词及标记表2,用Sentence_DB表示抽取到的句子库.逆向回溯虚词的藏语句子抽取库结构及算法如下.库结构:

#typedef Struct

{ int N;

String word[8];

String sign[2];

} P_DB;

#typedef Struct

{ int N;

String word[8];

String sign[2];

} F_DB;

#typedef struct

{ int N;

String Sentence;

}Sentence_DB;

其中库P_DB和F_DB的结构相同,三个字段分别用于存储词类的序号、词性和词性标记;库Sentence_DB的字段N表示抽取到句子序号,字段Sentence表示抽取到的句子.

逆向回溯虚词的句子抽取算法(RBF-Algorithm):

Input:S:W=(w1,w2,w3,…,wn),T=(t1,t2,…,tn)

Output:S(S∈Sentence_DB)

Step: i=n

While(i>0)

if ti∈P_DB then

{W=(w1,w2,w3,…,wi) —> Sentence_DB;

i=i-1;}

Else

if ti-1∈P_DB and ti==hh then//其中hh表示藏语中的词缀

{W=(w1,w2,w3,…,wi-1) —> Sentence_DB;

i=i-2 ;}

Else

if ti∈F_DB then

i=i-1 ;

else

{while(i>0 and tiF_DB )

i=i-1;

i=i-1;}

Input:

T=(nn,gx,nv,ux,cn,nn,gx,nv,gl,vt,hh).

Step:见表3.

表3逆向回溯虚词的藏语句子抽取过程值列表

3 实验数据

本文从法律法规、科技类、小说、讲座文献、时事政治等文本中随机选取4421个含单垂符和双单垂的文本做为测试语料,用于测试本文提出的藏语句子抽取方法的有效性,实验主要观测抽取藏语句子的数量和准确性.实验过程如下:

第一步:对测试语料进行分词和词性标注.本实验首先利用青海师范大学的“藏文文本自动切分系统”[7-9]和“藏文文本自动标注系统”[10]对测试语料进行分词和词性标注,然后人工对分词和词性标注结果进行校对,共得到4421个含单垂符和双单垂的文本.

第二步:人工从含有4421个含单垂符和双单垂的测试语料中抽取句子.

第三步:用文献1、文献2和本文提出的方法分别从测试语料中抽取藏语句子.

第四步:统计用三种方法抽取的句子,并与人工抽取的句子加以比较.

第五步:计算每种方法的准确率、召回率、F值,并对比分析.

实验数据见表4.

表4藏语句子抽取量对比表

4 总结

藏语标点符号的特殊性给抽取一个表达完整意义的藏语句子带来了很大的困难,从而影响到了双语对齐、机器翻译、句法分析、语义分析等多个知识领域.本文通过分析藏语句子句尾词性的分布情况,确定了能够出现在藏语句尾的词性,进而提出了一种逆向回溯虚词的藏语句子抽取方法,提高了藏语句子的抽取效率,为进一步研究藏语句型结构分析提供了理论依据.

猜你喜欢
藏语助词虚词
浅谈藏语中的礼仪语
韩国语助词的连续构成与复合助词的区分
藏语传统辞书词目编排法探析
基于混合策略的藏文虚词识别方法
高校朝鲜语专业学生助词使用偏误调查分析
日语中“间投助词”与“终助词”在句中适用位置的对比考察
藏语拉达克话的几个语音特征
Note from the Editor-in-Chief
藏语地理分布格局的形成原因
浅析藏汉双语结构助词“的”的共性与个性