基于依存信息融合特征的汉语韵律预测

2018-01-18 09:20,,

计算机工程 2018年1期

(重庆邮电大学自动化学院,重庆 400065)

0 概述

韵律预测是语音合成系统中的关键技术,韵律预测质量的好坏直接影响合成语音的自然度和文字语义层面上意思表达的准确性。广义的韵律包括重音、节奏和语调这些从感知语音中所抽象出的韵律结构。狭义的韵律则表现为语音的节奏感,节奏感主要涉及人说话时产生的组词断句的模式。将该模式抽象出来,表现为韵律词的构成以及各层级韵律成分边界的界定,在韵律预测中表现为给每个语法词边界确立合适的韵律停顿等级[1]。本文根据狭义韵律的含义,主要讨论与“节奏”相关的韵律结构,将韵律结构层次划分为3个层级,即韵律词、韵律短语和语调短语,它们是由小到大的层层嵌套的关系。

目前关于韵律结构的预测研究,大多研究者主要从预测方法和预测特征这2个角度进行对比和研究。预测方法的研究包括基于最大熵模型[2]、规则驱动[3]、统计模型[4]、条件随机场[5]等方法。预测特征主要包括从文本信息中提取出的浅层和深层的2种特征。浅层特征如词长、词性[6-8]、标点符号[9]等简单的语法特征。虽然此类特征在经过简单的文本分析后,能直观地从文本分析结果中提取出来。但由于其涵盖的语言信息较表面化,且不能体现句子中各语言单元之间更深层次的语义关系。而对于文本韵律层级的预测,主要是需要保证各韵律单元的语义完整[10]。若单纯地将此类特征用于韵律层级预测,则容易造成各韵律层级的划分歧义,并且不能保证韵律单元的语义完整性。因此,针对此类歧义问题,需要将利用的预测特征上升到文本更深层面,如语法树[11]和依存句法[12]等更深层次的句法特征。但目前对于深层特征的研究,由于每种特征所归纳和涵盖的深层句法信息都是单一的,因此导致单特征的韵律预测能力有限。若组合多个单特征时,则相互之间又会产生一定的负作用,这又为韵律预测带来很多弊端。

根据深层次句法信息与韵律结构之间的关系,本文从汉语文本的依存句法分析结果中自动提取出依存句法单特征,并对其中关键特征如内弧含弧数、内弧跨度、内弧方向等依存句法单特征进行融合,得到一种定义为“相对内弧区间”的依存信息融合特征。此特征能提高深层韵律预测特征对依存句法各类信息的利用效率,从而促使韵律层级的预测结果更能表现各韵律单元涵盖的语义内容,同时提高各韵律层级的预测精度。

本文采用2 516句真实录音语料转写成的文本语料,在对文本进行浅层语法信息标注后,根据真实录音进行韵律结构层次标注。选择其中韵律层次标注一致性最高的2 100句文本,对语料进行浅层语法特征及深层句法特征自动标注,同时加入韵律层级标注信息生成语料库。然后,分别利用C4.5算法实现基于依存句法单特征、依存信息融合特征、浅层语法和深层句法相结合这3种形式的韵律层级预测。

1 依存句法与汉语韵律结构的关系

依存句法主要是通过剖析语言单位之间的依存关系,从而揭示句子的句法结构。依存句法的概念可以追溯到1959年法国语言哲学家Lucien.Tesniere的著作《结构句法基础》[13-14]。该句法认为在一个句子中述语动词是支配其他成分的核心,它本身不受其他成分支配,所有被支配的成分都是以一种相对应的依存关系来从属于它们的支配者[15]。而言语单元之间的语义关联关系就在这类支配关系上得以体现。简要地说,依存句法分析主要是通过识别句子中的主谓宾定状补等语法成分,并分析各成分之间的关系。本文利用哈工大社会计算与信息检索研究中心研发的语言技术平台(LTP)对汉语文本进行依存句法分析[16],在对文本进行依存句法分析后产生的依存关系共15种,如主谓关系、动宾关系、定中等关系等,能够全面覆盖各种语法单元之间的依存关系。本文采用的0～3级停顿等级,分别对应韵律词内部、韵律词、韵律短语和语调短语这些韵律层级的停顿等级划分,作为相邻两词之间的边界特征。其中韵律词内部表示内部没有停顿的一组词。图1表示一个经过分词和词性标注的句子依存分析图结果及其停顿等级标注。其中,ATT、SBV、ADV等符号表示依存句法分析标注关系;1、2、3等数字表示分词后的词ID序列号;v、n等字母表示词性;B0、B1、B2表示语法词边界,韵律词边界、韵律短语边界。

图1 经过依存分析和韵律停顿等级标注的句子

依存句法分析是从句子更深层面出发,对句子中各成分之间的语义关联内容进行分析。从图1可看出,相邻两词之间的停顿等级越高,依存图中通过该标注点上方的弧数可能就越少,并且相邻两词上方最内侧弧的跨度越小代表其关系越紧密,其停顿等级可能越低。同时,根据文献[5]数据统计也证实,连接点上方的弧数以及内弧跨度与韵律层级之间确实存在着一定的关系。因此,从依存句法信息中提取的依存特征可以作为深层次韵律层级预测的特征,从而促使韵律层级的预测结果更能表现句子暗含的语义内容。

2 依存信息融合特征的提取方法

2.1 依存句法单特征

如图1依存关系所示,将连接2个语法单元的带箭头弧线叫做依存关系弧。依存关系弧表示一个由关系弧起点所指的语法单元依存于弧箭头所指的那个语法单元。弧上方标注的两语法单元之间的依存关系类型叫做依存弧类型。根据依存句法公理[12],从图1中可以看出依存关系弧之间是内外套叠的,且不存在交叉。设经过分词的句子W表示为词序列w1,w2,…,wk,…,wL。1,2,…,K,…,L为每个语法词的ID序列号。将任意2个相邻词对之间的边界称为连接点,连接点上方最内部的一条弧称为内弧。将依存关系弧所连接的语法词ID序列号相减得到弧跨度。内弧的弧跨度称为内弧跨度。连接点上方依存关系弧的总的数量称为依存弧总数。

目前对依存信息与韵律层级关系的研究,主要是针对内弧跨度和弧总数等单一特征对韵律层级进行预测。虽然这些依存特征能够对韵律层级预测有一定的韵律预测作用,但多个特征组合用于分类预测时,相互之间会产生一定的负作用,导致预测效果变差。

为了能够提高依存信息对于韵律层级预测的能力,需要提高依存句法各类信息的利用效率并找到一种恰当的表现形式使其成为适合韵律层级预测的深层次韵律预测特征。因此,本文定义一种新的依存特征——相对内弧区间,其融合了多个依存句法单特征作为深层次韵律预测特征。

2.2 相对内弧区间特征的提取方法

假设一个相邻词对的上方内弧区间表示为(m,n),图2为例句中ID为11的“内”和ID为12的“将”2个语法单元之间的连接点上方内弧的弧区间,表示为(11,13)。

图2 相邻两词之间连接点对应的内弧

从图2中连接点上方的内弧区间可以得出,其内弧跨度为2,弧方向为向右,连接点左侧的词距内弧最左词的距离为0,连接点左侧的词距内弧最左词的距离1,其内弧含弧数为1。可以看出,内弧区间含有内弧跨度、内弧方向等依存句法单特征信息。但由于语料中各句子长度不一,若用ID表示弧区间会产生非常多的可能性,且这些由不同的ID序列组合成的弧区间又不具备作为韵律预测特征的一般性,这样不仅会导致数据稀疏问题,还可能造成特征信息失效问题。因此,本文改进内弧区间,提出一种依存信息的融合特征——相对内弧区间,便于更好地进行韵律层级预测,相对内弧区间表示方法如图3所示。其中,横坐标x表示分词ID坐标;纵坐标y表示以目标相邻词对的左侧词语法词ID为O点的分词ID坐标。

图3 相对内弧区间表示方法

从图3可以看出,相对内弧区间可以体现上述所有的单特征。相对内弧区间将当前连接点左侧的词wi的ID序列号i看作相对于连接点的O点,连接点右侧词wi+1的相对序号为1。O点左侧的语法单元的坐标是x轴的负方向,O点右侧的语法单元的坐标是x轴的正方向。原连接点的内弧区间(m,n),1≤min(m,n)≤i,i+1≤max(m,n)≤L转化为相对内弧区间(k,p),k=m-i,p=n-i。从图3可以得出,句中原ID序列为11的“内”和ID为12的“将”的相对坐标变为0和1,这2个相邻词对之间连接点上方的相对内弧区间表示为(0,2)。

相对内弧区间信息不仅融合了连接点左右两侧的词距内弧最左右词的距离、内弧跨度、内弧含弧数和内弧方向等依存信息,而且更能直观地表现内弧起止点相对于连接点的位置信息。该表示方式不仅可以避免由于句式长短变化所带来的数据稀疏问题,而且更为恰当地把依存信息转化为语法单元所携带的韵律预测特征表示。为方便研究,笔者同时从相对内弧区间中抽取出了不带方向的相对内弧区间(表1的F10特征),如上述例句在图2中ID序列号为13的“超过”和ID序列号为14的“60亿”这2个语法单元之间的连接点上方的相对弧区间表示为(1,0),则连接点上方不带方向的相对内弧区间表示为(0,1)。

由各依存特征的定义,笔者从依存结果中抽取出的依存句法单特征(F1～F7)和依存信息融合特征(F8～F10)表示及其含义如表1所示。

表1 例句的依存特征自动提取结果

以上依存特征都是对于依存句法分析结果的不同层面的体现。为了找到在韵律层级预测过程中对依存句法各类信息最有效率的使用方法,本文将开展对不同依存特征及其组合的韵律预测实验。

3 依存特征的自动提取及语料构建

3.1 依存特征提取的Java程序实现

HanLP是由一系列自然语言处理模型和算法组成的Java工具包。本文参考LTP的文本分词协议,调用HanLP移植的基于神经网络的高性能LTP依存句法分词器接口(IDependencyParser函数)对语料文本进行依存句法单特征提取,再将依存句法单特征进行融合得到依存信息融合特征。依存特征提取的程序处理流程如图4所示。

图4 依存特征提取的程序处理流程

以图1中的句子为例,表2是从例句中相对于每个语法词之间的连接点自动抽取出的依存特征结果。

表2 例句的依存特征自动提取结果

为方便特征的统计和表示,特征由相邻词对左侧的词携带。由于最后一个语法单元上方没有依存弧信息,因此其携带的特征类型为NULL,表2中省略了其特征结果的表示。

3.2 语料构建

本文采用的语料共有2 516个句子。该语料是根据真实语音语料转写的文本,语音的发音速度为正常朗读速度。实验语料共有86 427个汉字,56 858个语法词,覆盖了汉语普通话中所有音调和音节及各类词性,语句平均长度为34个字,每句平均含有23个语法词。

韵律结构层次由人工参照真实语音语料进行标注,词性标注参考863词性标注集,依存分析特征标注参考哈工大信息检索研究室的依存标注规范[16]。首先,文本语料经过软件进行分词、词性标注,再由2名经过培训且有经验的标注人员通过听取语音语料录音,给文本标注上相应的韵律停顿等级信息,标注一致率达到94.5%。选取其中标注结果一致的2 100条语句,进行依存句法分析和依存特征自动提取和标注。下面展示出含有词性、词长、内弧相对区间及韵律停顿等级的语料标注内容。上述例句的语料标注结果如下:

007-001/m[1]世界/n/2/ATT/(0,1)#B1[2]人口/n/2/SBV/(0,1)#B1[3]增长/v/2/ATT/(0,1)#B1[4]形势/n/2/(0,2)#B2[5]依然/d/2/ADV/(0,1)#B1[6]严峻/a/2/WP/(1,0)#B0[7],/wp/0/COO/(2,-1)#B3[8]专家/n/2/SBV/(0,1)#B1[9]预计/v/2/VOB/(4,0)#B2[10]本世纪/nt/3/ATT/(0,1)#B0[11]内/nd/1/ADV/(0,2)#B2[12]将/d/1/ADV/(0,1)#B1[13]超过/v/2/VOB/(1,0)#B1[14]60亿/m/3/WP/(-8,1)#B0[15]。/wp/0/NULL/NULL#B3

4 实验测试

本文首先使用相对内弧区间特征及其他单一信息的依存特征进行韵律层级预测,以探索众多依存特征中有利于韵律层级预测的特征。然后将各种依存特征进行组合,从而使依存信息的预测效果发挥到最好。最后将深层次句法特征和浅层次语法特征相结合进行预测,利用全面的文本信息得到更好的韵律层级预测效果。

4.1 预测结果评价参数

本文将测试集的预测结果和正确的分类结果进行对比。采用的评价参数为算法准确率(Precision)、召回率(Recall)和综合参数(F-Score)。

定义的评价参数具体如下:

其中,Cij(i=1,2,3,4)表示人工标注的真实分类类型为Bi,而其边界的预测类型为Bj的边界数目。

4.2 特征选取测试

根据抽取的特征及其组合,利用决策树C4.5算法[17]进行实验,比较不同训练集上的评价参数。在训练时,设置训练数据与测试数据的比例关系为4∶1,从训练语料中随机抽取400句、800句、1 200句、1 600句作为不同数据规模的训练集分别进行训练,再统计其在测试集上的结果,得到不同规模的训练语料的实验结果。

由于B0层级划分主要依靠于语法词分词信息,而B3级主要依赖于标点符号来划分,因此本文只列出对语法和句法特征依赖程度较高的B1级和B2级韵律层级对于不同特征及其组合的实验结果。

4.2.1 依存特征及其组合选取测试

表3展示了不同依存特征及其组合在不同规模的训练集上的准确率。可以看出,当训练数据规模较小时,无方向的相对内弧区间及内弧跨度的预测能力差别不大。当训练规模变大时,内弧跨度预测能力虽然有所提升,但是由于其涵盖的信息量较少,因此提升幅度有限。而随着训练数据规模变大,相对内弧区间对2级韵律层级的预测效果提升明显。其中相对内弧区间预测效果在B2级预测效果达到最好,比跨度特征高8%左右。从表3中各特征之间的组合预测效果可以看出,选取的样本单特征数量超过2个以上时,若再加入其他单特征,则会导致预测精确度降低,甚至比单个特征的效果差很多。其原因是当选取的样本分类特征增加较多时,会产生算法复杂度增加和分类过纯问题,最终使得整体准确率降低。

表3 不同依存特征及其组合在不同规模测试集上的准确率 %

对比以上依存特征及其组合的预测能力,相对内弧区间与内弧类型的组合对2个韵律层级的预测效果达到最佳,该组合比内弧跨度和内弧类型的组合在B1层级、B2层级的准确率分别高出6.6%、9.5%。

4.2.2 依存特征与浅层特征组合测试

表4展示了浅层语法特征词长WLEN、词性POS和相对内弧区间F9、内弧跨度F3、内弧类型F1与浅层语法特征组合在训练集4上的测试结果。可以看出,在浅层语法特征的基础上加入2种依存特征组合进行测试时,预测准确率在原来的基础上有很大幅度的提升。其中相对内弧区间和内弧跨度的组合在两级韵律层级表现效果最好,B1层级、B2层级分别提高了5.8%、15.4%,且召回率和综合参数也高于浅层特征和依存单特征组合,说明本文选取的依存信息融合特征不仅能够改善浅层语法特征在各韵律层级的预测准确率,而且更能发挥依存句法信息对于韵律层级的预测作用。

表4 浅层语法与依存特征相结合的测试结果对比 %

5 结束语

通过分析依存句法单特征及其组合作为深层韵律层级预测特征的不足,本文提出依存信息融合特征。该特征在预测性能上优于其他含单一信息的依存特征。由于这种涵盖信息量大的融合特征表示方法简单,因此不容易导致分类过纯或算法增加复杂度的问题。在与浅层语法信息相结合时,预测效果也优于其他依存句法单特征的组合。

由于本文研究的重点是在韵律预测过程中提取最能提高韵律预测精度的依存句法信息作为预测特征,因此本文使用决策树C4.5算法对韵律层级进行分类预测。实际上,韵律层级的预测与上下文信息有着密切联系,而决策树C4.5算法不能充分利用此类上下文信息。因此,下一步将结合预测特征与上下文信息,提高预测效果。

[1] 曹剑芬.基于语法信息的汉语韵律结构预测[J].中文信息学报,2003,17(3):41-46.

[2] ZHANG Xiaonan,XU Jun,CAI Lianhong.Prosodic Structure Prediction Based on Maximum Entropy Model with Error-driven Modification[C]//Proceedings of International Symposium of Chinese Spoken Language Processing.Singapore:[s.n.],2006:149-160.

[3] RAMSHAW L A,MARCUS M P.Text Chunking Using Transformation-based Learning[J].Text Speech & Language Technology,2009,11:82-94.

[4] 钱揖丽,荀恩东,宋柔.基于SLM的二叉树在语音停顿预测中的应用[J].计算机工程,2006,32(19):23-25,28.

[5] 钱揖丽,冯志茹.基于语块和条件随机场(CRFs)的韵律短语识别[J].中文信息学报,2014,28(5):32-38.

[6] DONG Honghui,TAO Jianhua,XU Bo.Prosodic Word Prediction Using the Lexical Information[C]//Pro-ceedings of International Conference on Natural Language Processing & Knowledge Engineering.Washington D.C.,USA:IEEE Press,2005:189-193.

[7] 裴雨来,邱金萍,王洪君,等.基于词类序列的汉语语句韵律结构预测[J].清华大学学报(自然科学版),2009,49(S1):1339-1343,1355.

[8] 王永鑫,蔡莲红.语法信息与韵律结构的分析与预测[J].中文信息学报,2010,24(1):65-70.

[9] 姑丽加玛丽·麦麦提艾力,艾斯卡尔·肉孜,古力米热·依玛木,等.结合分层条件随机场与标点符号的维吾尔语韵律边界预测[J].计算机工程,2015,41(11):299-302,307.

[10] 朱维彬,吕士楠.基于语义的语音合成——语音合成技术的现状及展望[J].北京理工大学学报,2007,27(5):408-412.

[11] 杨鸿武,王晓丽,陈龙,等.基于语法树高度的汉语韵律短语预测[J].计算机工程与应用,2010,46(36):139-143,167.

[12] 邵艳秋,穗志方,韩纪庆,等.基于依存句法分析的汉语韵律层级自动预测技术研究[J].中文信息学报,2008,22(2):116-123.

[13] 刘挺,马金山,李生.基于词汇支配度的汉语依存分析模型[J].软件学报,2006,17(9):1876-1883.

[14] TESNIERE L.Elements of Structural Syntax[M].Amsterdam,Holland:John Benjamins Publishing Com-pany,2015.

[15] 周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52.

[16] CHE Wanxiang,LI Zhenghua,LIU Ting.LTP:A Chinese Language Technology Platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Demonstrations.New York,USA:ACM Press,2010:13-16.

[17] 栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96,105.