帕金森语音障碍的Mel变换域局部梯度统计分析

2022-10-16 05:51张涛林丽琴张亚娟牛晓霞
计算机与生活 2022年10期
关键词:分类器帕金森病梯度

张涛,林丽琴,张亚娟,牛晓霞

1.燕山大学 信息科学与工程学院,河北 秦皇岛066004

2.燕山大学 河北省信息传输与信号处理重点实验室,河北 秦皇岛066004

帕金森病(Parkinson’s disease,PD)是一种中老年常见的神经退行性疾病,其患病人数仅次于阿尔兹海默症。到目前为止,针对帕金森病的治疗都是控制病情发展而无法从根本上治愈。因此,对帕金森病的早期诊断研究成为了该领域的研究热点。基于便于使用、可远程传输的优势,基于语言障碍的帕金森病早期诊断自2007 年由牛津大学的Little 提出以来便广受关注,使得帕金森病的语言障碍分析成为了研究热点。

2009 年,Little 等人利用传统声学特征,如Jitter、Shimmer、谐波噪声比(harmonics to noise ratio,HNR)等提取语音信号中的时域特性和频域特性,用于分辨受试者是否患有帕金森病,为本领域研究奠定了数据基础;2011 年,张涛等人通过引入多元音分析丰富了语音采样方法;2013 年,Sakar 等人利用增加了持续元音不同的音高特征以及周期特征和无声中断的特征。此后,不少学者在帕金森语音特征提取方向进行了深入而有效的研究,Benba 等人利用人因子倒谱系数(human factor cepstral coefficients,HFCC)进行声纹特征参数的提取,这种方法相比传统的倒谱分析方法获得了更加可靠的性能;Karan 等人利用变分模式分解(variational mode decomposition,VMD)将语音信号分解为模式或子信号以提取语音信号的相关信息;张小恒等人提出了双边式混合语音特征选择的优选算法,挖掘语音段和特征的协同效应;此外还提出分包融合集成算法,该算法通过设计类心距离比值来衡量样本的混叠程度,有效增加了帕金森语音样本的利用率。与此同时,随着深度学习的发展,卷积神经网络、HR-DCGAN-VGG16 模型与深度置信网络等方法也相继被用于帕金森病语音障碍的数据表示。与此同时,以Mel域为代表的变换域特征提取方法在帕金森病语音障碍分析中取得了令人瞩目的成果:Khan 等人引入倒谱分离干扰(cepstral separation disturbs,CSD)和Mel 倒谱系数(Mel frequency cepstral coefficients,MFCC)来监测帕金森病患者的言语症状,利用Mel倒谱系数表示语音特征的细节,并在3 级UPDRS 量表和2 级UPDRS 量表都具有良好的准确率;Orozco-Arroyave 等人利用Mel倒谱系数提取清音的能量含量并将其应用于三种不同的语言检测帕金森病患者;Naranjo 等人提出了一种两阶段的变量选择和分类方法,增加了不同阶数的MFCC,使结果的可解释性得到了改善。与此同时,在变换域中进行结构特征提取的研究方法在帕金森语音障碍分析中展现出优势。文献[17]提出通过统计时频混合域中能量数据的差分值计算其梯度统计特征,以此表示不同时频域能量值的突变情况,其分类结果明显优于传统特征。文献[18]提出一种基于经验模式分解的能量方向特征,强调了语音信号的高频成分,提供了更多信息,在帕金森病诊断中具有良好的稳定性与分类性能。由此可见,在对帕金森语音障碍分析的研究中,结构特征通过对梯度值的统计能综合提取语音信号时频域的变化情况,并且通过对各个方向能量变化值的统计,在一定程度上抑制噪声,因此相较于传统特征而言,结构特征在对帕金森语音障碍的分析中具有更加有效的表现效果。同时由于Mel 变换域对于帕金森语音障碍分析的有效性,近年来相关研究正朝着高阶特征提取的方向发展。这提示在Mel 变换域中提取结构特征可能会在帕金森检测问题中获得新的突破,但对Mel变换域进行结构提取的研究方法尚未见报道。

基于当前研究,本文以语音信号的Mel变换域为基础,从结构角度提取局部梯度特征,并通过统计方法形成Mel频率谱的局部梯度统计特征(statistical feature of local gradient,SFLG)。该方法从结构角度详细描述了语音信号在Mel变换域的时频结合特性,并通过统计方式克服局部噪声带来的不稳定性。最后,将该帕金森病语音障碍分析方法与分类器相结合,实现对基于语音障碍的帕金森病诊断,提高诊断结果的准确性。

1 方法

1.1 Mel变换域

Mel 频率系统由多个滤波器组成,Mel 域变换流程如图1 所示。首先对语音信号进行预加重,对高频部分进行补偿;其次对预加重后的语音信号进行分帧加窗,然后通过短时傅里叶变换(short time Fourier transform,STFT)得到频谱,最后通过Mel 滤波器组对能量谱频域进行滤波得到Mel 频谱。对Mel 频谱进行归一化,归一化后的Mel 频谱能量即为Mel 变换域能量。经变换后得到的Mel域能量如式(1)所示。

图1 Mel频率域的变换流程图Fig.1 Flowchart of Mel frequency domain transformation

(,)=Mel(())(1)其中,(,)表示语音信号从时域变换到Mel 域后所得到的Mel 变换域能量数据;()表示时刻语音信号的强度;Mel 表示对()进行时域到Mel 域的一系列变换。

本文通过Mel 频率提取方法将语音的时域信息和频域信息同时转换到Mel变换域,从而获得符合人类听觉特性的信号表示,突出相似语音中的听觉差异部分,为进一步特征分析奠定基础。健康人和帕金森病患者的Mel变换域能量归一化后的结果如图2所示。由图2 可知,在Mel 变换域中,健康人语音的能量分布更加均匀,更具有规律性,而患者的能量分布范围更加集中,Mel 变换域能量谱图更为清晰直观地表现出了健康人和帕金森病患者的能量分布情况。因此相对于传统的频谱图,通过分析Mel变换域局部能量变化更能明显地展现出健康人和帕金森病患者在语音信号中的差异。

图2 健康人与PD 患者语音时域、频域及Mel域对比Fig.2 Comparison of speech in time domain,frequency domain and Mel transform domain between healthy people and patients with PD

1.2 SFLG 特征提取

在Mel变换域中,局部能量的方向和幅度差值均存在差异,而梯度可将Mel 变换域的时域幅度差值、频域幅度差值、时频混合域的幅度差值相结合;梯度变化的角度可展现三维立体空间中的每一个方向。因此Mel 域局部能量变化梯度与角度相结合更能明显展现Mel 域能量的幅度与方向差异。为了详细刻画语音信号在Mel变换域能量谱图上的特征,本文提出局部梯度统计特征提取方法,通过描述Mel变换域局部能量变化梯度和方向之间的关系完成对帕金森病语音障碍的分析。该方法首先通过检测窗口选择Mel 变换域局部能量数据,然后计算窗口内每个能量点的变化角度与梯度值,接着根据能量变化角度统计窗口内能量点的梯度值,最后通过对统计的梯度值进行归一化得到Mel 变换域全局的SFLG。SFLG的具体提取流程如图3 所示。

图3 SFLG 特征提取流程图Fig.3 Flowchart for SFLG feature extraction

为了将Mel 变换域能量数据划分为不同的局部能量数据,首先在Mel域中通过检测窗口检测出局部能量数据,变换域的时间范围[0,],频率范围为[0,],变换域检测窗口内能量提取公式如式(2)所示。其中J(,)表示时域第个、频域第个检测窗口的局部能量数据,t表示检测窗口时间长度,0 <t<,t∈,f表示检测窗口频率长度,0 <f<,f∈。

图4 变换域时频角度方向示意图Fig.4 Schematic diagram of timefrequency angle direction in transform domain

则根据每个能量点的时域变化量Δ、频域变化量Δ,将偏移角度表示为式(4)。

在局部滑动窗口内,对于检测能量点(,),(,)∈(,),对待检测点不同能量变化方向进行求导,得到能量变化随不同方向的变化速率。检测点的能量随不同方向的变化率计算式如式(5)所示。在变换域中时间变化 |Δ|≥1,频率变化| Δ|≥1。

在检测点的能量变化中,计算待检测点不同方向的导数。最大的导数即为该点的梯度值,梯度值对应的角度为该检测点的能量变化角度。则检测点的梯度值计算公式如式(9)所示,能量变化角度如式(10)所示。

对于局部窗口内的能量数据(,),根据上述方法计算每个局部能量点的梯度值与角度。为了反映局部检测点能量梯度变化的整体情况,本文采用局部统计的方法统计局部梯度的整体变化情况,根据角度统计变换域局部能量变化的梯度值,构建包含时频信息的SFLG。为了便于统计,本文将能量变化角度进行量化,量化公式如式(11)所示。并根据能量变化角度的量化级别统计检测窗口内局部能量梯度值,局部梯度统计公式如式(12)所示。

在式(11)、式(12)中,b表示角度量化的单位,表示角度量化的级别,()表示不同量化级别的梯度统计特征。为了避免梯度特征的数值大小对分类的影响,对梯度统计特征进行归一化,归一化方法如式(13)所示。为一个极小且不为0 的常数,||·||表示1 范数。

() 即为一个滑动窗口内归一化后的SFLG。SFLG 包含了不同角度的梯度统计值,SFLG 的可视化提取过程如图5 所示。

图5 SFLG 提取可视化示意图Fig.5 SFLG extraction visualization diagram

为了全面反映变换域局部梯度变化情况,本文对所有检测窗口的SFLG 进行统计,统计后的结果即为变换域全局的SFLG。变换域全局的SFLG 如式(14)所示,其中H()表示第个检测窗口的SFLG。

以一个可视化窗口为例,设与待测点相邻的能量如图6 所示,则可移动的位置如图6(a)所示。式(15)对应的可移动方向的角度如式(16)所示。

图6 待检测点方向能量分布示意图Fig.6 Schematic diagram of energy distribution in direction of point to be detected

图6(b)中待检测点对应的方向导数如式(17)所示。将图6(b)示例计算方向导数,结果如式(18)所示。

求该检测点的能量变化角度与梯度。式(19)为待检测点的梯度,式(20)为该点的角度。

对于窗口内的能量数据(,),设窗口内能量数据对应的梯度如式(21)所示,对应的能量变化角度如式(22)所示。

对上述窗口内的能量变化梯度和角度进行统计,设量化单位长度b=20°,求得量化级别和统计结果,统计结果如式(23)和式(24)所示。

2 实验与分析

2.1 材料和方法

本文特征提取方法需要在原始语音上进行,使用的数据集为2013 年Sakar 等人公布的帕金森病原始语音数据集(Sakar’s Parkinson detection dataset,SPDD)以及由本课题组采集、整理的汉语发音帕金森病语音数据集(Chinese pronunciation Parkinson detection dataset,CPPDD)。

SPDD 数据集为UCI 公开数据集之一,该数据集公开了帕金森病语音数据的原始语音以及语音特征集,其中包括训练集和测试集两个数据集。训练集包括伊斯坦布尔大学Cerrhpasa 医学院神经病学系的20 名帕金森病患者(6 名女性、14 名男性)和20 名健康受试者(10 名男性、10 名女性),每个受试者采集26个语音样本片段,每条语音的发音内容包括元音字母发音(a、o、u)、数字发音(1~10)、单词发音(指定单词9 个)和短语句发音(指定短语句4 个)。测试集中含有28 例帕金森病患者受试者,每个受试者含有6 条语音片段(a、o 的发音各3 遍)。帕金森病患者的个体年龄在43 岁到77 岁之间(平均值64.86 岁,方差80.46);健康受试者的个体年龄在45 岁到83 岁之间(平均值62.55 岁,方差116.42)。本文使用的是该数据集中的元音语音。

CPPDD 是由本课题组与开滦精神卫生中心以及唐山市人民医院合作采集的,该CPPDD 数据集中包含36 名帕金森病患者(19 名男性、17 名女性)和32 名健康受试者(16 名男性、16 名女性),帕金森病患者个体年龄在45 岁到80 岁之间(平均值68.59 岁,方差151.29);健康受试者的个体年龄在44 岁到79 岁之间(平均值68.59 岁,方差151.29)。其中帕金森病患者已被神经学专家确诊。数据集临床采集以元音方法为主,针对6 个汉语单元音a、o、e、i、u、ü分别录制语音样本,每个受试者每个音节发音3 次,每次持续发音2 s。

为了确保语音数据的平稳性和完整统一性,本文对SPDD 和CPPDD 的语音数据进行了预处理,预处理包括去除语音信号的静音部分和统一每条语音样本的时间长度,最终得到Sakar 语音数据集中的样本数为534 条,包含282 条患病语音样本,252 条健康语音样本。CPPDD 语音样本数918 条,包括患者语音样本495 条,健康受试者语音样本数423条。

如表1 所示,对比SPDD 和CPPDD 两个数据集,两个数据集的采集方式和采样频率均相同。相比之下,CPPDD 数据集的样本量多于SPDD 数据集。本文将对SPDD和CPPDD两个数据集进行训练与测试。

表1 SPDD 和CPPDD 数据集对比Table 1 Comparison of SPDD and CPPDD datasets

本文使用准确率、灵敏性、特异性三个指标对分类器的分类性能进行评估。准确率(accuracy,)的值越高表示分类性能越优异,其计算公式如式(25)所示。

式中,表示真阳性的数量,表示真阴性的数量,表示假阳性的数量,表示假阴性的数量。正确分类的阳性和阴性的统计测量值用灵敏性(sensitivity,)和特异性(specificity,)表示,同样地,灵敏性和特异性的值越高表示分类性能越优异,其计算公式如式(26)、式(27)所示。

在实验方法上,本文采用折交叉验证与留一样本法交叉验证相结合的方法进行测试。其中本文采用留一样本法而不是留一对象法的原因是复杂的预测因子可以在身份和诊断状态之间找到混淆的关系,从而产生不真实的高预测准确率,而留一对象法无法正确避免这种情况。在实验过程中,首先根据1.2 节的介绍提取SFLG 特征,实验中参数的选取如下:滑动窗口的大小为8×8,即t=8,f=8,帧移与窗口大小相同为8。在此基础上对SPDD 和CPPDD 数据集进行最优参数的选择,选择最优参数的实验通过5 折交叉验证(=5)的方法进行。

确定最优参数后,为了说明不同数据集在相同模型中的差异性,验证不同语言对相同模型的敏感性,本文采用数据集间交叉验证的方法对模型进行评估,该验证方法将数据集分为训练集与测试集。在本文的两个数据集中,以一个数据集做训练集,另一个数据集做测试集的方式进行数据集间的交叉验证。由于在数据集的采集过程中,对每个受试者的语音记录有多条。为了避免不同样本之间带来的误差,同时增加测试结果的可信性,本文在SPDD、CPPDD 数据集内分别采用5 折交叉(=5)、10 折交叉(=10)和留一样本法进行交叉验证。由于实验结果会因数据集的划分不同而不同,本文采用多次实验求平均值的方法记录实验结果,以确保结果的可信度。

为了说明本文方法的有效性和先进性,本文将现有技术与本文方法进行了简要对比。本文的对比实验从两个角度进行,首先将本文提出的SFLG 与经典的倒谱特征Mel 倒谱系数(MFCC)、人类因子倒谱系数(HFCC)以及本征模函数倒谱系数(intrinsic modal function cepstral coefficient,IMFCC)的最优结果进行比较。其中HFCC 与MFCC 相似,这两种倒谱方法在语音识别和说话人识别等语音处理任务中具有广泛应用;而IMFCC 可以同时提供说话人声道以及声带振动的信息并且有效捕捉语音的非线性特征。此外,近年来深度学习方法也是语音障碍分析的研究热点之一,因此本文选择卷积神经网络和VGG16 模型与本文所提出的SFLG 方法进行对比。

2.2 实验结果与分析

由于本文SFLG 提取方法提取的变换域特征维度较大,可能造成过拟合,在进行分类之前,本文采用降维的方法对提取的全局SFLG 进行进一步的转换。降维的方式有很多种,其中主成分分析算法(principal component analysis,PCA)是丢失原始数据信息最少的一种线性降维方式,因此为了尽可能地减少信息损失,使得降维之后能够最大化地保留原数据的内在信息,本文选择PCA 对提取的SFLG 进行降维。

降维之后对提取的SFLG 进行分类。在分类阶段,根据分类器在帕金森病语音障碍中的性能表现,支持向量机(support vector machine,SVM)的分类性能最佳且在帕金森病的语音诊断中广泛应用;此外与其他机器学习分类器相比,KNN(K-nearest neighbor)分类器思想简单、理论成熟且应用较为广泛。因此本文最终采用SVM 和KNN 两个分类器实现对本文提取局部统计特征的分类。

为了测试降维后不同维度的特征性能,本文对不同维度的降维后SFLG 进行分类。同时为了测试分类器的参数对分类准确率的影响,本文设置了不同的分类器参数。对选择的SVM 和KNN 两个分类器,本文设置Gaussian、RBF(radial basis function)、linear、ploynomial 四个核函数;在KNN 分类器中,本文使用欧式距离进行度量,将值分别设置为1、3、5、7、15、31、61。在本次实验中选择的最大特征维度为100维。将不同数据集、不同分类器参数、不同降维后特征维度相互组合进行多组实验。不同变量下的分类准确率结果如图7、图8 所示。

图8 KNN 不同K 值、不同特征维度分类准确率对比Fig.8 Comparison of accuracy of KNN with different K values and feature dimensions

根据图7 分析SVM 分类器在不同核函数与不同数据集的准确率变化趋势。在SVM 分类器中,随着特征维度的增加,整体上呈现先上升后趋于平稳的趋势。从SVM 不同的核函数角度观察,图7(a)中四个核函数的分类性能相当,图7(b)中Gaussian、RBF、polynomial 三个核函数性能相当,且略高于linear 核函数。图7 对应的最优参数如表2 所示。

表2 SVM 分类器SFLG 最优参数Table 2 SFLG optimal parameters of SVM classifier

图7 SVM 不同核函数、不同特征维度分类准确率对比Fig.7 Comparison of accuracy of SVM with different kernel functions and feature dimensions

KNN 分类器中的分类准确率如图8 所示。在KNN 分类中,分类准确率大体上呈现先上升后下降的趋势。分析图中不同值与分类准确率之间的关系,Mel变换域中,图8(a)中当特征维度较小时,值的变化对结果的影响较小;当维度较大时,随着的增加分类准确率下降;图8(b)中值对分类准确率的影响较小。根据上述分析选择参数,图8 对应的最优参数选择如表3 所示。

表3 KNN 分类器SFLG 最优参数Table 3 SFLG optimal parameters of KNN classifier

为了说明不同数据集、不同分类器对分类性能的影响,本文通过SPDD 和CPPDD 两个数据集、KNN和SVM 两个分类器两组变量相结合的方法进行多组对比实验。同组变量进行多组实验并记录平均值,实验结果如表4 所示。

表4 SPDD、CPPDD 数据集分类准确率Table 4 Accuracy for SPDD and CPPDD datasets 单位:%

根据表4 所述结果,在数据集、分类器相同条件下,对比训练集与测试集的准确率,二者准确率相当,说明了本文提取特征的有效性,也说明降维在一定程度上避免了过拟合风险。从不同数据集的角度分析,在提取的SFLG 中,SPDD 数据集中的分类准确率要高于CPPDD,这是由于汉语发音采用的是口腔前部发音体系,该体系对肌肉的控制力要求比较强,从而导致汉语发音帕金森病患者的SFLG 变化随机性更强,因此SPDD 数据集的分类准确率要高于CPPDD 数据集。

为了进一步评估模型的性能,说明不同语言对模型的差异性,本文通过将两个数据集间交叉验证的方法进行评估。本文的数据集间交叉验证分为两组:一组SPDD 为训练集,CPPDD 为测试集;另一组CPPDD 为训练集,SPDD 为测试集,并进行多组实验记录平均结果。数据集间交叉验证的分类准确率平均结果如表5 所示。

表5 数据集间交叉验证分类准确率结果Table 5 Cross validation classification accuracy between datasets 单位:%

表5 中SPDD 和CPPDD 两个数据集间做交叉验证,其测试集的准确率均远远小于训练集,该结果与文献[22]中用Sakar 数据集与西班牙语数据集进行数据集间交叉验证显示的训练集的准确率远远高于测试集的实验结果相似。该实验结果表明不同记录条件和不同语言条件下的数据集对于模型具有一定的敏感性而导致模型的分类性能不同。为了进一步验证模型的可靠性,本文通过同一数据集内交叉验证的方法对模型进行评估,分别采用5 折、10 折交叉验证法以及留一样本法对模型做进一步评估。多次实验后的平均结果如表6 所示。

表6 SPDD 和CPPDD 数据集内交叉验证的分类准确率Table 6 Classification accuracy of cross validation in SPDD and CPPDD datasets 单位:%

在同一数据集上进行交叉验证,分类准确率最小值为90.69%。5 折交叉验证分类结果和10 折交叉验证分类结果相比,10 折交叉验证指标略高于5 折交叉验证,但二者评价指标变化较小;对于留一样本验证方法,分类准确率与同组最优结果相比最大相差1.35 个百分点。数据集内部的交叉验证进一步验证了基于SFLG 的帕金森病语音障碍诊断的可行性。

综上所述,在SPDD 和CPPDD 两个数据集间的交叉验证实验结果显示,不同的语言对于相同的模型具有一定的敏感性,这一结果说明对于不同记录条件或不同语言条件下的数据集应考虑模型的差异性,采用不同的模型以便在不同环境下充分发挥模型的性能。而在SPDD 和CPPDD 数据集内部分别进行的交叉验证结果表明,本文提出的SFLG 方法可有效避免过学习现象,具有较高的可行性。

在与其他文献对比中,为了说明本文提取特征的有效性,首先将本文提出的SFLG 与传统倒谱特征MFCC、HFCC、IMFCC进行对比,分别选取其最优结果进行比较。以上三种特征均为在帕金森语音障碍分析的研究中常用的经典倒谱特征,与本文方法均是在变换域的基础上进行特征提取,以上三种倒谱特征将语音信号映射到不同的变换域后提取其倒谱系数,本文所提方法从结构角度出发提取语音信号在Mel变换域中的局部梯度统计特征,并且文献中利用相应特征实现帕金森病诊断所用的分类器与本文相同,因此更加具有对比性。同时为了说明本文方法的先进性,将本文提取的SFLG 与近年来新的研究思路深度学习特征进行对比,其中文献[10]采用卷积神经网络的方法实现帕金森病的诊断。该方法将语音的时间序列信号转换成频谱图,利用训练集中的频谱图及其标签对卷积神经网络进行训练并利用语音信号测试集对网络精度进行测试。文献[11]采用HR-DC-GAN(high resolution deep convolutional generative adversarial network)网络进行样本扩充与构建VGG16 提取声纹特征和分类的混合模型(表7中将该模型简写为VGG16 模型),获得有效的识别效果。对于以上方法同样选取最优结果进行比较。本文方法与选择的不同对比方法在训练集与测试集上的选定均一致,对比结果如表7 所示。

表7 本文方法与现有技术的对比结果Table 7 Comparison results between method in this paper and existing technology 单位:%

如表7 所示,从特征提取方面分析,在与传统特征的对比中,在SPDD 和CPPDD 数据集上,本文提取的SFLG 要高于传统的经典特征,该结果进一步说明了与传统特征相比,局部梯度统计特征区分帕金森病患者与健康人的性能更优。在与深度学习方法的对比中,本文提取的SFLG 高于HR-DCGAN-VGG16混合模型,低于卷积神经网络,由于深度学习模型往往需要大量的数据样本,目前帕金森病公开数据集中语音样本较少,且与传统算法相比,深度学习模型的可解释性较差,本文提取的局部特征有效避免了这一问题,提升了特征的可解释性。从数据集角度对比分析,本文方法在SPDD 数据集灵敏性上具有最优表现结果,而在CPPDD 数据集中三个指标分别具有最优结果,这表明本文提出的SFLG 方法对CPPDD 数据集具有较好的适用性。

本文提取的SFLG 将变换域能量的差值特征与方向特征相结合,综合考虑了语音时域、频域的突变情况,并通过梯度值进行反映,能更加全面地描述局部能量与周围能量之间的关系。因此相比原始的特征提取方法,本文提出的SFLG 提取方法对于帕金森病患者因其控制发音的能力弱于正常人而导致的各个域梯度值变化杂乱的情况具有更加优越的表现。

3 结束语

本文通过分析语音Mel 变换域局部能量分布特点,将Mel 变换域能量差值特征与方向特征相结合,引出SFLG 提取方法。并进一步地介绍了SFLG 提取流程,通过统计所有SFLG 描述全局SFLG 特征。接着对全局SFLG 进行降维与分类,通过多组实验选择合适的特征维度与分类器参数。然后对CPPDD 和SPDD 两个帕金森病语音数据集进行训练与测试。在模型评估阶段,分别从不同数据集、不同验证方法两个角度分析了该模型。最后将本文提出的SFLG与其他文献进行对比,并分析本文提出的SFLG,说明了Mel 谱局部梯度统计特征的有效性与先进性。通过对Mel谱详细的特征描述,为帕金森语音诊断提供了新思路。同时本文仍然存在不足之处,局部特征提取从每个能量点的角度出发进行计算统计,导致本文方法的复杂度较高,后期将考虑并行计算的方法提高效率。此外,使用混淆矩阵加强对识别率的分析也是下一步的方向。

猜你喜欢
分类器帕金森病梯度
磁共振梯度伪影及常见故障排除探讨
关注帕金森病患者的睡眠障碍
改善生活方式,延缓帕金森病进展
手抖一定是帕金森病吗
基于应变梯度的微尺度金属塑性行为研究
学贯中西(6):阐述ML分类器的工作流程
芝麻素酚或能预防帕金森病
基于朴素Bayes组合的简易集成分类器①
一个具梯度项的p-Laplace 方程弱解的存在性
一种自适应子融合集成多分类器方法