EMD近似熵与支持向量机在音频分类处理中的应用

2015-03-03 11:47黄绍平何冬康肖立光
关键词:家养分类器音频

陈 峰,黄绍平,何冬康,肖立光

(1.湖南工程学院 电气信息学院,湘潭 411101;2.昆明理工大学 信息工程与自动化学院,昆明 650500)

参 考 文 献



EMD近似熵与支持向量机在音频分类处理中的应用

陈 峰1,黄绍平1,何冬康2,肖立光1

(1.湖南工程学院 电气信息学院,湘潭 411101;2.昆明理工大学 信息工程与自动化学院,昆明 650500)

将动物声音作为音频源,针对家养动物声音的非线性、非平稳特征和在现实条件下难以获取大量动物声音样本的实际情况, 提出一种经验模态分解(EMD )近似熵(ApEn)结合支持向量机(SVM)的家养动物声音分类识别方法.通过EMD方法将非平稳的动物声音信号分解成若干个平稳的固有模态函数(IMF); 对IMF进行筛选,计算所筛选IMF 的近似熵构成特征向量;将特征向量输入SVM 分类器进行分类识别.对家养动物声音样本按该方法进行测试,结果表明,该方法能有效提取声音特征,在小样本情况下也具有较高的精度和较强的泛化能力,该方法能有效地应用于动物声音的识别分类.

经验模态分解;近似熵;支持向量机;音频分类

0 概 述

声音信号是一种非常重要的音频信号,它本身包含了各种各样的信息.通过对声音的分类处理可以获得这些信息.研究人员提出了各种音频信号分类处理和识别方法:基于神经网络的音频分类技术[1];基于支持向量机(SVM)的音频分类技术;基于高斯混合模型(GMM)的音频分类和识别技术;基于隐马尔可夫模型(HMM)的语音识别技术[2].

本文将家养动物声音作为音频源,提出了一种家养动物声音分类识别方法.首先利用EMD将原始信号分解成有限个IMF分量,将非平稳的声发射信号转变为平稳信号,然后对IMF分量建立近似熵模型,并将模型参数组成特征向量,最后利用SVM对家养动物声音信号进行分类.

1 基本原理与方法

1.1 EMD方法原理

EMD方法分解步骤如下:

(1)求出上下包络线的均值m1(t),上下包络线上含有信号x(t)所有的局部极值点,它是通过三次样条线将局部极小值、局部极大值连接起来形成.

(2)用原始数据序列x(t)减去m1(t),得到一个去掉低频的新数据序列:

h1(t)=x(t)-m1(t)

(1)

根据IMF必须满足的2个条件,判断h1(t)是否为IMF,若h1(t)不是IMF,则将h1(t)作为新的x(t),重复执行步骤(1)和(2),直到h1(t)满足IMF条件,记c1(t)=h1(t),c1(t)为原始信号中频率最高的IMF分量.

(3)计算x(t)与c1(t)的残差 :

r(t)=x(t)-c1(t)

(2)

将r(t)作为新的x(t),重复步骤(1)和(2)计算过程,依次得到c2(t),c3(t),…直到cn(t)或r(t)满足给定的终止条件时,筛选结束.经过EMD分解之后的原始信号x(t)被分解为 个基本模式分量和一个残差的和:

(3)

为了准确有效地把握原始信号的特征信息,需要对IMF分量ci(t)和残余项r(t)进行合理的分析.残余分量能够反映原始信号的中心趋势,而按照频率由高到低分解出来的IMF分量c1(t)、c2(t),…,cn(t)能够突显出原始信号的局部特征.这两个分量都是经过EMD运算而来.

1.2 近似熵算法

近似熵算法步骤如下:

步骤1:设原始信号为N点的时间序列u=

[u(1),u(2),…,u(N)],N为数据长度,按顺序构造m维矢量X(i)=[u(1),u(i+1),…,u(i+m-1] 和X(j)=[u(1),u(j+1),…,(j+m-1)],其中i,j≤N-m+1.

步骤2 :计算矢量X(i)和X(j)之间的距离:

d[x(i),x(j)]=

max[|u(i+k-1)-u(j+k-1)|]

k=1,2,…,m

(4)

步骤3:给定阀值r,对于每一个i≤N-m+1统计d[x(i),x(j)]≤r的数目,计算近似矢量个数与矢量的比值.

其中j≤N-m+1.

(5)

(6)

步骤5:对m+1,重复步骤(1) (4),得到φm+1(r).

步骤6:该序列的近似熵值为:ApEn(m,r,N)=φm(r)-φm+1(r)

(7)

显然,近似熵值与维数m,阀值r和数据值N有关,Pincus等指出,当m=2,r-0.1~0.2SD(SD为原始数据u(i)标准差) ,近似熵对N依赖最低,具有最合理统计特性.

1.3 支持向量机分类算法

SVM是处理有限学习样本的有效工具.设线性可分样本集为(xi,yj)(i=1,2,…,n;x∈Rd,y∈{-1,1} 是类别标号),d维空间中线性判别函数的一般形式为:g(x)=w·x+b,分类面方程为:

w·x+b=0

(8)

将判别函数归一化,然后等比例调节系数w和b,使两类所有样本都能满足|g(x)|≥1,这时分类器间隔为2/‖w‖.这样将求间隔最大变为求‖w‖最小.

满足‖g(w)‖的样本点,离分类线(平面)距离最小.它们决定了最优分类线(平面),称之为支持向量,最优分类面的问题即转化为优化问题:

s.t.yi[(w·xi+b)]-1≥0,(i=1,2,…,n)

(9)

(10)

为叙述和求解的方便,将上式改写成矩阵形式:

s.tαi≥0,(i=1,2,…,n)

(11)

yTα=0

其中,

α=(α1α2,…,αn)T,b=(1,1,…,1)T,

y=(y1,y2,…,yn)

Aij=yiyj(xi·xj)

由此可得到最优分类函数为:

(12)

因为对于非支持向量满足αi=0,所以最优函数只需对支持向量进行,而b*可根据任何一个支持向量的约束条件求出.支持向量机的体系结构如图1所示.

图1 支持向量机的体系结构

2 实验数据

实验用到的家养动物声音主要来自文献[3-4],将每个声音文件转换为采样率为11025 Hz,声道数为l的WAV格式,然后再把它们分割成间隔为3 s的声音片段,最后得到的声音数据库如表1所示.

表1 家养动物声音数据库

3 家养动物声音信号分析

3.1 动物声音信号的预处理

以田园犬和芦花鸡声音信号为例,采用时间局部性好, 能量集中度高的db6 小波对其预处理, 消噪前后的太湖鹅、田园犬和芦花鸡声音信号分别如图2、图3和图4所示.

图2 原始太湖鹅声音信号和消澡后的太湖鹅声音信号

图3 原始田园犬声音信号和消澡后的声音信号

图4 芦花鸡声音信号和消澡后的声音信号

3.2 声音信号的特征提取

对经小波消噪的动物声音信号采用EMD方法分解得到n重IMF分量Ci(r)(i= 1,2,…,n),每个IMF分量都包含了不同的特征尺度信息,如小波消噪后的太湖鹅、田园犬和芦花鸡声音信号经EMD分解后分别得到7个IMF分量和一个残余分量,如图5、图6和图7所示.

图5 太湖鹅声音信号EMD分解

图6 田园犬声音信号EMD分解

图7 芦花鸡声音信号EMD分解

分别对上述9类家养动物进行EMD分解,并计算前5个IMF分量的近似熵,表2为其中每类家养动物的其中3种动物IMF分量的近似熵,让其作为SVM的输入特征向量记为X=X(x1,x2,x3,x4,x5).

表2 家养动物声音信号近似熵

表2中,马类和牛类的声音信号近似熵极为相似,但各IMF分量的近似熵情况却并不一样,我们可以清楚地看到IMF4 ,IMF5特征分量与第一个分量相差较明显,即此分辨率对信号本质特性的反映非常明显,说明此分量上的平稳性非常显著.

3.3 支持向量机识别网络

本文选用二叉树SVM为分类器,因为它的优势是重复训练样本少[5].IMF1-IMF5 的近似熵值为二叉树SVM训练网络的输入向量,向量X=(X1,X2,X3…,X9)9种相对应的输出类型y为1,2,3,…,9,建立8个分类器按最优分类函数进行分类.要选好径向基核函数(Radial basic function, RBF),因为核函数的好坏直接影响分类器的性能.径向基核函数决定模型的复杂性和训练误差主要是两个参数,Gamma和惩罚因子C.验证Gamma和惩罚因子C这两个参数的性能非常重要,本文采用舍一交叉验证法(n-fold cross validation),目的就是为了得到最优的分类器.具体的做法是,针对每一个参数对(Gamma,C),交叉验证差不多进行20次,而该参数对的指标就取这20次测试结果的平均值.最终的最优参数对训练分类器就采用指标最高的一组参数对,然后再测试未知样本.按照上述方法进行试验,发现分类准确率达到最高时的参数对(Gamma ,C)为(2,2).

4 实验结果

为验证方法的有效性,对包含9种家养动物声音信号的2760个样本.将他们建立模型,进行训练.具体做法是对每组数据进行EMD分解,并求取前5个分量的近似熵,作为SVM训练网络的输入向量,建立起我们需要的模型.测试二叉树SVM分类器就是训练过程中采用测试集样本数比例和训练集样本数不同的两种方案,为了提升结果的准确性,需对实验重复20遍后取均值.实验软件平台为Microsoft windows XP下的Matlab7.1版本,算法运行时间是通过Matlab程序提供的'tic.toc'获得.取每类样本特征向量中的40组作为训练样本,余下20组作为测试样本,即1840组特征向量用于训练并构建分类器,另外920组用于测试分类器准确性;训练分类器时,选用径向基核函数,gamma参数为0.015,惩罚因子C为2.SVM,训练样本如图8所示[6].

图8 SVM训练样本

5 结 论

提出将基于EMD 近似熵理论与SVM分类模型相结合的家养动物声音分类识别问题, 经实验研究得出以下结论:

(1)SVM网络建模具有建模简单,模型更加精确等优点.

(2) EMD 算法能自适应地将非平稳信号逐级分解,且各IMF分量体现原数据的局部特征,实现家养动物类型特征的分离,从而能有效地反映声音信号的本质信息.

(3) 近似熵具有很强的表征信号不规则性和复杂性的能力,通过比较EMD分解各IMF分量的近似熵,可以得到不同动物类型信号在不同尺度下变化的不规则性,从而有效地提取动物类别特征,为声音识别分类提供依据.

参 考 文 献

[1] Freeman G,Dony R D,Areibi S M.Audio Environment Classication for Hearing Aids Using Artificial Neural Networks with Windowed Input[C]//Computational Intelligence in Image and Signal Processing,2007:183-188.

[2] Nakamura S,Kumatani K,Tamura S.Multi-modal Temporal Asynchronicity Modeling by Product HMMs for Robust Audio-visual Speech Recognition[C]//Proceedings of the 4th IEEE International Conference on Multimodal Interfaces,2002:305-309.

[3] Sound net of Princeton University[EB/OL].http://soundnet.cs.Princeton.edu/OMLA/.

[4] The Freesound Project[EB/OL].http://www.freesound.org/index.php.

[5] 朱学冬,胡 平. 基于最优二叉树的多故障分类器的设计[J].北京联合大学学报(自然科学版),2009,23(2):26-29.

[6] 宋知用.MATLAB在语音信号分析与合成中的应用[M].北京:北京航空航天大学出版社,2013:53-59.

Application of EMD Approximate Entropy and Support Vector Machine Method in Processing Audio Classification

CHEN Feng1,HUANG Shao-ping1, HE Dong-kang2, XIAO Li-guang1

(1.College of Elect.&Information Engineering,Hunan Institute of Engineering,Xiangtan 411101, China;2.Faculty of Information Engineering and Automation,Kunming University of Science and Technology, Kunming 650500, China)

In this paper, animal sounds are used as the audio source. According to the non-stationary and non-linear characteristics of domesticated animal voice and the situation in which it`s hard to obtain enough sound samples,a domesticated animal voice diagnosis method based on Empirical Mode Decomposition(EMD), Approximate Entropy(ApEn),and Support Vector Machine(SVM) is proposed. Firstly, the domesticated animal signals are decomposed into a finite number of intrinsic mode function(IMF).Then, the ApEns of five IMFs filtered are used to form eigenvectors. Finally, the eigenvectors are put into a support vector machine categorizer . The results of animal data experimental recognition show that this method has high accuracy and good generalization abilities even in the case of small number of samples.The approach proposed can identify the domesticated animal voice effectively.

Empirical Mode Decomposition(EMD); Approximate Entropy(ApEn); Support Vector Machine(SVM); audio classification

2015-03-31

陈 峰(1990-),男,硕士研究生,研究方向:电力电子与电力传动.

TP273+.5

A

1671-119X(2015)03-0001-05

猜你喜欢
家养分类器音频
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
看!这些家养植物,赏心悦目但要小心
基于实例的强分类器快速集成方法
音频分析仪中低失真音频信号的发生方法
会叫的泥鳅
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
Pro Tools音频剪辑及修正
鸡吃石子的秘密