用于安全监控系统的音频事件检测研究

2017-05-30 10:48夏亦佳
河南科技 2017年11期
关键词:支持向量机

夏亦佳

摘 要:针对视频监控过于依赖图像信息,在黑暗条件下或视线盲区无法进行及时、有效监控的问题,本文提出一种可以用于辅助安全监控的音频事件检测系统,以枪击声和尖叫声为关键事件,把过零率、短时能量、子带能量比和Mel倒谱系数作为音频特征,基于SVM分类器设计实现了一种多级分类系统。结果表明,该系统可以有效地检测出两种关键事件,最优识别率达90%。

關键词:音频事件检测;安全监控视频;支持向量机;MFCC

中图分类号:TN912 文献标识码:A 文章编号:1003-5168(2017)06-0015-04

Audio Events Detection for Surveillance System

Xia Yijia

(China Airborne Missile Academy,Luoyang Henan 471009)

Abstract: Public surveillance system relies on image information to a large extent, therefore, places in dark environments or blind areas of surveillance cameras would not get effective real-time surveillance. To solve this problem, this paper proposed an audio events detection system to assist video-based public safety surveillance. The system took the shooting and screaming as the key events, and defined Zero Crossing Rate (ZCR), Short Time Energy (STE), Sub Band Energy Ratio (SBER) and MFCC as audio features. Then a hierarchical SVM-based classification system is implemented to classify different types of audio events. According to experiment results,the proposed audio events detection system can effectively classify gunshots and screaming sound from environmental noise with an optimal classification accuracy of 90%.

Keywords: audio events detection;surveillance system;support vector machine;MFCC

随着多媒体技术的飞速发展,越来越多公共场所安装了视频监控以保障公共安全。然而,在黑暗环境下或者在视频监控盲区,这些依赖于图像信息的摄像头就难以进行及时、有效的监控。此时,通过音频传感器的监控则会更加有效[1]。声音信息中也包含了不亚于图像信息的信息量,通过监控识别公共场合声音信息,可以迅速发现所关注的事件,从而快速做出应对。声音信息具有良好的实时性,对视频监控具有良好的辅助作用。

本文提出了一种基于支持向量机(Support Vector Machine,SVM)的音频事件检测系统,选取枪击声和尖叫声为关键音频事件,提取训练样本的过零率、短时能量、子带能量比、MFCC组成特征向量对SVM进行训练,建立一个音频事件分类模型,对测试样本中的关键事件进行检测。

1 音频事件检测系统

音频事件检测系统如图1所示。音频事件检测主要分为声音信息的特征值提取、参数学习和关键事件检测三部分。

音频信号的预处理分为语音激活检测、预加重与分帧三步。语音激活检测可以剔除音频信号中的静音部分,留下音频中的有效段[2],保证下一步特征值提取的准确性。预加重通过一阶数字滤波器来增强信号的高频部分,使信号频谱更加平滑。预加重后的音频信号被分成20ms一帧,每两帧之间重叠为10ms的音频帧序列,进行特征值提取分别组成训练样本集和测试样本集。SVM通过对训练样本集的分类特征进行学习建立一个音频事件分类模型,最后基于该模型的SVM分类器对测试样本进行识别,输出音频事件类型。

2 特征值的定义与提取方法

2.1 过零率

当音频信号的符号发生变化时为信号过零一次。过零率表示音频信号在一定时间间隔内,信号幅值过零的次数,其可以用来粗略描述声音信号的频谱特性。计算公式见式(1)[3]:

[ZCR=12n=1Nsgnxrn-sgnxrn-1 (1)]

式(1)中,N是信号采样点数,[sgnxrn]为符号函数,定义见式(2):

[sgnx=fx=-1,x<01,x≥0 (2)]

当声音信号幅值为正时,[sgnx]为1;反之,[sgnx=-1]。依次计算相邻采样点的符号函数差值,即可计算出该声音样本的过零率。过零率可以将枪击声及尖叫声从监控视频的环境噪声中区别出来[4]。

2.2 短时能量均值和方差

音频信号是时变信号,且不同音频事件之间的能量有显著差别,所以短时能量[5]可以反映不同音频事件之间的特征。定义见式(3):

[STE=0ω0Fω2dω (3)]

式(3)中,[Fω]是该信号的FFT变换,[ω0]等于采样频率的一半。短时能量可以较好地区分音频中的静音部分,并且可以反映音频的节奏、周期等属性[6]。由于来自不同音频样本的信号幅值的变化,即使是同样的音频事件,也会给短时能量带来显著影响,因此采用短时能量的均值和方差作为特征值。

2.3 子带能量比

子带能量比是指通过计算不同子带的能量占整个声音频带能量的比例,可以反映音频信号的谱能量在整个频谱内的分布情况[7]。本文将音频信号的频谱分为8个子带,每个子带的能量比定义见式(4):

[SBERk=SBEkSTE,k=1,2,……,8 (4)]

2.4 Mel倒谱系数

MFCC是音频分类研究中常见的特征,将人耳的听力系统模拟为一个非线性系统,较好地反映了人耳对不同频率信号的听觉特性,具有良好的鲁棒性[8]。MFCC的计算步骤如图2所示[9]。

声音信号S(n)经过预加重、加窗之后进行快速傅里叶变换(FFT),得到声音信号频域下的能量谱。用一组Mel频率下的三角滤波器对其进行处理,将线性频率搬至Mel域中,Mel域频率与线性频率的关系如公式(5)所示:

[melf=1 125×ln1+f700 (5)]

式(5)中,[f]是线性频率。接着对滤波器组输出的mel对数能量进行离散余弦变换(DCT)可以得到一组MFCC系数,计算公式见式(6):

[xi=2Pj=1PlogSj*cosiπPj-0.5 (6)]

公式(6)中,[Sj(j=1,2,……,P)]即为滤波器组的输出的音频信号能量谱,[P]表示滤波器的个数,在本文描述的音频事件检测系统中,使用12阶MFCC系数。

3 机器学习

目前,常用的分类器有高斯混合模型(Gaussian Mixture Model,GMM)、隐马尔科夫模型(Hidden Markov Model,HMM)和SVM等。其中,GMM和HMM都属于贪婪算法,需要大量的样本进行训练来准确描述不同音频的特征以达到较好的识别效果[10-11]。而SVM是通过非线性映射,将样本特征向量映射到高维特征空间,寻找一个最优超平面使不同类别数据样本之间的距离最大,将在低维样本空间中无法线性处理的分类问题在高维空间实现线性划分,从而降低对训练样本数量的需求。如图3所示,H1和H2分别为穿过两类样本点中距离最近的样本的直线,他们之间的距离[2ω]即为两类样本之间的距离[12],最优的超平面就是使这个距离最大。其中,ω为最优超平面的法向量。

寻找最优超平面问题可归结为求公式(7)最优解问题:[min12ω2]

[ yiω?x+b≥1],[i=1,……,n (7)]

带入拉格朗日函数后,SVM的决策函数可推导为式(8):

[fx=(i=1nαixiyi)x+b (8)]

对于非线性映射,输入样本向量可以用核函数[Kxi,xj]来表示,带入公式(8)得到决策函数为:

[yx=sgn[j=1nαjyjKx,xj+b]]

[=sgnfx (9)]

SVM则根据[fx]的符号来识别该样本属于的类别[13]。

4 结果及分析

4.1 实验数据

本文以枪击声和尖叫声为关键事件,样本数据分为三类:枪击声、尖叫声和环境噪声。由于枪击声和尖叫声在实际安全监控视频中极少出现,因此采用来自互联网的音频样本。而环境噪声是监控视频中普遍存在的脚步声、开门声等背景音,使用的是来自卡内基梅隆大学机器人研究实验室的公开数据库和CCV两个视频数据库中安全监控视频所提取出的音频序列。各类样本数量如表1所示。

其中,90%的音频用于分类器的训练,其余10%的音频作为测试样本。

4.2 评价标准

对系统的检测性能评价采用准确率(Precision)、召回率(Recall)和加权调和平均值F1。计算公式见式(10)(11)(12)。

[准确率=检测正确的音频事件数系统检测出的音频事件总数 (10)]

[召回率=检测正确的音频事件数样本中音频事件总数 (11)]

[F1=2×准确率×召回率准确率+召回率 (12)]

4.3 实验结果

本文首先对比了两种结构的分类器的分类能力:一级三分类SVM分类器和多级二分类SVM分类器。多级二分类SVM分类器结构如图4所示。

图4 多级二分类SVM分类器

经过预处理的音频样本特征值组成的特征向量依次经过枪击和非枪击、尖叫和非尖叫分类器识别,输出各音频样本的分类结果。两种结构的分类器识别结果如表2和表3所示。

由两种结构的分类器识别结果可知,在进行多类识别时,采用多级二分类SVM分类器的检测效果要好于三分类分类器。可见,SVM更适用于二分类的问題。此外,试验中采用尖叫声的部分样本为群体的尖叫声且信噪比较低,与环境噪声易发生混淆,也是导致识别准确率较低的一个原因。

基于多级二分类结构,也对比了采用单一特征值进行分类识别的准确率,结果如表4、5所示。在本文选择的四个特征值中,MFCC的识别率相对较高,可以较准确地描述音频事件的特征。

与表3结果对比可知,由于这四个特征值都只能代表音频信号的某一方面特征,因此,单独作为特征向量时,系统识别率较差。但当这些时域、频域特征结合起来用于同样的系统时,可以得到较为理想的结果。

5 结论

为了在光线黑暗条件下通过监控视频及时发现异常事件,本文利用各类事件音频特征的差异,建立了一个基于SVM的音频事件检测系统。通过提取有效的音频特征,对SVM进行训练建立分类模型,用于测试样本中关键事件的分类识别。采用单一特征值识别系统的实验结果表明,相比于过零率、短时能量和子带能量比,MFCC是更为有效的音频特征。同时,从两种不同结构分类器的识别率对比来看,多级二分类的SVM分类器具有较好的分类能力,对枪击声和尖叫声的F1值分别达到了90%和85.71%。因此,基于SVM的音频事件检测系统可以达到有效的识别效果,能较准确地发现监控视频中的枪击声和尖叫声。

參考文献:

[1]冷严.复杂音频的事件检测与分类中的关键问题研究[D].北京:北京邮电大学,2012.

[2]徐治.三门限多级判决语音激活检测算法的研究[J].电子技术,2015(5):33-35.

[3]王炳锡.实用语音识别基础[M].北京:国防工业出版社,2005.

[4]Atrey P K, Maddage M C, Kankanhalli M S. Audio Based Event Detection for Multimedia Surveillance[J].IEEE International Conference on Acoustics,2006(5):813-816.

[5]Lu L,Ge F,Zhao Q,et al. A SVM-Based Audio Event Detection System[A]//Electrical and Control Engineering(ICECE), 2010 International Conference on,2010:292-295.

[6]李晨,周明全.音频检索技术研究[J].计算机技术与发展,2008(8):215-218.

[7]冯哲.基于内容的视频检索中的音频处理[D].上海:复旦大学,2004.

[8]孔令城.基于非负矩阵分解的音频事件检测研究[D].广州:华南理工大学,2014.

[9]Dhanalakshmi P,Palanivel S,Ramalingam V. Classification of audio signals using SVM and RBFNN[J].Expert Systems with Applications,2009,(3):6069-6075.

[10]Rouas JL,Louradour J,Ambellouis S. Audio Events detection in public transport vehicle[A]//IEEE Intelligent transportation systems conference,2006:733-738.

[11]Cotton CV,Ellis DPW. Spectral vs. spectro-temporal features for acoustic event detection[J].Applications of Signal Processing to Audio & Acoustics,2011(1):69-72.

[12]Gunn S. Support vector machines for classification and regression. Technical Report[J].Analyst,1998(2):230.

[13]YG Jiang,G Ye,SF Chang,et al. Consumer Video Understanding: A Benchmark Database and An Evaluation of Human and Machine Performance[A]//ACM International Conference on Multimedia Retrieval,2011:29.

猜你喜欢
支持向量机
基于支持向量回归机的电能质量评估
基于智能优化算法选择特征的网络入侵检测
数据挖掘技术在电厂经济性分析系统中的应用Q
基于改进支持向量机的船舶纵摇预报模型
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
管理类研究生支持向量机预测决策实验教学研究