数据挖掘分类算法在信号分类中的应用

2017-02-06 23:49邢开颜李梅

软件 2016年6期

邢开颜+李梅

摘要：信号是消息的载体，现代社会的信号种类繁多，分类复杂，对信号分类结果的要求也越来越高，用传统的方法对信号进行分类已经不再适用。数据挖掘（Data rnining）是从大量数据中挖掘有趣模式和知识的过程，适合对大量的信号进行分类，为人们的工作提供便利。本文简述了数据挖掘分类算法在雷达信号、心电信号、音频信号和通信信号四种信号分类识别中的应用，介绍了信号分类的过程及其优缺点，找出信号分类识别的发展方向，为未来信号的分类识别研究莫定基础。

关键词：人工智能；信号分类；数据挖掘；神经网络；支持向量机

引言

信号是表示消息的物理量，是运载消息的工具，是消息的载体。信号在我们的生活中无处不在，类型多种多样，包含大量的信息，易受到各种噪声的干扰，现代社会对信号分类的性能要求很高，这些都给信号的分类识别带来了难度，用传统的方法对信号进行分类识别已不能满足人们的需求，寻找新的信号分类方法是很有必要的。

数据挖掘（Data mining）是从大量的、不完全的、模糊的、有噪声的以及具有随性的数据中，对隐含的、具有潜在作用和有意义知识进行提取的过程，可以帮助人们在“大数据”中获得需要的信息，数据挖掘有众多的分类算法，这些分类算法各有千秋，为信号的分类识别提供了新的思路，与哪些传统方法相比，分类算法的分类正确性更高，计算速度更快，更适合处理大量的数据，也更具有智能性，如心电信号、脑电信号的自动识别方便医生的诊断，雷达信号的智能识别提高了作战效率等，这些识别方法中都有分类算法的应用。

本文主要介绍了数据挖掘分类算法在雷达信号、心电信号、音频信号、通信信号的分类识别中的应用，比较了各种分类算法的性能，在此基础上分析了信号分类的发展方向。

1基本分类算法简介

数据挖掘的分类方法有很多，如神经网络、支持向量机、决策树、回归分析、贝叶斯等，但在信号的分类中主要使用的分类方法为神经网络与支持向量机，故主要对这两种算法做简单介绍。

1.1人工神经网络（ANN）

人工神经网络（ArtificialNeuralNetwork，ANN）是20世纪80年代以来人工智能领域兴起的研究热点，由大量节点相互联接而成，每个节点代表一种特定的输出函数激励函数（Ctivation Function），每两个节点间的连接表示对通过该连接信号的加权，这相当于人工神经网络的记忆，网络的输出则依据网络的连接方式、权重值和激励函数的不同而不同。

神经网络具有信息分布式存贮、大规模自适应并行处理、高度的容错性等特点，适合在缺乏属性与类之间联系的知识时使用。但ANN的训练时间长，可解释性差，需要的参数多，很多参数通常要靠经验确定，这些特点影响了其应用，在此基础上对ANN进行了改进，随后又提出了BP网络、径向基函数（Radial basis function，RBF）神经网络、概率神经网络（Probabilistic Neural Networks，PNN）、小波神经网络（Wavelet Neural Network，WNN）、模糊神经网络（Fuzzy Neural Network，FNN）等等。

近十几年来，ANN的研究工作不断深入，在模式识别、智能机器人、自动控制、预测估计、生物、医学、经济等领域已成功地解决了许多现代计算机难以解决的实际问题，表现出了良好的智能特性。

1.2支持向量机（SVM）

支持向量机（Support Vector Machine，SVM）是Corinna Cortes和Vapnik等人于1995年提出的，是在统计学理论的基础上发展出的一种新的模式识别方法，它以结构风险最小化原则为理论基础，通过适当地选择函数子集及该子集中的判别函数，使学习机器的实际风险达到最小，保证了通过有限训练样本得到的小误差分类器，对独立测试集的测试误差仍然较小。SVM具有较好的泛化能力和鲁棒性，算法复杂度与特征空间的维度无关，且局部最优解一定是全局最优解，这使得SVM在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。但SVM的核函数必须满足Mercer条件，随着训练样本的增多其训练时间也成倍数增加，支持向量的数目随训练样本集的大小线性增加。

核函数的定义并不困难，根据泛函的有关理论，只要一种函数K满足Mercer条件，它就对应某一变换空间的内积，表1中为SVM常用的核函数类型：

在选取SVM算法的核函数时，通常采用的方法有三种。一是利用专家的先验知识预先选定核函数。二是采用Cross-Validation方法，即在进行核函数选取时，分别试用不同的核函数，归纳误差最小的核函数就是最好的核函数。三是采用由Smits等人提出的混合核函数方法，将不同的核函数结合起来后会有更好的特性，这是混合核函数方法的基本思想，也是目前选取核函数的主流方法。

2应用

2.1雷达信号

雷达信号的分类识别是现代电子情报侦察系统的重要组成部分，也是衡量电子对抗设备先进程度的重要标志。随着现代武器系统的发展，战场电磁环境十分复杂，雷达体制多、波形复杂，获取雷达的完整参数比较困难，这也对雷达信号识别系统提出了很高的要求。其中，特征提取和分类器设计是雷达信号识别的关键，利用传统的特征参数进行雷达信号的识别已经不能满足现代雷达对抗的要求，因此，需要更精确有效的识别方法。

ANN可以处理一些环境信息十分复杂、背景知识不清楚、样本有较大缺损或畸变的模式识别问题，很适合对雷达信号进行分类，但是由于其训练时间长、实时性差，并不适合应用到瞬息万变的现代战场中，故对神经网络算法的改进是很有必要的。唐斌、胡光锐将免疫RBF网络为子网络来改进神经网络的性能，该方法提取RBF网络核函数宽度的先验知识作为疫苗构成免疫算子，缩小了算法搜索空间的范围，进而改善传统神经网络训练时间长，扩充、修改、维护难等缺陷，提高了算法的收敛速度和性能，用免疫RBF网络阵列对各种雷达的体制和用途识别都有较高的正确识别率，明显优于BP网络。但随着雷达信号的不断增加，传统的识别参数难以满足实际需要，可将关联特征和神经网络相结合，利用关联维数可以衡量信号的关联复杂度的特征这一特点，将关联曲线上不同的点作为雷达信号的特征向量，作为神经网络的输入进而进行识别分类，该方法在信噪比大于-5dB时就可以达到很高的识别率，适合于各种体制雷达信号的特征提取与识别。在现今这种雷达体制多变的环境下，这种特征提取方法有很广泛的应用价值。另外，传统的加权M距离法与ANN结合，可以克服该识别法中各参数平等对待的缺点和专家设置权值法中人为因素的影响，综合考虑了各参数的影响，较大地提高了识别的准确性和可靠性。

与神经网络相比，SVM适合处理高维数据，有很强的泛化能力，为雷达信号的分类识别提供了新的思路。胡奎、朱成文在MATLAB环境下模拟了不同核函数的支持向量机对雷达信号的分类效果，实验表明同时使用波达方向（DOA）、载频（RF）和脉冲宽度（PW）三个参数作为分类参数时效果最好，因为这三个参数包含了雷达数据的绝大部分信息，有利于得到较好的分类结果。余志斌提出了一种增量模糊学习支持向量机算法（IFSVM），根据不同的雷达信号训练样本距离类中心差异和样本间的亲疏程度，赋予每个分类样本不同的类隶属度，有较好的识别精度和鲁棒性，在训练数据量大时，IFSVM的时间代价比SVM的要小，但当特征参数在空间成较大范围的带状分布时，时间复杂度会增大，处理效果会降低。

2.2心电信号

心血管疾病是威胁人类生命的主要疾病之一，心电图（ECG）是诊断心血管疾病的重要依据，是临床诊断中不可缺少的常规检查技术，但不同的心脏疾病反映在ECG上的波形迥异，相同的病理也会呈现出不同的心电波形，所以通过计算机自动分析心电图的诊断精度仍然不能达到临床医生的诊断要求，其最终结论尚需要专家的具体分析和决策。因此设计并实现更加精确有效的心电信号自动分类算法仍然具有非常重要的研究意义。

基于小波变换理论，小波神经网络已经被广泛的应用于信号的表达和分类，将其应用到ECG信号的分类中可以获得不错的分类结果，其训练周期及对ECG信号的正确识别率都比BP网络表现的更好，且具有很强的泛化能力，对未学习过的ECG信号仍有很高的识别率，这是BP神经网络所无法比拟的。在此基础上，刘春玲、王旭将具有一层感知机的小波神经网络应用于ECG信号的分类，同时在Roberto KH和Takashi Yoneyama提出的小波节点的初始化的基础上进行了改进，通过对MIT-BIH心电失常数据库中的样本数据进行实验，与常规的小波网络相比分类性能得到了显著提高。

根据ECG信号的时频分布特征性和心率失常信号特点，可以提取心电信号的时域特征、小波域特征和高阶统计量特征，作为ECG信号自动分析系统的特征信息集，再通过SVM分类器对ECG信号进行分类测试，实验表明该方法分类结果精确度高、分类速度快，在很大程度上克服了传统机器学习中的维数灾难及局部最小等问题。其中维数灾难（Curse of Dimensionality）是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。为了解决这一问题，可以先利用非负矩阵分解（NMF）对数据进行降维，然后运用SVM进行ECG信号的分类。在由高维数据向低维数据转换的过程中，NMF能更好地保留原始数据的信息，提供更好的特征向量，进而提高分类的准确度。选取MIT-BIH数据库中的四类ECG信号进行训练和测试，最终的分类准确度均达到了98%以上，但是NMF计算的时间相对要长一些，仍需要改进算法，以达到更好的实时性。

为了减少SVM算法的收敛时间，李哲设计了一种基于稀疏表示的最小二乘支持向量机（LS-SVM）的ECG信号分类算法，其中，LS-SVM算法的关键就是用等式约束代替支持向量机的不等式约束，将支持向量机中的二次规划问题转化为求线性方程组的解，这样就达到了减少算法收敛时间的目的。选取MIT-BIH数据库上的五种ECG信号，先对特征向量进行稀疏表示，然后通过LS-SVM进行分，正确率可以达到98.93%，该方法既保证充分挖掘数据的特点又能提高泛化能力，适合进行推广。

2.3音频信号

近年来，音频信号处理已经变成了计算机应用的一个重要分支。音频信号分类有两个步骤：先将一个音频信号通过特征提取技术简化成一个参数集，再用不同的算法对参数集进行加工完成分类。能否正确提取信号特征并将这些特征信号放到相应的类别中决定了分类算法的效果。

小波神经网络在音频信号分类识别中也有应用，但分类时音频信号的模板和样本信号周期不同会使得网络参数差异较大，为此何强等人提出了自适应周期小波神经网络（APWNN），该方法能够在网络参数的计算中自动去除信号周期因素的影响。同等条件下对特定人的元音进行分类识别，APWNN网络和小波神经网络的正确识别率分别为87.50%和13.54%，可见，APWNN能够有效克服被识别信号的周期变化对分类的影响，有利于信号分类。但APWNN算法采用连续时频域特征提取，小波基函数的尺度和平移系数都是连续可变的，计算APWNN参数时耗时的迭代运算，需要想办法提高运算速度。

在小波变换的基础上，结合SVM和模糊积分进行信号的特征提取，可有效地对音频信号进行分类，用该方法对各种声音集进行分类，准确率较高，算法速度快，较好地体现了模糊学的精髓，弥补了一般算法只判别一次的不足，有较好的应用前景。而李剑等人提出基于选择性集成SVM的语音、话带数据信号分类方法，根据集成算法的差异性定义，采用两层级联结构的动态叠加算法完成决策输出，在训练阶段能准确地选择具有较高识别精度和差异性的成员分类器，在测试阶段对各成员分类器进行动态集成，提高运算速度和抗噪声性能，保证最终的分类结果最优，适合推广。

2.4通信信号

通信信号的分类，又称信号的调制识别，基本任务是在多信号有噪声等复杂环境下确定信号的调制方式和载波频率、码元速率等信号参数，为信号的进一步分析和处理提供依据。随着现代通信的发展，通信系统呈现出多样化的趋势，通信信号调制类型自动识别日益受到重视，在信号确认、干扰辨识、无线电侦听、电子对抗、信号检测和威胁分析等领域应用广泛。信号调制类型自动识别是后续工作的前提和基础，但通信信号在传播过程中会受到信道噪声的污染，增加了信号识别的难度。

2.4.1基于ANN的通信信号分类

由于ANN能快速解决复杂分类问题，具有容错能力，对噪声和不完整数据输入不敏感等优点，使得ANN在通信信号自动分类识别问题上能够取得令人满意的结果。但也存在一些问题，如BP网络收敛速度慢且易陷入局部最小，可用共轭梯度法对BP网络进行改进，通过选择权向量的更新方向为误差函数的共轭梯度方向，可以显著提高收敛速度和正确识别率，改善BP网络的局部极小问题，在信号的信噪比不小于2dB时，都能对信号进行正确识别。

邹月娴等人将级联神经网络分类识别器应用于通信信号的分选和识别，选择二值自适应共振（ARTl）神经网络完成对输入信号的分类，确定输入信号类型是否已被网络存储，当发现新出现的信号时进行标记，再用BP网络识别该信号类型，这样可以充分利用信号的所有特征，该方法在信号噪声比为3dB的情况下提取的复合特征能被ARTl网络和BP网络以一定的概率正确存储和识别，且该方法对信号噪声比的要求与传统方法相比降低了近10dB，在低信噪比条件下，其正确识别率远优于传统信号分类识别器的识别结果。随后，苗建苏、傅丰林用RBF神经网络对通信信号进行分类，其中RBF可以将信号的矢量特征降维，有利于信号的分类识别。模拟实验表明，该方法分类精度高、训练速度快、占用存储空间少、容错性强，由于是分布式存储，该网络易于硬件实现。在用RBF网络进行通信信号分类之前，可以对信号数据进行处理，可用离散傅里叶变换（DFT）和小波变换方法提取信号的频谱、瞬时幅度、瞬时频率和瞬时相位，构成信号的特征向量，将特征向量通过RBF神经网络获得最终的分类结果，该方法在信噪比为6dB时对信号的识别依然可以保持较高的识别率，具有一定的抗干扰能力，基本上可以满足应用的要求。将小波变换与RBF网络相结合进行通信信号的分类可以获得不错的效果，在MATLAB上进行仿真实验，结果表明分类识别率随着信噪比的增加而增加，在SNR-5dB时信号的平均识别率为98.58%，在SNR-0dB时信号的平均识别率为99.83%，可见该方法的分类性能很高，并且对噪声不敏感，有很好的抗噪声能力。

2.4.2基于SVM的通信信号分类

在信号的实际传输中，得到的训练样本数是十分有限的，这时很多方法都难以取得理想的分类效果，即使在有限训练样本情况下，采用复杂的学习机使学习误差更小，但推广性却往往变差。韩钢等人提出一种基于高阶累积量和SVM的数字信号自动调制识别方法，即将接收信号的四阶、六阶累积量作为分类特征向量，利用SVM将分类特征向量映射到一个高维空间，并在高维空间中构造最优分类超平面以实现信号分类。这种方法对高斯噪声和星座图由于信号初始相位而引人的旋转具有良好的稳健性，并避免了神经网络中的过学习和局部极小等缺陷，有良好的分类性能和稳健性，但对于SVM的二次规划，需要的时间比较长，特别是在训练样本数较大的情况下。冯祥等人通过提取观测样本累积量的识别特征矢量来区分不同的信号类型，再将特征向量映射到高维空间中用SVM加以分类。仿真实验表明，该方法在较大的信噪比范围内对全球移动通信系统（GSM）、码分多址（CDMA）、正交频分复用技术（OFDM）三种信号均有较高的识别率，当信噪比大于5dB时，对三种信号的正确识别率接近0.99，因而该分类算法有较好的推广能力，克服了对模型过分依赖的问题，不同参数的径向基核函数或多项式核函数对算法的性能没有明显的影响。王玉婧将高阶累积量、小波变换与SVM相结合，用来对调制信号进行分类。仿真实验证明，这种方法是可行的，既解决了小波特征对调相信号之间识别性能偏低的问题，又实现了对OFDM信号和其他多种单载波通信信号的分类，并且由于SVM对小样本信号具有良好的性能，所有该方法在数据长度有限的情况下仍能达到良好的识别性能。

由于不同的核函数对SVM的分类性能影响很大，可采用并行组合的SVM分类器进行通信信号的识别，通过对比不同核函数下SVM的分类结果，选择识别率高的作为最后的判决类型。对实际采集的六种调制信号，分别通过线性核函数的SVM分类器、高斯核函数的SVM分类器和并行组合的SVM分类器，最终结果表明，并行组合的SVM分类器对信号具有很好的分类性能，优于单个SVM分类器。

遗传算法（GA）是模拟生物进化过程中的自然选择和遗传变异的一种随机优化方法，具有很强的全局搜索能力，并且这种搜索能力不依赖于特定的求解模型。利用GA算法的全局寻优能力优化SVM中的核函数的两个参数，再用优化后的SVM进行分类。通过对数字通信信号的分类仿真，表明了其良好的优越性，提高了训练速度，说明在通信领域遗传优化SVM具有很好的应用前景。

3总结与展望

数据挖掘的分类算法为信号的分类识别带来新的活力，不论是直接应用分类算法，还是将分类算法与传统的方法相结合，都具有各自的特点和潜力。但是分类算法在信号的分类识别中的应用还不成熟，未挖掘出其真正的潜力，还有很多问题亟待解决，主要体现在：

1）很多信号中混有干扰和噪声，这些会影响分类的最终结果，在分类前需要进行数据的预处理，可以采用小波变换、傅里叶变换等时频分析方法滤除噪声和干扰，提取出有用信号特征再进行分类，可以提高分类的准确性。

2）数据挖掘的分类算法有很多，如决策树、回归分析、贝叶斯、神经网络、支持向量机等等，目前在信号分类中应用最广的是神经网络和支持向量机，可以尝试用其他的分类模型进行信号的分类，扩大分类算法在信号识别中的应用范围。

3）可将数据挖掘的分类算法与其他方法相结合进行算法的优化，提高算法的分类性能、学习能力和收敛速度等，例如与遗传算法、模糊控制、粗糙集理论等相融合，必将成为今后信号分类识别的研究热点。

对上述问题的深入研究必将促进数据挖掘分类算法在信号分类识别领域中的应用和发展，在信号的智能识别领域中展现出更加光明的前景。