基于SVM的φ-OTDR事件分类识别算法的研究

2021-01-19 14:27李亚擎
学校教育研究 2021年22期
关键词:分类器模式识别

李亚擎

摘要:

本文提出一种基于支持向量机(Support Vector Machine,SVM)算法的扰动判别和扰动模式识别的方法,算法首先通过稳定性竞争自适应重加权采样(SCARS)提取信号时域和频域特征,其次基于时域和频域特征建立了SVM算法分类器,最后通过分类器进行扰动模式识别研究。

关键词:SVM;φ-OTDR;分类器;模式识别;SCARS

一、SCARS的特征选择原理

稳定性竞争自适应重加权采样[15](SCARS)算法的度量标准是算法的稳定性,当算法越稳定时,变量被选择的概率越大。全部计算过程里包含N个循环数据,首先,需要计算出所有特征的稳定性,然后通过强制变量的筛选和自适应重加权采样法[16](adapting reweighted sampling, ARS)计算出稳定性较大的变量,把这些变量放入一个集合中。循环结束后,可以得到N个稳定性较大的变量集合,其次,对每个集合进行PLS建模,最后,根据模型中RMSECV值最小原则选择出最合适的集合。变量稳定性的评价规则如下:

矩阵 为所测样本的特征矩阵,n为样本数,p为变量数,表示目标性质变量,建立PLS回归模型时,X与y的关系可以表示为

 其中  和  分别表示M次采样后第j个变量自回归系数的平均值和标准偏差,从式(6)可以看出,  值越大,  值越小,该变量的稳定值越大,重要性越强。

同上所述,整个循环结束后将获得N个变量子集,对每个变量子集进行PLS建模,然后根据模型RMSECV值最小原则选择最优的变量子集。SCARS具体算法步骤如下:

Step1:当循环次数 时,计算原始变量集V中各变量的稳定性值;

Step2:通过衰减指数函数将较为稳定的变量保存,变量的保留率  其中 , ,p为原始变量数;

Step3:通过ARS采样技术从Step2将稳定值较大的变量保存,把所筛选的变量作为第i次变量子集 ;循环次数 ;

Step4:第i次循环 时,计算变量子集 中各变量的稳定性值,依次执行Step2,Step3;

Step5:若 ,执行Step4;若 ,执行Step6;

Step6:将以上步骤进行N次循环,共获得N个稳定性强的变量集合 ,建立每个变量的PLS模型,计算它们的RMSECV值;

Step7:根据计算的RMSECV值,选择其中最小的值,将此值对应的集合視作最优集合。

二、特征选择结果

随着采样运行次数的增加,特征的数量迅速下降,然后缓慢下降。可以认为首先进行了初步选择,然后进行了精细选择。在1-34次的采样运行中,(五倍交叉验证的最小均方误差)RMSECV逐渐减小,这意味着冗余特征不断被删除。在进行了34次采样后,RMSECV逐渐增加,这意味影响分类性能的关键特征被删除了。在回归系数路径的变化中,每条线代表一个变量,当线条触及y=0时将其消除,说明关键特征被掩盖。综合来看,当进行第34次的特征筛选时,RMSECV达到最小值,共选择了172个关键特征,特征变量个数由1600个减小到172个,删除了绝大部分的冗余特征。

三、SVM分类原理

支持向量机根据数据的特征值,找到其最优超平面将其分为两种类型。对于在低维空间无法线性可分的数据集,SVM利用核函数将它们变换到高维度的空间,这样在低纬度线性不可分的数据集在高维度就线性可分了。本文选择径向核函数作为SVM的分类核函数。

利用网格搜索法计算这两个参数,这可以提高分类器的分类性能。为了提高计算效率,使用GPU进行网格搜索。同时,为了避免欠拟合于过拟合现象的发生,将交叉验证法与正则表达式引入公式中。当交叉验证法的值最高时,认为此时c和g的取值是最佳的[17]。

四、 SVM分类结果

在SVM分类之前需要划分训练集和预测集,训练集用来建立SVM模型。同时,使用预测集验证分类效果。本文共包含4个类别,它们的样本数量分别为:1510个、103个、366个与306个,共2285个样本。在每个类别中随机选择80%的样本作为训练集,剩余的20%作为预测集。这样训练集共包含1828个样本,测试集共包含457个样本。不同的参数组合对SVM的分类影响很大。因此,需要使用参数优化方法对SVM分类效果进行优化[18]。

在网格搜索中,步长为0.1,c和g的范围均是(2-10, 210)。可以看出当最高交叉验证准确率达到88.2385%时,获得最佳参数c为36.7583,最佳参数g为0.047366。通过基于最佳参数建立的SVM模型的预测集分类结果得出,最终统计获得了85.3392%的分类准确率。

猜你喜欢
分类器模式识别
分类器集成综述
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
轻身调脂消渴片的指纹图谱建立、化学模式识别及含量测定
学贯中西(6):阐述ML分类器的工作流程
基于AdaBoost算法的在线连续极限学习机集成算法
汽车外观造型创新设计遗传算法的应用
自动洁地机器人的设计
分布式光纤传感边坡工程检测设计