基于SVM的φ-OTDR事件分类识别算法的研究

2021-01-19 14:27李亚擎

学校教育研究 2021年22期

李亚擎

摘要：

本文提出一种基于支持向量机（Support Vector Machine，SVM）算法的扰动判别和扰动模式识别的方法，算法首先通过稳定性竞争自适应重加权采样（SCARS）提取信号时域和频域特征，其次基于时域和频域特征建立了SVM算法分类器，最后通过分类器进行扰动模式识别研究。

关键词：SVM;φ-OTDR;分类器;模式识别;SCARS

一、SCARS的特征选择原理

稳定性竞争自适应重加权采样[15]（SCARS）算法的度量标准是算法的稳定性，当算法越稳定时，变量被选择的概率越大。全部计算过程里包含N个循环数据，首先，需要计算出所有特征的稳定性，然后通过强制变量的筛选和自适应重加权采样法[16]（adapting reweighted sampling， ARS）计算出稳定性较大的变量，把这些变量放入一个集合中。循环结束后，可以得到N个稳定性较大的变量集合，其次，对每个集合进行PLS建模，最后，根据模型中RMSECV值最小原则选择出最合适的集合。变量稳定性的评价规则如下：

矩阵为所测样本的特征矩阵，n为样本数，p为变量数，表示目标性质变量，建立PLS回归模型时，X与y的关系可以表示为

其中  和分别表示M次采样后第j个变量自回归系数的平均值和标准偏差，从式（6）可以看出，值越大，值越小，该变量的稳定值越大，重要性越强。

同上所述，整个循环结束后将获得N个变量子集，对每个变量子集进行PLS建模，然后根据模型RMSECV值最小原则选择最优的变量子集。SCARS具体算法步骤如下：

Step1：当循环次数时，计算原始变量集V中各变量的稳定性值;

Step2：通过衰减指数函数将较为稳定的变量保存，变量的保留率其中，，p为原始变量数;

Step3：通过ARS采样技术从Step2将稳定值较大的变量保存，把所筛选的变量作为第i次变量子集 ;循环次数 ;

Step4：第i次循环时，计算变量子集中各变量的稳定性值，依次执行Step2，Step3;

Step5：若，执行Step4;若，执行Step6;

Step6：将以上步骤进行N次循环，共获得N个稳定性强的变量集合，建立每个变量的PLS模型，计算它们的RMSECV值;

Step7：根据计算的RMSECV值，选择其中最小的值，将此值对应的集合視作最优集合。

二、特征选择结果

随着采样运行次数的增加，特征的数量迅速下降，然后缓慢下降。可以认为首先进行了初步选择，然后进行了精细选择。在1-34次的采样运行中，（五倍交叉验证的最小均方误差）RMSECV逐渐减小，这意味着冗余特征不断被删除。在进行了34次采样后，RMSECV逐渐增加，这意味影响分类性能的关键特征被删除了。在回归系数路径的变化中，每条线代表一个变量，当线条触及y=0时将其消除，说明关键特征被掩盖。综合来看，当进行第34次的特征筛选时，RMSECV达到最小值，共选择了172个关键特征，特征变量个数由1600个减小到172个，删除了绝大部分的冗余特征。

三、SVM分类原理

支持向量机根据数据的特征值，找到其最优超平面将其分为两种类型。对于在低维空间无法线性可分的数据集，SVM利用核函数将它们变换到高维度的空间，这样在低纬度线性不可分的数据集在高维度就线性可分了。本文选择径向核函数作为SVM的分类核函数。

利用网格搜索法计算这两个参数，这可以提高分类器的分类性能。为了提高计算效率，使用GPU进行网格搜索。同时，为了避免欠拟合于过拟合现象的发生，将交叉验证法与正则表达式引入公式中。当交叉验证法的值最高时，认为此时c和g的取值是最佳的[17]。

四、 SVM分类结果

在SVM分类之前需要划分训练集和预测集，训练集用来建立SVM模型。同时，使用预测集验证分类效果。本文共包含4个类别，它们的样本数量分别为：1510个、103个、366个与306个，共2285个样本。在每个类别中随机选择80%的样本作为训练集，剩余的20%作为预测集。这样训练集共包含1828个样本，测试集共包含457个样本。不同的参数组合对SVM的分类影响很大。因此，需要使用参数优化方法对SVM分类效果进行优化[18]。

在网格搜索中，步长为0.1，c和g的范围均是（2-10， 210）。可以看出当最高交叉验证准确率达到88.2385%时，获得最佳参数c为36.7583，最佳参数g为0.047366。通过基于最佳参数建立的SVM模型的预测集分类结果得出，最终统计获得了85.3392%的分类准确率。