基于改进LSSVM的短波收信天线智能诊断研究∗

2019-07-10 08:17向奕雪
计算机与数字工程 2019年6期
关键词:短波分类器边界

向奕雪 陈 斌 罗 勇

(海军工程大学 武汉 430033)

1 引言

在智能化技术高速发展的今天,越来越多的行业和领域都在向着这一方向快速推进。在无线通信领域也不例外,许多复杂的电子设备和系统的运行、维护和监测管理方式都在进行着信息化与智能化的改进,不仅有效地提高了设备的工作效率,也给系统的维护和监测管理带来了极大的便利。但在某些通信领域,还存在智能化发展不均衡的问题。特别在短波收信方面,由于系统涵盖了收信设备、天线与馈电系统等部分,设备种类较多且分布范围广,日常检测和维护的任务重、难度较大,尤其对天馈线在使用中出现的情况和问题无法及时发现和处理,缺少智能化的自动监测技术与手段。在野外环境下对收信天馈系统进行检测时,主要采用的仪器设备是便携式检测仪器,通过人工的方式将天馈线从通信线路中断开后手动进行测试。这种方式不仅检测效率低,对检修维护人员来说会造成时间和精力的浪费,而且对短波通信的日常业务也有一定的影响。针对现有技术的以上缺陷或改进需求,采用基于模式识别的方法来构建收信天线系统的智能诊断模型。

短波收信天线的智能诊断实质上属于模式识别的范畴。目前,模式识别的主流方法有贝叶斯决策(Bayesian Decision Theory)[1]、人工神经网络(Artificial Neural Network,ANN)[2]、模糊聚类(Fuzzy Clustering)[3]和 支 持 向 量 机(Support Vector Machine,SVM)[4]等。支持向量机具有完整的理论框架,利用有限的样本就能够平衡模型的复杂性和学习能力,可以有效解决ANN 传统方法的局部最优和过拟合问题[5]。最小二乘支持向量机(Least Square Support Vector Machine,LSSVM)[6~8]是一种支持向量机的改良算法,将SVM 实质所要求解的凸二次规划问题转化为简单的线性方程组,降低了模型的复杂度,加快了算法的收敛速度。然而,LSSVM 方法的改进也带来了一个显著的弱点——解的稀疏性的丧失,这就制约了它对大规模数据的应用。

为了弥补LSSVM 这一缺陷,本文提出一种在模型训练之前,采用KFCM 聚类算法精简训练样本建立LSSVM 稀疏化模型的方法。本文提出的样本预选取算法分为两个环节,代表性样本选取和边界样本选取。这两类样本都含有丰富的启发信息,代表性样本是可以表征全体样本集的关键性样本,边界样本是远离决策面或者在决策面附近的对模型贡献度最大的支持向量。在它们的并集上训练LSSVM模型,可以构建更高性能的分类器。

2 最小二乘支持向量机

LSSVM 将最小二乘的思想体现在目标函数中,对SVM 做出两个方面的改变,一是将损失函数表示为误差平方和的形式,而是将SVM 的约束条件由不等式改为等式,则最终只需求解一组简单的线性方程组,从而有效地降低了计算的复杂性,同时还继承了SVM 算法学习推广能力较强、全局最优等优势。

LSSVM基本原理简述如下:

设l个样本的训练集n为样本特征维数。φ(x)为非线性映射函数,核函数LSSVM的分类目标可以表示如下:

其中,w是分类超平面的法向量,C是惩罚因子,ei是误差损失,b是分类阈值,采用高斯径向基核函数。构造Lagrange 函数求解该问题:

其中αi是为拉格朗日乘子,αi∈R。根据KKT 条件,对式(2)求偏微分,可得:

消去式(3)中的变量w和ei,得到如式(4)所示的矩阵方程:

通过求解式(4)的线性方程组,可得决策函数:

3 基于KFCM 预选样本的LSSVM稀疏化算法

在上述LSSVM 模型的推导过程中,式(3)计算得到αi=Cei,可以看出αi几乎都不为0,因此相比SVM 的分类超平面仅由训练样本集中的少量样本(支持向量)决定,LSSVM 的分类超平面由所有的训练样本决定,这就意味着LSSVM 失去了稀疏性,这个缺陷对于模型的泛化能力和计算性能都有很大的影响。尤其在面对大规模的训练样本集时,整个算法的时间复杂度和空间复杂度会显著上升。

由LSSVM 支持向量的几何分布先验知识可知:在训练集合中,位于类中心区域的非边界样本和靠近类边缘的边界样本对于构建分类器有不同程度的作用。其中,使用类中心区域的非边界样本训练模型,能够得到一个初步的分类器模型,但是在分类边界附近的样本误分率较大;边界样本对决策面的贡献度较大,是决定模型分类精度的关键因素,但若只用边界样本训练模型,可能会丢失一部分有益的信息,导致训练出的模型分类精度不理想。所以只有同时包含足够多的能精准反映全部样本信息的边界样本和非边界样本的,才能训练出理想的分类超平面[9~10]。因此,本文也从这两个方面着手,提出了一种在模型训练之前预选取边界样本和非边界样本以实现LSSVM 稀疏化的改进算法。应用KFCM 聚类综合选择了代表性样本和边界样本,最大限度地清除冗余信息和精简训练集以实现LSSVM 模型的稀疏化,从而进一步提高模型的分类精度和训练速度。

3.1 KFCM算法原理

核模糊C 均值(Kernel Fuzzy C-means,KFCM)算法以FCM(Fuzzy C-means)算法为基础,利用核函数将原始输入空间中的样本数据映射到高维特征 空 间 中 再 进 行FCM 聚 类[11~13]。 设 样 本 集X={x1,x2,…,xn},xi∈ ℝd,KFCM 聚类的目标函数表示如下:

其中:Jm是隶属度函数,U是隶属度矩阵,V是c个聚类中心组成的集合,我们的目的就是选择合适的U、V,使Jm达到最小。uij为样本xj关于聚类中心ci的隶属度;n为样本的个数;m为模糊控制参数,即聚类的模糊程度。φ是到高维特征空间的非线性映射,满足:

结合式(9)和式(10),式(7)可表示为

根据式(8)给出的约束条件,采用拉格朗日乘数法求解隶属度函数和类心计算公式:

KFCM聚类的基本步骤如下:

1)给定聚类中心数目c(1 <c<n),选定核函数K(x,y),设定最大迭代次数T,收敛精度ε和和模糊参数m(m>1) 。

2)初始化聚类中心ci,i=1,2,…,c。

3)重复下面的运算,t为当前迭代次数:

(1)根据式(12),用当前的聚类中心更新隶属度函数;

(2)根据式(13),用当前的聚类中心和隶属度函数更新聚类中心,若隶属度函数保持稳定,满足或t>T,算法停止。

3.2 基于KFCM聚类选取代表性样本

本文使用KFCM 聚类提取K类数据的每个子区域的代表样本组成并集来代替原始数据,具体实现步骤如下:

设li、μi分别为第i(1 ≤i≤K)类样本的数目和聚类划分数量,K为样本实际的类别数。令,β为典型样本的筛选比例。

1)依次对K类样本实施KFCM 聚类,随机产生初始的KFCM 聚类中心,迭代计算得到第i类样本 的 聚 类 划 分 和 相 应 的 聚 类 中 心

2)选择最接近对应聚类中心的样本,即相应隶属度值最大的样本其类别标签

3)对所有的ui和yi取并集,即,则样本集(U,Y)就是提取出的典型样本集。

3.3 基于KFCM聚类选取边界样本

利用KFCM 聚类算法选择的代表性样本,还不能构建高精度的分类器,还需要提取一定数量的边界样本完善样本的分类信息。

由式(7)可以看出对于KFCM 聚类中的每一个样本,它与所有类都有一个对应的隶属度值,所对应隶属度值最大的类就判定为此样本所属的类。直观上uij越小,样本xj距离第i类的聚类中心ci的距离越远。参考这一性质,利用隶属度矩阵可以得到聚类结果。对于聚类中心ci,将所有划分为第i类的样本对应ci的隶属度值组成的向量按照升序排列,排在最前面部分的隶属度值最小,表示其所对应样本离本类中心ci最远,即我们要寻找的位于第i类边缘的边界样本集。

使用KFCM 聚类算法选取边界样本的基本步骤如下:

1)给定训练集的类别数K,使用KFCM 对整个训练集进行聚类;

2)根据KFCM聚类算法的隶属度矩阵U,判定聚类划分的结果,并获得每一类别的样本隶属度值向量Uci,i=1,…,K;

3)将K个Uci进行升序排类,按照设定的边界样本规模系数ρ(一般不超过0.3)从K类样本中选取排序靠前的样本作为边界样本。

4 仿真研究

4.1 实验环境与数据集介绍

为了验证所提样本选择方法的有效性,本文分别设定边界样本的规模系数ρ=0.1、0.2,典型样本筛选比例β=0.1、0.2、0.3、0.4、0.5,并采用果蝇优化算法(fruit fly optimization algorithm,FOA)[15~16]结合5 折交叉验证对LSSVM 惩罚因子C和高斯核函数的宽度参数σ2进行优化计算,建立基于KFCM 预选样本的FOA-LSSVM 模型。比较原始数据集和在不同样本压缩比例(ρ,β)下的约减数据集的FOA-LSSVM模型的分类准确率与模型训练时间。

采用4 组UCI 数据集进行仿真实验,表1 为UCI 数据集的相关信息。从选定的实验数据中随机选择80%的样本作为训练集,余下的20%的样本作为测试集。本实验的运行环境为2.5GHz Intel(R)Core(TM)i7-4710MQ CPU 处理器,10G 内存,Windows 7 64 位操作系统,Matlab 2014a 开发平台,LSSVM 使用LSSVMlab1.8 工具箱,并设计和编写了FOA结合K-折交叉验证算法。

表1 实验所用UCI数据集

4.2 UCI数据集实验结果与分析

在实验中,LSSVM 参数设置为:多分类编码采用一对一的方式,惩罚因子和核参数寻优范围为C∈[0 .05,1000],σ2∈[0 .01,100] 。FOA 的参数设置为:终止迭代次数设为100,种群规模设为20,搜索步长设为10。KFCM 参数设置:模糊参数m=2,最大迭代次数T=100,收敛精度ε=1e-12,核函数参数为200。

进行20 次独立重复实验,每次实验随机抽取训练集和测试集,计算测试集的平均分类准确率作为算法的判定标准。表2 和表3 分别为4 个UCI 数据集在不同样本压缩比例(ρ,β)下的FOA-LSSVM模型的分类精度和训练时间对比。

由表2 可以看出,随着典型样本和边界样本的数量增大,分类精度呈现较为明显的上升,当典型样本筛选比例β≥0.3 时,分类精度上升趋势减弱,除了Segment 数据集外,其他三个数据集在预选样本后的模型分类精度超过了原始训练集上所训练的模型。这说明,由KFCM 聚类提取的典型样本和边界样本能够较好地体现样本的分布规律,通过样本筛选去除了冗余信息而保留下了启发信息更为丰富的样本,从而提升了分类模型的学习推广能力。

表2 KFCM聚类预选取样本后模型分类准确率对比

表3 KFCM聚类预选取样本后模型训练时间对比

由表3 易知,经过样本预选取后的模型训练耗时要远低于原始数据集,并且随着输入样本特征维数和数目的增大,其对训练时间压缩愈发显著。表4 列出了本文算法在样本压缩比例(ρ,β)=(0.2,0.5)时的各模块时间耗费。本文算法中样本预选取过程的KFCM 聚类所占用的时间远远小于FOA-LSSVM 算法所耗费的时间。综合表2~表4,从精简样本后的LSSVM 模型分类精度和训练时间两个评价指标上比较,应用KFCM 聚类预选取的样本训练分类模型能显著降低模型的训练时间并提高分类精度。

表4 本文算法的各模块时间耗费(ρ=0.2,β=0.5)

5 短波收信天线智能诊断模型的建立

本文利用射频电压电流表、高功率射频采样器和矢量网络分析仪等设备采集天线及传输线的主要指标数据,作为LSSVM 模型的输入特征。针对收信天线驻波比、馈线驻波比、监测发射机工作时监测接收机接收信号强度、监测单元内基准信号源输出信号时监测接收机接收信号强度分别采样10组数据作为输入,输出为短波收信系统6 种工作状态。LS-SVM 模型样本输出与短波收信系统故障状态的对应关系如表5所示。

表5 样本输出与短波收信系统故障状态关系表

为了提高算法的收敛速度,建模前对输入样本统一进行了归一化预处理(即0~1 之间的数值)。针对短波收信系统的6 种工作状态,各采集120 组监测数据,共720 组监测数据,从中选出576(80%)组数据作为训练样本,剩下的144(20%)组监测数据作为测试样本。

采用RBF 核函数建立LSSVM 分类器模型,运用FOA 结合5 折交叉验证对LSSVM 模型的参数(C,)进行优化计算。果蝇算法的最大迭代次数设为300,种群规模设为50,搜索步长设为10,味道浓度判定函数取5 折交叉验证的平均分类准确率。在原始数据集上训练得到FOA-LSSVM 分类器的最优参数为C=1.21,σ2=2.7826,训练集样本和测试集样本的分类准确率分别为96.88%和95.8333%。图1 为原始训练数据集下的FOA 参数寻优迭代曲线。图2 为短波收信天线数据集在不同的典型样本筛选比例和边界样本规模系数下的分类精度对比。

图1 FOA算法迭代寻优曲线

图2 短波收信天线数据集在不同( ρ,β )下的分类精度对比

6 结语

为了弥补LSSVM 模型缺乏稀疏性的弱点,提出一种基于KFCM 聚类预选取样本的LSSVM 稀疏化算法。该算法考虑在模型训练之前,首先对原始训练集的每类数据分别进行KFCM 聚类,淘汰掉其中大量相似的冗余样本而提取出有价值的训练样本,提取最靠近聚类中心的样本来表征本类数据,将这些表征样本的并集作为代表样本集;然后采用KFCM 对训练集整体进行聚类,根据KFCM 的性质提取边界样本;最后将代表性样本和边界样本合并为精简训练集,训练FOA-LSSVM 分类器模型。应用该模型分别对UCI 数据集和短波收信天线状态进行识别分类,结果表明:本文构建的LSSVM 稀疏化模型显著降低了算法的时间和空间复杂度,有效地提高了分类器的分类精度。

猜你喜欢
短波分类器边界
学贯中西(6):阐述ML分类器的工作流程
守住你的边界
突破非织造应用边界
基于朴素Bayes组合的简易集成分类器①
意大利边界穿越之家
一种自适应子融合集成多分类器方法
浅谈模块化短波电台的设计与实现
浅谈2kW短波发射机开关电源的维护
人蚁边界防护网
短波发射机维护中的安全防护措施分析