基于稀疏化LSSVM的物联网轻量级入侵检测方法

2021-06-25 03:41魏琴芳吕博文胡向东
关键词:剪枝聚类联网

魏琴芳,吕博文,胡向东

(1.重庆邮电大学 通信与信息工程学院,重庆 400065;2.重庆邮电大学 自动化学院,重庆 400065)

0 引 言

物联网(internet of things, IoT)[1]作为新兴网络,他的出现和广泛应用为万物互联提供了基础。同时,物联网的安全性受到越来越广泛的重视[2],因为物联网感知层由大量无人值守的传感器节点组成,节点的访问和信息传输具有开放性,其电源能量、计算能力和存储空间等严格受限。因此,物联网既面临着严峻的信息安全风险,又受到复杂安全方案难以实施的制约。

入侵检测技术[3]是现阶段实现网络安全防范的核心手段之一,它通过收集和分析网络中若干个节点的信息,从而发现违反安全策略的行为并做出相应的处置。为了适应物联网的安全需求,本文提出基于稀疏化最小二乘支持向量机(least square support vector machine, LSSVM)的物联网轻量级入侵检测方法,构建起适应物联网资源环境的入侵检测解决方案。

1 国内外研究综述

近年来,越来越多的学者参与到物联网入侵检测方法研究中。文献[4]使用6种机器学习方法在工业物联网中进行入侵检测研究,得出使用决策树进行分类时达到模型最优的结论。文献[5]探讨了如何将新的区块链技术应用于物联网安全解决方案。文献[6]提出了Sybil入侵检测方法,该方法使用网络信号检测和前馈调制滤波设计共同作用进行入侵分析。文献[7]使用支持向量机(support vector machine,SVM)进行数据预处理,然后使用拜占庭容错算法判断每个节点的行为模式和安全状态。文献[8]提出并构建了使用软件定义技术的工业控制(industrial control system,ICS)网络入侵检测系统,该系统对面向传输控制协议(transfer control protocol,TCP)的攻击更有效。文献[9]使用深度感知层网络和递归神经网络作为车联网入侵检测的架构,解决对不同攻击学习效果差的问题。文献[10]将人工神经网络应用在入侵检测系统中,着重分析了物联网入侵检测系统对DoS/DDoS攻击的检测能力。文献[11]提出非对称自动编码器,并将其进行堆叠操作构建新的深度学习模型。文献[12]使用集成学习的原理将多个分类器共同训练测试,并提出了新型的集成构造技术,使得整个入侵检测系统检测准确率大大提升。

以上研究从不同角度探讨了物联网入侵检测的解决方案。本文以物联网感知层节点资源严格受限的特点为背景,以研究轻量级、智能化的检测方法为目标,研究适合在物联网感知节点进行部署的入侵检测模型,充分解决物联网节点无法部署高效入侵检测模型的问题。

2 物联网安全与入侵检测

物联网架构由感知层、网络层和应用层组成,各层之间面临的网络安全威胁不同。

感知层通过末端节点实现数据收集和传输,由于节点处于无人值守的状态和资源有限的特点,不仅易受到物理威胁,还要受到网络安全威胁,主要威胁有非法访问、DDoS/DoS攻击等。网络层实现感知层和应用层的信息安全传输,面临着传统互联网类似的消息传输安全威胁,包括消息截取、非法数据(或指令)注入、拒绝服务等攻击。应用层主要基于节点信息处理完成物联网应用业务响应。易被非法用户访问导致业务被滥用、隐私泄露,甚至被恶意追踪等。各种网络攻击方式具有相似的流量特征,而入侵检测就是从网络流量、审计日志等方面对攻击行为进行分析,与身份认证、加密算法等被动安全手段相比,入侵检测能更加主动地发现各种攻击的数据规律、更加准确地检测出潜在的攻击威胁,覆盖检测面积更加广泛。目前入侵检测技术能对物联网中的拒绝服务攻击、传输威胁攻击等产生良好的检测效果。

3 基于LSSVM的物联网入侵检测方法

3.1 稀疏化LSSVM方法的合理性

物联网感知节点计算能力弱、存储空间不足和能耗低等特点,制约着传统检测模型应用于物联网环境。

LSSVM模型由于快速的训练方式,使其比传统SVM、深度学习和集成学习等模型,能更好地满足低计算量的需求。通过稀疏后的LSSVM模型拥有比SVM更小的支持向量库,更加适合在小空间、低能耗的节点处进行部署。本文的数据稀疏能为LSSVM的训练提供基础,模型稀疏能为LSSVM在物联网感知节点的部署提供前提。因此,稀疏化LSSVM模型成为构建资源严格受限的物联网入侵检测方案非常有希望的新思路。

3.2 最小二乘支持向量机

传统支持向量机能较好解决凸二次规划问题。为了提升支持向量机的训练速度,在SVM中引入LSSVM理论。LSSVM的数学模型为

s.t.yi=wTφ(xi)+b+ei,i=1,2,…,N

(1)

(1)式中:{xi,yi}为已知样本;N为入侵检测样本的个数;ei为分类误差;φ(·)将低维数据转换为高维数据;w=(w1,w2,…,wd)为法向量;b为阈值;c为LSSVM的正则项系数。

为(1)式建立拉格朗日(Lagrange)函数为

L(w,b,e,α)=J(w,e)-

(2)

(2)式中,αi为Lagrange乘子。基于极值点求解方法,通过(2)式分别对w,b,ei,αi求偏微分可得

(3)

将(3)式进行约简,移除ei和αi后,得到线性方程的矩阵表示

(4)

(4)式中:1=[1,1,…,1]T,α=[α1,α2,…,αN]T;Y=[y1,y2,…,yN]T;Ω为采用高斯核函数运算的方阵,其n行m列的元素为Ωnm=φ(xn)Tφ(xm),n,m=1,2,…,N。

LSSVM可将分类问题转化为求解(4)式的线性方程组问题。由于系数矩阵为对称正定矩阵,故使用共轭梯度法解线性方程组以求出αi和b,最终得到决策函数为

(5)

由LSSVM的实现步骤可见,模型将所有样本都作为支持向量(support vector,SV)进行决策,这将影响LSSVM的训练时间和分类性能。本文采用训练前数据稀疏和训练时模型稀疏的方法对LSSVM进行稀疏化。

3.3 改进的K均值数据稀疏

数据稀疏以聚类选择贡献最大样本的方法为主。本文据此提出基于改进的K均值聚类、拉伊达准则去噪和欧式距离的样本选择数据稀疏方法,简称KPE_LSSVM算法,如图1。

3.3.1 改进模拟退火算法优化K均值聚类

K均值聚类原理:设定要聚类的簇个数K和各簇的簇中心点,随机地选定若干样本作为初始簇中心点,然后分别求每个数据样本与各个簇中心的距离,将相应样本归入距离簇中心最近的簇,重新计算各个簇的中心点,直到聚类结束。

由于K均值聚类随机选定初始聚类中心,易使算法陷入局部最优解,影响稀疏效果。本文提出使用改进的模拟退火算法优化初始簇中心点的选取,选取的目标函数为若干点之间距离最远的,本文从增加初始解个数和改变扰动规则2方面对模拟退火算法进行改进。

传统模拟退火算法步骤如下。

1)设定温度下限T0,评价函数F(·),降温速度p,初始解(当前解)S1,温度T;

2)由扰动规则产生新解S2;

3)计算新解和当前解的评价函数值:

△F=F(S1)-F(S2);

4)按Metropolis准则接受新解;

5)判断温度T是否小于温度阈值T0,若是则结束算法;否则转到步骤2。

增加初始解个数的方法是将单一的初始解改进为包含多个初始解的初始解组。

改进扰动规则是对于当前解集合S中的每一个当前解,在Si下产生一个随机扰动的新解Si2。产生过程:在1到N中随机产生K个不同的值a1,a2,…,aK,如果产生的值全部都在Si中,则交换相邻2个数的位置,组成新解;如果不全在Si中,此时,在不相等的每个位置l中产生(0,1)的随机数p,若p>0.5则将al替换Sil,反之不替换。

算法收敛后得到当前解集合的全局最优解就是最佳聚类中心点的索引值,按照索引值选择相应的样本,组成初始簇中心点。再按照K均值算法步骤向下训练。

3.3.2 基于拉伊达准则的去噪处理

由于聚类后每个簇的样本分布近似接近正态分布,本文结合统计学的拉伊达准则[13](即3σ准则)进行噪声点判断。

3.3.3 基于欧氏距离的样本选择

每一个样本到超平面的距离可由距离公式求得,进而推导出拉格朗日乘子αi与距离Hi的关系[14]为

αi=c(1±yi||w||Hi)

(6)

xi为定点时,w为常向量。无论yi取何值,要取得较大的|αi|值,Hi的取值应尽可能小或尽可能大。

本文提出基于欧氏距离的样本选择方法,即选取样本中距离超平面最近和最远的样本点时,需计算异类样本聚类后每个簇中心点到每个样本的欧式距离,组成距离集合。对每个集合中的距离分别进行排序,按照一定比例选取每个集合中最小和最大距离对应的样本点,所选出样本中共有的样本点就为选取的最近和最远样本点。

3.4 自适应剪枝的模型稀疏方法

由LSSVM模型的决策函数(5)式可知,每一个样本对应一个拉格朗日乘子αi,每一个样本在决策时都发挥着作用,其贡献大小由|αi|决定。因此,传统剪枝法的步骤如下。

1)首先设定固定的剪枝比例v,最低准确率阈值p1,样本总数m;

2)求出剪枝量num。将拉格朗日乘子取绝对值后进行排序,找出最小num个拉格朗日乘子对应的样本点进行删除;

3)将余下的样本点组成新的数据集,再次进行LSSVM训练,求出准确率p和此时的拉格朗日乘子;

4)将求得的准确率与设定的阈值比较,如果准确率大于阈值则执行步骤2),反之,结束剪枝。

该方法的弊端是不能彻底地剪枝。为了尽量减小模型大小,达到更彻底的稀疏化,本文提出一种自适应剪枝方法,即首先进行传统方法的剪枝,选用较大的剪枝比例,尽可能对数据进行“粗约减”;当模型准确率小于阈值时,改变剪枝比例为p-p1,即将当前准确率与阈值之差,进行精确剪枝。

3.5 稀疏化LSSVM的物联网入侵检测

本文设计的物联网入侵检测模型将通过数据稀疏和模型稀疏2种方法对支持向量库进行约减,最终得到适合在节点中部署的LSSVM模型。图2为基于LSSVM的物联网入侵检测流程。

图2 基于LSSVM的物联网入侵检测流程Fig.2 Flow chart of IoT intrusion detection based on LSSVM

模型具体入侵检测流程如下。

1)从节点采集物联网入侵检测数据集,并将其作为原支持向量库;

2)将原支持向量库中的正常样本和异常样本分别进行K均值聚类处理;

3)对每一簇中的样本按照拉伊达准则进行噪声样本处理;

4)由欧式距离选择出约减的支持向量,完成数据稀疏过程;

5)设定剪枝阈值,求出模型准确率;

6)由自适应剪枝法对支持向量库进行精确稀疏;

7)将混合稀疏后的支持向量库和对应的拉格朗日乘子存储到感知节点的存储器,完成入侵检测模型的加载。

LSSVM模型由支持向量库和对应的拉格朗日乘子组成,通过稀疏化大幅度降低模型的大小,使其能更好地在感知节点处进行存储和运行。

4 仿真分析与评估

4.1 评估指标

本文在matlab2017平台进行实验,采用专业入侵检测数据集NSL-KDD进行仿真,选取5 000条样本作为原始数据集,模拟支持向量众多的情形。构建的攻击检测混淆矩阵如表1。

表1 攻击检测的混淆矩阵Tab.1 Confusion matrix forattack detection

表1中各变量的含义是:TP代表预测为攻击,真实值为攻击的样本个数;FN代表预测为正常,真实值为攻击的样本个数;FP代表预测为攻击,真实值为正常的样本个数;TN代表预测为正常,真实值为正常的样本个数。

主要评价指标为

模型大小为LSSVM支持向量库和拉格朗日乘子占据的存储空间大小。

4.2 数据稀疏参数选取及性能评估

4.2.1 仿真参数

1)K值选择。采用贪心算法对K值进行最优化选择。分别对训练集中的正常数据集和异常数据集分别使用改进的K均值聚类处理。用C-H(Calinski-Harabasz)值作为K值选取的准则,C-H值越大说明聚类越好。实验结果数据如图3。

图3 K值对应的C-H指标Fig.3 C-H index corresponding to K value

由图3可知,聚类效果达到最优时,在正常数据中聚类的簇个数为6,异常数据中聚类的个数为3。

2)稀疏比例的选取。为选取更加准确的稀疏比例,本文将约减比例定为30%,25%,20%,15%和10%,将整体数据集作为测试集,得到实验结果如表2。

由表2可知,在约减比例为20%时误差最低;在约减比例高于20%时随着约减比例减小误差缓慢下降;当约减比例小于20%时随约减比例的减小误差大幅度增加。因此,将样本的稀疏比例选定为20%。

表2 不同约减比例的模型性能对比Tab.2 Comparison of model performance under varied ratio

4.2.2 仿真结果分析与评估

1)数据稀疏内部方法的比较。数据稀疏改进方法在同一测试集下的实验对比结果如表3。

表3 数据稀疏改进方法的对比Tab.3 Comparison of improved data sparsity

表3中,方法1为随机选取样本;方法2为使用改进K均值+样本选择方法;方法3为使用改进的K均值+去噪+样本选择方法。

由表3实验数据可知,递进的数据稀疏改进方法使得模型的F1值逐步提升,验证了数据稀疏模型改进的有效性。

将本文基于改进的K均值聚类数据稀疏模型与文献[15]提出的通过K聚类进行数据稀疏的方法进行对比,实验结果如表4。

表4数据表明,本文数据稀疏模型比现有稀疏方法稀疏效果更加优秀,模型的分类效果更加高效。

表4 不同数据稀疏方法实验结果对比Tab.4 Experimental comparison of data sparsing methods

2)各入侵检测模型的对比分析。对比算法时使用相同数据集进行数据分析。其中,SVM为传统模型;TS-AE+SVM为文献[16]所用方法;DBN+SVM为文献[17]所用方法;NPCNN为文献[18]所用方法。本文方法与其他4种算法对比结果如图4。

图4 不同入侵检测的F1值对比Fig.4 Comparison of F1 values from different intrusion detection methods

由图4实验对比可知,本文方法所得F1值是4种对比算法中最好的,比第2名NPCNN算法高出0.016 7,本文方法采用聚类约减后的入侵检测模型大小从7 170 KB降低到2 138 KB,比其他对比算法更加贴近物联网应用环境。

4.3 模型稀疏参数选取及性能评估

4.3.1 剪枝比例的选取

剪枝法有助于模型稀疏,进一步减小模型大小,以满足物联网节点要求。根据对比算法的检测准确率,选择93%作为本文剪枝的最小阈值。将传统剪枝法和自适应剪枝法分别在10%,20%,30%,40%,50%剪枝比例上进行对比,结果如表5。

表5的实验结果对比可知,在所选取剪枝比例区间内,剪枝比例为40%时剪枝时间最快,效果最好。与固定剪枝比例相比,本文设计的自适应算法更优,剪枝更彻底。

表5 传统剪枝与自适应剪枝效果对比Tab.5 Comparison of effects of traditional or adaptive pruning

4.3.2 混合稀疏LSSVM的性能评估

经过混合稀疏后的模型与其他模型的对比结果如图5。

图5 剪枝后模型F1值对比Fig.5 Comparison of F1 values from models after pruning

本文混合稀疏的LSSVM算法,与其他3种模型算法相比,本文方法取得的F1值最大,达到0.926 8,对应的分类效果更优。最终得到模型大小为81.3 KB,模型的训练时间降至0.19 s。此时模型对各种攻击的判断准确率为DoS:95.15%;U2R:9.09%;R2L:76.84%;PROBE:89.29%。综上,本文算法无论从模型分类准确率、模型大小、训练时间和对DoS攻击的检测上方面都更加适合物联网应用环境。

5 结 论

本文结合物联网感知层节点一般资源非常有限的特殊应用场景,提出一种基于稀疏化LSSVM的轻量级入侵检测方法,以LSSVM作为分类器,采用训练前数据聚类稀疏,训练后模型剪枝稀疏的方法,将模型大小进行有效约减,突出其轻量化实现。实验测试数据表明,本文方法可将模型由7 170 KB经数据稀疏后降至2 138 KB,再经模型剪枝稀疏化降至81.3 KB;数据聚类去燥后,模型F1值达到0.977 2,优于其他4种对比算法;模型剪枝稀疏后在保证入侵检测准确率的同时,模型进一步减小,其F1值达到0.926 8,模型训练时间为0.19 s;能较好适用物联网环境。

猜你喜欢
剪枝聚类联网
人到晚年宜“剪枝”
“身联网”等五则
《物联网技术》简介
《物联网技术》简介
基于YOLOv4-Tiny模型剪枝算法
基于激活-熵的分层迭代剪枝策略的CNN模型压缩
基于K-means聚类的车-地无线通信场强研究
抢占物联网
基于高斯混合聚类的阵列干涉SAR三维成像
剪枝