基于PCA融合神经网络的移动设备威胁研究

2017-11-16 05:44孔繁盛蒋周良胡斌张欢
电信工程技术与标准化 2017年11期
关键词:准确率神经网络样本

孔繁盛,蒋周良,胡斌,张欢

(中移互联网有限公司,广州 510640)

基于PCA融合神经网络的移动设备威胁研究

孔繁盛,蒋周良,胡斌,张欢

(中移互联网有限公司,广州 510640)

为了提高移动设备存在威胁风险分析的准确率和抗干扰能力,进而降低投诉率,提出一种基于PCA融合BP神经网络风险分析模型。通过核主成分分析将设备威胁类型从10个特征量降低到3个主特征量,提取了原始数据的主信息,并以降维后的特征量作为BP神经网络的输入特征量,建立设备威胁风险分析模型。最后通过实验对比了多种模型算法, 结果表明采用PCA结合BP神经网络的风险分析模型具有更好的风险识别准确率。

主成分分析法;BP神经网络;风险分析模型

1 引言

随着电子商务技术的发展,电商促使用户对移动支付的便捷性更为认可,传统的支付工具正逐步被电子化的支付方式取代[1]。在我国,电子支付也进入快速增长期,据CNNIC发布的《中国互联网络发展状况统计报告》显示,截至2015年,我国电子支付用户规模达到3.59亿[2]。但是随着电子支付的发展,交易安全显得尤为重要[3]。根据《2006电子支付产业调查报告》显示,在选择电子支付考虑的诸多因素中,64.5%的用户首选安全。可见,安全性成为制约电子支付发展的主要原因。

随着移动支付的快速普及,话费收入作为移动支付的一种重要形式,收入不容小觑。据统计仅2016年中国移动话费支付收入已达24亿元。然而巨额收入下,交易投诉率也在攀升,2016年全年投诉量达90万次,面对海量用户投诉,传统的人工分析方式无法为网络建设维护提供准确有效的分析支撑[4]。本文通过对用户使用的移动设备威胁数据进行采集,并构建分析模型,预测用户设备的威胁程度。

2 基于主成分融合神经网络的移动设备威胁识别

2.1 基于主成分模型基础理论

主成分分析方法(PCA)[5]是通过降维技术把多个变量化为少数几个主成分的统计方法,该模型的基本原理及主要步骤如下:

假设原始分析指标数据构成的矩阵为:X=( xij)n×m(0≤i≤n, 0≤j≤m)。

其中:n为评价对象个数;m为所要分析的指标个数;xij为第i个评价对象第j个指标的数值。

步骤1:原始数据的标准化处理。由于所采集得到的各指标数值的量纲表现形式不一,因此首先将原始数据进行归一化处理,消除量纲影响。其中本文采用标准差归一化方法,如式2所示:

步骤2:建立相关系数矩阵,求相关系数矩阵的特征值,确定主成分个数即新指标个数k。计算相关矩阵R的特征值和方差贡献率,且R的特征值按照从大到小的排列方式为λ1>λ2>…>λp≥0。然后选择合适的主成分个数来代替原始变量,并计算各主成分的贡献率,如式3所示。

其中: λj为第j个特征值; CPV( j)为λj对应的主成分的贡献率;

步骤3:求取各特征值所对应的特征向量P,其中特征矩阵可以通过计算矩阵X的协方差矩阵得到,且得到的特征向量间相互正交,如式4所示。

其中:pi为第i个主成份所对应的特征向量。

步骤4:计算各特征向量pi所对应的主成分系数qj,并将主成份的方差贡献率CPV(j)为权重,对各指标所对应的各主成份系数进行线性加权,并将其归一化得到各指标的最终权重值,如式5所示。

其中:wj为第j个指标的最终权重值;其中CPV( j)以累计贡献率为原则来确定主成分系数的加权个数。

2.2 基于BP神经网络模型的识别预测

BP神经网络是神经网络中采用误差反传算法作为其学习算法的前馈网络,该网络的具体结构如图1所示。

图1 BP神经网络模型结构

其中:xj表示输入层第j个节点的输入信息,j=1,…M; wij表示隐含层第i个节点到输入层第j个节点之间的权值; θi表示隐含层第i个节点的阈值;φ(x)表示隐含层的激励函数;wki表示输出层第k个节点到隐含层第i个节点之间的权值,i=1,…q;ak表示输出层第k个节点的阈值,k=1,…L;Ψ(x)表示输出层的激励函数;ok表示输出层第k个节点的输出。

通过以上的BP网络结构图可知,如果在一个简单的三层BP网络中,假设输入向量为X (x1, x2, …, xn)T,输出层输出向量为O (o1, o2, …, on)T,隐含层输出向量为Y (y1, y2, …, yn)T,目标输出向量为D (d1, d2,…, dn)T,输入层到隐含层的连接权值为V (v1, v2, …,vn)T,隐含层到输出层的连接权值为W (w1, w2, …,wn)T,其对应的网络迭代步骤分别如下。

步骤1:以随机的方式初始化网络的权值矩阵W与V,并设定相应的学习率η,及目标误差值Emin,同时还将样本模式计数器p与训练次数计数器q置为1。

步骤2:通过依次输入训练样本X与D,并分别计算隐含层输出向量Y与目标输出向量O。计算表达式如式6所示:

其中:netj,netk分别表示隐含层与输出层使用的传递函数。

步骤3:若共有P对训练样本,针对每一个不同的学习样本p,其网络均对应不同的误差Ep,并以其均方根作为网络的总误差。计算表达式如式7所示:

步骤4:计算各层的误差信号,其中计算表达式如式8所示:

步骤5:调整网络各层的权重值,其中计算表达式如式9所示:

步骤6:当完成针对所有样本的一次训练时,检查网络训练是否满足终止条件。若ERME<Emin或当训练达到设定最大次数时,则算法结束。否则返回步骤2。

通过以上BP神经网络的信息输入迭代过程可以看出,该网络具有高度非线性的特征。同时网络的每一次迭代均会由误差值反向逐层传回,并按算法规定的学习规则修改每一层的权重,进行反向调整权重系数,使得网络的输出逐渐逼近实际值,因此BP网络完全可以应用于具有高度非线性特征的模式识别上。

2.3 基于PCA融合BP神经网络的移动设备威胁识别步骤

由前面的主成分与支持向量机模型的计算过程可以看出,由于主成分仅仅考虑了指标之间的相关性,合理的实现了指标体系由多到少的降维和简化。在不丢失大量关键指标信息的前提下,又剔除了样本指标中存在的干扰信息。因此,可以在样本数据进入核心模型训练的过程时,预先将其进行压缩提取,可以有效的增加各样本指标的有效性,进而提高识别模型的预测准确度。通过以上的模型算法分析,因此本文基于主成分分析法融合BP神经网络的模型算法,并将其应用于移动设备威胁识别的构建步骤如下:

将数据进行标准差归一化,剔除数据之间不同量纲问题。

对归一化后的数据进行主成分分析,得到累计贡献率满足 的成分矩阵系数。

将以上提取的成分矩阵系数与归一化后的数据加权得到提取后的指标压缩值。计算公式如式10所示。

式中:Fij为第i个对象的第j项主成分的指标值,p(i,j)为第i个对象的第j项指标值的主成分系数,xj为对象的第j项指标。

建立三层BP神经网络模型,且网络的最后一层使用逻辑斯蒂推广传递函数,将所有压缩后的样本指标值作为模型的训练样本,对建立好的模型进行训练,进而构建完整的移动设备威胁识别系统。

3 模型的应用及结果分析

3.1 样本指标与样本指标的特征提取

本文根据实际的移动设备存在的较为常见的威胁信息,所建立的相关评价指标如表1所示。

表1 相关输入指标

3.2 基于特征数据的BP神经网络训练与识别

基于上述关于主成分分析方法的介绍,将各设备样本的指标进行提取,并通过计算压缩提取后的指标值,进而作为下一步的分析数据。其中本文总共使用的样本为:存在风险的(投诉数据)样本有21 993个,不存在风险的(非投诉数据)样本有15 982,共合计样本数有37 975。其中通过PCA模型求解,其中累计贡献率随主成分的个数变化结果如图2所示。

图2 累计贡献率随主成分的个数变化结果

由累计贡献率可以看出,前3个特征根所对应的累计贡献率达到了97.68%,由于前3个主成分可以反映原指标97%以上的信息量,满足主成分的累计方差贡献率CPV>95%。故可以将所有的样本原始数据指标压缩成前3个主成分。

将各主成分系数对所有样本进行加权计算,并将得到的3个主成分指标值作为BP神经网络模型的输入信息。其中,不存在风险的样本编码为[1;0],存在风险的样本编码为 [0;1]。其中所建立的神经网络框架参数如表2所示,并将所有样本以70%为训练样本、15%为控制样本、15%为测试样本的分配对所建立好的网络模型进行训练。

表2 BP网络的相关参数

表3 各模型预警识别准确率对比

将全部样本对所建立好的神经网络模型进行训练,其中,当模型训练结束时,得到的各类型样本的识别准确率和模型的整体ROC曲线变化如图3所示。

由图3得到的模型ROC曲线可以看出,模型具有较高的识别精度,在控制不错误识别无风险移动设备的情况下,模型对存在风险的移动设备的识别准确率达到了79.6%,而整体模型的综合识别准确率达到了91.0%。由此可知,经由PCA特征提取后的指标训练出来的BP神经网络模型具有较高的识别精度。但为了对比本文模型的优越性,表3中分别给出了将原始数据直接使用主成分、Logistic模型、与SVM等模型的识别准确率对比结果。

图3 模型整体识别准确率和模型的ROC曲线变化

从表3的结果可知,本文使用了PCA模型对指标进行了特征提取,将多余干扰信息进行了剔除,发现提出的模型算法对于移动设备是否存在风险情况的识别准确率均优于其它模型算法,同时,通过将原始数据在不同角度下进行特征提取挖掘,最后作为新的特征信息训练识别模型,得到的准确率比单一模型识别率高,更适用于实际的移动设备威胁识别监控。

4 总结

通过主成分分析法能有效地降低设备威胁维度,提取主要的设备威胁特征。因此用主要特征量作为分析模型特征量, 建立BP神经网络诊断模型, 能够充分利用风险样本自身特性。实验结果说明结合PCA的BP神经网络分析模型具有更高的准确率。

[1] 黄力. 电子支付现状与发展趋势综述[J]. 时代经贸, 2012(20):17-17.

[2] 刘罡, 杨坚争. 我国电子支付发展现状、面临问题与对策研究[J]. 电子商务, 2015(11):47-48.

[3] 计晨晓,霍旺,包森成. 基于多维度数据分析的移动威胁感知平台建设[J]. 中国新通信,2016(24):39-43.

[4] 章蕾,陈婷. 基于客户感知的移动数据业务分析平台建设探讨[J]. 移动通信,2011,35(9):71-74.

[5] 征容,严潇然. PCA在智能感知解决方案中的应用[J]. 通信与信息技术,2014(06):59-61.

Study of mobile device risk base on PCA and neural network

KONG Fan-sheng, JIANG Zhou-liang, HU Bin, ZHANG Huan
(China Mobile Internet Co., Ltd., Guangzhou 510640, China)

To improve the accuracy and anti-interference ability for risk analysis of mobile device, and reduce the complaint rate,this paper proposed a model of risk analysis base on PCA and BP neural network.The feature vectors of device risk types are reduces from 10 to 3 and main information of raw data can be got by PCA. And then built a device risk analysis model using BP neural network which the input data is the low dimension feature vectors got from PCA. Experiments compared performances of our model and some other models, the results show the model combine PCA and BP neural network can identify risks accurately.

PCA; BP neural network; risk analysis model

TN918

A

1008-5599(2017)11-0026-05

2017-10-11

猜你喜欢
准确率神经网络样本
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
用样本估计总体复习点拨
神经网络抑制无线通信干扰探究
推动医改的“直销样本”
高速公路车牌识别标识站准确率验证法
随机微分方程的样本Lyapunov二次型估计
基于神经网络的拉矫机控制模型建立
村企共赢的样本