基于集成相关向量机的数字图像隐写分析*

2016-12-23 13:49李长隆刘佳钮可
信息安全与通信保密 2016年8期
关键词:分类器载体向量

李长隆, 刘佳, 钮可

基于集成相关向量机的数字图像隐写分析*

李长隆1, 刘佳2, 钮可2

(1.武警部队参谋部机要局,北京100089;2.武警工程大学电子技术系,陕西西安710086)

图像隐写分析中,特征维数越来越高,目前多采用集成分类器进行隐写分析,在相关向量机(RVM)的基础上,提出了一种新的机器学习方法:由随机森林实现的集成相关向量机(RVM)分类器,采用成对采样策略构建选择性集成分类器,将其用于图像隐写分析领域。实验表明提出的集成分类器是一种有效的工具,使得能够快速构建隐写检测器,并能明显降低隐写分析系统的检测错误率(BER),同时对大荣量隐写嵌入方法具有较高的检测率。

隐写分析;集成分类器;相关向量机

0 引言

隐写分析的目标是检测在目标载体中秘密信息的存在性。但是,利用统计描述子的方法很难对载体精确地建模,这进一步增加了对嵌入改变进行检测的难度。基于载体和隐写载体中提取的统计特性来估计潜在概率分布的检测方法是非常困难的。因此,隐写分析问题一般被当做是一个机器学习中的监督分类问题。

支持向量机(SVM)[1]是监督分类中最受欢迎的方法。这主要是由于,SVM具有坚实的数学基础,它是基于统计学习理论同时它能克服过学习以及当特征维数比样本个数大的时候仍能给出不错的结果。可以下载到稳健以及有效的开源的软件。

早期的基于特征的隐写分析方法只用一些较少的特征,例如72维的用QMFs变换后的系数的的高阶统计矩作为特征[2],18维的二值相似度量[3],23维DCT特征[4],以及小波系数的高阶统计矩[5].随着隐写算法复杂性的提高,隐写分析算法也开始利用高维的特征向量。在文献[6]中,JPEG图像的特征为274维。同时在文献[7-8]中,分别提出了324维和486维的特征向量。SPAM即像素差得二阶马尔科夫模型特征的维数为686维[9]。

为了解决隐写分析方法中的复杂性问题,在本文提出一个集成相关向量机分类器,这个集成分类器是建立在随机森林的基础上,通过融合由基学习器产生的决策来进行分类,这些基学习器很容易进行训练。通过研究学习器以及其融合策略,文中给出了一个简单有效的设计方法。

1 隐写分析集成分类器

本文提出的集成分类器由多个基学习器在一组载体图像和隐写图像上独立训练得到的。每一个基学习器就是一个简单的分类器,这个分类器建立在随机(均匀)选取的特征空间的子空间上。给定一个测试集合中的一个样本,最终的决策由单个基学习器决策结果的累积构成。这个监督集成分类策略当且仅当每一个单独的基学习器足够分散的时候才能成立,也就是说,它们对未知数据由不同的错误率。为了进一步增加基学习器之间相互分散的程度,每一个学习器在一个Bootstrap样本中进行训练,而不是整个训练集。Bootstrap样本是从整个训练集中随机采样得到的。这个策略在机器学习中被称为Bootstrap aggregating(自举聚集)或是bagging,这使得能够获得一个测试误差的精确地估计,使得对确定一个优化的集成参数很有帮助。注意到自举样本是成对(by pairs)构成的,例如保证载体特征和隐写特征对成对出现。这种限制对隐写分析而言是相当重要的,因为已经证明了将载体-隐写对集合分成两个部分,一个用于训练,另一个用于测试以及误差估计,这种划分可以给出一个偏度误差估计同时给出一个次优化的性能。本文的方法类似于文献[10]中的策略。文献[10]第一次提出了利用集成分类器实现隐写分析。

为了描述集成分类器,本文引入下面的记号。d表示特征空间的维数,dsub表示每一个基学习器操作的子空间维数。Ntrn和Ntst是每一个分类器中训练样本和测试样本的个数,L是基学习器的个数。另外,表示从训练集中提取的载体和隐写特征向量,表示从测试的载体和隐写样本中提取的特征向量。所有的训练和测试样本表示为是一个D维的特征向量,这个特征向量是从x中采样得到的,保留了原始的维数顺序。

每一个基学习器Bl,l=1,…,L,都是一个Rd→{0,1}的映射,其中0表示载体,1表示隐写图像。需要注意的是,尽管学习器定义在Rd上,所有的基学习器的特征空间的维数dsub可以选择比全维度d小得多的值,这使得能够极大的降低计算复杂度。尽管每一个单独的基学习器的分类性能很弱,但是L的值足够大时,在进行策略融合后,精确度将得到极大地提高,并且最终可以收敛。每一个基学习器的决策阈值被调整为在等先验的情况下,最小化训练集的错位分类数:式中,PFA,PMD分别是是虚警和错分的概率。基本集成分类器的结构图如图1所示。

图1 集成相关向量机分类框架

本文采用相关向量机[11]来作为每一个基学习器的学习工具,相关向量机(relevance vector machine)是一种用于分类和回归的贝叶斯稀疏核技术,它具有很多SVM的特性,同时避免了它的一些主要的限制。另外,它还能在保证一定的泛性误差的同时,给出更系数的模型,并在测试集上的运算更加块速。

相关向量机分类方法类似于一种基于拉普拉斯逼近的回归算法.例如,如果要预测输入向量x的部分后验概率,一般可以根据统计学的知识,利用函数σ(y)=1/(1+e-y)对一种线性模型y(x)进行归一化,其分布表达式为:

根据定义,目标函数为tn∈{0,1},需要注意的是在式(2)中,并没有增加噪声函数.

分类过程中,不能利用卷积方式计算权重,所以并不能给出p(w|t,α)或边缘分布p(t|α)的解析解.因此,需要利用拉普拉斯逼近的近似解求得,具体过程如下:

(1)首先保持α的值不变,求解出模型的后验概率分布的位置,从而得到权值wMP的最可能值。因为p(w|t,α)正比于p(t|w)p(w|α),因此该过程等价于求解(3)的最小值这样的优化问题:

式中,yn=σ{y(xn;w)}。

(2)拉普拉斯近似(Laplace approximation),这个方法的目标是找到一个定义在连续变量集合上的概率密度的一个高斯近似。

式中,B=diag(β1,β2,...,βN))是一个对角线矩阵,其中βn=σ(y(xn))[1-σ(y(xn))].对于高斯近似的逼近来说,权值主要集中在wMP,并且通过式(6),能够获得协方差矩阵Σ.(3)利用Σ和wMP的高斯逼近(代替μ),α超参数可用来不断更新。

在模型p(w|t,α),利用式(3)以及∇Wlgp(w|t,α)|wMP。可以得到:

可以看出拉普拉斯逼近方法实际上是一种将分类问题映射为回归问题的有效方法。

整个集成分类器的伪码在算法1中进行了描述,下面是算法1的思想流程。

算法1相关向量机集成分类器:

1.for对每一个子分类器而言l=1:L。

2.随机选择一个子空间Dsub。

3.在子空间上Dsub,训练一个基分类器Bl。

4.对所有的测试样本,y,在第l个分类器上进行决策。

5.end for

6.最终的决策由最大投票策略决定:

在集成分类器训练过程中,参数L和Dsub的选择类似文献[10]中的方法。

2 相关向量机的选择性集成策略

目前基于集成分类器的隐写分析算法中,大多训练过程中的训练样本是成对出现的,然而大多数分类器训练过程并没有考虑这种成对样本的特殊性。本文在Bagging抽样方法的基础上,中提出的选择性集成策略构建集成分类器。

2.1样本选择

首先,利用有放回地抽样方法,抽取2M个次,在每一次抽取的样本对中随机选择一个样本。样本的选择由下式给出:

也就是等概率在每对样本中选择一个,采用这个过程将使得最终得到的样本集大小与原样本集大小保持一致。当该样本对再次被抽时,可依式(7)选择样本的方法,未单独列出,以下采样策略如图2所示,该方法即在在成对样本中,在每一次采样一对成对样本的基础上,随机选取其中一个样本,可能是隐写图像,也可能是正常图像,抽样2M次,即可获得M}个训练样本。

图2 成对样本的采样策略

2.2选择性集成

选择性集成是借助于某种选择策略,考虑基分类器不同差异的情况下,基于某种有策略对基分类器进行优化的基础上构建集成分类器的有效方法。周志华等[12]在相关文献中表明在使用部分基分类器的效果甚至比使用全部基分类器进行集成具有更好的分类性能。本文的选择性集成策略是在文献[13]的基础上,利用遗传算法进行优化选择。首先定义基分类器对应的测试误差OOB和归一化测试误差OOB∗分别为:

其中:B(i)(Xj)为第i个基分类器在特征X的检测结果;Ntrn为训练样本集大小。选择性集成流程如图3所示。

图3 选择性集成流程

其中步骤四中的基于遗传算法的选择性集成算法具体实现可参考文献[13]。

3 实验和结果分析

本文的实验在一些图像隐写分析数据库,例如BOWS2、BOSSBass 0.92以及Camera图像库,选择5 000幅载体图像。试验中采用了不同的基分类器、训练样本采样策略,以及不同训练集大小、嵌入率和嵌入算法情况下,进行图像隐写分析算法验证,同时与当前一些隐写分析算法进行性能比较。其中,所有图像的质量因子设定为75,图像隐写特征则采用维数适中的CC-PEV特征。实验采用了Michael E.Tipping开发的Sparse-Bayes工具箱[14],实现了对相关向量机的学习和分类。实验一对正常载体图像库分别使用JP Hide&Seek(JPHS)、F5、MB1、MB2、OutGuess Steghide等算法进行信息嵌入,嵌入率分别为最高载体嵌入量的25%,50%,100%。其中训练集由4 000幅的载体图像以及400幅隐写图像构成,测试集由1 000幅载体图像和1 000幅隐写图像构成。经过实验,得到结果如表1所示。

表1 集成相关向量机与集成SVM,集成KNN的对比结果

其中,E-SVM,E-RVM E-KNN分别表示集成SVM,集成RVM和集成KNN分类器。从实验结果可以看出,E-RVM具有较好的分类效果。

实验2验证了测试训练集大小不同情况下,对测试性能的影响。样本采样策略采用成对样本随机选取一个的方法进行。设随机抽取N个成对的样本,其中一半样本用于训练、一半样本用于测试。实验2采用nsF5隐写算法,隐写嵌入率为0.2bpac,隐写分析特征与实验1相同,表2给出了20次实验的平均值。

表2 不同样本集大小时的性能对比

其中M为样本数量,ER表示平均错误率,AUC表示准确率提升。

4 结语

本文针对传统的机器学习的分类器中存在的缺陷,提出了一种基于集成相关向量机的图像隐写分析方法,同支持向量机相比,相关向量机最大的优点就是极大地减少了核函数的计算量,并且也克服了所选核函数必须满足Mercer条件的缺点。文章据此构建集成分类器,为了更好的利用样本以及增加基分类器之间的差异,本文选择成对样本的采样以及基于遗传算法的采样策略设计隐写分析方案,在对掩密图片进行检测的实验中,集成RVM表现了良好的分类精度,取得了较好的效果。

[1] Chang CC and Lin CJ.LIBSVM:a Library for Support Vector Machines[J].Acm Transactions on Intelligent Systems&Technology,2011,2(3):389-396.

[2] Farid H and Si wei.L.Detecting hidden messages using higher-order statistics and support vector machines[C].InformationHiding,5thInternationalWorkshop2002,2578: 340—354.

[3] AvcbaÏ,Kharrazi M,Memon N D,and Sankur B.Image steganalysis with binary similarity measures[J].Journal on Applied Signal Processing,2005,17:2749-2757.

[4] Fridrich J.Feature-based steganalysis for JPEG images and its implications for future design of steganographic schemes[C]. Information Hiding,6th International Workshop,2004,3200: 67-81.

[5] Goljan M,Fridrich J,and Holotyak T.New blind steganalysis and its implications[C].Proceedings SPIE,Electronic Imaging,Security,Steganography,and Watermarking of Multimedia Contents VIII,2006,60(72):1-13.

[6] Pevny T and Fridrich J.Merging Markov and DCT features for multi-class JPEG steganalysis[C].Proceedings SPIE,Electronic Imaging,Security,Steganography,and Watermarking of Multimedia Contents IX,2007,6505:1-3.

[7] Shi Y Q,Chen C,and Chen W.A Markov process based approach to eff ective attacking JPEG steganography.Information Hiding[C],8th International Workshop,volume 2006,4437: 249-264.

[8] Chen C and Shi YQ.JPEG image steganalysis utilizing both intrablock and interblock correlations[C].In Circuits and Systems,ISCAS,2008:3029-3032

[9] Bryll R,Gutierrez-Osuna R,and Quek F.Attribute bagging: Improving accuracy of classifier ensembles by using random feature subsets[J].Pattern Recognition,2003,36(6): 1291-1302.

[10] Kodovsky J,Fridrich J and Holub V.Ensemble Classifiers for Steganalysis of Digital Media[J].IEEE Transactions on Information Forensics and Security,2012.7(2): 432-444.

[11] Tipping M E.Sparse Bayesian learning and the relevance vector machine[J].Journal of Machine Learning Research,2001,1(3):211-244.

[12] Zhou Zhi-hua,Wu Jian-xin,Tang Wei.Ensembling neural networks:Many could be better than all[J].Artificial Intelligence,2002,137(1-2):239-263

[13] 狄富强,张敏情,刘佳.一种基于成对采样和选择性集成的隐写分析算法[J].光电子.激光,2015 26(4):746-751.

[14] Tipping M E and Faul A C.Fast marginal likelihood maximisation for sparse Bayesian models[C].Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics,2010:3-6

Image Steganalysis based on Ensemble Relevance Vector Machines

LI Chang-long1,LIU Jia2,NIU Ke2
(1.Joint Staff of the PAP,Beijing 100010,China;2.Engineering University of PAP,Xi’an Shaanxi 710086,China)

In this paper,an alternative and well-known machine learning tool—ensemble RVM(Relevance Vector Machines)classifier implemented as random forest is proposed,and experiment indicates this proposed ensemble classifier is an effective tool,quite suitable for steganalysis with high dimension feature.Ensemble classifiers could quickly consititutes steganography detector,remarkably reduce the detection erroer-rate of steganalysis system.Meanwhile,this ensemble classifier is of fairly high detection rate for the large-capacity steganographic embedment.So ensemble classification is portrayed as a powerful developing tool that allows fast construction of steganography detectors with markedly improved detection accuracy across a wide range of embedding methods.

steganalysis;ensemble classiffier;RVM

TN91

A

1009-8054(2016)08-0087-04

∗2016-03-28

国家自然科学基金(No.61379152,No.61403417)

李长隆(1982—),男,硕士生,工程师,主要研究方向为图像隐写分析,机器学习;

刘 佳(1982—),男,博士,讲师,主要研究方向为模式识别,信息隐藏。

钮 可(1981—),男,博士生,讲师,主要研究方向为视频信息隐藏。■

猜你喜欢
分类器载体向量
创新举措强载体 为侨服务加速跑
向量的分解
聚焦“向量与三角”创新题
坚持以活动为载体有效拓展港澳台海外统战工作
基于差异性测度的遥感自适应分类器选择
基于实例的强分类器快速集成方法
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
基于层次化分类器的遥感图像飞机目标检测
一种基于置换的组合分类器剪枝方法