多类别图像数据分类隐私保护算法

2020-11-24 07:45冷碧玉
科学技术与工程 2020年29期
关键词:敏感数据精确度类别

郑 剑, 冷碧玉

(江西理工大学信息工程学院, 赣州 341000)

目前随着机器学习逐渐被广泛地应用于各个领域,如医疗、交通等方面,为了更好地提供服务,用收集数据训练泛化模型解决一类问题已经成为常见技术。理想情况下,训练得到的模型不仅具有高精确度,且作为训练集的敏感数据的隐私安全可以得到保障。但是根据Zhang等[1]所做的实验说明了模型在训练的过程中会隐式地“记住”其模型的训练数据集,攻击者可以直接借此分析得到敏感数据又或者是通过多次模型查询得到的结果间接分析,得到学习模型训练集的敏感数据;Shokri等[2]在2017年利用“成员推理攻击”的方法证明了通过模拟目标模型的行为训练攻击模型可以推理判断出某条数据是否是目标模型训练集中的一部分,导致信息的泄露。除此之外,Szegedy等[3]实验证明,利用生成的对抗样本就能导致训练的模型出错,使训练得到的模型精确度下降。由此可见,直接发布由原始数据集作为训练集训练的模型易受到攻击使训练得到的模型精确度较低,且易受到攻击导致数据隐私泄露。因此,如何将敏感数据作为训练集用于学习模型,既保证训练得到的模型精确度,同时又保证作为训练集的敏感数据的隐私安全已经成为一个热门的研究话题。

Papernot等[4-5]提出了PATE(private aggregation of teacher ensembles)策略,并基于该策略提出了解决类别少的图像数据集分类任务的高效方法——PATE-G方法。所谓类别少的图像数据集,如MNIST、SVHN数据集等,即数据集中包含的分类数目少的图像数据集,一般为10个类别;PATE-G方法利用生成式对抗网络[6]能够高效处理类别少的图像数据集的分类任务,但PATE-G方法对于图像数据集中类别数远大于10(如cifar-100数据集,数据集中的类别数为100)的分类效果并不佳。为此,提出差分隐私与深度残差网络(differential privacy with deep residual networks,Diff-RN)方法,保证训练公开的模型处理多类别图像数据集分类任务具有一定的精确度且能保护训练集的隐私安全。针对多类别图像数据集的分类任务,Diff-RN方法学习得到的模型分类精确度有效提升,而且在学习模型的过程中数据损失量也相对降低。Diff-RN方法将差分隐私应用到机器学习中,运用知识迁移、半监督学习等知识进行模型训练,保证训练得到的模型分类精确度,同时保护训练集的数据隐私安全。

针对同一数据集cifar-100,Diff-RN方法与PATE-G方法相比,学生模型分类结果的精确度有所提升,并且训练过程中的数据损失量也相对降低。现将详细介绍运用Diff-RN方法训练公开的学生模型的具体操作,定量地分析整个学习模型过程中的隐私预算,在不损害目标模型实用性和数据可用性的基础上,评价Diff-RN方法的可取性。

1 相关知识

1.1 差分隐私

差分隐私(differential privacy)[7-9]建立在假定攻击者拥有最大背景知识的前提下,定量地分析敏感数据可能被披露的风险,引入随机性,使得特定目标的数据记录是否在数据集中并不影响查询结果,从而保证敏感数据的隐私不被泄露。

定义1 (ε,δ)-差分隐私。给定一个M(随机查询算法),对于任意D和D′(邻近数据集),若M在数据集D和D′查询下得到的结果s,s∈Range(M),满足式(1),则称随机查询算法M满足(ε,δ)-差分隐私。

Pr[M(D)∈s]≤eεPr[Μ(D′)∈s]+δ

(1)

式(1)中:Pr[·]表示若应用随机查询算法M数据可能被披露的风险;ε(隐私预算)表示随机查询算法M所能够提供的隐私保护水平,ε的最佳取值可使得输出结果的隐私保护程度与数据的可用性达到平衡,当ε=0时,敏感数据的隐私保护水平达到最高,此时数据的可用性最低;δ表示允许每个目标数据都会存在δ大小的概率隐私会泄露,δ的取值通常是很小的常数,当δ=0时,则称隐私随机查询算法M满足ε-差分隐私。

定义2 拉普拉斯机制[10]。给定一个数据集D,假定有一个函数f:D→Rd,f的函数敏感度为Δf,如果随机算法M满足式(2),则称算法M满足ε-差分隐私。

M(D)=f(D)+Lap(b)

(2)

式(2)中:Lap(b)服从位置参数为0;b为尺度参数,b=Δf/ε。

1.2 PATE策略

PATE策略的主要流程是将敏感数据集分成多个互斥的数据集,利用每个互斥的数据集作为学习模型的训练集,分别独立地训练解决同一任务的分类器即教师模型,在学习教师模型的过程中不涉及噪声的注入,教师模型完全依赖于敏感数据训练集,其过程如图1所示。

图1 PATE策略示意图Fig.1 The view of the PATE strategy

训练好教师模型之后,将教师模型的预测结果fi(x)(即标记数据)进行类别分类,并且计算每个类别的教师模型数,即每个类别的投票数,记作:

nj(x)=|{i:i∈[n],fi(x)=j}|

(3)

式(2)中:j为某个给定的类别;fi(x)为每个教师模型的预测分类结果输出;x为教师模型的训练数据集;n为教师模型的预测结果可以分成的类别数目。

为了保证训练集数据的隐私安全,不单独访问教师模型,并且对教师模型的预测结果进行满足式(4)的要求进行聚合操作,再利用聚合的结果与非敏感公共数据集利用半监督学习方式进行学生模型的学习,公开解决实际问题。

(4)

式(4)中:Lap(b)表示服从位置参数为0、尺度参数为b的拉普拉斯分布;利用Laplace机制注入噪声,噪声量的大小与函数敏感和分配的隐私预算有关。

1.3 瞬时计数器

为了更好地分析和计算在聚合过程中所耗费的基于差分隐私上的隐私代价,运用Abadi等[11]所提出来的瞬时计数器(the moments accountant),细节如下。

定义3 隐私损失。假定有随机算法M,有辅助信息输入aux和Range(M)(随机算法M的所有可能的输出结果的集合),对任意邻近数据集D和D′,随机算法的查询结果s∈Range(M),则定义随机算法M为查询数据所付出的隐私损失为

(5)

定义4 瞬时计数器。假定有一随机算法M,辅助信息输入aux以及邻近数据集D和D′,则瞬时计数器中的取值满足下列等式:

αM(λ;aux,D,D′)lnE{exp[λC(M,aux,D,D′)]}

(6)

(7)

(8)

1.4 深度残差网络

深度残差网络(deep residual networks)[12],主要解决了传统卷积神经网络为提升训练得到的模型精确度而增加训练深度导致模型性能退化的问题,即在模型训练过程中,当使用传统卷积神经网络训练数据集到达一定深度之后,模型的性能不升反降、计算参数大大增加、训练数据的精确度不升反减、训练过程中梯度消失的问题,不能保证学习到的模型的分类精确度。

深度残差网络由特殊结构残差块(residual block)组成,增加残差块的个数来训练模型深度的同时,模型的性能也能够得到提升,不像传统卷积神经网络受到模型深度的制约,导致训练模型的泛化能力弱。其深度残差网络结构如图2所示。

图2 残差块示意图Fig.2 The view of residual block

为了更好地学习模型,常用两种残差块以适应不同深度需求的模型训练,一种是两层的卷积层作为残差块来训练浅层模型,另外一种是三层卷积层作为深度残差网络的残差块来训练深层模型,如图3所示。

图3 常用残差块Fig.3 Common residual blocks

2 Diff-RN方法训练过程

本节将详细介绍Diff-RN方法是如何在训练模型的过程中,既保证学生模型分类精确度,同时又保护教师模型训练集数据的隐私,分析过程算法TrainModel的时间复杂度,描述深度残差网络应用于PATE策略中解决多类别图像数据分类任务的过程,在保护敏感训练集隐私安全的前提下提升模型的分类精确度,证明整个模型训练过程满足差分隐私的定义。算法TrainModel如下。

Input:D={(xk,yk) |k=1, 2, …,m}—xkis data,ykis the label ofxk;

ε—privacy budget;

learning_rate —initial learning rate;

fre —the parameter of learning rate;

epochs —the parameter of model train;

D1={(xi,yi) |i=1, 2, …,N}—non-sensitive public dataset.

Output:D′ ={(xi,yi) |i=1, 2, …}—the predictions ofxi;

acc —the accuracy of model prediction;

loss—amount of data loss.

1: dividedDintondisjoint datasets (xi,yi)

2: for each set (xi,yi) do

3: build classifierfi(1 ≤i≤n) called teacher with a way of black box

4: for each teacher do

5: count(vj)

6:fi(x)←argmaxi{vi+Lap(Δf/ε)}

end for

end for

7: for allfi(x) andD1do

8: rate←learning_rate

9: foriin epochs do

10: build classifierf′ called student with deep residual networks

11: calculate acc, loss

12:i←i+1

end for

13: rate←rate /fre

14: update learning rate of the student model

end for

return acc, loss,f′(x)

算法TrainModel的时间复杂度为O(mn),算法的第3行根据互斥数据集用黑盒的方式训练多个教师模型。第5行是对教师模型的预测结果进行分类聚合,统计每个类别教师模型的个数,即每个类别的票数。通过第6行针对每个类别的票数结果注入服从拉普拉斯分布的随机噪声,使得该过程满足差分隐私定义,敏感训练集的隐私将得到保护,同时保证敏感训练集的可用性。算法第1~6行是教师模型及票数聚合过程,第7~14行是针对公开模型——学生模型的训练过程。

在教师模型的训练过程中不涉及任何随机噪声的注入,保证训练得到的教师模型的高精确度,教师模型训练完成后,聚合教师模型的预测分类结果,统计每个类别的教师模型数目(即票数),对每个类别统计的票数注入服从拉普拉斯分布的随机噪声,防止攻击者根据真实票数推理出教师模型所依赖的敏感训练集的隐私。

定理2 算法TrainModel满足ε-差分隐私。

证明算法中聚合票数时是根据教师模型预测结果分类中每个类别教师模型的个数来确定的,故其敏感度Δf=1;只有在聚合教师模型预测结果分类统计投票数的时候注入服从尺度参数为b=1/ε拉普拉斯分布的随机噪声扰乱票数结果,故算法TrainModel满足ε-差分隐私的证明推导如下:

exp(εΔf)=exp(ε)

(9)

式(9)中:d表示d维数据集。

因为算法第3行教师模型的训练依赖于敏感数据训练集,故不能直接公开,攻击者不能直接进行单一的教师模型访问造成训练集数据的隐私泄露;由算法的第10行训练公开的学生模型,标记部分非敏感公开数据集与剩下的非敏感公开数据集结合作为学生模型的训练集,在假定攻击者拥有最大背景知识的前提下,攻击者可以获得学生模型的内部参数直接分析,训练对抗模型推理,但是根据所得的学生模型内部参数分析不出用于学习教师模型的敏感数据训练集,从而使敏感数据被泄露的风险控制在安全范围内。

定理3 Diff-RN方法满足ε-差分隐私。

证明用Diff-RN方法训练处理多类别图像分类任务的模型,保护训练集数据隐私,包括教师模型的训练、教师模型预测类别票数聚合过程以及学生模型的训练过程,整个过程教师模型的训练以及学生模型的训练过程中不涉及随机噪声的注入,只有聚合教师模型预测结果分类票数的时候注入服从拉普拉斯分布的随机噪声,引入随机保护训练集的隐私安全,故由定理2及差分隐私的组合性质可证Diff-RN方法训练模型满足ε-差分隐私。

3 实验结果及分析

Diff-RN方法较之PATE-G方法,对处理多类别图像数据集的分类任务来说,在对敏感训练集提供相同隐私保护水平的情况下,学生模型的分类精确度有所提升,并且学生模型训练期间的数据损失量也相对减少,在整个学习模型的过程中只有聚合教师模型结果的时候涉及噪声的注入,因此训练模型整个过程的隐私预算易于计算,整个学习模型过程满足(ε,δ)-差分隐私。

在本节中将通过具体的数据比较分析Diff-RN方法与PATE-G方法在真实公开的同一图像数据集cifar-100上的模型分类图像的精确度以及学习模型过程中数据损失量对比等实验,充分证实Diff-RN方法在实际问题解决中的扩展性与可行性,实验部分采用Python代码来实现Diff-RN方法与PATE-G方法在各类因素的对比分析。

3.1 实验数据

实验使用的数据是公开图像数据集cifar-100,该图像数据集是由100个类的60 000张32×32的RGB彩色图像组成的,cifar-100数据集被分成50 000个训练图像数据,10 000个测试图像数据,每个类别包含600张图像数据,实验采用带有动量的随机梯度下降法[13],在学习模型的过程中先给定初始学习率,经过模型的逐轮训练,学习率衰减,得到学习模型的最佳学习率。

3.2 实验分析及比较

实验部分参数设置如表1所示。

实验1 Diff-RN与PATE-G方法训练学生模型分类精确度对比。

实验主要是进行Diff-RN方法与PATE-G方法在多类别图像数据集分类任务中,训练学生模型分类结果精确度比较。

两种方法训练学生模型分类精确度如图4所示。由图4可以看出,两种方法均在假定训练教师模型个数相同的情况下,为保护训练集的数据隐私,聚合过程中对教师模型预测类别的票数注入随机噪声是由教师模型个数来确定的,故模型训练过程中隐私预算可确定;在对两种方法训练模型提供相同隐私保护水平的情况下,随着训练学生模型的轮数增加,两种方法最后学习得到的模型分类结果精确度都趋于收敛,但总体上讲,Diff-RN方法学习得到的模型分类结果精确度比PATE-G方法训练得到的模型分类精确度要高,在模型训练轮数较少的情况下,两种方法学习得到的模型分类精确度相差不大,如训练轮数∈(0,60)时;但随着模型训练轮数的增加,模型分类精确度差距逐渐显现出来。

由实验说明,随着学习模型的轮数增加,利用深度残差网络学习模型,模型的分类精确度有所提升。这是因为要提高模型的性能和预测精确度,就意味着需要加深训练网络的深度和宽度,但这就意味着模型参数就会越复杂,计算量也会越大;传统卷积神经网络加深网络的深度和宽度并不能提升精确度,反而会导致精确度下降,引起梯度消失;但深度残差网络利用多层卷积网络作为一个残差块,增加网络训练深度只需增加残差块的个数,故可以高效地解决传统卷积神经网络面临的问题。

由此表明,Diff-RN方法学习得到的模型具有一定的泛化能力,在多类别图像数据集的分类任务中具有高精确度,且在模型分类过程中注入了满足ε-差分隐私的噪声,提升模型分类精确度的同时也保证了训练集数据的隐私安全,具有一定的可行性和推广性。

实验2 Diff-RN与PATE-G方法训练学生模型数据损失量对比。

实验主要是进行学生模型过程在确定教师模型个数的情况下,考虑两种方法在训练模型过程中提供同等的隐私保护程度的情况下,Diff-RN方法与PATE-G方法在训练学生模型过程中的数据损失量比较,如图5所示。从图5中可以看出,随着模型训练轮数增加,Diff-RN方法和PATE-G方法训练学生模型过程中的损失量都在逐渐降低并趋于收敛,但在图5中可以看出,两种方法训练学生模型过程中,数据损失量总的趋势是下降的,并且在训练轮数大概为80时,两种方法学习模型的数据损失量都趋于收敛。

图5 损失量比较Fig.5 Comparison of losses

公开学生模型,攻击者只能分析得到学生模型的内部参数,而分析不出教师模型所依赖的训练集信息,聚合教师模型预测结果分类的票数,针对票数注入随机噪声,标记部分非敏感公开数据集与非敏感公开数据集结合作为学生模型的训练集,构建学生模型。实验结果表明,针对同一图像数据集学习模型处理同一分类任务,随着模型训练轮数的增加,两种方法的数据损失量都趋于平衡,但是Diff-RN比PATE-G方法的数据损失量少。公开学生模型之后,不再保留教师模型和原始训练集,既在保证敏感训练集数据可用性的前提下,也保证了敏感训练集数据的隐私安全。

实验3 Diff-RN与PATE-G方法训练学生模型的隐私预算对比。

实验旨在考察训练公开的学生模型在相同训练轮数的条件下,在聚合票数过程中所注入的随机噪声的多少对公开的学生模型的分类精确度的影响。注入噪声的多少直接影响到公开的学生模型的分类精确度的高低。隐私预算越小,注入的随机噪声越多,数据的可用性就越低,学习到的模型精确度也越低;反之,隐私预算越高,随机噪声注入越少,对数据的可用性影响越小,其模型精确度越高。

实验结果如图6所示。从图6中可以看出,Diff-RN方法得到的学生模型的精确度高于PATE-G方法学习得到的学生模型精确度,且Diff-RN方法训练的学生模型在ε=0.6左右就能够收敛,而PATE-G方法训练的学生模型在ε=0.7左右时收敛,相比之下,Diff-RN方法训练的公开模型的精确度能够较快地收敛。

图6 隐私预算比较Fig.6 Privacy budget comparison

实验证明,Diff-RN方法能够在较小的隐私预算下,给数据集提供更高的隐私保护级别,同时学生模型的分类精确度更高,证明了Diff-RN方法训练公开模型的可用性。

4 结论

针对机器学习应用越来越广泛,利用敏感数据学习分类模型也成为一种热门方法。但模型在训练过程中隐式地记住训练集而导致训练集敏感信息泄露。针对该问题提出解决办法,将差分隐私应用于机器学习训练模型的过程中,选择合适的噪声机制注入随机噪声,结合教师模型预测聚合的结果与非敏感公共数据集利用半监督学习的方式训练学生模型,公开学生模型之后,不再保留敏感训练集和教师模型,攻击者只能直接分析模型的内部参数或是多次模型间接分析,都只能得到注入了随机噪声的数据标签,得不到用于训练教师模型的敏感数据训练集信息,在保证了数据安全性的同时又保证了数据的可用性,将训练集数据隐私泄露的风险控制在安全范围内。提出的Diff-RN方法能够高效地解决多类别图像分类任务,加深网络的深度训练模型,提升了模型的分类精确度,降低了数据损失量,并且保证了敏感训练集数据的隐私安全。

猜你喜欢
敏感数据精确度类别
干扰条件下可检索数字版权管理环境敏感数据的加密方法
论陶瓷刻划花艺术类别与特征
基于大数据的智能数据脱敏系统
一起去图书馆吧
实现虚拟机敏感数据识别
“硬核”定位系统入驻兖矿集团,精确度以厘米计算
放缩法在递推数列中的再探究
基于位置跳变的闪存数据安全存储方法
选相纸 打照片
近似数1.8和1.80相同吗