面向大数据分析的差分隐私在线学习策略研究

2019-06-27 09:39徐红兵

信阳农林学院学报 2019年2期

徐红兵

(万博科技职业学院理工分院，安徽合肥，230031)

大数据不仅仅是指数据量大，同时也意味着数据中蕴含的信息也有巨大的价值。但在研究过程中存在着数据被泄露的危险，且存在于数据交互的诸多环节中，很容易造成数据库中用户隐私数据的泄露，甚至被一些不法人员用来进行电话诈骗的媒介，所以大数据时代的隐私保护也成为了亟待解决的问题[1]。

在数据挖掘中最基础、最频繁的动作就是数据的线性查询，因此，线性查询在数据的隐私保护中占据着极其重要的位置，尤其是交互式线性查询，更是增加了数据访问过程中数据的处理量，数据量偏大使得传统数据隐私保护模型的检测效率往往较低[2]。本文针对大规模数据集隐私保护的需求和交互式数据访问的特点，提出了改进的差分隐私保护模型。改进模型通过对大数据集的关联性进行分析以减少交互式查询过程中冗余信息的计算，采用交替方向乘子法提高负载矩阵的分解速度，最后采用自适应加噪技术生成差分隐私模型所需的噪声数据以解决数据灵敏度问题。

1 差分隐私保护模型

上世纪60年代，Dalenius第一次提出了隐私保护的问题，隐私保护的主要思想是包含使用者和入侵者在内的任何用户在访问数据库数据时都无法获取准确的信息。隐私保护可以分为分组隐私保护和差分隐私保护，常见的有k-匿名分组保护算法、差分隐私保护算法等[3]。

数据隐私保护存在于许多领域中，数据查询是隐私保护领域中最基础、最常见的一个环节。线性数据查询通常分为交互式与非交互式两种，交互式查询更多的用于具有保密要求的数据交互中，交互过程中会对交互数据进行处理，所以交互的开销会受到交互的数据量量级的影响。如果在大数据的交互过程中仍然采用原始的线性查询隐私保护策略，则会使得数据处理的时间开销难以令人接受，所以对大规模数据集的隐私保护模型进行改进极有必要。

差分隐私保护模型的基本思路是数据集中任意个体的存在与否对用户的查询结果不会造成剧烈影响。设数据集为D，其中的个体数据为A，对数据集查询的动作为f，查询的结果用f(D)表示。如果将数据集D中的个体A删除掉，并重复查询动作f所获得的结果仍然为f(D)，则认为数据A存在于数据集D中与否并没有对数据集D产生任何风险。M表示差分隐私保护的随机算法，PM表示随机算法M所有可能输出的集合，如果随机算法M对于任意的数据集D、数据集D’与结果集PM的所有SM都满足式(1)的约束，则称随机算法M具备ε-差分隐私保护的能力，其中ε表示隐私保护预算。

Pr[M(D)∈SM]≤exp(ε)×Pr[M(D’)∈SM]

(1)

2 大数据环境中交互式查询差分隐私保护模型

2.1 模型结构总体设计

差分隐私保护模型应用于大数据环境下的交互式查询的基本思路是：(1)获取数据间的关联关系以减少冗余计算；(2)采用交替方向乘子法对查询负载矩阵进行分解；(3)采用自适应的加噪算法实现数据加噪；(4)返还真实结果。改进的差分模型的结构图如图1所示，可以看出模型供分为三个部分，即数据关联属性计算、负载矩阵的高效分解、数据加噪和去噪。其流程为：(1)在数据集中查询并获取数据；(2)设置最小支持度和最小置信度，并通过计算负载矩阵间的关联关系，减少冗余的数据计算；(3)对关联关系和负载矩阵进行分解，获取分解结果；(4)对矩阵分解结果L和数据集D添加Laplace噪声，以实现差分隐私保护；(5)将添加噪声的结果返回给查询的用户。