徐红兵
(万博科技职业学院 理工分院,安徽合肥,230031)
大数据不仅仅是指数据量大,同时也意味着数据中蕴含的信息也有巨大的价值。但在研究过程中存在着数据被泄露的危险,且存在于数据交互的诸多环节中,很容易造成数据库中用户隐私数据的泄露,甚至被一些不法人员用来进行电话诈骗的媒介,所以大数据时代的隐私保护也成为了亟待解决的问题[1]。
在数据挖掘中最基础、最频繁的动作就是数据的线性查询,因此,线性查询在数据的隐私保护中占据着极其重要的位置,尤其是交互式线性查询,更是增加了数据访问过程中数据的处理量,数据量偏大使得传统数据隐私保护模型的检测效率往往较低[2]。本文针对大规模数据集隐私保护的需求和交互式数据访问的特点,提出了改进的差分隐私保护模型。改进模型通过对大数据集的关联性进行分析以减少交互式查询过程中冗余信息的计算,采用交替方向乘子法提高负载矩阵的分解速度,最后采用自适应加噪技术生成差分隐私模型所需的噪声数据以解决数据灵敏度问题。
上世纪60年代,Dalenius第一次提出了隐私保护的问题,隐私保护的主要思想是包含使用者和入侵者在内的任何用户在访问数据库数据时都无法获取准确的信息。隐私保护可以分为分组隐私保护和差分隐私保护,常见的有k-匿名分组保护算法、差分隐私保护算法等[3]。
数据隐私保护存在于许多领域中,数据查询是隐私保护领域中最基础、最常见的一个环节。线性数据查询通常分为交互式与非交互式两种,交互式查询更多的用于具有保密要求的数据交互中,交互过程中会对交互数据进行处理,所以交互的开销会受到交互的数据量量级的影响。如果在大数据的交互过程中仍然采用原始的线性查询隐私保护策略,则会使得数据处理的时间开销难以令人接受,所以对大规模数据集的隐私保护模型进行改进极有必要。
差分隐私保护模型的基本思路是数据集中任意个体的存在与否对用户的查询结果不会造成剧烈影响。设数据集为D,其中的个体数据为A,对数据集查询的动作为f,查询的结果用f(D)表示。如果将数据集D中的个体A删除掉,并重复查询动作f所获得的结果仍然为f(D),则认为数据A存在于数据集D中与否并没有对数据集D产生任何风险。M表示差分隐私保护的随机算法,PM表示随机算法M所有可能输出的集合,如果随机算法M对于任意的数据集D、数据集D’与结果集PM的所有SM都满足式(1)的约束,则称随机算法M具备ε-差分隐私保护的能力,其中ε表示隐私保护预算。
Pr[M(D)∈SM]≤exp(ε)×Pr[M(D’)∈SM]
(1)
差分隐私保护模型应用于大数据环境下的交互式查询的基本思路是:(1)获取数据间的关联关系以减少冗余计算;(2)采用交替方向乘子法对查询负载矩阵进行分解;(3)采用自适应的加噪算法实现数据加噪;(4)返还真实结果。改进的差分模型的结构图如图1所示,可以看出模型供分为三个部分,即数据关联属性计算、负载矩阵的高效分解、数据加噪和去噪。其流程为:(1)在数据集中查询并获取数据;(2)设置最小支持度和最小置信度,并通过计算负载矩阵间的关联关系,减少冗余的数据计算;(3)对关联关系和负载矩阵进行分解,获取分解结果;(4)对矩阵分解结果L和数据集D添加Laplace噪声,以实现差分隐私保护;(5)将添加噪声的结果返回给查询的用户。
图1 大数据环境中交互式查询差分
改进的差分隐私保护模型选用FP-growth算法[4]对数据中隐藏的关联模式进行挖掘,通过关联模式实现冗余数据的筛选。
图2 基于关联规则的数据筛选模型流程图
如图2所示,基于关联规则的数据筛选模型具体流程如下:
(1)全面扫描数据集,获取频繁项候选集;
(2)根据最小支持度minSup对频繁项候选集进行筛选,构建FP-tree;
(3)对构建的FP-tree进行剪枝处理;
(4)利用剪枝后的FP-tree树建构前缀路径集合;
(5)利用前缀路径集合获取数据关联模式。
图3 基于差分隐私的自适应加噪模型流程图
基于差分隐私的自适应加噪模型流程图如图3所示,具体流程为:
(2)利用Laplace机制对数据集L和数据集D添加ε噪声;
(3)去掉数据的无关属性,并对其还原;
(4)返回数据结果
通过设置最小支持度,计算出数据集的关联关系,结果如表1所示。
表1 关联性分析表
从表1可以看出,经过处理后数据项的数量有效减少,降低了后续计算的压力和时间、空间开销。
表2 隐私保护结果表
表2结果为改进的差分隐私保护模型与LRM模型[5]、MM模型[6]相比较的结果,表中数值表示添加噪声前后的数据距离。从表中结果可以看出,当ε为1.25时,三种算法的结果接近,其他情况时,改进的差分隐私保护模型结果要更好些。
文章针对大数据交互式查询过程中存在的差分隐私保护问题和隐私检测效率偏低的问题,结合大数据交互式线性查询特点和差分隐私保护特点,通过引入关联模型减少冗余信息的计算,采用交替方向乘子法对查询负载矩阵进行分解,并采用自适应加噪技术生成差分隐私模型所需的噪声数据,最后采用实验验证了本文模型的有效性。