云计算环境下数据安全与隐私保护研究综述

2022-05-06 06:06邓桦宋甫元付玲欧露尹辉高毅秦拯
关键词:公钥关键字密文

邓桦,宋甫元,付玲,欧露,尹辉,高毅,秦拯†

(1.湖南大学信息科学与工程学院,湖南长沙,410082;2.中联重科股份有限公司,湖南长沙,410013;3.长沙学院计算机工程与应用数学学院,湖南长沙,410022;4.益丰大药房连锁股份有限公司,湖南长沙,410199)

云计算(Cloud Computing)是分布式计算、并行计算、效用计算、虚拟化、负载均衡等传统计算技术和网络技术发展融合的产物[1].云计算是以按需付费的模式,通过互联网提供可配置计算资源共享池(资源包括网络、服务器、存储、应用软件、服务等).

在使用云计算服务时,用户最为关心和担忧的问题是数据的安全和隐私是否得到了很好保护.当用户将数据外包给云服务提供商后,便失去了对数据的物理控制,数据的安全和隐私依赖于云服务提供商对数据采取的安全防护措施.如果安全措施被外部黑客或者云服务提供商内部人员破坏,用户的敏感数据有可能被泄露,数据的安全和隐私将被严重破坏[2].实现云计算数据安全与隐私保护的方式有很多,其中最主要的是使用密码学方法和技术.但是,这同时也带来了两个主要问题:一是数据被加密后,如何对密文态数据进行查询搜索以及如何将密文准确分享给指定用户;二是如何对数据进行差分隐私保护,防止用户从公开发布数据中挖掘敏感信息.

密文查询是指在不泄露明文信息的前提下对密文执行有效检索.可搜索加密是最主要的密文查询方法.目前研究较多的可搜索加密主要可以分为两类:对称可搜索加密和非对称可搜索加密.在可搜索加密过程中,用户可以通过提交查询陷门,委托云服务器在加密索引上进行查询匹配,并将对应的密文结果返回给用户.然而,现有的可搜索加密方案在安全性、效率、功能性等方面仍然存在一些不足.一方面,传统的隐私保护密文查询协议大多致力于抵御不可信云攻击,且需要依赖不合谋的双云模型进行隐私计算,或者依靠可信第三方对用户合法性进行认证,缺乏有效的访问控制策略,安全性有待加强;另一方面,现有的可搜索加密技术大部分基于繁重的密码算法设计,计算开销通常较大,且需要用户和云服务器进行多轮交互,极大地增加了用户端的通信开销.此外,现有的密文查询系统模型仅适用于单用户系统,并且只关注了单关键字精确查询.但是,在实际应用中,多用户模型多关键字相似性搜索更为普遍.目前缺乏在多用户模型中进行密文查询的有效方法.

密文分享一般是指数据所有者将被加密的数据分享给指定的用户.实现密文分享的算法包含对称加密和非对称加密.在实际应用中,通常先使用对称加密密钥加密数据,然后使用指定用户公钥加密对称密钥;解密时指定用户使用私钥获得对称密钥,最终恢复数据.因此,使用非对称加密算法能够直接决定哪些用户可以访问数据.目前研究比较多的非对称加密算法有身份基加密、广播加密、属性基加密等.在云计算中,数据所有者在完成对数据的加密后,即利用指定用户的公钥加密完对称密钥后,可能还需要将数据分享给指定用户之外的更多用户;但是由于这些用户没有掌握指定用户的私钥,因而无法直接访问数据.解决这类问题的较好方法是代理重加密,它可以将消息在当前公钥下的密文,转换为在另一个公钥下的密文.但是,现有代理重加密方案只能在相同的加密系统下使用,不同加密系统的用户无法直接分享密文.

差分隐私保护作为具有严格数学定义的隐私保护框架,可使得敌手不能够推断某个个体是否在数据库中,已被广泛应用于谷歌Chrome 浏览器以及苹果iOS/macOS 操作系统.专家学者运用差分隐私保护框架,在大数据相关性隐私保护以及深度学习方面,取得了很好的研究成果.考虑云计算环境下时序数据中普遍存在的相关性,专家学者提出马尔科夫退出机制、时域上相关的高斯白噪声机制等,可有效隐藏云数据中自相关性;设计相关噪声机制,可有效解决互相关性隐私泄露问题.此外,考虑深度学习中隐私泄露问题,专家学者提出具有隐私保护的分布式深度学习框架、差分隐私保护的随机梯度下降方法、以及基于集中式差分隐私保护框架的方法等,实现训练模型的差分隐私保护.

本文第1 节介绍密文查询国内外研究现状和存在的问题,并介绍作者团队提出的空间关键字搜索技术;第2 节介绍密文分享国内外研究现状和存在的问题,并介绍作者团队提出的跨密码系统密文转换技术;第3 节介绍差分隐私国内外研究现状并对存在的问题进行阐述;第4 节对本文工作进行总结和展望.

1 密文查询

密文查询一般是指在密文态数据中进行关键字搜索,同时不泄露明文的任何有用信息.实现密文查询的主要方法是可搜索加密技术.近年来,随着云计算数据外包模式的充分发展,如何以加密的方式保护云外包数据的机密性,同时又保证加密数据的可搜索性以及搜索效率,引起了研究人员的广泛研究.云计算环境下典型的可搜索加密系统模型如图1 所示.该模型包括3 个实体,即数据提供者、数据使用者和云服务提供商.数据提供者加密外包数据并为外包数据建立安全可搜索索引,将密文和安全索引发送给云服务器进行存储;如果一个授权的数据使用者想从云服务器中获取感兴趣的数据文件,他将使用一个授权的密钥加密查询关键字生成查询陷门,并将查询陷门发送给云服务器;云服务器利用查询陷门在加密的数据中进行检索,最后将匹配到的查询结果发送给数据使用者.

图1 基于云计算的可搜索加密系统模型Fig.1 System model of searchable encryption in cloud computing

1.1 单关键字可搜索加密

Song等人提出了第一个实用的对称可搜索加密(Searchable Symmetric Encryption,SSE)方 案[3],Chang 和Mitzenmacher[4]提出了一个类似方案,但在安全性上第一次实现了前向安全.这两个方案的搜索时间与数据文件集合的规模呈线性关系.直到2006年,Curtomal等人[5]使用倒排索引结构提出了第一个次线性查询复杂度的SSE 方案.该方案将文档组织成keyword-document 对,其中使用伪随机函数加密关键词并存储在一个随机的哈希表中,文档标识符使用对称加密技术进行随机化,并保存在一个随机数组中,哈希表和数组组成倒排列表共同构成该数据集合的安全索引.该设计的优势是其搜索复杂度仅与查询结果集合的规模成正比,提高了查询效率.在后续的研究中,加密的倒排索引技术被广泛应用于可搜索加密方案的设计中.为了使可搜索加密技术能够在云计算环境中进行实际应用,SSE 被进一步扩展成动态结构,即支持安全的数据动态更新,允许数据提供者删除已有数据或增加新数据,且不会破坏SSE 方案的可搜索性,从而提高了可搜索加密的实用性[6-8].研究者针对传统动态可搜索加密方案在更新数据过程中由于文件注入攻击[9]泄露数据信息的问题,提出了动态可搜索加密的前向安全概念[10-12].前向安全能够保证更新数据不会泄露比一个预定义的泄露函数所表示的更多信息,用来抵御文件注入攻击.近年来,研究者们提出了后向安全的概念,它要求可搜索加密的搜索过程不能揭示已删除数据中的信息.图2 所示为对称可搜索加密算法结构框架.

图2 对称可搜索加密算法框架示例Fig.2 An example of symmetric searchable encryption

对称可搜索加密框架包括2 个算法,Setup 算法由数据提供者调用,其功能是对外包数据建立加密的可搜索索引(一般而言,数据本身采用语义安全的对称加密技术进行加密);Search 是一个数据查询者和云服务器之间的交互协议,数据查询者加密查询关键字,并将查询陷门发送给云服务器,云服务器根据查询陷门在外包的加密索引中进行搜索并返回查询结果给数据使用者.Boneh 等人[13]提出了公钥可搜索加密(Public Key Encryption with Keyword Search,PEKS),允许数据提供者使用数据使用者的公钥建立安全索引,数据使用者使用自己的私钥加密查询关键字生成陷门.与SSE 方案相比,PEKS 查询效率相对较低,但能够构造更丰富的查询功能,如关键字连接查询、子集查询和范围查询等[14-15].

1.2 多关键字可搜索加密

近年来,为了提高可搜索加密在云计算环境下的实用性,研究者对多关键字排名查询进行了研究.文献[16]利用矩阵变换,提出了一种保内积加密方案.该方案能够保证加密索引与陷门的内积等价于原明文数据向量与查询向量的内积.基于安全k 近邻(knearest neighbor,kNN)计算技术,研究者们陆续提出了很多改进的方案.Cao 等人[17]首次基于安全kNN计算技术在加密的向量空间模型下构造了云环境下隐私保护的多关键字排名查询方案MRSE.MRSE 需要一个全局词典,数据文件基于全局词典被转换为关键字索引向量,该索引向量被一个矩阵密钥M加密后成为文件的安全索引.云服务器通过计算查询索引和查询令牌之间的“内积相似度”来实现隐私保护的多关键字密文排名查询,“内积相似度”越大表明文件和查询越相关.由于该方案没有考虑索引关键词和查询关键词的权重,Cao等人[18]改进了他们的方案,运用明文信息检索领域来衡量关键字查询相关性的TF×IDF规则,其中TF和IDF分别表示安全索引和查询令牌向量中关键字的权重.云服务器在查询时所计算的两个向量内积实际上是查询和文件的相关性得分,用以衡量查询和文件的相关度,最终实现精确的排名查询.Xu 等人[19]首先指出Cao 等人的方案不支持预定义词典的动态更新等问题.为了解决动态更新问题,他们提出将索引向量加密矩阵M分割成很多小矩阵,当有关键字更新时,只需要局部更新发生变化的矩阵及对局部索引进行重新加密,这样可以避免索引完全重建.同时,小矩阵使索引加密和查询的计算复杂度也随之降低.Fu 等人[20]实现了根据用户个人兴趣在加密的外包云数据上进行个性化查询的多关键字安全查询方案,进一步提高用户查询体验.他们使用语义本体词汇网络来表达用户的查询兴趣模型,而用户个人兴趣模型的建立仅仅通过分析用户的查询历史即可自动完成.Xia 等人[21]提出了一种支持数据文件动态更新的多关键字排名查询方案.他们首先使用安全kNN 算法加密数据文件索引和用户查询向量,然后把安全索引按规则组织成树形数据结构以支持数据文件的动态删除和插入,并设计了“贪婪深度优先查询”算法加速多关键字查询.

随着云计算技术的发展,多关键字搜索问题受到了学术界和工业界的广泛关注,促使多关键搜索技术在多个领域得到了全面应用,如基于位置的服务[22-24]、智慧医疗[25]、智慧城市[26]、智能交通[27]等.云计算环境下的多关键字搜索主要聚焦于如何构建有效索引,使得基于多关键字的加密索引和查询陷门能够正确匹配.多关键字搜索作为一种密文查询技术,能够根据用户的查询请求,在海量、异构、复杂数据中,查找到与之匹配的索引[16].近年来,已有较多的工作研究了云计算环境下的多关键字搜索问题.Wang 等人[28]基于对称隐向量加密算法和位映射方法,将多关键字搜索问题转换为二进制向量匹配问题,提出了一种安全高效的基于空间关键字的布尔范围查询方案.Zheng 等人[29]基于R-tree 和矩阵加密技术提出了一种多关键字范围查询方案.Shu等人[30]基于矩阵变换和多项式函数性质,设计了一种多关键字任务推荐方案,实现了高效的任务匹配.Song 等人[31]利用矩阵相似性和对称谓词加密算法,提出了一种众包环境下基于多关键字和位置的任务匹配方案.一旦多关键字维度过高时,密文查询效率将会受到极大限制.为了解决多关键字密文搜索效率低等问题,本研究团队基于对称谓词加密和向量聚合方法,将多关键字前缀相同的向量聚合为一个向量,提出了一种基于车载众包的多关键字任务匹配方案,实现了高效的任务匹配.此外,针对多关键字搜索中存在的用户非法访问和搜索效率低等问题,本研究团队提出了一种基于多项式函数和几何范围查询的空间关键字搜索方案,实现了轻量级的访问控制和高效的多关键字搜索[32].空间关键字搜索技术框架如图3所示.

图3 空间关键字搜索技术框架图Fig.3 Framework of spatial keyword query

空间关键字搜索主要包含8 个阶段:在几何范围索引构建(GRQ.IndexBuild)阶段,数据拥有者根据空间位置集构建索引,并将位置索引发送给云服务器,用于几何范围查询;在范围查询陷门生成(GRQ.TrapGen)阶段,数据使用者根据拟合曲线的范围生成相应的陷门,并提交至云服务器;在几何范围查询(GRQ.Query)阶段,云服务器根据位置索引,匹配与范围陷门对应的位置;在空间关键字索引构建(MSSAC.IndexBuild)阶段,数据拥有者根据几何范围查询匹配到的位置,提取出该位置对应的空间关键字,并构建多关键字索引;在空间关键字陷门生成(MSSAC.TrapGen)阶段,数据使用者根据查询请求中的多关键字,生成查询陷门,并发送给云服务器;云服务器收到空间关键字查询请求后,首先对该用户进行基于角色的访问认证,一旦该用户角色满足访问控制策略,则云服务器执行空间关键字搜索(MSSAC.Query);最后,云服务器将搜索得到的密文结果返回给通过认证的用户,该用户可以利用对称密钥解密该密文.

2 密文分享

2.1 云计算中公钥加密方法

为保障云计算中数据安全和隐私,防止数据被非授权访问,用户可对外包数据进行加密保护.传统的公钥证书加密要求由一个公钥证书机构管理所有用户的公钥证书,数据所有者在加密数据前,需向公钥证书机构请求数据使用者的公钥证书.在云环境中,用户规模可能达到十万、百万数量级,传统公钥证书加密技术将导致高昂的证书管理开销.为解决公钥证书管理问题,Boneh 和Franklin[33]于2001 年提出了首个身份基加密方案,用户可以使用任意字符串(比如电子邮箱地址、手机号码)作为公钥,而无需再向第三方申请公钥证书.Boneh和Franklin的研究成果使身份基加密技术迅速成为密码学领域的研究热点,各种身份基加密技术及扩展被不断提出,如层次身份基加密[34]、匿名身份基加密[35]、身份基广播加密[36]、身份基格式保护加密[37]、可穿刺身份基加密[38],等等.

传统公钥加密及身份基加密技术要求用户在加密时指定数据访问者,但在云环境中,数据访问者的身份往往不能预先确定.为解决这类问题,Sahai 和Waters 提出了属性基加密方法[39],只有属性满足预定义访问控制策略的请求者才能访问数据.Goyal 等人[40]将属性基加密方法分为两类:密文策略属性基加密和密钥策略属性基加密.在密文策略属性基加密方法中,访问控制策略与密文关联,密钥与多个属性关联,用户能否解密密文的判断条件是其密钥关联的属性集合能否满足密文关联的访问控制策略.图4 所示为密文策略属性基加密在云计算环境中的典型应用.数据所有者指定访问控制策略并利用该策略加密数据,然后将密文上传至云服务器;数据使用者从云服务器处下载密文,并且如果其密钥关联的属性集合满足数据所有者指定的访问控制策略,则可以解密密文.在密钥策略属性基加密方法中,访问控制策略与密钥关联,密文与属性集关联,如果密文的属性集满足密钥的访问控制策略,则该密钥可以解密密文.

图4 密文策略属性基加密示例Fig.4 An example of cipher text-policy attribute-based encryption

为提高属性基加密的安全性并减少密文或密钥存储开销,Attrapadung[41]提出了具有固定长度密文(密钥)的适应性安全密钥(密文)策略属性基加密方案.适应性安全是指在安全性模型中,敌手可以在获取系统公开参数以及选择的用户密钥之后才公布要攻击的访问控制结构(在密文策略属性基加密中)或者是属性集合(在密钥策略属性基加密中).基于上述安全性模型被证明安全的属性基加密方案具有较高的安全性,称之为适应性安全.但是,方案[41]是基于合数阶双线性群构造,因而算法运行效率比基于素数阶群构造的方案要低.为此,Attrapadung[42]提出了一种在素数阶双线性群中构造适应性安全属性基加密的方法,既保证较高安全性又提高了算法的效率.在属性基加密中,属性是构造密文和密钥的关键元素,有的属性基加密方案要求在系统初始化时设置好系统中所有的属性名称以及数量,这对于一些对属性使用灵活度要求较高的应用不太实际.为此,Chen 等人[43]提出了一种large-universe 的属性基加密方法.在这种方法中,系统初始化时不设定属性及其数量,用户在加密时可以使用任意字符串作为属性来加密数据,这样一来,既提高了用户加密的灵活程度,又减少了系统公开参数的存储空间.针对属性基加密中授权机构权力过大问题,Datta 等人[44]提出了一种多授权机构的属性基加密方案,任何用户都可生成自己的密钥.

2.2 云计算中密文分享方法

上述公钥加密方法虽然很好保护了数据隐私,但限制了数据的进一步共享.当出现加密时,未指定的用户申请访问数据会因其没有密钥而无法访问.代理重加密(Proxy re-encryption,PRE)技术可以解决云计算中的密文分享问题.基于代理重加密技术,数据所有者可以在不解密密文的情况下,授权代理(云服务提供商)将当前公钥下的密文转换成在新的公钥下的密文,并且不泄露有关明文的任何信息.这样一来,当有新用户(加密时未指定的用户)请求访问云端的加密数据时,数据所有者可以授权云服务器将密文转换成新用户公钥下的密文,使得新用户可以直接使用自身密钥访问数据.

Blaze 等人[45]设计了第一个代理重加密方案.Ateniese 等人[46]指出文献[45]中的代理重加密方案是双向的,即代理既能转换数据所有者的密文,也能转换指定用户的密文,因而不能保障指定用户的数据安全.Li 等人[47]提出了一种单向多跳的代理重加密方法,代理只能转换数据所有者的密文,且该密文可以被多次转换.为了控制密文被分享的次数,Cao等人[48]设计了密文转换次数和路径可由数据所有者预先指定的单向代理重加密方法,将密文分享限制在一定范围内.针对代理重加密中的密钥泄露问题,Ge 等人[49]提出了一种可撤销代理重加密技术,允许代理撤销用户指定的访问者对转换密文的解密权限,保证密钥泄露情况下的数据安全.Fuchsbauer 等人[50]提出了一种适应性安全的代理重加密方案,允许敌手在获取公开参数及重加密密钥之后再公布其攻击目标,因而更符合真实的攻击场景.

在云计算中,数据所有者可能只想将一部分加密数据与其他用户共享,而传统代理重加密只能一次性分享所有的密文,安全性和灵活性均不太高.基于条件的代理重加密允许用户根据条件选择部分密文进行共享,使得指定用户只能访问符合预定义条件的数据.Xu 等人[51]提出了广播条件代理重加密方法,允许用户同时向多个授权访问者分享所选择的数据.Ge 等人[52]提出了一种细粒度的条件代理重加密方法,密文能否被转换不再是判断密文关联的条件是否与重加密密钥的条件相等,而是判断密文是否适用于重加密密钥关联的访问控制结构.Liang 等人[53]提出了一种属性基代理重加密方案,并且在标准模型下基于错误学习(Learning With Errors)假设证明了方案的安全性,因而可以抵抗量子攻击.云计算中用户众多,不同用户可能使用不同的加密系统上传和访问数据,如何将一种加密系统下的密文转换为另一个加密系统下的密文是更为困难的挑战.Jiang[54]等人提出了一种在传统公钥加密和身份基加密之间进行双向密文转换的方法,但是该方法要求可信第三方为每次转换生成一个转换密钥,当重加密并发数较高时会造成系统性能瓶颈.Döttling 和Nishimaki 提出了一种通用代理重加密方案[55],可以将密文转换成另一种加密系统的密文,但是该方案依赖概率不可区分混淆函数和混淆电路,因而其算法复杂度较高.

针对云计算环境中密文高效分享问题,本文作者研究团队提出了跨密码系统的代理重加密方法,该方法通过重加密技术桥接两种不同的密码系统,使得用户可以访问被不同加密系统保护的数据[56].以身份基加密系统和身份基广播加密为例,数据所有者可以使用身份基加密系统加密数据,使得数据只能被自己或者一个授权用户访问.当需要将数据分享给更多的用户时,数据所有者可以生成转换密钥并把该密钥发送给云服务器;云服务器使用转换密钥将数据所有者的身份基加密密文转换为身份基广播加密密文,使得多个指定用户可以使用自身私钥解密.在生成转换密钥过程中,数据所有者可以指定一个分享策略,使得只有满足该策略的密文才能被转换.这样一来,数据所有者可以更加灵活地分享自己的加密数据.基于身份基加密和身份基广播加密的代理重加密系统框架如图5所示.

图5 跨密码系统密文分享系统框架Fig.5 System model of cross-cryptosystem ciphertext sharing

1)初始化阶段.可信第三方基于双线性对e:G×G→GT生成身份基加密系统与身份基广播加密系统的公开参数:PP=(ga,u,ua,h,h1,h2,…,hm,e(g,h)),其中hi表示h的ai次方;以及系统主私钥:MSK=(g,a).

2)用户注册.对身份基加密系统和身份基广播加密系统中的用户,可信第三方根据用户的唯一身份标识ID生成用户私钥:SKID=gl/(a+ID).

3)数据上传.数据所有者使用身份标识加密j明文M,并将密文C=(C0,C1,C2)存储在云服务器中,其中:C0=Me(g,h)s,C1=hs(a+ID),C2=us(a+ID).

4)转换密钥生成.数据所有者指定分享策略,并利用自身私钥以及新指定接收者身份标识集合生成转换密钥,并将该密钥发送给云服务器.简单起见,假设数据所有者想将所有密文分享给身份标识集S={ID1,ID2,…,IDn}中的用户,计算:

其中H表示从群GT到G的哈希函数.数据所有者将转换密钥TK=(d1,d2,d3,d4)发给云服务器.

5)密文转换.云服务器将密文C=(C0,C1,C2)转换成身份基广播加密密文C’=(C’1,C’2,C’3,C’4,C’5),其中C’1=d1,C’2=d2,C’3=d3,C’4=d4,C’5=C0/e(C1,d4).

6)数据访问.新指定的数据使用者下载广播加密密文,并使用自身私钥解密.对于密文C’=(C’1,C’2,C’3,C’4,C’5),集合S中的用户IDi计算:A1=∏j=1,j≠iIDj,A2=∏j=1,j≠i(a+IDj),以 及B=(e(C’1,h∆)e(SKIDi,C’2))1/A1,其中h∆=1/a(A2-A1);最后计算hr=C’3/H(B),恢复明文M=C’5/e(hr,C’4).

除了实现身份基密文到身份基广播密文的转换外,本研究团队还构造了属性基加密密文到身份基加密密文的转换方法.该方法主要适用于移动数据访问场合,针对移动设备资源受限问题,将复杂的属性基密文转换为简单的身份基密文,使移动设备无需进行属性基解密运算也可访问加密数据.同时,该方法也支持更大范围的密文分享,数据所有者可以将属性基加密数据分享给除最初指定接收者之外的更多用户.

3 差分隐私

3.1 云计算数据相关性隐私保护

云计算环境下数据的相关性可引发数据隐私泄露[57].现有的相关性隐私保护工作聚焦于自相关性引发的隐私泄露问题,主要分为两大类:一类是自相关性差分隐私保护方法;另一类是互相关性差分隐私保护方法.

一方面,专家学者运用具有严格数学定义的差分隐私框架,提出优秀的时序大数据中自相关性隐私保护方法.首先,在自相关性量化的基础上,Chen等人[58]运用长度可变的n-grams模型,构建时序数据的自相关性,实现差分隐私保护.吴云乘等人[59]采用马尔可夫链模拟用户真实位置间自相关性,分析真实数据的先验概率和后验概率间的关系,实现差分隐私保护.霍峥和孟小峰[60]则运用四分树和R 树,在自由空间和路网空间上实现拉普拉斯机制.其次,在没有量化相关性的情况下,于东和康海燕[61]结合固定抽样法和Kalman 过滤技术,实现基于抽样过滤技术的差分隐私保护.Wang 和Xu[62]运用高斯白噪声,提出差分隐私保护的时序数据发布方法.Cao 等人[63-64]提出时空相关性的差分隐私保护方法,以实现增强的差分隐私保护时序数据发布.Bassily 等人[65]提出一个称为“耦合世界的隐私(coupledworlds privacy)”的框架,要求一个实体的参与与否不会带来任何影响,并且数据分布被认为是满足特定分布.为提高隐私保护方法的数据可用性,本研究团队结合奇异谱分析、傅立叶变换以及拉格朗日乘数法,提出电力数据差分隐私保护方法[66]和轨迹数据差分隐私保护方法[67].最后,对于时序数据的聚集,研究人员提出了一些基于差分隐私保护框架的数据发布方法[68-69].

另一方面,数据收集中心可把所有数据发布给云服务提供商,以便实现不同的应用服务,如监控、决策等.半可信的云服务提供商可访问数据收集中心所发布的时序数据,并且可能会挖掘数据间互相关性,进而敌手可推断出社交关系等敏感信息.针对此类问题,本研究团队[70]结合傅立叶变换、约束优化和拉普拉斯机制等,提出可隐藏社交关系的时序数据隐私保护方法——互相关性差分隐私保护(Crosscorrelated Differential Privacy,CDP),在实现隐私保护的同时,确保数据可用性最佳.CDP方法步骤描述如下所示.

1)执行CDP 框架:假设D和δDk分别表示单个个体的时间序列数据D的第k个原始傅立叶系数及其对应的噪声,那么CDP框架为:Dk′=Dk+δDk,其中k=0,1,…,N-1;噪声同时包含实部和虚部,即δDk=δDkr+jδDki,j为虚数单位,上标r,i分别表示实部和虚部.

2)生成互相关的噪声:分别在两个个体u和v的时间序列数据记录的傅立叶系数上所添加的噪声:

满足:E{δ(Dk+k’)corr(u)(δ(Dk’)corr(v))*}=Ck,其中(·)*表示共轭计算.

3.2 深度学习中数据隐私保护

深度学习中数据隐私保护问题引起了专家学者的广泛关注.2015 年,Shokri 等人[71]提出了具有隐私保护的分布式深度学习框架,在此框架中,各参与方分布式地独立地训练各自的模型,并且有选择地分享其模型参数的子集.2016年,Phan等人[72]运用拉普拉斯机制,在目标函数上添加噪声,发布最小化的添加噪声后的目标函数,输出差分隐私保护的模型.Abadi 等人[73]提出一个差分隐私保护的随机梯度下降方法,以确保输出模型的隐私保护.然而,在随机梯度下降方法的迭代计算过程中,会造成累积的隐私损失.为解决此类问题,Yu 等人[74]运用集中式差分隐私保护方法(Concentrated Differential Privacy,CDP),分析各个数据批处理方法的隐私损失,研发隐私账目方法,并提出差分隐私保护的训练方法,以实现隐私预算的动态分配.Li 等人[75]研究基于长短期记忆网络的股票价格预测中隐私泄露问题,在复合分数中添加高斯噪声,确保训练模型的隐私保护.

4 总结与展望

本文围绕云计算环境下数据安全与隐私保护问题,指出保证数据安全与隐私的重要方法是加密和差分隐私保护,并进一步从密文查询、密文分享和差分隐私三个方面阐述云计算数据安全与隐私保护的国内外研究现状;然后,重点介绍了本研究团队提出的空间关键字密文查询技术和跨密码系统的细粒度密文分享技术,并给出了主要研究思路.然而,目前云计算环境下数据安全与隐私保护还有一些问题尚待解决,例如,针对用户位置和关键字动态更新的空间多关键字搜索、前向安全与后向安全的多关键字可搜索加密、适应性安全的跨密码系统密文分享,以及高可用性的差分隐私保护技术等.本研究团队将在现有基础上,研究如何进一步解决上述问题.

猜你喜欢
公钥关键字密文
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
一种支持动态更新的可排名密文搜索方案
基于模糊数学的通信网络密文信息差错恢复
支持多跳的多策略属性基全同态短密文加密方案
密钥共享下跨用户密文数据去重挖掘方法*
成功避开“关键字”
神奇的公钥密码
国密SM2密码算法的C语言实现
基于身份的聚合签名体制研究
智能垃圾箱