大数据安全与隐私保护发展态势研究

2019-01-06 02:19王绍荃钟尚染
中国科技纵横 2019年22期

王绍荃 钟尚染

摘 要:计算机、互联网等信息技术的快速发展推动了“大数据”概念形成。虽然大数据技术给人们的生产、生活带来了诸多便利性,但是大数据在采集、传输、储存和使用过程中出现了安全、个人隐私等方面的问题,例如个人信息泄漏、数据刻意造假等。本文站在大数据安全角度,通过分析大数据所带来的安全挑战,整理相关关键技术和最新研究进展,并从数据获取、数据防护与数据销毁三方面给出了数据安全保护的相关建议。

关键词:大数据;安全;隐私保护;研究

中图分类号:TP309 文献标识码:A 文章编号:1671-2064(2019)22-0038-02

0 引言

当今世界正在经历一场重要的数字化变革。互联网、移动终端设备和物联网快速发展产生了大量数据。根据IDC数据,全球大数据储量从2016年的16ZB增长至2018年的33ZB,未来全球大数据储量规模增长率将保持在40%左右。

1 认识大数据

2011年,麦肯锡提出“大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集”,成为金融、商业、科技等领域的热门话题。大数据具有5V特征,包括数据庞大(Volume)、数据高速(Velocity)、数据多樣(Variety)、数据准确性(Veracity)与数据应用高价值性(Value)。

“大数据”技术是指收集和存储大量、广泛的数据集。在利用大数据时,需前沿的处理模式才能获得大数据的决策力、洞察发现力和流程优化能力。大数据包含海量、多样化和高增长率的信息资产,其存储方式和处理方法、利用角度较传统数据架构有一定区别。大数据的基本特征对计算设施、存储、网络、信息资源等提出了更高的安全要求,传统的信息安全手段和管理机制已经跟不上大数据时代的信息安全形势发展。

2 大数据安全研究现状和进展

近年来,“大数据安全”相关期刊论文增长趋势明显,学术界对“大数据安全”研究逐年增多。通过对“big data”和“security”在Engineering Village期刊论文检索,我们发现检索量从2014年的124篇增长至2016年的265篇。Hakuta.K等展示了大数据安全和隐私方面所面临的挑战有关一些最新研究成果,确定了获取大数据相关信息和知识的三个阶段,得出大数据安全生命周期模型,并从数据收集、数据存储、数据分析、数据应用(知识创造)四方面提升数据安全。Murthy.P.K给出了大数据安全和隐私挑战论述,强调这些挑战将促使人们更加关注加强大数据基础设施。陈兴蜀等介绍了数据安全相关法律法规以及标准现状。

3 大数据所带来的安全挑战

传统上说,数据安全性保护包括数据的机密性、完整性和可用性三大要素,数据保密目的是保护数据免受未经授权的访问;数据完整性是指保护数据免受未经授权的更改;数据可用性是解决如何使授权实体和用户可以访问数据。在大数据领域,数据隐私是保密性的一种特殊性呈现方式。

3.1 用户隐私保护

大量事实证明,对大数据不正确处理会威胁到用户隐私。保护用户隐私包含以下三方面:位置隐私、标识符隐私以及连接关系隐私保护。一般来说,未经个人授权,其验证信息不能被共享及使用,个人信息共享常常还受到隐私法的约束。除了信息直接泄露,基于用户信息,对用户生活的状态和行为的分析与预测也威胁到个人隐私安全,给安全带来了巨大挑战。

目前,常用隐私保护方法效果一般,比如对用户个人信息匿名显示或脱敏公开,个人隐私信息仍可能被泄露。

目前,企业在收集、存储、管理用户信息数据时,缺乏一定的合规性规范与监管,用户无法确定隐私信息的正确用途。一般来说,在数据的商业化利用过程中,用户信息的利用状态与处理结果等过程信息应该被用户所知晓,从而增加对用户隐私保护的可控性。

3.2 数据可信度

在数据采集的时候,由于数据源头众多、数据结构多样性,数据增长速度快,数据的可信度成为一个重要关注点。

(1)数据刻意造假对数据可信度产生威胁,例如虚假的互联网电商评论、手机应用APP数据会导致决策失误。假如数据使用目标明确后,此时会产生部门人员可以提供假数据,诱导分析者得出对其有利的结论。人们较难去辨别虚假信息,无法辨别真伪,可能会作出错误判断。由于网上部分评论信息的不真实性,往往会误导客户去选择劣势商品或产品服务。现有技术无法做到对所有数据来源进行真实性鉴别。

(2)数据传播过程中存在一定的误差传递,也会对数据可信度造成一定影响。1)数据采集过程中会有人工干预从而引起误差,误差会逐步传导到分析的结果中,影响分析结果的准确性。2)数据变更、传播不及时也会导致数据失真,随着时间变化,前期数据无法表征事件的真实性。例如,用户电话信息变更,早期的信息已被大数据中心所收录,造成此时推送应用信息不准确。为防止分析结果不真实造成判断误差,大数据利用者或研究机构在使用数据的过程中,应重视数据的真实性、数据传播路径的正确性以及数据处理全过程管控等,从而全面提升、保障数据可信度。现有对数据完整性验证的手段中,数字签名、消息鉴别码等技术是比较好的措施,但由于数据颗粒度差异,进行真实性鉴别时,难度较大。

3.3 实现访问控制

由于大数据被应用在不同的领域中,数据访问控制需求强烈,而作为数据受控共享的有效手段,随着访问控制需求的不断增长,访问控制的实现有以下两点难点:

(1)无法轻易预设角色,从而达到划分角色的目的。由于大数据被运用在不同的范围、领域中,不同类型用户访问控制需求不一样,包括不同行业、部门和身份用户。当下面对海量数据及大量用户,其权限管理要求呈现一定的未知性,预先设置角色难度较大。

(2)难以预知用户实际权限。面对海量的数据,安全管理员由于其专业知识壁垒,无法准确为用户设定可访问的数据范围,而定义所有用户的授权规则效率很低。例如在医疗应用时,当医生因为业务需求访问大量信息时,管理员可对其访问行为进行检测和控制,从而防止医生对病患相关信息、数据的过度访问。另外,大数据呈现多样性的特点与结构,存在多样化的控制访问需求,如何能在当前海量数据中统一描述需求、正确表述需求成为新的挑战。随着数据分析技术快速发展与应用,部分企业采用“保护、检测、响应、恢复”这一措施发现潜在安全威胁,从而实现降低数据安全事故发生概率,提升了隐私保护。例如,作为新型安全工具,“IBM大数据安全智能”可综合利用电子邮件、社交媒体等大数据信息甄别企业的数据安全威胁(内部和外部),该方法可以通过分析发现泄露公司相关机密性信息异常员工,提醒企业防范。在国际政治形势分析中,“棱镜”计划是一种利用大数据进行危险局势预测的方法,通过采集、利用海量数据,基于安全分析系统及方法,可快速发觉攻击之前的潜在威胁。

4 大数据安全与隐私保护关键技术

4.1 数据发布匿名保护技术

大数据中含有大量结构化数据(或关系数据),采取发布匿名是保护大数据隐私的主要方法,是实现其隐私保护的核心关键技术与基本手段,具体做法包括k-匿名、l-diversity匿名、个性化匿名、t-closeness匿名、m-invariance匿名、基于“角色构成”的匿名等。匿名发布方法可防止恶意攻击行为,在保证数据质量前提下,避免用户隐私的泄漏。例如金融交易信息中心含有大量涉及隐私安全的数据,若公开这些数据会产生大量的安全隐患,因此在发布数据时,采用匿名发布保护技术,保护用户隐私。

4.2 数据溯源技术

数据溯源是对数据来源、数据传播、数据计算等过程的全方位追根溯源,从而确定数据的准确度和精确性。数据溯源技术能够提升分析結果的准确性,可确定提升数据运算精度,发现业务问题。标记法是常用的方法之一,标记法侧重于数据计算方法及出处,记录数据在数据仓库中的查询与传播历史。数据溯源技术在云储存场景应用、对文件回复及溯源取得了一定的成就,但与隐私之间的平衡以及其本身的安全性全面保护这两方面面临挑战。

4.3 角色挖掘技术

基于角色访问控制通过为用户指派角色、将角色关联至权限集合,控制与管理使用者的相关权限,实现用户授权、简化权限管理。角色挖掘技术目前获得了比较高的使用率,利用该技术可自动化实现角色优化与提取,可为用户提供不同服务,实时监控用户行为。

4.4 身份认证技术

采用特定的技术,对用户行为进行数据分析,形成身份认证技术。通过对海量数据的分析、采集,把握用户行为习惯,总结用户行为特点。身份认证技术对数据隐私保护起到一定的促进作用,有利于大数据的健康发展,第一可根据用户特征分析结果对操作者身份进行验证,第二增加网络黑客恶意攻击、盗取信息难度。

5 建议和结语

大数据快速发展带来许多机遇,但在安全和隐私方面也带来了问题和挑战。企业规模、所属行业以及现有数据系统和安全策略都会对数据安全与隐私保护产生一定影响。以下从数据获取、数据防护与数据销毁三方面提出大数据的安全隐私保护解决方案建议。

从信息获取角度来说,通过限制对敏感文档的访问来管理用户身份、对数据进行一定分类、对数据存储与传输的加密、加强数据源头保护都是数据安全隐私保护有效手段(数据加密包括工作设备上网络使用规则、防病毒软件的安装等)。从数据安全防护角度来说,进行系统功能安全测试、加强内部员工数据安全教育与培训、制定数据共享安全规章制度、制定安全管理标准处理流程与制度、制定数据恢复计划(数据备份)都能有效降低数据安全带来的风险,同时加强内部操作日志查询,为安全事故的责任追溯提供依据。从数据销毁机制来看,应建立一定的数据删除机制,数据安全销毁是一种新的数据安全措施,随着用户对云服务的依赖性越来越大,若云端数据消除不彻底,会导致敏感数据的恶意恢复,从而导致用户数据或隐私面临泄露的风险。

参考文献

[1] 王建民,金涛,叶润国.《大数据安全标准化白皮书(2017)》解读[J].信息技术与标准化,2017(08):38-41.

[2] 中华人民共和国工业和信息化部.中华人民共和国网络安全法[EB/OL].2016-11-08/2017-06-12.

[3] Issa N T,Byers S W,Dakshanamurthy S.Big data:the next frontier for innovation in therapeutics and healthcare[J].Expert Review of Clinical Pharmacology,2014,7(3):293-298.

[4] Keisuke Hakuta,Hisayoshi Sato. Cryptographic Technology for Benefiting from Big Data[M].Springer Japan:2014-06-15.

[5] Murthy P K.Top ten challenges in Big Data security and privacy[C]//Test Conference.IEEE,2015.

[6] 陈兴蜀,杨露,罗永刚.大数据安全保护技术[J].工程科学与技术,2017,49(05):1-12.

[7] 大数据安全标准化白皮书[R].北京:全国信息技术标准化技术委员会大数据安全标准特别工作组,2017.