大数据安全的“痛点”

2016-02-25 09:15陆宝华
信息安全与通信保密 2016年8期
关键词:数据系统哈希完整性

陆宝华

大数据安全的“痛点”

陆宝华

(工业控制系统信息安全技术国家工程实验室,北京102209)

通过分析,试图给出大数据系统特出的安全需求,而区别于其他的IT系统。通过这些独有的安全需求分析,提醒大数据的拥有者、生产者和拥有者及从事安全研究和开发的组织,来关注这些安全“痛点”,从而提升大数据的保护能力。

大数据;安全;访问控制;审计完整性保护;源数据

0 引言

大数据是近几年来的热门话题,国家希望通过大数据而产生新的经济增长点,推动和带动各相关领域的发展。贵阳作为国家大数据产业实验区,已经开展了非常有意义的活动。前不久又举办了规模盛大的大数据博览会,据说有5万人参加,可见人们对大数据的期待和热情之高。

但是,大数据所面临的安全问题是不能忽视的,贵阳市委书记陈刚明确的指出“没有大数据安全,就没有大数据产业”。但是,大数据面临的安全问题有哪些,这几年来的讨论似乎不是那么明确。前不久,一位领导谈了大数据有四大安全风险,这次在贵阳的论坛上,有几位嘉宾在作演讲,但是对大数据的安全“痛点”的分析都觉得没有说到位。

安全保护,必须知道风险点在哪里,必须要有明确的保护对象,必须清楚保护目标是什么。如果这些都不清楚,那么你的保护策略、手段就很难说是有效的,甚至可能会是有害的。那种“肉烂了在锅里”的安全观是错误的,是要不得的。

笔者也不敢说,把大数据的安全“痛点”都分析清楚了。但是,确实是下了一些功夫进行了研究。在大数据的全生命周期中,存在的风险应该有十几大类。所有的对网络空间的安全威胁,同样会威胁在大数据系统,如黑客的入侵、恶意代码的侵害、数据的泄露、交易中的抵赖问题,等等。这些威胁,对非大数据系统中就存在,并不是大数据系统所“特出”的“痛点”。对于大数据的保护,我们必须清楚大数据这些特出的安全“痛点”,这样才能对大数据系统进行有针对性的保护,才能有效解决大数据系统的安全问题。当然,那些与其他网络空间共有的安全问题也必须要关注和加以解决。

对于大数据安全的“痛点”,笔者认为以下的几个是大数据系统所特出的。是直接对大数据系统构成侵害的关键因素。

1 全生命周期的源数据的“源”证明

实际上这是一个对源数据的完整性保护问题,如果能够证明,这个源数据从采集端开始,数据一直没有发生改变,实际也就证明了这一点。

数据的完整性保护在信息系统中也是必须要有的,似乎并不是大数据独有的需要。实际上,对大数据中的源数据与元数据的保护,与在信息系统中的数据的完整性保护的目的是不一样的。

(1)源数据完整性保护目标与数据完整性保护目标的差异性

在信息系统中,某个数据的完整性保护,就是防范对这个数据“自身”的未授权的改变,并不会因为这个数据的自身被改变而影响其他的数据的完整性。可以通过哈希值的比较,和校验技术来实现对完整性的保护。数据不同对完整性保护程度的要求也不同。

但是对大数据来说,源数据的完整性还要关系到在整个数据池中与其他源数据的关联,其影响不仅是该源数据本身,还会影响到其他的源数据。这是大数据应用所决定的。对于大数据系统来说,通过关联分析和挖掘是大数据应用的基础。大数据挖掘是对整个数据池中的所有相关的源数据进行关联分析,其中一个源数据被破坏,如果不能剔除,就意味着,整个数据池中的大数据都不可用,关联分析的结果就可能是错误的。

所以,大数据系统中,源数据的完整性保护其目标不仅是数据自身不被改变,还要考虑到这个数据被改变后,需要清楚这个源数据是在什么时刻,什么位置被改变的。要能证明这个“源数据”是原始的、干净的。

对于任何一个IT系统来说,不被入侵的概率为0,被入侵是完全可能的,包括各类恶意代码的感染,被入侵就有可能导致数据的泄露和被破坏。只要一个源数据被破坏,如果不能清除,或者恢复,就意味着整个“数据池”资源不能再被使用,这不能不说是极大的浪费和损失。

所以,与其说是对源数据的完整性保护要求,不如说是对源数据的“源跟踪保护”要求。

(2)保护方法的差异性

对数据的完整性保护[1],其保护措施无非是利用哈希值进行比较利用冗余度来进行校验和恢复。

而对于源数据来说,仅仅靠对数据的哈希值进行比较是不够的。

哈希值与数据块之间是可能建立一一对应的关系的。但是,此哈希值所标注的数据块是否是源数据块是无法证明的,入侵者,可以将数据块进行改变,同时产生新的哈希值,并将原来的哈希值删除,用新的哈希值来替代原来的哈希值。这样,被改变的哈希值与被改变的数据块之间仍然是对应关系。

所以,单向函数只能证明数据块与哈希值的对应关系,不能为数据的“源”提供证明。这一点,是需要解决的。

不得不提的是,对元数据的跟踪保护问题。元数据是对数据进行描述的数据,我们查寻数据文件,是要通过元数据来查寻的。如果元数据出了问题,这个数据我们就找不到了。

2 采集的数据清洗问题

大数据是通过各种采集方法,包括爬虫爬来的数据,网络传输中流经某节点的数据,各应用单位存留的数据等等。采集到的数据是存在很多问题的,是需要整理的,这虽然不完全算是一个安全问题,但我们必须从安全的角度把它看成是大数据安全一个“痛点”。“感知城市数据科学研究院”的朱琳博士认为:初始采集的数据存在着“错、杂、乱、丢、骗”五大问题。其中的,“丢”和“骗”完全是属于安全的范畴。

关于欺骗,不仅可能存在于采集端,还可能存在于交易端。

数据的真实性,应该是数据的一个独立的安全属性,应该作以下定义:

数据的真实性应该是指:“数据所表征的信息内容与事实相符合”。

方滨兴院士以前就提出了,数据的真实性问题[2],并认为完整性应该被包含在真实之内。对此,笔者并没有完全的理解。

数据的完整性与数据的真实性应该两相对独立属性,但是完整性则是真实性的基础,完整性被破坏了,真实性也就不存在了。但是并不能认为,完整性包含在真实性之内。完整性的定义是:不被未授权的改变。与真实性的定义并不相关。

数据的真实性,在信息系统中,并不是一个需要保护的安全属性。但是,在大数据环境中,数据的真实性则必须要认真对待。

作为数据的安全属性,学者一直提到的只有C、I、A,这在过去是正确的,在信息系统中,真实性问题基本上不需要考虑。但是在大数据环境下,这一属性则不能忽视。笔者把数据的真实性问题归结以下几类:

数据与数据源都是真实的,这类数据可信;

数据是假的但是数据源是真的,这类数据当然不可信;

数据是真的但是数据源是假的,这类数据经过处理后也是可信的;

数据和数据源都是假的,这类是最典型的欺骗。

3 大数据挖掘中的访问控制与大数据的滥用

对于传统的信息系统来说,存在三个大的集合,第一是主体集合,第二是客体集合,第三是操作集合,主体通过操作来对客体进行访问。其是否允许某一主体访问一特定的客体,是操作系统中的访问监控器来仲裁。

在信息系统中,主体对客体的访问基本上可以归结为读、写、执行和控制。主体对客体进行访问是需要得到相应的授权。应该说在信息系统中,这种授权访问已经得到了很好的解决,针对不同的安全属性保护需求,可以采取不同的访问控制模型:对于机密性保护采取BLP模型,对于完整性保护则需要采取Biba模型,同时还有基于角色的访问控制模型RBAC;基于任务的访问控制模型TBAC[3]。主体客体的访问在获得授权的前提下,主体可以或者需要对客体的全部进行访问。主体与客体之间是一一对应的关系。

但是在大数据挖掘[4]过程中,主体访问的不是一个客体的全部,仅仅是某些客体的某些特征量,同时主体对客体的访问也不应该是客体的全部,而只是这些与特征量相关的信息。这样原来的访问控制模型就不能完全的适应于这样模式的访问控制。除了特征信息之外的信息内容,是不应该授权进行访问的。否则,就可能出现大数据的滥用问题。

对于一个进行大数据挖掘的人员来说,数据资源池中的数据,如果不进行限制,他即可以依据给定的特征进行挖掘,也可以自定义一些特征进行挖掘,对于自定义的挖掘,就意味着大数据的滥用,就可能导致个人隐私,国家秘密,企业秘密等等信息泄露。

对于大数据挖掘来说,源数据的完整性是必须保护的,不允许对源数据进行写操作,但是读操作,如何读则必须要研究。

相应的,大数据挖掘过程中的审计[5]问题也必须一并解决。

4 个人隐私与国家秘密的泄露问题

个人隐私的泄露,很多人都谈过,这里笔者不赘述。

对于国家秘密的泄露问题,笔者想说的不是这些秘密的直接的泄露,而是在大数据环境下通过已知条件求出的未知信息。

国家保密局的同志,经常爱用一幅照片来讲泄密的问题,上个世纪60年代,一位摄影家,为铁人王进喜拍的一幅照片。国外通过对这个照片上王进喜的穿戴和背景,推断出了大庆油田的具体位置。

在大数据的环境下,可以用来进行关联分析的已知信息要比那幅照片上的信息多得多,一个人或者某些特殊人物的手机位置信息,用的微信号;某些工程机械使用的特殊的油料;某些材料的使用情况;等等。都可能成为推断某些国家秘密信息的已知条件。不能因为大数据的应用,而导致这些重要的秘密信息的泄露,那可是得不偿失。

5 针对大数据及大数据系统的犯罪取证问题

对于网络犯罪,取证是一个大的难题,尽管多年来许多人的研究,已经取得了一些进展,但是达到还原犯罪过程和现场的目标还是有距离的。

在大数据环境下,这一问题会变得更为复杂和困难。在数据的清洗、挖掘和交易、传输储存等环节上,都有可能出现针对大数据系统的犯罪活动,如何将这些犯罪行为所产生的痕迹、进行认定、固定、保存(可证明其原始性的保存)和举证都是需要研究的课题。

6 大数据的权属问题

这是一个不得不提的问题,大数据资源权属归谁所有。这需要从法律上和技术进行规范。

7 结语

大数据,由于其的资源性,并且这种资源更丰富,更全面,更完整,必然对一些觊觎者有更大的吸引力。本文中,笔者只是给出了大数据系统中可能面临的“特出”的安全“痛点”,并没有提出相应的解决方法,笔者的目的是想引起相关专家和技术人员及企业的重视,来研究和解决这些问题。也希望能引起业界,对大数据及大数据系统特出的安全风险的关注,引起一些讨论和争论。实际上,有一些问题,已经有了比较好的解决方法,有些尚在研究中,愿大家一起努力,为大数据的安全,献计献策。另一方面,笔者也想利用此文引发一些对大数据安全风险的讨论,毕竟一个人的观点,总是有局限性。集大家的智慧,才能把大数据的安全风险分析清楚,并找出解决方法和手段,从而推动大数据产业的健康发展。

[1] 秦洁.基于VFP的数据完整性保护策略[J].信息技术与信息化,2014(4):248—250.

[2] 方滨兴,殷丽华.关于信息安全定义的研究[J].信息网络安全,2008(1):8-9

[3] 李凤华,苏铓,史国振等.访问控制模型研究进展及发展趋势.电子学报,,2012,40(4):805-813.

[4] 程陈.大数据挖掘分析[J].软件,2014,35(4):130-131.

[5] 朱胜奎.基于数据挖掘的网络安全审计技术研究[EB/OL]. http://www.docin.com/p-1399525776.html.

陆宝华(1954—),退休前为大连市公安局网络警察支队调研员,现为工业控制信息安全国家工程实验室专家委员。主要从事信息安全等级保护研究,现在的研究方向大数据安全、智慧城市安全。主要著作:《信息系统安全原理与应用》(2006年,清华大学出版社);《信息安全等级保护技术基础培训教程》;《信息安全等级保护基本要求培训教程》。(2009年,电子工业出版社)。■

"Pain Points"of Big-Data Security

LU Bao-hua
(National Infosec Technology Engineering Laboratory of Industrial Control System,Beijing 102209,China)

Based on the analysis,the special security requirements different from other IT systems for large-data system are given,and discussion and analysis on these requirement may remind the producers and owners of big data,including the prganizations engaged in security research and development to pay more attention to those security“pain points”,and thus to enhance their ability of big-data protection.

big-data;security;access control;audit integrity protection;source data

TP309

A

1009-8054(2016)08-0108-03

∗2016-03-22

猜你喜欢
数据系统哈希完整性
基于特征选择的局部敏感哈希位选择算法
石油化工企业设备完整性管理
哈希值处理 功能全面更易用
文件哈希值处理一条龙
基于Spark的高速收费站大数据系统的设计与实现
基于计算机软件开发技术的物联网数据系统
莫断音动听 且惜意传情——论音乐作品“完整性欣赏”的意义
非均匀采样数据系统的新型模型描述方法
精子DNA完整性损伤的发生机制及诊断治疗
巧用哈希数值传递文件