大数据平台安全防护研究

2017-11-16 05:44于乐冯运波江为强任兰芳
电信工程技术与标准化 2017年11期
关键词:敏感数据脱敏日志

于乐,冯运波,江为强,任兰芳

(1 中国移动通信集团信息安全管理与运行中心,北京 100053; 2 中国移动通信有限公司研究院,北京 100053)

大数据平台安全防护研究

于乐1,冯运波1,江为强1,任兰芳2

(1 中国移动通信集团信息安全管理与运行中心,北京 100053; 2 中国移动通信有限公司研究院,北京 100053)

本文首先明确大数据平台的风险,提出大数据平台安全防护目的及防护体系,提供大数据基础设施、大数据接口、大数据存储、大数据计算处理和平台管理等方面的安全防护措施。

大数据安全;大数据平台安全;大数据参考架构

1 前言

随着移动互联网、物联网和云计算技术的发展,数据规模的不断增加,大数据已进入大众的生活。企业组织开发大数据平台来运营和管理其大数据业务并深度地挖掘大数据的价值。大数据具有5V的特点:体量大、多样性、时效性、高价值和准确性,这些特点都驱动着开发新的数据处理方法和管理方式。《中国大数据发展调查报告(2017年)》[1-2]显示2016年大数据市场168亿,大数据平台软件市场规模占50%左右,达到72.6 亿元。约有50%左右的企业自建大数据平台,大数据平台将成为企业重要的关键基础设施如图1所示。

大数据在各应用领域发展迅速,为社会带来巨大的价值。同时,安全问题已成为制约大数据平台建设部署及业务发展的重要阻碍。比如:(1)大数据平台使用开源软件来构建大数据平台,这些软件设计初衷是为了高效的数据处理,但在安全功能方面缺乏严谨的设计,存在安全漏洞,安全防护能力较差;(2)大数据需要汇集多源数据进行集中管理,包括用户敏感隐私数据,数据集中管理也带来风险的积聚效应;(3)数据开放是大数据业务发展的重要方向,同时也必然存在用户隐私泄露等关键问题。

图1 大数据平台系统市场规模

运营商大数据安全保障体系研究[3-4],是从大数据平台的安全需求出发,探索大数据平台安全防护技术,提出了大数据平台安全防护体系,推动公司大数据业务持续健康发展。

2 大数据安全威胁与风险

2.1 大数据传输交换安全风险

大数据传输交换是整个大数据平台的入口,其安全性直接影响到大数据平台的整体安全。传输交换环节面临的安全风险包括以下几方面:(1) 身份认证鉴权:未对操作人员进行身份认证,导致任何人都可以对数据进行采集;用户名和密码采用明文传输或者存储,使得密码等敏感信息被截获,引起密码泄露。(2) 软件自身缺陷或者漏洞,被攻击者所利用引发安全问题;对数据分光复用、流量镜像等设备进行违规配置,将流量镜像到非法设备,导致数据被非法窃取。(3) 敏感数据泄漏:临时数据存储到不可控区域(如FTP服务器某目录下),引起数据泄露;未对不同类别、不同级别的数据进行分类分级处理,出现敏感信息泄漏的风险;存储数据的访问控制不当,导致任何用户都可以对关键数据进行访问或修改。(4)传输机制不健全:不可靠的传输机制,导致在传输交换过程中出现数据丢失问题;传输交换软件节点之间缺乏相互认证,导致恶意节点加入传输交换软件集群。(5)缺乏对采集账号、采集人员、采集行为、采集操作等的审计手段,造成采集环节违规操作及非法镜像等非法操作行为未及时发现并追责。

2.2 大数据存储管理安全风险

采集到的大数据在计算处理之前,需要通过大数据平台中存储管理相关软件进行存储,数据存储安全是大数据平台安全的重要一环,其安全风险包括以下几个方面:(1)存储管理软件自身安全配置(操作系统、中间件)不符合安全配置要求,开启或启用了不必要的端口或服务,导致存储系统被为攻击者所利用,引发数据泄露;存储管理软件自身未启用身份认证,或只是提供简单的身份认证功能,导致软件被非法访问。(2)HDFS、MPP存储系统缺乏细粒度访问控制措施,甚至有些关键组件缺乏权限控制功能,任何实体都可以直接访问或调用存储资源。(3)敏感数据未加密存储,容易引发数据泄露;数据加密存储以及访问控制机制不完善造成数据泄露;不同安全级别的数据进行混合存储,未按照高级别的数据部署和实施防护手段,导致数据泄露。(4)大量非结构化数据分散存储在不同的存储、处理节点中,难以进行安全一致性管理,造成部分节点安全短板,导致敏感数据泄漏;数据存储没有完整性保护机制,被攻击者篡改后会导致分析结果出现偏差。(5)在数据生命周期结束后,数据未被彻底删除,或存有敏感数据的介质未被销毁,一旦数据被恢复就会引发数据泄露的风险;不完善的容灾备份机制会使得发生意外情况时,数据无法及时恢复,从而影响业务的正常开展。(6)安装到系统上的软件没有经过数字签名校验,引发安装恶意程序风险。

2.3 大数据计算框架安全风险

计算框架表现为一组抽象构件及构件实例间交互的方法,计算框架相关软件是完成上层应用所需的计算,向上层提供服务。该环节面临的安全风险包括:(1)各节点间认证机制不完善,有可能出现恶意节点加入集群,引发数据泄露或业务不可用等安全问题;对上层应用认证及权限管理不当,引发非法用户非授权访问。(2)各节点间传输不安全,会造成中间人攻击引发数据泄漏或数据被篡改;对敏感数据未经加密或脱敏,容易造成敏感数据泄露;缺乏对敏感数据识别及发现机制,使得上层应用有可能获取用户敏感数据,引发敏感数据泄露。(3)计算框架软件在安全设计、开发过程中存在缺陷或漏洞,引发绕过认证或数据泄露、业务不可用等安全问题。

2.4 协调管理安全风险

协调管理安全风险主要包括:(1)软件运维风险:人员管理职责分配不当导致权限过于集中,容易引发敏感数据泄露风险;在运维过程中关键操作,缺少多人授权管控机制,容易引发数据泄露;运维过程中数据管理风险:重要业务系统的第三方厂商开发人员利用开发源代码、上线调试等机会,遗留系统漏洞,内置软件后门,非法窃取敏感信息。(2) 日志审计:安全评估及日志审计手段欠缺,导致大数据基础软件无法对用户的操作行为进行有效监控,当数据泄露等情况发生时也无法进行追责。(3)配置安全:大数据平台各层的软件广泛采用开源组件构成,各个组件独立设计、开发,根据不同的业务需求进行组合搭建,其中的安全组件均以插件的方式通过正确的配置为各组件提供安全管控服务,若是针对各个组件、插件的配置不当,极易造成安全风险。(4) 敏感数据沉淀:第三方通过积少成多,积部分成整体,关联局部数据进而获得全量数据,通过持续沉淀敏感数据,实现隐性的敏感数据积累。(5) 逆向还原破解:第三方利用敏感数据加密或脱敏不当的安全漏洞,通过逆向穷举攻击,关联其它数据,推算演绎等手段还原原始敏感数据。(6)缺乏数据追踪溯源手段,一旦出现安全事件,无法及时定位数据的责任方以及泄漏点。

3 大数据参考架构

图2是NIST、ISO/IEC标准化组织提出的大数据参考架构[5-6],该参考框架围绕着数据价值链的两个轴线组织展开:信息价值轴(水平轴)和IT集成轴(垂直轴)。信息流轴的核心价值由数据收集、数据集成、数据分析及其应用长生。IT集成轴的核心价值由网络、基础设施、平台、应用工具和其他IT服务产生,这为大数据处理应用程序提供了支持。大数据参考框架主要包含5部分。

(1) 系统协调者:定义和集成所需的数据应用活动到垂直操作系统中来;

(2) 数据提供者:将数据和信息引入到大数据系统中;

(3) 大数据应用提供者:执行一个生命周期,以满足安全性和隐私需求,也包括系统协调者定义的需求;

(4) 大数据框架提供者:建立一个计算结构,在其中执行某些应用程序转换,同时保护隐私和数据的完整性;

(5) 数据消费者:包括最终用户或其他系统利用。

按照中国移动大数据业务服务的特点,参考NIST、ISO/IEC等标准化组织的概念模型,设计了中国移动大数据平台架构,如图3所示。大数据平台包括基础设施、大数据接口、大数据存储以及计算处理逻辑、平台管理等组件。

4 大数据平台安全防护体系

图2 大数据参考架构

图3 大数据平台架构

基于大数据平台的架构,大数据平台安全防护从基础设施、大数据接口、大数据存储、计算分析和平台管理五个方面开展安全防护措施,图4展示了大数据平台安全防护体。

4.1 基础设施安全

基础设施是承载大数据的虚拟、物理资源及网络资源等;在传统的网络安全的基础上,重点考虑符合大数据安全特性的防护措施。对承载大数据平台的云与虚拟化资源进行防恶意软件、Web应用防护、防火墙、入侵检测、完整性监控和日志审计等,要实现跨物理、虚拟和云环境的一体化安全管理。

4.2 大数据接口安全防护

主流的大数据接口组件有Sqoop、Flume和Kafka等,Sqoop是用于在Hadoop与关系型数据库间有效地进行批量数据传输的工具,Flume是一种分布式的、可靠的,适用于高效地收集、聚合和移动大量日志数据的服务,Kafka用于构建实时数据管道应用和流处理应用。大数据接口安全包括接口鉴权、传输安全、数据采集安全以及流量管控,主要从如下方面开展安全防护。

(1) 认证鉴权:对采集终端和采集人员开展接入鉴权,并对采集行为进行监控,一旦发现异常采集行为需及时告警;限制采集系统的IP地址、端口号等,同时对采集人员进行基于账号密码或其他方式的认证鉴权;对采集数据的传输过程实施基于设备的身份认证。

(2) 核心数据区域监控:严格限制在重要链路接入流量采集设备,同时限制对核心设备执行端口镜像类操作;严格限制采集过程中临时数据存储区域,不得任意修改存储区域地址。

(3) 日志与审计:对采集行为进行日志记录,并对重复采集和传输量超过设定阀值、采集传送过程中传输中断、传送过程中对目标文件库的存储量超过设定阀值的情况等异常采集行为及时告警。

4.3 大数据存储安全防护

大数据存储包括分布式文件系统、分布式数据库、非结构化数据库、内存数据库等,主流的组件有Hive、HBase、HDFS、Redis和 MangoDB 等[7],大数据存储安全包括数据的访问控制、加密存储、数据备份与恢复、数据销毁安全,主要从如下几方面开展安全防护措施。

(1) 数据访问控制:对应用程序的访问应做好访问认证和授权控制;对数据的关键性敏感操作进行多人分权授权管控,确保单人无法拥有重要数据的完整操作权限,如对关键敏感数据的批量导出、复制、销毁、公布和使用等。

(2) 数据加密存储:支持文件系统加密,利用加密技术保证了平台数据不被破坏和窃取;可根据数据敏感度等,支持分级的加密方法,可分别进行不加密、部分加密(脱敏)、完全加密等不同存储;应支持分等级的数据加密方法,根据数据密级采用不同的安全存储机制。

(3) 数据完整性:对关键数据具有完整性检测机制,能够发现数据存储阶段造成的关键数据损坏和丢失。

(4) 数据备份和恢复:提供针对关键数据的备份和恢复机制,确保关键数据的可用性和完整性。一旦发生关键数据丢失或破坏,可以利用备份来恢复数据,从而保证在故障发生后数据不丢失。

(5) 数据残留与销毁:数据删除后应保证系统内的文件、目录和数据库记录等资源所在的存储空间被释放或重新分配前得到完全清除,不可恢复。

4.4 大数据计算处理安全防护

大数据计算处理是针对海量数据提出的高效的计算框架,主流的计算框架有MapReduce、Spark、Storm等[8-10],大数据计算处理安全包括统一认证、细粒度授权、数据脱敏支撑以及数据关联性隔离,主要从如下几方面开展安全防护措施。

(1) 认证授权:具备安全认证鉴权机制,确保只有合法的用户或应用程序才能发起数据处理请求;支持对敏感数据的屏蔽、隐藏,使管理员能够灵活控制返回给用户的敏感信息,从而达到敏感数据保护的目的;通过统一的入口控制点对访问大数据平台的所有应用提供统一认证;对所有上层应用的访问进行细粒度授权控制,防止越权访问;认证方式可采用Kerberos或与系统兼容的其他认证方式。

(2) 数据脱敏:数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感数据的可靠保护,实现在不泄露用户隐私的前提下保障业务系统的正常运行;支持针对不同用户和不同敏感数据根据需求设置不同的脱敏算法;支持管理员可以配置用户查询特定数据库的特定表的特定列的脱敏算法;所选择脱敏算法具有一定的安全性、健壮性,不能被轻易破解或还原;数据脱敏之后不应影响业务连续性,不应对系统性能造成较大影响;应能支持动态添加或删除脱敏算法,同时确保系统平滑升级,应用无需中断。

(3) 数据封装:数据封装能够尽可能屏蔽内部的具体细节,避免受到外界的干扰和误用,从而确保了安全。

(4) 数据关联性隔离:支持针对不同应用进行数据关联性隔离,防止不同应用之间的数据关联分析,产生数据泄露;在响应同一应用或同一用户的多个数据访问请求时,也需要做好数据关联性隔离,防止不同的数据访问请求关联分析产生敏感数据。

(5) 数据转移控制:对于系统间和后台数据的导出行为,支持基于操作权限控制、频次控制、流量控制、源服务器限制等方式进行安全控制;支持对数据的特定输出进行标记信息安全嵌入,所嵌入的标记信息具体鲁棒性,信息不易剔除,以备在发生数据安全问题时,可以还原标记信息进行数据追踪;具备对数据转移输出等环节的日志安全记录、安全存储的功能,支撑数据流转的安全审计及责任定位。

4.5 平台管理安全防护

平台管理是对分布式存储、处理和应用提供协调服务,主流的组件有ZooKeeper、Ambari、Oozie等。平台管理安全包括对平台中的资源调用、补丁管理、元数据管理、日志审计以及数据分类分级管理等,主要从如下几方面开展安全防护措施。

(1) 补丁管理:对大数据平台组件提供版本检测和依赖性管理,对出现的版本冲突事件进行报警;提供完善的补丁管理,可获取并展示补丁的详细信息,包括补丁的发布时间、严重级别、内容描述等;提供补丁统一分发功能,可由管理员手动或自动在线获得补丁,并统一分发给大数据平台中的各个节点。

(2) 元数据管理:对元数据的访问、修改及删除等操作设置权限管理;对涉及元数据的所有操作进行日志记录。

(3) 日志管理:对大数据平台各组件所产生的日志进行记录;应用相关的日志应包括用户对应用的访问日志及系统对应用的访问日志;日志记录的具体内容应包括,操作时间、操作账号、客户端IP、服务器IP、操作类型、操作名称、操作内容、操作结果等信息;能够实现日志的自动分析,及时检测异常行为并告警。

(4) 配置管理:对大数据平台内各组件的安全配置进行管理。包括管理员权限控制、脱敏机制的开启、远程调用的开启等。

(5) 数据分类分级支撑管理:平台支持对数据按照重要性及敏感度进行分类别、分级别的差异化管理。

5 结束语

本文提出了大数据平台安全防护体系,从基础设施、大数据接口、大数据存储、大数据计算处理和平台管理等方面提出了安全防护措施,从而保障大数据业务的健康有序发展。本研究为省公司在开展大数据平台安全防护能力研发、安全部署实现、安全评测等提供支持。

[1] 中国大数据发展调查报告[R]. 北京:中国信息通信研究院.2017.

[2] 中国计算机学会大数据专家委员会. 中国大数据技术与产业发展报告[M]. 北京:机械工业出版社, 2016.

[3] 张滨. 运营商大数据安全保障体系研究[J]. 电信工程技术与标准化, 2016,29(12):1-7.

[4] 张滨. 大数据分析技术在安全领域的应用[J]. 电信工程技术与标准化, 2015,28(12):1-5.

[5] NIST Special Publication 1500-6-2015, Big Data Interoperability Framework: Reference Architecture[S].

[6] ISO/IEC 20547-3-2016, Big Data Reference Architecture[S].

[7] 郭远威. 大数据存储[M]. 北京:人民邮电出版社, 2015.

[8] 赵晟, 姜进磊. 典型大数据计算框架分析[J]. 中兴通讯技术,2016, 22(2):14-18.

[9] 董西成. Hadoop技术内幕:深入解析MapReduce架构设计与实现原理[M]. 北京:机械工业出版社, 2013.

[10] 董西成. Hadoop技术内幕:深入解析YARN架构设计与实现原理[J].中国科技信息, 2014(1):158-158.

Research on the security protection of big data platform

YU Le1, FENG Yun-bo1, JIANG Wei-qiang1, REN Lan-fang2
(1 China Mobile Information Security Center, Beijing 100053, China; 2 China Mobile Research Institute, Beijing 100053, China)

This paper was developed in response to security demand for big data platform which includes big data infrastructure, big data interface, big data storage, computing process and platform management, since the big data platform is the most important and emerging technology that facing serious security threats.The current researches do not propose solutions specially for big data platform security protecting.

big data security; big data platform security; big data reference architecture

TN918

A

1008-5599(2017)11-0006-06

2017-10-11

猜你喜欢
敏感数据脱敏日志
干扰条件下可检索数字版权管理环境敏感数据的加密方法
激光联合脱敏剂治疗牙本质过敏症
一名老党员的工作日志
扶贫日志
实现虚拟机敏感数据识别
谈一谈脱敏治疗
基于透明加密的水下通信网络敏感数据防泄露方法
基于4A平台的数据安全管控体系的设计与实现
让青春脱敏
游学日志