基于身份动态持续认证的大数据平台访问信任技术研究

2019-03-18 01:13施麟陈宁张骏
网络空间安全 2019年7期
关键词:大数据平台数据安全

施麟 陈宁 张骏

摘   要:大数据平台作为核心数据的存储、计算的统一载体,其数据来源复杂、结构多样,而“脏”数据的接入、服务应用、人员访问权限的控制缺失,会导致完整性、可信性的闭环失效。文章提出了一种基于身份动态持续认证的大数据平台访问信任技术体系,实现了与大数据平台相关的采集设备、应用服务、API接口、人员权限的联动,并基于终端环境感知完成动态持续认证,实现了大数据平台的数据采集传输、存储、使用等全生命周期的安全防护,为企业建设大数据平台访问信任体系提供技术支撑。

关键词:大数据平台;数据安全;动态持续认证;访问信任

中图分类号:TP274+.2          文献标识码:B

Abstract: Ensuring the security of data flow is the core content of big data platform security. The data source of big data platform is complex and the data structure is diverse. The “dirty” data access to big data platform will lead to serious lack of credibility. After the data is processed by big data platform. The control of services, applications, and personnel access rights is not strict and can lead to serious data leakage incidents. This paper studies a big data platform access trust technology based on identity dynamic continuous authentication, realizes the identity of terminals, collection devices, applications, services, interfaces and personnel information related to big data platform, and implements dynamic continuous authentication based on terminal environment awareness. To realize the security protection of data collection, transmission, storage, use and sharing of big data platform, and provide reference for enterprises to build security system of big data platform access trust system.

Key words: big data platform; data security; dynamic continuous authentication; access trust

1 引言

当前,随着“云大物移智”等前沿技术的发展,大数据以其拥有复杂异构数据、多层级分析关联、AI、Data Mining等特点成为关注焦点,并以其可为政务、能源、金融等行业提供数据决策支持,为新常态的动能转换提供增长点而纳入国家发展战略。同时,随着以Hadoop为典型大数据架构的创新技术加速演进,促进了Spark、Graph、Map Reduce等计算理论的进步。由此,大数据平台作为核心数据的收集、存储、计算的统一载体,起着万物中心引擎的关键作用。

然而,海量数据汇集的同时,也意味着大量政治和经济利益的汇集,总有一些人想方设法地试图谋取不当得利[1]。目前,针对大数据的勒索攻击和数据泄露日趋严重,全球大数据安全事件呈高发态势,大数据平台的复杂逻辑TAP、多维采集和应用API都会成为黑客攻击的突破口。大数据平台的安全问题催生了相关领域的产品研发,但大多数是基于单点或单面防护,对数据整体框架结构安全的防护考虑还不足[2,3]。

2 数据访问风险与防护需求

数据在大数据平台中的采集输入、租户访问、传输共享以及开发测试等场景下都可能存在安全风险。

首先,大数据平台的功能模块一般由数十个开源或半开源组件构成,而在安全体系的組件上却屈指可数。以Hadoop为例,虽然存在着一些开源的数据审计与认证模块,但都是基于平台简单的ACL,在数据南北向流转、出入口防护、多租户隔离等方面有着明显的不足,缺乏统一的访问控制措施[4]。

其次,攻击者大量利用口令爆破、XSS等惯用伎俩突破企业边界。无论是基于登录过程的弱口令,还是对于传输过程中的凭证截获或伪造,其攻击的根本目标是绕过企业网络的访问权限限制。这种攻击看似低级,却是最易得手的伎俩之一。根据美国移动运营商Verizon报告分析指出,81%的黑客成功地利用了强度不足的密钥,轻而易举地获得了数据的访问权限[5]。

另外,以APT为代表的高级攻击层出不穷。大型组织或者敌对势力发起的规模化网络攻击事件中,攻击者往往利用“0Day”的漏洞,对政府或商业巨头的大数据平台进行“定点打击”,这类攻击往往隐蔽性高,持续时间长,危害极大。

2.1 数据访问风险

2.1.1 接入身份不明晰

大数据平台的数据输入身份有各类采集终端、业务人员、行业应用等,输出身份有各类API接口、分析用户、外部用户等多达近百种,由于交互身份的不明晰,很难基于用户的身份进行详细的权限控制,也就无法追踪溯源。

2.1.2 应用接口不明确

各应用在通过API接口或Socket服务访问大数据平台时,可能存在接口共用、接口权限过大、数据访问控制不严格等情况。各组件在通过API进行数据共享时,由于缺乏对数据类别的访问控制,可能导致敏感数据泄露。

2.1.3 攻击方式多样化

大数据平台可能存在SQL注入、XSS、APT、数据积淀泄露等被动攻击风险。恶意用户可能对大数据平台进行SQL注入、缓冲区溢出等攻击,对数据库直接进行撞库、拖库,一旦突破防护,HBASE、HIVE、HDFS等组件中的数据将会全部暴露。此外,业务人员未通过安全接口访问数据,运维人员拥有获取敏感数据进行测试的权限,可能会造成数据采集错误或者数据丢失。

2.2 数据访问防护需求

基于对数据安全风险的分析,大数据平臺在数据访问防护方面存在五方面需求。

(1)数据采集方面。对各类终端、业务人员、行业应用进行标识,使用PKI进行授权,保证采集数据的准确、可靠性,防止非法假冒“脏”数据输入。

(2)接口与应用方面。建立行业白名单,对业务和应用身份化,严格梳理权限,对大数据平台组件和数据表的访问权限进行控制,避免各类应用直接暴露于互联网,防止API滥用。

(3)人员方面。对各类运维人员、业务人员、外部用户的身份进行实名制身份鉴别,将用户的权限进行分组,使用统一的GUI,进行多因子认证后再授权。总的来说,就是网络环境下的身份鉴别,就是验证某个通信参与方是否与他声称的身份一致性的过程[6]。

(4)终端方面。对各类PC、移动终端进行身份标识,并对运行环境进行动态评估,限制存在指定漏洞和未安装安全软件的终端访问数据,动态调整终端的接入权限。

(5)监管合规方面。当前国家对数据信息安全越来越重视,已出台《中华人民共和国网络安全法》[7]《信息安全技术 网络安全等级保护基本要求》[8]《国家电子政务标准化指南》[9]等相关政策标准。为了满足国家对企业信息数据安全建设要求,企业需要以业务需求为导向,规范建设企业数据信息安全保障体系,形成科学实用的规范化安全管理能力、体系化安全技术防护能力、综合化安全监管运维能力,以满足相关部门对于企业信息安全的监管和合规要求。

3 访问信任架构设计

大数据平台的数据安全是指保护存储在平台上的数据防止被未经授权用户的访问或修改,机密性、完整性、可用性是其主要的安全属性。基于该设想,谷歌率先提出了BeyondCorp计划,旨在构建基于“零信任”模型的安全架构,最核心的PKI/PMI是基于受控设备和用户是否合法,而不是基于网络访问控制。

本文提出了一种基于大数据平台的数据安全立体防护技术,将大数据平台作为“黑盒”进行防护,对大数据平台的入口和出口使用基于身份动态持续认证的大数据平台访问信任技术,加速构建大数据安全保障体系,保护流经大数据平台的数据安全。

设计大数据平台的访问信任架构体系,核心是对数据采集、接口与应用、人员、终端等方面进行全面的身份化,并进行动态持续认证,实现对大数据平台多个主客体之间的细粒度权限管控,实现统一身份认证管理的精细化、动态化的授权能力。关键是访问信任体系通过在主体(终端、用户)和客体(应用、接口、数据)之间进行严格的身份识别,并建立唯一安全可信的访问控制路径,实现访问过程的安全可控,从而将身份鉴权作为新的控制点,把身份和动态访问控制共同作为大数据安全保障的关口。

访问整体架构如图1所示,通过接口访问控制系统(入口和出口)、应用访问控制GUI、终端代理感知、动态访问信任控制中心等构成立体的访问信任架构体系。实现数据入口、数据出口、应用接口三道安全防线。

动态访问信任控制中心是实现基于身份动态持续认证的核心,能够充分评估终端风险并进行计算和策略持续动态调整。控制中心平台接收终端代理感知的漏洞和病毒木马评估结果,为接口访问控制系统、应用访问控制GUI动态持续下发访问控制策略,调整相应终端的权限,动态限制或中断存在风险的会话。接口访问控制系统、应用访问控制GUI通过反向代理方式实现数据隐藏,并根据控制中心平台下发的策略提供应用级或接口级的细粒度授权。

4 基于终端环境度量的动态访问信任算法

采用的算法模型在整体架构上分为终端代理感知客户端和动态访问信任控制中心两大模块。终端代理感知客户端主要负责采集终端的相关要素信息,如系统配置、操作系统补丁、杀毒软件版本等。动态访问信任控制中心模块主要负责接收客户端代理提供的多个终端要素信息,按照一定的评估算法对其进行评估并得到全局性的终端环境评估结果,然后与用户身份一起作为访问控制的判决主体。

本算法度量的安全指标主要分为安全配置措施、监控审计措施、漏洞病毒情况。这些措施的完备与健全直接影响着终端系统的安全。其中,安全配置措施包括账号密码策略设置、端口及服务设置、补丁更新设置、防火墙设置、杀毒软件安装等。监控审计措施包括系统安全审核机制、日志设置等。漏洞病毒情况为终端代理扫描的高危漏洞及病毒数量统计。

其中,安全配置措施权重为J(0

设X=(X1,X2,...,Xn)为安全配置措施空间,即攻击防范措施的内容值,如X1为账号密码策略设置,X2为端口及服务设置,Xn为杀毒软件安装。Y=(Y1,Y2,..,Ym)为监控审计措施空间,即终端监控审计措施的内容值,如Y1为安全审核机制,Ym日志设置。Z=(L1,L2)为病毒木马情况空间,如L1为高危漏洞情况,L2病毒木马情况。

根据采集器的结果,配置合格Xn和Ym取值为1,配置不合格Xn和Ym取值为0。存在高危漏洞L1取值为0,反之为1。存在病毒木马L2取值为0,反之为1。

单项测评结果:

某时刻t,动态访问信任控制中心计算终端总体信任值结果:

将目标访问系统的安全防护级别分为五级,即B=(低、较低、中、较高、高),且高级别系统权限包含低级别系统权限,即用户获得高级别系统的权限时具备对低级别系统的访问权限。At取值可映射值B的安全级别,动态访问信任控制中心计算调整终端至相应的访问权限。

终端在获得系统访问权限后,每分钟的时刻t, 动态访问信任控制中心计算计算终端总体信任值结果At,获得新的安全级别B及访问权限,实现动态持续认证。

通过本文公式的计算和评估,假如一台终端存在病毒和高危漏洞情况,将会计算出较低的At值,在B空间获得的安全级别较低,仅对少量低安全级别的系统有访问权限,阻断对高级别安全防护系统的访问,实现基于终端环境的动态授权可持续认证。

5 典型场景应用

依据动态访问信任安全架构的技术思路,以典型的Hadoop架构的大数据中心为例,探讨实际场景应用。

(1)确定保护目标、数据访问路径和暴露面,包括数据出入口、数据采集接口和应用API、外部数据共享接口等。

(2)构建身份认证中心,以现有4A或其他平台为基础建立PKI/PMI体系,对人员、终端、应用签发CA证书,保证接入大数据平台的身份可信。

(3)构建应用及API接口的安全访问控制点,应用访问控制GUI对所有接入进行访问身份鉴权,接口访问控制系统对所有的行业应用与数据API之间强制调用安全访问策略。

(4)构建及时终端风险检测评估,使用终端上安装的Agent感知程序,对终端的病毒木马和漏洞进行扫描,将评估结果及时反馈给评估系统。

(5)构建动态持续认证控制平台,采用动态访问信任控制中心对接口访问控制系统和应用访问控制GUI进行集中管理,基于终端威胁评估结果进行动态授权。

访问信任系统整体部署架构如图2所示。

部署方案同时实现了访问主体(用户终端、外部应用接口、采集终端、原有业务)对客体(数据中心的数据服务接口)的接入控制,并且可根据访问主体实现细粒度的访问授权。在访问过程中,可基于用户终端的病毒木马、漏洞数据的风险状态进行动态授权调整,以保障数据访问的持续安全性。其中,动态访问控制中心可导入现有IAM(访问控制)[10]、4A、PKI/CA(公钥基础设施/数字证书)[11]实现用户身份的确认。

在部署方案中,以用户访问为例,数据交互流程如下。

(1)用户在终端设备中对目标应用的访问,须统一接入应用访问控制GUI。

(2)应用访问控制门户根据填写的访问用户信息向动态访问信任控制中心发起认证请求。

(3)动态访问信任控制中心通过现有的IAM、4A、PKI/CA实现用户身份的确认,完成用户的认证授权。

(4)用户在应用访问控制门户的授权通过,访问请求转发至接口访问控制系统,接口访问控制系统根据用户信息向动态访问信任控制中心发起认证请求。

(5)动态访问信任控制中心完成用认证及授权,接口访问控制系统转发接口调用请求至JDBC接口或API服务[12]。

(6)JDBC接口或API服务根据请求逐级返回数据,完成数据的访问信任工作。

(7)动态访问信任控制中心实时收集终端的病毒木马、漏洞数据,计算用户的风险数据,当终端的风险达到设置的阈值时,动态调整终端的权限。

整个访问过程实现了基于身份动态持续认证的大数据平台访问信任技术应用。

6 优势及价值

提升安全能力,应对实时风险。采用统一的数字化身份信息,实现访问用户身份的全面认证。通过细粒度以及动态化的授权方式,满足实时的安全性要求。获取实时的环境安全状态、访问行为数据,智能分析风险并调整访问控制策略。

实现自动管理,降低运维成本。通过自动化的身份管理、认证及授权能力,可以有效地减少企业IT人员的工作量及人为出错。从安全架构层面可以解决安全的源头问题,投入低,可靠性高,避免重复建设。

提高工作效率,提升用户体验。消除物理逻辑边界,提供随时随地的企业数据访问;自动获取用户身份安全状态进行访问授权,安全用户无感接入;一站式访问门户和单点登录,有效地提升用户使用效率。

7 结束语

在迈向SDN、集中化存储的大数据环境下,本文提出了一种基于身份动态持续认证的访问信任技术,构建应用访问控制GUI、接口访问控制API、动态访问控制中心、终端代理感知等系统,实现以身份为基础,以细粒度的应用、安全动态策略为核心,遵循最小权限原则构筑安全防护体系,为大数据中心的整体安全架构提供技术支撑。

参考文献

[1] 齐向东.漏洞[M].上海:同济大学出版社,2018.

[2] 徐保民,李春艳.云安全深度剖析:技术原理及应用实践[M].北京:机械工业出版社,2016.

[3] 薛朝晖,向敏.零信任安全模型下的数据中心安全防护研究[J].通信技术,2017,50(06):1290-1294.

[4] Rory Ward,Betsy Beyer.BeyondCorp:A New Approach to Enterprise Security[EB/OL]. (2014-12-01)[2017-02-09].https://research.google.com/pubs/pub43231.html.

[5] 梁继良,孙家彦,韩晖.大数据时代安全可信防御体系[J].网络空间安全,2018,9(12):35-40.

[6] 胡道元,闵京华.网络安全(第2版)[M].北京:清华大学出版社,2008.

[7] 新华社.中华人民共和国网络安全法[EB/OL]. http://www.cac.gov.cn/2016-11/07/c_1119867116.htm,2016-11-07.

[8] GB/T 22239-2019.信息安全技术 网络安全等级保护基本要求[S].

[9] GB/T30850.1—014.电子政务标准化指南[S].

[10] 赵彦,江虎,胡乾威.互联网企业安全高级指南[M]. 北京:机械工业出版社,2017.

[11] 吴世忠,李斌,张晓菲,沈传宁,李淼.信息安全技术[M].北京:机械工业出版社,2014.

[12] 王書平,杨薇.数据可信框架计算研究[J].计算科学, 2018(37):72-73.

猜你喜欢
大数据平台数据安全
部署推进2020年电信和互联网 行业网络数据安全管理工作
工信部:2021年初步建立网络数据安全标准体系
如何进一步做好网络与数据安全工作
数据安全政策与相关标准分享
Hadoop性能测试自动化研究
基于大数据的智能停车场管理系统设计
基于大数据分析的智慧仓储运营支撑平台设计
袜业行业大数据平台的应用研究