高校大数据安全与应用探析

2024-04-06 12:49刘梅梁倩
电脑知识与技术 2024年3期
关键词:安全威胁隐私保护网络信息安全

刘梅 梁倩

关键词:大数据;网络信息安全;数据预测;安全威胁;隐私保护

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2024)03-0075-03

0 引言

随着信息爆炸式增长,继网格计算、云计算和物联网之后,大数据成为一项新兴热门技术。它给人们的生活和工作带来便利的同时,也帶来了新的安全威胁。网络信息安全已经成为一级学科网络空间安全的核心[1]。党的十八届五中全会通过了“十三五”规划建议,这份未来五年纲领性指导文件中6次提到了网络信息安全。先前浙江乌镇举行的主题为“互联互通·共享共治——共建网络空间命运共同体”的世界互联网大会,充分体现了信息安全问题越来越受到国家层面的高度重视以及全社会的广泛关注。然而,现有网络信息安全中存在的国产替代的自主核心技术缺失;建立的审查制度不够严密;相关法律、法规、管理尚有空白等情况都是制约我国网络信息安全发展的“短板”。网络信息安全又是大数据应用和安全的支撑保障,从而引发一系列的大数据安全问题,目前存在形式较为严峻的包括有隐私信息的保护、算法实现的信任和数据泛滥的处理等核心问题,针对这些问题采用现有的PKI/对称密钥机制、代码签名与审计机制、数据隐水印机制等传统方法,却并不能完全解决上述核心问题。例如大数据复杂环境下,采用PKI/对称密钥机制不能应对合法的数据的使用者泄露数据;如何将代码签名与审计机制运用在分布式的云编程模式,如何实现非数据块的数据流隐水印技术,这些都是值得思考与研究的问题。现有面向大数据安全的研究[2-3,5]大多都聚焦于以上核心问题,但并没有从体系架构的角度考虑。

本文在大数据的内涵与特点基础上,从体系架构上分析了大数据面临的完全威胁,重点从基础平台、业务处理、用户终端和共享使用四方面总结了相应解决方案,最后介绍了大数据在高校和网络安全方面的应用。

1 大数据内涵与特点

大数据,或称巨量数据集合,是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合[4]。

大数据具有6V+1C特点[5]:Volume(大量)、Veloc?ity(高速)、Variety(多样)、Value(价值)、Variability(易变)、Veracity(真实)、Complexity(复杂)。

2 大数据安全威胁及应对方案

基于大数据自身特性,在数据的整个生命周期中,从数据采集、存储、分析与应用等都面临各式各样的安全问题。

大数据安全从分层角度考虑,可分为应用层的安全、数据层的安全、系统层的安全和设备层的安全;从体系架构上考虑,可具体到基础平台的安全、业务处理的安全、用户终端的安全和共享使用的安全,可再进一步细分到数据和系统两方面。解决大数据安全问题须从体系架构上规划、设计和实施。根据图1,下面从系统架构的角度分别论述各模块所存在的安全威胁以及相应解决方案。

2.1 基础平台的安全

隐私数据泄密,是采用分布式编程框架的系统普遍存在的安全问题。大数据系统架构中,Airavat模型[6]是一个基于MapReduce框架的安全模型,它利用强制访问控制和差分隐私保护技术对分布式计算环境下的敏感数据提供较好的访问控制和安全隐私保护。其基于SELinux安全子系统为安全计算模型提供强制访问控制策略;采用的差分隐私保护技术可对来自数据源中的每组输入数据进行差分隐私处理,使任何单个数据项都不会对总的计算输出结果产生太大的影响。

常用的非关系型数据库(NoSQL) [7]是一种分布式的且不保证遵循ACID原则(即原子性、一致性、隔离性、持久性)的轻量级关系型数据库,它只解决了性能与扩展问题,却并没有考虑安全问题。针对非关系型数据库所存在的问题,针对性地进行安全加固,可采取的途径包括:通过为NoSQL定制高性能的原子操作来确保事务完整性;通过为NoSQL提供Cluster集群节点强制认证等机制来完善认证机制;通过将NoSQL与系统的基于角色的访问控制相结合来完善授权机制;针对NoSQL 领域中存在的json-注入、array-注入、view-注入、rest-注入、gql-注入等类型的注入攻击进行检测;通过NoSQL内部操作日志系统和日志分析系统来排除安全隐患。

2.2 业务处理的安全

随着网络化制造业的迅猛发展,产品借助互联网或CD-ROM被复制、传播和公开,盗版侵权现象日益猖獗,对数据版权保护的需求愈发强烈[8-9],数字水印技术应运而生。该技术是对数字制品的版权和完整性进行保护的有效手段,其核心思想是当数字作品出现侵权时,可通过嵌入在数字作品中的隐蔽标记来鉴别真伪。与此同时,在数据采集、分析和推广过程中也能加强对违法来源的追踪。

为增强数据来源的可信度,还可采用数据标签技术进一步对“数据体制”进行规范,从而对于后续的数据来源、合法性、传播渠道等环节分析带来巨大的帮助;并可完善与升级授权使用体制,运用代码与数据混合应用模式和联网授权管理机制来提升数据源的可信度。

2.3 用户终端的安全

攻击者可以通过制造恶意设备;克隆ID身份,以虚拟身份提供非法数据;修改采集端应用软件;对采集网络进行中间人攻击;利用采集端漏洞注入非法数据等方式向数据中心提供非法输入,造成数据中心重要数据库污染、DOS攻击等安全威胁。

用户对网络服务使用可能带来非可信数据的流入,最终导致用户终端系统的可信性受到威胁。TPM 安全芯片[10-11]是一个基于密码学的安全芯片,被可信计算组织倡导作为可信计算环境的硬件信任根,负责加密解密相关的运算和密钥的存储,除了能保护敏感数据之外,还具有一定的防篡改保护能力,可从终端上提高系统的安全性。基于TPM 芯片的采集端可实现用户终端系统的校验功能和防篡改功能,由于造价便宜,容易得到用户认可,可广泛推广使用。

大数据环境下的云服务多种多样,要求系统提供给用户相对清晰简洁的服务接口,但系统内部复杂的运行机制对用户并不透明,因此当终端系统出现异常时,难以实时掌握系统运行信息,亟需开发专用云服务过滤器,实现采集信息的异常检测与分析。

另外,为解决程序开发与交付代码的不可信问题,引入基于King.J.C的符合執行方法,应用于平台各类组件的缺陷测试与分析中,可帮助提升程序代码的可信度,其核心思想是利用“符号表达与计算”的方式来对程序所有可能的状态进行穷举搜索,并筛选出其中的缺陷状态部分。

2.4 基础平台的安全

数据的共享使用解决了数据孤岛问题,但同时也带来了数据安全问题。如何在数据共享使用过程中保护隐私安全,是一个棘手问题。以政务管理系统为例,其数据分级、分类公开应用,都需要重点关注处理敏感信息等隐私保护问题,避免因泄露而陷入不可控局面。

为应对共享使用的隐私保护安全问题,常见采用数据匿名化[12]、安全多方和密文计算数据等技术手段。典型的数据匿名化技术有群签名、环签名、零知识证明和不经意传输,其中零知识证明是证明者能够在不向验证者提供任何有用信息的情况下,使验证者相信某个论断是正确的,解决当前认证需求下的数据泄露问题;不经意传输是在顾客购买商品的时候,供货商无法获知顾客所购买的是什么商品,进一步扩展到什么时候以及如何买。安全多方技术可通过数据可取回性证明来实现。密文计算数据技术分可搜索加密技术和全同态加密技术,可搜索加密技术[13]主要应对存储到云端的个人数据可能存在泄密的威胁,它提供的加密和密文直接检索功能使服务器无法窃听用户个人数据,但可以根据查询请求返回目标密文文件,这样既保证了用户数据的安全和隐私,又不会过分降低查询效率;全同态加密技术[14]是一种密文计算数据技术,它允许将敏感的信息存储在远程服务器里,既避免从当地的主机端发送泄密,又保证了信息的使用和搜索。

以云计算环境为例,云用户发布数据在云服务器上共享,可以采用从粗粒度访问控制过渡到细粒度的访问控制与审计的方式,将业务模型中的对象加以细分,依据用户对数据访问权限访问数据对象,同时对数据对象进行更细化的审计工作。

3 大数据的应用

3.1 大数据在高校中的应用

高校中汇聚着大量的学生信息、教职工信息、教学数据、科研数据、就业数据、一卡通消费数据、资产数据等各类数据,涉及教学、科研、管理等各方面。

1) 人事管理方面:综合各教职工的教学、科研等业绩、历史考核成绩、评价、性情等各方面信息进行分析研判,为干部选拔、人事考核提供判断依据。

2) 学生管理方面:根据学生一卡通消费等数据提供勤工助学活动的参考依据,根据学生成绩、获奖、协会、兴趣、爱好、特长各方面分析,提供就业推荐及指导。

3) 教学科研方面:对学生专业、选课、成绩、图书馆借阅、获奖、协会等方面进行数据分析,提供研究方向选择、导师选择、毕业论文方向方面的指导等。

图2展示了现有高校大数据体系架构及应用。在高校的学科规划、心理咨询、专家推荐、校友联络等各个具体应用上,均可借助大数据分析技术挖掘数据中潜在的价值[15]。目前,不少高校都已经意识到大数据对于高校信息化建设和校园工作的重要意义,并已经开始着手研究大数据如何更高效地为校园工作服务。

西南交大计划推出“大数据校园”,为学校决策提供数据支撑,通过有线网络、Wi-Fi、一卡通、门禁卡等相关系统,绘制出学生在校园里的“行为轨迹”模型,预测学生未来的发展状况。华东师范大学也正在将一卡通消费数据与勤工助学结合起来。越来越多的高校都希望启动大数据研究和建设工作,数据的安全也是其中的焦点。

3.2 大数据在网络安全中的应用

1) 利用大数据平台发现威胁和预测复杂攻击:传统APT攻击[16]防护体系在应对现有网络信息安全中的零日攻击、社会工程学、逃逸攻击已逐渐显现出其不足,利用大数据技术,构建APT攻击的数据模型,加入主动检测技术和响应流程,形成一套完整的APT攻击防护体系,可解决传统信息安全中边界防御、多层防御无法避免的“被动响应”问题。

2) 利用大数据平台分析缺陷,快速定位软件漏洞:通过对程序变量、内存分配和存储方式进行分析来实现相应的内存重组织方法,用于跟踪符号传播过程,同时采用基于并行计算模型和相应编程模式的Spark集群计算框架可优化内存集群计算中的迭代次数,从而达到快速定位软件漏洞的目的。

3) 利用大数据平台实现虚拟机逃逸验证,设计与研发基于苹果系统的Hypervisor[17]防逃逸技术。

4 结束语

大数据作为新时代经济与社会发展的“动力源”和“驱动力”,其体系框架现在还存在各式各样的安全威胁,因此我们需加大力度投入大数据安全与应用,着重培养大数据安全专业人才,加快研发大数据安全技术,规范大数据平台的建设,全面提升大数据安全响应速度和保障能力,同时也应注意尽力缩小理论研究与实际应用之间的差距。

【通联编辑:王力】

猜你喜欢
安全威胁隐私保护网络信息安全
大数据环境下用户信息隐私泄露成因分析和保护对策
大数据安全与隐私保护的必要性及措施
WIFI无线网络技术及安全问题研究
计算机网络信息安全与其防护体系设计
《网络信息安全》课程教学改革与探索
校园无线网络的安全问题及应对策略
社交网络中的隐私关注及隐私保护研究综述
大数据时代的隐私保护关键技术研究
关于计算机网络信息安全及防护策略探究
互联网金融的风险分析与管理