电力用户信息脱敏研究

2018-12-18 10:16朱克彭昌余
电脑知识与技术 2018年26期
关键词:信息安全

朱克 彭昌余

摘要:大数据技术的快速发展让数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私、敏感信息保护方面的难题。研究并设计一套基于Oracle数据库的在线数据脱敏方法,防止数据传输泄露,其中数据脱敏算法的动态选择,可满足不同应用场景下对电力用户隐私数据的保护要求。

關键词:数据脱敏;信息安全;数据隐私

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)26-0010-03

Abstract: The rapid development of big data finds the huge value in data. But it also brings problems in the protection of privacy and sensitive information. Research and design a method of online data desensitization Based on Oracle database to prevent the leakage data transmission. And the dynamic selection of data desensitization algorithm can meet the requirements of protecting the privacy data of power users in different application scenarios.

Key words: data desensitization; information security; data privacy

1 概述

随着大数据技术的发展,大数据平台越来越多为数据集中存储和数据深度挖掘分析提供平台支撑。然而大数据技术最初的设计并未完善的考虑其安全性,这些平台专注于发展数据处理能力,忽视了其他能力的发展,大数据平台作为一个分布式系统,承载了丰富的应用,集中了海量的数据,如何管理和保护这些数据充满了挑战,目前在国网内部兴建的大数据平台存储大量电力营销数据、电力调度数据、个人用电信息等等敏感数据。这些数据涉及到个人隐私和公司机密,数据在产生、传输、存储、处理以及使用等各环节且缺乏有效的处理机制,存在隐私泄露的隐患,用户隐私信息的泄露和国网内部敏感数据的泄露,直接造成国网声誉和经济的双重损失。另一方面,大量的数据需要挖掘分析,过于封锁屏蔽数据无疑是对大数据平台的浪费,如何才能在信息便捷传递共享的基础上,对数据进行合理的处理,使数据隐私保护和数据挖掘分析达成合理的平衡点,也是当下需要重点解决的问题。

2 数据脱敏系统设计

数据脱敏系统包含敏感数字段自动发现、数据脱敏以及敏感数据访问审计等主要功能。

图1为数据脱敏系统的主要功能。

2.1 敏感字段自动发现

实现自动剖析数据、发现敏感数据、识别数据关联性,针对不同类型的敏感数据给出常见的脱敏算法推荐方案,帮助管理和运维人员对海量数据进行敏感度标注,有效支撑电力业务系统数据的敏感度分类分级。

2.2 数据脱敏

根据电力业务系统数据的敏感度分类分级与实际应用需求,确定各个敏感数据脱敏方法与策略,在满足数据可用性的前提下,使得敏感数据的敏感程度下降,从而达到对敏感数据进行保护的目标。

按脱敏操作的维度进行区分,数据脱敏形态可划分为静态数据脱敏和动态数据脱敏。静态数据脱敏一般在非生产环境进行脱敏处理,或者对生产数据进行离线脱敏处理,包括:从生产环境流转到脱敏环境下进行,或流转过程中进行脱敏处理。脱敏完毕之后再在非生产环境使用,一般用于数据外部交换、批量外发、开发测试等。 动态数据脱敏一般用在生产环境,不能采用离线脱敏方式对生产数据进行“数据漂白处理”,因为生产数据是要具有数据原来的真实特质,这就需要不能改变生产数据库上的原始数据,只对相应的 “输入的请求”和“输出的数据”,进行实时动态脱敏处理,来防止敏感和隐私数据外泄。这种脱敏形式适用于对生产数据动态共享访问和检索,同时进行脱敏,通常与访问权限结合使用。

常用的脱敏方法有:日期偏移取整:按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一定分布特征的情况下隐藏原始时间,也即舍弃精度来保证原始数据的安全性。替换:按照特定规则,使用伪装数据对原始数据进行替换。重排:将原始数据按照特定的规则进行替换或重新排列,从而实现脱敏。轮询:将有限的数据排成一个循环队列,将原始数据的指针向前或向后移动n位得到新的数据。加密:对脱敏数据进行加密处理,使外部用户只能看到无意义的加密后数据,同时在特定场景下,可以提供解密能力,使具有密钥的相关方可以获得原始数据,比如使用非对称加密技术,用数据请求方的公钥来加密,请求方获得数据之后用私钥来解密还原被脱敏的数据。截断:舍弃必要信息来保证数据的模糊性,仅保留部分关键信息。规整:将数据按照大小规整到预定义的多个档位。掩码:指保留部分信息,对敏感数据的部分内容用通用字符(如“X、*”等)进行统一置换,从而使得敏感数据保持部分内容公开,但对信息持有者来说易于辨别。这种方法可以在很大程度上脱敏的同时,保证信息的长度不变性,即掩码后的数据长度与原始数据一样,是一种广泛使用的脱敏方法。随机:参考原始数据的特征,重新随机生成数据。

2.3 数据脱敏访问审计

数据脱敏系统审计全部脱敏记录,使得管理与运维人员可以及时掌握敏感数据的相关访问统计信息。

3 数据脱敏系统实现

3.1 数据脱敏系统部署

数据脱敏系统与数据源(Oracle 11g)相连。数据脱敏系统采用B/S架构设计,采用旁路部署方式,通过配置终端对数据脱敏系统进行操作和配置。部署拓扑如图所示:

3.2 敏感字段自动发现与确认

根据脱敏的需要,在数据源中选择需要发现的敏感数据类型。 本次选择的敏感数据类型为客户编号、用电地址、中文姓名、联系电话、证件编码。

经过敏感数据自动发现并由用户进行确认,我们共确认了5个敏感数据字段,具体字段如表1所示。

3.3 脱敏算法选择

脱敏算法是将敏感数据按照特定规则进行处理,针对不同场景下的数据需要使用不同的脱敏算法。

3.4 脱敏访问审计

脱敏过程中操作员负责整个脱敏过程,其中关键的脱敏操作需要审批员审批,防止脱敏当中的误操作,审计员可以及时掌握敏感数据的相关访问统计信息,防止出现违规操作。

4 方法測试

本次测试实际的部署架构,由三台机器节点组成,一台是数据库节点,安装有 Oracle 数据库,存放需要脱敏数据、一台是数据脱敏引擎节点、一台是脱敏操作机器以及存放脱敏后数据。数据进行脱敏前和脱敏后分别如图 3 和图 4 所示。

5 总结

基于Oracle数据库的脱敏技术可以根据用户需求进行敏感字段发现,对从数据库提取的数据进行实时脱敏,避免数据传递过程中的泄露,按照脱敏算法对用户敏感数据进行处理,能有效保护电力用户隐私,促进电力用户数据的使用,最大化发挥电力用户数据的大数据研究价值。

参考文献:

[1] Ponemon Institute.Cost of Data Breach:Global Analysis

[EB/OL].(2013-05-28)[2016-05-26].http://www.pone·922·通信技术 www.txjszz.com 2016年mon.org/,2015.

[2] Gartner.Gartner 2014 Magic Quadrant Data Masking Report[EB/OL].(2015-12-22)[2016-05-23].http://www.gartner.com.2014.

[3] 姜日敏.电信运营商数据脱敏系统建设方案探讨[J].信息科技 ,2014(08):132-133.

[4] 刘明辉,张尼,张云勇,等.云环境下的敏感数据保护技术研究 [J].电信科学 ,2014(11):2-8.

[5] Securosis Corporations.Understanding and Selecting Data Masking Solutions:Creating Secure and Useful Data[EB/OL].(2014-03-01)[2016-05-19].http://www.techrepublic.com/resource-library/whitepapers/understanding-and-selecting-data-masking-solutions-creating-secure-and-useful-data/.

[6] Informatica Corporation.Dynamic Data Masking BaselineDeployment[EB/OL].(2013-01-01)[2016-05-22].https://www.informatica.com,2013.

[通联编辑:梁书]

猜你喜欢
信息安全
《信息安全与通信保密》征稿函
基于三级等级保护的CBTC信号系统信息安全方案设计
《信息安全研究》2018年(第4卷)总目次
信息安全专业人才培养探索与实践
计算机网络信息安全及防护策略
保护信息安全要滴水不漏
高校信息安全防护
保护个人信息安全刻不容缓
WebSocket技术在信息安全系统中的应用
中国信息安全认证中心