基于Hbase的健康监测大数据平台隐私保护研究

2018-01-19 11:35杨国卿王勇
软件导刊 2018年10期
关键词:隐私保护

杨国卿 王勇

摘要:随着手机和可穿戴设备的蓬勃发展,越来越多的人运用健康平台记录运动数据,在方便应用的同时也带来了安全和隐私问题。为解决健康平台存在的各种隐患,采用以下应对措施:在数据采集端,有统一的健康监测数据接入协议,采用不同的规则对用户数据进行安全处理;在数据发布端,按照发布规则,对共享的健康信息进行保护,对平台不同用户给予不同权限;在存储端,对各种健康数据,都有查询和使用的详细记载。通过以上措施,极大改善了用户的个人隐私问题。

关键词:健康大数据;HBase;隐私保护

DOIDOI:10.11907/rjdk.181127

中图分类号:TP309

文献标识码:A 文章编号:1672-7800(2018)010-0209-04

英文摘要Abstract:With the proliferation of cell phones and wearable devices, more and more people use health platforms to record sports data, which brings convenience and privacy issues at the same time. In order to solve the various hidden dangers of the health platform, the following countermeasures are adopted. In the data acquisition terminal, there is a unified health monitoring data access protocol to upload, and the protocol uses different rules to conduct the user data security processing. Secondly, in the data publishing terminal, according to the publishing rule, the shared health information is protected and users are granted permissions respectively. Thirdly in the strorage terminal, the queries and logging of various health data are kept in detail. The protection of users′ privacy issues will then be greatly improved.

英文关键词Key Words:Health big data;HBase;Privacy protection

0 引言

互联网时代,大数据带来的隐私保护挑战亟待解决[1],相关研究多基于某个部分,如Lin H Y等 [2]提出的一种针对HDFS(Hadoop分布式文件系统)的混合加密技术,童云海等 [3]提出的隐私保护数据发布中身份保持的匿名方法,Blum等[4]提出的数据隐私性验证方案等,这些研究为平台隐私保护策略设计提供了思路,但研究很松散,不是很契合健康监测平台。本文提出基于健康检测平台的隐私保护策略,对数据采集、存储、发布这3个存在主要信息泄露的阶段进行研究,采取不同措施加强各阶段的隐私保护,可为健康大数据平台的建立和维护提供隐私保护技术支撑。

1 隐私保护策略设计

1.1 信息分级

数据采集端由“可穿戴设备”或其它终端收集到人体生理数据,经健康监测数据接入协议传入云端。在这个过程中,各种上传信息包含众多个人隐私信息,如姓名、手机号等,如果不经过加密或其它安全手段处理被非法获取,会给用户造成极大困扰。考虑到健康监测平台不只是作存储,也可能会利用庞大的健康信息开展研究,因此不能对所有信息都进行安全处理。基于此,可对个人健康信息分级,按照中华人民共和国卫生部《城乡居民健康档案基本数据集》建立Hbase数据模型,设计健康监测平台数据表,见表1。

个人姓名、身份证号码等敏感信息安全等级为一级,此类信息要做安全处理。而用户有关的健康信息,如血压、血脂等,如果一级安全等级信息已经被保护,此类信息就作为可加密或不加密信息,安全等级定为二级。但如知道工作单位和年龄、工作单位和身高此类二元组,或工作单位、身高、年龄三元组,也可定位到个人,所以对二级安全里面的有些信息还要结合表进行合理处理。而有些信息如身份证类别代码就不用加密,可作为三级安全等级。据此分析得出如表2所示的安全分级及组合策略(一级的加密,二级的选择性加密,三级不加密)。

1.2 数据采集端加密

加密算法有对称加密算法和非对称加密算法。对称加密计算不复杂,加密时间短,但是容易破解;非对称加密算法加密复杂,加密时间长,但是很难破解。考虑到数据采集端是各种健康可穿戴设备,对于复杂计算可能会花费很长时间,严重影响用户体验,所以在客户端采用对称加密算法。

1.3 数据发布

数据发布分为面对私人和面对公众发布。

1.3.1 面對私人

顾名思义,就是对私人相关数据的获取,只需登录自己的账号,即可查看所有相关信息(登陆时会有相关密钥提交)。需要查看用户相关信息的医生或相关信任人,需要获得授权(类似于获取时会发送请求、上传密钥。密钥不经过信息获取人,直接与平台对接)。

1.3.2 面对公众

平台发布大量个人信息时需要保证用户个人隐私安全,但大量的健康信息对于研究有重大价值,因此对于不同的查询要求,需要根据之前制定的发布规则进行。数据发布规则见表3。

1.4 数据追踪

在查询或获取数据时,对数据流向及查询人员进行相关信息记载。HBase源码加入了协处理器-coprocessor,通过阅读文档和翻阅源码及帮助文档,满足数据追踪功能,该类路径为: org.apache.hadoop.hbase.coprocessor.security.access.AccessController.java。该类里有各种pre函数,如pre()和 post(),这些方法本质就是钩子函数。如果对系统中发生的事件进行拦截,只要扩展相应的钩子即可。如对系统中所有的数据删除操作进行监控,则只要在 preDelete()或 postDelete()方法中编写监测代码即可。图 1以 preGet()方法为例展示了数据流的时序。

2 隐私保护测试实验

2.1 实验环境硬件配置

系统硬件配置见表4。

HBase基于Linux系统,JVM是运行环境下的系统软件,在ubuntu操作系统下进行实验。上述7个主机是由一台大型机划分出来的虚拟机。数据写入方式采用HBase的java API操作,采用批量提交数据的方式测试。

2.2 实验设计

2.2.1 数据加密

数据加密采用对称加密中的AES加密算法。

以血压心率为例,在发布规则中采用最高加密规则处理表5中的数据。

可见A、B、C类数据均被加密。上述例子采用批量数据写入,数据加密和不加密写入时效对比如图2所示。

对加密处理前后的时效分析对比发现,当数据存储存在加密过程时(最高加密规则)时效有所降低,但加密后的时效处在可接受范围内,符合预期。

2.2.2 数据发布

私人获取数据全部明文需发送请求获取授权(站内信息提示),公众信息发布必须符合发布规则,如表7所示。

按照发布规则,如果该数据全部为密文,则不发布或获取为全密文。如果A类不是密文或A类为密文而B、C、D不为密文,则发布或获取结果如表8、表9所示。

实验结果显示,如果全為密文,则不发布或获取都为密文。如果A类不是密文或A类为密文而B、C、D类不为密文,则发布或获取信息时A类作安全处理, B类的身体健康指标信息不作安全处理, C或D类加密了其中一种(并没有两种都加密),上述实验结果符合发布规则。

2.2.3 数据追踪

为测试数据追踪,设计如表10所示的测试语句。

在加入各种pre函数之后,数据查询相关信息会被记载,在输入上述测试语句之后测试结果如表11所示。

测试结果表明,当平台有用户表操作时,用户所在的IP、操作表的名称、操作的名称、时间等相关信息会被记录,符合预期。

3 结语

通过以上数据的加密、发布规则的制定以及数据追踪,平台用户的隐私得到了极大保护。数据加密使用户在不愿意公布部分信息的情况下,个人信息得以安全保存。数据追踪使平台的各种操作信息,如操作者IP、操作的对象、操作的字段、时间等相关信息得以保留,起到审计作用,从而从内部保证了用户的隐私安全。

但本文对健康数据的相关内容未作深入研究。健康相关因素分类会因为后期检查的细化而增加,但在发布规则上只作了目前为止的信息分类,在将来信息细化时可进一步补充和完善相关发布规则。

参考文献:

[1] [英]维克托·迈尔·舍恩伯格.大数据时代:生活、工作与思维的大变革[J].盛杨燕,译.杭州:浙江人民出版社,2013.

[2] LIN H Y, SHEN S T, TZENG W G, et al. Toward data condentiality via integrating hybrid encryption schemes and Hadoop distributed file system[C]. Proceedings of IEEE 26th International Conference on Advanced Information Networking and Applications (AINA), March 26-29, 2012, Fukuoka, Japan. Washington DC: IEEE Computer Society Press, 2012:740-747.

[3] 童云海,陶有东,唐世渭.隐私保护数据发布中身份保持的匿名方法[J].软件学报,2010(4):771-781.

[4] BLUM M,EVANS W,GEMMELL P, et al. Checking the correctness of memories [J].Algorithmica, 1994,12(2-3):225-244.

[5] 维基百科.大数据[EB/OL].http:∥zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E6%8D%AE.

[6] 冯国登,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(5):1854-1866.

[7] 杨吉江,许有志,王青.面向医疗信息的数据隐私保护技术[J].中国数字医学,2010(11):8-12.

[8] 乔岩,王伟.大数据时代的医疗模式[EB/OL].医学论坛网,http:∥circ.cmt.com.cn/dtail/345715.html.

[9] 周争光,张善文,王宝仓.基于身份的电子公文数字签名方案[J].计算机工程与应用,2012(30):541-550.

[10] 张健.全球云计算安全研究综述[J].电信网技术,2010(9):15-18.

[11] MATHER T,KUMARASWAMY S,LATIF S.Cloud security and privacy [M]. OReilly Media,Inc, 2009.

[12] 安小明,王小明,王巧玲.具有时空约束的角色访问控制模型[J].计算机工程与应用,2010,46(7):89-92.

[13] 邓康明,陈金玉.角色访问控制模型的分拆数实现[J].计算机工程与应用,2011,47(12):52-54.

[14] HE WANG, SYLVIA L. Osborn. Static and dynamic delegation in the role graph model[J].IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2011,23(10):1569-1582.

[15] 魏永合,岳明凯.基于角色的强访问控制模型[J].探测与控制学报,2009,31(4):74-77,83.

[16] KUHN D R,COYNE E J, WEIL T R.Adding attributesto role-based access control [J]. IEEE Computer Society, 2010,43(6):79-81.

[17] 谭毓安,王佐,曹元大.RSA数字签名算法在软件加密中的应用[J].计算机系统应用,2004(8):59-63.

[18] SUN H M, WU M E, TING W C,et al. Dual RSA and its security analysis[J]. IEEE Transactions on Information Theory, 2007,53(8):2922-2933.

[19] BLUM M,EVANS W,GEMMELL P, et al. Checking the correctness of memories [J].Algorithmica, 1994,12(2-3):225-244.

(责任编辑:杜能钢)

猜你喜欢
隐私保护
适用于社交网络的隐私保护兴趣度匹配方案
大数据时代中美保护个人隐私的对比研究