信息化时代数据挖掘产生的信息安全问题

2021-04-24 13:05
网络安全技术与应用 2021年4期
关键词:游离用户信息

(山西铁道职业技术学院 山西 030013)

随着社会信息化程度的加深,越来越多的信息被数据化,每时每刻都产生着海量的数据。有来自机器产生的结构性数据,包括各种信息系统的运行数据,日志数据,环境传感器数据等;还有来自人类产生的非结构性数据,包括语音录音数据、图片和视频数据、各种形式的文字数据等等;这些数据在没有“大数据”这个概念之前就已经长期存在了,这些海量数据在被发现“有价值”的时候,越来越多的人关注到了它。很多企业和组织抓住了大数据所带来的无限机遇,与此同时,个人或者组织的信息安全也很大程度遭受冲击。

1 不透明的个人数据使用

个人信息的数据收集无处不在,信息能够使人们的生活更方便,但是使用这些数据的行为并不透明,导致人们的隐私受到威胁。个人作为用户去使用商业公司或组织机构提供的服务时一般都会签署类似免责声明“具有法律约束力”的合同类条款,这些条款中一般会包括用户协议、隐私政策、cookie 政策。同意这些协议后代表这些商业公司可以使用这些数据为用户提供服务,大大小小的商业公司尤其是互联网公司,在给人提供各种各样的服务,每个人都是受益者,人们在生活中可以随时随地找到附近的共享单车;能够随时随地在各个设备终端浏览自己的数字文档、视频;还能够在双手忙于开车的同时使用AI 语音助手得到自己想要的信息。与此同时,个人产生的信息将不可避免的上传到这些互联网公司。例如:提供共享单车的公司会得到个人用户的位置信息,对应时间。提供云存储服务的公司能够得到所有用户主动上传到网络的各种文字、图片、视频等数字资源。提供AI语音服务的公司会得到用户所关注的关键词、对应时间以及用户的语音资料等。

在广义上个人隐私数据需要符合四个要素:时间、地点、人物、事件。通过事件查看器可以查看一个操作系统中的系统日志等,在隐私保护时,只需要把其中的关键项属性进行加密隐藏就可以起到保护的作用,所以对于个人隐私的保护在很多时候也是存在着这样的思想:采取某些方式保护整体信息中的一部分属性,那么大部分场景下就起到了保护整体隐私数据的作用。例如:去除四要素中的“地点”,属于位置隐私保护;去除“人物”包括个人基本信息,属于身份隐私保护;如果把“时间”“地点”“人物”的联系进行消除操作,那么就可以起到行为隐私的保护。

在实际中还存在一个关键的因素,使个人隐私信息被大概率的暴露。随着高性能智能化终端的大面积使用,商业机构和组织借助大数据,能够同步获取用户的实时位置,声音,图像;如果一个人在进行一个“超市购物”的事件,那么所有这个事件涉及的属性包括支付金额,超市地点,银行账户,消费类型也会同步上传。这种监控个人隐私的行为是不间断无目的地进行的,就像视频监控一样,一直不断地产生大量的持续的数据,只有发生了“事件”才会被重点保护。事实是,除了发生“事件”以外大量的连续性的数据也是属于个人隐私的一部分,这种数据并不能受到良好的保护。这些数据有可能被上传到服务公司,同时也容易成为网络犯罪人员进行社会工程学的数据对象。

这些散乱的数据随着时间的推移,可能会与其他数据聚合在一起作为一种数据资源不受控制的被第三方组织获得并使用[1]。AI 的发展使得机器能够对海量的大数据进行多维度精准分析。这能够帮助机构从数据中提取有规律性,高关联性的结构性数据。例如:如果在终端设备上使用Facebook 账号访问一个外部链接,那么所有的行为都可能被Facebook 关联到用户的真实身份信息上。Facebook 的8700 万用户数据被不正当泄露给一家政治咨询公司Cambridge Analytica(剑桥分析),这家第三方公司使用这些数据用于2016 年总统选举[2]。

2 “游离”的数据对组织的影响

个人和设备产生了大量的数据,但是这些数据之外还有一种数据可能会成为潜在的风险。在2016 年9 月13 日举行的“T11 2016暨”TalkingData 智能数据峰会上,TalkingData 提出“目前仅有20%的数据放在了互联网上,80%的数据仍然游离在互联网之外”。在80%的互联网外数据中,有部分数据是可能会上传到互联网的,但是很大机会是作为垃圾数据游离存在的。例如:设备日常的日志数据,用户手机中被遗弃的照片、视频、语音数据等。这类数据有可能被主动或非主动上传到网络。这些数据在经过机构的处理后可以挖掘出很多组织需要隐藏或保密的信息。下面的一个实例可以说明“游离”的数据可以挖掘的信息内容。

Twitter 用户Doxsor 发布一张图片显示一辆军用车辆(图1)。一些解密爱好者使用OSINT(open source intelligence)方法对模糊照片进行分析。通过分析照片的特征位置可以找到9 个各点位的特征,第一步,通过最明显的7 号位置的一个广告类网址查到了一家拖车公司主要业务分布在欧洲境内;第二步,6 号位置的黄色车牌信息也可以作为一个子项图片进行深度学习图像识别车牌颜色,代码格式,车牌内容结构以及模糊部位比对后,从公开的欧洲车牌信息中可以发现属于塞浦路斯和丹麦;5 号位置的“运输”字样作为很多国家通用的标识不能被采纳。第三步,在主要信息中通过1 号位置军用车辆的尾部结构特征可以找到型号为瑞典产CV90 步兵车,并且公开信息中知道这种车辆出口到世界多个国家;第四步,通过三号位的编号结构,对比进口数量最多的几个国家(挪威,丹麦)之后,确定这个车辆属于丹麦军方;第五步,通过Wikipedia 公开资料查找到CV90 步兵车仅仅发放给了两个单位以及驻地;第六步,在通过2 号位置的特征可以搜索到丹麦第二旅的徽章样式对比。这样就可以推断出军用车辆所属单位及驻地。

图1 图例

要想进一步挖掘出“事件”中的重要信息,还需要在其他的信息点进行支持。分析人员接下来进行第七步,通过9 号位置的路边阴影部分在车辆右侧,结合背景中树木的茂盛程度以及欧洲区域,得出结论车辆大致详细行驶,公路方向大致西偏东;第八步,8 号位的电线杆顶部,类似于电气化铁路使用电线杆,推断所在位置为一条与铁路平行的公路;第九步,通过4 号位置的蓝色路牌“-drup”结尾的地方,结合第六第七第八步得出的推断,可以在地图上定位在丹麦Vemmedrup 附近E20 公路,而CV90 可能前往的最近军营是Slagelse的Antvorskov 军营[3]。

这个实例中通过6 号位置定位“欧洲”;1 号位置定位“CV90 步兵车”;2 号、3 号及6 号位置定位“丹麦军队及驻地”;9 号位置定位“车辆行驶方向及公路方向”;8 号位置定位“在铁路左侧”;4 号位置定位“Vemmedrup 附近E20 公路”;所有信息结合推断出“CV90 可能前往的最近军营是Slagelse 的Antvorskov 军营”。

通过以上实例可以看出一些“游离”的数据结合现有网络中公开的各种信息数据资源,再经过逻辑推理后是可以对机构和组织的隐私信息产生暴露威胁的。一些人可能处于好奇或者兴趣偶然性的拍摄一些照片,主动或者无意间上传到网络中,使“游离”信息数据被一些组织机构所搜集。分析机构可以在前期使用大量测试数据通过卷积神经网络(convolutional neural network)模型进行人工智能深度学习。得到可以使用的模型,就可以轻易的应用到实际的类似照片信息挖掘中。再结合人工识别分析就可以得到“事件”中的重要信息。所以网络内外大量留存的“游离”信息数据可以对组织产生极大影响。

3 分析展望及应对措施

个人隐私信息范围在实际生活中的界定是非常难的。商业公司在收集数据方面往往会超出其业务所需要的范围,并且使用“免费提供服务”的名义去鼓励使用者积极参与。在与用户签订的数据信息授权协议中常常以“默认”、“隐藏”等方式让其行为合法。在后续的信息数据使用方面,商业机构或组织对数据的收集过程,分析目的,存储,转移等行为都是在“黑盒”中进行的,这些行为对用户是不透明的。4由于政府在公信力方面有天然的优势,所以可以让政府主导把用户的数据作为公共物品管理。未来社会,数据技术突破后,商业机构及组织可以在政府监管下获取由政府进行去敏感性的数据使用接口,数据掌握在政府主导的机构中,所有的商业组织没有直接读取原数据和存储数据的权利,这样能够很大程度解决个人隐私数据被不正当使用的行为。

同样的,“游离”数据也会在未来持续存在很长一段时间,在实行网络实名制的今天,网络审查制度能够很大程度杜绝这些数据产生的后续影响,但是还需要在法治和宣传教育方面着手,从源头上杜绝掉这些有意产生敏感数据的行为。

4 结语

大量数据分析技术的产生成就了大数据时代,为各个组织和个人提供了价值和方便,但是相对的缺乏监管和信息安全意识也导致了各种各样的隐私泄露和安全威胁。针对这些问题,政府应当加强对数据存储、转移、使用的监管,同时要完善信息安全法律法规,加大宣传引导公民增强信息安全意识,维护网络信息安全。

猜你喜欢
游离用户信息
游离股前外侧穿支皮瓣修复足踝部软组织缺损
莫须有、蜿蜒、夜游离
订阅信息
关注用户
关注用户
关注用户
如何获取一亿海外用户
游离血红蛋白室内质控物的制备及应用
展会信息
游离于翻译的精确与模糊之间——兼评第八届CASIO杯翻译竞赛获奖译文