数据挖掘中的信息伦理冲突问题

2013-03-31 12:09黄晓勇
长沙大学学报 2013年4期
关键词:隐私权数据挖掘个人信息

黄晓勇

(福建师范大学人民武装学院,福建 福州 350007)

信息时代给我们带来了数据爆炸性增长,也催生了从海量数据中提取出有用知识的富有挑战性的研究领域——数据挖掘。数据挖掘是指针对包括网页内容、网页结构、访问信息、用户数据、电商信息等各种网络数据,运用数据挖掘方法,用以帮助人们从网络中提取知识,为用户、运营商以及包括电子商务在内的基于互联网的商务活动提供决策支持[1]。但是,具有强大发展性和生命力的数据挖掘,势必与公民信息隐私权利的保护产生一定的矛盾,如若处理不当则可引起伦理冲突。

《数据挖掘:以破坏隐私为代价》报告(Ann Cavoukian,1998)称,数据挖掘可能是个人隐私提倡者未来10年所要面对的“最根本的挑战”,数据的质量、用途、安全、开放程度、个人权利、义务等方面不应违背国际社会所提倡的“良好数据使用原则”。但在数据挖掘的实践中,这一原则往往难以遵循。尤其是关系到人这个主体的私有数据,一旦滥用和误用,必然引发伦理冲突问题。

一 数据挖掘中涉及的伦理问题

(一)数据挖掘与用户隐私权的问题

在日常生活中,用户访问某个网站,该网站服务器的日志记录就会留下关于该用户的访问信息,例如客户访问该网站的个人资料、逗留时间、浏览行为、访问习惯、购物偏好等。这些积累起来的海量数据,可以成为数据库的重要数据源。而对这些数据进行深入挖掘,可以对用户群的行为、偏好、习惯等进行分析,提炼出某个用户或某类用户群的特质进行分析,以提供具有针对性的个性化服务。然而与此同时,挖掘这些个人数据信息也为侵犯用户个人网络隐私提供了便利。在数据挖掘中,挖掘者(包括从事数据挖掘的个人或组织)可能会在以下几个方面侵犯公民的个人数据隐私权。

1.个人信息的过度开采。要想数据挖掘获得良好的效果,首要的是采集到足够大量和全面的数据。在数据采集过程中未征得信息所有者的同意、未声明数据的使用目的和范围,或通过欺诈、偷盗及其他非法途径获取个人信息的,都是对个人信息隐私权的侵犯。我们常常会发现在某些网站提供的页面上出现自己浏览过的或相关的商品广告,就是因为目前很多网站都配置有监控用户浏览记录和上网习惯的程序,更有甚者未经用户授权就私自记录保存了用户的相关隐私档案,包括用户的IP地址、电邮地址、浏览记录和网购记录等,这些都是侵犯用户隐私权的表现。

2.个人信息的滥用。数据挖掘对个人信息隐私权在数据使用阶段的侵犯主要包括挖掘者私自改变、扩大用户个人信息的用途和应用范围。就目前普遍情况而言,还未有挖掘者在采集用户个人信息时用通俗易懂的方式明确告知用户其提供的信息将会用于数据挖掘。换句话说,几乎目前所有的对用户个人信息进行的数据挖掘活动都不合法。更有甚者,挖掘者对用户个人信息进行非法编辑,篡改其真实性、完整性和准确性,严重侵犯了用户的隐私权。

3.个人信息的错误分析。数据挖掘者采集数据的根本目的是分析数据并从中获取潜在的有用信息。例如,通过分析用户的身份、职业、收入、消费水平等信息与其近期经常浏览的网页内容之间的关联性,可以推断出该用户的品位和消费偏好。但是如果所挖掘的数据本身无法保证其正确性、完整性和全面性,再加上不完善的挖掘工具和不恰当的挖掘方法,最后分析出的结果很可能扭曲数据主体的形象得出谬论。罗冰眉曾经说过:“由于前一步的信息搜集就有极大的随意性,而且有可能搜集到错误信息,因此很有可能产生与当事人真实情况不符的‘资料形象’(Material Image)”[2]。而这种所谓的“资料形象”很有可能在无形当中有意无意地暴露数据主体的个人形象,甚至扭曲和破坏数据主体的形象。

4.个人信息的非可用性。由于网络挖掘技术的大量使用,致使大部分信息在无用户授权的情况下被使用和复制,由此可能威胁到信息的可用性[3]。挖掘者未经当事人授权,私自公开用户的个人信息,就已经侵犯了用户的个人隐私权。正如前文提到的,数据挖掘从业者在采集用户数据时大多数情况下并没有声明这些个人信息将会被用于数据挖掘;而有些即便是已作出相关说明的,在进行数据挖掘工作之后,又将这些用户个人信息另作他用,又甚至公然将这些个人信息进行贩卖,严重侵犯用户的隐私权。

(二)个人信息的所有权

长期以来,私有数据挖掘活动中关于数据所有权的归属一直存在争论。在法律意义上,所有权是由具有资格出售某件特别财产的人决定的[4],但是当所涉及到的数据关乎人本身,显然这样的提法有失妥当,而关于私有数据所有权的归属也是难以统一的;然而在实践中不难发现,可用于进行数据挖掘的用户私有信息是海量并极具潜在价值的[5]。对互联网上大量的网页信息的挖掘涉及到网页所有者的所有权问题,目前的数据挖掘活动都是在未经数据所有者授权的前提下开展的,在海量的存储着用户个人信息的网页和相关网络链接以及用户访问网页的记录中采集、整理出关于用户的有用信息,分析用户偏好,并对个体用户提供具有针对性的个性化信息服务。然而,目前针对网页内容、网络访问记录以及网络结构的数据挖掘全都涉及对版权的保护。若单纯从保护网页版权的角度出发,限制对网页进行数据挖掘,那么,网页数据挖掘技术也就不能得到使用和发展,亦不能实现其功能和价值,不利于传播信息和知识。从理论意义上来说,网页版权保护的最终目的是为了实现保障用户权利和促进信息传播双赢,平衡各方的利益。网页数据挖掘可以促进网络信息资源的深度共用共享,增进知识的利用与传播。

所以,在网络数据挖掘工具发达与计算机通讯网络普及的当今社会,数据挖掘面临的最重要的问题之一,就是解决好用户个人信息隐私保护权和信息所有权归属的问题,只有解决了这个问题,才能确保在合理的信息访问和数据挖掘过程中,用户隐私受到保护且被挖掘的信息具有安全性、合理性和合法性。

二 解决数据挖掘过程中的伦理问题

数据挖掘活动是一项复杂的工作,在实施过程中我们会遇到这样那样的问题。社会伦理,本来就是一个界限模糊的概念,什么是符合伦理?什么是不符合伦理?这恐怕只能由我们在现实中慢慢摸索。但是在实践中,我们应该从以下几个方面着手做起:

(一)数据挖掘从业者需树立良好的职业道德观

所谓职业道德,是指所有从业人员在职业活动中应该遵循的行为准则[6]。由于数据挖掘活动是涉及公民个人隐私权问题、信息所有权等多方面利益的一项工作,因此需要从事数据挖掘活动的工作人员具备良好的职业道德观,并遵从该职业范围内的特殊道德要求,亦即尊重和保障用户的个人信息隐私权。同时,这也是大众对数据挖掘从业者的从业观念、工作态度、职业纪律和原则作风等方面的行为规范和标准要求。如果有些人,一心想着窥探他人隐私,甚至将他人的隐私作为日常八卦的谈资,在无形中就泄露了很多用户的个人隐私信息,这类人就不符合成为数据挖掘从业者的基本要求。也有的人,金钱利益高于一切,被蝇头小利迷失了心智,很可能会把工作中用户的个人隐私信息当作金钱交易的筹码,这更是对用户的个人隐私权造成了极大的侵害。由此可见,要想成为一名合格的数据挖掘从业者必须具备或培养良好的职业道德观,否则将会对数据挖掘活动和用户主体造成极大的威胁。

(二)建立和健全用户主体的登记审批制度

1984年,英国颁布《数据保护法》,其中第5条规定:只有经过登记被批准为数据使用者(或数据使用者兼计算机处理中心)之后,该使用者才有权持有个人数据[7]。尽管这部法律颁布之时尚未有数据挖掘一说,但却为日后保护数据挖掘活动中的用户隐私权提供了理论基础。而如今我们要做的是在建立和健全数据用户主体的登记批准制度的基础上,对采集用户个人信息的主体做出规范性限制,将用户个人信息的数据采集权授予并且仅授予那些承诺为用户主体保密的数据挖掘者。目前我国尚未建立关于采集用户隐私信息的相关登记批准制度,望在未来能够尽早填补这一空白。

(三)开发与利用新兴技术

网络数据挖掘是一种技术系统,所以解决网络数据挖掘的伦理问题要通过技术的手段来实现。如果仅是从保护用户个人信息安全的方面来说,现有的相关安全技术已经存在。但如果在技术层面上过度地保护用户个人信息,那么数据挖掘从业者采集数据的难度势必会大大增加,不利于相关工作的开展,也不利于数据挖掘本身的发展。解决方法之一就是研究保持隐私的挖掘算法和挖掘方法。隐私保护和信息安全是数据挖掘中的一个很有意义的研究方向。目前在这方面已经取得了一定的成果,在保护隐私的挖掘方法方面,有学者提出分布式数据挖掘的隐私保护技术,该技术主要采用的是基于密码学的隐私保持技术。其中具有代表性的是基于SMC(值匹配个数/属性个数)的隐私保护数据挖掘技术,而常见的密码学工具有:可交换密码、同态加密、秘钥共享、零知识证明、不经意传输等,采用安全多维计算来保护隐私[8],除了需要考量挖掘结果的准确性外,还要结合安全强度、计算成本以及通信成本等问题。国外目前已经推出了相关软件,诸如“隐私保护神”等用以保护用户的个人使用记录等隐私。国外现在已研制出PET(Privacy Enhancing Technique,隐私增强技术)软件,如 Anonymous Remailers、Surf Anon-mously、Cookie Busters等[9]。这类应用软件的主要功能大多旨在帮助数据主体理解互联网服务提供商的隐私政策;或者是用匿名方式访问网络站点,在最大程度上实现对用户个人信息的保护,使之不易被网络数据挖掘工具探测到。而从长期的发展来看,开发网络数据挖掘软件或相关搜索引擎对于用户和网络数据挖掘从业者双方而言,都将是一种切实可行的技术性解决方法。

(四)建立和健全相应的法律法规

在这个技术不断推陈出新的时代,任何技术都有死角,也都可能随时被攻克或被新技术取代,因此技术虽是基础却不万能,必须辅以法律为保障。所以,隐私权立法必须得到加强,用法律保护来填补技术的缺失和保护的不足。隐私权立法应该综合考虑以下几点:首先,要明确用户个人信息采集的依据,政府的官方采集行为必须是以宪法和法律为依据,根据具体的数据挖掘活动的职责和工作需要来决定,以防止滥用政府行为造成对用户个人信息隐私权的侵犯;而其他社会组织和个人的数据采集行为除法律规定外,则必须要取得当事人的同意后方可进行;其次,强调在没有经过用户本人同意授权的情况下,不得将采集的数据用于最初声明的目的之外的用途和范围;再次,采集者还要保证采集到的用户个人信息具备完整性、准确性和安全性。数据挖掘从业者需在合法的范围内运用合法手段使用用户的个人信息;应当明确且完整地将所采集信息的使用目的和整理过程用通俗易懂的方式告知用户,不可故意刁难或隐瞒;不应私自更改已作约定的信息用途;不应在未经用户许可或法律批准的情况下以任何形式公开、贩卖用户信息;应当保证用户个人信息真实、安全,并对使用后可能产生的后果负相关责任;防止数据遗漏、丢失和无授权访问[10]。

(五)提高用户的自我防范意识

基于多方面因素,国人对于隐私权的重视程度一直不高。用户作为数据主体,提高其信息隐私权利意识至关重要。从一个角度来看,某些用户自身信息权利意识淡薄,未关注到网络数据挖掘活动可能会对自身信息权利将产生的影响;从另一角度来看,用户应划归为弱势群体,不得不提供一些关于自己的信息来换取某些服务。大多数时候,用户的信息权利是在无意识中被“合法”侵犯了。由此可见,如果用户具备足够的“意识”,就能不断提高自身的保护能力,依靠各种技术手段增强自我保护,例如采用匿名方式注册和浏览、禁用网站Cookies以及应用技术软件等;还应积极了解网络站点采集的信息主要内容和种类,采集信息的方法和用途,信息的使用主体、场合、方式,是否提供这些信息将会导致何种后果以及可能拥有获得何种补偿等;积极运用法律武器保障自己的合法权益;集体追究或起诉数据挖掘者滥用用户个人信息造成恶性后果,对挖掘者的行为形成一种制约和规范,促进网络数据挖掘合理地运用、发展和进步[11]。大力宣传教育,增强用户的隐私权保护意识,树立隐私权观念,使用户清楚认识自己享有的隐私权权利,学习了解如何保护隐私权不受侵犯等。

(六)加大政府有效监管的力度

在是否应该加大政府监管力度的问题上一直存在争议。一方面,在现代市场经济环境中,信息的传播是开放而自由的;如果政府监管或干预过多,可能影响信息的采集、传播和利用,导致整个信息产业的发展受到不同程度的影响。然而,另一方面,如果对网络采取完全任之的态度亦是不行的,只有加大政府有效监管的力度,才能保障网络安全有序,使整个网络环境向着健康积极的方向发展。并且随着通讯技术在全球的普及和发展,互联网络已经成为人们日常生活中不可缺少的一部分,并且发挥着越来越重要的作用。但网络就犹如一把双刃剑,在日常生活各个方面都依赖它的同时,许多问题也随之产生。在网络数据挖掘活动中,就已经出现了诸如用户隐私权、信息版权、网络安全等各方面涉及网络伦理的问题。这些问题不好好解决,就会阻滞信息科技的进步和信息产业的发展。只有加大政府有效监管的力度,才能平衡和协调好信息社会中的各方关系,巧妙解决这些矛盾。因此,我国应该在现有基础上建立有效的政府监管机制,加强对网络数据挖掘等信息活动的管理。政府在实施监管的过程中,应以“适度”为准,“引导”为主,促进网络数据挖掘技术的合理、合法使用和健康长远发展[12]。

[1]安淑芝.数据仓库与数据挖掘[M].北京:清华大学出版社,2006.

[2]罗冰眉.网络环境下个人数据与其隐私权的保护[J].现代情报,2003,(9).

[3]牛少彰.信息安全[M].北京:北京大学出版社,2005.

[4][5]石志明.数据挖掘中的个人隐私和社会影响[J].电脑知识与技术,2007,(13).

[6]杨玉麟,曹美琴.论数据挖掘与公民信息隐私权的冲突与调适[J].高校图书馆论坛,2007,(3).

[7][11]刘先红.论数据挖掘中的个人数据隐私权问题[J].大众科技,2007,(11).

[8]华蓓,钟诚.数据挖掘中的隐私保护技术进展分析[J].微电子学与计算机,2009,(8).

[9]Tavani H T.KDD,data mining and the challenge for normative privacy[J].Ethics and Information Technology,2005,(1).

[10][12]曹玉平.数据挖掘中的信息伦理问题研究[J].情报理论与实践,2008,(5).

猜你喜欢
隐私权数据挖掘个人信息
如何保护劳动者的个人信息?
个人信息保护进入“法时代”
纳税人隐私权的确立、限制与保护
探讨人工智能与数据挖掘发展趋势
警惕个人信息泄露
妈妈,请把隐私权还给我
谷歌尊重雕像“隐私权”的启示
“人肉搜索”侵害隐私权的法律解析
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用