大数据智能传播中的算法歧视及其治理路径

2019-12-20 06:33刘鑫王超群
新闻世界 2019年12期
关键词:大数据

刘鑫 王超群

【摘    要】算法歧视可以分为设计者偏见型、数据瑕疵型、技术缺陷型以及经济利益驱动型四类。由于成因不同,治理路径也相应存在差异,主要有三条治理路径:一是伦理治理,强调遵循“算法透明原则”和“以人为本”的设计理念;二是技术治理,积极开发各种在不降低预测结果准确性的前提下减少人工智能偏见的工具;三是法律治理,出台相关的法律条文进行规范。

【关键词】算法歧视;智能传播;大数据

【基金项目】湖南省哲学社科基金项目“人工智能环境下的媒介伦理规范建设研究”(项目编号:18YBA157)。

随着人工智能技术在就业、教育、市场消费、商业营销等各领域的普及,价格歧视、种族歧视、性别歧视等算法歧视问题也日渐凸显。算法歧视建立在人工智能技术的基础上,相较于人类歧视存在较为明显的自身特征。其一,算法歧视的依据来自于数据挖掘。通常人类歧视基于宗教信仰、经济状况、种族性别、受教育程度等显性特征,但算法歧视除此之外还会根据用户网页浏览记录、行车路线等生活习惯、消费行为等主要信息数据来挖掘用户的隐性特征。其二,算法歧视表现得更为隐蔽。算法可以轻而易举地规避法律所明文禁止的种族歧视、性别歧视等,在缺乏算法公开、知情权不被保障的情况下,用户很难自主发现算法歧视的存在。

一、算法歧视的分类及成因分析

现有研究通常把算法歧视的原因归结为数据自身存在缺陷和算法技术缺陷这两方面,[1]但随着算法歧视现象的多样化和复杂化不断增强,算法歧视的成因也更加多元。根据成因的不同,主要将算法歧视分为四类:

(一)设计者偏见型算法歧视

指算法设计中因嵌入设计者自身偏见而引发的算法歧视。搜索引擎与AI面部识别方面出现的算法歧视属于这一类典型,如用谷歌搜索“白痴”时会出现特朗普的照片,搜索“black girl”弹出来的大部分都是色情图;用百度搜索“胸膜”弹出来的竟然是穿着比基尼的模特胸部图片。当然这些在被发现后都一一修復了。又如2015年谷歌照片给黑人照片贴上“大猩猩”的标签,2018年亚马逊开发了基于云图像分析技术的Rekognition算法,结果在测试中发现它错误地将其中 28 人识别成了罪犯,这28人中有38%的比例是有色人种。无独有偶,据外媒gizmodo报道称国外微信平台将“black foreigner”(外国黑人) 自动翻译成“黑鬼”。另外,就业应聘等领域也常常出现这一类的算法歧视。如据调查,人力资源公司Kronos在招聘时通过算法智能筛选把有心理疾病史的申请者拒之门外;施乐公司根据申请者提供的地址,如位于市内某黑人聚居区,便会将其识别为有色人种并淘汰。

设计者偏见型算法歧视主要表现为设计者将自身偏见纳入到了算法程序之中,从事算法编程的科研人员以男性、白种人居多,因此算法很容易沾染上程序员的主观意识与思维惯性,也突出表现为传统社会中的性别歧视、种族歧视、宗教信仰歧视等。所以说,这一类算法歧视是人类歧视在智能传播领域的延续,本质上反映的仍然是人类社会固有的偏见与刻板印象。

(二)数据瑕疵型算法歧视

指数据存在瑕疵所带来的算法歧视。2014年亚马逊公司开发了一套“算法筛选系统”来帮助亚马逊在招聘的时候筛选简历,结果发现算法对男性应聘者有着明显的偏好,当算法识别出“女性”相关词汇的时候,便会给简历相对较低的分数;算法甚至会直接给来自于两所女校的学生降级。2016年举行的首届“AI国际选美比赛”,因为绝大多数获奖者都是白人选手而为人们所诟病。

究其原因,前者是因为工程师在对该算法进行训练时,用的是过去已经被亚马逊录用员工的简历,而过去亚马逊录用了更多的男性员工;而后者是因为用来进行算法训练的照片所包含的非白人面孔少之又少。这种情况与症结归于“带有歧视的数据”。当用于学习和训练的数据带有偏见时,人工智能在前期深度机器学习过程中采用了大量带偏见的数据,则其后期预测和判断得出的结论便必然免不了带有歧视的色彩。

(三)技术缺陷型算法歧视

指算法技术本身是中立的,但由于算法技术自身的设计缺陷而导致的算法歧视。如果说设计者偏见型算法歧视通常是“故意为之”的话,那么技术缺陷型算法歧视通常是“无意为之”。如2016年微软聊天机器人Tay上线一天就被教会种族歧视,设计它的工程师本身并没有种族、性别、年龄歧视等倾向,但是与Tay聊天的网友很大一部分是种族歧视者。Tay只是被设置向周围环境学习,它并不能识别哪些言论是正确的,哪些言论是错误的,它也不能决定保留或丢弃哪些数据,于是最终学会了种族歧视言论,上线仅一天就被迫下线。

(四)经济利益驱动型算法歧视

指算法的使用者从经济利益最大化角度优先选择对自己有利的算法,而不在乎算法会带来各种各样的歧视。其中最典型的当属价格歧视,即电商根据用户的消费习惯和消费能力,计算出用户愿意为商品付出的最高价格,在定价方面因人而异,压榨每个消费者的全部消费剩余,通常表现为向价格敏感度不高的老客户收取更高的费用,即俗称的“大数据杀熟”。

比如约车软件,针对同一出发点、同一目的地的顾客,对使用苹果手机的顾客收费要比使用安卓手机的顾客高出将近10%;又比如购买同一张机票,携程老用户的购买价格要比新用户贵很多。

二、算法歧视的治理路径

不同类型的算法歧视,其成因自然不同,故在治理路径上应当对症下药,目前可行的治理路径有三条。

(一)伦理治理路径

目前支持这一治理路径的研究者们提出的方案各有侧重点。首先,普遍赞同“算法透明原则”作为一种职业准则在算法设计与实施过程中的运用。算法透明意味着算法设计者需要主动公开算法的运行机制与设计意图,接受公众监督。其次,提出将“机会平等原则”(Equality of Opportunity)纳入到算法系统的设计中去,比如设计一个机会平等的技术模型,提出满足平等和效率平衡的算法技术约束,并开发了“歧视指数”,对算法技术的歧视行为提供了评判标准。[2]再次,要求算法管理者和设计者要有“人文主义精神”,算法管理者要坚持“以人为本”,谨记模型训练的目标不应该是压榨大众而应该是帮助大众;算法设计者应该加强自身的职业素养,在进行算法编写时必须要清楚地意识到自身可能存在偏见并尽量避免带有偏见,以更加负责任的态度对待自身的工作。

猜你喜欢
大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索