算法新闻的伦理审视

2019-11-17 03:53

社会观察 2019年5期

不断发展的人工智能正推动着诸多领域的革新，也带来新闻传播的范式革命。随着算法、大数据、传感器、云储存等实践的不断成熟，算法新闻优势凸显，成为人工智能时代的新闻新宠。然而，新技术的出现引发权利的变革，也必定会带来新的问题。算法新闻所涉及的伦理问题，正是当下亟待关注并需提出有效预案的重要议题。

算法新闻的缘起与现状

算法新闻又称机器人新闻、数据新闻、自动化新闻、计算新闻，是指建立在算法、人工智能、程序平台以及自然语言衍生技术基础上的新型新闻生产模式，其主要特征是新闻的文字及部分视觉内容可由算法直接自动生成。

（一）发展背景

算法新闻的“计算范式”可追溯到20世纪60年代美国的精确新闻报道。相较于传统调查新闻，精确新闻的改变在于新闻调查不再是基于主观意识将定量分析与调查抽样结合，而是秉承“计算主义”的理念，利用计算机采集、处理数据，融入调查、实验、内容分析等社会科学研究方法，将新闻传播学和计算机科学结合。这一理念随着计算机科学技术的不断发展而更加突出。进入21世纪，人工智能、算法模型、大数据和云储存平台不断成熟，秉持“计算主义”范式的算法新闻迎来更广阔的发展空间，在新闻传播领域逐渐得到广泛应用。美国各大传媒巨头纷纷推出自己的算法新闻作品，诸多科技公司也专注于算法新闻领域里的模型开发。在新闻传播领域，算法新闻正引领着一轮技术、范式和权利的革命。

（二）技术基础

人工智能之所以“智能”，首先在于其算法，算法模型的计算能力决定着其智能的程度；其次在于大数据，大数据的多元、丰富、汇聚为算法提供充足的原始材料。多元汇聚的大数据样本容量大、种类多，通过云储存构成超级数据库，为新闻作品的生产提供了内容和信息。现阶段的超级算法通过自身的算法模型处理数据，其过程完全不受人工干预，因而有学者认为这是完全没有主观偏向操作的新闻生产。

数据挖掘是算法新闻为用户提供不同风格产品的依据。喻国明认为，数据挖掘在概念的层面上主要分为三个阶段：数据源数据的收集、对于数据源数据的处理以及最终的有效数据的表示。通过数据抓取，对用户上网习惯与行为的分析，对用户上网时环境特征的记录，以及对用户在社交媒体上交往的社会圈层、表现出的兴趣和需求，通过算法模型来定位用户偏好。

数据源数据处理，主要是根据机构的算法模型对抓取到的数据进行分析计算。祝建华认为，数据处理涉及存储、提取和统计分析，目前的大数据处理能力还处在初级阶段。理想的数据储存建立在云储存技术之上，数据处理的速度与效率与此有关，初期的储存能力还需要不断提升。尽管如此，数据的提取与分析却已经展现出内在优势，在体育新闻、财经新闻等一些与数据相关度高的领域都具有良好的表现。

（三）发展现状

当前，欧美各大主流新闻机构均建立起一定程度的智能平台，算法新闻正作为一股新生势力推动着人工智能在新闻传播领域的实践。国内则有专门的技术公司通过算法模型建立起智能化的新闻汇聚与颁发平台。人工智能的不断升级促进了算法新闻在各个方面的拓展：算法新闻正从体育新闻、财经新闻这些与数字关联大的领域向更多更广的其他新闻领域发展，实现多类型全方位的新闻生产；算法新闻能根据用户的偏好与习惯生产出个性化的新闻风格和口味，实现定制化新闻生产；算法新闻不再是科技想象，而是年产上亿条规模化新闻生产的方式；早期的算法新闻可读性差，而目前算法新闻在某些领域已实现人机无差，十分接近高水平记者的写作能力；算法新闻也被赋予一定“新闻敏感”“新闻洞察力”的期望，通过算法实现对除数字以外新闻事件的敏锐思考。通过语音识别、传感技术和交互技术等一系列技术的进步，算法新闻有望生产出更加富有人机交互体验的新闻作品。

算法新闻的伦理问题及研究进展

算法新闻作为人工智能在新闻传播行业的衍生，法律条文还未能及时作出规制，行业规范也很不健全，抛开现阶段技术本身的问题，单就伦理层面来讲，面临着隐私权侵犯、算法黑箱、价值偏向、缺乏人文关怀与社会责任感，以及未来强人工智能阶段所涉及的机器伦理等问题。

（一）算法新闻涉及的隐私问题

算法新闻运行的技术基础在于对大数据中新闻信息的抓取与计算分析，而大数据本身是通过汇集存储在数据库里的每一个数据生成。数据库保留的这些数据涉及每位用户上网信息，一方面这些信息为算法新闻的生产提供了原始材料、为推送锁定了目标群体，另一方面这些信息却也隐藏着侵犯公民个人隐私的风险。

互联网巨头企业往往拥有着庞大的用户数量，掌控着用户上网的庞大行为数据，以及由这些数据汇聚起来的可供算法进行分析得出的更多信息。每位用户在使用网络工具时贡献着数据，也暴露着自己的个人信息，暴露在数据抓取的模式之下：一切行为、心理、习惯、喜好都可被毫无保留地窥见。虽然对隐私权保护的诉求一直被呼吁，国家权力机关、组织和机构也一直致力于对这些企业进行监督，但丑闻依然不断爆出。与此同时，尽管这些企业将部分数据开放给了公众，但真正的目的是将用户的资料、活动和 UGC内容转化为公司资产，实现个性化的广告推送和精准营销。

个人隐私在不被告知的情况下被记录，这与公民隐私诉求是相悖的，大数据的数据抓取与个人信息隐私权的碰撞在不断显现。从法律层面上说，不断被关注的隐私权是公民基本合法权利中重要的一项，许多国家和地区不断通过加强对“个人信息保护”相关法条的颁布、修订和实施，试图将隐私权的边界加以扩展。从单纯的“私密领域”到对权力主体的“信息自主”，尤其是近年来对“被遗忘权”的关注和讨论，隐私保护的议题始终是大数据伦理问题的重点。尽管隐私保护备受重视，但究竟隐私信息包括哪些信息、哪些信息可以被公开、如何被公开，以及公共信息中含有的公民个人信息是否属于隐私，却颇具争议。

大数据时代，以上规制很难实现对公民个人隐私信息的保护。究其原因，从技术层面出发，大数据技术只需要抓取用户的碎片化信息就可得到用户“全貌”。据卡内基梅隆大学隐私专家的研究：“即使没有姓名、没有社会安全号，只要通过性别、生日和邮编3个数据项，数据挖掘的技术就能够成功地识别全美87%的人口。”因此，大数据时代的隐私权不再是传统隐私权的法律条文可规制的，只要用户上网行为被记录，隐私就存在被算法计算分析后暴露的风险。基于此，各国近年来修订相关法条、各机构组织出台各种相关规范，力图为人工智能时代划清隐私权的伦理底线，但由于技术实践与伦理规制之间仍有许多模糊的边界需要被明确，对数据公开和数据保护的程度、对有数据抓取行为的企业的行业监督规范，以及用户隐私权被侵犯后的维权，都是学界和业界仍需努力解决的问题。

（二）算法技术所涉及的伦理问题

算法新闻的出现，起初被认为有利于捍卫新闻专业主义，因为其生产者（算法模型）和消费者之间不存在利益纠葛，采集数据的过程是由算法在数据库中抓取现有资料，不带记者的主观偏见，而且分析计算也是由算法完成，不会受到记者道德水准和价值取向的影响。

然而，越来越多的学者质疑算法过程的不透明而导致的主观性或许更甚于记者。记者会受到职业素养和职业道德的约束，每次署名都意味着对自己报道内容的真实性、客观性负责，而算法新闻的生成，无法知晓其采编的具体数据来源，“黑箱”的存在也意味着不清楚算法在其中分析的逻辑、计算的模型和运行的路径。从技术上看，算法新闻通过抓取的数据来实现内容分析，如果抓取的数据本身有差错，得出并推送的不确切的新闻是无法被算法自我纠偏的，并且读者也无法对“算法模型”追责。同时，算法背后的机构可通过算法模型控制读者能读到什么内容、以什么方式读到这些内容，存在有偿新闻推送的可能。喻国明等学者大胆质疑：算法所属机构是否会操纵算法权威，通过算法新闻的推送让民众看到其所属机构想让大众看到的新闻内容，从而进行议程设置、达成社会共识。

算法不透明、其所属机构责任不明确，是现阶段算法技术存在的伦理漏洞。学界有人提出，是否应当公开算法模型，使其在更加透明的机制下运行？算法新闻行业人士却强调，透明的算法模型意味着信息高风险的暴露，也存在着更多被篡改、攻击的可能。笔者认为，更理性的声音是对算法模型多元化的追求，并考虑算法设计时应写入“道德”代码，加入语境资料、预置纠偏机制，以技术的方式解决技术的问题。与此同时，除了国家权力机关对相关行业进行管制，行业技术专家对行业的监督以及行业的自我规范尤为重要。现阶段算法新闻的所有行为并不具备自我意识，而由其所属的机构幕后操控，因此当发生侵权行为时，算法所属机构应当承担起责任，建立一个可追责的安全算法时代。

（三）算法价值偏向所涉及的伦理问题

如果说算法技术所涉及的伦理漏洞可通过技术的不断升级、技术理性的不断强化而得到修补，那么算法新闻由于价值偏向所导致的伦理问题更需要全社会加以关注。

大数据时代信息量庞大、数据类型众多、碎片化严重，用户不可能自己对信息进行筛选，个性化推送成为用户获得信息最有效的渠道和方式。在个性化推送的过程中，算法模型根据用户上网行为习惯推送与其价值取向相符的内容，选择与用户兴趣爱好相关的信息，甚至采用用户偏好的风格模型编辑新闻。长此以往，用户所获得的信息都是与自己既有价值观一致的，个人的思想和观念会进一步被固化和封闭，同一价值取向的群体会更加彼此认同，而不同价值取向的群体会更加彼此抵触，用凯斯·桑斯坦的话来说，每个用户会被与自己价值取向相同的讯息所牢牢包裹，导致“信息茧房”的出现。“信息茧房”会带来众多共意群体，但群体与群体之间却未必能够彼此接纳，这对公共领域的形成、社会共识的达成、公共决策的制定都极其不利。

算法分析行为本身虽然看起来公正客观，没有人为偏向，但实际上由于算法模型本身的设定，以及数据来源的问题，也许输入的原始数据本身就带有某种偏向，数据的可信度、完整性都会影响到数据被使用后得出的结论或结果。加上前文所提及的算法黑箱，在公众无法清楚计算机运行逻辑的情况下，自然也就不会知道算法对数据的分析究竟是否真的能做到设想中的客观公正。算法新闻的推送同样带有一定程度的“歧视”，看似个性化的信息定制实际上早已注定信息获得的不对称。更应注意的是，算法新闻的推送会在各大新闻机构和社交网络中重复进行，偏向会在无法自我纠偏的情况下迅速蔓延。加之算法模型看似中立，其数据转化自然语言衍生模板却仍是人类构建，表达上是否会有所偏向却尚未可知。

有论者认为，算法新闻似乎使记者和新闻机构将权利让渡给了更具机器理性的模型和代码，民众试图能得到更多的信息自由和社会公平。然而，这只不过是一个美好的愿景。用博伊德和克劳福德的话来说：“大数据被视为令人不安的‘独裁者’，诸如侵犯隐私、减少公民自由、增加国家和公司的控制能力等。”马修辛德曼也在《数字民主的迷失》一书中强调公共讯息的重要性，认为个性化的算法推荐实际上剥夺了公民传播的自由。

现阶段的算法没有自我意识，在其背后掌握数据的组织和机构才是真正掌握更多权力的主体，数据鸿沟的出现使得更多的数据被更少的组织机构所掌控，数据的私有化、商业化使算法新闻成为为资本主义服务的工具，并非实现新闻理想、追求公平正义的武器。从现实来看，算法新闻要做到公民自由、社会公正、观点客观还有很长一段路要走。

对算法新闻未来及其伦理的展望

现阶段的人工智能还处于初级阶段，算法无法对抓取的数据进行自主思考，机器不具自我意识，更谈不上对人类社会的人文关怀。作为人类社会意识交互的重要环节，新闻传播业如果只是单纯的信息传播而没有对社会的关怀，那么所传播内容的价值或许要大打折扣。弱人工智能时代的算法，还处于完成人类所布置的学习和任务的阶段，即便给予的数据和模型不具人文关怀，甚至违反人道主义精神，机器仍然会按照指令完成输出和推送。当社交媒体假新闻、谣言出现，负面情绪弥散时，机器抓取数据后反馈的报道只会加深谣言和不良情绪的程度。现阶段的算法无法承担起作为新闻媒体对社会应有的责任感，因此作为用户就更应该对接收到的讯息保持理性和反思，全社会都应参与到提高自身的算法素养的行动中来。

尽管强人工智能时代还未到来，但其所涉及的算法伦理问题却已在学界引起关注和讨论。强人工智能不再是单纯被动的接受和学习，再去执行指令，而是具备自我“意识”，通过自我学习而实现独立思考。这就意味着，算法也可能会有其独立的“人格”。届时，算法黑箱那摸不透的逻辑会让人类无法掌控机器人传播的讯息，而大量的用户数据会被保留在云端为机器人所用，强人工智能带来的算法新闻的伦理风险更加巨大。

尽管现阶段对于算法新闻本身出台的规范还比较少，然而关于人工智能和机器人伦理的规范和标准却已在各发达国家纷纷出台：早在1998年，日本就制定了《机器人法律十原则》；2012年，韩国颁布《机器人伦理宪章》；2012年，隶属英国政府的“工程与物质科学研究委员会”提出具有法律和伦理双重规范性的“机器人原则”；2016年9月，“英国标准协会”颁布《机器人与机器人系统设计与应用伦理指南（BS8611）》；2016年，欧盟启动“机器人法”项目，以应对“人机共生社会”所将面临的法律及伦理挑战。尤其值得关注的是，2017年1月在阿西洛马召开的“有益的人工智能”会议上提出的“阿西洛马人工智能原则”，强调应以安全、透明、负责、可解释、为人类做贡献和多数人受益等方式开发人工智能。这样的伦理标准对于现阶段以及未来人工智能时代的算法新闻也是同样适用的。

算法新闻逐渐成为学界和业界关注的焦点，乐观之余更应对新技术保持谨慎。初级阶段的人工智能算法技术还不成熟，如何倡导数字民主以避免“信息茧房”以及相应的群体极化，如何避免其背后的机构通过掌握的数据权利进行民意操纵，如何避免算法歧视真正实现社会公平和公民信息自由，都是值得关注的。强人工时代虽然还未到来，对其关注和思考却应有预见性，增强全社会公民的社会责任感，安全、透明、负责，以全人类繁荣发展为一致目标的伦理准则，值得任何时期的算法新闻去遵守与追求。