破解黑箱：智媒时代的算法权力规制与透明实现机制*

2018-05-08 12:15张淑玲

中国出版 2018年7期

□文│张淑玲

在人工智能与新闻业深度交融的智能化媒体时代，算法权力 (algorithmic power)的跃升与扩张已引起业界和学界热议。原属专业记者和编辑的诸多职权，如新闻线索发掘、内容生产、评论引导乃至编辑发布等，已被越来越多地让渡给算法。凭借技术层面的不断优化，算法的应用场景和权力范围也在不断延伸和扩张。

与此同时，由于技术本身的复杂性以及媒体机构、技术公司的排他性商业政策，算法犹如一个未知的“黑箱”——用户并不清楚算法的目标和意图，也无从获悉算法设计者、实际控制者以及机器生成内容的责任归属等信息，更谈不上对其进行评判和监督。[1]那么，如何厘清与新闻实践及研究相关的算法技术及其运行原理？算法“黑箱”的具体表现形态和应用场景是什么？对于黑箱化的算法权力应当如何加以制衡和规范？这些都是算法时代值得警醒和亟待解答的重要问题。本文试就这些问题展开探讨。

一、新闻业的算法转向

计算机和算法介入新闻领域的过程是一个动态演进的历史过程。实际上，算法的出现远早于计算机和其他电子计算设备，其源头可以追溯到我国古代的《周髀算经》以及中世纪波斯数学家阿勒·霍瓦里松的著作《代数对话录》。而20世纪科幻作品中描绘的机器人曾被视为工业社会自动化的产物和算法的前身。

在媒介研究领域，新闻机器人的提法最早出现在1998年。两位韩国学者建议搭建以“用户注册时提供的阅读偏好”为参照、由算法进行新闻内容采集和分发的“应需服务平台”。[2]自那以来，围绕新闻机器人代替专业记者从事常规新闻生产及其潜在影响的讨论一直没有停止。从20世纪六七十年代勃兴的计算机辅助报道、精确新闻，到大数据时代的数据新闻乃至自动化新闻，新闻业逐渐发展到以数据为驱动、以算法为引擎的算法时代。

作为人工智能的基本构成要素，算法与数学和计算机科学领域均有着密切的关联。严格地说，算法是包含一系列复杂的数学规则、能通过预先设定的步骤解决特定问题的计算机程序。[3]它的设计逻辑是将人类解决问题的过程分解为若干步骤（见图1），再通过程序设计，将这一过程模拟化或公式化，借助系统化的计算机程序来求解更复杂的问题。

目前与新闻业实践结合最多的算法技术主要应用于自动化新闻和算法推荐领域。按照卡尔森(Carlson)的定义，自动化新闻生产是“将数据转化为新闻叙事文本的算法过程，其中涉及的人力干预仅限于最初的编程活动”。[5]而算法推荐是以定制化信息服务为出发点，使用特殊的推荐引擎系统，借由机器算法推选出用户感兴趣的内容，并将其推送至用户端。从本质上说，算法在整个新闻生产和分发链条上起着信息匹配中介的作用，它将计算机程序设计中连接输入数据和输出数据的两端贯穿起来，通过把关、映射、修辞、决策等功能应用于新闻选题、内容生产、新闻游戏、新闻推送和用户决策等场景（见图2）。[6]凭借垂直领域开放平台的接口或平台授权，算法在庞大的数据支持下精确迅捷地抓取、生成、发布和推送资讯，最终实现对新闻内容生产环节和分发环节的再造和变革。

图1 算法设计的一般过程[4]

图2 算法在新闻业的应用场景

二、算法权力介入新闻生产——未知的“黑箱”

在新闻生产的具体语境下，算法是如何形成并影响着知识生产和公共舆论？算法如何利用互联网的海量数据代替人类记者和编辑行使信息传播把关人的职能？对于专业人士以外的大多数用户而言，这个过程如同一个“黑箱”，既难以理解又无从评判和监督。

（一）算法权力的黑箱和隐蔽性

“黑箱”是控制论中的概念。作为一种隐喻，它指的是为人所不知的那些既不能打开、又不能从外部直接观察其内部状态的系统。[7]而“技术黑箱”特指人工制造品(artifacts)，作为知识已经被部分人知道，但另一部分人不一定知道。在新闻生产的整个链条中，算法权力得以充分施展的是自动化决策环节，分别体现在算法自动生成新闻内容、智能推荐新闻产品、借助模拟程序或预测模型讲述新闻故事三个层面。[8]在这里，由算法自动生成的新闻稿件是人工制造品，而算法程序和工作原理作为知识，被集成于某种框架之中，对开发者、设计者而言是已知的知识，对受众或用户则构成了一个“技术黑箱”。

1.算法权力的技术黑箱

按照功能划分，算法有优先级排序算法、分类算法、关联度算法和滤波算法等多种类型，而自动化决策往往不是单一的某个算法可以完成的，有时可能需要多种算法的叠加。其中涉及基于大体量数据的复杂运算程序和机器学习技术，即便是专业的新闻记者和编辑，也未必能够参透算法的内部运作机理。

美国学者迪亚克普拉斯（Diakopoulos）研究了算法“黑箱”的两种常见情形。[9]第一种情形对应监督式机器学习技术，属于算法“黑箱”初级形态，多见于结构化数据丰富的财经和体育新闻报道领域，也是目前国内运用比较多的算法形式。如图3(A)所示，这一过程有固定的模板，输入和输出都是已知信息。算法自动按照给定的规则填充公式化的表达，生成稿件内容。这里算法本身是黑箱，用户基于公开的应用程序编程接口(API)可以全部观察到输入和输出两端的情况。第二种情形属于算法“黑箱”的中间形态，常见于新闻众包模式。如图3(B)所示，算法输入侧即新闻线索挖掘、数据收集等环节具有不透明性，对用户而言是未知的，但符合某种统计学规律，只有输出侧是已知的。

本文认为，在上述两种情形之外，还存在对应无监督式机器学习的第三种形态，也即算法“黑箱”的进阶形态。如图3(C)所示，无须固定的输入输出模板，算法在没有任何人为干预的条件下，凭借自主学习能力自动地从数据中抽取知识。这里输入和输出两侧组成了一个闭环的黑箱，无论是新闻线索发掘、文本生成，还是后续的编辑审稿和新闻签发等诸多流程均是不透明的。

2.算法中隐含的偏见和利益取向

计算机系统隐含的偏见和利益取向多年前就已引起广泛关注。多项研究均显示，软件产品具有隐蔽性的特征，特定的权力结构、价值观和意识形态已经事先被嵌入其中。在软件的遮蔽下，“有限性、许可、特权和障碍”[10]等限制不易被人察觉。

图3 新闻生产中的三种算法“黑箱”情形

具体从算法设计过程来看，基础数据和推理假设是必不可少的两个因素。而这二者都有可能隐含设计者的偏见、价值观和意识形态取向。特别是社会化媒体搜索引擎的信息过滤和个性化推送环节，设计者和技术人员不仅影响算法的设计流程，而且在算法运行时仍可介入过滤程序，其中既可能带有算法设计者的主观偏见，也可能存在输入数据的可靠性以及由算法局限造成的歧视效应。[11]相应的后果是算法自动生成的新闻作品可能与设计初衷背道而驰，甚至包含不准确或虚假信息。这不仅有悖于客观、公正的新闻报道准则，也会直接影响到公共议程设置和舆论意见的形成。

从介入新闻生产的多元利益主体来看，由于不具备独立研发智能算法的技术能力和人才资源，多数媒体只能寻求与技术公司合作，以业务外包、网络协作的方式完成基于算法的新闻生产。在技术公司、互联网公司乃至金融资本的夹击下，专业媒体面临着新闻内容分发渠道被挤占的被动境地。

（二）算法黑箱存在的现实原因

从掌握算法的媒体机构和技术公司的立场考虑，一方面，由于算法披露的成本投入和现实收益不成比例，这些机构在商业化运营的压力下缺乏足够的信息披露动力。另一方面，如果披露的信息中存在匿名方式不当的情况，新闻机构可能面临被控侵犯隐私的法律风险，而公开承认报道内容中存在错误或不确定性因素也有可能招致诉讼纠纷。此外，他们的顾虑还体现在：如果将专有算法程序公之于众，有可能侵害自身的技术竞争优势，陷入被第三方介入操纵的被动局面。[12]

从用户的层面来说，算法信息的大量披露可能导致信息过载。由于不同受众群体存在差异化的信息需求，除专业人士之外的大多数受众可能难以理解这些计算公式或对之不感兴趣。因此，如果新闻机构不了解用户对算法透明的真实需求状况，披露的算法信息超出了他们所能接受、处理和有效利用的范围，使其难以找到有价值的高关联度信息，就可能对用户界面造成干扰，带来不必要的信息重荷，进而影响用户的感官和认知体验。

三、算法透明——算法权力规制的可能进路

与算法的权力边界不断扩张相对的是，算法的某些负面影响和潜在问题被“黑箱”所掩盖和遮蔽，业已引发了业界和学界共同的焦灼和思考。既然算法“黑箱”的核心问题在于信息不对称和不公开，就现阶段而言，要对无处不在但又不透明的算法权力加以有效规制，需要迈出的第一步就是破解算法黑箱、推进算法透明。

首先，算法透明已具备一定的现实可能性和外部环境条件。随着传播技术的加速迭代，互联网和数字媒介的普及大大降低了数据存储、收集、分析的成本，使得任何有网络连接的组织和个人均有可能借助数字技术对政府和机构行使监督和问责职能。而开源文化、开放数据运动在全球多个国家的扩散也为推进算法透明营造了一个开放的外部社会语境。

其次，对人工智能技术范式驱动下的新闻业而言，算法透明既可对新闻客观性准则给予全新诠释，也能凸显专业新闻机构在内容生产方面的优势和权威性。各种超链接、消息源和数据来源的公开披露以及社交媒体上用户产生的海量评论，使得新闻产品的数据驱动和交互特性越来越受到重视，增强透明性实际上是鼓励用户充分参与新闻生产过程。

最后，推行透明的算法披露机制，不仅有助于专业人士发掘算法真相，也可以为受众提供了解真实的新闻生产过程的机会，因此具有完善新闻生产问责机制和强化专业媒体权威性的双重意义。

需要明确的一点是，推进算法透明与规制算法权力是一体两面的关系。鉴于很多算法属于涉及商业利益的专有算法，受知识产权保护，因此现实中的算法透明只能是有限度的透明。而且，算法透明也不必然代表算法权力“被关进了笼子”，但它是针对算法黑箱问题而提出的、制衡并规范算法权力的应对之策。

四、算法透明机制的设计与实现

算法的哪些内容应该向用户充分披露？如何在算法透明性和商业利益之间寻找一个恰当的平衡点？从一般意义上来说，透明意味着获悉真相和人类行为动机的手段和方法。按照新闻透明性的要求，通过公开信息披露，无论是否属于新闻从业人员，只要对新闻作品及其产制流程感兴趣，均享有监督、核查、评判甚至参与到新闻采集、生产以及分发过程的机会，用户借此可以更多地了解新闻生产过程及其背后的设计逻辑。[13]

结合前文对算法运行过程中的“黑箱”问题和算法透明现实阻力的分析，本文认为，可以结合内生性的生产逻辑和外生性的监管逻辑，按照算法披露、法律规制和社会监督三个思路构建算法透明实现机制（如图4所示）。

图4 算法透明实现机制的设计思路

第一，从生产主体的角度来看，专业媒体、技术公司以及新闻聚合网站可以本着算法要素透明、程序透明和背景透明的三条原则构建算法披露机制，提升算法透明度。

1.算法要素透明

数据是算法运行的前提条件和基本要素。在基于算法的新闻生产和分发流程中，算法程序的高效运行对数据量级和质量均有很高的要求。按照透明性原则，新闻媒体机构需要对数据质量、可信度、准确性、误差范围、采样范围、缺失值、机器学习过程中训练数据的规模等进行必要说明。另外，对于涉及公共利益的算法，新闻机构应向用户主动披露源代码。此外，模型输入的变量及其特征，特别是对于新闻价值定义的标准、语义分析时的关键变量值、特征权重和建模工具等信息均有必要向用户披露，从而使他们对算法的建模过程有较为全面的了解。

2.算法程序透明

生产主体应就算法的运算和决策过程予以必要解释，以实现程序透明。算法程序的推理规则，如分类、数值推测、推荐等，其中包含的准确度、基准值、置信水平等统计数据均存在不确定性。还有外部接口的开关、输入与权重的可调整性以及呈现给终端用户的界面设计等，都需要考虑以便于用户理解的方式予以充分披露。

3.算法背景透明

自动化新闻生产过程中是否有人工编辑和记者的干预，以何种形式、在什么程度上参与，谁应对报道的准确性负责，媒体机构应该予以明确说明。对算法在实际运行中可能带有的偏见、易犯的错误，新闻机构也应该坦诚告诉用户。特别是当涉及争议性、批判性新闻话题的时候，应向用户交代算法设计者及其所在机构的目标和意图。

从具体操作方式上看，媒体机构可以效法其他商业企业，以发布阶段性算法透明报告或组织分享交流会的形式，向外界定期公开算法运行的相关信息。例如今日头条在2018年1月份召开了一场旨在推动整个行业问诊算法、建言算法的论坛，面向行业公开头条的算法原理，以消除社会各界对算法的困惑和误解。

另外，在媒体内部设置专门岗位，由专职人员负责与受众或用户沟通、解释算法的运作机理，也不失为一个增强用户黏性、提高算法透明度的好办法。在信息披露界面设计上，还应思考如何在不影响用户体验的前提下以通俗易懂、界面友好的方式披露算法信息。

第二，在法律体系层面，目前我国政府尚未针对算法特殊性及其在互联网时代产生的法律问题作出回应，如是否应该承认人工智能作为具有自我意识的法律主体地位，是否应该保护算法新闻的著作权、言论自由等权利及责任认定等。

在监管方式上，相关政府部门可从事前干预算法设计和根据后果事后向算法追究责任两方面入手。要在尊重算法商业逻辑的基础上，将算法与新闻业的融合看成是互联网智能演进的过程中由商业力量驱动的知识生产过程，思索基于算法的新闻价值生产以及相应的问题。不仅要约束多元利益主体在互联网空间中的行为，也要对算法技术本身的变化作出回应。针对不同用途的算法，从其内部的设计规则以及外部行为与后果等层面构建算法权力规范体系。[14]

国际范围内，欧盟率先在2016年5月通过《全面数据保护法》（General Data Protection Regulation）,规定软件公司应向用户解释算法决策背后的逻辑推理过程，并明确规定，如果相关主体未履行披露义务，将对其处以高额罚金。美国计算机学会公众政策委员会（ACM Public Policy Council）也公布了知情原则、质询和申诉原则等6项算法治理指导细则（见表1）。[15]对此我国监管部门可在研判我国互联网治理的具体国情基础上适当学习借鉴。

表1 ACM公布的算法治理指导原则

第三，在更广的社会监督层面，随着我国信息公开进程的逐步推进和数据开放环境的改善，数据保护、数据安全意识近年来已普遍得到社会公众的认可。但智能算法在社会公众眼中往往带有“科学”“客观”的外在光环和神秘性。本文认为，要实现对算法权力的问责和充分监督，应在全社会范围内加强“算法素养”（algorithm literacy）教育，引入第三方监督与核查力量，并充分发挥专业新闻媒体的问责和监督职能。

1.培育算法素养

算法设计者和利益相关者应树立兼顾效率和公共利益的理念，设计和使用算法时遵循相应的伦理规范。社会公众应多学习和了解必要的算法常识，既不过于依赖算法，也应清醒认识到算法的负外部性问题，对算法的系统性影响给予审慎的评价和认知，不仅要以争取合理知情权的方式破除算法“黑箱”，还应理性地生产和保护个人信息，防范算法可能带来的风险与消极后果。

2.加强第三方算法监管力量

为了保证对算法权力的全方位监督，应建立值得信赖的算法伦理委员会等第三方独立组织，支持学术性组织、非营利机构或自媒体的适当介入，加强第三方监管力量。目前在德国已经出现了由技术专家和资深媒体人挑头成立的名为 “监控算法”（Algorithm Watch）的非营利组织，宗旨是评估并监控影响公共生活的算法决策过程。具体的监管手段包括审核访问协议的严密性、商定数字管理的道德准则、任命专人监管信息、在线跟踪个人信息再次使用的情况，允许用户不提供个人数据、为数据访问设置时间轴、未经同意不得将数据转卖给第三方等。

3.发挥专业媒体的算法问责职能

专业新闻媒体，特别是其中的调查记者队伍素来被视为追求事实真相、推动社会进步的标杆。算法时代的媒体机构一方面要对机构内部的算法使用和运行情况展开自我核查和纠错，另一方面也应充分发挥事实真相提供者和舆论监督主力的职能，针对算法可能存在的偏见、歧视以及错误，勇于向算法提问、调查和追责。

注释：

[1]叶韦明.机器人新闻:变革历程与社会影响[J].中国出版，2016(10)

[2]Lee S M, Kim T Y. A News on Demand Service System bas ed on Robot Agent//Proceedings of International Conferenc e of Parallel and Distributed Systems[C].Taiwan:1998:528

[3]邓建国.机器人新闻:原理、风险和影响[J].新闻记者，2016(09)

[4]王红梅，胡明.算法设计与分析（第二版）[M].北京：清华大学出版社，2013：6

[5]Carlson M.The Robotic Reporter: Automated journalism and the redefinition of labor，compositional forms，and journalistic authority[J].Digital Journalism，2015,3(3)

[6]张超.作为中介的算法：新闻生产中的算法偏见与应对[J].中国出版，2018(1)

[7]陶迎春.技术中的知识问题——技术黑箱[J].科协论坛，2008(7)

[8][9]Diakopoulos N.Algorithmic Accountability:Journalistic investigation of computational power structures[J].Digital Journalism，2015,3(3)

[10]Mager A.Algorithmic Ideology: How Capitalist Society Shapes Search Engines[J].Information，Communication &Society，2012,5(15)

[11]Bozdag E.Bias in Algorithmic Filtering and Personalization[J].Ethics and Information Technology，2013,3(15)

[12][13]Diakopoulos N & Koliska M.Algorithmic Transparency in the News Media[J].Digital Journalism，2016

[14]胡凌.人工智能的法律想象[J].文化纵横，2017(02)

[15]Statement on Algorithmic Transparency and Accountability [EB/OL].http://www.acm.org/binaries/content/assets/public-policy/2017_usacm_st atement_algorithms.pdf