机器人新闻写作的内容分析
——以今日头条Xiaomingbot为例

2021-04-06 11:17谭辉煌张新宇
湖北科技学院学报 2021年1期
关键词:新闻报道样本机器人

谭辉煌,张新宇

(1.湖北科技学院 人文与传媒学院,湖北 咸宁 437000;2.荆州市公安县农业农村局,湖北 公安 434300)

一、研究背景与研究目的

近年来新闻写作深受人工智能技术的影响,国内外媒体已经陆续推出了自己的新闻写作机器人。国内有今日头条的Xiaomingbot、新华社的快笔小新、《南方都市报》的小南、腾讯财经的Dreamwriter等,国外有《华盛顿邮报》的Heliograf、美联社的Wordsmith等。写作机器人凭借自身在数据收集、数据整理和数据分析等方面的优势,给传统的新闻写作带来了极大的挑战。由此,新闻记者要被取代的声音也频频出现。那么,机器人写作的新闻到底是什么样态?有什么特点?会不会存在什么缺陷?新闻人与写作机器人应以什么样的关系模式进行相处?这些是本研究试图回答的问题。

二、研究方法

本文采用内容分析法,内容分析法是一种对传播信息内容进行系统、客观和量化描述的研究方法,如今在新闻传播学中也广泛运用。[1]本文主要从Xiaomingbot所生成新闻的发布情况和新闻内容构建两个方面进行内容分析。

(一)分析单元与样本描述

1.分析单元

本次内容研究的分析单元是Xiaomingbot生成的单篇新闻报道。在新闻发布情况和新闻内容构建两个维度的基础上进一步细分二级类目,分别是新闻发布时间、新闻发布形式;新闻框架结构完整程度、新闻标题格式、新闻报道主题、新闻对比赛结果描述性词语使用情况。

2.样本描述

本研究选取Xiaomingbot发布时段在2018年12月20日到2019年5月20日(Xiaomingbot在此时间段生成的新闻报道包括的体育赛事类型较多,并且从其开始阶段的新闻稿件分析,更能明确其受主、客观原因影响后为完善自身新闻报道而进行的转变)之间共497篇新闻报道作为内容分析的总体。样本选取采用随机抽样中的随机数法方式,对样本总体497篇新闻稿件按发布时间顺序进行编号,再用随机抽样软件进行不重复抽样得出150个编号,最后整理相对应的150篇新闻报道作为内容分析的样本。

(二)类目建构

本次研究对象是Xiaomingbot的新闻稿件内容,从新闻发布情况和新闻内容构建两个部分构建类目体系(见表1)。

表1 机器人新闻写作类目体系构建

三、今日头条机器人Xiaomingbot的新闻写作特点

(一)新闻发布时间分析

分析Xiaomingbo的新闻发布时间是为明确机器人新闻写作在时效性、效率方面的优势。主要从新闻报道中体育赛事开始的北京时间、当地时间对比(见图1)及比赛结束的北京时间、新闻发布的北京时间进行对比(见图2)。

图1 体育赛事开始北京时间与当地时间对比图

图2 机器人新闻发布时间与体育赛事结束时间对比图(北京时间)

根据体育比赛开始时当地时间和北京时间对比图,可以看出Xiaomingbot生成的新闻报道中体育赛事开始的北京时间集中于19:00—06:00,当地时间集中在14:00—22:00。由于地理位置不同产生的时间差,在150篇新闻样本中显示大部分体育比赛进行时我国处于黑夜时段。人类新闻记者因工作要求而睡得晚、起得早,但对于一篇体育新闻报道的生产、发布,不是比赛结束后就可以立马完成的,一般而言,人类记者要花2个小时左右的时间进行体育比赛的观看后才能进行新闻写作,而在新闻样本中显示大多体育比赛开始的北京时间处于00:00—04:00之间,这对人类记者的体能来说是一个不小的挑战。

其次是新闻发布时的北京时间和比赛结束时的北京时间对比,在150篇新闻样本中,有139篇新闻发布时段处于我国黑夜时段即22:00—06:00,特别是在02:00—06:00时间段发布的新闻有83篇,超过一半的新闻样本数量。除了一篇比赛结束时间在02:00—04:00时间段而报道时间延迟至14:00—19:00时间段发布,其他的新闻报道发布时间大多都是和体育比赛结束时间处于同一时段,进一步细化分析样本可得Xiaomingbot生成的新闻中比赛结束的时间基本上就是其新闻发布的时间,新闻写作的高时效性与高效率特点明显。

1.机器人新闻发布时效性强

如何在最短时间把新闻事件呈现给受众是新闻业竞争的重要内容,这也是人工新闻记者一直努力的方向。一场正规足球比赛的耗时大约为120分钟,上下半场各比赛45分钟,中场休息20分钟,外加换人、罚球、犯规等会消耗几分钟时间。如Xiaomingbot在报道拉齐奥队和都灵队的足球比赛中提到比赛开始时的北京时间为22时0分,而其新闻发布的北京时间为23时55分。从比赛开始时间到新闻发布时间间隔115分钟,可见其发布体育新闻时间几乎与体育比赛结束时间一致。

此外,机器人写作作为一种计算机自动化写作程序,它可以多任务同时进行,不受时间地点的限制。在Xiaomingbot生成的150篇新闻样本中,有83篇新闻发布在02:00—06:00时段。而在我国,这个时间段是休息时间。虽说体育领域的新闻传媒业有专门的驻外记者进行新闻报道,但是其数量不会很多,若是有多场体育竞技同时开展,人类记者会因为自身生理的局限性而无法与机器人相比。

2.机器人新闻生产效率高

对于人类记者来说,要报道体育赛事免不了要对比赛过程的重复观看,比赛中的精彩画面也需要时间去寻找,生成新闻后还需审核、发布,而且繁重的数据收集、分析任务也会让人劳累。Xiaomingbot的数据采集与分析能力远超人类,能有效缩短新闻生产时间。再加上网络的互联互通,当其内容生成之时也是内容传播之时,极大地提高了效率。另外,机器人写作,也可以使记者从机械、重复、单调的数据收集工作中抽离出来,将更多精力投入到目前机器人无法代替的深度报道中。这很大程度上会提高整个新闻业的生产效率,使得新闻报道实现量和质的增长。

(二)新闻发布形式分析

在目前诸多新闻报道领域,记者为丰富新闻的表现形式,在编辑新闻时往往会插入图片进行补充说明。而体育竞技充满了运动、激情、悬念等元素,受众在进行体育新闻阅读时,不会仅仅满足于平铺直叙的文字叙述,因此插入赛事图片进行补充描述是必不可少的。为了进一步了解Xiaomingbot新闻写作的特点,分析其新闻发布形式很有必要。在其150篇样本中新闻的发布形式如下:

表2 机器人新闻发布形式类别表

150篇新闻样本中有48篇是纯文字叙述,102篇是图文结合,其中84篇是静态图片加文字,18篇为动态图片加文字叙述。可见Xiaomingbot在进行体育新闻报道时会经常通过插入图片来做进一步描述。

今日头条实验室总监李磊指出,Xiaomingbot对于图片的处理,是通过计算机视觉技术对图片内容进行分析、识别后再将它与文字结合匹配得出。从上图数据来看,Xiaomingbot不能对每一场体育赛事进行新闻报道时都做到图文结合,而且在84篇静态图文结合的新闻中存在23篇新闻有图片重复使用或与报道内容关联不大甚至无关的情况。但其动态图片使用情况比较出色,例如在对足球比赛的报道中,它对运动员每次的断球、犯规、射门都有动态图片来进行视觉上的补充说明。目前由于机器人新闻写作的语言运用在描述细节上显得不足,正文中插入动态图片的设定对其新闻报道语言缺陷问题无疑是个较好的补充方式。在Xiaomingbot动图文结合的新闻报道中,每一张动态图片都是比赛过程中的精彩瞬间,对于那些没有时间看完整场比赛视频又想了解比赛过程的受众来说这无疑是最好的替代品。与机器人记者相比,单个人类记者是不能在短时间内把比赛视频剪辑出各种精彩细节并且及时发表出来的。

(三)新闻框架结构分析

完整的新闻是由标题、导语、背景、主体、结语五部分构成。其中标题、导语、主体是主要构成部分,结语和背景是辅助部分。一篇标准新闻稿件绝对能够保证标题、导语、主体三要素的完整,加上背景和结语的补充,能使受众更好的理解新闻事件。150篇样本的新闻框架结构情况如下:

表3 机器人写作新闻框架结构情况分布

从上表可以得知Xiaomingbot生成的新闻在报道时主要是缺少新闻背景,150篇新闻样本中有142篇新闻在框架结构上没有背景元素。虽然Xiaomingbot在新闻写作时追求的是快速而简洁的原则,但是我们也有一个期待,那就是目前在一些相对简单的新闻领域让机器人新闻作品和人类记者新闻作品无限的接近。在体育新闻领域,机器人新闻完全可以增加一些对双方球队状态、胜率、积分情况的描述,特别是一些比较关键的比赛,例如NBA常规赛最后几局,输赢、积分如何决定着球队是否进入季后赛、决赛的机会。增加这些背景的补充说明可以丰富新闻内容,使受众了解更多信息。

其次是机器人新闻导语,新闻的导语一般是新闻正文开头第一句话或第一段,是新闻内容提炼后的产物,要求简洁、信息量大、概括性强。Xiaomingbot发布的新闻《德甲第28轮柏林赫塔1:2杜塞尔多夫未能取分》,其导语就是“北京时间2019年4月6日21时30分,德甲第28轮,柏林赫塔迎战杜塞尔多夫。最终,杜塞尔多夫2:1战胜柏林赫塔,拉曼为本队建功,格鲁伊奇为本队挽回颜面。”导语交代了比赛的时间、人物、事件和结果,展示出了新闻的重要内容,较为标准,但当进行多篇样本对比后我们也容易发现其导语结构模板化非常严重。最后是新闻主体部分,新闻主体是一篇新闻的躯干,是对新闻标题和导语内容的进一步细化说明,是新闻中最为精华的部分。从总体上来看,Xiaomingbot生产的体育新闻主体布局较为合理,叙述也较完整。其构成也有固定格式,首先是对比赛双方使用阵容和人员分布情况的介绍,接着就是对体育赛事中每个时间段发生进球、射门、犯规、人员调动情况进行简单叙述,有记流水账之嫌,且其新闻语言衔接也显得不够流畅。如《欧冠八分之一决赛 热刺3:0轻取多特蒙德》,主体部分第一句话“比赛正式开始。又被断啦,热刺球员迅速推进,可惜未能进球。”在语句衔接上就很别扭、生硬,语义表达也不够严谨。既然是刚开始比赛,怎么能说是“又”被断了?在这点上机器人新闻还是无法与人类记者新闻相提并论。

(四)新闻标题格式分析

新闻标题是受众了解新闻内容的第一接触点,是对新闻内容的高度总结。标准的新闻标题往往能把新闻内容中最重要、最有意义的信息直接展示给读者。没有人会主动接触自身不感兴趣的事物,而读者在进行新闻阅读时,第一关注点也是新闻标题能否引起自身兴趣,从而决定是否有继续阅读新闻的必要。

分析Xiaomingbot生产的新闻标题格式,可以看出他对新闻内容的归纳、总结与表述能力,对研究其新闻写作在内容构建上的特点有较大帮助(见表4)。

表4 机器人新闻标题格式分析

根据上图,有108篇使用的是“联赛名称-轮次-球队X-球队X-(结果评论)”格式。例如:《德甲第28轮斯图加特1:1纽伦堡握手言和》。这是一个极其标准的体育报道标题,联赛名称、轮次、双方球队比分及胜负情况都在标题中展现,很全面。若是单独拿出来,与人类记者写的标题也看不出差别。但是150篇样本中108篇都使用这种标题结构,会造成受众的审美疲劳。而“球员/队描述-球队X-球队X”这种结构的标题就更适用这种连续发布的体育新闻,只需要把对球员、球队的描述性词语换用,如《沃尔夫斯堡全场仅有3脚射正!RB莱比锡主场2-0战胜沃尔夫斯堡》《佩雷斯帽子戏法,南安普顿客场1-3负于纽卡斯尔》,虽然没有第一种标题把内容信息展示得那么全面,但是更有个性化,对于喜欢球队当家球星的球迷有更大的吸引力。事实证明Xiaomingbot在后期的新闻报道中使用第二种格式的标题新闻数量明显增多,这也是其为完善自身新闻报道而做出的改变。

(五)新闻报道主题分析

在150篇新闻样本中,129篇是对国外足球赛事的报道,17篇是对国内足球赛事报道,4篇是对美国NBA篮球赛事的报道,没有国内篮球或其他体育比赛报道(见表5)。

表5 机器人新闻主题分类图

Xiaomingbot对篮球和足球赛事的新闻报道篇数相差如此之大,在对比足球和篮球两个体育类题材新闻稿件后,发现其对篮球的新闻报道是对多个球队当日战况总结性描述,即多个新闻简讯组合成的一篇稿件。而足球则是每一场比赛都单独成一篇新闻报道。

在对篮球比赛的报道中,Xiaomingbot只会对比赛基本信息、结果和球队核心成员得分进行总结性报道。但是足球比赛的报道中,其对每次球员犯规、射门等画面都会进行简单描述。也不难发现,与篮球比赛进球得分相比,足球比赛中进球得分是更加困难的事情。足球比赛中进球价值远高于篮球比赛中的进球价值。一场篮球比赛,双方球队得分基本都在100分左右,新闻报道若是对每一次进球得分都进行报道,基本上与文字直播无异,会造成新闻内容过于冗长,违背新闻写作要求语言简洁精炼的要求,受众也不会选择看这种报道方式的新闻。这可能是Xiaomingbot在后期新闻报道中放弃对篮球比赛报道的原因。

(六)新闻内容中比赛结果用词使用情况分析

Xiaomingbot作为第二代自动化写作机器人,与初代写作机器人相比有着能使用一些拟人化的描述性词语的优势。在对相关体育赛事进行新闻报道时,其对体育比赛结果的描述中明显有使用如握手言和、平分秋色、斩落马下、收入囊中等词语。分析其新闻内容中比赛结果描述性词语使用情况可以窥探机器人新闻写作在语言表达上的特点。

除去简单的如“获胜”“小胜”“失败”“负于”等不具代表性的词语,在150篇新闻样本中有使用比赛结果描述性词语新闻的篇次占比情况如下:

表6 机器人新闻内容比赛结果描述性词语使用情况

根据上图可以得出Xiaomingbot生成的新闻内容中如握手言和、逼平/战平、平分秋色、失意离场、遗憾失利等比赛结果的描述性词语使用频次较高。在150篇新闻样本中,除去27篇不具代表性或者没有使用描述性词语的新闻之后还有123篇。123篇新闻内容中结果性描述词语使用情况基本上由上图中12个词语涵盖,重复率明显较高。

机器人新闻写作的语言表达一直在向着自然、生动灵活的方向努力。虽然Xiaomingbot的新闻报道中出现了拟人化的描述性词语,例如对比赛结果为平局的描述性词语有握手言和、平分秋色、战平、逼平,对新闻语言起到了一定的丰富作用,但是其词语使用的重复率还是较高,其写作中对比赛结果描述性词语有很明显的固定范围,造成其新闻报道在语言用词的相似性较高,出现语言同质化现象。

四、机器人新闻存在的问题

机器人新闻凭借着自身的时效性、高效率、强大的数据收集分析能力在新闻传媒业发展蒸蒸日上。[2]其新闻在标题、导语、主体上都符合人工新闻写作的基本结构。但受限于目前人工智能技术发展的不足,机器人新闻写作在保证以上优点的同时带来新闻语言表达同质化和内容构建模板化的缺陷。相较于人类记者生产新闻,机器人新闻写作在语义语境理解、语句衔接、细节描述、深度报道等方面存在明显不足。

(一)新闻语言同质化,情感表达能力欠缺

新闻语言是一篇新闻稿件的“肉身”,而生动灵活的语言则能让新闻在拥有“肉身”的基础上赋予“灵魂”。传统的新闻写作,在初稿完成之后还要经过主编的进一步修改、润色,使得新闻语言严谨且灵活生动,最后在发布时以增强受众的接受力和扩大传播影响力。

机器人新闻生产是使用自动化程序在其数据库中抓取数据,识别相关内容后自动生成文本,其新闻语言的素材完全取决于现有数据库的数据量。通过对Xiaomingbot新闻稿件分析,发现其标题、导语、主体都特别完整,但其新闻语言同质化现象非常严重。虽然稿件中出现了拟人化词语,但重复率较高。新闻主体的描述也是统一的“时间-事件”表达模式。没有对事情的发生过程进行更为细节的描述,同类体育新闻的语言和句式结构非常雷同,最终造成新闻语言表达能力不足。选取Xiaomingbot报道的《欧冠-半决赛-利物浦4:0横扫巴塞罗那豪夺胜果》和人工新闻报道的《奇迹翻盘!利物浦4-0巴萨 总比分4-3进欧冠决赛》新闻进行比较,从标题上就知道人工新闻标题更吸引人,更能引起读者好奇心。在内容上,Xiaomingbot生成的新闻对比赛进行的描述可谓是中规中矩,简单的展示了比赛过程和结果。但是人工新闻就更有情感,赞扬了利物浦队在主力伤病的情况下还能取得如此战绩挺进决赛,同时也对巴塞罗那球队主力梅西独自落寞离场感到惋惜。机器人新闻写作若是不能完善其语言表达能力,将难以写出有温度有情感的新闻。

(二)新闻框架模板化,深度报道能力欠缺

分析机器人新闻框架,主要从其标题格式、主体布局、报道主题和图片选择上来看。Xiaomingbot生成的新闻有独特性,事先在自动化写作软件上设定好固定格式,后续根据实际的体育赛事情况进行相关数据的填充,更像是一种聚焦于体育题材的“填词游戏”,[3]最后再全面整合信息后生成发布。这是造成新闻框架模板化的根本原因。例如Xiaomingbot的150篇新闻样本,其标题大多采用“联赛名称-轮次-球队X-球队X-(结果评论)”格式,虽然后面的描述性结果评语会改变用词,但是总体结构没有变化。新闻导语也是一样,基本上是在标题的描述上增加了具体的时间,没有增加比赛的地点、重要性、球员表现的描述,不能做到将核心信息更加全面生动的展现给读者。在主体布局方面,对球队阵容、人员分配做出说明之后就是对比赛情况简单的描述。比赛过程中相关进球、犯规都有被提及到,如“第5分钟,梅吉奥里尼频繁的犯规招致一张黄牌。第28分钟,德鲁恩获得了一张黄牌。第74分钟,德保利鲁莽的犯规,获得了一张黄牌。”虽然对事件把握很全面,但是每句话的结构都是类似的,没有对细节进行刻画,没有侧重点,整篇新闻读起来很平淡。至于在静态图片的选择上,在单篇新闻报道中不仅出现同一图片重复使用的情况,而且由于其新闻语言的呆板,图文关系不大或毫无关系的情况也时有发生,如在对足球比赛新闻报道中插入现场球迷特写照片,这是在人工新闻报道中不会出现的低级错误。

五、机器人新闻写作完善建议

基于目前机器人新闻写作存在的新闻语言同质化、新闻框架模板化的问题,提出如下建议:

(一)科技创新,完善数据库

数据成为机器人新闻写作的直接来源,新闻写作数据库的丰富和完善程度直接关系到机器人新闻的数量和质量。

数据库的完善首先就是要丰富数据的来源。Xiaomingbot的数据来源是体育赛事数据库,以便数据在更新时能第一时间进行体育赛事报道,而且还能从今日头条平台获取数据,头条里每一篇文章都可以是它学习的对象,以便完善自己的语言表达能力让自己更加拟人化。完善数据库的资源就是丰富新闻的来源。而目前只有少数机构掌握权威性较强的数据库,数据库的价值是不言而喻的,数据即为信息,信息就是价值,要想开放和共享并不是一件易事,不仅需要深厚的物质基础,还需要政府和相关机构的协同。由于单个传媒机构没有足够能力丰富、完善数据库,导致其现有数据库中存在着数据同质化、质量低的现象,这些都不利于机器人新闻写作的完善发展。因此,整个传媒业应该达成共识,尽快破除各媒体间的数据障碍,打破数据孤岛,共享各自的数据,共同促进机器人新闻写作质的升华。

(二)人机协作,协调发展

机器人与人类“抢饭碗”的争议在各个领域都有发生。目前机器人新闻写作已经运用到了体育、财经、民生、地震等领域,一定程度上取代了人类记者的工作。这是传媒业顺应时代潮流发展的必然方向。人类记者需要转变观念,不要恐惧新技术给职业带来的负面影响,而应该客观看待技术发展带来的挑战与机遇,进行自我专业能力的提升,实现从职业记者向专家型记者的转变。

从当前机器人新闻写作的内容分析可以看出机器人新闻还无法完全取代人类记者,虽然Xiaomingbot在生成新闻后无需人工审核直接发布,但是其在语言表达和内容构建上还存在问题,造成新闻可读性较低,难以留住受众。人类记者在新闻传播中充当“把关人”的角色仍然必须,在机器人新闻生成后还需经过人类记者的润色修改,去除内容中的语言表达错误,优化其结构,对细节进行补充,丰富其新闻情感与价值。

人机协作,协调发展才是将来新闻人和新闻写作机器人最好的生存与相处方式。新闻写作机器人有着高效率收集、处理与分析海量复杂数据的优势,那些对事实进行简单再现的新闻工作完全可以交给机器来完成,新闻人则从机械、重复的工作中解放出来,有更多的时间、精力去提升自己的职业素养,写出更多有深度和广度的新闻稿件。因此,新闻人将发生转型,不再是简单的新闻事实的记录员,而是社会事实的观察者,新闻事件的阐述者,新闻意义的挖掘者。相比于新闻事实纪录而言,对真相、意义、价值的挖掘,对新闻背后的原因、动机、趋势、规律的深度剖析,更需要发挥新闻人的能动性与创造性,而这一点恰好是新闻写作机器人所不能做到的。

六、结语

机器人新闻凭借自身写作速度快、效率高等特点已经引起社会各界的广泛关注。即使其在语言表达、内容构建上还有不少问题,但是其对整个新闻传媒业的推动是巨大的。

本文虽对Xiaomingbot生产的体育新闻进行了内容分析,有了相关结论,但还存在一些不足,如分析仅在于新闻稿件内容,没有从人工智能技术、自然语言学习技术、神经网络技术、LSTM建模等科技层面进行阐述,研究的广度和深度有限。另外,在样本选择上,截取其一段时间内的新闻进行抽样,不够全面,在研究上可能存在偏差,有待进一步完善。

猜你喜欢
新闻报道样本机器人
“她时代”新闻报道中的“时代精神”呈现
规划·样本
人大专题询问之“方城样本”
随机微分方程的样本Lyapunov二次型估计
媒体竞争取胜之宝——谈新闻报道策划
机器人来帮你
认识机器人
机器人来啦
让新闻报道充满正能量——江西宜春“夺刀少年”报道的启示与思考
人文关怀——新闻报道体现群众观的有效路径