互联网标题党现象研究及治理

2019-12-27 07:08郑家录
文化产业 2019年11期
关键词:点击率后验系数

◎郑家录

(秭归县电视台融媒体中心 湖北 秭归 443600)

标题党,是指在以互联网为代表的论坛或媒体上,通过引人注目的标题来吸引受众注意力,当受众点击进去发现与标题落差很大而又合情合理,以达到增加点击量或知名度等各种目的网站编辑、记者、管理者和网民的总称。

标题党现象的成因,除了商业模式的驱动,还有用户多样性、不同用户体验需求对标题党内容标准的不一致,标题党现象难以根除。本文从日常实际中,截取了五大门户网站上筛选出标题党内容,从数据上分析标题党的五大特征。

一、标题党的三种类型

(一)联想型标题党

1.惊!一男子喝醉酒竟然和动物……(武松打虎)

2.惊呆了!睡了十二年的战友,竟然是女儿身!(花木兰)

3.中国学生数学神乎其神的原因,美国人终于破解了……(中国学生比较能吃苦)

4.胆小别看!医闹患者当场砍死医生,场面血腥!(曹操杀华佗)

5.惊悚!38岁李玉刚满头白发老态龙钟(化妆)

6.黄晓明暴打杨颖,真正的原因是这样的,令人惊讶!(澄清媒体造谣)

这一类标题党在信息流中虽然比较少见,但是引起的用户反感效果最强。其中一类为通过事件某一个侧面,用引人联想型的文字描述,多与低俗擦边,来吸引点击。我们以负面评论作为评判标准,这类文章的负面评论最多,用户最为反感[1]。

(二)情绪型标题党

1.中国小将被击倒后暴走,一拳KO泰拳王。

2.国乒天才打出绝世无解球,对手被吓懵,解说员疯狂。

3.杨建平为师弟报仇,把韩国拳手拎起来揍。

在这一类标题中以用户情绪为出发点,渲染夸大事实,以此来刺激用户点击。这些内容普遍点击率较高,时长及阅读完成比并不低。

(三)求知型标题党

这一类标题党多利用数字,追随社会热点,多用“为什么、你、全世界、99%”等敏感词汇,多引用名人案例来刺激用户的求知欲,刺激用户的好奇心。内容本质上是比较普通的事件[2]。

二、标题党的数据特征

根据五大门户内容数据,将最近一个月的内容按阅读时长、CTR、阅读完成比分段,阅读时长(0-20秒,20-60秒,60-120秒,120-180秒,180秒以上),CTR(0-6%,6%-10%,10%-15%,15%-20%,20%+),阅读完成比(0-30%,30%-50%,50%-80%,80%-100%),最终交叉有80种组合,大致分析了每种组合中的内容情况,发现数据规律性很明显。

(一)CTR高但阅读完成率低

热血战狼文、噱头、部分标题党CTR水平在20%以上,完成比80%以上,博眼球内容较多。但阅读完成率低,另外通过差评的角度对内容进行区分,抽查了一部分差评较多的内容,发现差评的类型比较多,差评占比达到40%以上。

(二)用户的接受程度不一

我们调研了约100名不同年龄、职业的用户,通过用户过去喜欢看哪类内容,各类内容阅读深度如何,对标题党内容是否敏感,是否喜欢看大众的猎奇内容,还是偏好垂直、深度内容,发现对同一篇文章,这100名用户对标题党的认知不一致,有50%的内容偏差。

三、标题党治理

(一)后验数据筛选

根据数据特征的差异性,在现在互联网数据分发阶段,我们可以利用后延数据算法模型来对文章进行区分。在召回和排序算法中考虑阅读时长、阅读完成比、分享率、收藏率、评论率等多维度数据,降低点击率的影响,通过用户深度反馈——分享、收藏等指标,来抑制单纯刺激点击产生的“马太效应”。

在目前各家互联网公司的分发模型中,多采用机器学习常见的FFM模型、FTRL等模型来预测内容点击率,我们以此为处罚点,构建分发模型,例:

后验数据特征=点击×系数A+分享×系数A1+收藏×系数A2+阅读完成率×系数A3+正评×系数A3-负评×系数A4

在此公式中我们将A1、A2、A3、A4系数灵活设置,将正面系数调大,可以抑制单纯以点击驱动的分发模式。

(二)用户分群

对于一般型标题党内容略微夸大,但不存在误导用户行为的稿件,互联网不会将之扼杀,但是为了兼顾用户体验,需要对用户进行分群。存在同一部分内容一部分用户最喜欢,而另一部分用户最不喜欢,可见通过用户历史兴趣再结合人工经验梳理来对用户分群,能对用户细分起到一定效果。对于不同水平的用户所表现出的数据特点也会有所差异,时间紧迫,可以先对高端用户,标题党敏感,喜欢深度内容,不喜欢高点击率、大众、猎奇内容的用户,进行低质量内容限制,后续逐渐优化梳理映射规则,覆盖全部用户并做到精准分发[3]。

我们发现有些明显标题党品质很差、平均时长和阅读完成比很低的内容,还是有一些用户读完了,可以认为这些人就是对标题党不敏感的用户。也有一些平均点击率X%以下、平均时长和阅读完成比也不高的内容,同样有一部分用户认真读完了,仔细分析发现这些内容都是领域内比较垂直、有深度的内容,大部分普通用户是没有兴趣阅读的,而认真读完的用户都是在这方面兴趣很垂直的用户。

因为用户在某领域的知识水平和兴趣度是不同的,根据统计的平均CTR、时长、完成比等都是在所有用户上的表现,一些资深人士的行为很容易被大部分的普通用户的行为掩盖,导致这些后验数据失去个性化分发的作用。而这种现象在财经、体育、军事、军情、时政、国际、社会等几个专业性强的类别下表现更加突出[4]。

差评可以识别出一部分低质内容,去掉大部分用户不喜欢的内容,但对于有争议内容、战狼文,并不适合一刀切,而是找到对其感兴趣的用户进行推荐。其实我们忽略了一篇内容是哪些人贡献了这些点击和行为,只需将平均数据拆解到用户群体,便可以将内容属性和用户属性划分开。

(三)人工精细化运营

除了依靠数据和用户分群之外,还需要人工辅助。需要在人工梳理用户和内容分类的基础上,对信息流分发过程中的召回、排序算法进行优化。对一篇文章,不单单通过所有用户的后验数据进行排序,需要细化到不同用户群的表现,内容之间的排序要考虑同类用户群下的数据表现。

互联网平台要加强内容审核,依靠编辑的经验判断来提升内容品质。通过文章审核、媒体评级等手段净化内容生态。

标题党游走于质量“灰色地带”,给互联网公司带来收益的同时,也在消耗平台的用户体验,缩小平台的生命周期。对标题党的治理任重而道远。

猜你喜欢
点击率后验系数
反舰导弹辐射源行为分析中的贝叶斯方法*
三种常用周跳探测与修复方法的性能分析
基于特征工程的视频点击率预测算法
小小糕点师
苹果屋
嬉水
喜报!萌宝大赛参赛者660名,投票321657人次,点击率超60万!
后验概率支持向量机模型在目标分类中的应用
《江南STYLE》为何这么火
待定系数法在分解因式中的应用