被看见的力量

2020-11-23 01:59:28 风流一代·经典文摘 2020年11期

快手研究所

1990年,美国未来学家托夫勒提出“数字鸿沟”一词。他指出,拥有与未拥有信息时代工具的人之间存在鸿沟。中国积极推行的“宽带中国”、“互联网+”战略、数字中国,乃至接下来的5G战略,都是消除数字鸿沟的重要战略举措。“注意力”是数字鸿沟的重要组成。在互联网上,注意力是非常宝贵的资源,其分配状况直接影响人们的获得感和幸福感。

如果可以把注意力的鸿沟填平,让更多的普通人被关注,增加人与人之间的连接,发挥更多人的想象力和创造力,则社会会更繁荣,人们生活的幸福感也会更强。

中国的长期投入催生视频时代

过去几年,因为中国在互联网领域的长期投入,视频领域的基础条件快速成熟,促进了视频时代的到来。很多条件在中国是得天独厚的。

今天,我们可以在快手上看到很多有意思的视频,它们鲜活地呈现了普通人的生活。

鸭绿江上的放排人,把高山上的木材顺着水流运出来,这种古老的水运方式以前鲜有人知,如今却被数百万人关注。

城市建筑工地的潜水员,很小众的职业,但一二线城市的每一座高楼大厦都需要他们。建高楼打地基时,需要用电钻挖几十米的深坑,电钻头掉了需要他们潜到几十米深的浑浊泥水中,把电钻恢复原位。

时光倒退五六年,大众是没有机会看到这些内容,并一键下单购买这些商品的。短短几年内,至少有四个条件具备了。

一是智能手机的普及,现在买一部有内置摄像头、功能非常完备的智能手机只要1000元左右,甚至几百元也能买到。

二是4G网络的普及,普通人都可以负担得起移动网络的费用。即使在很偏远的地区,国家都投入了大量的资金用于电信基础设施建设。

三是支付的便利。有了智能手机,买东西付钱,随时随地就可以实现。

四是物流网络的发达。

这四个条件同时具备,并且全民可以享受,为视频时代的到来奠定了基础。视频作为新时代的文本,相比于文字,它有自己的特点。一是视频比文字在表达上更真切,内容更丰富。二是视频的拍摄和观看门槛更低,适合全民参与。人类对视频信息的接受是最天然的。

正如文字改变了社会的方方面面,视频也会改变社会的一切。这种改变不是简简单单的一个补充,也不是简简单单的一个增量,而是彻底的改变。

未来,如果我们的个人设备从手机进化到眼镜,进化到VR、AR(增强现实)以后,影像化的产品会更大地改变这个世界。所有的应用,都要重新再设计一遍。

人工智能技术深入快手骨髓

摄像头内置进手机,人人都可以方便地拍视频,视频数量暴增。因而,视频与人之间的精准匹配成了核心问题。

匹配机制最核心的有三件事:一是理解内容;二是理解人;三是将内容和人连接起来,让它们匹配。门槛在于数据,要有人和内容之间交互的数据去做模型。

首先是理解内容。如果是文本化的内容,理解文本的技术在10年前就已经非常成熟了,可以分词,做词性标注、提取标题、关键词、实体,以及重要性、情感等各种各样的文本分析。

最近10年,學术界又发展出一整套用于分析图像、分析文本、分析语音内容的工具。给出一张图像,可以分析出场景。这是在学校还是酒吧?里面有没有人或动物?他们高吗?不管这是对文本还是影像,都可以让计算机建立对内容的理解。

第二是理解人。首先需要理解一个人长期的静态属性,这叫用户画像,包括年龄、性别、身高、出生地等。其次是理解这个人的兴趣偏好,比如喜欢什么口味,爱打球还是爱跑步,最近是想旅行还是宅在家里。最后是理解人的意图。一个人使用你的APP,他当时脑子里在想什么?是在想要用苹果手机还是三星手机?是在想自己饿不饿吗?

如果能够很丰富地在这三个层面建立起对一个用户的理解,就能在人和内容之间建立很好的匹配关系。

把AR技术应用在用户拍摄视频的环节,给现实生活的画面加入一些虚拟的元素,这属于增强现实,使虚拟世界和现实世界更好地互动,使人们在记录自己生活的时候有更多的新奇体验。快手之前上线的一款魔法表情叫“快手时光机”,用户可以在几十秒内看到自己变老的过程。一个人拍自己的视频久了会感到乏味,我们希望用户能够看到自己变老以后的样子,从而更加感受到时间的可贵。

在音频方面,我们也做了非常多的工作。比如之前专业人士在创作视频时,编辑字幕是非常痛苦的事情。现在我们通过语音识别技术,可以帮视频制作者自动添加、编辑字幕,还可以以各种各样的形式展示字幕,借助AI技术极大地降低了生成字幕的成本。

音乐在短视频场景里起了非常重要的作用。据统计,快手的视频中,有60%~80%的视频用背景音乐烘托气氛。如何选择恰当的音乐表达心情,其实不容易。让用户尽量贴合音乐的节奏创作动作,对于用户的要求也是非常高的,而具备很强乐感的人其实非常少。

为了降低用户创作视频时选择音乐的门槛,我们开发了智能配乐及AI生成音乐技术。智能配乐可以根据视频画面及用户画像为用户推荐合适的且被用户喜欢的背景音乐,供用户选择。AI生成音乐技术通过AI的分析算法,可以感知视频画面中人的动作,然后让生成的音乐节奏匹配人的动作,这样极大地降低了用户创作视频时选择音乐的门槛,让大家更愿意创作自己的视频。

算法之上的普惠价值观

快手服务于普通人的记录与分享,平等普惠是快手的核心价值观。我们认为每个人都值得被记录,无论是明星还是大V,不管在城市还是乡村,每个人都拥有平等分享和被关注的权利,快手不会特殊对待,不捧明星红人,不进行流量倾斜。

我们保护每一个普通的视频生产者,带来了拍摄内容的多样性,因为拍的人多了,内容自然就越来越丰富了。

我们在观看需求的多样性和拍摄内容的多样性之间做匹配。由于拍摄者拍了很多新鲜的内容被别人看到了,由于观看者看到了很多他平时看不到的内容,所以最终回到了公平普惠最基本的点上。

如今快手上的视频总数超过100亿,几乎都是不重复的生活记录,这在历史上是前所未有的。如何让这100亿个视频与观看视频的用户进行匹配是一个巨大的挑战。

过去,业内常见的做法是运营好长尾曲线中头部的“爆款”视频即可,但快手希望尾部视频同样能被感兴趣的人看到,真正能够让每一个人都得到一些关注。

被看见的世界精彩纷呈

快手让每一个生活都可以自我表达,被看见,被欣赏。每一个存在都是独特的,生活再无高低之分。这是更加真实的世界的镜像,是一花一世界的境界。在这个基础上,因为可以相互看见,所以一些社群形成了。

中国有3000万名开大卡车的司机,他们为生计长年在外奔波,还可能会遇到车匪路霸,与家人聚少离多,他们有自己的快乐与痛苦,很少被关注,也很难与外人沟通。全世界的海洋上漂着无数的常年不能回家的海员。

而在快手,当一位大卡车司机在驾驶室里不经意间拍下自己工作和生活的场景,被另一位大卡车司机看到时,他们看到了自己的快乐、痛苦和压力,彼此找到了共鸣,也更加自信了。这是一个社群的形成过程和它的力量。

也许,对外人而言,很多视频毫无价值,但对拍摄者自己而言,它却是生活中不可剥离的一部分。这种社会功能,部分可以经由艺术家的创作来实现,但艺术家的创作能力毕竟有限,社群让很多人获得新的知识,得到认同,相互支持,提升了幸福感。

当我们把不同的变量输入“被看见”这个公式时,还可以得到不同的答案。

(摘自中信出版集团《被看见的力量》)