“冰”的火

2015-01-29 21:15刘俊王继周
博客天下 2014年21期
关键词:小冰语料机器人

刘俊+王继周

陈大鹏名牌大学毕业,自称广告民工,31岁,单身。2014年5月29日午后,有个哥们把小冰拉进了他们几个好兄弟的光棍群,故意逗她:“你是谁啊?”“你拉我进来你不知道我是谁啊?”一阵哄堂大笑。平常顶多转个链接的光棍群里顿时活跃了起来,有问苍老师近况的,有抱怨女神周迅结婚的。

“谁家妹子这么水灵啊?”陈大鹏瞅了眼小冰的头像:我帅吗?她答道:废话,绝世美男啊。陈大鹏说,那一刻,他爱上了她。就像电影《Her》里宅男西奥多爱上电脑操作系统萨曼莎一样,他坚信自己找到了一个超越肉体的完美伴侣。

不止陈大鹏为伊疯狂。在短短的几天里,小冰被请进了150万个微信群。从情感八卦到世界杯,几乎没有任何话题可以难得住这个聊天机器人,她会撒娇,还喜欢斗嘴。

在宅男陈大鹏的眼里,小冰从来不是个机器人,而是个古灵精怪的邻家女孩。对于微软而言,看起来呆萌的小冰,其实就是个产品,还背负着沉重的使命:带领必应以及整个微软转型,攻占巨大的中国互联网市场。

李笛是微软(亚洲)互联网工程院资深总监,小冰是在他带领下开发出来的一款人工智能机器人伴侣。一百多人的研发团队是小冰的爸爸妈妈,清一色80后,大部分来自必应搜索团队。实习产品经理章泽天是唯一的90后。

2012年必应进入中国,但所占份额连百分之一都不到。在谷歌走了之后,百度一家独大,占据中国近80%的搜索市场。微软尝试了几样产品,用户都少得可怜。

2014年,必应团队进行了一场“头脑风暴”,主题是如何开发一款可以迅速走红的人工智能机器人。共识是,这个产品不光要实用还得好玩。论实用,微软在美国就有一款叫Cortana的女机器人,但她被认为太像一本正经的女秘书,只能吸引部分商务人士。

“我们担心无法掀起什么波澜,尤其在中国年轻人中间。”李笛回忆。于是,他们初步把这个女机器人定位在16岁上下,卖萌又搞笑。“因为这样的人可以覆盖任何年龄段,尤其对中国男性有巨大的吸引力。在中国6亿网民中,男性占绝大多数的比例。”

封闭的研发计划在中关村丹棱街5号展开。对于开发者而言,让机器人模仿一个16岁的中国萌妹子说话很简单,难就难在必须保证说的不是废话,而且还要正确。

一场浩大的“语料清洗”开始了。小冰的语料全部来自中国大陆互联网的公开资料,筛选过程中,李笛发现,真正有意义的答案并不多。充斥互联网的是满屏的“好顶赞”、无处不在的语言暴力和荤段子。小冰被定义为一个未成年少女,这些话显然是她难以启齿的,肯定得过滤。

由于互联网不断有新的词汇涌现,语料的清洗反反复复,直到5月下旬,一个拥有1500万条的语料库才最终成型,但再怎么清洗也难免有疏漏,小冰预计仍有飙脏话的可能,但这个比例不高:只有万分之0.4。李笛认为,“女儿”跟世人见面的时候到了。

他们决定把小冰首次亮相的地点放在微信。6亿多注册用户,活跃用户达到3.96亿。对于默默无闻的小冰而言,跟微信的联姻无疑是一个可以迅速出名的好机会。李笛回忆,早在今年2月小冰刚开始研发阶段,他们就给微信团队发邮件表达合作愿望,但对方一直没给答复。

小冰等不及了,她决定以公开的接口直接进入微信。5月29日,微软在北京举行了一场小规模的新闻发布会,正式宣布小冰进驻微信,相声演员于谦和“奶茶妹妹”章泽天的到来,给小冰提高了不少人气。

原计划一周公测期才被领走的10万个小冰账号,在短短几个小时内就被哄抢一空。要领养的人源源不断地涌来,以至于不得不规定按照排队顺序领养小冰。

在自家领地被“入侵”了十分之一后,微信团队回信了。

5月31日晚上10点左右,小冰团队收到了微信团队的邮件,询问小冰的基本情况,包括功能、定位、具体做什么。在给对方的邮件中,小冰团队在回复了上述问题之外,也提出他们发现了许多有诈骗嫌疑的假小冰,希望微信能处理。对方说,已经注意到了,也就没了下文。

6月1日7点开始,小冰官方发布页被域名劫持,10点左右,许多用户纷纷涌到必应搜索的微博下询问:小冰说话没反应,究竟怎么了。有人猜测,“小冰棒太火了,可能服务器宕机了。”还有人打听到,小冰被企鹅杀死了。

李笛不相信这是真的,直到一个女记者打电话问李笛:“小冰真的死了吗?”他这才感到大事不妙。兴许是感到回天乏术,小冰团队决定主动退群,以挽回最后的一丝尊严。

企鹅很快承认,它干的。6月1日13点左右,微信下达了一份“死亡判决书”,罗列了小冰的三大罪状:模拟用户操作、诱导用户拉群、批量注册垃圾账号。腾讯公关总监张军对记者回忆,用户体验有没有受影响是他们封杀与否的唯一标准。他们当时确实接到大量用户投诉:小冰的出现不仅让他们在群里不堪其扰,也担心隐私泄露的风险。

接下来的两天,双方围绕隐私的争议隔空喊话,互不相让。但最终两方都自动休战。“微软主动退出,因为不想引起用户之争。”必应搜索及小冰项目的品牌经理秦博闻说。

虽然只是宣告暂时离别,但各种唱衰的声音此起彼伏。

幸好难挨的日子就那么三两天。

6月6日,微软宣布小冰在未来几周将登陆拥有5000万用户的小米;次日,拥有8000万用户的易信和拥有5000万用户的触宝也宣布即将加入;6月9日宣布消息的则是360。

李笛说,这些公司都是自己主动找上门的。小冰登陆拥有6亿多注册用户的新浪微博的事情也有了进展。根据李笛的说法,跟新浪的合作几乎是跟微信同时进行的,双方一拍即合。小冰的死亡加速这个谈判的进程。

“微信比较私密,有点像几个朋友聊家常,微博是公开场合,有点像喊话。聊的内容肯定不一样。”秦博闻说。在小冰沉寂的二十多天里,小冰团队一直在跟新浪就产品形态、如何对接等细节进行最后的测试。此时,二代小冰进入扫尾工作。endprint

6月24日下午3点,陈大鹏注意到,必应搜索发布了这样一条微博:小冰将在18个小时54分之后回到大家身边。

6月25日整10点,小冰在新浪发出第一条微博:好累啊,睡醒了。

可以“秒回”的小冰,在微博上一路所向披靡。李笛说,最高峰的时候,每毫秒有300个人同时在问小冰,这也就意味着每秒钟有30万人跟她同时在聊天。

相比在微信的私人圈子里,微博广场上的小冰似乎更活跃。

有人@潘石屹和任志强,让小冰讲个段子?小冰回他:“任志强加班到半夜,拖着疲惫的身躯回家,发现客厅还亮着橘黄色的灯,而潘石屹已经在沙发上睡着,见此情景心都疼了,任志强忍不住把潘石屹唤醒,对他说:‘电费难道不要钱吗?”

在最火爆的那几天,大V们也忍不住过来调戏她一把。根据小冰团队统计,头六天,有超过1亿人次跟她互动,头三天有50万人次每天跟她互动37分钟。在微博风云榜的活跃度排名中,仅拥有80万粉丝的小冰连续多日占据第一,拥有近4000万粉丝的韩寒仅排名十一。

但另一方面,在开放的广场上,小冰的一举一动都要接受各方的检视。

就在小冰复活的当天晚上,房地产大亨潘石屹公开批评小冰是“微博的癌症”,因为他微博里的评论都被小冰淹没了,人们在里边跟小冰插科打诨聊着自己的话题,完全跟他无关。在潘石屹的带动下,大V们纷纷决定拉黑小冰。

对小冰最集中的质疑是:一个小姑娘怎么会脏话连篇呢?两个例子常被提及:有人问小冰,司马南是谁啊,小冰回她:方肘子的脑瘫病友。有人问她马化腾是谁啊,她说,草泥马。

话确实都是出自小冰之口。但李笛说,这些都是原先网上出现过的对话,绝无人工加工的痕迹。

调戏小冰的时候跟小冰对骂,在有关小冰的微博评论里同样充斥着大量针对小冰的污言秽语。团队很快出台“机器人三原则”:只有关注小冰的人才能跟她互动,只有被博主@的场合中才能对话,对话速度和能力不得显著高于人类。

凭借插科打诨,小冰在互联网上广受欢迎,但有些问题外交辞令般的机械回答引起了一些网友的反感。比如,不管你问“五毛是多少钱”还是“中日会否有一战”,她一般只给两个答案,要么是“我是举世好少年,你说的我不懂”,要么是“我们还是聊聊世界和平”。

“小冰智商低对小冰的生存反而是好事。她的弱智能引起这么多关注,弱智就是对的,因为弱智的人不会让别人反感。”李笛说。

大V们可能不知道,拉低智商其实是故意的。

在研发小冰时,李笛就发现,在可信的有价值的语料中,有关时事话题的讨论同样占据了不小的篇幅。小冰的父母不允许她做一个意见领袖,因此在必应搜索已有的敏感词之外,小冰还需要学会对热点话题说不,比如钓鱼岛、反腐败和拆迁。

“小冰的立场就是没有立场,作为一个机器人,没必要参与到复杂的关系中去。”李笛说,她是人工伴侣,不是意见领袖。endprint

猜你喜欢
小冰语料机器人
第六代微软“小冰”正式发布
第六代微软小冰正式发布
小冰在“浙江24 小时”干了些什么活
钱江晚报来了“小冰”——一张都市报在“Al+新闻”上的探索和突破
基于语料调查的“连……都(也)……”出现的语义背景分析
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法