中国公司的追赶之旅

2023-04-14 00:54王姗姗

第一财经 2023年4期

王姗姗

ChatGPT发布4个多月后，中国有了第一个国产的“类ChatGPT”产品。

3月16日，百度创始人、董事长兼CEO李彦宏亲自站到台前，演示了他的团队“赶工”出来的知识增强大语言模型—“文心一言”。产品体验谈不上惊艳—它会的文学创作、商业文案写作、解数学题，ChatGPT都会，而且会得更多。

此前一天，OpenAI正式发布了GPT-4，增加了多模态，会画画，也会写代码，能将一张手绘草图一键变成真正的网页。

不过，公众对于百度这场发布会最失望的部分，是李彦宏发布这个自由对话产品的方式—录播。李彦宏人在现场，但是他所演示的文心一言对问题的回答都是事先录制好的。这么做的目的，像是要确保百度的大模型给出的案例，不会像几周前Google发布聊天机器人Bard时那样翻车。

3月16日，百度创始人、董事长兼CEO李彦宏出席百度大语言模型“文心一言”产品发布会。

这场谨慎的发布会，其实筹备得十分匆忙。最早的消息来自彭博社，其1月30日的报道中第一次透露“中国搜索巨头百度正计划推出一款类似于ChatGPT的人工智能聊天机器人服务”。当时距离OpenAI推出ChatGPT只过去了两个月，Google和Facebook都未承诺何时做出一个同类的产品。

百度文心一言发布会的背后，还存在两种说法。一种说法是，ChatGPT发布之后，政府高层主动询问过百度：这样的技术做不做得出来？“AI有风险，百度知道這一点，政府也知道。”一位百度内部人士对《第一财经》杂志说。

另一种说法则是，百度不会直接发布产品，只会发布一个demo。原因是，所有类ChatGPT产品在发布前都要经过来自省网信办和中央网信办的“双信评审”。提供这则消息的人士告诉《第一财经》杂志，这是ChatGPT发布之后出现的新政策，国内迄今没有一家公司拿到许可，ChatGPT也没有拿到。

百度不是唯一对发布一款自由对话的AI产品持谨慎态度的公司。百度发布会的前两天，腾讯在其北京总部举办了媒体沟通会，邀请来自腾讯AI Lab和云计算的7位技术负责人，为上百家媒体讲解腾讯在AI领域的工作成果。沟通会为“闭门”形式，参会媒体须经腾讯官方确认，才能对外发布沟通会中的信息。同期，阿里巴巴则以“正在开发的人机对话产品是商业机密”为由，婉拒了《第一财经》杂志的采访。

公平一点说，在公众对ChatGPT的狂热认同面前，硅谷大公司的姿态也没好到哪儿去。Google被迫应战发布的Bard表现并不比ChatGPT差，只因为给出的答案里出现了一个事实性错误，就被投资者用抛售股票投了唱衰票。Facebook发布的开源语言大模型LLaMA在市场上也并没有激起多少水花。

“市场很残酷，3月14日Google放出自家大语言模型PaLM的API接口后，我在相关开发者社群搜索了下，结果讨论度是0。”即刻Hack Engine联合发起人夏俊晨对《第一财经》杂志说，他感觉ChatGPT发布之后席卷了整个行业，并成为一种事实标准，开发者对其他与之竞争的模型的态度恨不得是“要求它们开放给开发者的接口的定义、参数都要跟ChatGPT一样”。

一瞬间，全球技术大厂都被一个叫OpenAI的小公司教训了—除了微软，后者运气不错地在2019年就投资了OpenAI。如同当年苹果用iPod教训索尼，再用智能手机改写IBM、微软和诺基亚的命运一样，OpenAI的故事看起来似乎是颠覆式创新的典型范式，但它在中国留下的故事版本和在硅谷书写的并不那么相同：在硅谷，技术巨头们都是参赛者；在中国，大厂们只是追赶者。

与外界在今年年初才感受到来自AI技术变革的冲击不同，夏俊晨最早感受到冲击是在2021年，GitHub推出代码补全工具Copilot的时候。GitHub是全球最大的源代码服务平台，开发者可以在其中讨论问题，也可以使用其提供的工具撰写代码。2018年，微软收购了这家公司，2021年作为代码补全工具的Copilot被推出。

“当时GP T-3出来不久，它（指Copilot）的准确性让我第一次觉得一个工具真的有一点人工智能的味道了。”夏俊晨说，作为产品开发者，他对自然语言类AI没有那么敏感，但Copilot这样的A I助手一面世，他就感受到它的不一样。

人工智能领域的科学家们感受到的冲击则要来得更早—2018年—而且，至今已出现了3次。

第一次冲击是BERT预训练语言模型的出现。

“ 原本在自然语言处理（ NaturalLanguageProcessing， NLP）领域的状况是，大家要为了不同任务设计不同的模型，领域之间是相互割裂的，各有各的算法专家。但是BERT一出来就告诉大家，不管你是什么任务，用BERT一个结构就可以了。你叫它范式变化也不为过。”粤港澳大湾区数字经济研究院认知计算与自然语言研究中心负责人张家兴对《第一财经》杂志说。

在每个以AI能力著称的公司中，处理语言数据的N L P 和处理视觉数据的CV（ComputerVision）是最基本的工程师配备。正是基于他们在底层对语言和视觉数据的处理，运用在公司前台的各种推荐算法才能跑得起来。在BERT出现之前，N L P是个名类繁多的领域，从文本分类到机器翻译，从阅读理解到文章分级，或者垃圾邮件探测，工程师们会为每个“任务”开发专用的AI模型。以AI能力标榜自身的互联网公司们最喜欢宣扬的，就是他们工具库里的模型数量有多少。

BERT扭转了这股旧习气。作为Google在2018年推出的自然语言处理模型，它“以一敌百”，光参数就达到3个亿，比稍早推出的GPT-1还要多。

第一次冲击刚发生没多久，第二次冲击就来了。BERT发布一年半后，2020年5月，OpenAI发布了GPT-3，训练参数一下子从第二代的几百亿跃升至1750亿。

两次冲击后，国内学术界和工业界都出现过仿制潮。BERT发布的时候，张家兴还在蚂蚁金服工作。没过多久他就发现，学界还在NL P领域做研究的人要发表论文时，都会思考要不要跟BERT对比一下效果，但是“比了又大概率比不过”。几乎半年之内，几乎所有做研究的以及在工业界做落地的，都采用了BERT结构。

类似的情形在GPT-3发布后再次出现，但使用者和跟随仿制者都少了很多—只剩大公司还能勉强跟上。

“GPT-3效果比BERT好很多很多。它让大家看到了一个模型可以大到何种程度，而且大家终于认识到把模型做大这件事情很重要，模型大了就会涌现出各种能力。”张家兴说，但“因为模型太大了，很少有人能在本地跑起来”。另一个阻碍了大规模仿制性研究的原因，是GPT-3没有开源。

但阿里巴巴还是想办法仿制了它。根据阿里巴巴一位内部人士的说法，阿里巴巴达摩院2021年4月发布的中文语言模型PLUG的确参照了GP T-3，它有270亿参数，外界也称之为“中文版GP T-3”。同年年初，达摩院还发布了一个叫M6的多模态大模型，参数超过百亿，能处理文与图之间的相互转换，曾于当年的双11在犀牛工厂里为顾客设计衣服，后来也被加载到了小鹏汽车的自动驾驶系统中。

紧接着，华为云同样在2021年4月发布了“盘古”大模型，包括基于Transformer的视觉预训练和中文语言预训练模型，参数据称分别达到了30亿和“千亿级”。同年7月，百度的大模型升级至ERNIE 3.0（文心3.0），第一次达到百亿参数。

暂且不看模型大小（GPT-3这时候的参数规模为1750亿），仅论有无，与Open AI相比，阿里巴巴、华为和百度在“大模型”上的进度大约晚了一年。腾讯还要再晚一年，直到2022年4月，才首次披露其第一个基于Transfor mer的模型“混元”的进展。

不久之后，ChatGPT就出世了。AI科学家们感受到了来自大模型的“第三次冲击”。

“GPT-3很强大，但当时摆在大家面前的问题是，这样的大模型该怎么落地呢？怎么让它有商业价值？这是摆在所有人面前的困难。”张家兴说，GPT-3没有解决这个问题，它的模仿者们没有解决，最后OpenAI自己解决了。

事实上，从BERT到GPT-3（还有GPT-1、GPT-2、InstructGPT等一系列模型）都只是基础模型，它们具备处理语言的能力，但除了被工程师拿去做做测试题，其他什么也做不了。ChatGP T第一次把这些能力变为了“开箱即用”的C端产品：写文章、问答、做摘要、翻译，甚至猜灯谜、写代码等等，在每个任务上OpenAI都对它做了专门训练。

“它（指OpenAI）找到了一种极简的产品形态—对话，这个是最大的创新。”一位要求匿名的达摩院内部人士对《第一财经》杂志称，跟随GPT-3仿制出PLUG后，阿里巴巴也推出了相应的生成式产品，并开放公众测试，但那个产品并非一问一答的对话形态，而是续写，敲出前几个字，它会自动续写一个故事或一篇商业文稿。

2020年，腾讯启动过一个叫文涌（Effidit）的写作助手项目，主要功能也是续写—从各个维度补全创作者写出的句子或文章。“从监管层面讲，国内大厂不会优先考虑做一个C端的、大家可以任意提问的AI。”上述达摩院人士说。产品形态既能决定一款产品是否能引爆大众，也能影响开发者的技术路径。

ChatGPT引爆市场后，几乎所有人都进入了兴奋与焦虑兼备的状态。

3月6日，即刻创始人叶锡东在其社交账号上发帖，宣布启动Hack Engine项目，孵化AI应用创业项目，每个在Demo Day录取的团队将获得30万美元启动资金以及新的孵化器提供的全方面的创业资源帮助。

“现在可能还很难看出哪个才是10亿美元的机会，一个团队现在做的东西也不一定是最终做的那个东西，但可以肯定的是，那个最终跑出来的团队，现在肯定已经进场了。”夏俊晨说。在硅谷，创业孵化器YCombirator上一批投的项目中8个与AIGC相关，最新一季中，这个数字增长到了53个。

今年更早时候，真格基金也在通过官方账号发出了“A I英雄帖”，尋觅与AIGC相关的项目和人才，其中一笔资金投给了美团前联合创始人王慧文。3月19日，创新工场CEO李开复也入局了。他在朋友圈称，正在筹组一个全球化公司Project AI 2.0，不仅要做中文版ChatGPT，也会关注基于大模型的应用。

“如果说GPT-3发现了新大陆，ChatGPT的出现就是在新大陆上发现了黄金。”真格基金管理合伙人戴雨森说。夏俊晨的感知是：开发者非常积极地在尝试各种新的应用场景，大家的想象都被激发出来了，每天都有非常多新的应用上线，你的idea晚上线几天，其他三四个团队已经做出来了。

一些人的机会常常是另一些人的危险。戴雨森多年来是一款在线笔记软件的忠诚用户，但尝试过加载了GPT-3的Notion后，他迅速抛弃了笔记软件。“就像你习惯了有拍照功能的手机之后，很难再去适应一个手机没有摄像头。”他说。

当微软把GP T-4像核武器一样装进全产品线，从云计算到搜索引擎，从Word到PPT，打开每个微软的应用，都有一个内核为GPT-4的AI助手站在那里，时刻等着被召唤。一时间，连苹果都显得不够智能了。

没有哪家公司会觉得自己在这样的技术变革时代是安全的。“大模型作为AI的一个新阶段，肯定会带来很多方面的变革，普通用户未必看得见，但业务决策者看得到。”上述达摩院内部人士说，不论百度还是阿里巴巴，华为还是腾讯，都一定会努力去抓住由ChatGPT掀起的新浪潮。

但如何抓住潮流而不被潮流打翻，路径并没有那么明确。

3月16日的发布会上，李彦宏虽然把百度云计算的机遇放到了第一位，认为基于算力的游戏规则即将失效，基于模型的MaaS（model as a se rvice）能力将登场，但他也认为，“最大的机会既不在基础服务，也不在行业服务，而在应用。就像移动互联网，最大机会不在iOS或安卓，而在微信、头条等”。“杀手级应用终将出现，人工智能会彻底改变今天的每一个行业。”李彦宏说。

一个最容易想象的抓住机会的方式，就是把更强大的AI能力放到所有现有产品中去，就像微软那样。不出意外，百度很快就会在其搜索系统、云计算、小度智能音箱等产品中植入文心一言。阿里巴巴也把正在内测的生成式AI放进了淘宝客服、天猫精灵、钉钉、夸克搜索。3月初，它才刚刚收购了一家文档公司“我来”，看起来准备在微软擅长的Office领域也找些翻身机会。至于腾讯，它说不定会直接在微信对话框里添加一个AI助手。

但在戴雨森看看，这些做法都只是新技术改变现有商业形态的第一个阶段，“第一个阶段都是新瓶装旧酒，用新技术把已有场景再做一遍。到了第二阶段，还会出现专属于这个技术的商业模式。就像互联网出现之初，人们只会使用它发邮件，后来有了信息黄页，当信息变多，搜索引擎就出现了；上网人数变多后，又出现了社交网络；等到信息变得更多，推荐系统就出现了。”

一个可以想象的趋势是，今后受欢迎的应用、系统，其交互界面都将“以自然语言为中心”。1980年代，靠着用图形界面取代代码交互，Windows取代DOS，迅速占领并扩大了计算机市场。ChatGPT在3月24日推出的插件功能已部分显示了这种野心：基于这种功能，用户可以用自然语言指挥ChatGPT，让它帮忙生成一个满足用户需求的插件。相当于用户对GPT这个智能管家说“帮我制造一把形状像衣架的螺丝刀吧”，于是这位管家默默就端出了一把衣架形状的螺丝刀给他。

“不仅交互是自然语言，以后的多模态也可能要以自然语言为中心，比如让机器看到图片后开始用自然语言思考，而不是在多种模态之间做信息的成对映射。”张家兴说，甚至，未来人用自然语言去教会机器做各种事情也不无可能。

GPT-4也证明，当模型有意“注意到”的token数量（你可以理解为字符数）变得更多，模型的确会更智能。而一旦像ChatGPT这样的产品什么都能干，人们就越来越倾向于把它当成唯一入口。

在这种平台级的竞争游戏中，有一件事是明确的，那就是这些经由互联网时代拼杀留下来的大公司，都别无选择地必须训练自己的人工智能大模型，并最好早日推出。不然谁也说不好自己会不会面临Google当下的尴尬。

好消息是，“大模型”这种东西，80分也能用。坏消息是，领先者的迭代速度已经在加快。BERT发布到GPT-3诞生之间的周期是一年半，GPT-3到InstuctGPT（ChatGPT所基于的模型）的时间间隔差不多也是一年半，但GPT-4的发布时间与InstuctGPT之间只间隔了1年，距离ChatGPT的发布更是不到4个月。

根据北京智源人工智能研究院健康计算研究中心技术负责人黄文灏在一场AIGC相关论坛上谈到的硅谷见闻，GPT-4在“去年8月”就训练完了，也就是ChatGPT发布之前。请注意，GPT-4并不是在GPT-3的基础上优化，而是重新搭建框架和算法并重新训练—它是另一套东西。意味着跟随者如果想“弯道超车”，就要同时组建至少2个模型和团队。

而且，从GPT-3开始，OpenAI就不再开源，对于GPT-4，OpenAI更是像保护商业机密一样完全隐藏了其技术框架。这一做法已经距离OpenAI最初创立的初衷—打破AI的技术垄断—越来越远，打破Google对AI的垄断后，OpenAI成了新的垄断者。

“技术细节才是壁垒。”Bilibili一位算法工程师对《第一财经》杂志说。他观察到，相对于国内大公司不得不跟进做大模型，很多中型互联网公司多数处于观望状态。除了资金投入，人才更是稀缺。他听说，中国公司从OpenAI的工程师团队里挖人，给出的薪水已经是其原有薪水的10倍。

根据戴雨森提供的消息，正在AIGC领域创業的王慧文会同时尝试“大模型”和应用生态两个方向，因为“只做一个windows，没有office其实也不行”，但同样的困境是“顶级科学家是缺位的”。

下游的开发者们也已经开始焦虑。3月17日，OpenAI把最新的ChatGPT plus以及API权限申请开放给了印度—依然没有中国市场。这意味着，中国的开发者们即使想要在新大陆淘金，也没有多少上游模型给他们部署应用。“印度那边的应用生态一下子就可以被激活了。节奏和数量肯定不一样了。”夏俊晨说。