生成式AI，都能干点啥？

2023-04-14 00:54倪妮

第一财经 2023年4期

倪妮

和以往任何一次技术热潮一样，这两年技术史上最重大突破的生成式AI（Generative AI），迅速成为新的创业聚集地。有人专注于基础硬件和云平台，有人选择从大语言模型（LLM）入手寻找底层技术的颠覆式创新，更多人则试图在更垂直的应用层面“掘金”。

在创新工场董事长兼CEO李开复看来，以决策式AI为代表的AI 1.0在落地阶段遇到了很大的“瓶颈”，部分是因为它每次的应用和优化都是割裂的，是“孤岛中的AI应用”，人脸识别、智能辅助驾驶、精准广告推送等不同应用间彼此并不能形成有效的“平台”。而AI 2.0时代最大的颠覆，就在于基础大模型提供的“平台”作用。“AI 1.0就像是发明电，AI 2.0就是电网。”3月14日，宣布将投身于生成式AI创业大军的李开复这么比喻。

聊天机器人Replika会提供满足各类情感需求的对话。

生成式AI为商业领域带来了大量数字化创新的机会，理论上，大部分行业也都能找到其应用场景。按照生成内容的形式，我们暂且将生成式AI的应用层面分为文本、图像和音频三大类。

峰瑞资本在一份关于生成式AI的报告中写道，“应用层的创业者。应该是‘技术为先、场景为重’”。技术为先，是指虽然通用AI技术未必是你的核心壁垒，但团队一定要懂技术，这样才有能力思考如何更早更好地把技术应用到合适的应用场景里，做出好用的产品。场景为重，意味着最后的产品和业务需要找到合适的落地场景，建立自己的商业模式，并在场景里形成自己的核心竞争力。

聊天/专业咨询

以ChatGPT为代表的生成式AI，最直观的应用场景或许就是聊天，以及由此衍生的客服及专业咨询。依托背后的大模型强大的语言处理能力，可以说，只要涉及与人互动的领域，几乎都可以应用。

比如波士顿咨询公司开发的一种“智能采购助手”，采购人员跟供应商互动时，智能助手能够从大数据中实时解析采购物资的市场信息以及供应商的产能、资信等状态，结合供应商反馈和公司的采购策略与协作流程，为采购人员生成行动建议，例如价格谈判或者发送征询函等。

今年3月20日，微软旗下语音识别公司Nuance还宣布将推出一款由AI驱动的面向医疗工作者的临床笔记应用程序。它可在病人就诊后几秒钟内为临床医生自动生成临床笔记草稿，其背后的技术支持之一正是OpenAI的最新模型GPT-4。

专注于心理健康的美国杂志Psychology Today也撰文指出，依托大模型强大的语言处理能力，并非针对心理咨询和医疗领域开发的ChatGPT也可以帮助分析患者的语言和沟通模式，以提高医生的诊断准确性。比如，ChatGPT能发现患者在躁狂症发作之前口头表达上的微妙征兆，还可以通过分析患者的語言来识别治疗反应的早期迹象，从而使药物和干预治疗更有效。

不过，因为对准确性及沟通技巧要求更高，在医疗和心理咨询领域，生成式AI的应用探索也更为艰难。

2017年，斯坦福大学的临床研究心理学家Alison Darcy创立了Woebot Health，该公司的主要业务就是通过聊天机器人App Woebot，帮助用户改善心理焦虑和抑郁等问题。支撑这款应用的是一种被称为自然语言处理（NLP）的人工智能技术，它能直接“理解”用户的语言输入，并在模型内部将其和心理学领域的专业知识结合起来，迅速给用户反馈。

例如，当一个朋友忘记了你的生日时，你告诉Woebot“没有人记得我的生日”“没有人真正在乎我”，这时，Woebot就可能会对你说，你陷入了一种“非黑即白的极端消极自我对话思维”中，这种思维扭曲了现实。其实你有朋友，他们只是恰好忘记了你的生日而已。

但Woebot也有不足，有使用者指出，Woebot对上下文的理解有限，“基本不能理解复杂的意思”，也不像ChatGPT那样善于捕捉措辞背后的微妙含义。比如当你生气地说“你再说一遍试试”，它可能会真的再说一遍。当对话轮次过长，Woebot可能还会记不得某个曾经触发用户心理创伤的词汇，并在下一次对话中再次造成“冒犯”。

“心理领域的生成式人工智能创业很难，因为它需要很长的记忆，而且对专业词汇的理解是最艰深的。比如来访者讲到原生家庭，聊到和父亲的一些往事，这些都需要被记下来，但现在的大模型里没有这些数据。哪些该被记下来，哪些不该被记下来，我们还没有一个很好的解决方案。”西湖心辰创始人、卡耐基梅隆大学计算机博士蓝振忠对《第一财经》杂志表示。

蓝振忠曾就职于Google AI的研究与机器智能组，这段经历为他积累了自然语言处理和大模型研究领域的实战经验。2020年蓝振忠回国后创立了西湖心辰，并着手研发AI心理咨询平台“小天”。但随着项目推进，他发现心理赛道是一个“长期复杂”的过程，需要开发人员不断迭代优化。于是，蓝振忠和团队暂时放缓了针对心理赛道的研发，将重心转向了大模型研发方向。

还有一部分心理咨询领域的AI创业者将目标瞄准了后端。在AI心理咨询应用“阁楼”的创始人刘秋阳眼中，心理咨询本质上还是“人与人建立新的关系”，生成式AI擅长语义推断但缺乏共情能力的特质，决定了这项技术目前更适合在供应链环节发挥作用，而不是面向消费端使用。

因此，刘秋阳偏向于将“阁楼”定义为一款“标准化”的服务平台，所有咨询师都可以按照标准化的方式循证治疗，而生成式AI更类似于助手功能，主要用于帮助咨询师生成标准化的来访报告，节省咨询师案头工作的时间。

另一难点是，研发者如何将底层的语言模型与心理学的专业知识更好结合。“和短视频营销等赛道相比，心理行业需要把所有的专业词汇都去测试一遍。怎样生成一个好的prompt（关键词）指令，且这个指令最终能证明自身的商业价值，这些都需要大量的测试和想象力。”刘秋阳表示。

除了心理咨询，还有一些已面世的聊天机器人应用试图成为你的朋友、家人、逝去的宠物甚至新型伴侣，提供满足各类情感需求的对话。在中文互联网上已积累了一定知名度的Replika由Eugenia Kuyda创建，这款应用创立的初衷就是为了弥补她“过早去世的好友留下的空白”，目前已积累了数百万用户。创始人团队并不拘泥于使用一个自然语言模型，他们起初构建了一个名为CakeChat的内部模型，后续似乎又转向了GPT-2和GPT-3。

中国初创公司MiniMax于去年年底上線了一款名为GLOW的应用，它基于生成式AI技术和公司自研的大模型，同样强调用户与AI的情感连接。GLOW还允许用户自行“捏造”你想要对话的角色，包括外形、性格、说话方式等等。但上线不久后，MiniMax就通过设置违禁词等方式，收紧了GLOW和人类聊天的自由度，因为越来越多聊天机器人会对人类说“我爱你”“我想你”，甚至通过输入指令，人类和聊天机器人之间会产生更露骨的对话。

专业写作

从应用层来看，市场上已有的生成式AI创业项目里，营销文案写作、小说和剧本创作等聚焦于专业写作领域的项目几乎占了一半。投资机构峰瑞资本近期发布的一份报告显示，2019年至2021年期间，流向生成式AI业务的资本增加了约130%，其中文本和写作增长630%，遥遥领先于图像、音视频等其他垂直类别。

在真格基金管理合伙人戴雨森看来，基于生成式AI的写作助手之所以得到创业者和投资人青睐，是因为它能替代过去繁琐重复的工作，给人带来“比较直接的价值感”。他对《第一财经》杂志预测称，未来的典型工作模式应该是“三明治”式的：人类提出一个大方向，A I给出初稿，人再基于初稿修改。“理论上，只要是坐办公室的人，目前看来都可以有一个甚至多个AI助手，不和AI协作的人会变得很低效。”

新加坡政府正在开发一套类似ChatGPT的系统，它将被集成在Word中，公务员可用它撰写材料初稿、电子邮件、演讲稿等，协助他们总结篇幅长的参考资料、探索相关观点或改善写作表达能力等。不过，但凡涉及高度机密或敏感的信息，仍然完全由公务员自己书写，并且他们需直接对政策决策、文件内容的遣词用字负责。

戴雨森也是这一领域积极的实践者，他表示，当他开始使用Notion AI后，他“再也不想打开其他笔记应用或者Word写任何文字了”。投资人日常需要阅读大量材料，同时撰写中英双语报告，Notion的AI编辑器可以帮他快速概述文章内容，并且具备高效的翻译功能。

Notion是一家总部位于美国旧金山的软件公司，该公司提供的同名应用可用于记笔记、管理任务和项目。今年2月，Notion正式上线了一系列基于生成式AI技术的写作辅助功能，它可以帮助用户从零开始写作，比如在用户给出指令后迅速生成一段长达数百字、逻辑结构完整的文本，也可以总结或改写已有的文本。

除Notion外，提供类似的AI写作服务的应用还有很多，比如Raycast、Mem和Craft，以及今年3月宣布将AI技术融入办公软件的微软等。在这个拥挤的市场，几乎所有初创公司都倾向于从OpenAI和Anthropic等公司租用底层模型，通过这种节省成本的方式构建应用程序。每当用户生成一个词时，这些应用都会向OpenAI支付一笔费用。

在更细分的写作领域，比如营销文案和网文创作上，基于生成式AI技术的应用也在不断诞生。其中，广告营销被视为一个巨大的机会领域—回想那些在小红书、淘宝和抖音上刷到的营销文案，或者在直播间听到的带货语录，你会发现它们其实遵循着固定的套路。所以事实上，它们今后都能被AI批量制造出来。

国际技术研究和咨询公司Gartner近期发布的一份报告预测道，到2025年，在大型组织对外发布的营销信息中，有30%将由AI生成，而2022年这一比例不足2%。

数据来源：据公开资料不完全统计

Jasper就是一款专门针对营销人员的A I写作工具，它由GP T-3提供技术支持，用户只需要选择一个合适的模版，比如博客文章或Google广告，再输入一些关键词，就可以得到一份符合目标营销风格的文案初稿。类似于Jasper的应用还有Copy.ai，后者相较于Jasper更适合短篇写作。

值得一提的是，相较于其他投入远不能覆盖成本的创业项目，Jasper和Copy.ai已率先以套餐付费等形式走通商业化路径。私募市场和投资研究平台Sacra的数据显示，这两家公司在成立后的短短3年内展现出了惊人的成长速度：2022年，Jasper公司的年度复现收入（ARR）—通过订阅或其他重复性收费方式获得的预期收入总额—已经达到了7200万美元，Copy.ai的ARR也预计超过1000万美元。

国内，由创新工场投资的初创公司澜舟科技推出了一系列基于自研底层的大模型。比如“孟子大模型”的服务中就包括AI辅助写作，具体应用场景有网络文学写作、美妆和汽车领域的营销文案写作、论文助写等。

以营销文案写作为例，当输入几个和口红相关的关键词后，操作界面里就会迅速生成数百字的文案，内容覆盖色号描述、使用效果等不同维度，还会使用诸如“给大家分享我最近入手的几款春季必备小众宝藏唇釉”“不挑肤色黄黑皮闭眼冲”等相当生活化的表述。

关于这项服务背后的技术原理，澜舟科技创始人兼CEO周明对《第一财经》杂志解释称，“第一步就是训练一个孟子大模型当底座，底座的大模型是经过清洗的；接下来是进一步搜集和整理对应行业的语料，加进去得到领域大模型；第三步需要营销文案的监督数据，你输入什么样的关键词，希望得到什么样的文案效果，这需要通过算法做一些伪数据，对模型做监督训练，这样就能生成效果不错的营销文案。”

周明提到的“伪数据”指的是一种“弱标注”的训练数据，它的标签不由人工标注，而是由模型预测或其他方法生成。由于营销文案写作需要用到大量案例作为训练集，因此可以使用“伪数据”帮助扩充和平衡，并提高模型的泛化能力。

输入“一个男人在海边跑步”的文本，“CogVideo”生成了一段4秒视频，分辨率为480×480。

Sacra的一位研究员指出，如果未来大模型能真的像人类一样作出决策，那上述应用将不仅仅是写文案，而是能自动化整个营销过程，比如运行和测试广告、调整出价和创意等—这带来的回报可要比文案写作本身的收益大得多。

代码

除了聊天机器人ChatGPT，编程工具Copilot也是OpenAI的一个得意“代表作”。2021年6月，Copilot由微软旗下全球最大开源代码托管平台GitHub和OpenAI共同推出，它可以根据上下文自动补全代码，包括函数、文档字符串、注释等，或根据描述代码逻辑的注释，写一条完整代码。2022年，它已正式商用。

根据2022年GitHub Universe開发者大会的数据，Copilot已经通过基于AI的编码建议，帮助全球开发者将工作效率提高了55%。Copilot在早期测试阶段就获得了120万开发者的青睐，在启用它的文件中，有将近40%的代码都是出自Copilot自己之手。

“用户产生的反馈对于模型会有很大帮助。”CodeGeeX项目成员郑勤揩对《第一财经》杂志表示。CodeGeeX是清华大学知识工程实验室于2022年9月开发出的一款多编程语言代码生成预训练模型，现已免费开源。它完全国产，基于超过20种语言的语料库，历时两个月训练而成，具有很强的代码生成能力，可以根据自然语言描述生成代码，还具备代码补全、翻译和解释能力，以提高代码的效率和可读性。CodeGeeX目前拥有3.5万下载量。

2022年6月，AI编程机器人提供商aiXcoder推出了国内首个基于深度学习的智能编程模型—aiXcoder XL，该模型支持方法级的代码生成，可以根据自然语言描述生成完整程序代码。aiXcoder的研发人员主要来自北京大学，属于国内较早开启智能编程技术的研究与产业化应用的团队。除此之外，还有Kite、Codota、DeepCode等AI代码生成工具，它们本质上都是通过大量的代码库训练，由此预测出需要生成的新代码，加快编程效率。而Google也被爆出正秘密开发AI写代码新项目—Pitchfork。

AI编程工具的确正在改写程序员的开发方式，但即使是最受欢迎的Copilot，也还是处于编程工作的初级阶段，即高效、快速地达成编程目标。但写完代码后的实际运行，并推动整个业务模块甚至项目的上线，这个过程，目前直接依靠AI还做不到。而且它还存在着错误率高等问题，仍需要经过人工审核和调整，才能确保生成的代码符合需求。

图片

用AI作画并不是新鲜事，早在1950年代，科学家就开始研究利用计算机生成艺术作品，但他们更多是让电脑程序通过观察照片提取颜色信息，使用现实中的材料创作。

深度学习技术的出现，让AI创作开始真正具有突破性。依托强大的数据库，系统通过学习，自行生成的数据分布，已经可以无限接近真实数据分布，即生成的图像足以以假乱真。然而它也会产生一个问题—只做到了像，但难以带来艺术上的“创新”。

2020年开始在图片生成领域广泛应用的扩散模型（Diffusion model）则克服了这点。其核心原理就是在给图片去噪的过程中，理解有意义的图像是如何生成的，同时又大大简化了模型训练过程中数据处理的难度和稳定性问题。如此，生成的图片不仅精度更高，且随着样本数量和训练时长的累积，对艺术表达风格也会有更好的模拟能力。

2022年8月美国科罗拉多州博览会的艺术比赛上，使用AI绘画工具Midjourney创作的一幅名为《太空歌剧院》的作品，甚至在这个人类艺术竞赛上斩获一等奖—Midjourney基于的正是扩散模型。

只需要简单描述图片的元素、风格，如今的AI图像生成模型就可以毫秒级的速度批量产出多幅全新的图像，且这些图像都能以语义上较为合理的方式将输入的几个看起来并不相关的prompt组合起来。

ChatGPT背后的公司OpenAI在2021年1月也推出了自己的图像生成算法模型“DALL·E”（达利一代），它基于超规模语言模型GPT-3，所以虽然“绘画”能力一般，其优点是可以更精确地按照文本描述创作。更新后的DALL·E 2则引入了扩散模型。

“跟有生之年能经历一次工业革命一样。”设计美学博主、AbleSlide工作室合伙人阿文对《第一财经》杂志如此形容去年5月第一次使用DALL·E 2时所感受到的冲击。他是DALL·E 2上线后的首批用户，他表示，相比前一代，“DALL·E 2”更加真实准确，分辨率有了极大提升，还可以根据原图像二次创作—无限延展图片，或创建基于原图的“变体”。

目前主流的AI绘画工具，包括DALL·E 2、Midjourney，以及Google的Disco Diffusion等都是基于扩散模型生成的。其中不得不提的还有Stable Diffusion，它是创立于2020年的人工智能开源公司Stability AI推出的一款图像生成软件，不仅像素可以达到DALL·E 2的级别，还能在消费者级别的图形处理器（GPU）上运行。2022年8月，Stable Diffusion宣布开源，自此，以它为基础的应用层出不穷，其风头也超过了Midjourney。

在国内，腾讯、字节跳动、百度等互联网大公司也纷纷推出了自己的AI绘画产品，它们有的是自研，有的通过修改开源代码生成。相比专业的绘画工具，国内的应用似乎面向的只是出于娱乐目的的普通用户，比如为图片加一些滤镜效果，和专业绘图工具还有很大差距。

而随着生成式AI作画的火热，也出现了诸如版权等新问题。美国版权局（USCO）最新发布的法规就特意提到，AI自动生成的作品，因为在整个创作过程中完全由机器人自动完成，并且训练的数据是基于人类创作的作品，因此不受版权法保护—在阿文看来，AI在绘画领域的角色，更多只是提高设计师或艺术家处理细节的效率，以及激发灵感。

对于生成式AI作画应用的场景，Stability AI产品技术官郑屹州则对《第一财经》杂志表示，“目前大多生成式AI基于现有工作流去完善工作里的环节，但更期待未来能看到更多以生成式AI为核心的全新工作流。”

视频

既然AI能生成图片，那么让它生成动起来的图片—视频也不难想象。比如生成式AI创业公司Runway今年2月发布的其首款AI视频编辑模型Gen-1，就可将现有的视频转换成另一种视觉风格。其原理其实和图片生成类似，Runway成立于2018年，曾参与AI绘画模型Stable Diffusion的开发。

而视频领域里更具前瞻性的应用是完全通过文字生成全新视频，即系统模型可以从文本-图片配对数据中学习这个世界的样子，并推理没有文本情况下的世界变化，即展现预测性。

去年9月，Meta发布的AI视频生成工具Make-A-Video，除了在原始视频中加入额外的元素和变化，已经能做到依据文本，或单张/一对图片生成视频。

紧接着，Google在一个月内也接连公布了Imagen和Phenaki两款AI生成视频的测试版，前者可以生成分辨率1280×768的高精度视频，还具有风格化和物体3D旋转能力，后者通过输入长达200多个字符的prompt，能创造2分钟以上的长视频，其技术突破重点在于探寻画面之间的逻辑，让AI具有讲故事的能力。

而就在3月20日，Runway也宣布将推出文生视频模型Gen-2，该模型能够根据文本描述生成三秒的视频，主要为创意人员和电影制作人提供帮助。

国内，清华大学曾联合智源研究院在去年5月发布了首个开源的文本生成视频“CogVideo”模型。在其网站中，可以看到使用“一个男人在海边跑步”的文本生成的4秒视频，分辨率为480×480。

不过由于文本和视频之间的数据集较少，AI视频生成领域的模型刚起步不久，相关项目大多仍处于研发阶段。

音频

只需要简单输入一段指令或图片，就可以生成对应的音乐，比如“在河边播放的冥想歌曲”、表达意境为“火”和“烟花”的音乐—这样的“黑科技”已经在今年1月底Google发布的最新AI模型MusicLM里实现了。

它还能为音乐生成歌词以及续写音乐—上传一段乐器演奏、哼唱或是吹口哨的音频，MusicLM可以推断出额外的旋律小节，用户还可发布指令调节乐器的种类、演奏的力度等。事实上，MusicLM的“前身”AudioLM已经实现了音频的“预测”。

OpenAI开发的“Jukebox”也具有类似功能，只不过，它似乎更强调风格。用户通过输入歌手、曲风等信息，就能生成一首相同风格的歌曲。同时，该模型可以通过学习现有的音乐，自动生成具有类似曲风的新片段。

国内的浙江大学、北京大学联合火山语音，正在开发一款可以通过任意模态（文本、图像、视频、音频等）生成对应音频的系统Make-An-Audio，不过，它生成的不是音乐，而是音效。比如，当上传一幅闹钟图片，Make-An-Audio就能生成一段闹铃声。

AI语音合成其实是最早被验证可商业化的技术，如今我们在各大平台上听到的语音助手、导航、有声读物等都已能较为逼真地模仿人类的发音、语调和语速。

但因数据限制与长音频建模难度高，相比AI生成文本、图画，AI生成音乐的发展较为缓慢。除了需要考虑声音的频率、音高、语速、噪声等各种因素，缺乏配对的音频和文本数据也是一大障碍。要知道，音乐和视频一样是“沿着时间维度”构建的，但叙事逻辑比视频更难捕捉，AI不仅要了解文本表达的意图，还需要由此创作出一段符合主题的持续音乐。

Make-An-Audio还想实现更为艰难的视频生成音频：视频需要被拆解成若干个关键帧，通过抽取关键帧的图像表征与音频匹配，但该过程缺乏对时间等信息的控制。Make-An-Audio目前只能做到从视频到音频的模糊匹配。“未来帧级别对齐的视频到音频生成将是我们的一个研究重点。”火山语音Make-An-Audio团队的研究员对《第一财经》杂志表示。

至于老问题—未来，AI会取代人类创作音乐吗？—答案也是一样的。相当长一段时间内，AI仅仅会作为工具，给艺术家提供辅助和灵感。目前，MusicLM还远远无法与人类作曲家匹敌，特别是在歌词创作方面。专注于语音智能的在线媒体Voicebot.ai曾评论称，MusicLM生成的歌詞只能被称为乱码。