Sora:从眼见为实,到梦想成真

2024-04-08 13:13姜奇平
互联网周刊 2024年5期
关键词:算力原理物理

姜奇平

2024年2月15日,OpenAI正式发布的AI视频生成模型Sora吸引了全球大众与媒体的目光。屏幕上,一位时尚女士走过雨后的街头,地面的积水倒映出街头广告的斑斓色彩,并随镜头推近不时变幻。这不是真实的摄像,而是由Sora生成的一段以假乱真的视频。OpenAI自己并不认为Sora只是视频模型,而称之为“世界模拟器”。Sora的问世,改变了世人“眼见为实”的定见,变成把人们心中所想用AI变成虚拟的现象。Sora是技术迈出的一大步和人类迈出的一小步。

Sora是一个由不同时长、分辨率和宽高比的视频及图像训练而成的扩散模型,同时采用了Transformer架构,可以根据用户的文本提示(prompt)创建一分钟的高清视频。该模型可以通过理解仿真物体在物理世界中的存在方式,为模型提供多帧的预测,深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景。

Sora在一些专家和投资界看来,是技术发展的一大步。有专家认为这一数据驱动的物理引擎,堪比视频生成领域的GPT-3。对于Sora即将引领的新技术潮流来说,OpenAI首席执行官山姆·奥特曼认为,人工智能有望在推理能力和可靠性、多模态、可定制化和个性化三个领域大幅提升。

但对于人类对智能的探索来说,Sora仍只是一小步。因为这更像是量变,而非质变。

首先,Sora是算力增强的结果,而非算法的飞跃。按照传媒学原理,同面积的图像与文字相比,信息量要大9倍,因为其中隐含了大量感性的非语言信息。这就是所谓“一幅图胜过千言万语”。如此看来,计算图像要比计算语言需要成倍的算力。反过来说,算力增强,也必然會带来图像计算能力提高。据纽约大学助理教授谢赛宁推算,Sora可能有大约30亿个参数。在现有算法下,算力突破带来图像处理能力提高,有其顺理成章之处。事实上,天气预报云图预测,也需要大量算力,只是不如计算一段时尚女性的视频更吸引眼球。

其次,算法还是已有技术的常规性、累积性的进步。Sora处理视频数据,还是传统物理范式下的还原法,通过分解最小粒子还原图像。OpenAI把视频和图像分解为较小的数据单元Patches(补片),每个patches相当于GPT中的一个token(词元);Sora在让语言“理解”图像上,还是采取标注技术(DALL·E 3),把对图像的理解,简化为对语言的理解,遵循用户的文本指令生成视频。

至于静态图像转化成视频,扩展现有视频或补全缺失的帧,还是在已有技术基础上发展起来的。Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系,可能难以精确描述随着时间推移发生的事件,这些都有待更进一步的技术突破。

当然,即使是这样的一小步,也会对人们的生活产生巨大的影响。诚如有专家所说:“在AI视频构建的世界中,‘眼见为实行不通了,眼睛看到的东西或许无法作为判断依据。”将来人们在网上看到一个声称“真人真事”的夸张影像时,恐怕要先问一句,这不是合成的吧?好处也会有许多,例如,一个人不可能走遍天下,历尽美景,这时只要把YouTube和TikTok上的景区视频都当作语料训练一遍,就可以亲临其境一样置身其中。周鸿祎说:“Sora工作原理像人做梦。”在眼见为实失效后,说不定梦想成真倒会变为现实。

猜你喜欢
算力原理物理
这个第二不一般
卫星通信在算力网络中的应用研究
中国电信董事长柯瑞文:算力成为数字经济的主要生产力
只因是物理
基于SiteAI算力终端的交通态势感知系统
了解咳嗽祛痰原理,有效维护健康
处处留心皆物理
平均场正倒向随机控制系统的最大值原理
三脚插头上的物理知识
化学反应原理全解读