OpenAI最大“期货”Sora开放使用，面临近20个竞争对手挑战

科技新闻 2024-12-1155网络

当地时间周一，OpenAI宣布正式向用户开放AI视频生成模型Sora，此时距离OpenAI首次公开展示Sora已过去大约10个月。据介绍，Sora将于当天晚些时候向美国及其他市场的ChatGPT付费用户开放Sora Turbo版本，这是一个生成速度更快的版本。

“Sora为模型理解和模拟现实世界提供了一个基础，我们相信这个能力将是实现AGI（通用人工智能）路上的一个重要里程碑。”OpenAI表示。有用户则在社交媒体上表示，Sora的服务器已经太过繁忙，出现无法注册的情况。

此次Sora新增了一些功能，让用户有更多工具来控制视频。不过，此次公开给付费用户使用的Sora Turbo版本生成时长最多20秒，而非Sora首次公开展示时的1分钟。记者了解到，视频时长较短还是视频模型面临的一个难点，其背后与视频延续性能力不足有关。

Sora新增功能

此次Sora展示了一些新功能，包括用户可使用Remix工具可以替换、删除或重新设计视频中的元素。此外，用户还可以找到最佳的帧并在此基础上扩展成一个场景，还可以在时间轴上编辑视频的独特序列、使用Loop工具剪辑并要求Sora生成无缝衔接的重复视频、将两个视频合并为一个无缝衔接的视频、创建独特风格。

这些新功能让Sora在用户手中变得更加可控。据OpenAI展示的案例，用户可以要求视频中的门打开、将图书馆替换成宇宙飞船；将一个飘雪的视频和一个花朵降落的视频合并在一起，就会出现花朵与雪花同时降落、最后变成只有花朵降落的一段视频，过渡自然；将花朵开放闭合的视频重复，花朵将会持续重复开放闭合的动作，将翻滚海浪的视频重复，则会出现一个不断涌动的海浪，这些重复的视频不会出现视频间机械拼接的迹象；将大象和犀牛行走的画面换个风格，则能变成黑白风格，或者变成纸工艺大象和犀牛行走的画面，或者更换他们所处的背景。

OpenAI表示，Sora Turbo还是一个早期版本，它可以通过输入文本、图像和视频转化为视频输出，视频分辨率可达1080p，最长生成时长是20秒。技术上，Sora是一个Diffusion（扩散）模型，被赋予了许多帧的预见能力，OpenAI表示，现在已经解决了一个具有挑战性的问题，即当某个主题暂时消失在画面中时，视频主题依然不变。

Sora与GPT模型类似，也采用了Transformer架构。此外，Sora还使用了DALL·E 3的重现技术，该技术能为视觉训练数据生成高度描述性的词，使模型能更贴合用户的文字指令。OpenAI表示，当Sora基于一个静止图像生成视频时，能精确地将图像内容动画化，并关注里面的小细节，也能获取现有的视频并填充视频中缺失的帧。

“正如我们在2月的技术报告中描述的，Sora从大语言模型中获得灵感，这些模型通过在互联网规模的数据基础上训练来获得能力。大语言模型的成功一定程度上得益于用token（词元）统一了各种数据形式，在Sora中，我们也考虑了视觉生成模型如何继承以上优点，类似于大语言模型预测下一个token，Sora能生成visual patches（视觉补丁）。我们先将视频压缩到一个较低维的空间，将其分解为时空补丁，再将视频转化为补丁。”就技术原理，OpenAI解释。

OpenAI还介绍了Sora训练的数据来源。来源包括公开可用的数据，主要来自机器学习数据集和通过网络爬虫技术收集的数据，此外，OpenAI还与Shutterstock$Pond5等厂商合作以获取非公开数据，并用到了来自AI训练者、红队测试成员和员工的反馈数据。

当地时间周一晚些时候，Sora Turbo版本已开放给付费用户使用。目前已有OpenAI员工在社交媒体上展示了自己创作的视频，例如生成古人骑马打战、古代黑白街景的20秒视频，这些画面看起来有足够的细腻度，也有特写、中景和远景的镜头切换，不过，仍有一些不合理之处。

以古人骑马打战的视频为例，一开始画面还比较合理，人物身着古代服饰并举着剑，马匹奔跑前进，不过，到第11秒时突然有一个人无缘由地从马上摔下，画面上还出现了一个人骑马往另一个方向走。

艺术家Boris Eldagsen也在社交媒体上展示了他此前测试Sora时制作的视频。视频中梳着油头的人物一边跳舞一边用量尺丈量东西，镜头语言丰富，量尺则出现了各种姿态，有时会长在人物的身上，该艺术家该视频有“对商业术语的卡夫卡式解构”。

也有用户在社交平台上分享了他如何使用Sora将两个视频融合在一起的功能。该用户用了一个俯拍城堡的视频和一个人物在林间奔跑的视频，融合后，可以看到镜头下降到一条林间小路上，远处看得到城堡，近处看得到人物在奔跑，过渡真实，不足之处则在于人物的身高一开始与树木几乎齐平，然后迅速下降，有坠落的感觉。

Sora与其他模型差距多大？

推出这些方便用户编辑的工具背后，OpenAI表示，今年2月以来，OpenAI就与来自60多个国家的数百名视觉艺术家、设计师和电影制作人合作，以便获得关于如何改进视频、帮助创意行业专业人士创作的反馈。不过，记者留意到，此前Sora展示的视频出现了对物理规律的违背，例如酒杯摔下并不会碎，而此次Sora更新并未专门谈及在遵循物理规律方面的改进。

时长上看，相比今年2月Sora首次公开展示时的1分钟生成视频时长，此次公开给付费用户使用的Sora Turbo版本可生成的最长时长则是20秒。能使用Sora Turbo的用户是ChatGPT Plus订阅用户和ChatGPT Pro订阅用户，其中ChatGPT Plus订阅用户可以每月生成50个低分辨率视频，单个视频时长最长5秒，只有ChatGPT Pro订阅用户才能无限制生成高分辨率视频，时长最长20秒。而ChatGPT Pro的订阅费颇高，达到每月200美元。

此次Sora Turbo没有开放很长的生成时长，且收费较高，可能是算力成本的因素。一名视频生成业内人士告诉记者，Sora此前公开展示后之所以没有很快开放公众使用，一个可能原因就是推理成本太高，视频生成模型不能跟文本模型一样公开给用户免费使用，同时，视频生成模型训练成本也比文本模型高数倍以上，商业模式还待完全打通。

此外，记者了解到，视频生成模型要生成效果较好、时长较长的视频，技术上也存在卡点。“将视频生成时长做长是一个纯算力和数据问题，当时长增加一倍时，算力呈现平方级上升，所以将时长做太长并不划算。如果不考虑算力原因，视频时长可以做得很长，但视频效果退化会越来越严重，业界主流的模型时长都是五六秒。”另有视频大模型技术人员告诉记者。

Sora今年2月公开展示Sora后，在业界引起了视频大模型热潮。从Sora的竞争产品上看，据12月初腾讯混元团队展示的一张文生视频模型效果评估表，包括腾讯混元视频生成、Luma1.6、GEN-3 alpha和2个国内模型在内，这5个模型的效果总体评分都在24%~42%之间，得分都不算高。Sora与业界已有的其他产品之间，差距有多大？

“我看了一些Sora的视频案例，效果比较好，但貌似与其他视频模型之间的距离也没有大到代际差距。”新浪微博新技术研发负责人张俊林告诉记者，目前视频模型的难点还是长视频的一致性，就是时间长了之后如何让角色和背景表现一致。据不完全统计，目前已发布或已在内测的国内外视频生产产品已有Sora、Gen3、Luma、Pika、即梦、可灵、混元、通义万相、video-1、清影、PixVerse、Vidu等近20个。

从技术路线上看，多名视频模型业内人士都告诉记者，包括Sora在内，业内的视频生成路径基本收敛到Tranformer Diffusion，表现为这两种架构融合的DiT架构或类DiT架构。有业内人士认为，沿着这条路径走下去，要做出效果更好的模型需要比拼资金实力，除此之外，算法本身不算成熟，也有继续创新的空间。

上一篇：小米YU7来了，车身“证件照”亮相！网友：颜值不如SU7？下一篇：没有了

OpenAI最大“期货”Sora开放使用，面临近20个竞争对手挑战

搜索

分类导航

最新文章

热门文章

随机文章

OpenAI最大“期货”Sora开放使用，面临近20个竞争对手挑战

相关阅读

搜索

分类导航

最新文章

热门文章

随机文章