大众sora是哪一款-汽车资讯-汽车日报

Sora大片真相：人工特效参与，被指误导大众

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

啊？Sora火爆短片《气球人》，也“造假”了？？？

背后艺术家团队的最新揭秘，可谓一石激起千层浪：

原来，视频画面并非完全由AI生成，其中有大量视觉效果需要人类后期实现。

be like：

这下网友不干了，合着大家伙儿跟OpenAI玩真心，OpenAI背后却耍起心眼子来了：

他们含糊其辞，就是希望观众认为短片完全是AI生成的，这是不是有点不诚实了啊。

这不是人工智能生成的视频，而是使用了一些AI技术的视频。

还有网友直接开喷：误导性营销！这是误导性营销！

究竟是怎么个事儿，咱们还是具体捋一捋。

揭秘Sora大片工作流

尽管OpenAI一开始就介绍了，《气球人》这样的短片出自艺术家团队之手，他们只是把Sora开放给了艺术家使用，但官方并未提及短片具体是如何制作而成的。

现在，《气球人》背后的艺术家团队Shy Kids自己来了个大揭秘，内容包括：

视频片段一致性如何实现他们如何处理Sora生成的视频素材Sora生成视频的局限性及后期处理视频一致性

《气球人》中主角形象的一致性可谓惊艳众人。

但实际上吧，据Shy Kids团队中负责后期制作的老哥Patrick Cederberg（简称老帕）透露，想要实现这种前后一致并不是写写提示词就能成的。

Sora并没有提供工具，来帮助实现不同镜头之间的主体一致性。也就是说，哪怕提示词都是一样的，两次运行的结果也会有所不同。

他们的做法是，尽可能详细地去对主角形象进行描述。

解释角色的服装以及气球的类型是我们解决一致性问题的方法，目前Sora还没有集成适当的功能来实现此类控制。

即便如此，团队在用Sora生成视频素材时还是遇到了不少这样那样的问题。

比如，提示词里明明写了气球是黄色的，但Sora生成的片段里气球却可能变红。

视频素材处理

一致性之外，老帕提到，在时间轴方面，Sora允许用户修改关键帧。但这种时间控制并不精准，无法保证一定能实现预想的效果。

另外，想要实现这个镜头：

即把镜头焦点从牛仔裤一路上移到气球头，也得人类自己后期裁切平移画面，因为Sora本身不会渲染这样的镜头：它总是倾向于把焦点集中在气球头上。

老帕还谈到，他们在写提示词时也遇到了一些问题：

OpenAI在让艺术家试用Sora前，并没有考虑到真正的电影制作人是如何思考的。

简单来说，就是Sora对摄影术语（比如跟拍、平移等）的理解有限。老帕认为，这一点上Sora不如Runway。

值得一提的是，尽管Sora原生支持生成1080p视频，但老帕他们实际上生成的素材都是480p的。他们是在后期使用Topaz等工具对视频素材进行了超分处理。

生成速度方面，根据老帕的回忆，每次大概需要10-20分钟的时间。

视频后期

接下来，就到了网友们反应最强烈的部分——后期。

前面已经说到，Sora本身还解决不了不同视频片段里一致性的问题。

除了气球不一定符合设定，或许是因为训练数据的原因，Sora还喜欢自动给气球加上奇奇怪怪的人脸。

给主角生成其实并不需要的假人头。

Sora还很坚定地认为气球得带根绳。

总而言之言而总之，这些都需要老帕上手丢到AE里，进行后期处理。

另外，尽管Shy Kids发现“35mm胶卷”这样的关键词很好用，能让Sora生成的视频画面风格更一致，但艺术家们仍需要为最后的成片做调色，为画面添加颗粒和闪烁效果，以使整部影片画面更加协调统一。

老帕还提到了一个有意思的细节：

Sora很喜欢慢镜头。

我不知道为什么，但有很多镜头看上去都是0.5倍速和0.75倍速。

因此我们需要对大量画面进行调速，免得影片看上去像个大型慢动作项目。

那么，Sora生成的视频素材有多少最终被用在了影片里？

“数学很差”的老帕估计了一下，大概是300:1。

音频方面，Sora目前还不能生成声音，因此旁白和音乐都是团队自己加上去的。

版权

为了不侵犯版权，OpenAI给Sora上了一些限制。

比如，你不能把提示词写成“35mm胶卷，未来宇宙飞船中，一名男子拿着光剑靠近”，那样Sora会直接拒绝生成，因为这画面太像《星球大战》了。

哦对，像什么“阿罗诺夫斯基式镜头”和“希区柯克变焦”也是不行的。

3人团队2周制作完成

该说不说，在外界卷起风波之前，Shy Kids团队对于Sora的表现还是很满意的。

毕竟，制作《气球人》这样一个高质量短片，最后只用了他们仨1.5到2周的时间。

团队认为，现在，对于专业的电影团队来说，Sora当然还有很大进步空间，但对于大部分人而言，Sora已经足够惊艳。

用老帕自己的话说：

我觉得人们应该将Sora变成工作流里的一部分。

不过，如果他们不想跟AI沾边，也没关系。

对于这样的观点，也有不少网友表示认同，认为Sora这样的视频生成AI，是对现有工作流很好的补充。

Adobe把它们集成进软件里，就是一个很不错的主意。

但，“我厌倦了OpenAI们的精美Demo营销”。

还有网友不满的点在于，爆火的“人工智能生成视频”背后有大量的人类工作，他们投入数百个小时工作，却被AI掩盖了真实的价值。

那么，这事儿你怎么看？

参考链接：
[1
[2

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

Sora爆火，一次典型的OpenAI式胜利

图片来源@视觉中国

文 | 读懂财经

在2022年的春节，OpenAI推出的ChatGPT快速引爆了资本圈与AI圈，至此拉开了AI大航海的序幕。

到了今年，类似的故事也在发生。2月16日凌晨，在没有任何预兆和消息透露的情况下，OpenAI 突然发布了自己的首个文生视频模型：Sora。很显然，这给了整个AI行业一点小小的震撼。

相比市面上现有的AI视频模型，Sora展示出了远超预期的能力：不仅直接将视频生成的时长一次性提升了15倍，在视频内容的稳定性上也有不小的提升。更重要的是，在公布的演示视频里，Sora展示了对物理世界部分规律的理解，这是过去文生视频模型一大痛点。

随着Sora的发布，另一个有趣的事情是，为什么总是OpenAI？要知道，在Sora发布前，探索AI视频模型的公司并不少，包括大众熟知的Runway、Pika，也取得了不错的进展。但OpenAI依然实现了降维打击。

这是一场典型的OpenAI式胜利：聚焦AGI这一终极目标，不拘泥于具体场景，通过Scaling Law，将生成式AI的“魔法”从文本延伸到了视频和现实世界。??????

在这个过程中，AI所创造的虚拟世界与现实世界的边界逐渐模糊，OpenAI距离AGI的目标也将越来越近。

01 降维打击的Sora

在Sora发布前，大众对文生视频方案并不陌生。根据知名投资机构a16z此前的统计，截至2024年底，市场上共有21个公开的AI视频模型，包括大众熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。

那么相比现有的AI视频模型，Sora所展示出来的优势，主要集中在以下几点：

一是视频长度的巨大提升。Sora生成长达1分钟的超长视频，这样内容长度远远高于市面上的所有AI视频模型。

根据a16z统计，现有的AI视频模型制作的视频长度大都在10秒以内，像此前大热的Runway Gen 2、Pika，其制作的视频长度分别只有4秒和3秒。60秒的视频长度，也意味着其基本达到了抖音等短视频平台的内容要求。

二是视频内容的稳定性。对AI视频来说，它们基本上是生成帧，在帧与帧之间创造时间上连贯的动画。但由于它们对三维空间以及物体应如何交互没有内在的理解，导致AI视频往往会出现人物扭曲和变形。

比如说，这样的情况经常会出现：片段的前半部分，一个人在在街道上行走，后半部分却融化在地面上——模型没有“坚硬”表面的概念。由于缺乏场景的三维概念，从不同角度生成相同片段也很困难。

但Sora的独特之处在于，其所制作的60秒视频不仅能够实现一镜到底，视频中的女主角、背景人物，都达到了惊人的一致性，各种镜头随意切换，人物都是保持了极高的稳定性。以下是Sora发布的演示视频：

Prompt: 一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

三是深刻的语言理解能力使Sora能够精准地识别用户的指令，从而在生成的视频中呈现出丰富的表情和生动的情感。这种深层次的理解不仅局限于简单的命令，Sora还理解这些东西在物理世界中的存在方式，甚至能够实现相当多的物理交互。

举个例子，就拿Sora对于毛发纹理物理特性的理解来说，当年皮克斯在制作《怪物公司》主角毛怪时，为能呈现其毛发柔软波动的质感，技术团队为此直接连肝几个月，才开发出仿真230万根毛发飘动的软件程序。而如今Sora在没有人教的情况下，轻而易举地就实现了。

“它学会了关于 3D 几何形状和一致性的知识，”项目的研究科学家Tim Brooks表示。“这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。”

毫无疑问，相比于其他“玩具级”的视频生成AI，Sora在AI视频领域实现了降维打击。

02 把视觉数据统一起来

从技术层面来说，图片生成和视频生成的底层技术框架较为相似，主要包括循环神经网络、生成对抗网络（generative adversarial networks，GAN）、自回归模型（autoregressive transformers）、扩散模型（diffusion models）。

与Runway、Pika等主流AI视频聚焦于扩散模型不同，Sora采取了一个新的架构——Diffusion transformer 模型。正如它的名字一样，这个模型融合了扩散模型与自回归模型的双重特性。Diffusion transformer 架构由加利福尼亚大学伯克利分校的 William Peebles 与纽约大学的 Saining Xie 在 2023 年提出。

在这个新架构中，OpenAI沿用了此前大语言模型的思路，提出了一种用 Patch（视觉补丁）作为视频数据来训练视频模型的方式，是一个低维空间下统一的表达单位，有点像文本形式下的Token。LLM把所有的文本、符号、代码都抽象为Token，Sora把图片、视频都抽象为Patch。

简单来说，OpenAI会把视频和图片切成很多小块，就像是拼图的每一片一样。这些小块就是Patch，每一个补丁就像是电脑学习时用的小卡片，每张卡片上都有一点点信息。

通过这种方式，OpenAI能够把视频压缩到一个低维空间，然后通过扩散模型模拟物理过程中的扩散现象来生成内容数据，从一个充满随机噪声的视频帧，逐渐变成一个清晰、连贯的视频场景。整个过程有点像是把一张模糊的照片变得清晰。

按OpenAI的说法，将视觉数据进行统一表示这种做法的好处有两点：

第一，采样的灵活性。Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频（如下列3个视频）。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容，快速以较低尺寸制作原型内容。

第二，取景与构图效果的改善。根据经验发现，以原始宽高比对视频进行训练可以改善构图和取景。比如，常见的将所有训练视频裁剪为正方形的模型，有时会生成仅部分可见主体的视频。相比之下，Sora 的视频取景有所改善。

为什么OpenAI能够想到将视觉数据进行统一表示的方法？除了技术原因外，也很大程度上得益于OpenAI与Pika、Runway，对AI视频生成模型的认知差异。

03 世界模型，通过AGI的道路

在Sora发布前，AI 视频生成往往被人看作是AI应用率先垂直落地的场景之一，因为这很容易让人想到颠覆短视频、影视/广告行业。

正因为如此，几乎所有的 AI 视频生成公司都陷入了同质化竞争：过多关注更高画质、更高成功率、更低成本，而非更大时长的世界模型。你能看到，Pika、Runway做视频的时长都不超过 4s 范围，虽然可以做到画面足够优秀，但物体动态运动表现不佳。

但OpenAI对AI视频生成的探索更像是沿着另一条路线前进：通过世界模型，打通虚拟世界与现实世界的边界，实现真正AGI。在OpenAI公布的Sora技术报告里，有这样一句话：

“我们相信Sora今天展现出来的能力，证明了视频模型的持续扩展（Scaling）是开发物理和数字世界（包含了生活在其中的物体、动物和人）模拟器的一条有希望的路。”?

世界模型，最早是由Meta 首席科学家杨立昆（Yann LeCun）在2023 年 6 月提出的概念，大致意思是可以理解为是要对真实的物理世界进行建模，让机器像人类一样，对世界有一个全面而准确的认知，尤其是理解当下物理世界存在的诸多自然规律。

换言之，OpenAI更愿意把Sora 视为理解和模拟现实世界的模型基础，视为 AGI 的一个重要里程碑，而不是AI应用落地的场景。这意味着，相比其他玩家，OpenAI永远用比问题更高一维度的视角看待问题。

在实际情况里，这会让解决问题变得更加容易。正如爱因斯坦说过，我们不能用创造问题时的思维来解决问题。从这个角度上说，也能够解释为什么OpenAI总能时不时给行业来点小震撼。

尽管从目前看，AI生成的视频仍然有着各种各样的问题，比如模型难以准确模拟复杂场景的物理，也可能无法理解因果关系的具体实例，但不可否认的是，至少Sora开始理解部分物理世界的规则，让眼见不再为实，基于物理规则所搭建的世界真实性遇到前所未有挑战。

当大模型从过去文本中学习的模式，开始转为向视频和真实世界学习。随着Scaling Law的逻辑在各个领域涌现，或许赛博世界与物理世界的边界将变得更加模糊。

Sora尚未公测，但已经有人用它来“捞金”了

界面新闻记者 | 赵一帆

界面新闻编辑 | 宋佳楠

OpenAI向世界扔出“AI炸弹”Sora仅两天后，已经有嗅觉敏感的掘金者用它来赚钱了。

2月19日，界面新闻注意到，尽管目前Sora并未开启公测，但在微信、知识星球等平台上，出现了不少Sora相关的付费教程以及售卖可供体验的接口产品。

这些课程内容以提示词教程、风格化模板、创作素材库等基础教程和教用户如何用Sora赚钱两类为主，售价从几十元到几百元不等。

AI领域的自媒体博主Max对界面新闻透露称，现在的付费课程不过是把官网的说明文档翻译成中文，最多加入一些个人分享。此外就是根据公开的提示（提供给模型的输入文本），对产品的提示工程方向做一些预测。

另一位行业人士表示，一个售价999元的Sora专属提示词教程，上线时售价为99元即有上百人购买，后续涨到999元，仍有十多人愿意买单。

Sora是OpenAI最新发布的视频生成模型。该模型可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。

目前该公司更新的近50个demo中，Sora不仅能准确呈现细节，还可以根据提示、静止图像填补视频中的缺失帧来生成视频。它的发布几乎完全复刻了ChatGPT面世之初的盛况，被视为AGI（通用人工智能）的又一个里程碑时刻。

在给影视和广告从业者造成诸多危机感的同时，Sora也给那些上线已久的AI课程带来了新流量，商家们纷纷开始研究制作新课程。据上述人士观察，这些商家的课程销量在产品发布前后有明显变化，较Sora发布前一天增长了30%到40%。

也有不少人认为相关教程是在“割韭菜”、收“智商税”。

例如999元的Sora专属提示词教程在海报上写道，课程内容包含Sora提示词库、创作者成长地图、创作者素材库搭建等14项，可以被应用在电影或动画制作、教学视频等诸多场景。但目前OpenAI仅在官网公布了Sora的技术文章和demo视频，产品逻辑尚未知晓。

诸多“掘金”方式甚至迫使OpenAI下场回应。2月17日晚上，OpenAI的开发者关系负责人Logan在X（原推特）上称，“我们尚未推出对Sora的访问。如果您看到谈论或提供访问权限的帖子，它们要么是讽刺，要么是骗局。”

类似的情景一年半前也曾出现过，当时ChatGPT横空出世后，许多人靠分享最新消息、出租账号、社群服务等信息差窗口，挣到了AI的“第一桶金”。预计Sora面向大众开放后，相关付费课程及服务还会越来越多。

据界面新闻了解，大部分购买AI课程的用户并非该领域的从业者，若用户想要借此学习和了解AI产品还需谨慎辨别。

汽车日报

大众sora是哪一款

Sora大片真相：人工特效参与，被指误导大众

Sora爆火，一次典型的OpenAI式胜利

Sora尚未公测，但已经有人用它来“捞金”了

相关文章

热门标签

热门排行

随机推荐

友情链接