视频模型：Sora

🙂

最新信息：3月 25 日Sora：第一印象｜最新艺术家系列作品

🤖

信息源头

1️⃣Sora官网（视频样例在这里） https://openai.com/sora

2️⃣技术报告（详细解释在这里）：https://openai.com/research/video-generation-models-as-world-simulators 中文翻译版：1.6 入门：世界模型Sora

3️⃣OpenAI twitter：https://x.com/OpenAI/status/1758192957386342435?s=20

4️⃣Sam Altman twitter：https://twitter.com/sama

🤖

Sora的两个核心leader：

Tim Brooks（https://twitter.com/_tim_brooks）

Bill Pebbles （https://twitter.com/billpeeb）

两人都是23年从Berkeley毕业的PhD. 这从某种程度上反映了OpenAI是一个什么样的组织，愿意以及能投多巨大的资源给到年轻人来做这件事情.

🤖

卷疯了卷疯了，短短十几小时内，OpenAI和谷歌接连发布核弹级成果。

国内还没睡的人们，经历了过山车般的疯狂一晚。

就在刚刚，OpenAI突然发布首款文生视频模型——Sora。简单来说就是，AI视频要变天了！

它不仅能够根据文字指令创造出既逼真又充满想象力的场景，而且生成长达1分钟的超长视频，还是一镜到底那种。

Runway Gen 2、Pika等AI视频工具，都还在突破几秒内的连贯性，而OpenAI，已经达到了史诗级的纪录。

60秒的一镜到底，视频中的女主角、背景人物，都达到了惊人的一致性，各种镜头随意切换，人物都是保持了神一般的稳定性。

媒体报道

全部科技媒体都起了个大早甚至没睡

🤖

媒体及个人

卡兹克：OpenAI全新发布文生视频模型Sora - 现实，不存在了

https://mp.weixin.qq.com/s/C-wSkjzkNsX0EFaJFTv38w

量子位：效果炸裂！OpenAI首个视频生成模型发布，1分钟流畅高清，网友：整个行业RIP

https://mp.weixin.qq.com/s/K6ZXhH6xHsw0Nfj5TnKCXw

新智元：OpenAI首个AI视频模型炸裂登场，彻底端掉行业饭碗！60秒一镜到底惊人，世界模型真来了？

https://mp.weixin.qq.com/s/93z4Ta91yLv7PB1pnBM9mg

特工宇宙：AI视频生成新贵，这里有关于Sora的一切。

https://mp.weixin.qq.com/s/DjRijzeXepncK8zjG_GHQQ

99 = Jojo 99Ai：OpenAi 一出手叕打趴一个行业，60秒文本生成视频Sora大魔王秒杀Pika Runway Stable Video，哪个行业下个遭殃？

https://youtu.be/1U6dr-Ffl70

观点David的AI全景图 -Sora | 大模型从读万卷书到行万里路

https://mp.weixin.qq.com/s/j12LX7xlqfFeNFLHVHK33A

🤖

原理篇解读和猜测：

这篇讲解的更容易懂：天才程序员周弈帆：OpenAI 视频模型 Sora 科研贡献速览

https://mp.weixin.qq.com/s/Prn1G_EpXvnM4me9a_SPBw

清熙-解读OpenAI Sora文生视频技术原理

https://mp.weixin.qq.com/s/Y-vmxmPu4_-tHaeP35hDJg

量子位-爆火Sora参数规模仅30亿？谢赛宁等大佬技术分析来了（这篇还引用了咱们社区里的聊天记录）

https://mp.weixin.qq.com/s/ZpZJ9XpbH8QYarMbxXM6SQ

📗

观点

希望Sora别走GPT4的老路：https://mp.weixin.qq.com/s/p7fWCQzgGMXdWioqrayuWQ

甚至央视新闻都报道了

📗

Sora 为什么叫世界模型

Sora被称为世界模型的原因主要在于其能够模拟和交互整个物理世界的能力。世界模型（World Models）是一种用于强化学习和模型类强化学习的模型，它的主要目的是设计一个可以更新状态的神经网络模块，用来记忆和建模环境，实现输入当前观测和即将采取的动作，根据模型对世界的记忆和理解，预测下一个可能得观测和动作，并通过采取动作后，下一时刻的实际观测和预测的观测之间的差异，作为loss来自监督的训练模型

这种模型在机器人领域（包括自动驾驶）中非常常见，它们通常由多模态输入、感知、世界模型、未来预测和规划控制等步骤组成

Sora的名称源于日文“空”（そらsora），以示其无限的创造潜力

这表明OpenAI开发Sora的初衷之一就是通过模拟和交互整个物理世界来展现其技术的无限可能性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性，还能与世界互动，如同真实存在。因此，Sora能够模拟一个虚拟的世界模型，这正是其被称为世界模型的原因。

技术文档中英文翻译对照

Sora：可作为世界模拟器的视频生成模型

辅助工具

Garman把SORA 32篇索引文章放到GLMs，有啥不懂可以问它

https://open.bigmodel.cn/shareapp/v1/?share_code=3MdNDUTIrkZVesAR5hPoY

注意技巧：

因为里面有33篇论文，所以prompt要提及是哪个模型，例如sora

主要是有一些技术细节，可以追问，例如什么叫patch，transformer和UNET结构有什么差异，UNET底下的self attention和cross attention为何达不到transformer效果之类

撞车单位

Google Gemini Pro 1.5

Google在发布Gemini Pro 1.5 的2小时后

OpenAI紧接着发布了Sora

Google认为Gemini Pro 1.5是个炸弹，结果OpenAI直接出了王炸

但是千万不要忽略Google Gemini Pro 1.5的威力，绝对也是王炸级别的更新。

Gemini 1.5 Pro能够跨模态进行高度复杂的理解和推理

Stabilityai SVD1.1

其实昨天撞车的不只是Gemini1.5，还有stabilityai，昨天晚上一点多的时候stabilityai发了SVD1.1的推文和博文，我给截到了，然后官方推文和博文直接全删了

Meta V-JEPA

Meta 也不甘示弱放出大招，推出V-JEPA。这是一种通过观看视频教会机器理解和模拟物理世界的方法。V-JEPA可以通过自己观看视频来学习，而不需要人类监督。也不需要对视频数据集进行标记！学习完毕后它可以理解和预测一个全新视频内容，甚至根据一张静止图片来生成一个动态的视频。与填充缺失像素的生成方法相比，V-JEPA的灵活性使其在训练和样本效率上实现了1.5到6倍的提升。Meta称这是人工智能模型迈出的又一重要一步利用对世界的学习理解来计划、推理和完成复杂的任务。

详细：https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/ GitHub：https://github.com/facebookresearch/jepa

如何使用

Sam Altman：today we are starting red-teaming and offering access to a limited number of creators.

目前在内测：看到有老外收到的内测资格邮件，还给了3个分享码

目标在AGI

给创业者的建议

观点

周鸿祎的观点

Sora意味着AGI实现将从10年缩短到1年

周鸿祎

年前我在风马牛演讲上分享了大模型十大趋势预测，没想到年还没过完，就验证了好几个，从 Gemini、英伟达的 Chat With RTX到 OpenAl发布 Sora，大家都觉得很炸裂。朋友问我怎么看 Sora，我谈几个观点，总体来说就是我认为AGI很快会实现，就这几年的事儿了:第一，科技竞争最终比拼的是让人才密度和深厚积累。很多人说 Sora的效果吊打 Pika 和Runway。这很正常，和创业者团队比，OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了 AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。第二，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。今天很多人谈到 Sora 对影视工业的打击，我倒不觉得是这样，因为机器能生产一个好视频，但视频的主题、脚本和分镜头策划、台词的配合，都需要人的创意，至少需要人给提示词。一个视频或者电影是由无数个 60 秒组成的。今天Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败 TikTok，更可能成为 TikTok的创作工具。

第三，我一直说国内大模型发展水平表面看已经接近 GPT-3.5 了，但实际上跟 4.0 比还有一年半的差距。而且我相信 OpenAl 手里应该还藏着一些秘密武器，无论是 GPT-5，还是机器自我学习自动产生内容，包括 AIGC。奥特曼是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的 Al 差距可能还在加大。

第四，大语言模型最牛的是，它不是填空机，而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析 Sora，强调它能输出 60 秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象，最重要的是 Sora 的技术思路完全不一样。因为这之前我们做视频做图用的都是 Diffusion，你可以把视频看成是多个真实图片的组合，它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作，并没有适用物理定律。但 Sora 产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。所以我理解这次 OpenAl利用它的大语言模型优势，把LLM 和 Diffusion 结合起来训练，让 Sora 实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。这也代表未来的方向。有强劲的大模型做底子，基于对人类语言的理解，对人类知识和世界模型的了解，再叠加很多其他的技术，就可以创造各个领域的超级工具，比如生物医学蛋白质和基因研究，包括物理、化学、数学的学科研究上，大模型都会发挥作用。这次 Sora对物理世界的模拟，至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面，而没有工作在认知层面。其实人在驾驶汽车的时候，很多判断是基于对这个世界的理解。比如对方的速度怎么样，能否发生碰撞，碰撞严重性如何，如果没有对世界的理解就很难做出一个真正的无人驾驶

所以这次 Sora 只是小试牛刀，它展现的不仅仅是一个视频制作的能力，它展现的是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。第五，Open Al训练这个模型应该会阅读大量视频。大模型加上 Diffusion 技术需要对这个世界进行进一步了解，学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube 上和 TikTok 的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离AGI真的就不远了，不是10年20年的问题，可能一两年很快就可以实现。

由锤子便签发送 via Smartisan Notes