等来了OpenSora全面开源

shadowrocket • 2026年1月26日 am1:40 • shadowrocket, shadowrocket下载, shadowrocket网站

开源：Open-Sora，来源：机器之心

不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红，在一众文生视频模型中突出重围，成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后，Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型「Open-Sora 1.0」，涵盖了整个训练流程，包括数据处理、所有训练细节和模型权重，携手全球 AI 热爱者共同推进视频创作的新纪元。

先睹为快，我们先看一段由 Colossal-AI 团队发布的「Open-Sora 1.0」模型生成的都市繁华掠影视频。

Open-Sora 1.0 生成的都市繁华掠影

这仅仅是 Sora 复现技术冰山的一角，关于以上文生视频的模型架构、训练好的模型权重、复现的所有训练细节、数据预处理过程、demo 展示和详细的上手教程， Colossal-AI 团队已经全面免费开源在 GitHub，同时笔者第一时间联系了该团队，了解到他们将不断更新 Open-Sora 的相关解决方案和最新动态，感兴趣的朋友可以持续关注 Open-Sora 的开源社区。

Open-Sora 开源地址：https://github.com/hpcaitech/Open-Sora

全面解读 Sora 复现方案

接下来，我们将深入解读 Sora 复现方案的多个关键维度，包括模型架构设计、训练复现方案、数据预处理、模型生成效果展示以及高效训练优化策略。

模型架构设计

模型采用了目前火热的 Diffusion Transformer (DiT) [1] 架构。作者团队以同样使用 DiT 架构的高质量开源文生图模型 PixArt-α [2] 为基座，在此基础上引入时间注意力层，将其扩展到了视频数据上。具体来说，整个架构包括一个预训练好的 VAE，一个文本编码器，和一个利用空间 - 时间注意力机制的 STDiT (Spatial Temporal Diffusion Transformer) 模型。其中，STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块，用于建模时序关系。在时间注意力模块之后，交叉注意力模块用于对齐文本的语意。与全注意力机制相比，这样的结构大大降低了训练和推理开销。与同样使用空间 - 时间注意力机制的 Latte [3] 模型相比，STDiT 可以更好的利用已经预训练好的图像 DiT 的权重，从而在视频数据上继续训练。

STDiT 结构示意图

整个模型的训练和推理流程如下。据了解，在训练阶段首先采用预训练好的 Variational Autoencoder (VAE) 的编码器将视频数据进行压缩，然后在压缩之后的潜在空间中与文本嵌入 (text embedding)

THE END

shadowrocket shadowrocket下载 shadowrocket网站小火箭小火箭下载小火箭节点科学上网

二维码

WanJuanCC数据集为大型语言模型训练提供高质量Webtext资源

< <上一篇

黄仁勋专访从洗碗工到AI教父

下一篇>>

搜索内容

等来了OpenSora全面开源

取消回复

共有 0 条评论

节点推荐

标签

热门文章

等来了OpenSora全面开源

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

⭐ 好用的翻墙软件下载-小火箭高速节点推荐 ⭐

取消回复

共有 0 条评论

节点推荐

标签

热门文章