Sora是如何成功的？

郭太侠2年前 (2024-02-23)AIGC436

本篇报告中我们深入分析了Sora的各项能力、采用的技术路线和创新性的工作。我们认为Sora是将之前的研究工作上进行了很好的综合，并在强大的算力、工程能力以及GPT和DALL·E模型技术积累下诞生的。

随着OpenAI将这种具有开创性的技术路径走通，国内模型和应用厂商有望快速迭代出类Sora的视频生成模型和应用产品。

Sora的突破可以概括为以下几点：

➢ 从生成效果看，突破此前视频生成模型的时长限制，能够生成60s时长、分辨率1080p的视频，可用性极高。

➢ 从技术路线看，依旧遵从LLM范式“大力出奇迹”，通过patches向量化与transformer架构结合，使得训练数据能够使用大小、尺寸、分辨率不同的视频，能够让模型学习到视频的规律乃至世界的规律；使用GPT生成prompt，在训练和推理过程中解决了模态之间的对齐问题，大大提升了生成效果。

➢ 从产业发展看，Sora通用性极强，有望统一视频生成生态；能够进一步赋能与促进下游应用发展，未来有望成为真正的“世界模拟器” 。

来源：中泰证券

本报告内容节选如下：