Sora是如何成功的?

郭太侠9个月前 (02-23)AIGC290

本篇报告中我们深入分析了Sora的各项能力、采用的技术路线和创新性的工作。我们认为Sora是将之前的研究工作上进行了很好的综合,并在强大的算力、工程能力以及GPT和DALL·E模型技术积累下诞生的。

随着OpenAI将这种具有开创性的技术路径走通,国内模型和应用厂商有望快速迭代出类Sora的视频生成模型和应用产品。

Sora的突破可以概括为以下几点:

➢ 从生成效果看,突破此前视频生成模型的时长限制,能够生成60s时长、分辨率1080p的视频,可用性极高。

➢ 从技术路线看,依旧遵从LLM范式“大力出奇迹”,通过patches向量化与transformer架构结合,使得训练数据能够使用大小、尺寸、分辨率不同的视频,能够让模型学习到视频的规律乃至世界的规律;使用GPT生成prompt,在训练和推理过程中解决了模态之间的对齐问题,大大提升了生成效果。

➢ 从产业发展看,Sora通用性极强,有望统一视频生成生态;能够进一步赋能与促进下游应用发展,未来有望成为真正的“世界模拟器” 。

来源:中泰证券

本报告内容节选如下:


1.png