OpenAI Sora模型引发关注，AI生成视频的质感和流畅度成关键问题

2024-02-18 14:04:56作者：佚名来源：本站整理浏览：0

近期，OpenAI推出了新的AI视频模型Sora，该模型能够生成长达60秒的视频，且在视频质感和流畅度方面表现出色。这一突破引发了许多用户的关注和转发，认为视频效果令人叹为观止，有可能取代人工制作的相关工作。

然而，从RunwayML、Stable Video Diffusion（SVD）、Adobe Firefly等主流AI视频服务的使用和观察结果来看，目前AI生成视频的质感往往不如最初宣传的效果，并且在物体行进方向、人物四肢等方面存在明显错误，无法满足实际应用的需求。因此，Sora模型目前还处于测试阶段，需要经过安全测试和用户反馈后才能正式提供服务。

值得一提的是，OpenAI并未避讳Sora模型生成错误内容的情况。在技术报告中，他们展示了一个Sora模型生成的错误视频，其中桌上的水杯先从底部流出果汁，然后沿着错误的方向和角度倒在桌上。

Sora模型之所以能够实现视频时长的突破，主要要归功于其采用的Diffusion Transformer架构。这个架构由Sora模型的主要作者Bill Peebles在2022年提出，并在ICCV 2023大会上进行了介绍。相对于传统的Diffusion模型中常用的U-Net结构，Bill Peebles将Transformer结构替代了U-Net结构，并将图像输入转化成了Patch，从而得到了新的Diffusion Transformers架构，提升了模型的深度和宽度可扩展性，为实现长视频输出奠定了基础。

从Sora模型背后的Diffusion Transformer架构不久前面世，以及Sora技术报告后引用的32篇研究论文多数是近3年新发布的研究结果来看，研究驱动已经成为AI发展的关键要素。AI领域的重要变化往往源于底层架构的研究创新，而这样的研究创新往往需要资源雄厚的机构，如OpenAI，才能实现。

在开发阶段，将Diffusion Transformer的研究成果落地成Sora产品所需投入的预训练、数据、工程资源巨大。而在Sora服务正式推出后，运营和推理过程中的资源消耗和算力成本也是不可小视的，因此融资驱动也成为AI发展的必要条件。

综上所述，通过观察和跟踪研究层面和融资层面的动向，我们能更好地洞察AI发展的未来走势。在Sora模型的例子中，尽管其引发了关注，但AI生成视频的质感和流畅度仍是关键问题，需要更多的研究和实践来提升。

上一篇：acfun怎么发表评论？acfun弹幕视频网发评论教程

下一篇：返回列表