在2024年初,OpenAI再次向世界展示了他们的新一款AI模型Sora,这款视频生成模型被认为是通用人工智能(AGI)的又一个重要里程碑。Sora在AI界引起了巨大的轰动,不仅因为它能生成更长、更清晰的视频,更重要的是OpenAI通过Sora展示了它超越以往所有人工智能的能力,能够生成与真实物理世界相关的视频内容。
OpenAI提出了一个全新的概念,即世界模拟器。在OpenAI官方的技术报告中,Sora被定位为“作为世界模拟器的视频生成模型”,并表示扩展视频生成模型是构建物理世界通用模拟器的可行途径。
OpenAI认为,Sora为理解和模拟真实世界的模型打下了基础,这将是实现AGI的重要里程碑。凭借这一点,OpenAI明显超越了视频生成领域的其他公司,如Runway和Pika。
从ChatGPT到DALL·E再到Sora,OpenAI以影像媒介形式寻求打破虚拟与现实边界,成为电影《头号玩家》中的存在。
如果说苹果Vision Pro是“头号玩家”的硬件体现,那么能够自动构建仿真虚拟世界的AI系统才是它的灵魂。
爱丁堡大学的博士生Yao Fu表示:“语言模型近似人脑,视频模型近似物理世界。”多位AI创业者对OpenAI的野心表示赞叹之余也感叹只有OpenAI才能够做到。
OpenAI新发布的Sora模型已经打开了2024年AI视频赛道的大门,并与过去2023年以前的旧世界划上了分界线。在48个演示视频中,Sora解决了过去AI视频的许多问题,如生成画面更清晰、生成效果更逼真、理解能力更准确、逻辑理解能力更顺畅以及生成结果更稳定和一致。
然而,这只是Sora展示出的冰山一角,OpenAI的目标并不仅仅是视频,而是所有存在的影像。“影像”是一个更大的概念,而视频只是其中的一个子集。OpenAI希望以视频为切入点,涵盖一切影像,模拟和理解现实世界,实现他们所强调的“世界模拟器”概念。
Sora的关键在于“找不同”,也就是Sora与Runway、Pika等公司的差异。OpenAI沿用了训练大语言模型的思路,通过大规模的视觉数据训练了一个具备通用能力的生成模型。与过去文生视频领域“专人专用”的逻辑不同,Sora的训练思路类似于Runway的“通用世界模型”,但Sora先于Runway实现了这个梦想。Sora模型的参数约为30亿,虽然与GPT模型相比微不足道,但已经远超Runway、Pika等公司,形成了降维打击。
Sora将扩散模型与大模型的能力完美结合起来。AI视频的生成就像一部电影大片,取决于“剧本”和“特效”两个重要元素。扩散模型负责生成效果的部分,而通过增加大模型Transformer的注意力机制,增加了生成的预测和推理能力。这也解释了为什么Sora能够从现有的静态图像中生成视频,还能够扩展现有视频或填充缺失的画面帧。
视频模型的发展呈现出复合的趋势,模型与技术也在不断融合。OpenAI将之前积累的技术应用于视觉模型中,取得了优势。Sora的训练过程中,OpenAI将DALL·E和GPT的语言理解能力引入其中。据OpenAI表示,通过在DALL·E和GPT的基础上进行训练,Sora能够准确生成高质量的视频。通过这样的组合,产生了模拟能力,也为“世界模拟器”奠定了基础。
OpenAI在技术报告中强调:“我们发现,视频模型在进行大规模训练时,会表现出许多有趣的新兴能力,这些能力使Sora能够模拟物理世界中的人、动物和环境的某些方面。这些特性并没有明确的归纳偏差,纯粹是规模现象的产物。”
Sora模拟物理世界的能力在于创造了一种不存在的事物,这对我们而言已经司空见惯。然而,确切地理解物理世界的运转逻辑,如力的相互作用、摩擦的产生、篮球抛物线的产生等等,以前的模型无法完成。这也是Sora超越视频生成层面的根本意义。
不过,从展示到实际成品之间还有许多挑战。Meta首席科学家杨立昆对Sora提出了质疑,他表示:“仅凭生成逼真的视频,并不能说明系统真正理解了物理世界。生成式模型只需要从可能性空间中找到一个合理的样本即可,而无需理解和模拟真实世界的因果关系。”
Sora的成功进一步验证了“大力出奇迹”的可能性。万兴科技AI创新中心总经理齐镗泉评论道:“Sora依然遵循OpenAI的Scaling Law,靠大力出奇迹,大量数据、大模型和大量算力。Sora底层采用了游戏、无人驾驶和机器人领域验证的世界模型,构建文生视频模型,实现了模拟世界的能力。”
1.影视制作行业。Sora的重大突破之处在于最长生成视频长度达到了1分钟。相对于Pika的3秒和Runway的18秒,Sora的推出将AI视频转化为真正的生产力,降低成本并提高效率。影视制作人陈坤表示,他利用AI视频工具制作科幻电影的成本已经下降了一半。Sora的推出将进一步推动影视制作行业迈向新的阶段。
Sora使陈坤印象深刻的是一个海豚骑车的demo。在这个视频中,上半身是海豚,下半身是人的两条腿,腿上还穿了鞋子。这种诡异的画面既能让观众感到神奇,又符合物理定律,充满了出人意料的魅力。
陈坤认为,Sora将降低内容创作者的门槛,使得更多人能够成为内容创作者。未来,内容创作者可能只需通过说出一段话或一段词语,即可将大脑中独特的想法表达出来,并能被更多人看到。
2.游戏领域也将受到Sora的影响。Sora可以通过基本策略同时控制《我的世界》中的玩家,并高度还原世界及其动态。只需在Sora的提示中提及《我的世界》,就能激发这些功能。
AI游戏创业者陈希认为,Sora的推出展示了OpenAI的野心。未来的游戏只需言之凿凿,画面就能被渲染出来。虽然仍然存在一些问题,比如实时生成画面和多人联机的支持问题,但新的游戏模式已经呼之欲出。至少可以预见,Sora生成一个《完蛋我被美女包围了》这样的游戏已经不再是异想天开。
3.Sora的能力不仅颠覆了视频,还能在更多领域创造新事物。例如,在机器人领域,以往的传导流程为:给机器人发送一个握手的指令,然后传递到手部。然而,由于机器人无法真正理解“握手”一词的含义,只能将指令转化为“手的直径缩小为多少厘米”。如果世界模拟器成为现实,机器人就可以直接理解人类的指令需求,跳过指令转化过程。虽然Sora还存在许多局限性,但它已经建立了虚拟和现实世界之间的联系,使虚拟世界更像头号玩家,机器人更接近于人类。这些都展示出了更大的可能性。
总而言之,OpenAI通过推出Sora模型展示了他们在世界模拟器领域取得的重要突破。Sora不仅在视频领域有了巨大的影响,还在其他领域创造了新的可能性。这是通向实现AGI的关键一步,让我们为OpenAI未来的发展充满期待。
热门新闻
更多+精彩专题
更多+下载排行
幸福家庭1.55冷狐版3.6G完整版
育种村:Breeding Village完结汉化版
召唤之旅冷狐版
新笑傲江湖手游官服新区
泰坦之路国际服手游
和jk们的风花雪月巴比伦汉化版
营地教官季1.4版本
灰烬战线反和谐修改版
loselife小女孩最新修改版 v1.8
最强nba无限点券钻石修改版2022
新游推荐
更多+www.4399j.cc 版权所有
温馨提示:适度游戏娱乐,沉迷游戏伤身,合理安排时间,享受健康生活