0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Sora与世界模型:为何它未能成为全面代表?

新机器视觉 ? 来源:算法进阶 ? 2024-02-29 12:37 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

新年伊始,OpenAI Sora 横空出世,声称是“作为世界模拟视频生成模型”(Video generation models as world simulators),让“世界模型”这一概念再次进入人们的视野。那么什么是世界模型?Sora 到底是不是 world simulator 呢?南京大学人工智能学院教授俞扬近日撰文溯源了世界模型(world model)的概念,认为世界模型的核心作用是反事实推理,而 Sora 更多是视频工具,难以作为反事实推理的工具准确回答 what if 问题。Sora没有准确学到物理规律这一现象或许表明,简单的堆砌数据并不是通向更高级智能技术的道路。

俞扬 | 作者
随着媒体狂炒 Sora,OpenAI的介绍材料中称Sora是 “world simulator”,世界模型这个词又进入视野,但很少有文章来介绍世界模型。这里回顾一下什么是世界模型,以及讨论 Sora 是不是 world simulator。

什么是世界模型

当AI领域中讲到 世界/world、环境/environment 这个词的时候,通常是为了与 智能体/agent 加以区分。研究智能体最多的领域,一个是强化学习,一个是机器人领域。因此可以看到,world models、world modeling 最早也最常出现在机器人领域的论文中。而今天world models这个词影响最大的,可能是Jurgen 2018年放到arxiv的这篇以“world models”命名的文章,该文章最终以 “Recurrent World Models Facilitate Policy Evolution”的title发表在NeurIPS‘18。

62116b24-d6b8-11ee-a297-92fbcf53809c.png

论文题目:Recurrent World Models Facilitate Policy Evolution

论文地址:

https://worldmodels.github.io/

该论文中并没有定义什么是World models,而是类比了认知科学中人脑的mental model,引用了1971年的文献。

62258f96-d6b8-11ee-a297-92fbcf53809c.png

mental model是人脑对周边世界的镜像

Wikipedia 中介绍的 mental model,很明确的指出其可能参与认知、推理、决策过程。并且说到 mental model 主要包含 mental representations 和 mental simulation 两部分。

an internal representation of external reality, hypothesized to play a major role incognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到这里还是说得云雾缭绕,那么论文中的结构图一目了然的说明了什么是一个world model:

623b5c72-d6b8-11ee-a297-92fbcf53809c.png

图中纵向V->z是观测的低维表征,用VAE实现,水平的M->h->M->h是序列的预测下一个时刻的表征,用RNN实现,这两部分加起来就是World Model。

也就是说,World model 主要包含状态表征和转移模型,这也正好对应mental representations 和 mental simulation。

看到上面这张图可能会想,这不是所有的序列预测都是world model了?其实熟悉强化学习的同学能一眼看出来,这张图的结构是错误(不完整)的,而真正的结构是下面这张图,RNN的输入不仅是z,还有动作action,这就不是通常的序列预测了(加一个动作会很不一样吗?是的,加入动作可以让数据分布自由变化,带来巨大的挑战)。

6243bf7a-d6b8-11ee-a297-92fbcf53809c.png

Jurgen的这篇论文属于强化学习领域。那么,强化学习里不是有很多model-based RL吗,其中的model跟world model有什么区别?答案是没有区别,就是同一个东西。Jurgen先说了一段:

625e446c-d6b8-11ee-a297-92fbcf53809c.png

基本意思就是,不管有多少model-based RL工作,我是RNN先驱,RNN来做model是我发明的,我就是要搞。

在Jurgen文章的早期版本中,还说到很多 model-based RL,虽然学了model,但并没有完全在model中训练RL。

62771406-d6b8-11ee-a297-92fbcf53809c.jpg

没有完全在model中训练RL,实际上并不是model-based RL的model有什么区别,而是model-based RL这个方向长久以来的无奈:model不够准确,完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。

编注:强化学习算法可以分为无模型(model-free)强化学习与有模型(model-based)强化学习,后者中的模型也被称为世界模型(World model)。在基于世界模型的强化学习方法中,智能体首先学习一个关于环境的内嵌的模型,在内嵌的模型中学习行为决策,从而提高在真实环境中的表现。

聪明的Sutton在很久以前就意识到model不够准确的问题。在1990年提出Dyna框架的论文 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(发表在第一次从workshop变成conference的ICML上),管这个 model 叫 action model,强调预测action执行的结果。RL一边从真实数据中学习(第3行),一边从model中学习(第5行),以防model不准确造成策略学不好。

627aebe4-d6b8-11ee-a297-92fbcf53809c.png

62960866-d6b8-11ee-a297-92fbcf53809c.png

论文题目:Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming

论文地址:https://dl.acm.org/doi/10.1145/122344.122377

可以看到,world model对于决策十分重要。如果能获得准确的world model,那就可以通过在world model中反复试错,找到现实最优决策

这就是 world model 的核心作用:反事实推理/Counterfactual reasoning, 也就是说,即便对于数据中没有见过的决策,在world model中都能推理出决策的结果。

了解因果推理的同学会很熟悉反事实推理这个词,在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯:

最下层是“关联”,也就是今天大部分预测模型主要在做的事;

中间层是“干预”,强化学习中的探索就是典型的干预;

最上层是“反事实”,通过想象回答 what if 问题。

Judea为反事实推理绘制的示意图,是科学家在大脑中想象,这与Jurgen在论文中用的示意图异曲同工。

上:Jurgen论文中的世界模型示意图。下:Judea书中的因果阶梯。

到这里我们可以总结,AI研究人员对world model的追求,是试图超越数据,进行反事实推理,回答what if问题能力的追求。这是一种人类天然具备,而当前的AI还做得很差的能力。一旦产生突破,AI决策能力会大幅提升,实现全自动驾驶等场景应用。

Sora 是不是 world simulator

simulator这个词更多出现在工程领域,其作用与world model一样,尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组,但意思不变。

Sora生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答what if问题

甚至难以评价Sora的生成能力有多强,因为完全不清楚demo的视频与训练数据的差异有多大。

更让人失望的是,这些demo呈现出Sora并没有准确地学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处。(OpenAI 发布文生视频模型 Sora,AI 能理解运动中的物理世界,这是世界模型吗?意味着什么?https://www.zhihu.com/question/644478663/answer/3398992400)

我猜测OpenAI放出这些demo,应该基于非常充足的训练数据,甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。OpenAI认为Sora证明了一条通往simulators of the physical world的路线,但看起来简单的堆砌数据并不是通向更高级智能技术的道路

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    29939

    浏览量

    214438
  • AI
    AI
    +关注

    关注

    88

    文章

    35760

    浏览量

    282517
  • Sora
    +关注

    关注

    0

    文章

    83

    浏览量

    530

原文标题:Sora为什么不是世界模型?

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程中,GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要挑战之一。
    的头像 发表于 07-23 10:34 ?1234次阅读
    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    视觉检测为何能成为工业质检的主流?

    视觉检测技术因其成熟稳定、检测精度高、速度快、灵敏度高、经济性好、性价比高、通用性强,长期独占鳌头。
    的头像 发表于 07-13 11:37 ?248次阅读
    视觉检测<b class='flag-5'>为何能成为</b>工业质检的主流?

    2.5D封装为何成为AI芯片的“宠儿”?

    2.5D封装领域,英特尔的EMIB和台积电的CoWoS是两大明星技术。众所周知,台积电的CoWoS产能紧缺严重制约了AI芯片的发展,这正是英特尔EMIB技术可以弥补的地方。本文我们将以英特尔EMIB为例,深入解析2.5D封装之所以能成为AI芯片的宠儿的原因。 为何EM
    的头像 发表于 03-27 18:12 ?352次阅读
    2.5D封装<b class='flag-5'>为何</b><b class='flag-5'>成为</b>AI芯片的“宠儿”?

    碳化硅Cascode JFET 为何能成为破局者

    )等半导体材料。虽然硅一直是传统的选择,但碳化硅器件凭借其优异的性能与可靠性而越来越受欢迎。相较于硅,碳化硅具备多项技术优势(图1),这使其在电动汽车、数据中心,以及直流快充、储能系统和光伏逆变器等能源基础设施领域崭露头角,成为众多应用中的新兴首选技术。 ? 图
    的头像 发表于 02-22 13:55 ?692次阅读
    碳化硅Cascode JFET <b class='flag-5'>为何能成为</b>破局者

    华为OceanStor A800支持DeepSeek

    在人工智能技术迅猛发展的当下,大模型的低成本与高性能成为各大科技企业竞相追逐的焦点。
    的头像 发表于 02-18 10:09 ?866次阅读
    华为OceanStor A800支持DeepSeek

    华为、理想、特斯拉、商汤的世界模型是做什么用的

    最近世界模型(World Model)很火,甚至有人说世界模型是终极自动驾驶解决方案,实际上只是端到端大
    的头像 发表于 01-14 09:27 ?1141次阅读
    华为、理想、特斯拉、商汤的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是做什么用的

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    那些拥有数十亿甚至数千亿参数的大规模模型成为了现实可能。Transformer 等机制模型架构的横空出世,彻底改变了模型训练的效率和性能。 我有时在想国外
    发表于 12-24 13:10

    OpenAI暂不推出Sora视频生成模型API

    OpenAI近日宣布,目前暂无推出其视频生成模型Sora的应用程序接口(API)的计划。Sora模型能够基于文本和图像生成视频,引发了广泛关注。然而,由于访问量远超预期,OpenAI此
    的头像 发表于 12-20 14:23 ?601次阅读

    成都汇阳投资关于Sora 正式上线,多模态模型的里程碑

    ? 事?件 ?12月10日,OpenAl正式上线?Sora,并向包括美国在内的多数国家用户开放,用户可在OpenAI官网上体验Sora。同时,Sora?被包含在ChatGPT?Plus
    的头像 发表于 12-16 14:39 ?807次阅读

    OpenAI推出AI视频生成模型Sora

    近日,备受期待的OpenAI再次推出了其创新之作——AI视频生成模型Sora。这一新品的发布,无疑为AI技术注入了新的活力。 据悉,Sora与OpenAI旗下的AI工具DALL-E有着异曲同工之妙
    的头像 发表于 12-12 09:40 ?795次阅读

    OpenAI开放Sora视频生成模型

    OpenAI近日宣布,其倾力打造的人工智能视频生成系统Sora已正式向美国及其他市场的ChatGPT Plus订阅用户开放。自去年首次公开预览以来,Sora历经约10个月的精心研发与优化,现已全面
    的头像 发表于 12-10 11:16 ?811次阅读

    OpenAI世界最贵大模型:昂贵背后的技术突破

    2023年“双十二”的第一天,OpenAI推出了其最强推理模型o1的满血版及其Pro版本。同时,ChatGPT也推出了每月200美元的Pro订阅计划,这一价格使其一跃成为世界最贵的大模型
    的头像 发表于 12-06 14:46 ?1156次阅读

    面对大模型的关键跃迁,华为云为什么能成为医药健康的同行者

    模型
    脑极体
    发布于 :2024年11月27日 09:46:43

    Sora的功能优势及用户评价

    在数字化时代,个人助理软件已经成为我们日常生活中不可或缺的一部分。Sora,作为一款新兴的智能个人助理,以其独特的功能优势和卓越的用户体验,迅速在市场上占据了一席之地。 一、Sora的功能优势
    的头像 发表于 10-31 14:38 ?1429次阅读

    薄膜发电为什么不能成为主流

    薄膜发电作为一种利用薄膜太阳能电池将太阳能直接转换为电能的技术,虽然具有高效、灵活和环保等优势,但在成为主流能源方面仍面临一些挑战。以下是一些主要的原因:
    的头像 发表于 10-03 16:23 ?1175次阅读