谷歌DeepMind重磅发布Genie 3，首次实现世界模型实时交互-电子发烧友网

电子发烧友网综合报道当地时间2025年8月5日，谷歌DeepMind正式推出第三代通用世界模型Genie3。这款被英伟达科学家Jim Fan誉为“游戏引擎2.0”的模型，通过单文本提示即可生成实时交互的720p动态世界，将世界模拟技术推向全新高度。

技术突破：实时交互与超真实模拟

Genie3的核心创新在于首次实现了世界模型的实时交互能力。传统生成模型需完整处理输入后输出结果，而Genie3采用流式处理架构，支持每秒24帧的持续生成，用户可实时导航并修改生成环境。这种突破性设计使模型能即时响应用户输入，在动态世界中保持数分钟的环境一致性。

在物理模拟层面，Genie3展现出惊人的真实感。模型可精准呈现水体流动、光影变化等复杂现象，在佛罗里达飓风场景演示中，系统精确模拟了海浪拍打、棕榈树弯曲等细节，连雨衣的褶皱变化都符合物理规律。这种深度模拟能力源于对海量视频数据的无监督学习，模型通过110亿参数构建起对现实世界的深层理解。

视觉记忆技术是Genie3的另一大亮点。系统采用自回归生成机制，每帧生成时需参考此前所有帧信息。当用户一分钟后重返某地，模型能准确还原之前生成的物体状态，建筑物左侧的树木在整个交互过程中始终保持一致。这种"涌现能力"使生成的世界更具沉浸感，远超依赖3D表示的传统方法。

可提示的世界事件功能为模型注入动态灵魂。用户可通过文本指令改变天气、引入新物体，甚至创造反事实场景。在威尼斯汽船演示中，系统不仅重现了运河的逼真倒影，还能根据指令添加贡多拉船和水上出租车，这种灵活性使Genie3超越单纯的环境生成，成为真正的交互式创作平台。

应用革命：从游戏开发到具身智能

在游戏产业，Genie3正引发创作范式的根本变革。传统3D游戏开发需数月构建场景，而Genie3通过单张图片和文本描述即可生成可交互的虚拟世界。在面包房任务演示中，系统为通用智能体SIMA创建了包含工业搅拌机、冷却架的复杂环境，智能体通过发送导航指令即可完成任务学习。这种能力不仅缩短开发周期，更可能催生《我的世界》级别的开放世界游戏革命。

机器人训练领域迎来突破性进展。DeepMind已将Genie3与Gemini Robotics模型结合，为机械臂和双足机器人创建多样化训练场景。在物流分拣测试中，系统生成的动态环境包含随机障碍物和突发状况，使机器人能在接近真实的风险条件下完成策略学习。这种训练方式相比传统方法效率提升300%，且无需实体设备支持。

自动驾驶模拟同样受益匪浅。Genie3可生成包含极端天气的驾驶场景，系统能根据指令随时引入行人、动物等突发因素。在暴雨场景测试中，模型不仅模拟了路面反光和水花飞溅，还能通过世界事件功能制造轮胎打滑等意外状况，为自动驾驶算法提供前所未有的训练数据。
教育领域的应用前景同样广阔。历史教师可通过文本提示重现古罗马斗兽场，学生能在虚拟场景中自由探索；地理课堂可生成实时演变的火山喷发模型，配合可提示的世界事件功能，让学生直观理解地质变化规律。这种沉浸式学习体验，正重新定义教育技术的可能性边界。

尽管Genie3已实现重大突破，仍存在三大技术瓶颈：智能体行动空间受限，复杂多智能体交互模拟不足，地理精度无法完美复现现实世界。DeepMind研究团队透露，下一代模型将重点突破这些限制，计划通过分层强化学习扩展行动维度，引入社会规范约束提升多智能体交互真实度。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

搜索历史

谷歌DeepMind重磅发布Genie 3，首次实现世界模型实时交互

评论