ABB25年12月
关注中国自动化产业发展的先行者!
2026中国自动化产业年会
工业智能边缘计算2025年会
2025工业安全大会
OICT公益讲堂
当前位置:首页 >> 资讯 >> 行业资讯

资讯频道

DeepMind推出SIMA 2:具身智能的“全能玩家”与“自主学习者”
  • 点击数:796     发布时间:2025-12-23 17:54:24
  • 分享到:
在AI从「被动理解」到「主动交互」的发展过程中,具身智能始终面临一个核心挑战:如何让模型在3D世界中像人类一样「感知-推理-行动」?Google DeepMind最新发布的SIMA 2,是一款基于Gemini的通用具身智能体,不仅能在多样虚拟世界中逼近人类水平,还能自主学习新技能,为「通用智能的具身化」迈出了关键一步。

在AI从「被动理解」到「主动交互」的发展过程中,具身智能始终面临一个核心挑战:如何让模型在3D世界中像人类一样「感知-推理-行动」?Google DeepMind最新发布的SIMA 2,是一款基于Gemini的通用具身智能体,不仅能在多样虚拟世界中逼近人类水平,还能自主学习新技能,为「通用智能的具身化」迈出了关键一步。

论文链接:https://arxiv.org/pdf/2512.04797

项目主页:https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/

摘要:我们提出SIMA 2,一款能够在各类3D虚拟世界中理解并行动的通用具身智能体。该智能体基于Gemini基础模型构建,是向具身环境中主动、目标导向交互迈出的重要一步。

与仅局限于简单语言指令的先前研究(如SIMA 1)不同,SIMA 2可作为交互式伙伴,能够对高阶目标进行推理、与用户对话,并处理通过语言和图像传递的复杂指令。在多样化的游戏组合中,SIMA 2大幅缩小了与人类表现的差距,展现出对未见过环境的稳健泛化能力,同时保留了基础模型的核心推理能力。

此外,我们还验证了其开放端自改进能力:通过利用Gemini生成任务并提供奖励,SIMA 2能够在全新环境中从零自主学习新技能。本研究验证了一条路径,即打造适用于虚拟世界、并最终可拓展至物理世界的多功能且能持续学习的智能体。

1  具身智能核心挑战

长期以来,基础模型(LLM/VLM)在语言、图像等静态任务中表现惊艳,但在3D环境中却陷入「Moravec悖论」:下围棋、写代码等高阶认知任务易实现,而清理餐桌、导航复杂地形等低阶感知运动技能却难如登天。

核心问题在于「非具身性」:传统模型依赖静态互联网数据训练,缺乏与环境的交互体验,无法理解行动的因果关系。Google DeepMind此前的SIMA 1虽能遵循简单指令,但局限于短指令、无推理能力,泛化性极差。

因此团队提出SIMA 2,以Gemini为核心,将推理、对话、行动深度融合,从「指令执行者」升级为「交互式伙伴」,并且能在未见过的环境中自主进化。

17667424991.png

SIMA 2在多环境中的交互示意图

2  核心设计

SIMA 2的强大性能,源于其从架构到训练的全方位优化:

2.1 基础架构

SIMA 2以Gemini Flash-Lite为核心,融合游戏数据与预训练数据,打破了「感知、语言、行动」的模态壁垒。与SIMA 1不同,它无需单独训练语言编码器,直接继承Gemini的多模态理解、推理和对话能力,实现「输入-思考-输出」的端到端闭环。

2.2 训练环境

· 训练环境:覆盖8款商用游戏(如《无人深空》《英灵神殿》)+3款研究环境,新增《太空工程师》等复杂沙盒游戏,场景包含开放世界、生存建造、太空探索等多元类型。

· 泛化测试环境:专门设置“未训练环境”,包括维京生存游戏ASKA、Minecraft基准MineDojo、故事驱动型游戏《The Gunk》,以及Genie 3生成的 photorealistic 场景(自然/城市环境)。

2.3 训练数据与流程

· 数据类型:

    ☉ 人类数据(主体):通过“单人游戏后标注”和“Setter-Solver双人互动”两种方式,收集包含“图像-动作-语言指令”的多模态轨迹,覆盖低阶动作控制。

    ☉ 桥接数据(关键补充):由Gemini Pro生成,注入“推理-对话”模态,弥补人类数据的模态缺失,教会模型如何将高阶指令转化为分步行动。

· 训练流程:先通过监督微调(SFT)融合双数据源,再通过强化学习(RL)优化可验证任务,确保“高 embodied 性能”与“通用推理能力”不冲突。

17667425171.png

Agent-Environment Interface交互流程图

3  核心能力

3.1 具身对话

SIMA 2能像伙伴一样与用户互动——不仅能确认指令、反馈进度,还能主动探索并回答问题。例如在《无人深空》中,用户询问“蛋形物体的材质”,它会导航至目标、扫描分析,最终回复“这些是含碳植物”。

3.2 基础推理

面对“去像成熟番茄的房子”这类模糊指令,SIMA 2能通过内部推理拆解意图:成熟番茄=红色→ 识别红色房屋→ 规划路线。这种能力让它能处理训练数据中未见过的新颖指令。

3.3 复杂指令执行

· 多步骤指令:能拆解“上二楼→左转进触手房间→拿VR设备”等长指令,分步执行并实时汇报。

· 跨语言/符号:零-shot支持法语、中文等多语言,甚至能解析表情符号(斧头+树=砍树)。

3.4 多模态提示

继承Gemini的多模态能力,SIMA 2能通过草图、截图等指令行动。例如给它一张树的草图,它会自动识别并完成“砍树”动作,无需文字描述。

17667425321.png

具身对话与基础推理示例

17667425461.png

复杂指令与多模态提示示例

4  性能实测

4.1 训练环境

在自动评估(基于环境状态/ OCR )和人类评估(5名独立评分者)中,SIMA 2的平均成功率较SIMA 1翻倍——自动评估从33%提升至65%,人类评估从25%提升至50%,逼近人类限时表现(66%)。

从技能维度看,它在“环境交互”“物体管理”等类别中几乎追平人类,仅在“战斗”“资源收集”等依赖精细操作的任务中仍有提升空间。

17667425501.png

训练环境性能对比图

4.2 未知环境

在完全未训练的ASKA和MineDojo中,SIMA 2的成功率较SIMA 1提升12%-13%:

· ASKA中:从“仅能打开地图”升级为“建造村庄、分配村民任务”;

· MineDojo中:从“仅能挖泥土、打蜘蛛”扩展到26/50个任务类别,涵盖采矿、 crafting 、战斗;

· 更极端的测试中,它能在《The Gunk》中完成15-20分钟剧情任务(使用全新吸附工具清理污染物),在Genie 3的 photorealistic 场景中精准导航至目标。

17667425681.png

未训练环境泛化对比图

17667425851.png

Genie 3 photorealistic 环境导航示例

4.3 关键优势

传统具身模型微调后易出现「灾难性遗忘」,但SIMA 2在编码(LCB)、数学(AIME)、STEM(GPQA Diamond)基准中仅轻微下降(最大降幅25.5%),证明高「embodied 性能」与「通用智能」可兼得。

5  自主学习,持续进化

通过双Gemini协作,SIMA 2可实现无需人类标注新数据,就能在陌生环境中自主提升技能。

5.1 自改进机制

· 任务生成器(Gemini):根据当前环境状态,生成“可实现、有挑战性”的任务(如“靠近雨水收集器”“熄灭篝火”);

· 奖励模型(Gemini):对 agent 行动轨迹评分(0-100分,≥50分为成功),评分维度包括“任务完成度”“行动效率”;

· 迭代优化: agent 用自我生成的“任务-轨迹-评分”数据重新训练,持续提升性能。

17667425901.png

5.2 实测效果

在ASKA环境中,初始SIMA 2仅能完成25%的任务,经过多轮自改进后:

· 所有任务成功率达100%,平均分数超越人类资深玩家;

· 自主解锁新技能:识别雨水收集器、操作陌生 crafting 菜单、熄灭篝火;

· 更惊人的是,在Genie 3的“城市-自然”跨场景测试中,自改进后的SIMA 2能将城市环境学到的导航技能,迁移到自然场景中(如寻找红色蘑菇)。

17667426031.png

自改进 setup 与游戏进度图

17667426171.png

Genie 3跨场景自改进对比

6  意义与局限

6.1 核心意义

· 技术突破:验证了“基础模型+具身训练”的可行性,解决了“推理-行动”融合的核心难题;

· 泛化价值:虚拟环境中习得的技能可迁移至 photorealistic 场景,为 robotics 等物理世界应用铺垫;

· 自改进启示:开创了“ agent + world model ”的开放端学习范式,为通用智能的“终身学习”提供了思路。

6.2 现存局限

· 长周期任务:处理需多步推理+目标验证的复杂任务仍有困难;

· 记忆限制:依赖有限上下文窗口,难以记住长期交互历史;

· 精细操作:键盘鼠标接口的低阶动作精度不足,复杂3D场景的视觉理解仍需优化。

6.3 未来方向

SIMA 2的发布,不仅是「虚拟世界的全能玩家」,更是「通用具身智能的铺路石」。未来,随着Gemini的迭代和物理世界数据的融合,它有望将虚拟环境中习得的技能迁移至机器人,真正「打通虚拟训练与物理应用的边界」。


来源:一点人工一点智能


热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: