ABB banner26年4月
关注中国自动化产业发展的先行者!
人工智能+制造融合创新研讨会
2026中国自动化产业年会
2025工业安全大会
OICT公益讲堂
当前位置:首页 >> 资讯 >> 行业资讯

资讯频道

具身智能:核心挑战、关键技术演进与产业前景展望
  • 点击数:2807     发布时间:2026-02-10 15:02:06
  • 分享到:
AI(Artificial Intelligence)正在从数字世界走向物理世界,从离身智能走向具身智能,但当前行业仍面临学术研究井喷与产业落地艰难并存的矛盾。为了弥合技术愿景与产业现状的鸿沟,本文从技术发展和产业发展两个视角,对具身智能面临的挑战、现状和仍存在的问题进行了阐述,并对可能的商业化途径进行了展望。本文首先构建了具身智能的能力分级标准(Level 1-5);继而剖析了空间感知、记忆+长程任务规划、Sim2Real数据壁垒以及软硬件生态碎片化等阻碍落地的核心挑战;最后,基于技术边界提出了“专用场景先行”“智能穿戴增强”及“情感陪伴”等务实的商业化路径,为具身智能从实验室走向物理世界通用助手提供了系统性的演进展望。

1  引言

1.1   背景

具身智能(Embodied AI)代表了人工智能发展的下一代浪潮,它旨在将人工智能系统与物理实体深度融合,使其不仅具备“大脑”的思考能力,更拥有“身体”的执行能力,能够感知、理解并与物理世界进行交互。

与传统的互联网AI(LLM/VLM/Coding agent等)不同,具身智能不再局限于文本或者图像这类数字世界里。同时,它也区别于传统机器人:传统工业机器人虽然有实体,但往往基于预编程,只能完成固定轨迹的动作,缺乏泛化能力。而具身智能的核心在于“智能”,即在非/半结构化环境中具备感知、推理和决策的能力。

目前人们对具身智能的终极发展愿景:成为人类在物理世界的通用助手-从家庭场景中的叠衣、洗碗、烹饪,到工业场景中的柔性制造、物流搬运,乃至商业场景中的迎宾与外卖配送。

1.2   写作动机

近年来,具身智能领域的研究显著增长。然而,现有的综述大多聚焦于纯技术维度的梳理: 一些工作深入探讨了具身智能大模型(Embodied Foundation Models)的架构演进[1,2],还有部分则侧重于分析模型训练所需的数据来源[3]。

尽管这些文献为理解技术前沿提供了宝贵视角,但它们往往忽视了一个维度-技术与产业的结合。当前的具身智能领域正面临“双重现实”: 一方面学术demo和文章层出不穷;另一方面则是当前技术发展与人们的愿景之间的鸿沟、落地困难、商业模式模糊。

为了弥合这一Gap,本文将讨论以下问题:具身智能的能力维度有哪些?技术发展的挑战还有哪些?从实验室走向真实场景的落地难点在何处?未来可行的商业化路径又是什么?

1.3   本文框架总览

本文将围绕具身智能从“技术愿景”走向“产业现实”的路径展开。第2章首先定义具身智能的核心能力维度与智能化分级标准;第3章是本文的核心,深度剖析模型、数据、本体、生态四大维度的核心挑战,揭示阻碍落地的原因;第4章基于上述分析,展望从现状到愿景的商业化落地路径;最后在第5章进行总结。

2  具身智能核心能力

2.1   具身智能整体架构设想

从当前各大厂商发布的具身智能工作(Google: RT-2[4]、Gemini Robotics[5]、OpenVLA[6], Physical Intelligence: Pi0[7]、Pi0.5[8], Nvidia: Gr00t N1[9]、 Gr00t N1.5[10]),以及智驾的发展趋势来看,端到端的模型受到大家的青睐。端到端模型:(1)带来技术范式突破:端到端数据驱动,将基础模型的成功范式扩展到物理世界,消除了模块化设计带来的误差累积问题;大规模预训练带来涌现能力,让单一模型可以泛化到未见过的任务和环境;(2)技术门槛降低:传统机器人需要针对每个具体场景进行复杂的模块化设计和工程化开发,而端到端学习和泛化能力大幅降低了部署门槛;(3)用户体验革命:提供了全新的人机交互方式。

但端到端模型不代表能力单一,Pi0.5、Gemini- robotics 等都专门训练了具备感知、规划能力的主干模型,能够支持action decoder输出动作的同时,也能够输出感知和规划的结果。这样既保留了端到端模型的优势,又增加了可解释性和可控性,实现了能力的模块化和复用。

我们根据当前具身智能体需要的主要能力:记忆、交互、感知、规划、推理、执行,得到了如图1所示的架构示意图。

图片.png

图1 架构示意图

2.2   具身智能能力分级以及当前所在阶段

参考自动驾驶的分级标准,我们将具身智能的能力划分为五个等级:

Level 1(预编程/遥控):无环境感知能力,仅能重复执行固定轨迹(如传统汽车产线机械臂)或完全依赖人类遥控。

Level 2(单一任务自动化) :具备基础感知和避障能力,能在结构化环境中执行单一特定任务(如扫地机器人、AGV)。

Level 3(多任务/条件泛化):能理解自然语言指令,执行多种任务(如“拿苹果”“倒水”),但在未见过的环境(Zero-shot)中成功率不稳定,需要人类偶尔接管。

Level 4(通用自主) :具备长程规划能力,能适应非结构化环境,具备物理常识和自主纠错能力(Re- planning),仅在极端情况下需要干预。

Level 5(完全具身智能) :具备人类水平的感知精度、灵巧操作能力和情感交互能力,完全自主。

当前阶段:行业整体处于Level 2向Level 3跨越的阶段。学术界的SOTA(State of the Art)Demo已触达Level 3的边界,但产业界的量产产品仍主要集中在Level 2,正在努力攻克Level 3的稳定性难题。

3  具身智能核心挑战、现状、发展趋势,以及仍存在的问题

3.1   具身智能体系统能力

3.1.1  空间感知

(1)现状

学术界:多数基于2D(例如op en v l a [ 6 ] 、 RDT[11]、Univla[12]等),但已经有拓展到3D的趋势,例如SpatialVLA[13]等通过深度估计+3D positional embedding的方式提取图像中的3D信息来补充vla现在缺少空间信息的问题。但是一方面深度估计未必准确,另一方面不能够端到端优化整个网络。目前CVPR 2025的best paper提出了3D基础模型VGGT[14] ,这为未来3D基础模型的发展以及具身智能的空间能力提升带来了新的可能,即通过多视角图像提取隐式的3D信息。 Evo-0[15]等工作就已经采用了这种方式把空间信息融入到VLA(Vision-language-model,视觉语言动作)模型中。

产业界: 多基于2D, 如Gemini Robotics、 Physical Intelligence都是以多视角图像作为输入的,目前缺少大厂投入空间基础模型。在智驾领域, Tesla以及各个智驾大厂,几乎都采用了BEV以及Occupancy Network将3D信息进行投影。李飞飞的工作Voxposer[16]也采用了Occupancy的方式来表达桌面级别的空间语义。然而空间越大,栅格体积越小越密集,这种方式的计算量就越大。而且具身智能很多时候需要操作或者寻找一些小的物体,这种方式就有可能不适用了。

(2)趋势:根据以上的发展趋势,我们预测未来的主流趋势是基于多视角图像+3D基础模型提取带有空间信息的隐式表征,在高精度、高安全性需求的场景中,lidar等传感器数据为补充。

(3)Gap:虽然VGGT为空间感知带来了一条好的路线,但是目前仍然缺少更好的空间基础模型;缺少在具身智能数据上训练的空间感知backbone(例如能输出3D bbox、能做方位的VQA等);缺少空间预测能力:预测未来的空间状态;大空间,例如多居室、万平米园区等该如何表征仍需探索。

3.1.2  记忆+复杂任务规划与长程推理

(1)现状

学术界:在端到端具身智能模型VLA出现之前,有一些工作尝试用训练好的大模型拆解任务步骤,例如saycan[17]、Inner Monologue[18]、code as policies[19]等。虽然近年来端到端模型表现出了出色的泛化能力,然而传统的端到端模型目前仍不能很好地完成长程推理任务,例如Pi0,在任务步骤变多时,任务的成功率会下降。因此有一些工作通过在模型backbone部分引入长序任务拆解VQA的训练来提升端到端模型的长序任务规划能力,例如Nav-R1[20]和dexgraspvla[21]。

另外,有些长序任务需要机器人具备记忆能力,以维护历史状态和当前进度。例如在烹饪任务中,向汤中加盐后,视觉状态几乎没有变化。如果没有记忆模块记录“已加盐”这一历史动作,机器人仅凭当前的视觉观测可能会错误地重复加盐,导致任务失败。 MemoryVLA等[22]工作尝试为VLA加上以及模块,尝试完成更复杂的任务。

产业界:Google和Physical Intelligence都单独训练了长序规划模型,以提升VLA完成长序任务的能力,即Gemini-Robotics-ER[5]和Pi0.5[8]。目前头部公司并未有具身智能体记忆相关的工作。但在LLM领域已经有头部公司投入了,例如DeepSeek也加入了记忆模块–DeepSeek Engram[23],Sam altman也宣称记忆模块是通往AGI的重要拼图[24]。

(2)趋势:①端到端模型能力层级化:未来的具身智能模型将在保持端到端可训练性的同时,实现能力的分层。即模型不仅能输出底层的控制动作,还能在同一网络内内生出长程规划和空间感知的能力;②时空记忆:模型将普遍集成记忆模块,具备维护持久化世界状态的能力,能够同时处理空间拓扑记忆(如环境地图)与时序历史记忆(如操作历史),以支持更复杂的交互任务。

(3)Gap

①推理延迟:与纯软件Agent不同,具身智能体面临严格的控制频率约束(如20Hz+),而引入复杂的任务拆解与思维链(CoT)推理会显著增加计算耗时。如何在高频的闭环控制中高效嵌入低频的深层推理,解决推理效率与响应速度的矛盾,是亟待解决的系统级难题。

②超长记忆:现有的记忆机制难以直接应对跨天、跨场景的任务。如何对海量的物理世界历史交互数据进行有效的语义压缩、存储与精准检索,以维持长周期的任务连续性,仍是巨大的挑战。

3.1.3  物理理解

(1)现状

目前使具身智能模型更加理解物理世界的方式有两种:一种是引入力等模态作为物理约束;一种是使用世界模型(world model),通过预测物理世界的未来状态,迫使模型理解物理世界的变化规律。

学术界:学术界多数工作还是基于纯视觉的。近期有一些工作使用第一种方式,加了力作为约束,例如DexGrasp Anything[25]、ForceVLA[26]。也有另一些工作使用第二种方式,如NWM-navigation world model[27] ,使用世界模型根据动作预测未来世界状态。在智驾领域和具身智能领域,也有工作做未来occupancy预测,例如OccWorld[28]、 RoboOccWorld[29]。

产业界:产业界的操作领域还没见过有相关的工作,智驾领域已经有公司引入或看好world model,例如蔚来[30]、小鹏[31]、华为[32]等。

(2)趋势

①多模态物理感知融合:未来的模型将不再局限于视觉,而是向“视-触-力”融合的方向发展。通过引入触觉和力数据,模型将具备细粒度的物理交互感知能力(如摩擦力、刚度、重量感知),从而实现更精准的接触式操作。

②基于物理规律的世界模型:世界模型将从单纯的“视频生成”向“物理仿真”进化。未来的世界模型不仅能生成逼真的视觉图像,还能内嵌物理引擎的逻辑,准确预测物体在受力后的运动轨迹、形变以及碰撞反应,真正充当机器人的“大脑模拟器”,支持在潜在空间中进行低成本的试错与规划。

(3)Gap

①触觉与力觉数据的表征:问题:相比于成熟的视觉(RGB)表征,触觉和力觉数据具有高频、稀疏、非结构化的特点。目前缺乏统一且高效的触觉/力觉基础模型,难以像处理图像那样通用地提取物理特征。此外,高质量的触觉-视觉对齐数据集极度匮乏,限制了多模态物理模型的训练。

②世界模型的“物理幻觉”:问题:现有的生成式世界模型(如Sora类架构)虽然视觉效果逼真,但常出现违背物理常识的错误(如物体凭空消失、穿模、液体流动不自然)。纯数据驱动的视频生成模型难以内生严格的物理守恒定律。如何将显式的物理约束或仿真器逻辑有效地注入到神经网络中,使生成结果严格遵循物理规律,仍是未解之谜。

3.1.4  推理延迟

(1)现状:当前3B左右的端到端具身智能大模型推理的时间约50ms (即20Hz),甚至更慢,如果未来模型参数量>7B,那么推理时间可能会更慢。行业有不同的方法加速动作生成的频率和顺滑度。例如①Figure helix做了快慢双系统VLA:大模型负责低频高层规划(Slow),小模型负责高频动作执行(Fast) ;②PI做了real time chunking:让机器人执行当前动作时,后台同步算好下一串动作,已经确定要做的动作不变,没执行的部分顺着之前的动作“补全”衔接上,不用重新训练模型,就能解决机器人反应慢、动作卡顿抖动的问题;③Gen-0也做了谐波推理加速。

(2)趋势

①高效能架构变革(Mamba/SSM):为了解决Transformer随序列长度增加而呈二次方增长的计算复杂度,Mamba等线性复杂度的状态空间模型(SSM)架构将逐渐取代或辅助Transformer,成为具身智能模型的新骨干,从而在保持长序列记忆的同时显著降低推理延迟。

②端侧优化:随着模型参数量向7B+迈进,针对机器人端侧芯片(如 Orin、Thor)的INT8/INT4量化、 KV-Cache压缩以及投机采样等工程化优化技术将成为标配,以在有限算力下实现大模型的实时运行。

(3)Gap

①算力与功耗:机器人本体的电池续航与散热限制了板载算力的上限,难以支撑未来百亿参数级模型的实时推理。

② 新 架 构 的 鲁 棒 性 验 证 : M a m b a 等 非Transformer架构在纯文本领域表现优异,但在多模态具身控制任务中的泛化性、稳定性及Scaling能力仍需大规模数据验证。

3.2   模型参数量

当前的开源模型多以1B(RDT [ 11 ] )、3B (Pi0[7])、7B(OpenVLA[6]、Navid[33])为主。目前Gen-0[34]初步验证了参数量>7B的模型才能吃下更多的数据,产生智能涌现。且当模型参数量>7B时,scaling law初步被验证:预训练数据量越大,后训练(SFT、 RL) 效果越好。所以未来的模型参数量也可能会出现变大的趋势。但目前仍没有头部公司大规模投入具身智能模型的scaling up。这跟具身智能对实时性的要求高、大模型验证成本高,以及数据获取困难有关。

3.3   数据获取

目前学术界普遍认为物理世界数据量的不足(目前为LLM文本数据量的100,000分之一[35]),是具身智能能力进化的主要挑战之一。且近期Gen-0[34]对scaling law的验证,也进一步加剧了具身智能对数据量的需求。

3.3.1  现状

学术界:学术界目前使用的数据多以开源实采数据和仿真数据为主。开源真实数据集如Google的Open X-Embodiment[36]数据集、智元的Agibot World[37],还有Droid[38] 等。仿真数据集有MimicGen[39] 、 Libero[40]、Robocasa[41]、RoboTwin[42],还有近期发布的最大仿真数据集InternData-A1[43]。

产业界:产业界目前使用的训练数据多为实采数据。例如Google的RT系列、Gemini Robotics、 Physical Intelligence,以及Generalist的Gen0;仿真如Nvidia Gr00t[44]。

3.3.2  数据源特性分析

(1)真实采集数据

优势:具备天然的物理与视觉保真度,不存在环境空间、视觉渲染或物理动力学方面的差异。且随着低成本手持设备和智能穿戴技术的发展(如Sunday memo[45]、human-to-robot[46]),实采数据的获取门槛正在降低,数量有望迎来显著增长。

劣势:扩展性与质量的双重瓶颈。 一方面,在机器人尚未实现全自动化之前,依赖人工采集难以满足海量数据需求;另一方面,数据质量难以标准化,采集人员往往倾向于选择自己最熟悉、最省力的“舒适区”轨迹,导致数据缺乏对长尾场景和复杂失败案例的覆盖,存在潜在的分布偏差。

(2)仿真数据

优势:高效率与低成本。通过域随机化(Domain Randomization)等技术,仿真环境能以极低的边际成本生成多样性丰富的数据,是进行大规模强化学习(RL)和自主探索的理想场所。

劣势:虚实鸿沟(Sim-to-Real Gap)。仿真环境在视觉渲染的细腻度,以及接触力学、摩擦力、软体形变等物理特性的模拟上,仍与真实世界存在显著差距,导致仅靠仿真训练的模型往往难以直接迁移落地。

3.3.3  趋势

(1)分阶段的混合数据策略:基于上述特性,未来的主流训练范式将根据训练阶段灵活组合数据。预训练阶段:广泛吸纳多种来源的数据(仿真数据+互联网视频+存量真实数据), 以构建通用的感知与决策基础;后训练阶段:严格筛选高质量的真实世界数据进行微调,以对齐现实物理规律并修正偏差。利用仿真环境进行RL训练,低成本试错以掌握复杂技能;部署演进阶段(Deployment):重视真实环境的自主回放(Autonomous Rollout),让机器人在实际作业中不断收集新数据并自我更新,形成数据闭环。

(2)采集工具的便携化与去中心化:数据采集将从依赖昂贵的专业遥操作臂,向基于消费级手持设备(如iPhone)和穿戴式设备的方向发展,通过降低采集门槛来实现众包式的大规模数据积累。

3.3.4  Gap

(1)Sim-to-Real Gap:尽管视觉层面的差距正在缩小,但接触动力学的仿真鸿沟仍未被根本解决,限制了仿真数据在精细操作任务中的有效性。

(2)采集设备的普适性:尽管手持设备方案初现端倪,但现有的实采设备在轻便性、操作精度和长时间佩戴的舒适度上仍有待提升,尚未达到能让普通大众随时随地参与数据采集的理想状态。

3.3   本体

(1)现状:硬件是具身智能的物理边界。工业机械臂和移动机器人如扫地机器人等虽然已经渐渐成熟,但是随着具身智能的爆发,人们对机器人的追求转向通用。对于通用机器人来说,目前的灵巧度仍然不足,成本也偏高(10万,目前有公司冲击万元)。

①实用派

工业界实践证明“通用”不等于“像人”。针对特定场景的多任务需求,非仿生设计(如夹爪、吸盘)在鲁棒性和性价比上远优于灵巧手。

②仿生派

尽管夹爪、吸盘等实用,但Tesla、Figure等头部玩家依然压注昂贵类人的五指灵巧手。一方面是为了追求“类人、通用”,另一方面也是为了满足数据需求:海量的人类视频数据(如YouTube视频)。只有机器人的末端形态与人手高度一致,才能最大程度地复用这些数据。

(2)趋势

模块化与“瑞士军刀”模式:为了平衡通用性与专用性,未来的本体可能趋向于通过标准化快换接口,根据任务需求快速切换不同的末端执行器。

(3)Gap

①灵巧与耐用的悖论:这是一个未解的工程难题。目前的硬件陷入了“灵巧的不耐造,耐造的不灵巧”的困境。科研级灵巧手精密脆弱,难以承受工业场景的磨损;而工业级夹爪虽耐用,却无法完成精细操作。

②触觉数据:相比于RGB图像有统一的格式,触觉数据极度碎片化且缺乏标准。缺乏统一的触觉表征,导致模型难以通过互联网数据学习“手感”,限制了机器人进行盲操作(如拿起一张纸)的能力。

③商业落地与技术愿景的割裂:投资市场为“仿生人”买单(看重未来通用性),但工厂客户只为“功能机”买单(看重当前ROI)。这导致许多企业在融资时展示灵巧手,落地时却悄悄换回夹爪,造成了技术栈的撕裂。

3.4   生态:场景碎片化,产业链长、厂家多

(1)现状:具身智能缺乏像PC时代的Windows或手机时代的Android这样的统一操作系统。这意味着,现在的机器人应用与硬件是强绑定的。开发者在A品牌机器人上开发的功能(比如倒咖啡),换到B品牌的机器人上完全无法运行,必须从底层代码开始重新适配。这种“重复造轮子”的现象极大地浪费了研发资源。

(2)问题:产业链过长,厂家众多。每家的电机、传感器接口、控制协议都不一样。集成商为了组装一台机器人,往往需要花费大量时间去写“翻译代码”让这些不同品牌的零件协同工作,导致研发周期长、系统稳定性差。

(3)Gap:缺乏统一的软硬件接口标准,导致数据难以跨机型(Cross-Embodiment)复用。在GPT等大模型训练中,所有文本数据都是通用的。但在机器人领域,由于各家机器人的身高、关节数量、传感器设置都不一样,数据格式也不同。结果就是,全行业虽然总数据量很大,但却难以汇聚成训练通用具身大模型所需的“数据洪流”。需要大量的格式转换、关节对齐等后处理。

4  未来与落地途径展望

这一章专门回应“产业”问题,探讨如何填补人们愿景中的开放世界中的具身智能当前无法落地的问题。

4.1   路径一:专用智能

策略:先做专用场景,积累数据,再图通用。

场景:咖啡机器人、商用清洁、工业巡检等。

逻辑:

(1)环境可控:这些场景环境相对结构化,边界清晰,容错率较高。

(2)商业闭环:企业可以通过解决特定痛点(如招工难、高危作业)快速实现ROI转正。

(3)数据飞轮:利用在特定场景中回流的真实数据(Data Flywheel),逐步迭代模型的泛化能力,从“专用”慢慢向“通用”渗透。

4.2   路径二:增强人类路线(智能穿戴)

策略:以人为载体, AI作辅助。不急于制造复杂的机器人本体,而是将具身智能的“感知”与“大脑”能力注入眼镜、挂件或外骨骼中。

场景:AR智能眼镜+腕带(如Meta Ray-Ban[47])、视障辅助、蓝领工人操作指引、个人记忆助理。

逻辑:

(1)避开硬件和智能瓶颈:通过人类在环,绕开了机器人硬件不成熟、软件智能能力低的问题,利用人类去兜底,AI只作为辅助,就像智驾。

(2)数据金矿:穿戴设备是采集第一人称视角(Human Egocentric)数据的最佳入口。这些大规模的、包含“手眼协调”的高质量数据正是训练具身智能模型所需要的。

4.3   路径三:To C 陪伴与服务策略:情绪价值 > 功能价值。

场景:桌面宠物、陪伴机器人、教育机器人等。

逻辑:

(1)扬长避短:避开高难度的物理操作(如做饭、叠衣),充分利用LLM强大的语言理解和情感交互能力。

(2)高容错性:在陪伴场景下,用户对机器人的“笨拙”容忍度极高(甚至被视为可爱),这为技术迭代争取了宝贵的缓冲期。

5  结语

AI正从离身智能向具身智能发展。

一方面,技术演进的加速度令人振奋。从Level 2 (结构化环境单一任务)向Level 3(多任务/条件泛化)的跨越中,我们见证了端到端大模型(VLA)展现出的泛化潜力,看到了空间智能从2D向3D的维度升维,以及物理世界模型(World Model)对因果律理解的初步尝试。

另一方面,产业落地的“最后一公里”依然泥泞。标准化缺失、Sim2Real之间难以弥合的物理鸿沟,以及不成熟的技术现状与低容错率之间的矛盾,依然是横亘在实验室Demo与量产产品之间的巨大挑战。

未来的具身智能,将不再是单一维度的算法竞赛,而是一场系统工程的胜利。在数据上,通过“智能穿戴”与“专用机器人”构建的数据飞轮,将源源不断地为通用模型输送燃料,极大缓解数据稀缺的问题;在生态上,随着软硬件接口标准的逐步统一,行业将告别“重复造轮子”的作坊时代,迎来模块化、标准化的爆发期;在形态上,无论是人形机器人、智能眼镜还是下一代智能终端,它们都将共享同一个强大的“具身大脑”。

最终,具身智能的价值不在于制造出完美的机器工人来简单替代人类,而在于通过“增强人类”的方式,延伸我们的感知与行动边界。

具身智能正在使AI从“理解文字”“看懂世界”到“改变世界”。

作者简介:

王   烽,博士,华为技术有限公司高级技术专家,具身智能产业发展委员会副主任委员。毕业于武汉大学电子信息学院,曾任华为云具身智能创新Lab主任。长期致力于端边云协同架构、具身智能等领域的技术研发与战略布局,并推动相关领域的产学研深度合作。

毛思通,博士,华为技术有限公司主任工程师,毕业于香港理工大学计算机系。长期从事人工智能与具身智能领域的研究,主要负责具身模型、数据等技术研究研发工作。在ICLR,SIGIR、IEEE TNNLS、IROS、ICRA等国际顶级会议及期刊发表多篇学术论文。

参考文献:

[1] Xu Z, Wu K, Wen J, et al. A survey on robotics with foundation models: toward embodied AI[J]. arXiv preprint arXiv: 2402.02385, 2024.

[2] Ma Y, Song Z, Zhuang Y, et al. A survey on vision - language - action models for embodied AI[J]. arXiv preprint arXiv: 2405.14093, 2024.

[3] Zitkovich B, Yu T, Xu S, et al. Rt - 2: Vision - language - action models transfer web knowledge to robotic control[C]. Conference on Robot Learning. PMLR, 2023: 2165 - 2183.

[4] Team G R, Abeyruwan S, Ainslie J, et al. Gemini Robotics: Bringing AI into the physical world[J]. arXiv preprint arXiv: 2503.20020, 2025.

[5] Kim M J, Pertsch K, Karamcheti S, et al. Openvla: An open - source vision - language - action model[J]. arXiv preprint arXiv: 2406.09246, 2024.

[6] Black K, Brown N, Driess D, et al. $\pi_0 $: A Vision - Language - Action Flow Model for General Robot Control[J]. arXiv preprint arXiv: 2410.24164, 2024.

[7] Intelligence P, Black K, Brown N, et al. $\pi_ {0.5} $: a Vision - Language - Action Model with Open - World Generalization[J]. arXiv preprint arXiv: 2504.16054, 2025.

[8] Liu S, Wu L, Li B, et al. Rdt - 1b: a diffusion foundation model for bimanual manipulation[J]. arXiv preprint arXiv: 2410.07864, 2024.

[9] Bu Q, Yang Y, Cai J, et al. Univla: Learning to act anywhere with task - centric latent actions[J]. arXiv preprint arXiv: 2505.06111, 2025.

[10] Qu D, Song H, Chen Q, et al. Spatialvla: Exploring spatial representations for visual - language - action model[J]. arXiv preprint arXiv: 2501.15830, 2025.

[11] Wang J, Chen M, Karaev N, et al. Vggt: Visual geometry grounded transformer[C]. Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 5294 - 5306.

[12] Lin T, Li G, Zhong Y, et al. Evo - 0: Vision - language - action model with implicit spatial understanding[J]. arXiv preprint arXiv: 2507.00416, 2025.

[13] Huang W, Wang C, Zhang R, et al. Voxposer: Composable 3D value maps for robotic manipulation with language models[J]. arXiv preprint arXiv: 2307.05973, 2023.

[14] Ahn M, Brohan A, Brown N, et al. Do as I can, not as I say: Grounding language in robotic affordances[J]. arXiv preprint arXiv: 2204.01691, 2022.

[15] Huang W, Xia F, Xiao T, et al. Inner monologue: Embodied reasoning through planning with language models[J]. arXiv preprint arXiv: 2207.05608, 2022.

[16] Liang J, Huang W, Xia F, et al. Code as policies: Language model programs for embodied control[J]. arXiv preprint arXiv: 2209.07753, 2022.

[17] Liu Q, Huang T, Zhang Z, et al. Nav - r1: Reasoning and navigation in embodied scenes[J]. arXiv preprint arXiv:2509.10884, 2025.

[18] Zhong Y, Huang X, Li R, et al. Dexgraspvla: A vision - language - action framework towards general dexterous grasping[J]. arXiv preprint arXiv: 2502.20900, 2025.

[19] Shi H, Xie B, Liu Y, et al. Memoryvla: Perceptual - cognitive memory in vision - language - action models for robotic manipulation[J]. arXiv preprint arXiv: 2508.19236, 2025.

[20] Cheng X, Zeng W, Dai D, et al. Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models[J]. arXiv preprint arXiv: 2601.07372, 2026.

[21] 新智元. 奥特曼点名 "AGI最后一块拼图"! 记忆,才是硅谷2026新共识[EB/OL]. https://finance.sina.com.cn/stock/ t/2026-01-09/doc - inhfssrt5969682.shtml.

[22] Zhong Y, Jiang Q, Yu J, et al. Dexgrasp anything: Towards universal robotic dexterous grasping with physics awareness[C]. Proceedings of the Computer Vision and Pattern Recognition Conference. 2025: 22584 - 22594.

[23] Yu J, Liu H, Yu Q, et al. ForceVLA: Enhancing VLA Models with a Force - aware MoE for Contact - rich Manipulation[J]. arXiv preprint arXiv: 2505.22159, 2025.

[24] Bar A, Zhou G, Tran D, et al. Navigation world models[C]. Proceedings of the Computer Vision and Pattern Recognition Conference. 2025 : 15791 - 15801.

[25] Zheng W, Chen W, Huang Y, et al. Occworld: Learning a 3D occupancy world model for autonomous driving[C]. European conference on computer vision. Cham: Springer Nature Switzerland, 2024 : 55 - 72.

[26] Zhang Z, Zhang Q, Cui W, et al. Occupancy World Model for Robots[J]. arXiv preprint arXiv: 2505.05512, 2025.

[27] 蔚来. 蔚来智能技术[EB/OL]. https://www.nio.cn/smart - technology/20241120002.

[28] 小鹏汽车. 公司新闻[EB/OL]. https://www.xiaopeng.com/news/company_news/5462.html.

[29] 新浪财经. 新浪财经股票滚动新闻[EB/OL]. https://finance.sina.cn/stock/jdts/2025-08-28/detail - infnpcei5142489. d.html?vt=4.

[30] Zhang J, Wang K, Xu R, et al. Navid: Video - based vlm plans the next step for vision - and - language navigation[J]. arXiv preprint arXiv: 2402.15852, 2024.

[31] Generalist AI. GEN - 0[EB/OL]. https://generalistai.com/blog/nov-04-2025-GEN-0.

[32] Kevin Black @ CoRL 2024 X - Embodiment Robot Learning Workshop

[33] O'Neill A, Rehman A, Maddukuri A, et al. Open x - embodiment: Robotic learning datasets and rt - x models: Open x-embodiment collaboration 0[C]. 2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024: 6892 - 6903.

[34] AgiBot World. AgiBot World: 首个大规模机器人学习数据集与生态系统[EB/OL]. https://agibot - world.com/.

[35] Khazatsky A, Pertsch K, Nair S, et al. Droid: A large-scale in-the-wild robot manipulation dataset[J]. arXiv preprint arXiv: 2403.12945, 2024.

[36] Mandlekar A, Nasiriany S, Wen B, et al. Mimicgen: A data generation system for scalable robot learning using human demonstrations[J]. arXiv preprint arXiv: 2310.17596, 2023.

[37] Liu B, Zhu Y, Gao C, et al. Libero: Benchmarking knowledge transfer for lifelong robot learning[J]. Advances in Neural Information Processing Systems, 2023, 36: 44776 - 44791.

[38] Nasiriany S, Maddukuri A, Zhang L, et al. Robocasa: Large-scale simulation of everyday tasks for generalist robots[J]. arXiv preprint arXiv: 2406.02523, 2024.

[39] Chen T, Chen Z, Chen B, et al. Robotwin 2.0: A scalable data generator and benchmark with strong domain randomization for robust bimanual robotic manipulation[J]. arXiv preprint arXiv: 2506.18088, 2025.

[40] Tian Y, Yang Y, Xie Y, et al. InternData-A1: Pioneering High - Fidelity Synthetic Data for Pre - training Generalist Policy[J]. arXiv preprint arXiv: 2511.16651, 2025.

[41] Bjorck J, Castañeda F, Cherniadev N, et al. Gr00t n1: An open foundation model for generalist humanoid robots[J]. arXiv preprint arXiv: 2503.14734, 2025.

[42] Sunday.ai. Sunday.ai: 由AI驱动的一站式数据问答与分析平台[EB/OL]. https://www.sunday.ai/.

[43] Kareer S, Pertsch K, Darpinian J, et al. Emergence of Human to Robot Transfer in Vision-Language-Action Models[J]. arXiv preprint arXiv: 2512.22414, 2025.

[44] Long X, Zhao Q, Zhang K, et al. A Survey: Learning Embodied Intelligence from Physical Simulators and World Models[J]. arXiv preprint arXiv: 2507.00917, 2025.

[45] Meta. Meta Ray-Ban 智能眼镜:内置Meta AI的显示技术[EB/OL]. https://www.meta.com/tw/ai-glasses/meta-ray-ban- display/.

摘自《自动化博览》2026年第一期暨《2026具身智能专刊》

热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: