1 引言:跨越物理现实,具身智能是AI的终局之战
过去短短十余年间,人工智能领域实现了从算法突破到产业腾飞的跨越式发展,关键技术节点的迭代清晰勾勒出这一演进路径。2012年, AlexNet的横空出世开启深度学习浪潮,让基于GPU的异构计算成为行业共识;2017年, Transformer架构正式问世,为超大语言模型的研发奠定了核心工程基础;2022年,ChatGPT的“出圈”引爆公众关注;2025年, DeepSeek等大语言模型的普惠化落地,则推动对话类、知识类人工智能以智能体形式走进大众生活,成为日常工作与生活中不可或缺的工具。深度学习与AI十年发展脉络如图1所示。

图1 深度学习与AI十年发展脉络
当人工智能在虚拟数字空间的应用日趋成熟,一个值得探讨的问题随之而来:下一波人工智能的发展浪潮会是什么?
答案或许在“人终归生活在物理世界”这一常识。沿着从虚拟世界走向物理世界的演进逻辑,机器人本体技术持续突破,世界模型、视觉语言动作(Vision- Language-Action,VLA)模型、空间计算等智能系统不断涌现,多重技术合力推动人工智能迈入与实体环境深度交互的新范式:具身智能。
具身智能的核心价值,在于打破人工智能的虚拟边界。它让机器能依托物理实体感知环境、执行动作,最终在真实世界中创造价值。从产业逻辑看,这一领域兼具需求端的刚性与供应端的优势。在需求端,它精准匹配中国老龄化加剧、劳动力短缺的社会趋势,能为生产制造、医疗康养等关键领域提供解决方案;在供应端,其软硬件深度融合的特性,与中国完整的制造业产业链天然契合,使其有望成为中国在全球科技竞争中实现领先的战略性产业。从市场潜力看,具身智能覆盖工业生产、家庭服务、医疗健康等多元场景,其产业体量未来或超越智能汽车,成为下一代核心科技赛道。
当前,具身智能产业仍处于发展初期,存在三个关键的“未收敛”。
(1)场景未收敛:2025年春晚宇树人形机器人的炫酷表现、全年密集曝光的人形机器人demo视频,虽引发市场热潮,但正如高盛2025年11月发布的中国人形机器人调研报告[1]所折射的行业现状,业界对具身智能的实际应用价值与市场规模,仍存在质疑。
(2)本体未收敛:关于机器人形态的设计方向,行业分歧明显。是应尽量模仿人类形态,还是针对具体场景进行更务实的定制化设计,尚未形成共识。
(3)技术未收敛:核心技术路线仍在探索中,例如算法层面,是采用Pi式端到端大模型,还是Helix式快慢双系统分层模型;世界模型的定位,是仅用于训练数据生成,还是纳入决策回路;以及具身智能需配备哪些感知系统等关键问题,均未确定。
这些“未收敛”既是具身智能产业发展初期的阶段性特征,更是孕育着技术突破与产业重构的重大机遇。当这一产业逐步走向清晰化、稳定化,人工智能将真正深度融入生产生活的方方面面。从这个意义而言,具身智能堪称人工智能领域的“终局之战”。
本文将立足技术栈视角,首先系统审视当前具身智能产业的发展现状。在此基础上,对产业未来发展趋势作出预判并提出针对性建议,全面解析具身智能机器人的技术演进逻辑与产业发展路径,为行业参与者提供兼具参考价值与实践意义的决策支撑。
2 具身智能机器人的技术栈
具身智能机器人的技术体系兼具多层次、跨领域的复合特征,其核心架构自下而上可清晰划分为五大层级:本体部件层、体内通信层、控制算力层、软件系统层、应用功能层。系统软件与应用功能之间可选地还存在一些中间件,比如ROS。除此之外,仿真平台、遥操技术、集群控制等本体之外的配套技术,与核心层级相互支撑、协同发力,共同构建起完整的具身智能技术生态。具身智能机器人技术栈如图2所示。

图2 具身智能机器人技术栈
2.1 本体部件层:机器人的“躯体与感官”
本体部件层是具身智能机器人与物理世界交互的核心载体,主要分为输入与输出两类关键组件:输入端为各类传感器,负责捕捉物理世界的环境、状态等信息;输出端则是执行器(actuator),作为机器人改变自身姿态、操作物理实体的核心执行单元,本文中重点讨论的核心执行部件为电机。传感器与电机的性能参数,直接决定了机器人运动能力的上限与感知精度的水准,是本体部件层的核心支撑。
电机堪称具身智能机器人的“关节”,是实现运动控制与物理操作的核心动力部件,其扭矩大小直接决定机器人能够承载或操作的物体重量,而成本占比更是突出。通常电机相关成本占机器人硬件总成本的70%以上。因此电机选型成为机器人设计阶段的关键决策环节。机器人电机的构成包含电动单元与减速器两大核心模块,可类比于汽车的发动机与变速箱。其中,电动单元可选类型丰富,涵盖无框力矩电机、空心杯电机、微型无刷电机等;减速器亦有多元技术路线,包括行星减速器、谐波减速器、摆线减速器等。这意味着电机选型不仅需要考量规格参数的匹配性,还需在技术路线上做出针对性决策。
手部组件[2]在机器人本体中属于相对特殊的存在。人类手部拥有数十个自由度,而机器人手部的灵活度直接决定其操作物体的精细程度,是完成复杂任务的关键部件。当前主流的机器人本体设计中,手部多采用可替换选配的方案:既可以搭载数百元的基础款夹爪,满足简单抓取需求;也可配置售价数十万元的五指灵巧手,适配高精度、多场景的复杂操作场景。
传感器作为具身智能机器人的“感官系统”,承担着环境感知、姿态感知、交互感知等核心功能,其技术成熟度与性能表现直接决定机器人的智能水平与交互效果。当前,具身智能机器人的主流传感器配置包括:视觉感知依赖双目相机,空间感知可选用深度相机或激光雷达,姿态感知核心为惯性测量单元(Inertial Measurement Unit,IMU)。
从行业现状来看,当前具身智能机器人的设计仍呈现“重执行、弱感知”的显著特征。部分产品的感知系统在完整性与精准度上,甚至不及三千元级别的扫地机器人。相较于对电机等执行部件的高度重视,传感器环节成为当前机器人方案中的短板。针对传感器的体系化技术方案与清晰的发展路线图,也尚未完全形成。
2.2 体内通信技术:数据传输的效率与可靠性
体内通信技术是连接本体部件层与控制算力层的关键纽带,其核心职责是实现传感器数据的实时上传与控制指令的精准下发,可类比于人的神经系统。体内通信的传输效率与可靠性直接影响机器人的响应速度、控制精度与运行稳定性。目前,行业内的主流技术方案集中于CAN总线与EtherCAT[3]两大技术路径。
CAN总线源于汽车产业,以低成本、高可靠性为核心优势,适用于对实时性要求相对温和的场景。其核心特性表现为总线负载率低、抗干扰能力强,能够适配复杂工业环境的运行需求,但短板同样显著。半双工、带宽有限的特性使其在高性能的实时场景中存在明显局限性。
EtherCAT总线则来源于工业设备领域,凭借高实时性、高带宽的核心优势,其已成为当前高性能具身智能机器人的主流通信方案,尤其适配对响应速度要求严苛的场景。
2.3 控制算力层:机器人的“计算核心”
控制算力层是具身智能机器人的数据处理与指令生成中枢,核心职责包括接收传感器采集的各类数据、运行核心控制算法、输出精准控制指令。其算力水平直接决定机器人的智能响应速度、复杂任务处理效率,是支撑机器人整体性能的关键硬件。
当前市场主流的算力解决方案形成两大差异化路径,分别适配不同算力需求场景: 一类是基于ARM架构的多核CPU方案,这类方案以国产瑞芯微RK系列芯片为典型代表;另一类是GPU厂商专为边缘AI场景设计的集成化方案,比如英伟达Jetson系列。华为昇腾也推出了同类产品。
2.4 软件系统层和中间件:机器人的“操作系统”
软件系统层是具身智能机器人的核心控制中枢,承担硬件资源管理、核心算法运行、多模块任务调度等关键功能,其稳定性、兼容性与扩展性直接决定机器人的整体运行效率与功能落地效果。目前行业已形成相对统一的技术标准,即“Linux操作系统+ROS2中间件”的主流软件栈配置。其中中间件ROS2,支持多语言编程、分布式通信、实时控制等核心功能,降低了机器人软件开发门槛。
2.5 应用功能层:运动与操作的核心能力
应用功能层是具身智能机器人实现具体场景价值的核心载体,主要划分为运动类(locomotion)与操作类(manipulation) [4]两大功能模块,其技术成熟度直接决定机器人的应用场景适配能力与实际价值输出。
运动类功能的核心目标是实现机器人在多样化环境下的稳定移动,涵盖行走、奔跑、爬坡、避障等基础动作,以及复杂地形适应性、动态平衡控制等进阶能力,是机器人完成空间移动、场景切换的基础保障。
操作类功能则是具身智能机器人创造实际价值的核心环节,包括抓取、搬运、装配、工具使用等复杂物理交互任务。其核心技术难点在于实现高精度、高可靠性的物理操作,而灵巧手作为操作类功能的核心执行部件,其凭借对人类手部动作的模拟能力与精细操作支撑,已成为行业技术竞争的焦点领域,直接影响机器人在工业生产、医疗康养等场景的落地效果。
2.6 本体外部支撑技术:仿真、遥操与集群控制
外部支撑技术是具身智能机器人产业高质量发展的重要保障,主要涵盖仿真平台、遥操技术、集群控制等关键领域。
其中,仿真平台的核心价值在于通过构建高保真虚拟环境[5],实现机器人算法的快速验证、迭代与优化,成为技术落地的“加速器”。当前,行业主流仿真技术已形成全流程覆盖的方案体系,包括sim2sim(虚拟环境间迁移)、sim2real(虚拟到现实迁移)等核心路径,而英伟达的Issac Sim正是该领域应用广泛的主流平台之一。
遥操技术[6]通过远程控制模式支撑机器人完成复杂任务,既是当前技术阶段下,弥补机器人复杂场景自主决策能力不足的重要补充方案,也是采集真实场景数据、助力机器人模型训练的关键手段。人形机器人的遥操系统通常由双向数据交互链路与动作映射机制构成,核心流程分为两个关键方向:一是“机器人到操作员”的感知数据回传,需将机器人搭载的视觉、触觉等传感器采集的环境与交互信息,实时传递给操作员,为远程决策提供依据;二是“操作员到机器人”的动作指令下发,需先精准采集操作员的动作数据,再通过动作映射(retargeting)技术进行适配。由于人类与机器人的关节数量、自由度存在差异,这一步骤需将人类动作转化为适配特定机器人本体的可执行指令,确保远程操作的精准同步。
集群控制技术实现了多台机器人的协同工作,其通过任务分配、路径规划、数据共享,提升了整体工作效率,适用于工业生产、物流仓储、应急救援等规模化应用场景。与当前技术相对成熟的无人机集群相比,具身智能机器人的集群控制面临更复杂的挑战。一方面需应对真实物理环境中的动态交互,另一方面要解决机器人间的物理碰撞规避问题,这对通信延迟的控制精度、协同算法的鲁棒性提出了更高要求。目前,集群控制技术仍处于发展初期阶段,尚未实现复杂任务的深度协同,主要应用于多机器人协同巡检、物料搬运等相对简单的场景。
2.7 数据与智能模型:具身智能的核心驱动
规模法则(scaling law)是大语言模型(Large Language Model, LLM)取得成功的关键经验。具身智能的数据规模法则能否成立,目前行业内尚未形成共识。数据作为具身智能机器人技术迭代的核心燃料,其相关争议却始终存在。质疑者的核心观点[7]在于, 物理世界数据的信息浓度远低于文本数据,单一任务的数据饱和速度更快,难以通过单纯扩大数据规模实现能力跃迁。而支持规模法则的专家则认为,相较于LLM,当前用于具身智能机器人的数据集规模与模型参数规模均相对有限,后续扩大规模,是否会重现LLM那样的“能力涌现”现象,仍值得去尝试。无论数据规模法则是否适用于具身智能领域, “高质量+高效率”已成为行业公认的数据策略核心。通过仿真数据生成、实机数据采集、数据标注自动化等多元手段,构建高质量、高适配性的数据集,仍是推动具身智能技术进阶的关键路径。
在智能模型层面,VLA模型已发展为具身智能的核心技术方向,其核心价值在于打通“感知-认知-动作”的端到端闭环链路。当前VLA模型主要存在两种技术路线:
(1)端到端统一模型方案: 以Pi系列模型[8]为代表,依托单一模型即可完成视觉理解、语言交互与动作生成的全流程任务;
(2)分层协同模型方案:以埃隆 ・ 马斯克旗下人形机器人公司Figure AI推出的Helix模型[9]为典型,该方案采用“大脑(VLM 视觉语言模型)+小脑(动作控制模型)”的架构,其中“大脑”模块负责视觉语义理解与全局任务规划,“小脑”模块专注于高精度运动控制与动作迭代优化。
需要注意的是,机器人模型的最终输出为执行动作(action),但在动作生成的技术路径上,仍存在诸多待解难题。例如动作生成应采用自回归的序列生成方式,还是类扩散模型的流匹配(flow matching)方法;在生成过程中是否需要引入基于世界模型[10] 的前瞻预测机制等,这些核心问题目前尚未形成行业共识。
3 分而治之:具身智能机器人产业版图探讨
具身智能是智能体与世界交互的产品形态。世界有多大,具身智能市场就有多大;世界有多复杂,具身智能也就有多复杂。只有分而治之,才能将具身智能讨论清楚。
3.1 场景分化:使用价值与情绪价值,双线叙事
具身智能机器人的应用场景可分为两大类:使用价值主导型与情绪价值主导型。两类场景遵循截然不同的发展逻辑,呈现出差异化的产业特征。
3.1.1 使用价值主导型场景:工业场景率先收敛
使用价值主导型场景以解决生产生活中的实际问题为核心目标,覆盖工业生产、物流仓储、医疗护理、养老服务等领域,核心需求聚焦于提升效率、降低成本、替代重复性人工劳动。
这类场景的显著特点是工作环境相对封闭可控,例如工厂产线、家庭室内等标准化场景。尽管也存在消防救援、野外巡检等开放环境下的应用需求,但从人类社会现有工作岗位的分布来看,绝大多数场景仍处于室内、人为设计的可控空间内,这也决定了此类机器人的技术落地路径更易收敛。
3.1.2 情绪价值主导型场景: 多样化发展, 静待现象级爆款产品
情绪价值主导型场景以满足用户情感需求为核心,涵盖家庭陪伴、娱乐互动、教育科普等领域,核心需求在于提供情感慰藉、优质娱乐体验与知识传递服务。
此类场景无需追求机器人本体形态的统一收敛,其发展将呈现“产品多样化+体验持续升级”的核心特征。一方面,产品形态需进行多元化设计,以匹配不同用户的个性化需求,衍生出桌面级、地面级、陪伴型等丰富品类;价格区间也将实现宽幅覆盖,从千元级大众产品到万元级高端机型,形成多层次的市场布局;另一方面,交互能力将成为核心竞争力,其依托自然语言处理、计算机视觉等技术,实现了更流畅的对话交互与更精准的动作响应;应用场景也将不断拓展,从单纯的娱乐互动延伸至教育陪伴、老年关怀等细分赛道。
3.2 功能分化:操作能力与运动能力,分维探讨
表1 部分人形机器人关节数和布局

表1梳理了主流双足人形机器人的本体关节数量,从中可清晰看出,四肢关节在机器人本体总关节数中占据主导地位,且单条手臂与单条腿部的关节数量基本持平。不过,腿部关节与手部关节的设计要求存在显著差异。由于腿部需要承载机器人自身重量及各类工作负荷,因此对关节扭矩的要求远高于手部,这也直接导致腿部关节的研发与制造成本更高。基于这一特性,是否采用双足构型,成为机器人本体设计阶段首要且最为关键的决策考量因素。
从场景落地的角度来看,工业领域已率先呈现出机器人本体形态收敛的趋势。以宇树最新发布的G1-D (如图3所示)为例,其采用“轮式底盘+升降杆+双臂+双目相机+可更换手部”的模块化配置,这一形态的形成源于工业环境的结构化特征:多数工业场景在规划阶段已充分考虑物料运输需求,轮式底盘足以满足全场景移动需求,运动能力不再是核心竞争要素,工业机器人的核心需求已转向高精度的操作能力。
手部构型是决定操作能力的核心变量。当前主流机器人均支持手部模块的灵活选配(如表1所示),可根据任务需求匹配合适的手部型号:如精密装配任务搭配高自由度灵巧手,重物搬运任务则搭载高负载型手部。
相较工业场景的结构化环境,运动能力的核心应用场景集中于野外等非结构化环境。即使在这类场景中,双足构型也不一定是最优解,但却是技术实现难度最高的方案。从生物进化视角分析,绝大多数动物采用四足行走模式,人类的双足行走姿态,实则是从四足动物逐步演化而来的特殊形态。
综合以上分析可得出结论:双足人形机器人的发展重心,大概率将聚焦于情绪价值场景,而非使用价值场景。在以解决实际生产问题为核心的使用价值场景中,操作能力的优先级显著高于运动能力。

图3 宇树G1-D本体结构[15]
3.3 泛化分级:遥操级、工位级、工厂级、行业级、再到开放世界级
泛化能力是具身智能区别于传统编程式机器人的核心标志。缺乏泛化能力的机器人,本质上仍属于执行预设指令的自动化设备,无法真正称之为具身智能体。但需要明确的是,泛化并非“非黑即白”的二元判断,而是一个梯度递进的能力区间,如图4所示。

图4 泛化分级示意图
在未来相当长的一段时间内,零泛化、基于遥操作(teleoperation)技术的机器人仍将占据大量应用场景,尤其在危险作业、涉密任务、长期值守(standby)等领域。而遥操机器人可直接替代人工深入这类场景完成作业,从根本上解决安全风险与高成本痛点。遥操还有一个很重要的副产品,是为机器人训练提供真实的数据。
现代化流水线工厂的核心特征是工位精细化分工,多数工人仅负责流水线单一环节的重复性任务。即便工人具备多工位操作能力,从生产效率角度出发,企业也会尽量维持单一工位的分工模式。因此,从机器人替代人工的角度而言,只要实现工位级的任务替代,就能满足实际部署需求并产生直接的经济效益。
在此基础上,泛化能力的进阶路径可分为三个阶段:
(1)工厂级泛化:机器人可适应同一工厂内不同工位、不同场景的任务需求,例如从装配工位无缝切换至质检工位;
(2)行业级泛化:机器人能够跨工厂适配同行业的不同生产环境,兼容不同工厂的工艺设计差异与流程规范;
(3)开放世界级泛化:这是具身智能的终极目标-机器人突破受控的工业环境限制,自主适应复杂多变的开放现实世界。
对泛化能力进行梯度分级,能够为具身智能的技术迭代与应用落地提供清晰的目标导向:一方面,有助于精准识别不同场景下的应用门槛,明确技术研发的优先级;另一方面,可引导科研资源聚焦于跨越工位级替代这一 “第一门槛”,加速具身智能从实验室走向产业化应用的进程。
4 变革前夕:具身智能机器人产业结构展望
具身智能机器人是软硬件深度耦合的复合型产品,其产业结构的演进逻辑,可借鉴计算机、通信等成熟产业的发展经验,以此研判未来可能发生的变革方向。
4.1 本体模块化
当前阶段,机器人本体厂商普遍采用自上而下的全栈式设计模式,从手部、臂部、腿部,到腰部、头部等核心部件,均以定制化方案完成研发与生产。这种高度集成的设计形态,类似于IBM PC兼容机诞生之前的台式计算机产业格局,在本体技术路线尚未统一、应用场景尚未明确的初期阶段,具备合理性与必要性。
随着应用场景逐步清晰、本体形态趋于收敛,机器人的整体结构将走向标准化,结构创新不再是核心的差异化竞争壁垒。届时,产业分工将出现重构,本体模块化将成为必然趋势。
从当前技术发展态势来看,灵巧手是率先实现模块化的核心部件。一方面,灵巧手直接决定机器人的操作能力(manipulation),是影响场景适配性的关键要素;另一方面,灵巧手的研发制造难度大、成本高,采用选配化模式可大幅提升产品灵活性-机器人本体可根据不同应用场景的需求,搭载不同自由度、不同负载能力的灵巧手模块。
本体模块化的进阶路径存在多种可能性:
第一种路径是机械臂模块的标准化。从现有主流本体的结构来看,机械臂的形态差异极小,普遍采用6轴或7轴的构型方案,具备天然的模块化基础;
第二种路径是轮式移动底盘的独立化。轮式机器人的下半身结构同质化程度高,功能聚焦于稳定移动,可剥离为标准化的独立模块,适配不同类型的上半身作业单元。
4.2 规格归一化
现阶段,人形机器人行业仍处于技术路线百花齐放的探索期。比如,如表2所示,不同厂商对机器人本体的最大负荷定义存在显著差异。这样的差异进而导致下游核心零部件的规格参数呈现碎片化特征。这反映在执行层的电机环节,便是尺寸、扭矩等关键指标缺乏统一标准,上下游产业链难以形成协同效应。
一台人形机器人通常搭载约30余个电机,不同部位的电机对扭矩的需求差异显著。例如腿部电机,不仅需要承载机器人的躯体自重,还需应对各类作业负荷,因此对扭矩的要求远高于其他部位。
要充分发挥规模化生产的优势、有效降低电机成本,电机规格的归一化是必经之路。这一逻辑与通信产业的光模块发展历程具有较强的类比性:从实际需求来看,通信场景中的传输距离本是连续分布的(理论上任意距离均存在需求),但光模块行业并未盲目适配所有距离,而是将传输距离划分为若干标准化档位(如2km、10km、40km等),极少推出7km、15km这类非标准规格。背后的核心考量是,通过规格归一化可提升产业整体效率,实现经济效益最大化-即便牺牲部分小众需求,也能通过规模化生产、统一供应链标准,降低研发与制造成本。
除了传输距离的归一化,光模块的尺寸规格也通过多源协议(MSA,Multi-Source Agreement)实现了行业统一,例如SFP(Small Form-factor Pluggable)、SFP+等标准化封装,不仅简化了上下游的适配流程,更推动了整个通信产业的高效协同发展。人形机器人行业的电机规格归一化,同样可借鉴这一思路,通过建立行业共识或统一协议,实现核心零部件的归一化。只有归一才有规模,有规模才能降成本。
表2 部分人形机器人的负荷能力

表3 光模块的规格归一化

4.3 接口标准化
本体模块化与规格归一化是推动产业分工的基础,能让不同部件厂商聚焦核心领域,实现部件设计与生产的迭代升级、精益求精。但需明确的是,具身智能机器人并非单纯的硬件产品,而是软硬件深度融合的软件密集型产品-要达成理想的产业分工协作模式,接口标准化是不可或缺的关键环节。这里的“接口”涵盖两个核心层面:
(1)硬件接口标准化:确保电机、传感器等硬件部件能无缝接入机器人主机系统,实现统一的管理与控制,降低不同厂商部件的适配成本;
(2)软件接口标准化:包括机器人训练数据的格式规范、模型与仿真平台的数据交互协议、运动控制与操作功能的抽象接口,以及不同遥操方式的控制接口统一等,核心是解决软件层面的互联互通问题。
只有实现全链路的接口标准化,才能打破不同供应商之间的技术壁垒,促进软硬件产品的兼容适配,最终形成丰富多元、协同发展的产业生态。
从行业实践来看,接口标准化主要存在三种形态:
(1)官方标准:由IETF、IEEE、ITU等权威标准开发组织(Standard Development Organization, SDO)制定,具有较强的行业强制性和普适性,但标准制定周期较长,灵活性相对不足;
(2)事实标准:由行业头部企业主导推动,通过自身市场影响力形成行业默认规范,核心目的是构建自身主导的产业生态,典型案例如Intel推动的PCI接口;
(3)联盟标准:介于官方标准与事实标准之间,由多厂家联合成立的联盟制定,属于非强制性技术建议,既兼顾了产业协同需求,又保留了一定的灵活性。例如存储接口标准由SATA-IO联盟制定,常用的USB接口则由USB-IF(USB Implementers Forum, USB实施者论坛)负责规范。
具身智能机器人产业最终会选择哪种标准化路径,核心在于平衡两大诉求:一是通过规范化实现产业高效协同,二是为技术创新保留足够的空间与速度,这需要全行业结合发展阶段共同探索。
5 结语
物理世界兼具复杂性与多样性,当智能通过“具身”形式深度融入现实场景,必然需要适配不同的任务需求与环境特征,衍生出多样化的产品形态与功能定位。因此,讨论具身智能机器人的产业发展,必须建立“分而治之”的分析框架:将使用价值与情绪价值分开审视,将运动能力与操作能力独立探讨,将不同等级的泛化能力分层拆解-唯有如此,才能清晰界定产品的商业价值定位、技术实现可行性,以及不同企业的核心竞争优势。
展望未来,具身智能产业大概率不会呈现“一家独大、赢家通吃”的格局,而是会朝着 “多元共生”的方向发展:各行各业都有望结合自身场景需求,孕育出专属的具身智能形态。同时,这一产业的发展不会一蹴而就,而是一个逐步渗透、持续演变的长期过程。
值得深思的是,在产业成熟过程中,其是否会复刻通信、IT等成熟产业的发展路径,逐步实现“本体模块化、规格归一化、接口标准化”?这一问题,既关乎产业生态的构建逻辑,也影响着企业的战略布局,值得持续关注与深入探讨。
作者简介:
何健飞,博士,现任大湾区大学产业教授,从事基于开源生态具身智能的研究工作。曾在华为技术公司长期担任高级技术专家,相应研究成果荣获广东省和深圳市的多个奖项,并深度参与ITU-T、 IETF等国际标准组织,在IETF成功推动成立网内计算(COIN)研究组,并担任创始主席。目前担任全球计算联盟(GCC)具身智能产业发展委员会副主任、本体系统工作组组长。
参考文献:
[1] 新浪财经. 高盛调研三花等“中国机器人供应链”[EB/OL]. https://finance.sina.com.cn/roll/2025-11-10/doc-infwwmez1676374. shtml.
[2] LI G F, WANG R Z, XU P S, et al. The developments and challenges towards dexterous and embodied robotic manipulation: A survey[J/OL]. arXiv: 2507.11840, 2025.
[3] PRYTZ G. A performance analysis of EtherCAT and PROFINET IRT[C]. 2008 IEEE International Conference on Emerging Technologies and Factory Automation. Hamburg, Germany, 2008: 408 - 415.
[4] BAI S H, SONG W X, CHEN J Y, et al. Towards a unified understanding of robot manipulation: A comprehensive survey[J/OL]. arXiv: 2510.10903, 2025.
[5] ALJALBOUT E, XING J X, ROMERO A, et al. The Reality Gap in Robotics: Challenges, Solutions, and Best Practices[J]. Annual Review of Control, Robotics, and Autonomous Systems, 2025, 9.
[6] WANG X, SHEN L Y, LEE L H. A Systematic Review of XR-Enabled Remote Human-Robot Interaction Systems[J]. ACM Computing Surveys, 2025, 57 (11) : 1 - 37.
[7] XING E, DENG M K, HOU J Y, et al. Critiques of world models[J/OL]. arXiv :2507.05169, 2025.
[8] BLACK K, BROWN N, DRIESS D, et al. π0: A vision-language-action flow model for general robot control[J/OL]. arXiv preprint arXiv: 2410.24164, 2024. DOI: 10.48550/arXiv.2410.24164.
[9] Figure. Helix | Figure[Z]. https://www.figure.ai/helix.
[10] LONG X X, ZHAO Q R, ZHANG K W, et al. A survey: Learning embodied intelligence from physical simulators and world models[J/OL]. arXiv: 2507.00917, 2025.
[11] 北京人形机器人创新中心. 天工人形机器人基本参数[EB/OL]. https://bicrobodoc-sit.x-humanoid-cloud.com/docs/pro/5基本参数pro.html.
[12] LoongOpen. 青龙全尺寸通用人形机器人硬件开源内容[EB/OL]. https://github.com/loongOpen/OpenLoong-Hardware/ blob/main/青龙全尺寸通用人形机器人硬件开源内容.pdf
[13] 智元创新 (上海) 科技股份有限公司. 智元灵犀X1开发指南[EB/OL]. https://www.zhiyuan-robot.com/DOCS/OS.
[14] 宇树科技. 通用人形机器人H1[EB/OL]. https://www.unitree.com/h1.
[15] 宇树科技. 宇树G1-D本体结构[EB/OL]. https://www.unitree.com/G1-D.
摘自《自动化博览》2026年第一期暨《2026具身智能专刊》






资讯频道