中国科学院沈阳自动化研究所 王宗宇,夏长清,李栋,曾鹏
关键词:具身智能;本体智能;群体智能;网算协同智能
1 具身智能概述与发展历程
具身智能(Embodied AI)是人工智能领域的前沿方向,其核心在于智能体通过物理实体与环境交互,在持续学习与适应中实现自主决策与行为执行。与无实体的、以纯软件形式存在的“离身智能”相比,具身智能还具备物理实体,例如智能机器人、智能驾驶汽车等,拥有感知环境和与环境动态交互的能力[1],能够直接参与生产实践。
具身智能的演进大致经历了三个发展阶段。第一阶段是20世纪50至80年代,以第一台工业机器人Unimate为代表,其智能仅限于预设程序,缺乏环境适应能力。20世纪80年代, Rodney Brooks开始直接关注通过感知和动作驱动的环境交互来设计智能机器。自此,行为主义AI开始发展,主张通过身体与环境的交互来产生智能[2]。第二阶段是90年代至21世纪初,传感器技术的进步使机器人开始具备感知能力,例如本田的ASIMO机器人能通过视觉传感器识别障碍物,但智能仍局限于特定场景。在群体智能方面, 90年代诞生了蚁群优化算法、粒子群优化算法,为早期群体智能实现了软件算法层面的突破。第三阶段是2010年至今,互联网和深度学习使机器人从“单个执行机器”升级为“与人交互协作智能体”[3]。2022年后大语言模型(Large Language Model,LLM)的突破性进展,为具身智能提供了强大的推理能力,使其能够通过自然语言理解任务,并自主规划行动路径。为了推动具身智能从个体智能迈向群体协作,多智能体协作系统也日渐成熟,例如京东零售发布并开源的OxyGent多智能体协作框架,可实现智能体间的无缝协作、弹性扩展与全链路可追溯。
具身智能被视为推动产业升级与科技竞争力提升的战略核心技术,受到国内外各界的高度重视。 2023年,美国白宫更新《国家人工智能研发战略计划》(The National Artificial Intelligence R&D Strategic Plan),聚焦机器人、人工智能等具身智能体关键环节,重点关注人工智能交互和协作的新范式。 2025年“两会”期间,具身智能首次被写入政府工作报告,并作为未来产业的重要组成部分,标志着其正式进入国家战略规划,是“十五五”重点发展的未来产业。北京、浙江、广东等地相继出台政策支持,计划培育千亿级产业集群,具身智能的产业化进程显著加速。国务院发展研究中心相关研究报告认为,中国具身智能产业市场规模有望在2030年达到4000亿元,2035年突破万亿元[4]。
具身智能发展至今,大体形成了两条路径:面向个体能力的“本体智能”和面向协同演化的“群体智能”。本体智能关注单个智能体的能力,使用传感器获取环境信息,并通过内置的大模型理解任务并生成行为策略。群体智能则指多个具身智能体通过协作形成的集体智能体,主要包括通信、任务分配和协同决策,智能体之间通过信息共享和协调算法实现单体能力无法完成的复杂任务,例如无人机集群。发展本体智能和群体智能这两条路线并非互斥,而是互相补充,共同推动具身智能的发展和应用。具身智能结构如图1所示。

图1 具身智能结构
2 本体智能的关键技术及应用场景
本体智能是基于物理实体感知环境并执行行动的智能系统,是具身智能系统的基础单元,主要应用于智能制造、自动服务等场景。其技术架构涵盖多模态感知、精细运动控制、大模型决策等部分。本体智能结构如图2所示。

图2 本体智能结构
多模态感知技术是智能体理解环境的前提。具身智能体需模拟人类的视觉、触觉、听觉等感官功能,通过传感器融合实现全面环境感知。视觉方面,高分辨率摄像头与激光雷达用于物体识别与导航;触觉方面,柔性触觉传感器能感知压力、温度与材质;听觉方面,降噪麦克风阵列可识别语音指令与环境声音。例如,清华大学研发的“纸质触觉传感器”将成本降至传统传感器的1/10,为大规模应用提供可能[5]。
运动控制与驱动技术决定了智能体的物理行动能力。仿生关节需要模拟人类的多自由度运动,而柔顺控制算法让机器人与外界环境接触的动作变得柔顺,例如阻抗控制和导纳控制。阻抗控制是控制机器人末端的动态关系,使其表现得像一个“弹簧-阻尼”系统。它接受位置指令,并根据实际位置与期望位置的偏差(即接触力导致的形变),计算出需要输出的力矩/力。导纳控制的逻辑与阻抗控制相反,它首先通过力传感器检测到外部作用力,然后根据这个力偏差,计算出需要调整的位置或速度指令,再传递给底层的位置控制器执行。近年来为了让机器人完成更多复杂的动作,宇树科技、波士顿动力等前沿企业在这些经典控制算法的基础上使用了强化学习、模型控制预测等算法,提高了具身智能的动态性能。
大模型赋予智能体任务理解与规划能力,使其能够响应自然语言指令,例如,只需对机器人说“把桌上的苹果递给我”,它便能自动识别目标并规划路径。然而,现有利用视频学习策略的工作都是基于图像级别的视频生成,这不仅计算成本高,而且生成结果较差。清华大学高阳研究组通过预训练轨迹模型来预测视频帧内任意点的未来轨迹,实现通过视频为机器人提供演示,能自然地捕捉到物体空间移动的归纳偏差,并将物体运动与色彩和纹理分离开来,实现从人类到机械臂的跨具身一致性匹配。通过这些学习到的轨迹作为指导,机器人可以利用大规模无动作标签的人类视频演示中蕴含的先验知识,实现小样本动作标签演示数据训练鲁棒的机器人操作策略[6]。
在工业领域,优必选Walker S1机器人与比亚迪工厂的无人物流车协同作业,提升了生产效率;在医疗领域,手术辅助机器人通过触觉反馈帮助医生完成微血管缝合;在家庭服务中,养老陪护机器人可监测心率、检测跌倒,并提醒服药。此外,特种场景如核辐射巡检、火灾救援等,也逐步采用具身智能体替代人力。
3 群体智能的协同机制与系统架构
群体智能是相对于本体智能的概念,指多个具身智能体通过协作与信息共享形成的集体智能行为。有一些场景,例如仓储管理、自动驾驶等领域需要具身智能体实现集群协同。为了实现这个需求,群体智能需要实现实时性、资源的合理分配、分布式决策,以完成超出个体能力的任务[7]。

图3 群体智能结构
群体智能的技术基础依赖于通信协议、协调算法与分布式决策机制。首先智能体间需建立低延迟、高可靠性的通信网络,当前的技术前沿聚焦于构建标准化的通信协议,以实现不同来源、不同架构的智能体之间的无缝对话。例如, MCP为大模型提供了标准化调用外部工具(如数据库、API)的能力;而A2A协议则致力于成为智能体之间的“通用语言”,其通过定义标准的任务描述、发现和结果返回格式,支持复杂得多智能体任务协作。5G等先进无线通信技术凭借其高带宽、低时延和海量连接的特性,为以上协议的实现提供了基础,使得群体智能的实时数据同步成为可能。
协调算法如蚁群优化、粒子群优化等,被用于任务分配与路径规划,确保群体行为的一致性。蚁群算法模拟蚂蚁通过信息素进行间接通信的机制。在路径规划、任务分配等优化问题中,智能体通过在解空间发送虚拟信息素,引导其他个体趋向更优解,最终自发寻找出高效路径。粒子群优化算法受动物社会行为启发。每个智能体被视为一个“粒子”,通过跟踪自身历史最优解和群体历史最优解,动态调整自身的飞行速度和方向,从而使整个群体逐步收敛到问题的最优区域。
分布式决策允许智能体在无中心节点的情况下通过局部交互达成全局目标。实现分布式决策的关键在于确保群体状态一致的分布式共识算法(如RAFT算法的变体),在资源或任务目标冲突时,能够高效协商出解决方案的冲突解决机制,以提升系统的鲁棒性与高可用性。
群体智能的典型应用包括工业自动化、灾害救援与城市管理等。在工业场景中,优必选Walker S2机器人集群在极氪5G智慧工厂实现群体协同作业,共同完成物料搬运与装配[8] ;在救灾任务中,多机器人集群可覆盖大面积区域,快速定位被困人员;在智能交通领域,车辆与路侧设备通过车联网通信优化交通流量,减少拥堵。这些应用显示,群体智能能显著提升任务效率与系统适应性。
4 支持具身智能应用的资源调度技术
群体智能的发展对资源的高效协同提出了前所未有的需求,尤其是在动态、实时的物理环境中。资源高效协同是群体智能发展的趋势。实现群智协同的关键,正从单纯的个体能力提升,转向构建能使多智能体快速感知、灵活接入、协同决策与分布式控制的资源协同体系。图4是其几个关键的发展趋势。

图4 群体智能的资源调度技术
动态环境下的多源资源快速感知与自适应接入机制:通过接口自适配技术(如RESTful API/gRPC)和全域资源虚拟化映射模型,将地理上分散的、属于云边端的所有计算节点抽象成一个统一的“虚拟算力池”。群体智能的开发者无需关注底层资源的具体差异,只需要调用统一接口,即可根据应用需求灵活调动所需的网算资源。
面向群体智能的分布式任务卸载与实时协同调度技术:面对复杂任务,需有机制能动态将其分解并分配给最合适的智能体。这涉及智能的任务路由、负载均衡和实时调度算法,确保任务高效执行,同时优化整体资源利用率和系统响应速度。例如,有研究提出通过实时监测各边缘节点的资源利用率、网络带宽等指标,并据此动态调度任务,以应对负载变化。
群体具身智能体的协同分布式控制技术:当智能体拥有物理身体(如机器人),协同控制至关重要。这要求突破多机协同控制技术,实现轨迹规划、负载辨识与柔顺控制等方面的协同。例如,在协同搬运大尺寸工件时,多个机器人需要动态调整姿态与力度,确保搬运过程的稳定性。这类似于自然界中蚁群通过局部交互完成复杂任务所展现的分布式决策与自适应特性。
在未来应用场景中,资源调度技术将在具身智能生态中占据重要地位。例如,在汽车零部件柔性生产线场景下,生产管理系统收到一个新订单,不会直接命令具体的自主移动机器人(Autonomous Mobile Robot, AMR),而是向网算调度软件提交一个json格式的声明式配置文件,表达类似于“需要在15分钟内,将底盘组件从仓库运至1号工位,并将发动机运至2号工位,随后进行初步协同装配。”的任务需求。随后调度软件的资源协同调度器开始工作,根据资源感知模块提供的实时数据(哪些AMR空闲、电量如何、当前所处位置;边缘服务器的GPU负载等),进行融合调度决策。
其中一台AMR在执行任务的途中发现路径上被临时堆放的物料阻塞后,通过运行在本地的大模型及时规避障碍,并将路径变化信息和障碍点云上传到云端和其他AMR共享,为其他AMR重新规划行为策略。 AMR-1到达装配生产线后,需要调用CV算法进行精密操作,向网算调度软件提出申请虚拟化GPU资源,以实现更高级别的定位精度。与此同时通过TSN 5G网络与联网的机械臂在精确的时间窗内同步动作指令,避免碰撞或装配错误。
在这个场景中,网算调度软件是群体智能的核心,而具身智能AMR是执行任务的终端。软件将一群独立的智能体真正融合成了一个协同合作的智能集群,解决了资源冲突问题,并自动分配算力和网络,避免了争抢。其通过全局感知和调度,保证了个体行为符合全局目标。通过弹性伸缩,可以轻松地向系统中加入更多AMR,软件会自动集成和管理,实现了大规模群体智能。
5 未来发展挑战与展望
具身智能的发展仍受制于硬件成本、数据稀缺与算法可靠性。例如灵巧手等精密部件的制造成本高昂,且大模型训练所需真实数据获取难度大,易获取的仿真数据与真实世界有偏差。群体智能方面,动态环境中的信号干扰可能导致信息丢失或延迟,需要提高通信可靠性,并且网络攻击可能导致系统的安全与隐私存在隐患。此外,群体智能的“可解释性”不足,其决策过程往往难以追溯,可能引发伦理问题。为解决这些问题,研究正聚焦于加密通信、粒子群算法等技术的集成,以在保障安全的前提下提升协作效率[9]。
攻克具身智能的技术挑战是一项系统工程,需要感知、控制、人工智能、网络、材料等多学科的深度融合。在硬件方面,要通过产业链的整合升级与模块化复用,降低具身智能硬件成本,同时要“软硬件结合”,使用网算资源调度策略来提高算力硬件的利用率;在数据方面,要建设一批开源高质量数据集,完善我国AI领域数据集生态,打破企业之间的“数据孤岛”,汇聚集体智慧;在算法方面,需要在真实场景中迭代,推动具身智能“走出实验室”。未来应沿着强化个体智能与优化群体协同两条主线并行推进,同时以资源调度等底层软件技术为支撑,最终实现具身智能在工业、家庭、医疗等复杂场景中的规模化、成熟化应用,使其真正成为推动社会进步的关键生产力。
作者简介:
王宗宇(2002-) ,男,硕士,现就读于中国科学院沈阳自动化研究所,研究方向为工业互联网、工业人工智能。
夏长清(1985-),男,研究员,博士,现就职于中国科学院沈阳自动化研究所,研究方向为工业互联网、工业人工智能。
李 栋(1986-),男,研究员,博士,现任中国科学院沈阳自动化研究所工业控制网络与系统研究室主任,研究方向为工业互联网、工业人工智能。
曾 鹏(1976-),男,研究员,博士,现任中国科学院沈阳自动化研究所副所长,研究方向为工业互联网、工业人工智能。
参考文献:
[1] Smith L, Gasser M. The development of embodied cognition: Six lessons from babies[J]. Artificial life, 2005, 11 (1 - 2) : 13 - 29.
[2] 中国信息通信研究院. 具身智能发展研究报告[R]. 2024.
[3] 赵晓光. 从机器人到具身智能: 人工智能的 “具身化”演进[J]. 北京人大, 2025, 26 (9) : 31 - 35.
[4] 新华网. 具身智能冷思考[EB/OL]. 2026 - 01 - 05.
[5] Qu J, Mao B, Li Z, et al. Recent progress in advanced tactile sensing technologies for soft grippers[J]. Advanced Functional Materials, 2023, 33 (41) : 2306249.
[6] Wen C, Lin X, So J, et al. Any-point trajectory modeling for policy learning[J]. arXiv preprint arXiv: 2401.00025, 2023.
[7] 庞乐. 群体智能算法的分析与应用[J]. 电子技术, 2024, 53 (09) : 36 - 37.
[8] 程远州. 人形机器人工厂协同实训[N]. 人民日报, 2025 - 03 - 04 (02).
[9] Priyadarshi R, Kumar R R. Evolution of swarm intelligence: a systematic review of particle swarm and ant colony optimization approaches in modern research[J]. Archives of Computational Methods in Engineering, 2025 : 1 - 42.
摘自《自动化博览》2026年第一期暨《2026具身智能专刊》






资讯频道