ABB25年12月
关注中国自动化产业发展的先行者!
2026中国自动化产业年会
工业智能边缘计算2025年会
2025工业安全大会
OICT公益讲堂
当前位置:首页 >> 访谈 >> 访谈详情

访谈频道

迈向自主智能——具身智能的技术突破与工业落地
  • 点击数:17     发布时间:2025-09-10 20:45:10
  • 分享到:
在人工智能迈向更高阶发展的今天,“具身智能”(Embodied AI)正成为继语言大模型之后又一个备受关注的前沿方向。
关键词:

image.png 

西安交通大学二级教授,博士生导师 兰旭光

在人工智能迈向更高阶发展的今天,“具身智能”(Embodied AI)正成为继语言大模型之后又一个备受关注的前沿方向。它强调智能体通过与环境互动实现感知、推理与行动的统一,是实现通用人工智能(AGI)的重要路径之一。近日,我们专访了西安交通大学人工智能学院兰旭光教授,他就具身智能的核心挑战、技术路径与工业应用前景进行了深入解读。

记者:请您从技术和产业层面谈谈“具身智能”的发展?

兰旭光:随着算力的极大提升、大规模数据的获取日益便捷以及多种新型AI模型的涌现,人类长期以来对“智能体与环境交互并实现进化适应”的追求正在加速转变为现实。“人工智能”“具身智能”与“人形机器人”常被混为一谈,实际上三者各有侧重:人工智能更注重算法和计算层面的信息处理与认知能力提升;人形机器人的核心在于实现具有类人形态的物理载体;具身智能则注重“智能体—环境—算法”三位一体的协同演化,更强调如何在物理实体中充分利用感知、决策和执行机制,并在环境交互中不断演进。当前研究与应用主要聚焦以下五大核心领域:面向具身技术的仿真引擎(Simulators)、具身感知(Embodied Perception)、具身交互(Embodied Interaction)、具身智能体(Embodied Agent)、虚实迁移方法(Sim-to-Real Adaptation),它们构成更通用、更自主且更具协作性的智能形态的关键环节。

具身智能在满足国家重大需求以及提升关键领域竞争力方面具有巨大潜力,应用范围涵盖国防安全、应急救援、太空探索,以及医疗康复、养老助残、智能家居和智能制造等民生领域。近年来,具身智能正不断催生出新的产业形态,有望深刻改变社会的生产方式和生产关系,并以空前速度与深度重塑世界。在产业层面,具身智能与制造业、农业、服务业等深度融合,创造出新业态、新模式,成为经济增长的新引擎。目前全球各大科技巨头均投入了巨额资源来开发人形机器人、自动驾驶汽车、工业机器人及无人机等具身智能产品。就我们中国市场而言,中国已成为全球最大的机器人消费市场和生产基地,国家政策的大力支持极大推动了具身智能产业的发展。

在工业制造领域,国产机器人迅速崛起,新松机器人、埃斯顿机器人等企业的产品广泛应用于汽车制造、电子装配、机械加工等领域。此外,国际巨头ABB在上海建立了全球最大规模的机器人超级工厂,为中国及亚太地区提供更加高效的机器人解决方案。在物流服务领域,中国本土企业极智嘉(Geek+)取得快速发展,其自动仓储机器人系统已广泛服务于阿里巴巴、京东等大型电商企业,极大提高了物流效率和仓储管理自动化水平。在智能交通领域,百度Apollo在无人驾驶领域不断实现技术突破,第六代无人驾驶出租车RT6在北京、深圳等多个城市实现了规模化商业运营。小马智行(Pony.ai)也在广州和北京的Robotaxi实现了无安全员运营,并成功登陆美国资本市场,估值超过85亿美元,成为具身智能交通应用的重要里程碑。在服务机器人领域,宇树科技(Unitree)在2023年发布了价格亲民的人形机器人H1,进一步推动了人形机器人的产业落地和市场普及,显示出中国企业在成本控制和市场化推广方面的优势。此外,科沃斯和石头科技在家用扫地机器人领域取得突破,其高智能化、自动化的产品受到市场广泛欢迎。

记者:在您看来,工业场景的“高精度要求”与“强容错需求”如何倒逼技术迭代?您是否认同“非人形机器人将率先抢滩工业具身智能”这一趋势?

兰旭光:工业场景流程高度刚性、任务确定性强,传统非人形机器人(如工业机械臂、协作机器人和自动移动机器人)经过多年迭代,已在特定工序中积累丰富经验并表现出优异的稳定性,显著提升了生产效率。若在这些成熟执行体上加载生成式人工智能驱动的“智能大脑”,最有可能在工业领域率先实现具身智能的规模化落地。总体而言,非人形与人形机器人并非零和替代关系,而是优势互补、协同共存:短期内非人形机器人占据主导,中长期则多形态融合,共同构建具身智能生态。

短期内,非人形机器人仍将主导工业自动化,原因主要体现在以下三方面:

第一,非人形机器人在高重复、严精度任务上优势显著。以半导体晶圆搬运为例,薄而脆的晶圆需满足近乎零容错率的搬运标准。领先厂商为移动机器人配置步距精度达毫米级的微驱动模组,实现毫米级移动并轻拿轻放精密部件。在航空发动机叶片装配中,高分辨率三维视觉定位与六自由度力觉控制协同,可将装配误差控制在0.01mm以内。

第二,经过十余年技术迭代,非人形机器人成本大幅下降,可靠性显著提高。国际机器人联合会数据显示,国内工业机器人平均价格已从2016年的30万元降至2023年的18.8万元。相比之下,人形机器人因关节众多且结构复杂,成本远高于非人形平台:早期Atlas造价逾百万美元,Digit亦高达数十万美元,特斯拉Optimus的物料成本约数十万美元。以机械臂为代表的非人形机器人目前具有更高的投入—产出比。

其三,非人形机器人技术成熟度高,易于集成部署。非人形机器人可通过视觉伺服、柔顺力控与数字孪生仿真快速强化感知与闭环控制,并与流水线式刚性工位天然契合,无需大规模改造即可部署。结合激光SLAM与视觉语义理解的协作机器人和自动搬运车,已能够在动态环境中实现稳定交互,进一步稳固了其在工业高精度、低误差流程中的领先地位。

工业生产对极端精度与可靠性的需求正在促使相关技术持续升级。一方面,为满足航空、航天等高端制造环境的微米级装配精度,硬件正向高分辨率传感与高刚度执行模组演进。另一方面,极低容错率推动控制算法由开环转向与硬件深度耦合的闭环架构。基于实时力觉反馈的柔顺控制、碰撞检测与避障算法,以及异常检测和预警机制等多层级安全策略已成为工业机器人系统的标配。例如在航空叶片装配过程中,即使出现轻微位置偏差,系统亦可依赖视觉和力控双重反馈实时修正路径,从而避免损伤。数字孪生平台的引入,使算法能够在虚拟环境中进行大规模仿真测试,显著缩短调试周期并提升系统鲁棒性。综合来看,工业环境对极端性能的要求正在加速感知、控制与规划算法的迭代,为具身智能在工业场景的快速落地奠定基础。

中长期而言,人形机器人具有独特的战略价值。首先,人形机器人在复杂非结构化环境中的适应能力更强,可在跨场景中执行多样化任务。当前建筑、家具与生产设备多基于人类体态设计,人形机器人因模仿人类而天然适应此类环境,无需额外改造即可进入现场。例如,圆盘式扫地机器人难以覆盖床底和墙角等死角,而人形机器人可凭借灵活的肢体完成清洁和检测任务。在汽车装配线中,机械臂可承担大部分流程,但“弯腰进入车内系安全带”之类任务仍需人类或人形机器人完成。

其次,人形机器人因体态接近人类,在共享空间中的人机交互更自然,可与人类协同作业而无需隔离措施。在教育、医疗与服务场景中,其友好外形亦符合“技术具备温度”的社会期待。

进一步而言,生成式大模型已在语义解析、多模态融合、知识推理、个性化学习与跨域泛化领域表现出了前所未有的能力。大模型与硬件技术的持续演进,为人形机器人打开了广阔想象空间。有研究预测,未来10–20年,人形机器人成本有望降至数万元量级,相当于低端电动车价格。一旦算法与核心部件成熟,人形机器人将在柔性制造、物流配送、仓储巡检以及救灾、个性化服务等场景发挥不可替代的作用。

记者:针对人形机器人在生产场景中的进一步应用,其还面临哪些技术瓶颈?有何解决路径?

兰旭光:当前的人形机器人仍面临多重技术瓶颈。首先,双足行走需处理多维感知输入与高自由度轨迹规划,尤其在负载状态下保持与人类相当的步速仍属挑战,强化学习与模型预测控制尚未取得根本性突破。其次,多指协调、触觉感知及微米级位置控制对软硬件均提出更高要求,许多精细操作尚难在双足双臂机器人上稳定实现。进一步,现有高端人形机器人成本动辄百万美元,但耐久性和可靠性仍难满足工业连续作业需求。业界制定的人形机器人“1500h无故障”目标亟待在传动件寿命与续航能力方面取得突破。最后,现有大语言模型可解释性差、易出现幻觉、缺乏因果推断,对物理场景理解薄弱,且算力—能耗效率不高,难以支撑复杂场景下的通用作业。

为缓解上述问题,我们正尝试面向物理世界交互任务,受人类认知机制启发,并基于“认知可穿透性”原则设计新一代的认知机器人系统。该系统能够主动感知并获取环境信息,借助记忆、想象、规划、决策、行动与协同、学习等认知过程,在开放且动态的环境中持续提升其泛化能力,以应对数据匮乏、多模态信息融合困难及因果推理能力不足等挑战。受双系统处理模式、想象性认知、稀疏激活机制、反馈效应与大脑可塑性等神经科学与认知心理学发现的启发,认知机器人能够模拟人类的“感知-想象与规划-行动-反馈与学习-协同-再感知”闭环认知活动,在开放环境下利用有限经验进行推理与泛化。例如,通过多模态感知和内部模拟,实现对未见场景的因果推断与启发式搜索,主动生成符合全局目标的行动方案。又如,将实时偏差转化为误差信号,驱动策略自适应迭代,并在多主体协作中整合他人意图与情绪动态调整计划,使群体行为快速收敛。人类认知的引入有望显著提升人形机器人在动态平衡、灵巧操作等方面的表现,为其在复杂场景中的长期自主运行和与人类的自然互动奠定理论基础,从而成为迈向“通用型”具身智能的关键发展路径。

展望未来,非人形与人形机器人将形成多形态协作的具身智能体系。在典型生产场景中,机械臂负责高速精准加工,自动搬运车负责物料运输,人形机器人承担灵活度与场地适应性更高的工作。三者通过云端大模型与本地智能体协同决策,实现多机协作。例如在半导体制造、智能物流与装配巡检等领域,可利用多模态感知融合与领域大模型构建协同系统,率先落地混合机器人系统;群体智能算法使多台机器人可根据任务需求自动分工并协同作业,形成动态柔性生产线。未来的工业具身智能赛道不会被单一形态垄断,而是依靠非人形与人形机器人深度融合、各展所长,以整体智能协作模式大幅提升生产力。随着多智能体与人机协同技术的持续进步与标准化,智能工厂将实现高度可靠且灵活的生产,为制造强国建设提供有力支撑。

记者:您如何解读具身智能的未来发展趋势?

兰旭光:具身智能的未来演进将围绕“感知—学习—想象—协同”四个关键方向,构筑从低层物理执行到高层认知决策的多层次智能体系。这标志着AI从“算力驱动”向“理解驱动”跨越,为进一步迈向“类人智能”乃至“通用人工智能”提供了清晰的技术路线,推动产业发展并全面提升人类生活品质。

具身智能既连接了“大脑—小脑”(感知、规划、决策算法)与“躯体”(物理载体),也将感知、运动、环境和社会等多维要素纳入统一考量,正成为驱动新一轮科技革命和产业变革的核心力量。尽管在高度动态与不确定性的真实环境中,当前方法尚不足以进行完善的因果推理和灵活规划,但借鉴人类主动探测、持续交互和闭环学习的认知机制,必将助力具身智能实现跨越式发展。

未来十年,随着高效算力设施的广泛部署、智能算法的不断迭代以及社会需求的持续增长,具身智能将在工厂车间、物流仓储、家庭服务、医疗康复、城市交通等各个领域持续落地,深刻改变人类生产生活方式,并孕育出全新产业形态和经济模式。它所带来的不只是效率提升,更是从“算力驱动”迈向“理解驱动”的范式转变,是智能机器人迈向“类人智能”乃至“通用人工智能”的关键。唯有秉持对未知世界的持续探索与思考,并在政策、伦理、法规及跨学科协同等多方面形成合力,方能在具身智能的宏大图景中,与时代同行,迎接更加智慧与繁荣的新纪元。

兰旭光,西安交通大学二级教授,博士生导师,国家杰出青年科学基金获得者,国务院学位委员会学科评议组成员。现任西安交通大学人工智能学院党委书记,中国自动化学会共融机器人专委会主任委员,中国认知科学学会理事、副秘书长,人工智能学会“认知系统与信息处理”专委会副主任委员,仿真学会“智能无人系统建模仿真”专委会副主任委员。主持国家自然科学基金重点、国家科技重大专项、科技创新2030人工智能重大项目、国家重点研发计划项目等10余项国家项目。

摘自《自动化博览》2025年8月刊

热点新闻

推荐产品