ABB banner26年4月
关注中国自动化产业发展的先行者!
人工智能+制造融合创新研讨会
2026中国自动化产业年会
2025工业安全大会
OICT公益讲堂
当前位置:首页 >> 资讯 >> 行业资讯

资讯频道

具身智能仿真平台研究与测试
  • 点击数:2476     发布时间:2026-02-10 10:37:28
  • 分享到:
具身智能作为人工智能与物理世界交互的直接形态,正成为全球科技竞争的战略制高点。仿真平台作为具身智能算法训练与验证的关键基础设施,是智能体从虚拟走向现实的关键载体。本文对具身智能仿真平台的典型功能、发展现状开展研究,提出了具身智能仿真平台评测指标,并以某款国产具身智能仿真平台为例,开展功能完备性与性能效率评估,最后对具身智能仿真技术的未来发展方向进行了展望。
关键词:

中国信息通信研究院 唐天旭,于青民,张蔚敏,田霞中移(杭州)信息技术有限公司 周伟刚,翟尤

1  引言

随着人工智能(Artificial Intelligence,AI)技术从单纯的信息处理向物理交互迈进,具身智能(Embodied Artificial Intelligence, EAI)已成为全球科技竞争的新高地。过去十年,具身智能从早期单一任务控制研究逐步迈向多任务通用智能研究[1],尤其是在2024至2025年间,具身智能产业在中国迎来了爆发式增长,被视为新一代人工智能技术的重要浪潮。在这一进程中,仿真平台作为具身智能的“数字摇篮”与“训练场”,其战略地位变得前所未有地重要。具身智能仿真平台不仅是算法验证的低成本环境,也能够缓解真实物理世界具身智能数据匮乏问题,低成本、高效率、高安全性地使具身智能完成数万次的模仿学习与强化学习交互演练。

2  具身智能仿真平台的典型功能与发展现状

具身智能仿真平台的典型功能通常包括:物理与渲染引擎系统、三维资产生成、数据合成功能。随着新兴技术的发展,世界生成模型成为了数据合成功能的新路径。

2.1   物理与渲染引擎系统

物理与渲染引擎是仿真平台的底层支柱和计算核心,决定了虚拟环境的保真度与交互的有效性。

物理引擎系统的主要职能是执行刚体动力学的数值模拟,能够为机械臂抓取、移动机器人导航等具身智能任务提供符合物理定律的交互环境。刚体是指在受力或运动过程中,形状和大小均保持不变的理想化物理模型。在仿真环境中,各类具身智能形态如机械臂、人形机器人或机器狗,通常都被抽象为多刚体系统,由多个刚体连杆通过关节连接而成。物理引擎通过经典力学原理与运动学约束进行受力分析,在具身智能任务中模拟物体的运动轨迹,计算刚体在碰撞、摩擦等物理交互过程中的实时状态与变化。典型的物理引擎功能如图1所示。

图片1.png

图1 物理引擎功能

渲染引擎系统用于构建高保真感知环境,视觉是具身智能体获取环境信息的主导模态,该系统的核心职能在于为具身智能生成逼真的视觉数据,而光线追踪(Ray Tracing)技术是实现增强视觉渲染保真度的关键手段。光线追踪是一种通过模拟光线在三维场景中的传播路径来生成逼真图像的计算机图形学技术,其核心原理包括光线发射、交点检测、递归追踪及光照计算,能够精确呈现反射、折射和全局光照效果[2],从而为具身智能提供更接近真实世界的视觉信息,显著缓解仿真与现实之间的视觉分布差异。典型的渲染引擎系统与光线追踪技术如图2所示。

图片2.png

图2 渲染引擎系统与光线追踪技术

目前,在具身智能仿真平台领域,物理引擎与渲染引擎正逐渐实现深度融合。新一代具身智能仿真平台集成多种物理求解器和光线追踪渲染,将可微分性纳入考量,并引入生成式AI重塑场景构建流程,具身智能仿真平台正在实现从纯算法模拟向生成式仿真的演进。此外,物理引擎与渲染引擎均需要大量计算,具身智能仿真平台普遍采用GPU加速的并行计算架构快速生成任务实例,为具身智能模型的大规模并行强化学习提供了物理保障。

2.2   三维资产生成

三维资产是构建复杂仿真场景的原子单位。随着生成式AI技术的发展,资产生成正从手动建模向自动化生成演进。

自动化生成机制允许系统根据文本描述、草图或单张参考图像自动合成3D模型。生成的资产不仅包含视觉网格,还自动配置了物理属性,如碰撞几何体与转动惯量。可动性建模是具身智能资产生成的重点,平台需确保生成的物体如抽屉、橱柜等具备正确的机械结构与运动自由度。通过集成程序化布局算法,平台能够将孤立的资产按照逻辑规则自动组合为具备语义一致性的复杂场景,为智能体提供多样化的交互对象。图3展示了输入二维图像生成三维资产的过程。

图片3.png

图3 二维图像生成三维资产技术

2.3   数据合成及世界模型生成

数据合成是具身智能仿真体系中的系统化工程手段,旨在解决真实场景下样本稀缺、标注成本高昂的难题。作为一种工业化的数据生产系统,其核心职能是将可交互的环境转化为结构化、规模化的训练资源。该过程关注数据生成流水线的构建,涵盖任务调度、自动化采样、分布控制及自动标注等环节,利用可控的仿真参数及自动化采样机制,能够批量生成多模态训练样本。例如,许华哲团队提出的DemoGen方法[3],能以一条人类演示为“种子”, 自动合成出大量包含空间变化、避障等行为的操作数据,极大地节省人力成本。

世界模型(World Models)是一种新兴的具身智能数据合成的关键技术,作为一种概率生成模型,其基本逻辑是建立环境状态、动作与未来观测之间的映射关系,核心目的是理解环境动态并计算下一时刻演化,从而支持智能体后续的决策规划[4]。对比传统仿真环境,世界模型通过大规模视频数据学习,通常拥有更逼真的光影效果、纹理细节,同时能够根据文本或图像指令,生成无限种类的物体形状、材质或环境布局,相较于传统数据合成技术,世界模型在对流体、软体、布料等在传统物理引擎中难以模拟的高复杂度物理模型处理方面有着更加显著的优势,可直接通过像素级动力学学习,无需复杂数学建模,直接模拟出相关视觉表现。典型的世界模型生成技术处理流体的案例如图4所示。

图片4.png

图4 世界模型生成的视觉视频

世界模型的具体实现方式有多种:从基于模型的强化学习(Model-based Reinforcement Learning, MBRL) [5] ,模拟未来世界可能的发展轨迹,根据预测结果作 出决策 ;到联合嵌入预测架构 (Joint Embedding Predictive Architecture,JEPA) [6],包含处理感官数据的感知模块,以及评估这些信息、有效体现世界模型的认知模块,在抽象的特征空间中进行预测并引入双系统机制;再到基于大语言模型(Large Language Model,LLM)的世界模型以及视频世界模型。目前世界模型通常被认为需要满足以下关键条件:物理一致性与因果推理能力、长程时空预测能力、交互性以及多模态融合感知能力。李飞飞[7]等学者将物理一致性与因果推理能力、长程时空预测能力统称为生成性,即能生成语义、几何及物理一致的三维模拟环境;交互性指能根据动作预测系统状态变化,使智能体能够在模型内部进行试错探索,通过预测不同决策的后果来优化行为策略;多模态融合感知能力指可处理图像、视频、深度、文本等任意输入模态,从而增强模拟真实感并提升模型在复杂交互场景中的适应性与泛化能力。

2.4   产业发展现状

全球范围内,NVIDIA Isaac Sim[8]依托Omniverse生态和PhysX物理引擎,在实时光线追踪与大规模GPU并行仿真领域处于全球领先地位。AI2-THOR[9]是AllenAI开源的高精度具身智能仿真平台,利用前端Python API调用操作并通过服务器发送到Unity交互,主要用于视觉导航和目标交互任务。 Gazebo[10] 因其与ROS(机器人操作系统)有着深度集成并使用多种物理引擎而成为机器人开发的标准工具之一。Meta开发的Habitat[11]平台通过不断迭代创新,扩展了虚拟机器人的可训练任务类型: Habitat 1.0可训练虚拟机器人以高速在物理世界房屋的3D扫描中导航,Habitat 2.0引入了交互式环境, Habitat 3.0则支持虚拟机器人和人形化身,使它们能够完成日常任务中的人机协作任务。 Google的PyBullet[12]基于开源物理引擎bullet开发,封装成了Python的一个模块,用于机器人仿真和学习,因其开源属性与轻量化特性在学术界应用广泛。

国内方面,中国本土力量正在通过“原生创新”与“产业集成”两条路径实现追赶突围。 CMU机器人研究所研发的Genesis[13]平台,是一款从头开始重建的通用物理引擎,并实现了与生成式AI的深度耦合。该平台能够无缝整合文本、图像、音频和3D对象等多种模型,从而实现物理仿真的复杂对象和场景。相较于现有基准,Genesis仿真速度在仿真速度与跨平台兼容性方面有着核心优势。国家地方共建人形机器人创新中心联合上海大学、清华大学发布的具身智能仿真平台“格物”[14]基于Unity RL Playground强化学习框架,集成先进多模态运动控制技术,通过自动化流程体系加速算法迭代,并优化了从仿真到现实的迁移效率。腾讯Robotics X实验室与福田实验室联合发布的具身智能开放平台Tairos[15],以模块化方式集成大模型、开发工具和数据服务。平台包含模型算法层和云服务层,通过标准化接口和SDK提供服务,支持仿真训练与硬件对接。云端仿真环境预设多个机器人、场景任务、交互动作及可操作物体,支持高级位移、物体分解等功能。智元机器人推出的AgiBot Digital World[16] 以英伟达Isaac Sim为底层开发平台,集成三维资产、专家轨迹生成机制和模型评估工具,基于高保真模拟、域随机化、数据增强等手段,该平台能够自动生成大规模专家轨迹数据。中移具身智能创新中心的仿真平台旨在支持专业化训练场搭建。可生成大规模高质量训练数据,并覆盖四足、轮式及双足等多类型机器人的全流程训练与性能测试。

与此同时,以摩尔线程为代表的国产GPU厂商在硬件算力领域上取得的突破,为构建自主可控的仿真基础设施奠定了物理基础,但在统一计算设备架构(CUDA)生态兼容性优化及专用物理加速库的建设方面,仍面临诸多现实挑战。

3  具身智能仿真平台可用性测试评估基准

由于不同具身智能仿真平台的技术路径、底层引擎及硬件优化策略存在显著差异。为衡量具身智能软件系统的基础可用性与运行效率,中国信通院参考《GB/ T 25000.51-2016系统与软件工程 系统与软件质量要求和评价(SQuaRE) 第51部分:就绪可用软件产品(RUSP)的质量要求和测试细则》标准,提出功能性验证与性能效率量化两个仿真平台能力评测维度。

3.1   功能性测评指标

功能性测评主要关注具身智能仿真平台各项核心能力是否达到预期设计要求。

平台基础功能:验证主界面及仿真功能的可用性与正确性,确保用户能够准确配置仿真参数,3D渲染仿真功能、3D物理引擎仿真功能、数据资产生成功能等三大类仿真功能可用。

3D渲染仿真功能:验证具身智能仿真平台的3D渲染功能操作正常,包括添加场景、添加平面、点光源、导入机器人和对象修改等,并能顺利运行得到期望结果。

3D物理引擎功能:验证具身智能仿真平台的3D物理引擎功能操作正常,包括添加刚体、修改和查看属性,同时物理交互结果符合预期情况。

数据资产生成功能:验证具身智能仿真平台的数据资产生成功能正常,包括生成合成数据功能、生成3D资产功能和数据资产生成世界模型功能,要求满足物理属性和运动交互合理性,并输出反馈指标。

3.2   性能效率指标

性能效率主要关注仿真训练的稳定性和大规模扩展性。

资源占用率:在执行大规模渲染、刚体模拟任务或组合、交互任务时, CPU、GPU、内存占用值在合理范围内,以防系统崩溃或任务失败。

渲染稳定性:在大规模粒子系统(如100万个粒子)及复杂组合物体渲染任务中,系统保持稳定的帧率,无卡顿或闪退。

物理计算效能:在大规模刚体或三角网格碰撞任务中,物理每帧耗时是核心指标,反映了平台物理计算效能和算法先进程度。

数据合成任务可靠性:仿真平台应具备极高的数据生成成功率与稳定的生成速度。

4  具身智能仿真平台测试实例

本文依据测试评估基准,对国内某款新研发的具身智能仿真平台按提出的评估基准进行测试验证。测试GPU及服务器均采用国产, GPU型号为摩尔线程Moore Thereads S300 MT vGPU-1101,服务器型号为摩尔线程MCCXD800,32核CPU、512G内存、4T硬盘。测试结果如下:

功能测试中,该具身智能仿真平台具备三维物理模拟、视觉渲染、三维资产生成、仿真数据合成和世界模型等多样化能力,全面覆盖仿真平台基础应用需求;性能测试中,依托普通家用台式电脑与摩尔线程国产化GPU(Moore Threads S3000 MTvGPU-1101),该具身智能仿真平台物理引擎最高支持10万三角网格或10万刚体的碰撞模拟,渲染引擎最高可承载100万粒子的实时渲染。其中,数据合成任务中以“抓取-放置”典型任务为例测试,一组数据为250条视频,合成数据任务运行时,数据生成成功率为100%,生成速度为2.48条/分钟,一组数据大小为4.71GB。

根据上述测试数据分析,该国产具身智能仿真平台在功能完备性上符合设计预期,能够支持从基础场景构建到复杂世界模型生成的全流程任务。在性能效率维度,平台展现了优异的并行计算能力,特别是在大规模粒子渲染与高频物理碰撞预测中保持了较低的系统开销,也说明了国产核心硬件设备能够支撑具身智能仿真平台的一般需求。

5  结束语

具身智能仿真平台相较实训平台有着数据生成效率高、生成场景多样、训练安全性高、数据泛化性好等优势。本文深入探讨了具身智能仿真平台的核心功能架构,包括物理渲染引擎、数据合成、三维资产生成及世界模型生成等关键技术。针对当前行业缺乏统一量化标准的现状,本文构建了一套涵盖功能性验证与性能效率量化的可用性测试评估基准,并对某款国产仿真平台开展实测验证,证明了国产硬件搭载国产具身智能仿真平台的可用性。

6  挑战与未来展望

具身智能仿真技术已取得显著进展,但在Sim-to- Real上还有长足优化空间,虚拟环境在摩擦力、流体力学及传感器噪声等方面与真实世界仍然存在失真,可能导致算法迁移过程中性能下降。针对仿真与现实环境的性能差异,未来我们计划由任务成功率、现实环境参数采集比对等方面入手提出新的测试评估标准,在“可用性”与“生成效率”的基础上加入“数据实用性”与“保真度”等指标,以评判仿真平台对现实模拟的保真度。

作者简介:

唐天旭 (2001-),男,湖南邵阳人,研究生在读,现就职于中国信息通信研究院,研究方向为5G+工业互联网、具身智能。

于青民 (1991-),女,山东烟台人,高级工程师,硕士,现就职于中国信息通信研究院,研究方向为工业互联网、复杂系统控制与优化。 (本文通信作者)

张蔚敏 (1990-),女,内蒙古呼和浩特人,高级工程师,硕士,现就职于中国信息通信研究院,研究方向为人工智能标准化及产业研究,包括具身智能、 AIGC、基准测试等。

田   霞 (1998-),女,山西大同人,助理工程师,硕士,现就职于中国信息通信研究院,研究方向为人形机器人、具身智能、电信服务业等。

周伟刚 (1992 - ),男,湖北人,中级工程师,硕士,现就职于中移(杭州)信息技术有限公司,研究方向为机器人仿真及运控。

翟   尤 (1998-),女,河南人,硕士,现就职于中移(杭州)信息技术有限公司,研究方向为具身智能仿真及数据生成相关领域。

参考文献:

[1] Liu Y, Chen W, Bai Y, et al. Aligning cyber space with physical world: A comprehensive survey on embodied AI[J]. IEEE/ASME Transactions on Mechatronics, 2025.

[2] 盛斌. 虚拟现实理论基础与应用开发实践[M]. 上海交通大学出版社, 2019.

[3] Xue Z, Deng S, Chen Z, et al. Demogen: Synthetic demonstration generation for data-efficient visuomotor policy learning[J]. arXiv preprint arXiv:2502.16932, 2025.

[4] Ding J, Zhang Y, Shang Y, et al. Understanding world or predicting future? a comprehensive survey of world models[J]. ACM Computing Surveys, 2025, 58 (3) : 1 - 38.

[5] Ha D, Schmidhuber J. Recurrent world models facilitate policy evolution[J]. Advances in neural information processing systems, 2018, 31.

[6] LeCun Y. A path towards autonomous machine intelligence version 0.9. 2, 2022-06-27[J]. Open Review, 2022, 62 (1) : 1 - 62.

[7] LI F F. From Words to Worlds: Spatial Intelligence is AI's Next Frontier [EB/OL]. (2025-11-10) [2026-01-08]. https:// www.worldlabs.ai/blog/from-words-to-worlds-spatial-intelligence-is-ais-next-frontier.

[8] NVIDIA. NVIDIA Isaac Sim [EB/OL]. (2021) [2026-01-08]. https://developer.nvidia.com/isaac-sim.

[9] Kolve E, Mottaghi R, Han W, et al. Ai2-thor: An interactive 3D environment for visual AI[J]. arXiv preprint arXiv:1712.05474, 2017.

[10] Koenig N, Howard A. Design and use paradigms for gazebo, an open-source multi-robot simulator[C]. 2004 IEEE/RSJ international conference on intelligent robots and systems (IROS)(IEEE Cat. No. 04CH37566). Ieee, 2004, 3 : 2149 - 2154.

[11] Savva M, Kadian A, Maksymets O, et al. Habitat: A platform for embodied AI research[C]. Proceedings of the IEEE/ CVF international conference on computer vision. 2019: 9339-9347.

[12] Coumans E, Bai Y. Pybullet, a python module for physics simulation for games, robotics and machine learning[EB/ OL]. (2016-1-28)

[13] Gan C. Genesis: A Generative and Universal Physics Engine for Robotics[C]. IEEE International Conference on Robotics and Automation. 2025.

[14] Ye, Linqi, Boyang Xing, Bin Liang, Lei Jiang, Yan Peng, "Gewu Playground: An Open-Source Robot Simulation Platform for Embodied Intelligence Research." Science China: Technological Sciences. (2025).

[15] Tencent Robotics X. Tairos [EB/OL]. (2025) [2026-01-08]. https://tairos.tencent.com.

[16] 智元机器人. AgiBot Digital World [EB/OL]. (2025) [2026-01-08]. https://agibot-digitalworld.cn.

摘自《自动化博览》2026年第一期暨《2026具身智能专刊》

热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: