基于视觉语言动作模型的空间表征与动作生成方法综述
- 作者:
- 点击数:2480 发布时间:2026-02-10 13:36:47
- 分享到:
视觉语言动作(Vision–Language–Action,VLA)模型正日益成为构建通用具身智能的关键技术路径。本文从二维到三维空间表征演进以及自回归、扩散与强化学习等动作生成范式两个维度,对VLA研究进展进行了系统梳理,并介绍了该领域从二维感知向三维空间理解演进的过程,分析了基于自回归、扩散模型与强化学习等多种范式的动作建模方法在时序建模能力、任务适配性与泛化特性方面的共性与差异,进而对比分析了仿真平台与真实机器人系统中数据集、评测指标与系统架构的差异及其对模型泛化的影响,最后分析了VLA模型面临的空间理解、动作规划、数据效率及真实场景泛化等技术挑战,并对结构化三维表示、物理一致性动作生成、高效数据利用以及安全控制机制等未来发展方向进行了展望,从而为构建高效、可靠且可扩展的通用具身智能系统提供了参考。