南方科技大学 谢齐家,李逸翔,彭冠旗,汤易博,陈文俊,阮理扬,覃冠臻,陈启致
深圳市迈特芯科技有限公司 吴土孙,曹敏
南方科技大学,深圳市迈特芯科技有限公司 刘嘉,余浩
1 引言
人工智能技术正经历从“云端集中式”向“边缘分布式”的重要演进,端侧AI作为这一演进的核心方向,已成为推动智能终端爆发的关键力量。具身智能(Embodied AI)作为这一转型的典型体现,指的是AI代理通过感知物理环境、作出决策并执行行动的闭环系统,与传统的离身智能(仅限于语言或视觉处理)相比,它更强调与物理世界的交互。这种转变不仅源于计算范式的演进,还受市场需求、隐私法规和政策导向的驱动。政策层面,中国国务院《关于深入实施“人工智能+”行动的意见》(国发〔2025〕11号)明确提出,到2027年实现智能体终端普及率达到70%[1],为行业发展提供了明确指引。

图1 端侧大模型的具身智能化
端侧AI兴起的深层逻辑在于其能够有效解决云端AI存在的延迟高、隐私风险大、依赖网络连接等问题。英伟达CEO黄仁勋指出: “未来AI推理的需求可能是今天的十万亿倍”,其中大部分需求将由端侧场景承载。然而,当前端侧大模型推理面临结构性瓶颈:传统架构沿用云端GPU的算力堆砌模式,导致功耗高(5W)、带宽利用率低(<40%)和成本难以控制。这些挑战限制了具身智能在实际场景中的落地。

图2 “云-边-端”具身推理部署
在此背景下深圳市迈特芯科技有限公司(以下简称:迈特芯科技)与南方科技大学的联合团队针对手机、平板、PC及具身智能市场,聚焦个人智能体本地化部署需求,推出了一套自主可控的软硬件全栈解决方案。该方案依托新一代高能效、高带宽、低成本的国产端侧AI芯片,配套自研SDK与AIOS操作系统,提供了AI任务本地化部署的一站式国产解决方案。
该方案涵盖软硬件两大核心层面。在硬件层面,首代AI推理芯片已在VCU128 FPGA平台完成验证,成功部署7B模型且推理速度达75Token/s,性能处于国际领先水平;量产芯片采用全自主国产28nm工艺结合3D堆叠封装,凭借独创的“立方脉动架构”及3D分布式I/O技术有效突破工艺瓶颈,实现了芯片功耗低于5W、带宽利用率超80%、目标推理性能达100tps的性能指标,在完全国产化前提下能效比超越竞品10倍,目前正与国内头部终端大厂联合开发,预计2026年实现量产。此外,面向端侧具身智能持续进化的需求,本方案还设计了推训一体的“小脑”芯片,通过与作为“大脑”的推理芯片异构集成,为实现在实机环境下的测试时训练(Test-time training)提供核心算力支撑。在软件层面,本方案确立了“大脑+小脑”的新硬件范式,开发了配套的高性能驱动SDK,支持大语言模型(LLM)、视觉-语言-动作模型(VLA)及视觉-语言-导航模型(VLN)等模型的快速部署,并构建了面向个人智能体及具身智能的AIOS操作系统,全面兼容RGB-D相机、激光雷达等传感器及机械臂、足式机器人等执行器,实现了多场景、多任务的高效协同与快速落地。
本文通过对以上技术方向的市场需求、技术进展与瓶颈进行分析,并最终对迈特芯科技提出的具身智能系统方案进行全方位阐述。
2 VLA市场需求及目前技术进展和瓶颈
具身智能及相关VLA领域正处于快速增长初期。多家市场分析机构预测,全球具身智能市场规模在2025年~2030年间将保持高速增长,年复合增长率预计超过15%,部分研究甚至提出可能达到39%[2,3,4]。在工业应用方面,市场需求正从单纯的产能扩张转向智能化升级,特别是在仓储物流与精密装配等环节,业界迫切需要能够理解自然语言指令(如分拣出红色的受损零件),并具备对未见物体进行零样本泛化(Zero-Shot Generalization)能力的智能体,以替代成本高昂且适应性有限的传统视觉系统。
2025年,以Physical Intelligence的Pi系列模型[5,6]及开源社区的WALL-OSS为代表的新进展,推动了该领域技术架构的显著演进。针对动作连续性与平滑性问题,Pi0模型[5]引入了流匹配(Flow Matching)机制,摒弃了传统的离散令牌分类方法,转而学习从高斯噪声到目标动作分布的向量场,实现了高精度连续控制,显著提升了灵巧操作性能。Pi*0.6模型[6]通过Recap算法实现了从离线模仿学习到在线学习的跨越。该模型采用优势调节机制,能够从自身交互经验中持续学习,并在推理阶段引导模型输出高优势动作,从而显著降低复杂任务的失败率。开源社区的WALL-OSS模型[7]通过统一跨层思维链与混合专家架构,探索了在单一模型中高效协同高层语义推理与底层运动控制的方法,为VLA技术的普及与多样化发展提供了重要参考。
尽管VLA模型展现出显著潜力,但其从实验室到真实开放场景的规模化应用仍面临“泛化性—鲁棒性—实时性—端侧部署”这一多维约束下的系统性挑战。
(1)VLA模型的泛化性能仍受数据规模与质量的双重制约。研究证实机器人学习存在类似于LLM的扩展律,LingBot-VLA[8]表明即便在2万小时真实数据下性能仍未饱和,揭示了巨大的数据缺口。同时,Open X-Embodiment[9]项目聚合了22种机器人平台的150万条轨迹,证明了提高数据规模的跨具身训练能显著提升模型对新物体和新场景的泛化能力(正向迁移提升50%~200%)。
(2)环境适应性与系统鲁棒性不足是制约实际部署的核心瓶颈。为解决分布外(OOD)泛化失效, WorMI[10]框架引入世界模型库,通过检索与融合机制实现零样本环境适应。此外,测试时适应(Test-Time Adaptation)技术如Cal-QL[11]及其变体允许模型在部署阶段根据环境反馈持续更新策略,增强了系统在不可见干扰下的鲁棒性。
(3) 大模型推理的延迟(通常>200ms)与精细操作对高频控制(>20Hz)的需求存在结构性矛盾[12]。主流方案是HPE(层级规划与执行)架构,将系统解耦为低频的VLM“慢规划”与高频的传统“快执行”控制器,即由大模型生成高层指令,由轻量化控制器或传统方法完成高频执行,但如何实现两级系统间稳定、高效的衔接,仍需进一步探索。
(4)隐私安全需求与端侧资源受限之间的矛盾,构成实际部署中的重要约束。然而,边缘设备需同时满足大模型推理的算力需求、低功耗约束,并保留一定的在线学习能力以适应环境变化,这对当前芯片的能效比、存储带宽及系统级优化提出了严峻挑战。
针对上述技术瓶颈,本方案采用“云-边-端”协同架构以攻克具身智能部署的“最后一公里”难题。首先,云端利用海量数据集完成模型预训练,赋予智能体通用的语义理解能力与跨域泛化基础;其次,边缘端通过采集目标环境的少量高质量数据进行监督微调,确保智能体具备可靠的初始任务成功率;最终,在端侧部署阶段,依托“大小脑”异构芯片架构实现测试时适应,即由推理芯片负责高频实时的任务决策,推训一体芯片则在后台基于真机交互数据进行持续强化学习。通过构建“云-边-端”分级算力体系与“预训练-微调-自适应”的算法闭环,本方案有效兼顾了系统的高鲁棒性、数据隐私安全与低延迟响应需求;实测表明,该方案可将新环境的迁移部署时间缩短至24小时以内,且迁移成功率超过90%。
3 VLN市场需求及目前技术进展和瓶颈
VLN(Vision-and-Language Navigation)的需求来自移动机器人在物流与室内服务场景的规模化部署:企业希望用自然语言直接下达“到房间/到物体旁/按顺序完成”的语义任务,以降低路线配置与运维成本。IFR数据显示,2024年专业服务机器人全球销量超过199,000台,其中运输与物流类为102,900台;仓储自动化市场2024年约221亿美元,预计2030年达578亿美元[13]。这些趋势推动导航从“几何到点”升级为“语义可达+可交互+低运维”。
VLN研究从“跟随语言到终点”扩展为“更强语义对齐+推理+泛化”。模型从端到端策略学习演进到跨模态Transformer与记忆建模,更强调语言约束下的持续决策;同时引入VLM/LLM能力并扩展输入接口以提升鲁棒性,例如Mobile-R1引入深度信息[14] , OmniVLA加入GPS坐标与图片信息[15]。但能力提升的代价是模型与链路变重,延迟与算力成本上升并成为落地硬约束:大模型+长上下文/记忆/多轮推理抬高单步决策时延;多模态接口扩展带来数据吞吐、预处理与融合开销,使“模型延迟”演化为“系统延迟”;难以端侧部署时,上云推理叠加传输与排队形成秒级甚至更高延迟,且尾部抖动在动态避障场景中放大安全风险。因此,本地部署成为关键。
针对“长程不可控+延迟不可控”,本方案采用“芯-模-端-智”分层闭环:上层“大脑”检索语义地图,在语义拓扑上规划A→D并拆分为A→B→C→D,使每次只需到达局部可观测/可规划的“下一子目标”,将长程任务转化为短程子任务并提供纠错骨架;端侧LPU本地部署Qwen3 7B-VL,以约2Hz输出局部导航意图/局部路径(慢系统),显著降低端到端时延;同时以Diffusion动作头约30Hz生成连续控制动作(快系统),把慢系统意图转成高频可跟踪动作以满足实时闭环控制。通过“全局分段—端侧局部规划—高频控制”的时间尺度分离,实现长程可用与实时部署的统一。
4 多智能体系统市场需求及目前技术进展和瓶颈
随着工业5.0的推进,具身智能正经历从单体执行向复杂群体协同的范式变革。权威数据显示,全球具身智能市场预计在2025~2030年间以39.0%的复合年增长率爆发,规模到2030年将达230.6亿美元[3]。核心驱动力源于物理场景对“非结构化协同”的迫切需求:在柔性制造中,生产模式向“小批量、多品种”转型,要求机器人集群具备极强的自适应与任务拆解能力,以完成复杂工件的协同搬运与精密装配。未来的技术重心将从单纯的自动化控制转向以人为本、认知驱动的韧性协同,实现语义级的深度交互。
当前技术正从传统的MADDPG、QMIX等强化学习(MARL)框架向地基模型(FM)驱动的认知架构演进。虽然MARL通过中心化训练解决了部分非平稳性问题,但在落地中仍面临严峻挑战: 一是“虚实迁移(Sim-to-Real)”鸿沟显著,智能体难以在现实动态环境中泛化;二是样本效率低下,数百万次试错导致算力成本极高[16]。此外,系统面临“算力-实时性-功耗”的三角冲突,边缘设备难以支撑大语言模型的高频推理[17]。引入LLM/VLM虽增强了语义理解,但在物理执行中仍存在长程任务幻觉累积、语义共识缺失以及分布式决策可解释性不足等关键瓶颈。
针对上述挑战,本方案在推理芯片上采用3D封装和针对大模型特殊优化的硬件架构,为边缘侧多智能体的高频推理提供了低功耗、高带宽的底层支撑,确保了复杂协同任务的实时性。此外,过额外的“小脑”芯片,支持实机环境下的测试时训练,使得智能体能从实时交互经验中持续在线学习,有效收窄仿真与现实的鸿沟,并提升在动态环境中的泛化效率。依托AIOS操作系统,实现端侧大模型与多类传感器、执行器的深度解耦与高效协同。系统支持VLA/VLN模型快速部署,通过感知-决策-执行的闭环控制,将高层语义指令精准转化为物理动作,增强分布式决策的可解释性与执行一致性。
5 迈特芯具身智能系统方案
基于以上市场分析与技术研究,迈特芯科技提出“一种基于端侧AI大模型芯片的具身智能系统方案”。该方案打破了国外技术垄断,实现了从芯片、大模型智能体、实机训练算法到AIOS全面自主创新和全栈自主可控,技术指标国际领先,保障国家产业链供应链安全。

图3 基于端侧大模型芯片的具身智能方案:
主控芯片(OS+接口)+大脑芯片(LPU语言推理)+小脑芯片(DiT+RL动作反馈)
如图3所示,整个AIOS系统底层基于自研的异构芯片系统,即主控芯片+大脑芯片+小脑芯片。三颗核心芯片各司其职,共同构成具身智能体的“神经中枢”:
(1)主控芯片(SoC):作为系统的调度中枢,负责运行整个OS底层系统实现接口驱动、多模态数据的调度、动态指令编译及训练数据集管理。
(2)大脑芯片(LPU Chip) :专注于高层语义理解与环境感知,部署多模态大语言模型。
(3)小脑芯片(DiT-RL Chip): 专注于底层动作生成与自适应训练,部署基于扩散模型的动作生成层及强化学习反馈机制。
三者通过高速互联总线协同工作:主控芯片将任务指令和感知环境数据分发给大脑芯片;大脑芯片进行语义解析和环境理解后输出的高维状态特征传输至小脑芯片;小脑芯片生成具体动作传回主控芯片进行动作执行,并根据环境反馈数据生成奖励信号,在本地计算损失并更新动作生成网络的权重,完成自进化闭环。
依托“大小脑”异构芯片系统的算力底座,本方案构建了包含VLA高效量化部署与真机强化学习在内的核心算法框架。针对具身智能跨形态、多任务的复杂应用场景,系统集成了语言交互、多模态环境感知及反馈闭环等通用功能模块,确保了在异构机器人平台上的本地化快速部署。作为软件生态核心,AIOS系统具备极高的兼容性与扩展性,全面支持不同架构的VLA模型、多级量化精度及各类硬件底座;通过打造标准化的AIOS软件生态,本方案显著降低了软硬件适配门槛与二次开发成本,有力支撑开发者实现具身智能应用的快速落地。
5.1 “大小脑”异构芯片方案
迈特芯针对具身智能场景创新性地提出了“SoC + LPU + DiT-RL Chip”三芯片异构协同的“大小脑”解决方案。该方案通过硬件层面的物理算力解耦与软硬件协同设计,在端侧构建了“推理-执行-反馈-学习”的完整闭环。系统能够在部署过程中通过与环境的交互实时采集样本,利用强化学习算法在端侧自主更新权重,从而显著提升VLA模型在未知环境中的适应能力,实现真正意义上的“边用边学” 。
5.1.1 LPU(大脑芯片)
LPU(Language Processing Unit)芯片作为系统的“大脑”,主要承担繁重得多模态大模型(VLM)推理任务,负责理解用户的自然语言指令(如制作咖啡等)与解析采集的环境信息(如RGB摄像头、深度传感器等)。当前端侧大模型推理芯片主要面临四大核心挑战:
存储墙问题[18] :数据搬运耗时占比超过70%,严重制约推理速度。传统架构因内存调度效率低,带宽利用率常低于40%,导致“算力虚高”现象。
带宽瓶颈[19] :传统架构带宽利用率不足40%,硬件算力资源利用率低。如瑞芯微RK1820内存带宽利用率不足20%,无法充分发挥硬件性能。
功耗约束:多数端侧芯片功耗>5W,难以适配便携设备。高功耗导致热密度超标,影响设备稳定性,制约端侧AI在移动设备上的应用。
模型部署复杂度:现有架构普遍存在算力利用率低、芯片面积大、价格昂贵等问题,难以形成规模化商业化落地。

图4 端侧大模型芯片对比
国际国内主流技术方案各存局限,如图4所示,迈特芯科技提出的LPU芯片优势如下:
(1)架构创新:近存计算突破“存储墙”端侧大模型推理的核心瓶颈在于内存带宽而非计算峰值。本方案中的LPU芯片采用了近存计算(Near-Memory Computing)架构,如图5所示,通过国产先进封装工艺,将逻辑计算芯粒与高带宽内存芯粒进行3D堆叠。这种设计极大地缩短了物理互联距离,将内存带宽利用率提升至80%以上,显著降低了访问外部存储器的延迟和功耗,从而在极低能耗下实现了高吞吐量的Token生成。
(2)领域专用架构(DSA)与多精度融合:针对VLM模型中存在的大量矩阵运算与非结构化稀疏计算,LPU采用了动态切换运算精度的处理单元。它支持INT4、FP16等多种混合精度计算,能够根据模型层的敏感度自动适配精度,在保证推理准确率的前提下最大化算力效率。此外,针对多算子间数据流断裂的问题, LPU在硬件层面实现了算子融合与流水线级联,进一步降低了端侧推理延迟(目标≤150ms),确保了“感知-理解”环节的实时性 。该架构经过多次迭代,并已在FPGA[20]和测试芯片[21]完成验证,能效国际领先。

图5 迈特芯端侧大模型芯片(LPU-大脑)架构
(3)极致能效比:通过上述架构创新, LPU芯片成功在严格的功耗约束下(整体模组功耗≤5W) 提供了超过10 TOPS的有效算力,能够流畅运行3B~10B参数量的国产开源大模型(如DeepSeek、Qwen等),为具身智能体提供了强大的语义认知底座。
5.1.2 DiT-RL Chip(小脑芯片)
DiT-RL芯片是本方案的核心创新点,被定义为具身智能系统的“小脑”。它不仅负责高频、精准的动作生成,更承担着端侧自主训练(On-Device Training)的关键任务。与仅负责推理的LPU不同, DiT-RL芯片在微架构设计上专门针对“训练与推理的差异性”进行了深度优化。
然而,现有片上学习工作虽在能效上取得突破,但架构难以适配生成式模型。 Qian等人提出的“推理兼容反向传播”加速器[22] ,虽在CNN训练上实现了高能效,但其硬件深度绑定卷积算子,无法高效支持DiT部署与动态计算;Lee等人开发的低功耗DRL芯片[23]利用稀疏训练显著降低了内存带宽,但主要针对轻量级MLP策略网络。鉴于现有架构均未针对DiT核心的迭代去噪与流匹配特性进行优化,缺乏对大规模生成式模型的算力支持,必须重新设计架构以满足“小脑”在端侧同时进行高频动作生成与复杂策略微调的需求。
为此,本芯片内部设计了三种可动态配置的数据流以支撑上述需求:一是推理通路(前向传播和奖励生成),包含专门优化的扩散模型、流匹配和奖励模型加速单元,负责将LPU传来的状态特征映射为连续平滑的机械臂动作及环境奖励;二是强化学习通路(损失生成),专门针对Cal-Q等算法进行硬件加速;三是权重更新通路(反向梯度更新),利用前向传播数据结合模型损失进行实时梯度更新。这三种数据流在芯片中交替计算,配合大脑芯片推理,实现了真正的“边推理,边训练”。
通过这种“感知理解”与“动作反馈”分离的双芯片架构,系统实现了极致的效能优化。在同一片上闭环完成动作生成与权重调整,最大程度降低了片间带宽压力及延迟。在实际应用中,当机器人执行倒水、抓取等任务遇到失败(如水洒出)时,芯片能立即捕捉负反馈,并在下一次尝试中通过内部的“基于Q函数引导的梯度优化策略”调整生成策略。这种机制不仅限制了机器人的危险探索行为,更大幅提高了样本效率,使其能在48小时内快速适应新场景。
5.2 具身AIOS方案
在强大的异构芯片算力底座之上,迈特芯科技构建了专为具身智能设计的操作系统—AIOS。AIOS不仅仅是一个软件平台,它是一套融合了感知、决策、执行到持续进化的完整生态系统。该系统采用了模块化与分层设计,实现了软硬件的深度解耦与高效协同,可支撑多场景下的复杂任务落地。 AIOS的核心架构主要由以下三个维度构成:
(1)核心闭环:仿生级的“感知-决策-进化”机制。如图3所示, AIOS系统构建了类生物神经系统的“感知-决策-执行-进化”核心闭环。系统首先通过视觉、力觉及自然语言接口接收多模态环境信息,传输至“大脑”层(VLM语义环境理解),由大模型进行高层认知决策与任务拆解;解析后的信号下发至“小脑”层(DiT+RL运动生成),基于扩散变模型生成精准的关节控制指令。此外, AIOS内置了持续学习与适应体系,能够根据环境反馈的奖励信号在端侧实时计算损失并更新“小脑”权重,实现了从Sim2Real仿真到真机进化闭环,确保智能体具备在非结构化环境中自主进化的能力。
(2)架构支撑:全栈子系统与算法生态。为支撑这一核心闭环的高效运转, AIOS在架构中间层集成了全栈功能子系统与核心算法工具链。系统向下通过子系统模块深度整合了3D视觉感知(含Lidar/IMU)、 SLAM导航、语音情感交互及底层运动控制驱动,向上则提供了从逻辑演示数据采集、VLA模型量化部署到真机强化学习仿真的完整软件生态。这种模块化设计不仅实现了软硬件的深度解耦,还通过标准化的VLA量化与部署接口,有效解决了大模型在异构端侧芯片上运行的算力瓶颈,大幅降低了具身智能应用的二次开发成本与适配门槛。
(3)场景落地:跨形态与多任务泛化。得益于其强大的通用性与泛化能力, AIOS已成功打通了从工业制造、家庭服务到特种作业的全场景应用链路。如图3左侧所示,该系统不仅能适配工业人形机器人、家用人形机器人及专用四足机器人等多种形态载体,更已在叠被子、取药、倒水、分拣物流及阅读报刊等复杂精细任务中通过了验证。 AIOS以其“一套系统、多态兼容”的特性,打破了单一任务模型的局限,为具身智能从专用场景向全能型通用机器人的跨越提供了标准化的操作系统级解决方案。
5.3 多智能体AIOS方案
本方案摒弃传统的协同范式,依托自主可控的高性能端侧AI芯片,构建了一种“端侧分层式多智能体AIOS协同系统”。该系统将大模型的通用认知能力下沉至边缘执行端,通过“软硬协同”的异构架构设计,实现了多智能体从“预设指令执行”到“自主语义理解与协作”的跨越。系统架构遵循“感知-认知-执行-反馈”的闭环设计,包含以下核心功能模块:
(1)多模态语义感知与投影
系统通过全局视觉输入感知环境状态,并接收用户的自然语言指令。利用视觉-语言投影器,系统将高维的非结构化视觉数据映射到统一的语义特征空间。这一过程充分利用了端侧AI芯片的立方脉动阵列架构,实现了多模态数据的高吞吐、低延迟编码,为后续的决策规划提供标准化的语义输入。
(2)高层决策中枢作为系统的“大脑”:该层级负责复杂任务的逻辑拆解与资源调度,具备长时记忆的特征,包含规划器、任务分配器、监督器等关键组件。
(3)多VLA驱动的底层执行集群:这是本系统的核心创新点,系统摒弃了传统的控制律方法,采用一组VLA大模型作为独立的执行智能体,具备了强泛化能力和并行推理能力。
(4)鲁棒运动控制与物理执行接口:为了弥合VLA生成的高层语义动作与机器人底层电机控制之间的鸿沟,系统构建了确定性的运动学解算与全身控制层。利用端侧芯片的低功耗计算单元,该控制层独立于VLA运行,专注于处理地形适应、本体平衡与防碰撞检测。这种“大模型决策+经典控制执行”的异构架构, 既保留了VLA的强泛化性,又通过经典控制算法保证了物理执行的安全性与稳定性,无需额外的训练成本即可实现可靠操控。

图6 多智能体协同
系统在运行过程中,自动记录“VLA决策-执行结果”的数据对,构建端侧自训练数据集。基于端侧异构芯片系统 ,这些真实物理数据将用于后续对VLA模型的参数微调,实现智能体从“工具辅助”向“自主决策”的持续进化 ,最终达成“芯-模-端-智”的一体化协同。
6 结语
当前,人工智能技术正经历从“云端离身智能”向“端侧具身智能”跃迁的历史性时刻。这不仅是计算范式的演进,更是国家实施“人工智能+”行动、推动智能终端普及的关键落脚点。本文立足于对VLA、VLN及多智能体协同等前沿方向的深度剖析,针对具身智能落地过程中面临的“成本-算力-能耗”三角悖论,提出了一种基于国产自主创新端侧大模型芯片的系统级破局之道。
本方案由迈特芯科技与南方科技大学联合团队共同提出,实现了具身计算范式的重构。本方案并非局限于单一技术点的突破, 而是实现了从底层国产LPU/ RL芯片、自研实机RL算法,到顶层AIOS操作系统的全栈式创新。在硬件上,我们摒弃了传统的通用算力堆砌模式,首创“主控(SoC)+大脑(LPU)+小脑(DiT-RL)”的异构仿生芯片架构,通过近存计算与异构协同,突破了传统架构在边缘端部署中遇到的“存储墙”“带宽墙”及能效瓶颈。这一架构实现了高层语义理解与底层精准控制、环境反馈的物理解耦与高效协同,赋予了智能体在物理世界中“边用边学”、在线持续进化的能力。同时,在软件生态构建上,依托自研的AIOS操作系统,我们成功打造了一套“软硬解耦”的智能底座。该系统向下通过硬件抽象层深度适配多品牌传感器与执行器,向上提供标准化的算法接口以兼容各类VLA模型与强化学习策略。这种高度的模块化设计,极大地降低了复杂机器人系统的集成门槛与开发成本,使我们能够高效地将实验室中的算法成果转化为生产力,成功打通了从虚拟仿真训练到复杂真机场景部署的“最后一公里”。
依托从底层国产芯片工艺、3D堆叠封装到上层算法的全栈自研体系,本方案构建了具备高度独立性与可控性的技术护城河。随着该方案在标准化与商业化层面的推进,其不仅能有效解决具身智能的泛化难题,更将加速万物智联的工业5.0新生态演进,为下一代智能终端产业的爆发奠定坚实的算力基石。AP
作者简介:
谢齐家(2003-) ,男 ,河北沧州人 ,硕士 ,现就读于南方科技大学 ,研究方向为AI加速芯片设计。
李逸翔(2002-) ,男 ,四川宜宾人 ,硕士 ,现就读于南方科技大学 ,主要研究方向为具身智能、强化学习。
彭冠旗(2003-) ,男 ,广东湛江人 ,博士 ,现就读于南方科技大学 ,研究方向为具身智能算法。
汤易博(2003-) ,男 ,湖北武汉人 ,现就读于南方科技大学 ,主要研究方向为具身智能、AI加速芯片设计。
陈文俊(2004-) ,男 ,湖北黄冈人 ,现就读于南方科技大学 ,研究方向为具身智能体应用。
阮理扬(2005-) ,男 ,广东深圳人 ,现就读于南方科技大学 ,研究方向为边缘计算、具身智能。
覃冠臻(2005-) ,男 ,湖南湘潭人 ,现就读于南方科技大学 ,研究方向为大模型、具身智能。
陈启致(2005-) ,男 ,广东潮州人 ,现就读于南方科技大学 ,研究方向为具身智能 。
吴土孙(1977-) ,男 ,广东茂名人 , 中级职称 ,硕士 ,现就职于深圳市迈特芯科技有限公司 ,研究方向为人工智能与机器人。
曹 敏(1988-),男,安徽宣城人,硕士,现就职于深圳市迈特芯科技有限公司,研究方向为具身智能应用方案。
刘 嘉(1980-),男,北京人,博士,现就读于南方科技大学,研究方向为端侧大模型、国产LPU芯片、全模态数据实时治理和分布式多智能体技术。
余 浩(1976-)男,博士,现就任南方科技大学深港微电子学院副院长、长聘教授,深圳市迈特芯科技有限公司创始人,长期从事高性能集成电路芯片设计。
参考文献:
[1] 国务院. 关于深入实施 “人工智能+”行动的意见(国发〔2025〕11号)[Z]. 2025.
[2] Market.us. Embodied AI Market Report [EB/OL]. https://market.us/report/embodied-ai-market/.
[3] MarketsandMarkets. Embodied AI Market Size, Share, Trends and Growth [EB/OL]. https://www.marketsandmarkets. com/Market-Reports/embodied-ai-market-83867232.html.
[4] D. Jadhav. Physical AI Market Size, Share, Growth, Report 2025 to 2034 [EB/OL]. https://www.cervicornconsulting. com/physical-ai-market.
[5] K. Black, et al. π0: A Vision-Language-Action Flow Model for General Robot Control [J/OL]. arXiv, 2026.
[6] P. Intelligence, et al. π*0.6: A VLA That Learns From Experience [J/OL]. arXiv, 2025.
[7] A. Zhai, et al. Igniting VLMs toward the Embodied Space [J/OL]. arXiv, 2025.
[8] W. Wu, et al. A Pragmatic VLA Foundation Model [J/OL]. arXiv, 2026.
[9] E. Collaboration, et al. Open X-Embodiment: Robotic Learning Datasets and RT-X Models [J/OL]. arXiv, 2025.
[10] M. Yoo, J. Jang, S. Yoon, and H. Woo. World Model Implanting for Test-time Adaptation of Embodied Agents [J/OL]. arXiv, 2025.
[11] M. Nakamoto, et al. Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning [J/OL]. arXiv, 2024.
[12] Z. Xiong, K. Li, Z. Wang, M. Jackson, J. Foerster, and S. Whiteson. HyperVLA: Efficient Inference in Vision- Language-Action Models via Hypernetworks [J/OL]. arXiv, 2025.
[13] Research and Markets. Warehouse Automation Market Report [EB/OL]. https://www.researchandmarkets.com/ report/warehouse-automation.
[14] T. Huang, et al. MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots [J/OL]. arXiv, 2025.
[15] N. Hirose, et al. OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation [J/OL]. arXiv, 2025.
[16] R. Lowe, Y. Wu, A. Tamar, J. Harb, P. Abbeel, and I. Mordatch. Multi-agent actor-critic for mixed cooperative- competitive environments [C]. Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017 : 6382 - 6393.
[17] T. R. Gadekallu, et al. XAI for Industry 5.0—Concepts, Opportunities, Challenges, and Future Directions [J]. IEEE Open Journal of the Communications Society, 2025, 6 : 2706 - 2729.
[18] M. Horowitz. 1.1 Computing's energy problem (and what we can do about it) [C]. 2014 IEEE International Solid- State Circuits Conference Digest of Technical Papers (ISSCC). 2014 : 10 - 14.
[19] A. Gholami, Z. Yao, S. Kim, C. Hooper, M. W. Mahoney, and K. Keutzer. AI and Memory Wall [J]. IEEE Micro, 2024, 44 (3) : 33 - 39.
[20] M. Huang, et al. EdgeLLM: A Highly Efficient CPU-FPGA Heterogeneous Edge Accelerator for Large Language Models [J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2025, 72 (7) : 3352 - 3365.
[21] K. Li, M. Huang, A. Li, S. Yang, Q. Cheng, and H. Yu. A 29.12-TOPS/W Vector Systolic Accelerator With NAS- Optimized DNNs in 28-nm CMOS [J]. IEEE Journal of Solid-State Circuits, 2025, 60 (10) : 3790 - 3801.
[22] J. Qian, H. Ge, Y. Lu, and W. Shan. A 4.69-TOPS/W Training, 2.34-μJ/Image Inference On-Chip Training Accelerator With Inference-Compatible Backpropagation and Design Space Exploration in 28-nm CMOS [J]. IEEE Journal of Solid- State Circuits, 2025, 60 (1) : 298 - 307.
[23] J. Lee, W. Jo, S.-W. Park, and H.-J. Yoo. Low-power Autonomous Adaptation System with Deep Reinforcement Learning [C]. 2022 IEEE 4th International Conference on Artificial Intelligence Circuits and Systems (AICAS). 2022: 300-303.
摘自《自动化博览》2026年第一期暨《2026具身智能专刊》






资讯频道