ABB25年12月
关注中国自动化产业发展的先行者!
2026中国自动化产业年会
工业智能边缘计算2025年会
2025工业安全大会
OICT公益讲堂
当前位置:首页 >> 资讯 >> 行业资讯

资讯频道

斯坦福开发图书馆机器人!两周完成五个人类9个月工作量!VLA识别准确率翻倍!
  • 点击数:55     发布时间:2025-12-18 23:23:49
  • 分享到:
在斯坦福大学东亚图书馆的狭长过道里,一台搭载机械臂的移动机器人正沿着书架稳步滑行。它顶端的摄像头每0.3米就完成一次垂直扫描,激光雷达实时校正位置,确保不会错过任何一本褪色的古籍或被遮挡的现代书籍。

在斯坦福大学东亚图书馆的狭长过道里,一台搭载机械臂的移动机器人正沿着书架稳步滑行。它顶端的摄像头每0.3米就完成一次垂直扫描,激光雷达实时校正位置,确保不会错过任何一本褪色的古籍或被遮挡的现代书籍。这台名为Scanford的机器人不是简单的图书盘点工具,两周内,它扫描2103个书架,省下18.7小时人工劳动的同时,更用收集到的真实数据,让视觉语言模型(VLM)的多语言书籍识别率从32.4%飙升至71.8%,英语OCR准确率近乎翻倍。

17660715831.png

这项研究是斯坦福大学与丰田研究所联合提出的“机器人驱动数据飞轮”框架的实战验证。目前该论文已发表在arXiv。

1  大模型的“真实世界困境”:实验室满分,图书馆不及格

如今的VLM模型在处理高清、规整的互联网图片时游刃有余,但走进东亚图书馆这样的场景,立刻会暴露短板。这里的书籍以中日韩三国语言为主,部分书籍因年代久远标签磨损、纸张泛黄,还有的被相邻书籍遮挡大半,书架光照忽明忽暗,甚至会遇到仅3层的特殊矮书架打乱识别节奏,这些“不完美”的细节,在互联网预训练语料中几乎难觅踪迹。

17660715941.png

此前,5名图书管理员完成一次完整盘点需要9个月,而当时表现尚可的VLM模型,面对这些复杂场景的识别准确率不足35%。这种“实验室性能拉满,真实场景拉胯”的现象并非个例:超市里褶皱的商品包装、医院里手写的处方单、仓库中堆叠的货物箱,这些互联网爬虫无法触及的“野外数据”,正是大模型落地的“最后一公里”障碍。

17660716051.png

斯坦福团队的核心观点认为,与只能在虚拟世界爬取数据的爬虫不同,机器人是能自主行动的具身智能体,它能深入图书馆、超市等物理空间,收集那些富含细节的真实数据——而这些数据,恰恰是大模型最稀缺的“营养”。

2  数据飞轮:让机器人从“用模型”变“养模型”

传统机器人只是大模型的“使用者”,靠预训练模型完成导航、识别任务;而数据飞轮框架彻底颠覆了这种关系,让机器人成为大模型的“培育者”,形成“部署-收集-优化-再部署”的闭环,就像一个能自我进化的生态系统。

这个飞轮的运转逻辑清晰且无需人工干预,每一步都为下一次进化积蓄力量。首先是模型初始化,团队选用具备基础多语言能力的Qwen2.5-VL 7B作为起点,它就像一个有基本认知的“学生”,但在图书馆场景下经验不足。随后,搭载该模型的Scanford机器人被投放到东亚图书馆,一边执行盘点任务,一边通过Intel RealSense D435相机收集书架图像,同时用模型初步预测书籍标题、索书号,形成原始数据。

最关键的一步是数据自动筛选,这彻底摆脱了对人工标注的依赖。团队利用美国国会图书馆的馆藏目录作为“标准答案”,通过字符串相似度匹配验证预测结果,再结合书籍左右顺序进行校验,自动剔除错误样本,保留高质量的图像-标签对。最后,用这些筛选后的数据集微调初始模型,得到性能更强的新版本,重新部署到机器人上。

这个闭环的精妙之处在于“正向循环”:模型性能提升后,机器人收集数据的质量和效率更高,而更高质量的数据又能进一步优化模型。在实际部署中,仅1.5小时收集的1352张图像,就实现了大部分性能增益,后续数据更多是锦上添花,这也证明了真实场景数据的高价值密度。

3  Scanford实战:一台组装机器人的图书馆攻坚

支撑整个飞轮运转的Scanford机器人,并非定制的“高精尖设备”,而是由成熟部件组装而成:Franka FR3机械臂负责调整拍摄角度,TidyBot++移动底座提供移动能力,Unitree L2激光雷达解决导航定位问题——这种“平民化”配置,恰恰证明了该框架的可复用性。

17660716261.png

在图书馆的两周部署中,Scanford要攻克三大难题。面对过道狭窄、视觉环境单一导致的导航漂移,它通过激光雷达识别书架形成的垂直点云簇,拟合平面后校正自身位置,确保沿书架精准移动;针对多语言识别难题,它借助检索增强生成(RAG)技术,将图书馆馆藏目录作为上下文提供给模型,大幅缩小候选范围;遇到磨损、遮挡的书籍,就通过多角度拍摄和自动筛选,保留清晰样本剔除无效数据。

17660716401.png

微调过程同样高效。团队在单台NVIDIA H200 GPU上,用AdamW优化器、2e-7学习率对模型进行5个epoch的训练,有效批次大小仅16,无需庞大算力支撑。这种轻量化的优化方式,让飞轮能够快速转动,每轮部署后都能及时更新模型,持续提升性能。

4  硬核成果:识别率翻倍,还能“举一反三”

两周的部署结束后,数据飞轮交出了亮眼的成绩单。在图书馆书籍识别这一核心任务上,Qwen2.5-VL 7B的准确率从32.4%飙升至71.8%,绝对提升39.4个百分点,远超未经过微调的Gemini模型(43.7%)。更令人惊喜的是,模型还实现了“举一反三”,在领域相邻的多语言OCR任务上表现同样出色。

17660716611.png

团队专门测试了包含遮挡、低分辨率等情况的“困难案例”:英语OCR准确率从24.8%提升至46.6%,中文OCR从30.8%提升至38.0%。

17660716711.png

要知道,这些测试样本都是模型此前难以处理的“硬骨头”,而Gemini因中文语料不足,中文OCR准确率仅3.4%,形成鲜明对比。

17660717011.png

在实用价值上,Scanford的表现同样经得起检验。10天部署中(每天4小时),它完成了2103个书架的扫描,等效节省18.7小时人工工作量。整个过程仅需26次人工干预,日均2.6次,每次不足5分钟,主要用于处理特殊矮书架这类意外情况——这种低人力成本的特性,让该框架具备了大规模推广的基础。

5  不止图书馆:数据飞轮的千行百业潜力

Scanford在图书馆的成功,只是数据飞轮框架的一个起点。这一框架的核心价值,在于提供了一种“低成本、可复用、可持续”的大模型落地范式,它不依赖昂贵算力,也不需要等待模型架构突破,而是通过“边用边学”让大模型在具体场景中自然进化。

这种范式可以轻松迁移到多个领域。在超市,机器人能收集褶皱包装、模糊价签的数据,优化零售场景的视觉识别模型;在医院,它可捕捉手写处方、反光仪器标识,提升医疗AI的实用性;在仓储物流,它能记录不同状态的货物包装和堆放场景,让物流机器人的识别能力持续升级。正如智元机器人在实践中总结的,“优质本体产生高质量数据,高质量数据支撑算法突破”,这种飞轮逻辑已成为具身智能落地的核心路径。

当然,这项研究仍有提升空间。目前的Scanford需针对特定任务进行工程适配,模型在极端复杂场景下尚未达到100%准确率。未来,团队计划将框架扩展到大型语言模型(LLMs)和视觉-语言-动作模型(VLAs),进一步优化数据筛选策略。

6  结语:机器人,大模型的“野外训练师”

这篇论文的颠覆性,不在于提出了全新算法,而在于重新定义了机器人与大模型的关系。过去,我们习惯让机器人学习大模型的知识;现在,斯坦福团队证明,机器人可以反过来“教”大模型认识真实世界。

当大模型的参数规模逐渐逼近天花板,算力竞赛的边际效益递减,真实世界的数据已成为下一个核心竞争力。而机器人,正是获取这些数据的最佳“野外训练师”。未来,每一台在真实场景中工作的机器人,都可能成为一个移动的“模型优化站”,让AI在与物理世界的交互中,持续成长。

论文地址:https://arxiv.org/pdf/2511.19647

项目地址:https://scanford-robot.github.io/


来源:具身智能大讲堂


热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: