ABB
关注中国自动化产业发展的先行者!
CAIAC 2025
2025工业安全大会
OICT公益讲堂
当前位置:首页 >> 资讯 >> 行业资讯

资讯频道

边云协同终身学习面对开放世界:关键技术挑战、探索与案例
  • 点击数:2646     发布时间:2023-04-03 17:20:13
  • 分享到:
由于数据从边缘产生,将部分机器学习任务部署到边缘已成为必然趋势。当机器学习应用逐步被部署到边缘,距离用户更近、面对更复杂环境的开放世界场景将从系统和算法两个角度普遍、持续地影响边缘智能应用的精度和运行。借鉴人类的学习机制,我们已发表一种边云协同终身学习范式以针对上述开放世界中的边缘智能问题。本文总结了边云协同终身学习在理论走向实践过程中遇到的三大技术挑战:可扩展性、任务定义和未知任务,并通过6个工业和园区领域应用案例分享了相关技术探索和经验。

★华为云边缘云创新实验室 郑子木 

摘要:由于数据从边缘产生,将部分机器学习任务部署到边缘已成为必然趋势。 当机器学习应用逐步被部署到边缘,距离用户更近、面对更复杂环境的开放世界 场景将从系统和算法两个角度普遍、持续地影响边缘智能应用的精度和运行。借 鉴人类的学习机制,我们已发表一种边云协同终身学习范式以针对上述开放世界 中的边缘智能问题。本文总结了边云协同终身学习在理论走向实践过程中遇到的 三大技术挑战:可扩展性、任务定义和未知任务,并通过6个工业和园区领域应 用案例分享了相关技术探索和经验。 

关键词:开放世界;边云协同;终身学习 

Abstract: As data is increasingly generated at the edge, deploying machine learning tasks at the edge has become an inevitable trend. When machine learning applications are gradually deployed to the edge, open world scenarios that are closer to users and facing more complex environments will generally and continuously affect the accuracy and operation of edge intelligence applications from both system and algorithm perspectives. Drawing on the learning mechanism of humans, we have published an edge-cloud collaborative lifelong learning paradigm to address the abovementioned edge intelligence problems in the open world. This paper summarizes the three major technical challenges currently encountered in the process of edge-cloud collaborative lifelong learning from theory to practice, i.e., scalability issue, task definition issue, and unknown task issue. We also share relevant technical exploration and experience through six industrial and campus case studies. 

Key words: Open world; Edge-cloud collaboration; Lifelong learning 

1 开放世界(Open World)问题 

1.1 开放世界中的边缘智能 

近十年来,机器学习技术跨越资本市场的多轮高峰 与低谷,持续完成多项技术突破。比如AlphaGo多次击 败人类围棋顶尖选手,AlphaFold预测出98.5%的人类 蛋白质结构,ChatGPT聊天机器人的对话质量令人惊 艳以至有可能支撑专业咨询和研发等工作。不可否认, 机器学习在规则相对明确的封闭环境内,比如在游戏 中,已经展现出媲美甚至超越人类的能力,并且在封闭 环境中出错的代价也往往较低。直至今日,这场十年级 别的技术狂欢时有中场休息,但并未中止,也绝非昙花 一现。

 然而,在这场闪亮的机器学习狂欢背后,挑战也如 影随形。当机器学习应用逐步被部署到边缘,在距离用 户更近、面对更多开放环境的边缘智能场景中,机器学 习的另一面愈发难以忽视。近五年的国内外边侧智能设 备异常样例如图1所示。 

(1)2017年,双足机器人标杆Atlas在演示过程中 失足摔落国际会议舞台; 

(2)2018年,U公司、T公司及G公司等头部公司 的自动驾驶系统先后引发多起伤亡事故; 

(3)2020年,福州中防万宝城导购机器人跌落数 米高的电动扶梯并撞倒前方两位客人; 

(4)2021年,双足机器人Walker X在世界人工智 能大会演示过程中意外摔倒; 

(5)2022年,轮式机器人小蛮驴驶入河南大学校 园未干水泥地后陷入泥中无法前行; 

(6)2022年,四足机器人Go 1在递送饮品时频繁 摔跤的视频在互联网上引发高热度关注。 

image.png

图1 近五年的国内外边侧智能设备异常样例 

1.2 开放世界问题影响分析 

从上面这一系列案例中我们可以看出,在开放世界 中的边缘智能技术会遭遇大量长尾应用(Long Tailed Application)或异常案例(Corner Case),这不应 被视为某款产品或服务设计缺陷的特例,而应被视为边 缘智能应用的普遍问题。开放世界问题在边缘智能领域 有两个原因,一是边缘智能呈现需求森林化态势,边侧 需求应用场景、硬件、环境等复杂多样;二是边缘智能 领域处于方案摸索期,各业务模型乃至平台的协作生态 仍在成长,因此导致其在近期相当长一段时间内将持续 普遍存在。

 开放世界的长尾应用或异常案例有两大特点,即形 态多和数据少。其影响分析如下: 

(1)系统性能层面 

数据在边缘产生,而算力却在云端更为充足。也就 是说,机器学习服务在开放世界的多样业务和硬件环境 下,全部在云上处理将难以满足数据安全合规、服务离 线自治或实时性的要求,全部在边侧处理则得不到云端 在算力、开发环境、高阶服务和产品生态上的支持,导 致整体智能服务质量以及研发、维护和销售成本都受到 挑战。 

(2)算法性能层面 

开放世界会从数据异构和小样本两个方面对边缘智 能相关应用服务的正常运行造成影响,并进一步引发灾 难性遗忘(Catastrophic Forgetting)问题。

image.png

图2 数据异构问题:工业安全帽检测案例样本及其精度 (F1-Score) 

数据异构方面,在如图2所示的安全帽检测案例 中,边侧智能摄像头检测来往工作人员是否已佩戴安全 帽[1]。从图中可以看到,不同边缘设备生成的样本通常 具有不同的目标大小、背景和视角。从特定边侧数据训 练的模型用于其它边侧,在数据分布相似时模型可维持 高精度并成功迁移(如图2所示,识别精度达到90.56% —94.78%);而在数据分布差异巨大时,模型精度将 显著下降并且不能混用(如图2所示,识别精度相对下 降8.81%—64.33%)。

image.png

 图3 小样本问题:智慧楼宇舒适度预测案例传感器及 其样本量 

小样本方面,在如图3所示的舒适度预测案例中, 楼宇空调群控系统预测室内人员是否感到热、冷或舒 适[2]。从图中可以看到,绝大部分的城市边侧采集样本 量难以超过200条,这与传感器覆盖、数据传输、冷启 动和数据标注成本等问题相关。小样本将导致模型训 练无法收敛,过少的数据甚至可能导致部分训练算法 无法正常启动。

image.png

 图4 灾难性遗忘问题:智慧楼宇舒适度预测案例

当小样本和数据异构同时出现时,会诱发灾难性遗 忘问题。在图4的舒适度预测案例中,将室外平均温度 30℃作为特征值输入。在第一时刻,室外模型一开始显 示为“热”,是正确的预测。在第二时刻,受测人员从 室外到有空调的室内,实际上已经从热变冷。由于特征 值没有变化,正在运作的室外模型依然会输出“热”, 而这是不正确的。此时需采集更多数据,将室外模型更 新覆盖为室内模型以正确预测。但是,当第三时刻人员 外出时,更新后的室内模型又再次不正确,需要重新更 新回室外模型。但由于室外模型已经被覆盖丢失,因此 又需要重新采集数据训练出室外模型,来覆盖原有的室 内模型。这种来回反复的现象,即灾难性遗忘问题。 

综合以上案例,从系统和算法两个角度我们可以看 到,开放世界问题将会普遍、持续地影响边缘智能应用 的精度和运行。 

2 边云协同终身学习概念、原理及挑战 

2.1 概念与原理 

针对上述开放世界中的边缘智能问题,我们可以从 人类的学习过程中得到启发,并可以看到,人类之所以 能够在开放世界中正常工作和生活,是由于每个人并非 自我封闭地学习,而是不断地积累过去学习的知识,并 利用其他人的知识,学习更多知识[3]。借鉴人类这种学 习机制,我们已发表了在边缘结合终身学习的边云协同 终身学习正式定义[4,5]:

 边云协同终身学习(定义):给定云侧知识库中N 个历史训练任务,推理持续到来的当前任务和未来M个 边侧任务,并持续更新云侧知识库。其中,M趋向于无 穷大,同时边侧M个推理任务不一定在云侧知识库N个 历史训练任务当中。

 具体地,边云协同终身学习的基本技术原理是: (1)系统约束与性能压力:边云同架构实现应用云上 资源,同时保证数据安全合规与边缘AI服务离线自治; (2)数据异构:多任务迁移学习为不同分布建立不同 任务,实现“千人千面”精准预测;(3)小样本:未 知任务增量处理在小样本下越学越聪明,逐步实现AI工 程化与自动化;(4)灾难性遗忘:借助云侧知识库来 记忆历史及新情景知识,避免灾难性遗忘。 

2.2 技术挑战 

经过近年来多个项目的技术探索和验证过程,本文 总结了边云协同终身学习在理论走向实践过程中遇到的 三大技术挑战。 

(1)可扩展性挑战:在开放世界中,边缘智能呈 现需求森林化,相关场景可覆盖交通、工业、能源、航 天、媒体、机器人、园区等10+行业,进一步考虑硬件 和环境,其模型和算法千差万别。但学界已有的终身学 习工作往往依赖某类模型,比如只能用于线性回归类模 型,或只能用于神经网络类模型,甚至只能用于某种特 定的神经网络模型。高度一体化的耦合设计会阻碍边缘 智能方案的规模复制。首先耦合设计会阻碍边云协同的 模块分配等架构设计工作,更重要的是使在多个应用甚 至单个应用内跨场景迁移变得非常困难。在边云协同终 身学习中,整体边云协同系统的流程模块化、算法模型 插件化等可扩展性的考虑是面对边缘智能需求森林化的 基石。 

(2)任务定义挑战:面向开放世界的数据异构问 题,在云上构建单一模型用于边侧推理的单任务方法, 包括孤立学习、单任务增量学习、单任务联邦学习等, 模型更新时需要覆盖历史模型,容易导致灾难性遗忘问 题,“千人千面”非常困难。而通过人工定义多个模型 适配不同边缘局点的多任务方法,包括多任务学习、多 任务增量学习、多任务联邦学习等,多个定制化模型构 建与维护需投入人力物力,AI工程化和自动化任重道 远。在边云协同终身学习中,数据集中潜藏任务的自动 化划分,目标推理样本的任务分配等任务定义的考虑是 面对数据异构和灾难性遗忘的前提。 

(3)未知任务挑战:面向开放世界的数据异构、 小样本及其灾难性遗忘问题,边侧环境复杂多样,推理 阶段所有任务在训练阶段都完美学习的封闭假设在边缘 场景往往并不成立。需要假设边缘模型运行时存在未知 任务,提前对未知任务进行识别,及时进行兜底和更 新,确保相关服务鲁棒性和可靠性,以期解决开放世界 问题。

3 KubeEdge-Sedna边云协同终身学习 设计与案例 

2020年12月KubeEdge SIG AI提出的KubeEdgeSedna,如图5所示,是基于KubeEdge提供的边云协 同能力实现AI的跨边云协同训练和协同推理,近年来 在星地协同卫星、多边协同重识别等案例上备受瞩目。 KubeEdge-Sedna v0.3版本发布了业界首个边云协同 终身学习开源特性。本章从边云协同终身学习三大技术 挑战出发,介绍其相关设计和案例。 

image.png

图5 KubeEdge-Sedna整体架构

3.1 面对可扩展性挑战 

KubeEdge-Sedna边云协同终身学习作业(Lifelong Learning Job)分为三个阶段:训练、评估和部署,维 护一个全局可用的知识库服务于每个终身学习作业,其 架构如图6所示。在开发者启动终身学习作业后,运作流 程为: 

image.png

 图6 KubeEdge-Sedna边云协同终身学习架构 

(1)Sedna训练worker基于开发者的基础模型和训 练数据集进行多任务迁移学习,实现任务知识归纳并更新 知识库,其中任务包括:样本、模型、模型超参等。 

(2)Sedna训练完成并对知识库更新任务知识 后,启动对评估数据集的评估worker,基于部署者定 义的评估策略,判断符合策略的任务模型并下发部署。 

(3)Global Manager捕获评估任务的完成状态 后,通知边缘容器初始化,并在Lifelong推理Worker 中进行推理服务。边缘节点基于Sedna Lifelong Learning API进行未知任务识别和推理,其中也按配 置策略上传未知任务样本。 

(4)通过对接第三方打标系统和知识库的迁移学 习,Local Controller监听新数据变化,并按配置策略 触发训练worker进行增量学习,然后返回步骤1。

 面对可扩展性挑战,KubeEdge-Sedna边云协同 终身学习当前已具备以下能力: 

(1)系统模块化

 · 一体化系统流程已分解为多个模块且各模块具备 明确功能,以便边云调度。

 · 开放模块配置,所有模块均提供可跳过的热链接 功能。 

· 开放模块算法配置,所有模块均提供在符合模块 接口下的算法切换功能。 

(2)模型插件化

 · 开放Estimator接口,满足接口的任意类别模型 均可接入,并使能终身学习。 

· 未知任务识别等模块内置元模型和样本迁移,可 自适应学习接入模型行为。 

(3)场景可扩展

 · 平台核心与应用程序实现解耦,不同应用互不干扰。

 · 开放基于K8S-CRD的超参数选择,不同应用可实 现客制化。 

(4)云原生边缘计算 

· 受益于K8S、KubeEdge的云原生边缘计算能 力,便于应用的边云调度和迁移。 

后续章节也提供基于KubeEdge-Sedna终身学 习统一架构的多个不同场景案例,以佐证KubeEdgeSedna边云协同终身学习的可扩展性。 

3.2 面对任务定义挑战 

在边云协同终身学习中,数据集中潜藏任务的自动化划分,目标推理样本的任务分配等任务定义的考 虑是面对数据异构和灾难性遗忘的前提。任务定义相 关工作主要参与初始化和重训练,因此归属于Lifelong Initial/Re-train Worker的Initial/Re-train模块中。任 务定义的输入是数据集和知识库内各任务知识,输出是 数据集中发现的任务集合。 

关于任务如何划分和分配的问题,需要确定在一 个应用内不同项目所需机器学习模型的数量以及各个 模型的应用范围。该问题目前通常只能由数据科学家 和领域专家进行人工干预,自动化程度低,难以规模 化复制。其自动化是一个悬而未决但又重要的难题。 接下来本章分享四个基于KubeEdge-Sedna的工业和 园区多任务案例。 

3.2.1 工业案例 

如图7所示,基于华为云Hilens服务的3个国际都 市中5个边缘局点中57个摄像头的验证,用于安全帽检 测的一种任务划分方法(TForest)被提出并发表在数 据挖掘领域顶级会议ACM CIKM上[1]。该案例验证一 种基于森林结构的多任务定义方法,华为云上也实现基 于KubeEdge-Sedna的公共服务HiLens来支持整个过 程。验证方案与基线相比,F1平均高出9.2%,并且在 部署新摄像头时需要的样本减少43.1%。

image.png

 图7 Hilens安全帽检测案例 

如图8所示,基于华为南方工厂6条产线机器连续 三个月收集的1876种焊盘(Pad)数据的验证,用于焊 膏(Solder Paste)异常检测的一种多任务迁移学习方 法(M-MTL)被提出并发表在人工智能系统领域顶级 期刊ACM TIST上[6]。该案例验证了一种基于快速聚类 算法的多任务方法,验证结果表明可以减少81.28%的 误报,这意味着每年节省1130万美元。 

image.png

图8 华为南方工厂锡膏异常检测案例 

3.2.2 园区案例 

如图9所示,基于华为2个大型工业园区中的8座建 筑物中9台冷机4个月运行数据的验证,用于冷机能效预 测的一种任务定义算法(MELODY)被提出并发表在 国际能源领域顶会ACM e-Energy上[7]。MELODY的关 键思想是使用元数据动态划分多个任务,特别适用于元 数据多样化但样本不足的边侧系统。该案例验证结果表 明MELODY算法优于最新预测方法,并能为两个园区 每月节省252MWh的电量,较当前建筑中冷水机的运 行方式节省了35%以上的能源。

image.png

 图9 华为深圳园区冷机能效预测案例 

如图10所示,基于香港金钟商业区3座商业大楼中 17台冷机4年的运行数据,一种多任务迁移方法和一种 任务分配的方法分别被提出和验证。前者亮点是基于元 数据提取任务属性,设计了元数据任务属性与样本任务 属性层次结合的多任务通用AI算法;后者是用于边缘计算分配任务的任务排序算法,以提升性能与服务质量。 该案例验证结果表明方案节约能源超过30%,文章相关 成果分别发表在人工智能顶级会议IJCAI与能源顶级会 议ACM e-Energy、分布式系统顶级期刊TPDS与顶级 会议ICDCS上[8-11]。

image.png

 图10 香港金钟商业区冷机能效预测案例 

3.3 面对未知任务挑战 

前文提及,边云协同终身学习需要假设边缘模型运 行时存在未知任务,并提前对未知任务进行识别,及时 进行兜底和更新,确保相关服务鲁棒性和可靠性,以期 解决开放世界问题。该工作也将贯穿整个边云协同终身 学习流程。下面我们分享两个园区相关案例。 

图11展示的是一个基于全球28个国家99个城市的 楼宇热舒适预测案例。在本案例中,我们首次提出一 种通过学习元知识和构建元知识库的方式对热舒适度 预测模型进行终身维护算法(LEON) ,引入元知识 及其运算符来自动发现生成了哪些模型,何时应该使 用以及如何更新。该案例验证结果说明,就SMAPE而 言,LEON平均优于所有最先进的基线30.02%。文章 相关成果已发表在能源领域顶级会议ACM e-Energy 上[2]。 

image.png

图11 KubeEdge-Sedna热舒适预测案例 

图12演示案例是在华为云园区部署基于KubeEdgeSedna终身学习的斜坡检测模型,来越过低矮障碍物, 并让终身学习来应对未知情况,最终实现智能导航, 可用于机器人递送或工业巡检。案例演示视频已发布 于国际开源顶会Open Source Summit Japan 2022、 第一届云原生边缘计算学术研讨会(KEAW'22) 以及KubeEdge社区公开课[12-14]。验证结果显示 Corner Case模型精度提升1.78倍,单次递送时间减少 28.04%。

image.png

图12 KubeEdge-Sedna云机器人终身学习案例 

作者简介:

 郑子木(1991-),男,广东人,主任工程师,博士,现就 职于华为云边缘云创新实验室,KubeEdge SIG AI联合创始 人,研究方向为边缘AI、多任务学习及AIoT。

参考文献: 

[1] Zheng Z, Li Y, Song H, Wang L, Xia F. Towards Edge-Cloud Collaborative Machine Learning: A Quality-aware Task Partition Framework[C]. In Proceedings of the 31st ACM International Conference on Information & Knowledge Management (ACM CIKM' 22) , 2022, 3705 - 3714. 

[2] Zheng Z, Luo P, Li Y, Luo S, Jian J, Huang Z. Towards lifelong thermal comfort prediction with KubeEdge-Sedna: online multi-task learning with metaknowledge base[J]. In Proceedings of ACM e-Energy' 22, 2022, 263 - 276. 

[3] BLiu B. Lifelong machine learning: a paradigm for continuous learning[J]. Frontiers of Computer Science, 2017, 11 (3) : 359 - 361. 

[4] Huawei Cloud Developers. Support edge-cloud collaborative lifelong learning features, KubeEdge sub-project Sedna 0.3.0 version released! [EB/OL]. https://segmentfault.com/a/1190000040132422/en, 2021 - 06 - 07. 

[5] 郑子木. KubeEdge-Sedna v0.3: 迈向次时代自动定制的AI工程范式[J]. 自动化博览, 2022, 39 (2) , 72 - 75. 

 [6] Zheng Z, Pu J, L, Wang D, Mei X, Zhang S, Dai Q. "Contextual anomaly detection in solder paste inspection with multi-task learning."[J]. ACM Transactions on Intelligent Systems and Technology (TIST) , 2020, 11 (6) : 1 - 17. 

[7] Zheng Z, Xie D, Pu J, Wang F.. Melody: Adaptive task definition of cop prediction with metadata for hvac control and electricity saving[J]. In Proceedings of ACM e-Energy' 20, 2020, 47 - 56. 

[8] Zheng Z, Wang Y, Dai Q, Zheng H, Wang D. "Metadata-driven task relation discovery for multi-task learning."[Z]. In Proceedings of IJCAI (CCF-A) , 2019. 

 [9] Zheng Z, Chen Q, Fan C, Guan N, Vishwanath A, Wang D, Liu F. "Data Driven Chiller Sequencing for Reducing HVAC Electricity Consumption in Commercial Buildings."[C]. In Proceedings of ACM e-Energy, 2018. 

 [10] Zheng Z, Chen Q, Hu C, Wang D, Liu F. "On-edge Multi-task Transfer Learning: Model and Practice with Datadriven Task Allocation."[C]. In Proceedings of IEEE TPDS (CCF-A) , 2019. 

[11] Chen Q, Zheng Z, Hu C, Wang D, Liu F. "Data-driven task allocation for multi-task transfer learning on the edge. "[C]. In Proceedings of IEEE ICDCS (CCF-B) , 2019. 

[12] Luo SQ. From Ground to Space: Cloud-Native Edge Machine-Learning Case Studies with KubeEdge-Sedna[EB/OL]. https://www.youtube.com/watch?v=bIaeWGelsJE, 2022 - 12 - 05. 

 [13] 郑子木. 边云协同终身学习在智慧园区及工业领域创新探索及落地[EB/OL]. KEAW'22, https://www.bilibili.com/video/ BV1Me411N7gA/, 2022 - 11 - 17. 

 [14] 郑子木, 杨浩进. KubeEdge云原生边缘计算公开课12-边缘智能进阶: 适配多样场景和应对分布式系统[EB/OL]. https://www. bilibili.com/video/BV1W44y1R7uB, 2022 - 12 - 27.

摘自《自动化博览》2023年第2期暨《边缘计算2023专辑》

热点新闻

推荐产品

x
  • 在线反馈
1.我有以下需求:



2.详细的需求:
姓名:
单位:
电话:
邮件: