★北京大学 沈晴霓
摘要:边缘学习旨在实现云-边-端协同的机器学习模型训练和预测,天然具有一 定隐私保护能力。但是,边缘学习过程面临新的安全与隐私泄露风险。为此, 本文从边缘学习的概念出发,重点围绕边缘学习安全与隐私泄露风险及其隐私 计算架构、关键技术、未来方向展开论述。
关键词:边缘学习; 隐私计算; 联邦学习; 安全多方计算; 可信执行环境
Abstract:Edge learning is mainly applicable in collaborative machine learning and model prediction scenarios that involve cloud-edge-end architecture. This distributed nature of edge learning naturally provides a certain level of privacy protection. However, collaborative learning faces some new privacy risks that must be addressed. Therefore, this paper explores the concept of edge learning and focuses on the security and privacy disclosure risks associated with it. Additionally, the paper delves into the technical architecture, key technologies, and future directions of privacy computing in edge learning.
Key words: Edge learning; Privacy computing; Federated learning; Secure multi-party computing; Trusted execution environment
1 引言
当前,个人数据隐私保护备受关注,各国陆续推 出隐私保护相关法律法规和技术标准,如欧盟《通用数 据保护条例》、美国《统一个人数据保护法案》、英国 Edge Learning: Privacy Computing Architecture Key Technologies and Challenges 《数据保障法案》、我国《数据安全法》和《个人信息 保护法》以及ISO/IEC国际标准《信息技术-安全技术隐私架构框架》等,且联邦学习、安全多方计算和可信 执行环境成为隐私计算三大主流技术体系。
边缘学习[1-4]使得数据在本地或者最近的边缘服务 器上得到处理,用于训练本地的机器学习模型,只需要 和云中心通信必要的模型参数,一定程度上保护了数据 的隐私性。但是“云-边-端”架构的边缘学习模式在数 据、网络、计算和模型层面会面临新的安全与隐私泄露 风险,需要采用主流隐私计算技术保护边缘学习过程隐 私性,而这又对协同计算方之间交互的模型信息增加了 加干扰、加密、部署可信执行环境等操作,会降低最终 模型的精度、影响模型的收敛速度和学习过程的公平性 和持续性。为此,本文从边缘学习概念、特征和分类出 发,重点讨论边缘学习安全与隐私泄露风险、技术架构 与技术进展,以及面临的技术挑战。
2 边缘学习概述
2.1 边缘学习概念及特征
边缘学习[1-4]是一种基于“云-边-端”层次化、分布 式的计算框架,在边缘层进行模型训练与模型推理的过 程,如图1所示。边缘学习具有如下特征:
图1 边缘学习架构图
(1)多方协同
边缘计算支持云边协同、边边协同、云边端协同等 模式[2],所以边缘学习天然支持协同学习,利用异构分 布的计算设备协同训练模型。
(2)差异学习
边缘学习过程参与的各个边缘服务器能够利用不 同规模、不同类型、非独立同分布的数据集进行差异 化学习[3]。
(3)隐私保护
边缘学习是在数据源本地或者就近的边缘服务器上 进行分析和处理,用于训练本地的机器学习模型[5],所 以边缘学习天然就具有一定的隐私保护能力。
(4)轻量通信
边缘学习使得数据在数据源本地或附近尽快得到处 理,所以避免了在网络上传输大量的数据,或者仅需与 云/其他边缘服务器/边缘终端进行少量地通信,大大降 低了通信量[5]。
2.2 边缘学习技术的分类
边缘学习根据体系结构的不同,主要分为如下三类:
(1)终端设备学习
终端设备学习是指直接在终端设备上执行神经网 络模型学习过程,目的是减少终端设备与边缘服务器之 间的运行延迟,并减少终端设备上隐私数据的泄露风险。这类边缘学习架构需要提供资源受限的终端设备上 的模型设计、模型压缩和硬件加速等三种技术。例如: 从模型设计层面减少神经网络的参数数量[5,6,7],以满足 高精度要求下减少内存和执行延迟;通过参数剪枝和知 识蒸馏等技术对原始模型以最小的精度损失来进行压缩[4];此外,供应商通过整合现有的硬件资源(GPU、 CPU等)以加速深度学习效率,或者设计专门用于 深度学习的集成电路(ASIC),如谷歌的TPU[8], ShiDianNao[9]及软件开发工具发挥硬件的加速效果。
(2)边缘服务器学习
边缘服务器学习是指将原属于终端设备的所有神 经网络学习都放到边缘服务器上,终端设备仅需发送数 据与接收学习的结果,目的是解决资源受限的终端设备 无法支持实时性要求高的大型神经网络计算,而放在云 端计算又无法支持低延迟需求的问题[5,6]。这类边缘学 习需要增加数据预处理和多任务资源管理两种技术。例 如,边缘服务器只对发生了变更的数据执行计算,否则 将在终端设备上预处理;利用迁移学习技术处理来自多 个终端设备的请求,使多个请求任务能够共享神经网络 的低层计算,只需特化对应请求任务的少数高层计算。
(3)云边端协同学习
云边端协同学习是指利用智能协同技术,即根据硬 件算力、模型分层、数据大小、网络延迟和带宽、隐私 要求等诸要素,将终端设备、边缘服务器,以及云智能 地联合起来共同参与计算,实现云边端协同,优化学习 效率和增强隐私性。例如,可以将强大的神经网络模型 学习任务迁移到边缘服务器上执行,而较弱的模型学习 任务在终端设备本地执行。也可以利用神经网络分层的 特点进行模型分离,一些层在终端设备上计算,一些层 在边缘服务器或云上计算;或者在不违背任务实时性条 件下,合理使用云端的强大计算资源,帮助处理计算量 大的请求,提高边缘服务器的请求处理率和减少云边之 间的网络流量。
3 边缘学习的隐私计算技术现状
边缘学习的训练数据通常来自边缘侧的终端和设 备,如用户手机终端数据、企业的生产现场数据、传感 器上存储的用户的生理指标数据、行为数据等,这些往 往是用户的隐私敏感数据。边缘学习在本地的数据处理 天然具有隐私保护能力,但是其使用智能协同技术,即 根据硬件算力、模型分层、数据大小、网络延迟和带宽、隐私要求等诸多要素,将终端设备、边缘服务器、 云智能地联合起来共同参与计算,实现“云-边-端”协 同,涉及的设备种类、规模和用户群体复杂、调度管理 机制和计算环境复杂。因此,边缘学习数据、网络、计 算和模型面临新的安全和隐私泄露风险[1],需要构建隐 私计算架构,并开展相应关键技术研究。
3.1 边缘学习安全与隐私泄露风险
(1)数据风险
数据在边缘层进行模型训练与模型推理天然具有一 定的隐私保护能力,但是在边缘层的数据采集、传输和存 储等环节面临风险。例如:在边缘设备的数据采集过程 中,由于网络连接不稳定、边缘设备资源耗尽等原因, 存在采集的原始数据不准确、数据缺失等风险;在云边 端协同场景中,边缘层通过网络上传敏感数据(如模型 参数)给云端时,在未加密保护的情形下可能存在信道 的数据窃听风险;存储在边缘层的数据,由于边缘层的 数据安全防护措施缺少或薄弱的情况更加普遍,所以存 在黑客入侵攻击造成的数据窃取、篡改和丢失等风险。
(2)网络风险
边缘学习的基础设施大量部署在网络的边缘层, 它们与海量、异构、资源受限的终端设备大多采用短距 离的无线通信技术,或者采用专用的工业协议,这些协 议大多安全性考虑不足,因此会面临一系列网络安全风 险。例如:Modbus、Profinet、Zigbee等工业协议被 频繁爆出漏洞,极易被黑客利用;攻击者利用恶意终端 设备或边缘路由器发起DDoS攻击,或者产生冲突、干 扰、阻塞通信,或者将欺诈性数据分组注入通信链路, 或者在通信层欺骗、重定向、误导或删除数据分组,通 过生成路由循环或错误消息更改路由信息等。
(3)计算风险
边缘学习的计算设备主要包括具有边缘算力的智能 终端设备、工业控制设备、边缘控制器、边缘网关、边 缘计算服务器以及专用设备等,通常部署在行业现场, 以实现实时的数据处理和决策,这些计算设备通常存在 软硬件漏洞及面临着针对设备的攻击风险。例如在智能 家居场景中,为了在紧急情况下关闭供暖系统,恒温器 需要烟雾探测器的数据,因此攻击者可能通过入侵烟雾 探测器的方式控制整个家庭自动化系统。此外,攻击者 可能通过对设备的物理访问提取有价值的加密信息,进 而篡改电路、修改编程或者更改操作系统,从而导致永 久性破坏,或者利用侧信道攻击技术,对加密系统的安 全性和可靠性构成严重的敏感信息泄露威胁。
(4)模型风险
边缘学习的主要任务是机器学习或深度学习模型 的训练、部署和推理,面临一系列模型攻击的风险。 例如:恶意节点在模型训练环节中实施投毒攻击和隐 私泄露攻击。其中数据投毒攻击,即恶意节点会注入一 些恶意样本对原始样本数据集进行污染,使得模型中 毒,干扰模型的准确率。模型投毒攻击,即恶意节点通 过推导和计算,对模型参数或梯度信息进行精心的修改 或替换,使得模型准确率降低,造成模型可用性降低。 此外,隐私泄露攻击,即半诚实的云服务器通过收集明 文梯度等信息,通过GAN网络便可恢复边缘层的原始 样本信息,造成隐私泄露。训练完成的模型,在云服务 器或边缘服务器存储及下发过程中,在未加密保护情形 下存在模型窃取、后门植入等风险。在模型推理环节, 攻击者精心构造对抗样本,加入人类不易察觉的微小扰 动,达到欺骗模型的目的,或者通过访问模型推理服务 的API接口,从预测值反向推测输入的原始样本或其属 性信息,构成成员推理和模型逆向攻击。
3.2 边缘学习的隐私计算技术架构
隐私计算[4]是指处理、分析和计算数据的过程中能 够保持数据透明、不泄露、无法被计算方及其他非授 权方获取,即在提供隐私保护的前提下实现数据价值挖 掘的技术体系。根据具体的实现方法,目前主要分为 三大主流技术体系:一是联邦学习,即在不公开数据 的情况下执行本地分析与处理,如:横向联邦学习、纵 向联邦学习和迁移联邦学习等技术;二是安全多方计 算(SMC),即在一个分布式网络中,多个参与实体 各自持有秘密输入,各方希望共同完成某函数的计算, 而要求使得每个参与实体除计算结果外均不能得到其 他参与实体的任何输入数据,所以在处理之前通常需 要转换数据和/或算法,如:差分隐私、同态加密、秘 密共享、茫然传输、混淆电路等技术;三是可信执行环境(TEE),即提供可信硬件支持的安全隔离环境来 执行和处理数据,如:ARM TrustZone、Intel SGX、 AMD SEV、RISC-V keystone,以及国内鲲鹏处理 器、群/盲签名、远程证明等安全保障技术。
图2 边缘学习:隐私计算架构
因此,如图2,面向边缘学习的隐私计算软件体系 架构[1]自底向上为:密码学算法与协议层、AI算法与工 具层、边缘学习优化算法与工具层、隐私计算框架层等 四个层次。其中:
(1)密码学算法与协议层:提供同态加密、秘密 共享、茫然传输、混淆电路、零知识证明、群签名、盲 签名、差分隐私和远程证明等基础密码学算法与协议, 并提供基于上述算法与协议的四则运算、比较运算、逻 辑运算和矩阵运算等类型的计算工具。
(2)AI算法与工具层:提供数据预处理阶段的特 征工程、激活函数计算,模型训练阶段的优化器、损 失函数、梯度计算,以及模型预测和推理阶段的聚合 操作工具,并提供逻辑回归、随机森林、DNN/CNN、 RNN、LSTM、Transformer等人工智能算法。
(3)边缘学习优化算法与工具层:提供深度学习 模型设计、模型压缩、模型分离、硬件加速、资源调 度、计算迁移和协同计算等优化算法和工具。
(4)隐私计算框架层:提供联邦学习、SMC和 TEE等隐私计算框架,实现相应隐私计算算法容器的可 信部署、计算任务的灵活调度、监控和管理,支持金 融、医疗、工业等边缘学习场景,帮助构建隐私保护的 模型训练、模型推理,以及联合统计、隐私求交、匿踪 查询等典型应用场景。
同时,针对边缘学习面临的数据、网络、计算和 模型层面风险(3.1节),需要提供相应的安全保障机 制。其中,需要提供差分隐私、同态加密、秘密共享和 可验证计算等技术保障边缘学习数据的私密性和完整 性;需要提供通信信道安全、可靠连接、延迟可控和通 信轮次减少等技术保障边缘学习网络的安全性和可靠 性。需要提供计算环境可信、资源安全调度、身份安全 认证和硬件加速/TEE支持等技术保障边缘学习计算节 点的可信性和可用性。需要提供数据清洗、鲁棒学习、 对抗训练、模型融合等技术保障模型的机密性、完整性 和可用性。
3.3 边缘学习的隐私计算关键技术
面向边缘学习的隐私计算所依赖的关键技术主要包 括联邦学习、安全多方计算(SMC)和可信执行环境 (TEE)。从适用性上看,联邦学习更适用于保密性要 求不高但数据量大的模型训练,基于密码学的SMC更 适用于数据量适中但保密性要求较高的重要数据应用, 而TEE因为性能和通用性具有较大优势而更适用于复 杂、数据量大的通用场景和通用算法,如大数据协作、 人工智能模型保护等。从技术上看,联邦学习的优点是 数据本地处理可降低隐私泄露风险,缺点是学习过程中 参数传递和共享仍然会带来隐私泄露问题,且通信开销 大、模型精度和收敛效率低;SMC的优点是隐私性在 理论上可证安全,但是协议交互和计算开销大,且支持 的计算类型有限。TEE的优点是可以基于硬件实现类似 全同态加密能力且性能远低于目前全同态加密算法,缺 点是依赖于硬件,并且兼任性和计算开销离产业需求还 有一定距离。
(1)基于联邦学习的边缘学习
基于联邦学习的边缘学习主要需要解决学习过程中 参数传递和共享仍然会带来的隐私泄露问题。例如:利 用差分隐私技术保护模型参数[10,11,12],主要在云服务器 聚合全局模型时对模型参数分别添加高斯噪音[10]、普拉 斯噪音[11],或者在参与方本地训练过程中为待传递模型 参数添加高斯噪音[12];利用同态加密算法,对模型更新 进行加密,由云服务器聚合更新密文[13];在联邦学习中利用函数加密、秘密共享技术实现安全多方计算来保护 模型参数[14,15]。
(2)基于安全多方计算的边缘学习
基于安全多方计算的边缘学习需要互不信任的多方 在不提供明文的情况下,在对输入数据采用混淆电路、秘 密共享和同态加密处理的基础上进行联合函数计算,因此 主要需要解决联合计算执行效率过低、通信开销过大的问 题[16]。例如:采取剪切和选择、并行处理以及预处理等手 段优化基于混淆电路的安全多方计算协议[16];将可扩展的 Spark框架与Sharemind SMC秘密共享框架结合,提出新 的混合安全多方计算协议[17],提高了连接和聚合操作的执 行效率,以及降低通信成本;建立了TensorFlow机器学 习框架之上的基于秘密共享的安全多方计算开源库和协议 代码转换方法[18,19],提高了计算执行效率;基于带门限的 全同态加密、多密钥参与的全同态加密构建了安全多方计 算协议[20,21],协议的通信成本较低。
(3)基于可信执行环境的边缘学习
基于可信执行环境的边缘学习需要解决三个主 要问题:首先,边缘学习场景下,云服务需要下沉到 边缘,而边缘层为基于容器的微服务部署架构,因 此云原生应用迁移到边缘容器上部署运行时需要构建 TEE边缘容器,如:Gramine、Mystikos、Occlum 等[22]。LibOS开源项目,能够支持云原生应用无修改 迁移到TEE(SGX)边缘容器;其次,需要在边缘服 务器支持模型训练,因此需要在边缘服务器支持AI 算法库和软件框架,如: TensorSCONE[23]是在SGX 基础硬件平台上提出的一个安全的机器学习框架, secureTF框架[24]在此基础之上将SGX的保护拓展到 Tensorflow的分布式框架上,为跨机器的有状态机 器学习提供安全保障。
4 边缘学习的隐私计算技术展望
云边端协同的隐私计算技术,除了支持三种主流 隐私计算技术之外,还需要通过优化协同、优化算法来 提高模型精度,通过通信优化、资源优化来提高学习效 率,通过引入区块链等技术,以及价值度量和贡献激励 机制提高云边协同学习参与的积极性。
(1)模型精度
边缘学习需要云边端协同,采用隐私计算技术后, 协同方之间交互的信息需要加干扰、加密、部署可信执 行环境等处理,会降低模型的收敛速度和最终模型的精 度。因此,如何在保护数据隐私的前提下,尽可能提高 协同学习模型的精度和最终模型的可用性成为了挑战。
(2)学习效率
边缘学习需要大量终端设备、边缘服务器和云服务 器交互协同,采用隐私计算技术后,增加的大量安全交 互过程会产生额外的通信开销,这会大大降低模型训练 的效率。因此,如何在保护数据隐私的前提下,尽可能 提高模型的学习效率成为了挑战。
(3)激励机制
边缘学习过程中,不同边缘计算节点的数据集和资 源差异大,对全局模型的贡献度不同,采用隐私计算技 术后,边缘计算节点通常对交互的信息加干扰、加密、 部署可信执行环境等处理,会降低数据的价值和参与方 的贡献度,影响边缘学习过程的可持续性。因此,如何 在保护数据隐私的前提下,通过有效的激励机制,保证 边缘学习过程的持续性成为了挑战。
5 结论
本文从边缘学习的概念、特征及分类出发,重点围 绕边缘学习面临的安全与隐私泄露风险、隐私计算技术 架构及关键技术等三个方面的技术研究进展进行了分析 与综述,并展望了隐私计算技术未来在模型精度、学习 效率和激励机制三个方面面临的技术挑战。
作者简介:
沈晴霓,女,北京大学教授、博士生导师,兼任边缘计 算产业联盟安全工作组主席。主要研究方向为操作系统 与虚拟化安全、大数据安全、云/边缘计算安全、区块 链与隐私计算、可信计算等。
参考文献:
[1] 边缘计算产业联盟安全工作组. 边缘学习:隐私计算白皮书[R/OL]. 2022.
[2] Murshed M G S, Murphy C, Hou D, et al. Machine Learning at the Network Edge: A Survey[J]. ACM Computing Surveys (CSUR), 2021, 54 (8) : 1 - 37.
[3] Zhang, Jie, et al. Edge Learning: The Enabling Technology for Distributed Big Data Analytics in the Edge[J]. ACM Computing Surveys (CSUR) 54.7 (2021) : 1 - 36.
[4] Zhang J, Chen B, Zhao Y, et al. Data Security and Privacy-Preserving in Edge Computing Paradigm: Survey and Open Issues[J]. IEEE Access, 2018, 6 : 18209 - 18237.
[5] Chen J, Ran X. Deep Learning with Edge Computing: A Review[J]. Proceedings of the IEEE, 2019, 107 (8) : 1655 - 1674.
[6] A. G. Howard et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications[J/OL]. 2017, arXiv: 1704.04861.
[7] W. Liu et al., SSD: Single Shot Multibox Detector[C]. In Proceedings of 14th European Conference on Computer Vision (ECCV 2016), 2016 : 21 - 37.
[8] J. Redmon and A. Farhadi. YOLO9000: Better, Faster, Stronger[C]. In Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2017). 2017: 6517 - 6525.
[9] Edge TPU. Available: https://cloud.google.com/edge-tpu/.
[10] Geyer RC, Klein T, Nabi M. Differentially private federated learning: a client level perspective[C]. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.
[11] Jayaraman B, Wang L, Evans D, Gu Q. Distributed Learning without Distress: Privacy-Preserving Empirical Risk Minimization. NeurIPS 2018: 6346-6357.
[12] Wu M, Ye D, Ding J, Guo Y, Yu R, Pan M. Incentivizing differentially private federated learning: a multidimensional contract approach[J]. IEEE Internet of Things Journal, 2021, 8 (13) : 10639 – 10651.
[13] Fang C, Guo Y, Wang N, Ju A. Highly efficient federated learning with strong privacy preservation in cloud computing[J]. Computers & Security, 2020, 96: 101889.
[14] Xu R, Baracaldo N, Zhou Y, Anwar A, Ludwig H. HybridAlpha: an efficient approach for privacy-preserving federated learning[C]. Proceedings of the 12th ACM Workshop on Artificial Intelligence and Security. New York, NY, USA: Association for Computing Machinery, 2019: 13 – 23.
[15] Khazbak Y, Tan T, Cao G. MLGuard: mitigating poisoning attacks in privacy preserving distributed collaborative learning[C]. 2020 29th International Conference on Computer Communications and Networks (ICCCN).
[16] 钱文君, 沈晴霓, 等, 大数据计算环境下的隐私保护技术研究进展[J]. 计算机学报, 2022 : 45 (4), 669 - 701.
[17] Volgushev N, Schwarzkopf M, Getchell B, et al. Conclave: Secure multi-party computation on big data[C]. Proceedings of the 14th EuroSys Conference. Dresden, Germany, 2019 : 1 - 18.
[18] Dahl M, Mancuso J, Dupis Y, et al. Private machine learning in tensorflow using secure computation[J/OL]. arXiv preprint arXiv: 1810.08130, 2018.
[19] Kumar N, Rathee M, Chandran N, et al. Cryptflow: Secure tensorflow inference[C]. Proceedings of the 41st IEEE Symposium on Security and Privacy. San Francisco, CA, USA, 2020 : 336 - 353.
[20] Asharov G, Jain A, López-Alt A, et al. Multiparty computation with low communication, computation and interaction via threshold FHE[C]. Proceedings of the 31st Annual International Conference on the Theory and Applications of Cryptographic Techniques. Cambridge, UK, 2012: 483 - 501.
[21] López-Alt A, Tromer E, Vaikuntanathan V. On-the-fly multiparty computation on the cloud via multikey fully homomorphic encryption[C]. Proceedings of the 44th Annual ACM Symposium on Theory of Computing. New York, NY, USA, 2012 : 1219 - 1234.
[22] Liu Weijie, Chen Hongbo, Wang XiaoFeng. Understanding TEE Containers, Easy to Use? Hard to Trust[J/OL]. arXiv 2021. https://doi.org/10.48550/arXiv.2109.01923.
[23] Kunkel R, Quoc DL, Gregor F, et al. TensorSCONE: A Secure TensorFlow Framework using Intel SGX, CoRR abs/1902.04413 (2019), https://doi.org/10.48550/arXiv.1902.04413.
[24] Lee, Taegyeong, et al. Occlumency: Privacy-Preserving Remote Deep-Learning Inference Using SGX[C]. In Proceedings of the 25th Annual International Conference on Mobile Computing and Networking (MobiCom 2019), 2019 : 1 - 17.
摘自《自动化博览》2023年第2期暨《边缘计算2023专辑》