笔记分享｜组队学习联邦学习第一期— 联邦学习概览

Original 黄超隐私计算研习社

2024-09-16

联邦机器学习(Federated machine learning/Federated Learning)，又名联邦学习，联合学习，联盟学习。联邦机器学习是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现人工智能协作。

联邦学习定义了机器学习框架，在此框架下通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题。虚拟模型是各方将数据聚合在一起的最优模型，各自区域依据模型为本地目标服务。联邦学习要求此建模结果应当无限接近传统模式，即将多个数据拥有方的数据汇聚到一处进行建模的结果。

10月14日，OpenMPC组队学习·联邦学习第一期 <联邦学习概览>，我们邀请到了来自中山大学智能工程学院的副教授、博士生导师由林麟教授，带领大家一起学习联邦学习！在此，北京航空航天大学的黄超整理了第一期的分享内容方便大家学习，感兴趣的同学们可以点击视频，观看完整版分享。

联邦学习概览（上）

联邦学习概览（下）

1

发展历史和场景

在机器学习中，关键问题是如何结合数据和机器学习算法，包括两种方式：集中式、分布式。

集中式机器学习（Centralized Machine Learning）

集中式机器学习中，所有数据被收集到中央服务器，并由中央服务器构建机器学习模型，并存在数据孤岛问题，具体而言：

1. 数据源的数量和分散程度不断增加；

2. 法律法规将限制数据的传输与共享；

3. 用户不愿意分享隐私数据。

分布式机器学习（Distributed Machine Learning）

利用多个计算节点进行机器学习或深度学习的算法和系统，旨在提高性能、隐私保护，并扩大至更大规模的训练数据和更大的模型。
分布式机器学习仍然没有在根本上解决隐私化、数据孤岛问题：
1. 在解决算力难题上有很大的突破；
2. 仍然需要先收集数据，再通过网络分发数据分片，没有达到保护隐私的目的；
3. 无法利用多样异构智能端及小型分散的移动设备的数据。

联邦学习（Federated Learning）

联邦学习可以打破资源孤岛，解决算力、隐私保护难题。

其系统模型如下图所示：

2

基本范式

组成部分包含3类对象：备选方、参与方、协调方，此外包括一个交互信道。

备选方：指具有联邦意愿的组织或个人；

2. 参与方：指实际参与全局模型训练的备选方；

3. 协调方：指协调各参与方构建全局模型的第三方；

4. 交互信道：指用于各方交换训练参数与指令的网络信道。

工作流程联邦学习通过多轮次的“选择-训练-通信-聚合”迭代过程，训练得到所需的全局模型，总体可分为七步：

参与方筛选：周期性发布FL训练请求,筛选合适的用户；

2. 本地模型初始化：参与方接收训练指令,并解析从协调方获得的当前全局模型及其他参数(如学习率)；

3. 本地数据预处理：参与方根据训练需求进行数据对齐、特征采样、清洗等；

4. 本地模型训练：本地模型或中间结果的计算；

5. 本地参数上传：参与方将计算得到的本地模型或中间结果发送给与其连接的上级协调方节点；

6. 全局模型更新：协调方对接收到的本地模型或中间结果进行聚合操作,最终完成全局模型的聚合；

7. 模型收益分配（如有）：协调方依据激励机制,计算各参与方的贡献程度,并给予适当的奖励

3

系统分类

用户参与模式：同质参与 vs 异质参与

同质参与：由计算,存储和通信能力等资源无明显差异的具有联邦意愿的数据所有方参与的用户参与模式，也称同质联邦学习；

异质参与：由计算,存储和通信能力等资源不尽相同的具有联邦意愿的数据所有方参与的用户参与模式，也称异质联邦学习。

本地训练模式：横向联邦学习 vs 纵向联邦学习 vs 联邦迁移学习

横向联邦学习：

1. 将参与方的数据集横向切分,做特征对齐,取出数据特征相同而样本ID不完全相同的部分数据进行训练；

2.应用于各参与方数据集具有相同的特征空间和不同的样本空间的FL场景。

纵向联邦学习：

1. 将参与方的数据集纵向切分,做样本对其,取出样本空间相同而特征空间不完全相同的部分数据进行训练；

2. 适用于参与方的样本空间重叠较少而特征空间重叠较多的情况。

联邦迁移学习：

1. 不对参与方的数据集进行切分,引入迁移学习来联邦不同参与方的数据；

2. 适用于参与方的样本空间和特征空间都重叠都较少的情况。

本地训练模式：中心化通信 vs 多中心化通信 vs 去中心化通信

中心化通信：

1. 一个协调方,集中协调联邦学习任务；

2. 所有参与方仅与该中心连接通信,组织成只有一个中心的星型拓扑结构；

多中心化通信：

1. 加入阶段性的中继中心以规避单点集中控制的风险；

2. 小型基站、WiFi接入点等固定部署的边缘服务器。

去中心化通信：

1. 各参与方之间的对等通信来代替与服务器之间的通信；

2. 参与方也是协调方,都直接聚合模型。

模型聚合模式：同步聚合 vs 异步聚合

同步聚合：

1. 所有参与方以相同的步调进行训练；

2. 各参与方完成本轮更新后需要等待其他参与方；

3. 只有所有参与方均完成本地任务后才进行下一轮更新。

异步聚合：

1. 协调方和参与方的工作是异步且平行的；

2. 协调方收到本地模型后可随时进行全局模型更新；

3. 参与方得到协调方更新后，随即进入下一回合本地更新。

4

研究分布

主要研究分布集中于以下内容：

问题1：如何吸引用户加入联邦学习？

研究方向：面向众包的奖励机制

相关论文：Reinforcement Learning Based Incentive Mechanism for Federated Meta Learning: A Game-Theoretic Perspective, ICTAI (CCF C类会议)

问题2：如何更好的实现异步联邦训练？

研究方向：异步联邦学习机制研究

相关论文：A Triple-Step Asynchronous Federated Learning Mechanism for Client Activation, Interaction Optimization, and Aggregation Enhancement, IOT-J

问题3：如何适应时变环境，实现模型的持续更新？

研究方向：增量式联邦学习

相关论文：AFMeta: Asynchronous Federated Meta-learning with Temporally Weighted Aggregation, IEEE SmartWorld 2022

问题4：如果在训练过程中对抗攻击？

研究方向：联邦安全学习

相关论文：FedRSM: Representational-Similarity-Based Secured Model Uploading for Federated Learning , TrustCom 2023

其他研究方向：

1. 研究热点 —— 联邦大模型训练；

2. 安全问题 —— 可信联邦学习；

3. 学习范式 —— 联邦图学习、联邦强化学习。

5

相关应用

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

笔记分享｜组队学习联邦学习第一期— 联邦学习概览

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

笔记分享｜组队学习联邦学习第一期— 联邦学习概览

您可能也对以下帖子感兴趣