查看原文
其他

基于同态加密和秘密分享的纵向联邦 LR 协议研究

The following article is from 信息通信技术与政策 Author 符芳诚,刘舒 等




作者简介




 符芳诚 

北京大学信息科学技术学院高可信软件技术重点实验室在读博士研究生,腾讯TEG数据平台部数据中心研究员,主要研究领域为机器学习、隐私计算、分布式计算等。



 刘舒

腾讯TEG数据平台部数据中心高级研究员,主要研究领域为机器学习、隐私计算、分布式计算等。



 程勇 

腾讯TEG数据平台部数据中心专家研究员,主要研究领域为隐私计算、联邦学习、安全多方计算、分布式计算等。



 陶阳宇 

通信作者。腾讯TEG机器学习平台部训练平台中心总监,主要研究领域为机器学习、隐私计算、大数据、分布式系统等。


论文引用格式:

符芳诚, 刘舒, 程勇, 等. 基于同态加密和秘密分享的纵向联邦 LR 协议研究[J]. 信息通信技术与政策, 2022,48(5):34-44.


基于同态加密和秘密分享的纵向联邦 LR 协议研究


符芳诚1,2  刘舒2  程勇2  陶阳宇3


(1. 北京大学信息科学技术学院高可信软件技术重点实验室,北京 100871;2. 腾讯TEG数据平台部,深圳 518054;3. 腾讯TEG机器学习平台部,北京 100083)




摘要:提出了一种新颖的两方纵向联邦逻辑回归协议,并在半诚实安全模型下证明了该协议的安全性,包括模型训练流程和模型推理流程的安全性,且无需对非线性函数使用多项式近似计算,从而保证了联邦逻辑回归协议模型无损。

关键词:纵向联邦学习;逻辑回归;同态加密;秘密分享

中图分类号:TP309.2       文献标志码:A

引用格式:符芳诚, 刘舒, 程勇, 等. 基于同态加密和秘密分享的纵向联邦 LR 协议研究[J]. 信息通信技术与政策, 2022,48(5):34-44.

DOI:10.12267/j.issn.2096-5931.2022.05.005



0引言


机器学习和人工智能已经在多个领域取得了巨大的成功,如图像识别、自然语言处理、广告推荐等。在人工智能技术突飞猛进的同时,潜在的用户数据滥用和隐私泄露风险也逐渐成为业界广泛关注的焦点。出于数据安全和隐私保护的考虑,不同机构所拥有的数据无法被整合集中在一起用于机器学习建模,导致了数据孤岛问题的出现,进而阻碍了人工智能应用的发展。近年来,如何在保证每个机构的数据安全和用户隐私的前提下,协同多个机构的数据进行联合机器学习建模,从而提高模型的表达能力、更深入地释放数据价值,成为了学术界与工业界广泛研究的热点课题[1-2]。


联邦学习(Federated Learning,FL)[3]是由谷歌于2016年提出的概念,旨在解决如何在数据不出本地的情况下,联合多个参与方(如智能手机等终端设备)中的数据进行模型训练。依据参与方不同的数据划分形式,联邦学习被进一步细分为横向联邦学习(Horizontal FL)、纵向联邦学习(Vertical FL)和联邦迁移学习三种范式[4]。本文关注的是纵向联邦学习场景。如图1所示,在纵向联邦学习中,不同的参与方拥有不同的特征空间,但在样本空间上存在交集;该交集部分可以被视作一个虚拟的纵向划分的数据集(即虚拟宽表),用于联合的数据建模与分析。此外,在纵向联邦学习中,只有一个参与方拥有标签信息(Label),称该参与方为参与方B,并称没有标签信息的参与方为参与方A。针对最常用的机器学习算法协议之一,本文围绕两方纵向联邦学习场景下的逻辑回归(Logistic Regression,LR)协议[5-7],着重分析如何设计一个安全的纵向联邦LR协议,并结合同态加密和秘密分享两种技术,提出了一种安全的联邦LR协议。在半诚实安全模型下,证明了所设计的纵向联邦LR协议的安全性。该纵向联邦LR协议已部署于通用隐私计算平台Angel PowerFL中,并获得了广泛的应用落地。

图1  纵向联邦学习场景的数据划分示意图


1背景知识
图2  一种将同态密文转换为秘密分享变量的协议流程图
表1  同态密文转换为两个秘密分享变量的理想功能

2联邦LR算法与分析

图3  参与方A通过XAWA对标签进行预测的示意图
表2  纵向联邦逻辑回归算法协议中,为了保证数据安全,各参与方不可获得的信息
图4  初始化流程图
图5  前向计算流程图
图6  反向计算流程图
表3  前向计算的理想功能
表4  反向计算的理想功能

3结束语

本文对纵向联邦LR算法协议的安全性进行了全面的分析,并详细列出了保证特征数据和标签信息安全的具体要求。基于该分析,提出了一种新颖的两方纵向联邦LR协议,该协议通过结合同态加密和秘密分享技术来保证特征数据和标签信息的安全,且无需对非线性函数使用多项式近似计算,从而可以保证联邦LR模型无损。笔者在半诚实安全模型下证明了该协议的安全性,包括模型训练和模型推理流程的安全性。本文所提出的联邦LR协议的交互流程简单,易于工程实现,且计算和通信开销都较小,已经在通用隐私计算平台Angel PowerFL中获得了广泛的应用和经过了充分的检验。


参考文献
[1] 闫树, 袁博, 吕艾临. 隐私计算——推进数据“可用不可见” 的关键技术[M]. 北京:电子工业出版社出版, 2022.[2] 中国信息通信研究院云计算与大数据研究所. 隐私计算白皮书(2021 年)[R], 2021.[3] KONEN J, MCMAHAN B, RAMAGE D. Federated optimization: distributed optimization beyond the datacenter[J]. Mathematics, 2015.[4] YANG Q, LIU Y, CHEN T, et al. Federated machine learning: concept and applications[J]. ACM Transactions on Intelligent Systems and Technology, 2019,10(2):1-19.[5] HARDY S, HENECKA W, IVEYLAW H, et al. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption[J], 2017. DOI:10.48550/arXiv.1711.10677.[6] YANG S , REN B, ZHOU X, et al. Parallel Distributed Logistic Regression for Vertical Federated Learning without Third-Party Coordinator[J]. arXiv:1911.09824,2019.[7] CHEN C, ZHOU J, WANG L, et al. When homomorphic encryption marries secret sharing:secure Large-Scale sparse logistic regression and applications in risk control[J]. Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining, 2021(8):2652-2662.[8] RIVEST R L, ADLEMAN L M, DERTOUZOS M L. On data banks and privacy homomorphisms[J]. Foundations of Secure Compuation, 1978:169-180.[9] EVANS D, KOLESNIKOV V, ROSULEK M. A pragmatic introduction to secure multi-party computation[J]. Foundations & Trends' in Privacy & Security,2018,2(2-3):70-246.[10] PAILLIER P. Public-key cryptosystems based on composite degree residuosity classes[J]. Proc. EUROCRYPT’ 99, Czech Republic, May, 1999(4):223-238.[11] CHENG K, FAN T, JIN Y, et al. SecureBoost: a lossless federated learning framework[J]. Intelligent Systems, IEEE, 2021,(99):1-1.[12] FU F, SHAO Y, YU L, et al. VF 2 boost: very fast vertical federated gradient boosting for cross-enterprise learning[J]. Proceedings of the 2021 International Conference on Management of DataJune, 2021:563-576.[13] WU Y, CAI S, XIAO X, et al. Privacy Preserving Vertical Federated Learning for Tree-based Models[J], 2020. DOI:10.14778/3407790.3407811.[14] ZHANG C, LI S, XUA J, et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning[J]. In 2020 USENIX Annual Technical Conference, 2020(7):493-506[15] DEMMLER D, SCHNEIDER T, ZOHNER M. ABY-a framework for efficient mixed-protocol secure two-party computation[C]//Network & Distributed System Security Symposium, 2015.[16] MOHASSEL P, RINDAL, P. ABY 3: a mixed protocol framework for machine learning[J]. Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications SecurityOctober, 2018(10):35-52.[17] SHAMIR A. How to share a secret[J]. Communications of the ACM, 1979. DOI:10.1145/359168.359176.[18] BEAVER D. Efficient multiparty protocols using circuit randomization[C]//Advances in Cryptology-CRYPTO’ 91, 11th Annual International Cryptology Conference, Santa Barbara, California, USA, Proceedings. SpringerVerlag, 1991.[19] PULLONEN P. Actively secure two-party computation: efficient beaver triple generation[Z], 2013.[20] GOLDREICH O. The foundations of cryptography -volume 2, basic applications[M], 2004.[21] LINDELL Y. How to simulate it-a tutorial on the simulation proof technique[J]. Springer International Publishing, 2017:277-346.
Vertical federated logistic regression via homomorphic encryption and secret sharing
FU Fangcheng1,2, LIU Shu2, CHENG Yong2, TAO Yangyu3
(1. Department of Computer Science & Key Lab of High Confidence Software Technologies (MOE), Peking University, Beijing 100871, China; 2. Data Platform, TEG, Tencent Inc., Shenzhen 518054, China; 3. Machine Learning Platform, TEG, Tencent Inc., Beijing 100083, China)
Abstract: This paper presents a novel vertical federated logistic regression algorithm with provable security guarantees of both model training and inference under the semi-honest security model. The proposed algorithm is privacypreserving, lossless, and efficient. Firstly, by combining the homomorphic encryption and secret sharing mechanisms, data protection is provably ensured, including the protection of both features and labels. Secondly, the algorithm is lossless since it does not require any approximations for the non-linear functions.Keywords: vertical federated learning; logistic regression; homomorphic encryption; secret sharing



END
往期推荐:




隐私计算头条周刊(7.24-7.30)


《数字中国发展报告(2021年)》:加快隐私计算技术应用,推动数据要素价值加快释放


2022北京大数据技能大赛隐私计算赛道答疑说明会


附下载 | 2022年隐私计算技术与行业应用报告合集(33份)


开放隐私计算社区征稿啦!

热门文章:




姚期智院士:数据、算法、算力为何是数字经济核心技术?


后量子时代,密码何去何从?


清华大学张超:实现数据确权与保护,数据密态渐成行业共识


如何在保障数据安全的前提下,充分发挥电力数据的经济价值?


未来十年,将会有95%的企业采用隐私计算技术

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存