联邦学习首个国际标准正式发布!
The following article is from AI科技评论 Author 蒋宝尚、陈彩娴
导读:农夫养了一只小羊,想给它吃各种不同营养成分的草料,需要去各地收集草料再运送回来喂它。但是有一天,草料场担心“熟客”农夫暴露他们的商业机密,不再允许将草料向外运输了。农夫非常着急:怎么办好呢?
苦苦思考后,农夫想了个法子:带小羊到各个草场吃草。羊在各地移动,而草料不出本地。草料场既不用担心商业机密暴露,小羊也能健康成长。
如果把草料换成“数据”,商业机密换成“用户隐私”,小羊换成“AI模型”,草料场换成“数据拥有方”,农夫换成“工程师”,那么,上述便是一个联邦学习的故事。
通过数据不动模型动的方式,联邦学习技术能使数据可用不可见,有效保护数据安全与用户隐私。
抛开技术细节不谈,本文将从另一个方面讲述“联邦学习”的故事。
但事实上,全球数据隐私保护大环境正在发生变化,标准制定也按下了快进键:
2018年12月,IEEE标准协会通过标准立项;
2019年2月,确定了联邦学习标准的基本框架;
2019年6月,增添工作组成员,梳理各自领域内的联邦学习典型案例;
2019年8月,讨论联邦学习的评估指标如何量化;
2019年11月,对联邦学习的安全测评与评级进行规划;
2020年3月,标准草案获IEEE通过,进入评估阶段;
2020年9月,标准通过IEEE终版确认;
2021年3月,联邦学习标准正式发布。
1
背景:数据隐私之殇
2019年1月22日,法国监管机构国家信息与自由委员会(CNIL)对谷歌处以5000万欧元巨额罚款,理由是“违反了GDPR”。
这一刻,所有需要数据作为“石油”的公司猛然惊醒:来真的了!
2018年,欧洲联盟加速出台了《通用数据保护条例》(GDPR),为全球互联网企业在享受全球化红利的同时,加上了一条重重的锁链:数据安全和用户隐私。
作为个人信息保护立法的标志性法规,GDPR的出台是“一点寒芒先到”,随后则是“枪出如龙”。
让有志之士没料到的是,数据安全和用户隐私的狂风会袭来的这么快:姓名、生日、信用卡、地址、病史、活动轨迹……只有“合规”,才能触摸到背后的蓝海市场。
针对数据安全与用户隐私,学术界此前也取得了许多成就,但在应用中的效果并不佳。
第四范式副总裁、主任科学家涂威威说:“同态加密、差分隐私、自动多方机器学习技术、联邦学习等等技术,在社会重视隐私保护意识之前,每年都会有论文产出,每年都会迭代从而适应越来越复杂的数据环境。”
然而,在学术界大放光彩的技术,在业界可能遭遇水土不服。差分隐私技术采用加噪声的方法给数据“打码”用来保护隐私,在业界已经早有尝试。但不同于理论上的完美证明,实际产业应用总是“棋差一招”。
在与国际人工智能界“迁移学习”技术的开创者杨强交流时,他也谈到:“我们在2012年就用华为的数据进行了一个实验,发现效果非常差,基本上属于伤敌一千,自损八百,所以差分隐私在工业界并没有大规模广泛应用。但(差分隐私)在学术界很火,因为这个课题写出的文章很漂亮。”
解决水土不服问题,有什么比想要“活下去”的大数据科技企业更加迫切呢?
2016年,“科技巨头”谷歌利用联邦学习解决安卓手机终端用户在本地更新模型的问题,能够基于本地“小数据”进行不断机器学习训练。
而这时,国内的研究团队也发现了这种“数据不出本地”的联合建模技术的强大之处,能确保数据安全、隐私保护和合规。
于是,国内学者和企业纷纷开始投入到联邦学习技术研究和“本土化”技术落地中。
在早期,国内将「Federated Learning」大多翻译为「联合学习」,现在则多称为「联邦学习」。其中的区别是,如果用户是个人,确实是把他们的模型「联合」起来学习;而如果用户是企业、银行、医院等大数据拥有者,这种技术则更像是将诸多「城邦」结合起来,「联邦」一词会更为准确。
这一名字的变化,也反映着联邦学习的研究主体从理论转向实际应用的变化趋势。
但要真正解决数据安全、隐私保护和合规问题,还需要一系列的配套措施。
只有将政策法规、标准规范等融入到代码、模型中,才能让需求各异的各方信服。
万事开头难
图注:标准制定流程,摘自IEEE中国官网
一开始就加入标准制定的涂威威也谈到:“困难确实存在,首先要面对‘两个崭新’。标准新:标准工作组虽然有很多资深技术专家,但是对于标准模式大家都有点束手无策;其次,技术新:联邦学习成为主流技术并没有多长时间,也要考虑如何吸引大家积极参与。”
当然,这难不倒身经百战的杨强。
在产生制定标准的想法之后,他和陈天健在深圳微众银行的大楼达成了共识:一定要接触足够多的机构,尽量面谈取经;不求快,求稳,做好打持久战的准备,至少五年。
事实上,在2018年,标准还未立项,对于标准是什么、有什么用等问题还不清楚时,杨强就得到了CCF和IEEE官方的帮助。
2018年年初,CCF最先提供了Technology Frontier平台。在杨强提出增设有关隐私的讨论题目之后,CCF只用了几个星期就准备好相关事宜。
杨强借助CCF TF这个平台对联邦学习标准制定的一些前置性问题进行了分享,并得到其他相关人员的反馈。
随后,杨强又与国家工信部相关人士、IEEE标准协会中国战略合作负责人王亮迪博士等人进行交流。
杨强回忆:“当时IEEE标准制定相关的领导还专门过来给我们答疑解惑。当时他带来两个美国人,其中一个是标准委员。他们提了很多建设性的意见,包括说如果真的要建设标准,就不能掺杂自己的偏见。”
一番交流后,杨强明白了:一项标准的成文涉及细节非常多,其中定义、概念、分类、算法框架规范、使用模式和使用规范等,都需要反复斟酌。
了解了大致流程:建立标准工作组,明确选举过程,制定大纲等等,并做好了打持久战的准备后,杨强便着手开始进行各种调查,研究以前标准制定的相关文档,寻找“老朋友”进行支持。
于是就有了最初的标准工作组成员:涂威威、陈雨强、冯霁、胡水海、丛明舒、张钧波......与此同时,也有一些单位在工作组中以观察员身份,持续关注标准制定的进展。
2019年尤其关键,因为标准制定的大部分正式讨论会议都在这一年里召开。
1月份,元旦刚过,南京大学的周志华教授作为AAAI的主席,便邀请了杨强去夏威夷作特邀报告。这也是人工智能顶级会议上第一次出现联邦学习的“题目”。
夏威夷虽处于冬季,吹的却是暖风。特邀报告的反响很好,工作组一合计,便提出不如召开一次正式的讨论会议。这时,距离立项通过不过两个月。
图注:2019年2月,标准工作组在深圳召开第一次会议
经过约两个月的讨论,2019 年2月份,工作组在深圳召开了第一次会议。参会人数达到30余位。也正是这30多位业界、学界人士,画出了联邦学习标准的基本框架。
正式会议结束后,当天与会者聚集在深圳万豪酒店的阳台上继续交流。杨强直到现在还对当时探讨的具体内容印象深刻,当时聊到很晚,参与的人都讲了自己擅长的领域,大家也更加坚定了打造联邦学习技术生态的信心。
会议讨论内外
共识可以通过讨论达成,但在标准制定的全程中,需要考虑的首要问题还是:如何吸引更多的人参与。
在回答这个问题时,冯霁的语气中透露出如释重负:“好在大家积极性比较高,也有宣传推广的意识。除了正式的会议之外,一些参与者,尤其是杨强教授一马当先,亲自利用各种机会进行宣讲,特别是致力于让这个标准有更多的国际参与,例如世界人工智能大会、AAAI、IJCAI等都有联邦学习的panel设定,并在美国、澳门召开工作组会议。创新工场也是一样,包括开复本人,也专门对这个技术在各个场合进行布道。”
由微众牵头,最早的参与单位有:微众银行、创新工场、星云Clustar、第四范式。
随后,工作组成员增加至30多家:松鼠AI、京东城市、腾讯云、逻辑汇、华为、中国电信、小米、华大基因、中电科大数据研究院、Senses Global、依图、趣链科技、百度、海信、蚂蚁金服、Eduworks、AI Singapore……
领军人物的“游说”与魅力,以及参与者的长远眼光,勾画出了联邦学习技术在未来的广阔发展空间。
在一次和瑞典科技部长的对话中,杨强曾问到:“GDPR对个人数据的强监管措施,对于欧洲AI公司而言,是否是创新的障碍?”
部长回答,这看上去是绊脚石,实际上是动力。因为大家会研制下一代的AI,而美国因为没有同等严苛的标准,技术会因此落后一代。
因此,善于洞察趋势的有志之士看到了:“联邦学习将成为解决人工智能数据瓶颈的必由之路。”
众人拾柴火焰高
图注:2019年8月,标准工作组在澳门召开第三次会议,聚焦联邦学习各项指标的评估如何量化、标准如何体现联邦学习技术的合规性、联邦学习应用案例的分类归纳等
作为To G领域的代表,中电科大数据研究院有限公司程序提到:“大数据院一直以政府治理大数据应用技术为研究重点,在推进政府数据开放共享等方面有很多经验和做法,我们来提供To G领域的应用案例。”
逻辑汇的创始人丛明舒作为杨强的学生,自然对恩师发起的项目全力支持:“作为投资研究平台研发商,经济激励我在行,我可以从博弈论视角分析联邦学习商业化过程的经济激励机制。”
涂威威总是逻辑清晰,对抛出的问题一针见血:“在我还是学者的时候,就研究过迁移学习下的隐私保护,关于联邦学习的系统定义部分,我来!”
星云Clustar胡水海也积极参与:“我们一直研究联邦学习里的底层技术架构,联邦学习标准中的这部分,我可以负责。”
在国际上,联邦学习也获得了2018年图灵奖获得者Yoshua Bengio的大力支持。
2019年12月13日,Bengio在NeurIPS 2019期间出席微众银行举办的“微众银行人工智能之夜”,在晚会上明确表达了自己对联邦学习的认可,并签署了微众与蒙特利尔学习算法研究所(Mila)的战略合作协议。
图注:工作组部分成员在加拿大温哥华参与NeurIPS 2019
标准通过后,来自瑞士洛桑联邦理工学院(EPFL)的Boi Faltings教授发来激动的祝贺,提到联邦学习标准对世界数据隐私保护的意义:
“Up to now, federated learning is only used by large companies. Now that there is a standard, everyone around the world can work together to maximize our benefit from AI.”(直至今日,联邦学习技术只在大企业中得到应用,而形成标准后,世界上每个人都可以一起努力,将AI技术“物尽其用”)
在和众多标准组工作人员交流的过程中,尽管他们没有提到,但AI科技评论却能够感受到:在全球的技术标准制定中,在隐私保护的技术发展大潮中,中国人始终处于弄潮儿的地位。
两种技术,一个目标
在训练性能方面,胡水海提到:“联邦学习在保护隐私的同时,需要以庞大的计算资源为代价,而异构计算恰好能提供强大的算力支持。星云Clustar以高性能算力起家,很早就开始布局联邦学习异构计算的赛道。”
在使用效果方面,涂威威深有感触:“确实有效果,第四范式也在医疗领域进行了尝试,在预测糖尿病患病率方面,比临床金标准要提升两倍到三倍。”
创新工场有着资本的敏锐“嗅觉”,早已看出了人工智能系统的安全性和隐私保护方向的重要性,已经开始着手研究联邦学习企业的创业机会。
与创新工场“英雄所见略同”的还有逻辑汇。作为一家金融科技公司,丛明舒也意识到,在面向金融机构提供在线金融分析自动化平台的过程中引入联邦学习技术,对看重数据隐私的金融机构亦至关重要。
京东城市自主研发的联邦数字网关产品面向政府和企业客户数据共享难等问题,也在致力于为客户提供安全数据共享、数据流转的产品级解决方案。
腾讯内部则成立了三个团队攻关联邦学习,而华为也有两个不同的工作组进行To C、ToB的布局。
腾讯云副总裁王龙谈到:“这一国际标准的发布,将联邦学习从算法层面提升到生态建设层面,是其产业化的重要一步。我相信这一标准在未来产业互联网的建设中,必将发挥关键作用。”
生态与格局
三年来,海内外多家企业和研究机构合作参与制定的联邦学习IEEE标准。但与其他诸多国际标准不同的是,在这次标准制定中,国内企业占据了主导地位。
回想这三年所做的事情,涂威威给出的关键字是“格局”,表现在两个方面:
一,先难后易。大家最开始选择了最难的标准进行攻关,这是比较明智的,因为如果国际标准如果证明可行,那么往国内引进、推广就比较容易。
二,行业影响长远。技术标准是推广行业应用的通用沟通语言。一项产品,你说它品质优秀,质量过硬,没有专业的评价体系,是无法让消费者、政府监管机构信服的。如果企业拿出IEEE标准用作检测,效果自然不同。
接下来如何推广?
END
全球首个联邦学习工业级开源框架
超900家企业机构开发者共建互联
扫码关注FATE开源社区
抢先获取更多联邦学习产品资讯