2024联邦学习与安全多方计算.docx
《2024联邦学习与安全多方计算.docx》由会员分享,可在线阅读,更多相关《2024联邦学习与安全多方计算.docx(25页珍藏版)》请在优知文库上搜索。
1、联邦学习与安全多方计算导读:联邦学习和安全多方计算是当前跨机构数据协同的两类主流技术,本文将从基本思想、安全性、性能等多个方面介绍二者的区别,并介绍阿里在安全多方计算方面的最新成果。Ol联邦学习的发展历史1.联邦学习阿里安全Datafuncon2020大数富A的新技术实H联神习(Federatedlearning,F1.)由GOOgIe于2016年提出初衷是用于解决多个移动设备的分布式建模问题例:GoogleGboard安卓输入法预测为了智能预测下f词,需要针对大量用户的输入历史数据进行训睡设计目标:避免直接收集用户的输入历史,尽量在端上训除联邦学习在2016年由谷歌提出,因为Google有安
2、卓系统,需要解决多个安卓设备的分布式建模问题。其中,主要是针对输入法的建模,比如客户在安卓输入法中输入单词what,或许他可能想继续输入d。youthink,Google输入法如果能自动联想出来,用户体验就会变得比较好,但是自动联想功能需要大量的用户数据才能学习出来,怎么获得这些用户数据呢?一个比较粗暴的做法是用户输入了什么字就把这个字全部收集到云端上,但这种做法无疑是对用户隐私的一种破坏。由于谷歌崇尚不作恶,怎样在不收集用户输入文字的前提下,从而预测出用户接下来需要输入的文字?因此,产生了联邦学习。2 .联邦学习用于多移动端分布式建模阿里宣全AUMAASJMTY重重法代N轮联邦学习用于多移动
3、终端分布式建模设计优点:设备只上传传输梯度VW,并不直接上传本地输入历史联邦学习的设计优点就是用户数据尽量不离开用户自己的安卓设备,用户尽量在本地完成一部分的训练,然后把训练的梯度传到谷歌的云端,这样谷歌只看见一个梯度,它并没有获得这个用户的设备以前的聊天内容,这样在设计上有一种PriVaCybydesign的设计优点。有很多这样的安卓设备,比如:ParameterSerVeriS备是谷歌的云端服务器,它开始会有一个全局的初始化模型,云端服务器会把模型推到各个设备上,然后各个设备基于本地的数据来优化模型,得到一个更新的梯度,把这个更新的梯度发给服务器,服务器收到这么多梯度之后,会更新全局模型,
4、然后发到这些设备上,这些设备又迭代,直到这个模型在某种程度上收敛为止,这就是联邦学习最开始的一个雏形。3 .国内联邦学习与谷歌联邦学习的区别区别一:后阿里安全Aubaaauobvty2018年国内开始引入FederatedIeaming概念,主要区别1:大概在2018年左右,国内开始引入联邦学习概念,与谷歌的联邦学习相比有了一些发展和改变。两者主要的区别是谷歌的联邦学习主要是面向海量移动设备的数据之间的合作,但是国内主要是机构之间的合作,被称为crosssiloF1.,一般都是两个或者三个机构之间的合作。但是,目前的应用主要以信贷或者广告为主,例如:两个或多个机构一起判断用户的信用,从而决定要
5、不要借钱给他,或者要不要给他推一些广告。这种情况下参与方的数目实际上跟Google的联邦学习相比是有很大的降低的。区别二:阿里宣全AUBABASKUVrYDatafuncon2020大0Al的卡蜜木实底2018年国内开始引入FederatedIearning概念,主要区别2:国内F1.:主要面向数据的纵向分割Google有很多的设备,每个设备上都有自洽的一些样本,也就是说数据在多个参与方之间,它是横向分割的,比如说这个绿色的在一个设备上,这个白色的在另一个设备上就是横向的分割,每个都有一个完整的样本。但是国内经常使用的联邦学习,主要是面向数据的纵向分割的。以信贷为例,其通常都是针对一个人的不同
6、特征并把它们组合起来做联邦学习。比如说特征1与特征2在一个机构,特征3与特征4以及label是在另外T机构,也就是说它主要是面向数据的纵向分割。当然横向分割这种应用国内同样存在,但是用的比较多的或者说比较赚钱的,还是在这种纵向的分割法上。02联邦学习面临的安全挑战谷歌原版的联邦学习有什么样的安全挑战?而在国内,会面临什么样的新的安全挑战?1.谷歌原版的联邦学习的安全挑战Datafuncon2020XfiS的际投不实及梯度与原始数据的关系梯度VW的定义:本质上是一个函数已知梯度,如何求原始数据?攻击方法1:对于简单的F(如1.ogiStiCregreSSion),可以直接解方程组(1.HCHI9
7、)攻击方法2:对于京杂的F(如CNN),可以用M1.方法求近似解(MSCS19fZ1.H19)首先是原版横向跨设备的联邦学习。因为它设计上只传梯度,梯度本质是一个函数,它是根据初始的模型以及本地的数据算出来的一个函数,那么这个函数可能是跟原数据是相关的,不能说有梯度就算不出原数据了,那多大程度上相关呢?其实算出来是有一定的难度,但是有一些学者也能算出来,比如说假设我们训练的模型是一个简单模型,比如逻辑回归,我们有了一堆梯度跟原始数据的这种关系,可以通过解方程组把这个未知数解出来的,这是我们在NIPS联邦学习WOrkShoP上的一个工作。如果这个模型比较复杂,解方程组算就变得不现实了。这时有一些
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 联邦 学习 安全 多方 计算
