2024机器学习中的隐私保护.docx
《2024机器学习中的隐私保护.docx》由会员分享,可在线阅读,更多相关《2024机器学习中的隐私保护.docx(17页珍藏版)》请在优知文库上搜索。
1、机器学习中的隐私保护导读:近年来,随着GDPR通用数据保护条例出台以及一些互联网公司数据隐私泄漏等事件的发生,数据隐私的保护问题在行业应用中备受关注。与数据密切相关的机器学习算法的安全性成为一个巨大挑战。本文将介绍在机器学习领域中数据隐私安全的相关工作,并介绍第四范式在差分隐私算法效果提升上所做的工作。主要和大家分享数据隐私的3方面: 隐私保护的问题与案例 基于数据的隐私保护技术:数据匿名化 机器学习模型训练中的隐私保护技术:差分隐私I机器学习中的隐私保护问题1 .信息隐私信息隐私(Privacy):指的是当一个组织内敏感数据被拥有权限的人员所使用于某些技术、过程(如数据分析、训练模型)时,对
2、数据敏感信息进行保护的过程与规则。数据的隐私(Privacy)与安全(Security)并不等价:有的时候很多人提到数据隐私时,会与数据安全混为一谈,但其实两者并不等价。数据安全通常指防止数据被非法访问;而数据隐私则一般指在数据被合法访问时,防止其中的敏感信息被访问者以某些方式逆向获取,避免因数据被“逆向”推导出而造成的敏感信息泄露和滥用。当然,对于企业来说,数据隐私和数据安全都非常重要。2 .信息隐私问题如今,在很多需要用到私人敏感数据的领域中,都存在数据隐私的问题。特别地,当机器学习技术应用在一些个人隐私数据上时,可能会暴露敏感数据,对个人造成很多负面影响。虽然现实生活中有很多数据隐私的问
3、题,但严格意义上,个人隐私不可能被绝对保护。1977年,统计学家ToreDalenius给出关于数据隐私的严格定义:攻击者不能从隐私数据里获取任何在没有拿到数据之前他们所不知道的个人信息。2006年,计算机学者CynthiaDwork证明上述定义的隐私保护是不存在的。有一个直观例子可以帮助理解:假设攻击者知道Alice的身高比1.ithUanian女性平均身高高2英寸,这样攻击者只需要从一个数据集里获得1.ithuanian女性身高平均值(在接触数据前攻击者并不知道),就能准确获得AIiCe的精确身高,甚至Alice者杯需要在这个数据集里。因此,对于T分有信息量的数据,不可能完全不暴露隐私信息
4、。3 .隐私泄露的危害隐私泄露的危害,主要有: 隐私信息被应用于欺诈与骚扰:如盗刷信用卡、电话诈骗、冒用身份等 用户安全受到威胁:用户信息受到泄露,引起更多有目的犯罪 非法机构利用用户隐私信息操控用户 用户信任危机 违背相关法律不过一般来说,对于不特别极端的情况,我们仍可以从很大程度上来保证数据在机器学习过程中不被泄露。这里再分享一个隐私泄露的案例:1997年,马萨诸塞州GIC对外公布了一组医疗数据,其中包括病人的5位邮编、性别、生日。州长WeId对公众保证这份数据是匿名的,因为标识特征(如名字地址)已经被移除。结果一位MIT毕业生通过结合这份数据与她花了20美元购买的选民登记数据,找到了We
5、ld的医疗记录。同时,她还宣布87%的美国公民可以通过5位邮编、性别、生日进行唯一标识。这个真实案例印证了:任何有一定信息量的数据都有可能产生隐私泄露;单纯的数据匿名方法是很难保护隐私的。接下来,我们来看一下,针对潜在的隐私泄露问题我们有哪些技术可以在很大程度上杜绝隐私的泄露。I数据匿名化技术(DataAnonymization)数据匿名化是一个从数据层面上进行隐私保护的技术。匿名化很多时候是通过hash掉姓名等关键标识符来实现的。而在只简单hash掉姓名的情况下,数据访问者有很多方法通过利用其它特征的信息来反推出某人在数据表中对应的那一条数据。这时候,就需要一种技术来防止访问者能够通过结合多
6、个特征的数据来确定人与数据间的对应关系。1.数据表中数据列的类别(按所含隐私量分类)KeyAttributeQuasi-identifierSensitiveattributeNameDOBGenderZipcodeDiseaseAndre1/21/76Male53715HeartDiseaseBeth4/13/86Female53715HepatitisCarol2/28/76Male53703BrochitisDan1/21/76Male53703BrokenArmEllen4/13/86Female53706FluEric2/28/76Female53706HangNail图片来自:hu
7、ps:/elfll.github.io/2017/04/22/kanonymity.h【ml 标识列(KeyAttribute,简称KA):单凭其一列便能直接锁定某人的数据列,如:身份证号、姓名(大多数情况下); 半标识列(Quasi-identifier,简称QID):无法单凭其一列确定对象,但通过结合多列数据或查其它信息(缩小范围)可以对应到个人的数据列,如:生日、邮编等; 敏感信息列(SensitiveAttribute,简称SA):如疾病、收入等。虽然只有标识列的数据能够直接缩小范围到单个样本,但如前文所述,仅匿名化标识列数据对于隐私保护是完全不够的。2.攻击方法与防护方法链接攻击数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 机器 学习 中的 隐私 保护
