2024机器学习中的隐私保护.docx

资源ID：1270328 资源大小：112.63KB 全文页数：17页
资源格式： DOCX 下载积分：5金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要5金币

邮箱/手机：
温馨提示：	快捷下载时，如果您不填写信息，系统将为您自动创建临时账号，适用于临时下载。如果您填写信息，用户名和密码都是您填写的【邮箱或者手机号】（系统自动生成），方便查询和重复下载。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

2024机器学习中的隐私保护.docx

机器学习中的隐私保护导读：近年来，随着GDPR通用数据保护条例出台以及一些互联网公司数据隐私泄漏等事件的发生，数据隐私的保护问题在行业应用中备受关注。与数据密切相关的机器学习算法的安全性成为一个巨大挑战。本文将介绍在机器学习领域中数据隐私安全的相关工作，并介绍第四范式在差分隐私算法效果提升上所做的工作。主要和大家分享数据隐私的3方面：隐私保护的问题与案例基于数据的隐私保护技术：数据匿名化机器学习模型训练中的隐私保护技术：差分隐私I机器学习中的隐私保护问题1 .信息隐私信息隐私（Privacy）:指的是当一个组织内敏感数据被拥有权限的人员所使用于某些技术、过程（如数据分析、训练模型）时，对数据敏感信息进行保护的过程与规则。数据的隐私（Privacy）与安全（Security）并不等价：有的时候很多人提到数据隐私时，会与数据安全混为一谈，但其实两者并不等价。数据安全通常指防止数据被非法访问；而数据隐私则一般指在数据被合法访问时，防止其中的敏感信息被访问者以某些方式"逆向"获取，避免因数据被“逆向”推导出而造成的敏感信息泄露和滥用。当然，对于企业来说，数据隐私和数据安全都非常重要。2 .信息隐私问题如今，在很多需要用到私人敏感数据的领域中，都存在数据隐私的问题。特别地，当机器学习技术应用在一些个人隐私数据上时，可能会暴露敏感数据，对个人造成很多负面影响。虽然现实生活中有很多数据隐私的问题，但严格意义上，个人隐私不可能被绝对保护。1977年，统计学家ToreDalenius给出关于数据隐私的严格定义：攻击者不能从隐私数据里获取任何在没有拿到数据之前他们所不知道的个人信息。2006年，计算机学者CynthiaDwork证明上述定义的隐私保护是不存在的。有一个直观例子可以帮助理解：假设攻击者知道Alice的身高比1.ithUanian女性平均身高高2英寸，这样攻击者只需要从一个数据集里获得1.ithuanian女性身高平均值（在接触数据前攻击者并不知道），就能准确获得AIiCe的精确身高，甚至Alice者杯需要在这个数据集里。因此，对于T分有信息量的数据，不可能完全不暴露隐私信息。3 .隐私泄露的危害隐私泄露的危害，主要有：隐私信息被应用于欺诈与骚扰：如盗刷信用卡、电话诈骗、冒用身份等用户安全受到威胁：用户信息受到泄露，引起更多有目的犯罪非法机构利用用户隐私信息操控用户用户信任危机违背相关法律不过一般来说，对于不特别极端的情况，我们仍可以从很大程度上来保证数据在机器学习过程中不被泄露。这里再分享一个隐私泄露的案例：1997年，马萨诸塞州GIC对外公布了一组医疗数据,其中包括病人的5位邮编、性别、生日。州长WeId对公众保证这份数据是匿名的，因为标识特征（如名字地址）已经被移除。结果一位MIT毕业生通过结合这份数据与她花了20美元购买的选民登记数据，找到了Weld的医疗记录。同时，她还宣布87%的美国公民可以通过5位邮编、性别、生日进行唯一标识。这个真实案例印证了：任何有一定信息量的数据都有可能产生隐私泄露；单纯的数据匿名方法是很难保护隐私的。接下来，我们来看一下，针对潜在的隐私泄露问题我们有哪些技术可以在很大程度上杜绝隐私的泄露。I数据匿名化技术（DataAnonymization）数据匿名化是一个从数据层面上进行隐私保护的技术。匿名化很多时候是通过hash掉"姓名"等关键标识符来实现的。而在只简单hash掉姓名的情况下，数据访问者有很多方法通过利用其它特征的信息来反推出某人在数据表中对应的那一条数据。这时候，就需要一种技术来防止访问者能够通过结合多个特征的数据来确定人与数据间的对应关系。1.数据表中数据列的类别（按所含隐私量分类）KeyAttributeQuasi-identifierSensitiveattributeNameDOBGenderZipcodeDiseaseAndre1/21/76Male53715HeartDiseaseBeth4/13/86Female53715HepatitisCarol2/28/76Male53703BrochitisDan1/21/76Male53703BrokenArmEllen4/13/86Female53706FluEric2/28/76Female53706HangNail图片来自:hups:/elfll.github.io/2017/04/22/kanonymity.h【ml 标识列（KeyAttribute,简称KA）:单凭其一列便能直接锁定某人的数据列，如：身份证号、姓名（大多数情况下）；半标识列（Quasi-identifier,简称QID）:无法单凭其一列确定对象，但通过结合多列数据或查其它信息（缩小范围）可以对应到个人的数据列，如：生日、邮编等；敏感信息列（SensitiveAttribute,简称SA）:如疾病、收入等。虽然只有标识列的数据能够直接缩小范围到单个样本，但如前文所述，仅匿名化标识列数据对于隐私保护是完全不够的。2.攻击方法与防护方法链接攻击数据匿名化技术链接攻击(Iinkageattack)攻击者通过其他表获取敏感信息10QIDSANemeZipcodcAqcScxDiseaseAbCe<4767729OvarunCxerBetty47珈NlFOvrnCancerC4rtes4767827MProsuteCancerNvkI4790543MFluEmily4790952FHeartDlSeAIeFred4790647MHeart6s7sNimeZipcodeKSexAJ<e<二767729-J>Bob4798365MCarol4767722FDen4753223MEllen4678943F链接攻击(1.inkageAttack):通过获取其它渠道的信息(如右表)来锁定(见左表)当前数据表中数据所对应的个人。K-Anonymity数据匿名化技术K-AnOnymity对于一份数据，要求其发布的版本内，对于每一条记录，至少有k-1条其他记录的半标识属性与其一致QlDSAZipcodeAgeSexDisease767729F;OvarianCancer4760222FOvarianCancer4767827MProstateJnCer4790543MRU4790952FHeartDisease4790647MHeartDiseaseQIDSAZipcodeAqeSexDisease47622OvarianCancer-Ov¾0¾prrj-2>rostateCancer-479047904790143,5243,52(43,52HeartDiseaseHeartDiseaseIlK-匿名(K-Anonymity):针对链接攻击的防护方法。对于每T分数据的各版本内的每一条记录，规定至少有K-I条其它记录的半标识属性与其一致。上方右表就是对上方左表做“3-匿名”之后的结果：我们可以发现，在统一对“ZiPCOde、匕ge-、“sex”三列的数据的末尾作模糊(相当于匿名化)处理后，含有”ZiPCode:47677*,age:2*,sex:的信息的数据共有3条(这3条记录中的任一条，均满足至少有3-1=2条其它记录的半标识属性与其一致)；左表原数据中的另外3条经变换后也满足3-匿名的条件。左表在K-Anonymity之后，虽然数据会有所损失，但保证了每条数据中的敏感信息无法与个人一对应，降低了隐私泄露的风险。如何在尽可能小的数据损失的情况下做K-Anonymity也是一个数据隐私的研究方向。(3)Homogeneityattack数据匿名化技术针对K-anonymity攻击(Homogeneityattack)通过找到一组模糊化数据的共同点来获得敏感信息HomogeneityattackBobZipcodeAge4767827BackgroundknowledgeattackCarlZipcodeAge4767336A3-anonymouspatienttableZipcodeAgeDisease476-2HeartDisease、4762HeartDisease4762HeartDisease,479040Hu4790三40HeartDisease479040Cancer476”3aHeartDisease、47633Cancer4763Cancer同质化攻击(HomogeneityAttack):可克制K-Anonymity防护的攻击。某些情况下，可通过直接对比其它列信息或查找其它外部资料发现，K-Anonymity中半标识列均相同的(至多)K条数据的其他列的信息其实是同质的，因而确定下来某人的隐私数据。上方右表说明：经对比可发现Bob必然患有HeartDisease;而假如能够另通过查资料发现Carl所在地人们普遍患有HeartDisease,就还可以推断出Carl大概率是患HeartDisease的那例样本。(4)1.-Diversity数据匿名化技术1.-Diversity对满足K-Anonymity的发布数据，每一个等价类中敏感信息至少取1.个不同的值SR<tl也蚓加G矢UC2>F"g。"3*"F*M*'X1.-散度（1.-Diversity）:对K-Anonymity的改进。在满足K-Anonymity的基础上，要求所有等价类（即各半标识列信息均相同的一些样本）中的敏感信息（如：病史中的HeartDisease.Flu）的种类/取值至少有1.种。上表就是一个满足3-散度的数据。相似性攻击数据匿名化技术相似性攻击BOb收入在20k-40kBOb有胃部疾病相似性攻击(SimilarityAttack):可对满足1.-Diversity的数据进行攻击。从外界获取个人多方面的背景信息，缩小范围以锁定目标。(6)T-Closeness数据匿名化技术T-Closeness为1.-DiVesity的拓展，对于满足K-anonymity的发布数据，每一个等价类中敏感信息的分布与数据集总体的敏感信息分布距离(如K1.距离)小于TT保密(T-Closeness):对1.-Diversity的拓展。对于满足K-Anonymity的数据，规定每一个等价类中的敏感信息的分布与数据集整体的敏感信息分布的距离(可自行定义，常见的有：K-1.散度)小于T。I差分隐私(DifferentialPrivacy)技术除了

注意事项

本文（2024机器学习中的隐私保护.docx）为本站会员（王**）主动上传，优知文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知优知文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。