1 / 68
文档名称:

《联邦学习场景应用研究报告(2022年)》.docx

格式:docx   大小:1,025KB   页数:68
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《联邦学习场景应用研究报告(2022年)》.docx

上传人:琥珀 2022/2/27 文件大小:1 MB

下载得到文件列表

《联邦学习场景应用研究报告(2022年)》.docx

文档介绍

文档介绍:联邦学习场景应用研究报告
(2022 年)
目 录
一、 联邦学习简介 1
(一) 数据隐私安全及孤岛问题 1
(二) 联邦学习定义 1
(三) 联邦学习主要作用 2
(四) 联邦学习技术优势 2
二、 联邦学习发展训练,才可能获得好模型。
另一方面,由于法律政策监管、数据隐私安全等方面的顾虑,各数据所有者也不愿直接交换原始数据,导致数据无法有效汇聚,从而影响机器学习的效果,制约着 AI 模型的提高。联邦学习正是为了解决这一两难情况而出现的高效技术解决方案。
(四)联邦学习技术优势
传统的机器学习需要将数据汇聚到中心后才可以进行模型训练。在此过程中需要转移存储原始数据,随着数据量的增加,相对的成本也呈指数级增加;同时,在数据出域后,数据将变得不可控,从而导
致数据隐私泄露,埋下数据安全隐患。图 1 给出了传统机器学习和联邦学习的对比。联邦学习技术,可以实现多个机构间构建统一的数据安全、高效、合规的多源数据应用生态系统,实现跨机构的数据共享融合,通过系统扩大样本量、增加数据维度为大数据应用提供高精度模型构建的有力支撑,进而提供更丰富、高质量的大数据服务,为社会发展创造更多价值。
图 1 传统机器学习和联邦学习的对比
二、联邦学习发展历程
(一)传统隐私保护
传统的隐私保护手段包括数据脱敏、假名化、数据消隐等。数据脱敏是信息从原始环境向目标环境交换过程中,对数据中的某些敏感信息进行一定规则的数据变形,其核心是通过剔除数据中能识别出个体的所有特征,从而达到隐私保护的目的。在涉及商业机密和个人隐私数据时,在不违反相关规则的条件下,对原始数据进行改造后才可提供使用,如个人姓名、手机号、身份证号、企业财务数据、税务、
供应链等机密数据,都需要进行脱敏处理。数据脱敏常用方法有泛化技术、抑制技术、扰乱技术、有损技术等,目前,各企事业单位,尤其政府部门均建立健全了数据脱敏的规范,数据脱敏已成为数据处理的标准流程。
数据消隐和脱敏类似,但又与脱敏不同的是,数据消隐并不会直接剔除敏感的标识符或准标识符,而是通过泛化或抑制来消除数据中能够直接识别个体的部分,以避免隐私泄露。主流实现技术包括 K- 匿名、L-多样性、T-亲密度以及近年发展起来的差分隐私。然而,大量研究表明,这些传统的数据保护技术其保护能力并不完善,并不能完全保证数据的隐私安全,仍然存在系统性的漏洞使其隐私保护能力大打折扣。此外,由于对原始数据的处理,在很多场景中处理后的数据并不能满足应用的需求。例如生物信息的基因数据,包含了独特的遗传标记,这些信息可用于家族血缘搜索,通过将脱敏后的受试者与身份已知的远亲联系起来,还是可以识别受试者身份。因此,基因数据脱敏不足以保护隐私,我们需要更完善高效的技术解决数据共享过程中的隐私安全问题。
(二)联邦学习
为了让数据共享更简易,同时又能保障数据安全,出现联邦学习技术框架。它可以做到在数据不流动的前提下进行数据融合共享与价值挖掘。
联邦学习进行模型训练时,需要根据数据来源对任务进行分解, 多个分中心在本地利用各自数据资源进行分布模型训练,相互独立又
彼此协作。它的技术理论基础可追溯到分布式数据库(distributed database)联合分析技术,Cheung 等人在 1996 年提出了分布式数据库中实现关联规则(Association Rules)挖掘。 因为联邦学习涉及到数据源分布形态的不同,比如有些联邦网络中数据源之间样本上的重 叠度比较多,有些则在特征属性结构上比较一致。根据不同的数据源 分布联邦学习采用的分布式算法逻辑也有差异。例如,2006 年,Yu 等人提出了带有隐私保护的分布式支持向量机建模,并支持处理横向 和纵向分割的数据场景。联邦学习在与产业的融合上最先是医疗领域。2013 年,王爽教授团队首次发表全球第一篇联邦学习论文,正式提出了分布式隐私保护与在线学习等概念,解决了医疗领域多中心合作 难题,其成果被应用于国家级生物医疗健康数据网络中,用于保护数 十家医共体中的数千万病人的数据隐私。
之后,联邦学习在其它领域的应用也取得了显著性进展,如 2016 年起,谷歌在其安卓手机端实现带有隐私保护的横向联邦学习,用于保护手机用户数据隐私。此后,杨强教授在 2019 年通过将迁移强化学习与联邦学习进行结合,服务于自动驾驶场景。
(三)安全联邦学习
联邦学习虽然只传递中间计算结果,保障了原始数据的安全性。但在有些情况下,中间参数如果被攻击,还是能够还原出原始数据, 因此也存在一定的安全隐患。
为了弥补普通联邦学习技术中存在的补足,学术界和工业界提出了安全联邦学习。分别采用了不同的解决方案。其中基于硬件的可信
计算方案,可以保护整个计算过程安全可靠。基于同态加