联邦学习技术发展与应用白皮书.pdf
《联邦学习技术发展与应用白皮书.pdf》由会员分享,可在线阅读,更多相关《联邦学习技术发展与应用白皮书.pdf(20页珍藏版)》请在淘文阁 - 分享文档赚钱的网站上搜索。
1、中国移动通信研究院 联邦学习技术发展与应用白皮书(2021)联邦学习技术发展与应用 白皮书 (2021 年)中国移动研究院 中国移动通信研究院 联邦学习技术发展与应用白皮书(2021)前前 言言 本白皮书对联邦学习的发展背景、应用场景、关键技术等进行了详细研究分析,提出了中国移动对发展联邦学习框架的愿景,希望能够与合作伙伴一起在联邦学习领域持续探索和创新,拓展更多行业场景,提供更丰富的行业应用解决方案,构建和完善联邦生态。本白皮书的版权归中国移动研究院所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。中国移动通信研究院 联邦学习技术发展与应用白皮书(2021)1 目目 录录
2、目 录.1 1.数据共享的现状、价值和挑战.2 1.1 国家大力推动数据要素的发展.2 1.2 数据共享需求强烈但矛盾突出.2 1.3 联邦学习是解决数据共享和安全管控之间突出矛盾的有力工具.3 2.联邦学习典型应用场景.5 2.1 金融领域.5 2.2 电商领域.6 2.3 医疗领域.7 2.4 物联网领域.8 2.5 通信领域.8 3.联邦学习技术分析.8 3.1 联邦学习的分类.8 3.2 联邦学习技术特点.10 3.3 联邦学习的技术框架.11 3.4 联邦学习的组网模式.12 3.5 联邦学习的技术难点.13 4.联邦学习发展建议.14 4.1 深入研究联邦学习关键技术,促进技术成熟
3、.14 4.2 丰富联邦学习应用案例.15 4.3 建立互联互通行业标准.15 4.4 建立公平和可持续的激励机制,探索商业模式.15 4.5 加快制定和完善国家产业发展政策和法律法规.15 5.展望.16 参考文献.17 中国移动通信研究院 联邦学习技术发展与应用白皮书(2021)2 1.1.数据共享的现状数据共享的现状、价值价值和挑战和挑战 当今世界,数据在全球经济运转中的价值日益凸显,国际间抢夺数字经济制高点的竞争日趋激烈。随着经济活动数字化、信息化、智能化转型升级的快速发展,数据的基础保障作用和提高生产效率的乘数作用不断加强,成为最具时代特征和蕴含巨大潜力的新生产要素。1.1.1 1
4、国家国家大力大力推动推动数据要素数据要素的的发展发展 国家持续推动数字经济的发展。党的十九届四中全会决议通过的中共中央关于坚持和完善中国特色社会主义制度推进国家治理体系和治理能力现代化若干重大问题的决定(以下简称决定)中,首次将数据增列为生产要素,要求建立健全由市场评价贡献、按贡献决定报酬的机制。习近平总书记强调“要构建以数据为关键要素的数字经济。”我国已明确加快推进全社会的数字化转型和数智化发展,亟待建立健全数据流通、协同和价值评价交换的体制和机制。2020年 9 月,国资委发文,要求加快推进国有企业数字化转型工作,推动新一代信息技术与制造业深度融合,打造数字经济新优势等决策部署,进一步强化
5、数据驱动、集成创新、合作共赢等数字化转型理念。2020 年 11 月,中共中央关于制定国民经济和社会发展第十四个五年规划和二三五年远景目标的建议全文发布,提出发展数字经济,推进数字产业化和产业数字化,推动数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。1.1.2 2 数据共享需求强烈但矛盾突出数据共享需求强烈但矛盾突出 目前,数据共享、融合的需求越来越强烈,但是在数据共享的过程中,却面临着如下的困难和挑战:1 1 数据孤岛问题严重数据孤岛问题严重。由于安全问题、竞争关系和审批流程等因素,数据在行业、甚至是在公司内部以“孤岛”的形式存在。由于行业竞争、隐私安全、行政手续复杂等问题,
6、即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、或者各个机构的数据进行整中国移动通信研究院 联邦学习技术发展与应用白皮书(2021)3 合,所需要的成本是非常巨大的。各行业、各公司、各部门的数据的共享应用非常困难。2 2.数据隐私安全问题突出数据隐私安全问题突出。数据的隐私安全受到世界各国重视,如:欧盟于 2018 年 5 月发布通用数据保护条例并正式开始生效,该条例对于数据保护做出了严格规定;美国美国加州消费者隐私法、新加坡修订个人数据保护法案 都对用户隐私进行立法保护。我国对于数据保护的力度也越发严格,国家先后发布网络安全法、信息安全技术个人信息安全
7、规范、信息安全技术网络安全等级保护基本要求 和 互联网个人信息安全保护指南 等法律法规,同时公安部也在严厉打击数据安全犯罪行为。在社会层面,频频曝光的企业大规模泄露用户数据事件,也使得人们对隐私保护越发重视,企业对数据价值的应用也日趋谨慎。AI、大数据等创新领域的应用也因此受阻。作为极其依赖庞大数据的行业,如果无法解决数据安全隐私保护问题,将面临着舆论、监管的巨大挑战。在这样的背景之下,即便行业有意共享数据,也面临政策、法律合规的严峻问题。3 3.存在数据垄断和数据霸权的风险存在数据垄断和数据霸权的风险。传统的机器学习方法,需要把训练数据集中到某一台机器或是单个数据中心,为了满足逐渐增加的数据
8、量级,还要不断加机器、建设基础设施,而在数据集中的过程中存在数据泄露的风险。目前人工智能市场模式基本上由科技巨头主导,它们通过提供基于云的 AI 解决方案以及 API,获取大量高质量的业务及个人数据,并逐步形成数据的垄断,构建商业壁垒,从而形成垄断市场的风险。这种数据集中的发展模式将在未来限制行业的发展和创新。由上可知,目前亟需一种技术在数据安全的前提下,进行共享协同的数据应用。1.31.3 联邦学习联邦学习是是解决数据共享和安全管控之间突出矛盾解决数据共享和安全管控之间突出矛盾的有力工具的有力工具 联邦学习是一种多个参与方在不交互数据的情况下,通过安全机制交互模型参数,从而达到协同训练效果的
9、分布式机器学习方法。联邦学习能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的中国移动通信研究院 联邦学习技术发展与应用白皮书(2021)4 要求下,进行数据使用和机器学习建模,可使用的机器学习算法包括逻辑回归、神经网络、随机森林等,有望成为下一代人工智能协同算法和协作网络的基础。联邦学习由 Google 在 2016 年首次提出,最初是用于解决安卓手机终端用户在本地更新输入法中的频繁词模型的问题,其设计目标是保障大数据交换时的信息安全,保护终端数据和个人数据隐私,保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。在该模型中,参与者在本地存储所有的训练数据,在本地训
10、练模型,然后将训练得到的模型更新传到云端,其他参与者下载更新到自己的移动设备,提高训练模型的准确性。目前联邦学习技术收到业界广泛关注和深度参与,在框架、产品/应用以及标准化方面都已经有大量公司和机构在积极布局。图 1 联邦学习技术的产业生态 在技术框架方面,目前主要是互联网企业积极开展相关研究工作,主要包括Google、Facebook、微众、阿里、蚂蚁金服、百度、京东数科、字节跳动等大型企业以及同盾、富数、蓝象科技等新兴创业公司。主流联邦学习开源框架包括FATE(微众)、PaddleFL(百度)、Fedlearner(字节跳动)、TensorFlow FL(Google)及 PySyft(F
11、acebook)等。在标准化方面,整体还处于起步阶段。目前 3GPP、ITU-T、CCSA 等业界多个应用应用 泛金融 医疗 物联网 智慧城市 运营商 平台平台 框架框架 标准化标准化 中国移动通信研究院 联邦学习技术发展与应用白皮书(2021)5 组织正在积极推进相关的标准化工作。2021 年 3 月,微众银行在 IEEE 正式发布了联邦学习架构和应用规范国际标准(IEEE P3652.1)。国内 CCSA TC1,TC8,TC601 等技术工作组近两年针对联邦学习、隐私计算、多方安全计算等技术开展了相关的研究课题和标准立项。在应用方面,联邦学习技术的应用场景丰富,业内主要互联网企业、金融企
12、业、科研机构在金融、电商、医疗、物联网、通信等多领域进行探索及应用。在商业模式方面,由于参与各方数据分布的不均衡,数据价值与贡献度也不尽相同,需要研究数据拥有方对联合模型的参与度和贡献度的评估方法,建立公平合作、共享共赢的激励机制,以吸引更多数据拥有方参与联邦学习,从而建立起健康可持续发展的跨行业跨领域数据流通生态。联邦学习拥有激励机制,可评估参与者对模型的贡献,需要持续参与到联邦学习进程,实现联邦长期的可持续经营。2 2.联邦学习典型应用场景联邦学习典型应用场景 联邦学习具有非常广阔的应用场景,主要包括金融、电商、医疗、物联网等对数据依赖较强的领域。2 2.1 1 金融领域金融领域 在金融行
13、业,联邦学习技术主要用于风控和获客,即多家机构在不交换和泄露客户个人信息的前提下,对客户进行联合画像、风险评估和产品匹配,从而有效降低违约风险、精准营销有效客户。商业银行积极参与联邦学习技术试验,例如江苏银行联合腾讯利用联邦学习技术进行信用卡智能化经营。金融科技类公司在联邦学习的应用案例较多,例如京东数科金条、白条业务利用联邦建模提升模型的风险识别能力和流量转化率;平安科技开发了面向金融行业的商用联邦学习平台,应用在了平安集团下属不同子公司中的各项金融业务场景中,将证券和保险业务相结合,提升保险的风控。某银行与通信运营商合作的企业融资应用案例,基于银行客户个体信息与运中国移动通信研究院 联邦学
14、习技术发展与应用白皮书(2021)6 营商的通信关系数据,精准识别高危客户群体,主动分析和探查,有效规避欺诈风险,应用在线金融工具实现信贷业务申请、审批、签约等线上业务。图 2 基于联邦学习的企业融资应用体系 如图 2 所示,该体系在保障银行和运营商原始数据不出域的基础上,应用密态计算、不经意传输、差分隐私等隐私计算技术,虚拟融合银行及运营商数据关系网络,通过对齐、扩充、传播、聚合等方法刻画关系网络,进行用户自然特征、局部网络特征、全局网络特征和高阶复杂特征分析,实现对银行和运营商通信关系数据的融合使用,在多数据视角基础上构建反洗钱反欺诈识别预警模型库,从而提升金融反欺诈的识别效率和精确度。2
15、 2.2 2 电商电商领域领域 联邦学习技术主要用于企业运营和发展用户。美莱网联合微众银行,将联邦学习引入到生鲜零售中,建立联邦学习预测模型,优化整体品类规划,从而降低运营成本,提升用户履约率,还推出了“商机洞察系统”,助力更高效更精准的数字化经营决策。另外,字节跳动将联邦学习应用到广告投放业务中,可以保护合作伙伴广告主拥有的用户购买历史等敏感信息,同时提高用户的转化率。某车企与通信运营商合作的用户精准分类应用案例。车企拥有用户数据,基于用户授权,录入用户到店/接触信息,并以此为依据建立用户层级分类模型,并安排销售人员跟进。在现有的用户模型主要依靠自身有限的历史数据,导致客中国移动通信研究院
16、联邦学习技术发展与应用白皮书(2021)7 户分层模型精度不高,优先级判断效率低。车企通过结合自身用户历史数据和运营商相关用户的数据,通过联邦学习技术建立联合用户分层模型,以提高模型的预测精度。图 3 基于联邦学习的精准营销应用体系 如图 3 所示,该体系在不交换用户原始数据和标签的前提下,建立高质量的机器学习模型,数据维度的丰富提高了分层模型的预测精度,为车企提供基于运营商用户数据的精准用户分层及获客能力,并实现对用户核心数据和运营商数据的双向隐私保护。业务上线 4 个月已为车企多个区域经销商体系基于隐私数据挖掘和成功触达购车用户 3000 余组,平均线索有效率较传统方案提升 17.7%,通
17、过筛选高价值用户线索,提高企业运营效率。2 2.3 3 医疗领域医疗领域 联邦学习技术主要用于医疗成像和疾病预测模型。例如英伟达联合伦敦国王学院推出联邦学习系统,建立医疗成像 AI 神经网络,开发了对脑瘤进行分割的技术,在保护病人隐私的前提下使数据在医院和研究者间共享;英特尔联手宾夕法尼亚大学采用基于联邦学习技术的 AI 识别脑肿瘤;此外,腾讯天衍实验室联合微众银行联合研发了医疗联邦学习框架,成功实现了在保护不同医院数据隐私中国移动通信研究院 联邦学习技术发展与应用白皮书(2021)8 下的疾病预测模型。2 2.4.4 物联网领域物联网领域 物联网是基于互联网、传统电信网等信息传输渠道,让所有
18、具备通信功能的独立物体实现互联互通的网络。基于联邦学习的物联网应用,可以在保护物联网节点数据隐私安全的前提下提升数据模型服务的敏捷性、实时性、准确性和智能化水平。例如智慧城市中的智慧路灯,通过联邦学习技术可以实现每个路灯的单独监控和单独控制,实现实时获取路灯状态、远程配置及控制路灯等场景。除此之外,海油共享设备、智能物流、智能农业、可穿戴设备等场景均可利用联邦学习技术。2 2.5.5 通信通信领域领域 目前通信网络系统中,尤其是第五代移动通信系统,移动网络产生的数据量巨大,希望能够通过海量数据与联邦学习技术结合来优化网络系统,例如对网络站点的规划,识别高流量高价值的热点区域,指导网络部署与网络
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 联邦 学习 技术发展 应用 白皮书
限制150内