联邦学习：打破信息间的不信任

3特别报道

·联邦学习：打破信息间的不信任
·类脑智能：人类如何构建学习系统？
·逼真的仿生机器人，与人类做朋友还要等多久？

联邦学习：打破信息间的不信任

IT时报记者郝俊慧李丹琦
　　数据、算法、算力，人工智能三要素。如果说数据和算力是必要条件，决定了AI的过去，那么算法作为“灵魂”，定义了AI的未来。
　　自人工智能概念被提出60多年来，几起几落，直到2012年深度学习技术被引入图像识别和语音识别数据集之后，才进入真正爆炸期。如今，基于神经网络的深度学习算法已经被广泛应用甚至商业化，同时亦有诸多问题未能解释，或者并无太好解决方案。
　　深度学习算法之后是什么？如何解决机器学习算法门槛高、算法人才不足的问题？如何打破数据孤岛并且保护数据隐私？如何找到破解深度学习“黑箱”的方法？如何保证机器学习系统的安全性？
　　在刚刚落幕的2019世界人工智能大会（2019WIAC）国际前沿算法峰会上，大会组委会、上海交通大学和第四范式请来全球人工智能“最强大脑”们，展开最硬核的讨论。3
　　人工智能的场景包括很多方面。在金融业，以用户数超过1.7亿的微众互联网银行为例，人工智能和机器人在其中用中一个元素至关重要——数据。
数据孤岛依然难打破
　　实际上，直到今天，深度学习能够运用到的数据仍然非常有限。比如在法律领域，积累一条有效的数据需要很长时间，而且法律的数据最多积累一万条就很难再有量的突破；在金融领域、医疗领域更是如此。由于监管、安全、利益等原因，不同医院之间的数据往往不能够互相传递，在这个情况下，即便有强烈的需求把数据聚合起来还是很难。
　　此外，随着欧洲GDPR的正式提出、国内相关法律的陆续出台不难发现，社会对用户隐私的要求越来越高，公司之间进行数据交换的限制也越来越多。在此情况之下，大数据的形成就变成一个挑战。
　　在2019世界人工智能大会科学前沿的主论坛上，国际人工智能联合会议理事会主席、香港科技大学教授杨强提出了一个新的解决方案——联邦学习方法。
　　杨强表示，所谓联邦学习的方法，就是如果我们有办法让数据的拥有方在数据不出本地的情况下，建立一个可以共享的模型，与此同时在建立模型的过程中不违反用户的隐私，那么整个建模的过程就叫联邦学习的框架和算法。
　　众安保险数据智能中心总经理孙谷飞告诉《IT时报》记者，联邦学习2016年由谷歌提出，用来优化安卓输入法的模型。比如，谷歌想给每个安卓手机优化输入法，但不可能把每一台安卓手机用户打的文字都上传上来，这有严重的隐私问题。所以想的方法是在基础端学习本地的模型，把每一个参数上传到“云服务器”，并且在云端进行模型的融合，最后再将优化的结果推送到客户。
让不同机构间有共同语言
　　“在保护隐私的过程中，一共有三种模式进行联邦学习，分别是横向联邦学的作用是在用户办理业务的过程中，审核、批准各种贷款文件，对申请人进行人脸识别、语音识别的核验等等。在这些应习、纵向联邦学习和联邦迁移学习。”杨强说道。
　　横向联邦学习是不同的机构共享一些用户的特征，这些机构可以把这个模型通过横向联邦学习更新聚合，过程中可以保护隐私；纵向联邦学习则是，不同的机构虽然不共享用户的特征，但是他们却共享用户的ID，可以利用这些散落在各地的数据形成一个整体的模型联邦，对此加密之后，使得各个机构的数据不出本地就可以进行用户隐私的保护；联邦迁移学习则是，用迁移学习的算法把两方数据的模型的本质给挖掘出来，把抽象的模型加以聚合，那么在这个聚合的过程中就保护用户隐私。
　　目前，联邦学习在产业界的应用已经有了长足的进展，在第一届国际联邦学习的研讨会上也开放了世界上首个联邦学习的开源平台。
　　孙谷飞透露，在保险行业的业务场景里，目前联邦学习的方式分为两类。第一类是行业内共享，大家有差不多相同的X值和Y值，可以促进整个行业的数据共享和积累，主要涉及联合风控和定价，比如意外险累计的保额。举个例子，去年有一个用户短期之内在很多保险公司买了非常高额的意外险，这是很典型的欺诈行为，如果大家把累计保额通过隐私方式共享出来，可以很好杜绝此类风险。
　　第二类场景是跨行业共享。各场景方X轴可以给保险公司更好的补充，让保险公司可以多方面了解客户，比如做各种互联网的险种，可以跟一些电商公司进行合作，了解平常的一些购买行为，就可以很好地做运费险定价。
　　杨强表示，目前他和团队正在建立一个国际联邦学习的标准，使得不同的机构之间可以有共同的语言，这样在建立联邦学习共同模型的时候，各方可以更敏捷地沟通。