会议集结了包括潘云鹤院士、杨强教授在内的多名顶尖科学家、企业家与研究者,畅谈从自然语言到大数据智能,从社交机器人到计算传播学,研究金融科技、教育以及技术投资等最前沿的科技话题。
首先是“ 数据不动,模型动 ”的思想,意思是说把数据保留在本地,那么模型参数可以在加密的状态下进行沟通,最后希望得到的模型的效果和这些数据物理聚合在一起的效果是差不多的,有几种办法可以达到这一点。一种办法是按样本分割,横向切割数据,为了把所使用的数据量扩大,在本地建立带有参数的模型,把这些参数加密,然后整合到中心服务器,在加密的情况下进行操作。
除了横向切割,还有纵向切割数据,不同的数据集不同点在于特征不一样。比如对于一家医院,它擅长做 CT 扫描,另一家医院擅长做核酸检测,如果将两者合起来,特征空间就会变大,我们的模型也会变好,这种合并并没有增加样本量,因此叫做纵向。
联邦学习是一种手段,能够让不同的数据集合理合法合规地把模型建立起来,同时尽量不让数据出本地,让参数保密。由此也出现一些研究问题,比如算法是否合规,是否安全?若有坏人是参与方,我们是否能识别出来,能否防御?除此外,算法是加密条件下的分布式机器学习,那还需要考虑两个数据集不是同构或同分布的问题。
有了这样一种联盟,那可以应用到什么领域呢?将联邦学习应该到推荐系统是目前做的比较多的。我们每个人的手机上都有很多短视频推荐系统以及新闻推荐系统,个性化的推荐使得千人千面,我们每天或多或少都会使用,而我们每个人的点击数据都是记录在手机上的,这个数据是非常隐私的。传统的做法是把数据移到云端,在云端进行模型化,再把模型迁移到本地来。
而有了联邦学习,可以让数据不出本地,同时可以让模型个性化。本地的推荐系统可以作为一个单独的任务,而任务相当于对本地的一种任务分解。这种分解分为两部分知识,一种是大家共有的知识,另一种是自己特有的本地的特征向量。如果把大家共有的向量一起做一个模型,这模型就非常的强大,同时可以既更新模型,又能够起到在本地进行个性化服务的效果,数据也不出本地。这种联邦的推荐架构就把数据给隔开了。
特别要讲的是医学,虽然医学是机器学习很好的应用领域,但是我们发现医学里的数据非常珍贵,非常少的,其中一个原因是用户数据都是具有高度用户隐私的,因此医院和研究机构不愿意共享这些数据,所以每一个地方数据很少以至于不足以建模。那如果在医院之间进行横向联邦纵向联邦,无形中把数据总量和特征也增大了。
最近和腾讯实验室合作,在不同地区的本地医院用联邦学习把脑卒中发病的病人特征做一个预测模型,根据病人的表现预测他得该病的概率有多高,最终准确率提高了 80% 以上,尤其在数据很少的小型医院,准确率甚至能提升 20% 以上。
我们还建立了国际产业联盟,有很多不同行业的公司和机构参与,我们希望能进行人才培养,并且对政府进行政策的建议,以及评估咨询等。最后,再总结一下,联邦学习是众多人工智能和社会相结合的一个,也不是唯一的一个,我希望以后的人工智能不仅仅关心算法,而且要关心 AI 向善的问题,也就是 AI 要用在人类社会,那么用户的隐私和数据的安全也要被考虑进来。不仅要建立算法,还得建立算法的合作机制和生态。
编辑:何静
排版:赵辰霞
编审:王新凯
联系客服