微众银行首席AI官杨强:构建数据联邦,能打通数据孤岛且保护隐科
腾讯新闻《一线年腾讯ConTech技术大会上,微众银行首席人工智能官、国际人工智能协会(AAAI)执行委员会委员杨强作为受邀嘉宾出席并发表题为《走出数据孤岛:AI进化驱动内容合作生态构建》的主旨演讲。
演讲伊始,杨强分享了关于机器学习和人类学习如何协同的思考。
人的大脑是由万亿级别的神经元构成,神经元有很多的连接,连接如果通畅,对应学习的概念就会增强。反之,这个概念就会减弱。所以,当人们看电影或者读新闻,都是在吸收知识,这个知识加强人们大脑某部分神经元间的连接,连接的通道粗细就代表人对这个概念的敏感度。
人工智能的科学家便利用这样一个概念设计神经元网络。人类的学习能力是概念之间的关系增强。比如,人类智能的表现是,看到一个概念会联想到另一个相关概念,这在两个神经元之间的沟通链路上也所展现。
杨强说,如果我们不断接触一个概念,不断复习和重复,这个概念就会加深印象,表现在大脑皮层的永久记忆里。最近的一些发现确实非常令人鼓舞,比如,美国的科学家发现人类晚上睡觉的时候,其实还在持续的学习,白天学的那个概念在睡觉的时候仍然在继续增长。
基于这些发现,计算机学家可以利用这样的观念设计神经网络,如果在输入和输出之间有多层的神经网络连接,这个概念就会从量变到质变,从观察的一些影像到头脑,形成复杂概念。
但是,设计这样的神经网络,就面临数据孤岛的挑战。什么叫做数据孤岛挑战?先讲小数据挑战。在一个新领域,往往没有那么多用户,这个时候对于产品的了解和用户的了解,对应的都是小数据挑战。
数据碎片化,也就是数据孤岛,每一个地方都是小数据,可不可以把不同地方的数据便捷地聚合起来呢?由于技术原因,人的利益原因,不同数据有不同主人,合并起来不简单。加上监管要求,现在对于隐私要求越来越严格,使得我们没有办法把不同机构数据集合起来。
面对小数据挑战和数据孤岛挑战,杨强认为一定要设计解决方案。对于前者,设计的方案叫做“迁移学习”,对于后者,设计的方案叫“联邦学习”。
“迁移学习”源于对人的观察。人解决一个问题,科技新闻往往用举一反三类比,只要现在的问题和未来的问题之间能够建立某一种相似性。人工智能的这种类比可以发生在数据之间、模型之间、科技新闻数学公式之间和任务之间。利用这种相似性,往往可以将在已经成熟的领域建立好的领域模型和数据迁移到新的领域,把新领域问题解决,不必去做重复数据。
杨强举了一个斯坦福大学和世界银行利用卫星图像估算非洲地区经济状况的例子。这种估算如果往往很难,传统方式是派工作人员到当地一点点调查。最终,他们用“迁移学习”解决这个问题。第一步,用已经标注的互联网数据迁移到夜光图像的数据,夜光图像已经告知一部分关于经济状况的知识。第二步,他们从夜光的图像再迁移到白天的图像,这样有更多的细节,比如学校和桥,告诉你该地区的经济状况。两者相加,形成完整的迁移学习系统,可以自动得到经济状况。
数据孤岛问题,需要在孤岛之间建立桥梁?解决方案是物理隔离、逻辑连接。物理隔离指的是数据在本地不动,保护隐私,逻辑上建立一个共同的模型,这个模型吸取各方的数据。
杨强举例,把模型类比成一只羊要把这只羊养大,需要喂它数据,这个数据就像草一样,分布在各家。过去的做法是把各家的草运过来,就像是把数据收集过来。科技新闻现在不能做了,因为数据不能出本地。解决方案是让羊在各家转悠,吃完草到下一家,那么模型就可以长大了,数据也不出本地,最后也不违反法规。
这个故事非常有启发,技术上叫做“联邦学习”技术,有不同数据员,在上面建立一个数据“联邦”,也就是把在逻辑上的知识给连起来,但是物理上不动。既可以保护用户隐私,同时可以把知识聚集起来。
杨强认为,在信息产业同样存在数据孤岛的问题,关系链、强目的、弱目的、服务、消费等不同的数据分散在各个方面。那么,是否可以把用户数据、媒体数据和内容数据利用起来,建立一个联邦学习网络?用户隐私可以得到保护,数据不用从一个地方传到另外一个地方。
各个用户端之间搭建起大家商量好的语言,每一个地方准备好数据之后可以按一个键进行数据串联,变成推荐模型,帮助连接多方内容,这可以组成一个内容推荐的平台,叫FedRec。利用这个平台,小视频推荐、文章推荐可以更加精准,更加个性化,更加满足用户的需求。
杨强表示,希望这种既能保护隐私,又可用人工智能做信息分发、推荐,并且防假、防伪的技术越来越发达,最终媒体也变得越来越好。