微众银行杨强:若何打破人工智能的数据瓶颈?_数据_联邦
虽然人工智能技能的行业运用越来越广泛,仿佛真的站在风口准备拥抱下一场革命,但正如专家们所言,对付人工智能的发展,该当保持谨慎的乐不雅观态度。当古人工智能还面临诸多寻衅,例如数据孤岛问题、隐私保护问题、安全问题、如何从感知智能发展到认知智能再到更远的让机器拥有自我认知等等,打破这些瓶颈,或许才是人工智能走得更远的关键。
个中数据孤岛和隐私保护问题是当古人工智能大规模家当化运用过程中碰着的突出问题。对此,人工智能国际专家、微众银行首席人工智能官杨强教授在大会上揭橥了题为《用户隐私,数据孤岛和联邦迁移学习》的特邀报告,他的答案是:开展新一代的人工智能算法研究,打破数据孤岛和小数据的限定,同时保护数据安全和用户隐私。这个答案的背后是一项新的领先环球的技能,叫做“联邦迁移学习。”
大数据时期并未真正到来,小数据和数据孤岛林立
杨强教授指出,人工智能发展离不开大数据,人工智能技能如果是火箭引擎,大数据便是燃料,但是数据量的激增并不虞味着真正的“大数据”时期到来。多数行业中是数据质量不高的“小数据”,是一个个数据孤岛,数据割裂严重。
例如在法律领域,如果想得到一个非常好的样本,须要经历很长的链条,经由很永劫光,有法官、状师等多方参与,才能把一个样本标注好,这导致有标注的高质量数据并不多,并且分散在各地的各级法院。而在医疗领域这种数据孤岛更加严重,例如医疗影像每每分散在各个医院。导致这种结果的缘故原由很多,包括监管缘故原由、机构各自的利益、流程制度限定等。
从迁移学习到联邦学习,打通数据孤岛
能否从技能角度寻求办理方案?作为国际人工智能界“迁移学习”(transfer learning)领域的发起人和带头人,杨强教授从迁移学习中找寻问题的答案,首先想到通过知识迁移办理“小数据”问题。如果面临的是“小数据”,就找到一个类似的“大数据”,举一反三,帮助只有小数据的任务利用来自其他干系任务的大数据,从而得到更好的表现,使得建立的模型能够更可靠,鲁棒性好,不受外界滋扰,平稳运行,这在人工智能落地的运用上是非常主要的一个特性,同时也能够防止隐私透露。这种从源领域迁移到目标领域的办法,在金融、工业、信息流推举等领域都有运用,例如贷款风控策略在不同用户种别间的迁移、推举系统中推举策略迁移、舆情剖析系统中的关键词迁移等。
虽然迁移学习可以有效办理“小数据”的问题,但是实际上现在面临的不仅仅是“小数据”的问题,而是“数据割裂”、“数据孤岛”。这不仅仅是技能的问题,不能通过大略的数据整合(Data integration)办理,而是要战胜政策、监管、技能等多维度难题。此时“联邦学习”(Federated Learning)供应了新的思路,让多方参与,共同建模。
从联邦学习到联邦迁移学习,保护数据隐私
打通数据,共同建模,这本是一个美好的期望方向,但数据隐私保护的日益严格带来了严厉寻衅,欧盟数据隐私保护法GDPR(The General Data Protection Regulation )作为“史上最严厉”的数据隐私保护法案成为一个旗子暗记,全天下都在加强数据隐私保护方面的立法培植,那么是否可以让联邦学习参与方只交流模型而不交流数据?让数据不出本地,从而保护数据隐私?据杨教授先容,数学家们供应了新思路——将同态加密技能(Homomorphic Encryption,HE)融入联邦学习,其核心思想并不繁芜,假设A加B是一个公式里的两项,对全体公式加密,那么HE就可以把它表达成对A的加密加上对B的加密。这样可以让参与方不上传数据,只上传加密的算法模型参数而进行共同建模,在这个过程中,纵然通过多次交流,也不能重构出另一方的数据,真正实现数据不透露。
在实际运用中,有基于同一特色维度,不同用户群体的“横向联邦”,例如谷歌的手机终端联邦学习,微众银行联合多家银行建立的反洗钱模型,以及针对同一用户群体,不同特色维度的“纵向联邦”,例如根据用户在银行的信用表现进行个性化保险定价。除此以外,微众银行AI团队首次提出了“联邦迁移学习”,将“联邦学习”和“迁移学习”相结合,纵然是在用户群体和特色维度重合都小的情形下,也可以进行互助,这意味着无论是政府机构和金融机构之间,还是互联网机构和金融机构之间,或者是其他各领域之间,都可以实现跨界互助。
联邦学习不仅是技能方向,更是社会问题
杨强教授提到,虽然有了技能工具,微众银行也对外开源了通用的联邦学习框架平台Federated AI Technology Enabler(FATE),但如何设立勉励机制吸引机构进入联邦,形成良性生态,则包含博弈论、机制设计、法律等多领域,联邦学习不仅是能办理数据孤岛和数据隐私保护的技能方向,更是一个繁芜的社会协同管理问题。除了吸纳更多企业加入联邦生态,微众银行AI团队也在积极推动联邦学习国际标准IEEE标准的制订,这一标准有望在两年内出台,为立法和监管供应更多技能依据。
联邦学习将走向何方?人工智能将走向何方?杨强教授的不雅观点是,数据可以不出本地,各个数据拥有方可以在安全、保密的条件下交流人工智能模型的参数,以达到联合建模的目的。这种不同学科的交叉领悟是趋势,联邦学习和迁移学习,或者是其他机器学习方法,都可以相互领悟,发挥各自的特点,从一个领域下的人工智能算法理论迈向多个领域,这才是更有代价的研究。
(李冉)
本文系作者个人观点,不代表本站立场,转载请注明出处!