9月26日下午,2021年天下互联网大会在乌镇召开。
数据与算法论坛上,清华大学智能家当研究院(AIR)院长张亚勤院士环绕“人工智能赋能生命科学”这一主题,先容生物天下发生的数字化和智能化新变革,并分享清华大学智能家当研究院(AIR)在人工智能与生命康健交叉学科发展上的新布局。
本次报告由张亚勤院长及团队成员马维英、兰艳艳、黄婷婷共同完成。

张亚勤:人工智能赋能生命科学——机遇与寻衅_性命科学_家当 AI简讯

(拍照/浙江日报 李震宇)

随着基因测序技能、高通量生物实验、传感器等技能的发展,生命科学与生物医药领域正在步入数字化3.0时期,数字化、自动化进程加速。
康健打算作为一种新型智能科学打算模式,因此人工智能和数据驱动为核心的第四研究范式。
它将极大助力人类探索并办理生命康健问题。

人工智能从上世纪五十年代发展到本日,产生了很多不同的算法,尤其因此早期的RNN、LSTM和CNN为代表的深度学习技能,及过去这两年的GAN、transformer-based (BERT和GPT-3模型), 预演习模型等等,可以说从我们感知方面语音识别、人脸识别、物体的分类,已经和人达到同样的水平。
但在自然措辞理解,知识推理,和视频语义和泛化能力方面还有很多差距。
其余在算法透明性,可阐明性,因果性,安全,隐私和伦理等方面还存在较大寻衅。

在可信AI打算方面最近又很多进展, 一个例子是联邦学习,这也是清华大学智能家当研究院的一个主要研究课题。
联邦学习紧张有两种方案,一种是横向联邦学习,它紧张面向不同来源特色和模型相同的场景,能够担保相同模态不同来源数据之间的隐私性。
另一种叫做纵向联邦学习,它可以处理不同来源的特色和模型不同的情形,能够担保多模态数据之间的隐私性。

我们已经看到,AI正在加速生命康健与生物医药领域向着更快速、更精准、更安全、更经济、更普惠的方向稳步发展。
详细表示在,人工智能在蛋白质构造预测、CRISPR基因编辑技能、抗体/TCR/个性化的疫苗研发、精准医疗、AI赞助药物设计等方面的研究已成为国际前沿计策性研究热点。

考虑到这样的学科发展趋势和家当背景,清华大学智能家当研究院(AIR)在“AI+生命康健方向”做了四个研究方向的布局,聚焦在研究“AI增强个人康健管理与公共卫生”、“AI+医疗与生命科学”、“AI赞助药物研发”与“AI+基因剖析与编辑”方向。

作为交叉领域研究与运用,AIR认识到人工智能与生命科学、生物医药领域存在较大的知识鸿沟,缺少面向生物打算的数据集、AI平台、核心算法、打算引擎,同时跨界人才也非常稀缺。
针对以上寻衅,AIR提出“AI+生命科学破壁操持”,目标是定义AI+生命科学领域的核心前沿研究任务,超过生命康健领域与人工智能的领域鸿沟,冲破壁垒,促进AI与生命科学的深度交叉领悟,加速科学创造。

为此,我们须要构建面向生命科学领域的人工智能根本举动步伐、数据平台、核心算法引擎,支撑生命科学前沿研究任务。
同时通过打造旗舰公开数据集,组织算法寻衅竞赛,构建AI+生命科学的众智平台,培养跨界人才,构建家当生态。

AlphaFold2是AI+生命科学的一个范例成功案例。
它的成功成分来自于两方面,首先,是任务的分外性,蛋白质构造预测就可以看作从序列到三维构造的一个逐一映射问题,因此它是一个well define的AI问题。
这便是破壁操持的目标,要找到生命科学中意义重大,但同时又能抽象为适宜AI的研究任务。
第二,是模型的优胜性。
一方面,永劫光的生命科学领域的研究积累了大规模的蛋白质构造数据,而AlphaFold2的全体模型架构则充分利用了数据驱动的端到端深度学习模型,大数据与深度模型的结合正好是第四范式的范例特点。
因此,AlphaFold2带给我们的启迪便是在AI+生命科学的研究中,要看重破壁和第四范式的主要性。

显然,AlphaFold2仅仅是一个开始,它的成功正在开启一个新的模式。
蛋白质构造的精准预测为生命科学家供应了高效的打算工具,也为基于AI的重大生命科学创造供应了可能。
未来,抗体、抗原的表位预测,肿瘤的精准疗法,TCR/个性化疫苗的设计与优化等方向将成为主要的研究热点,并在AI驱动的新打算模式下取得打破性进展,AI+大分子制药的黄金时期将正式到来。

个中,还会产生很多新的科学寻衅,也预示着将产生新的打算范式,例如,干湿领悟的闭环式打算框架。
一方面人工智能模型通过高通量、多轮湿实验的闭环验证和数据补充将变得更为智能。
另一方面,通过主动学习或强化学习的办法, AI将主动方案湿实验的自动化进行,形成干湿闭环验证、迭代加速生命科学创造与家当运用。
我们预见到,通过干湿闭环打通,生命科学研究与生物医药家当将迎来新的研究范式与家当模式。

AIR目前在基因数据的表达和预测方面已经取得了一些初步进展。
最近,由我们清华大学智能家当研究院(AIR)的兰艳艳教授带领GeneBert团队设计了一个新颖的基因预演习模型,通过构建序列与转录因子之间的二维矩阵,实现了一个多模态的基因预演习模型,获取了基因数据的有效表示,尤其是挖掘了非编码区的数据代价,不才游的启动子、转录子结合位点的预测,先天性巨结肠疾病的基因筛选任务上都大幅提高了性能。
我们相信,类似预演习这样的前沿AI技能在基因数据上的持续深入运用,将进一步挖掘基因数据的代价,帮助我们破解人类的密码,在癌症的精准治疗等主要问题上发挥浸染。

总结来看,我们认为,生物天下正处于数字化、自动化和智能科学打算的新变革中,用打算的方法,即人工智能和数据驱动的第四研究范式来赞助人们探索并办理生命康健的问题成为一个主要的研究方向。
未来,须要学术界和家当界共同推动生命科学、生物医药、基因工程、个人康健各领域从伶仃、开环向协同、闭环发展,实现更快速、更精准、更安全、更经济、更普惠的生命科学与生物医药创新,这代表着下个十年巨大的科学发展与家当创新的新机会。

我们热切呼吁更多的人来关注、支持或投身于这个新兴交叉学科的发展。

撰文排版 / 冼晓晴

校正责编 / 黄妍

阅读原文:

张亚勤:人工智能赋能生命科学——机遇与寻衅