人工智能驱动的生命科学研究新范式_范式_性命科学
生命科学的发展经历了多个阶段,其研究范式的演进也有其独特的学科属性。在生命科学早期发展阶段,生物学家紧张通过不雅观察不同生物体的形态和行为模式来探索生物存在的一样平常形式和蜕变的共同规律,这一阶段的代表是达尔文,通过环球稽核积累了大量物种的表象描述资料,并以此提出了进化论。从20世纪中叶开始,以DNA双螺旋构造的揭示为标志,生命科学研究进入了分子生物学时期,生物学家开始在更深层次水平研究生命的基本组成和运作规律。在这一阶段,生物学家仍紧张通过对生物征象的不雅观察和实验来总结规律与知识。随着生命科学的进一步发展和新型生物技能的快速呈现,科学家可以对生命科学在不同层级和不同分辨率下进行更为广泛的探索,这也使得生命科学领域的数据呈现爆发性增长。通过高通量、多维度组学数据剖析与实验科学结合的办法对生物过程进行更加风雅的描述和解析,成为当代生命科学研究的常态。
然而,生命系统具有多层面的繁芜性,涵盖了从分子、细胞到个体不同层次,以及个体间的种群关系、机体与环境的互作关系,展现出多层级、高维度、高度互联、动态调控的特点。现有的实验科学研究范式在面对如此繁芜的生命系统时,每每只能从特定尺度对有限数量的样本进行不雅观察描述和研究,难以全面理解生物网络的运作机制;并且高度依赖人的履历和先验知识对特定生物关系进行探索,难以从大规模、多样性、高维度数据中高效提取隐匿的关联和机制。面对生命征象中繁芜的非线性关系和难以预测的特色,人工智能(AI)技能展现出强大的能力,并且已经在蛋白质构造预测、基因调控网络仿照解析方面表现出颠覆性的运用潜力,将生命科学研究由实验科学为主的第一范式推向以人工智能驱动的生命科学研究新范式——第五范式(图1)。
本文将从AI驱动的生命科学研究范例范例、生命科学研究新范式的内涵和关键要素、新范式赋能的生命科学研究前沿及我国面临的寻衅3个方面进行系统论述。
人工智能驱动的生命科学研究范例范例
生命是一个多层次、多尺度、动态互联、相互影响的繁芜系统。在面对生命征象的极度繁芜性、多尺度超过和时空动态变革时,传统的生命科学研究范式每每只能从局部入手,通过实验验证或有限层次的组学数据剖析建立有限生物分子和表型的关联关系。然而,纵然花费巨大本钱,也常日只能创造特定情境下的单一线性关联机制,与生命活动的非线性属性在繁芜度上存在显著差异,难以全面理解全体网络的运作机制。
AI技能,尤其是深度学习和预演习大模型等技能,以其优胜的模式识别和特色提取能力,能够在弘大的参数堆叠情形下超越人类理性推理能力,从数据中更好地理解繁芜生物系统中的规律。当代生物技能的不断发展,使生命科学领域的数据呈现超过式增长,在过去环球范围生命科学研究中,人类已经积累了大量基于实验描述和验证的数据,为AI破解生命科学底层规律创造了根本]。当拥有充足且高质量的数据和适配于生命科学的算法时,AI模型就能够在多层次的海量数据中以“低维”数据预测“高维”信息及规律,实现从基因序列和表达等低维数据到细胞、机体等高维繁芜生物过程规律揭示的超过,解析繁芜的非线性关系,如生物大分子构造生成规律、基因表达调控机制,乃至个体发育、朽迈等多成分交叉的繁芜生物系统中的底层规律。在此发展趋势下,近年来生命科学领域呈现出了蛋白质构造解析、基因调控规律解析等一批AI驱动生命科学研究发展的范例范例。
蛋白质构造解析范例
蛋白质作为生物体内关键功能的实行者,其构造直接影响运输、催化、结合和免疫功能等主要的生物过程。虽然测序技能可以揭示蛋白质所包含的氨基酸序列,但任何一个已知氨基酸序列的蛋白质链有可能折叠整天文数字中的任何一种可能构象,这使得准确解析蛋白质构造成为长期以来的寻衅。利用传统技能如核磁共振、X射线晶体剖析、冷冻电子显微镜等解析已知序列的蛋白质构造方法,须要数年韶光才能描述出单个蛋白质的形状,昂贵耗时且不能担保成功解析其构造。因此,捕获蛋白质折叠的底层规律从而实现对蛋白质构造的精准预测,一贯是构造生物学领域最主要的寻衅之一。
AlphaFold 2利用基于把稳力机制的深度学习算法,对大量蛋白质序列和构造数据进行演习,并结合物理学、化学和生物学的先验知识,构建了包含特色提取、编码、解码模块的蛋白质构造解析模型。在2020年国际蛋白质构造预测竞赛(CASP14)中,AlphaFold 2取得了瞩目的成绩,其蛋白质三维构造预测准确性乃至可与实验解析的结果相媲美。这一打破为生命科学领域带来了全新的视角和前所未有的机遇,紧张表示在3点。
对药物创造领域产生了直接影响。大多数药物通过与体内蛋白质分外构造域的结合而引发蛋白质功能的变革,AlphaFold 2能够快速打算出海量目标蛋白质的构造,从而有针对性地设计药物以有效地与这些蛋白质结合。
对蛋白质的理性设计供应了新的可能性。一旦AI对蛋白质折叠的底层规律有了深刻理解,就可以利用这一知识设计出折叠成所需构造的蛋白质序列。这使得生物学家可以根据需求自由设计和改造蛋白质或酶的构造,如设计更高活性的基因编辑酶,乃至是自然界中不存在的蛋白质构造。同时也推动了人们对基因编码信息在蛋白质层面构造投射规律的理解,并将大幅提高人类对生命的改造能力。
AlphaFold 2彻底改变蛋白质构造解析领域的研究范式。从只能通过费时费力的传统实验技能解析蛋白质构造转变为低门槛、高精度、高通量地预测蛋白质三维构造的新范式,证明通过将蛋白质知识和AI技能相结合,可以提取和学习到高维、繁芜的知识,促进对蛋白质物理构造和功能的更深入理解。
基因调控规律解析范例
人类基因组操持被誉为20世纪人类三大科学操持之一,揭开了生命奥秘的序幕。只管编码生命个体的遗传信息存储在DNA序列中,但每个细胞的命运和表型却因其独特的时空背景而千差万别。这种繁芜的生命过程由风雅的基因表达调控系统所掌握,而探索生命普遍存在的基因调控机制是继人类基因组操持之后最为主要的生命科学问题之一。不同细胞的基因表达谱是理解生物系统内基因调控活动的空想窗口。然而,仅通过生物学实验全面解读基因调控机制,须要捕获不同生物个体的不同细胞类型在不同环境背景下的对照试验来不雅观察。传统生物信息剖析方法只能处理少量数据,对大规模、高维度且缺少准确标注的生物组大数据难以捕捉数据中繁芜的非线性关系。
近年来,自然措辞处理技能的不断打破,特殊是大措辞模型的迅猛发展,能够通过演习语料数据使模型具有理解人类措辞描述知识的能力,为办理这一领域问题带来了新思路。国际多个研究团队借鉴大措辞模型的演习思路,相继基于数以千万计的人类单细胞转录组谱数据和弘大的算力资源,利用Transformer等前辈算法和多种生物学知识,构建了多个具有理解基因动态关系能力的生命根本大模型,如GeneCompass、scGPT、Geneformer和scFoundation等。这些生命根本大模型以基因表达等底层生命活动信息为演习根本,利用机器来学习理解这些“低维”的生命科学数据与繁芜“高维”的基因表达调控网络、细胞命运转变等底层生命机制之间的关联性和对应规律,实现以低维数据对高维信息的有效仿照和预测。这种对基因表达调控网络的仿照可以在广泛的下贱任务中表现出卓越性能,为深入理解基因调控规律供应了全新的路子。
现有的AI驱动生命科学研究的成功案例向我们证明,面对更深入、更系统的生命科学问题,AI有望打破传统研究方法难以办理的困境、构建从根本生物层次到全体生命系统的投射理论体系,并进一步推动生命科学向更高阶段发展,开启生命科学研究的新范式。
生命科学研究新范式的内涵和关键要素
随着生物技能的不断进步、生命科学数据的快速增长、AI技能的飞速发展及其与生命领域的深度交叉领悟,AI展示出了对生命科学知识的深入理解和泛化能力,不仅提高了生命科学的研究高度和广度,也匆匆使生命科学研究由实验科学为主的第一范式,超过进入AI驱动的生命科学研究新范式(第五范式,以下简称“新范式”)。
通过深入阐发AI驱动生命科学研究的范例范例,笔者认为,生命科学研究的新范式正如一台智能化的新能源汽车,对标新能源汽车的电池系统、电控系统、电机系统、赞助驾驶系统、底盘系统等核心技能,新范式应具备生命科学大数据、智能算法模型、算力平台、专家先验知识和交叉研究团队五大关键要素(图2)。犹如电池系统为车辆供应能量,生命科学大数据为科学研究供应根本资源;算法模型则像智能电控系统,赋能深入理解生物系统的运行机制;算力平台可比喻为电机系统,卖力处理海量的科学数据和繁芜的打算任务;专家先验知识则像赞助驾驶系统,为科学家供应方向引领和履行履历;交叉研究团队类似于底盘系统,卖力整合不同领域的知识和技能,通过跨学科互助提高研究效率,推动生命科学的发展。
关键要素一:生命科学大数据
生命科学大数据是新范式“汽车”的“电池”系统。随着新型生物技能的发展,具有多模态、多维度、分布分散、关联隐匿、多层次交汇等特点的生命科学大数据逐渐形成;只有对生命科学大数据进行有效整合并利用创新AI技能充分挖掘数据,才能够冲破人类科学家的认知局限、促进新创造的产生并拓展生命科学的探索范围。例如医疗视觉大模型,通过整合多来源、多模态、多任务的医疗图像数据,实现了在少样本和零样本条件下的多种运用;跨物种生命根本大模型GeneCompass,通过有效整合环球开源的单细胞数据,在超过1.2亿个单细胞的演习数据集上实现了对基因表达调控规律的全景式学习理解等多个生命科学问题的剖析。
关键要素二:智能算法模型
智能算法模型是新范式“汽车”的“电控”系统。从浩如烟海的生命科学大数据中呈现生命的新规律和新知识,须要创新AI算法和模型;如何研发利用生命科学适配的AI算法、提取有效的生物特色、构建大规模生物过程动态模型,是当前新范式的中央问题。例如,Gerstein团队利用贝叶斯网络算法预测蛋白质相互浸染的成果揭橥于Science,为经典机器学习在生物信息领域发展奠定了根本;图卷积神经网络算法被用于剖析蛋白质—蛋白质相互浸染网络和基因调控网络等生物分子网络,拓展了生命科学领域的研究方向;AlphaFold 2利用Transformer模型,能够在高准确度的根本上快速打算出大量蛋白质的构造,都展示出了AI算法模型在生命科学研究新范式中的主要性。
关键要素三:算力平台
算力平台是新范式“汽车”的“电机”系统。算力是实现AI运行的根本,深度学习、大模型技能等适用于生命科学研究新范式的AI算法模型的不断发展,使AI模型演习须要更强大、更高效的算力平台支持。面向新范式,未来应构建能够支撑AI赋能生命科学研究的硬件能力平台,包括培植高速大容量存储系统、构建高性能高吞吐量超级打算机、研发专门用于处理生命科学数据的芯片、设计用于加速生物模型推理和演习的专用途理器等,为生命科学研究供应高效、可靠的打算和处理能力,以应对生命科学领域产生的海量数据、知足生命科学领域繁芜模型构建的打算需求,保障AI在生命科学领域的运用和创新。
关键要素四:专家先验知识
专家先验知识是新范式“汽车”的“赞助驾驶”系统。新范式下,已有的生命科学知识将为AI算法模型供应宝贵的演习约束条件、主要的背景和特色关系,帮助阐明和理解生命科学数据的繁芜性、验证和优化AI在生命科学领域的运用;能够在AI算法设计和模型构建时发挥主要的辅导浸染,促进更加准确、高效地办理生命科学问题,推动生命科学研究向更深入、全面的方向发展。例如,通过嵌入生命科学专家先验知识和人类注释信息编码,新型基因表达预演习大模型提高了对生物数据间繁芜特色关联关系的阐明,展示出更为精良的模型表现。
关键要素五:交叉研究团队
交叉研究团队是新范式“汽车”的“底盘”系统。新范式下,一支由AI专家、数据科学家、生物学家和医学家等组成的多学科交叉研究团队对付实现超过式的生命科学创造至关主要。多德配景紧密协作的交叉研究团队能够整合AI、生物学、医学等领域的专业知识,供应多元化的视角和方法,为全面理解和解决生命科学中的繁芜机制问题供应稳定根本,为创新性办理方案供应更多可能性,从而推动生命科学领域的打破性创造和进展。
新范式赋能的生命科学研究前沿及我国面临的寻衅
传统的研究范式对生命的探索犹如管中窥豹,生物学家在生命科学的不同细分领域各自奋战。随着新范式的不断发展,生命科学研究将迎来以AI预测、辅导、提出假说、验证假设为特点的新型研究模态,迸发出一批快速发展的生命科学新范式前沿研究方向,并展现出新范式变革带来的发展增益。然而,在当前条件下加速推进我国生命科学研究新范式的建立和推广,仍面临一系列巨大的寻衅。
新范式赋能的生命科学研究前沿
构造生物学。目前在构造生物学领域,以AlphaFold为代表的AI运用技能仍勾留在“从序列到构造”的蛋白质构造预测和设计阶段,还无法实现繁芜生理条件下蛋白质构造和功能的仿照与预测。更高质量、更大规模的蛋白质数据和新型算法的涌现,将有望对不同生理状态和时空条件下的生物大分子构造和功能进行系统解析,并实现蛋白质“从序列到功能”乃至“从序列到多尺度相互浸染”的智能化构造解析与风雅设计。
系统生物学。当前的组学数据剖析仍局限于较低维度的生物组学不雅观测水平,还未形成从基因水平到细胞水平乃至生物个体乃至群体组学水平的全维度不雅观测。新范式将融通多维度、多模态的生物大数据和专家先验知识,提取生物表型的关键特色,构建多尺度生物过程解析模型,还原繁芜生物系统运行的底层规律,形成根本而广泛适用的系统生物学研究新体系。
遗传学。随着多组学数据的积累和新型基因大模型的涌现,遗传学研究已进入新范式推动的快速发展阶段,基于基因表达谱数据的自监督预演习大模型有望成为解析基因调控规律、预测疾病靶点的有力工具,拓展遗传学研究的探索边界。
药物设计开拓。随着AlphaFold的涌现和一批分子动力学模型的发展,AI模型已经被用于预测和筛选药物候选分子。未来新范式将进一步推动该领域的发展,有望涌现AI赞助的全流程药物设计开拓体系,能够自主完成药物构造和性子的优化设计、实现候选药物的有效性和安全性仿照预测、天生药物的高效合成和生产工艺方案,极大加速药物的开拓和生产过程。
精准医学。打算机视觉、自然措辞处理和机器学习等AI技能已广泛渗透到生物影像、医学影像、疾病智能剖析及靶点预测等精准医学子领域。例如,基于AI的诊断系统在准确度上已经可以媲美乃至在某些方面超过资深的临床年夜夫。然而,现有的模型大多受制于数据的偏好性,存在鲁棒性差、通用性低等问题,随着新范式驱动的通用精准医学模型的涌现,将有助于更加快速准确地诊断疾病、解析疾病的分子机制、创造新的治疗靶点,提高人类的康健水平。
我国生命科学研究新范式面临的寻衅
面对生命科学研究新范式发展的新形势、新哀求,我国仍面临高质量生命科学数据资源体系缺少、AI关键技能与根本举动步伐不敷、新范式下的交叉创新科研新生态匮乏等方面的巨大寻衅。
高质量生命科学数据资源体系缺少
只管我国在生命领域的科研投入持续增加,但在一些前沿领域,我国科学家仍依赖国外高质量数据,而海内数据的培植和利用相对滞后,我国生命科学数据资源还存在分布不屈衡问题,须要更好地统筹折衷和资源整合,实现高质量生命科学数据资源的高效汇聚和系统化提升。此外,在生命科学数据的网络、传输和存储过程中,数据安全问题亟待加强,特殊是生物数据的隐私和安全问题仍须要引起重视。
面对这些寻衅,我国须要加强科学数据资源的整合与共享,推动生命科学数据资源的可持续发展,提高数据的质量和安全性,加强数据管理与供给模式的变革,推动跨领域多模态科技资源领悟做事能力的提升,以知足新范式下科研需求的发展。
AI关键技能与根本举动步伐不敷
我国AI驱动新科研范式的核心技能相对匮乏,自主原创的算法、模型、工具仍待大力发展。针对生命科学大数据的海量、高维、稀疏分布等特色,亟需发展繁芜数据的前辈打算与剖析方法。未来应开拓更加适宜生命科学运用的硬件、软件和新打算介质,并在生命科学和打算科学的领悟过程中,探索新的打算-生物交互模式。简而言之,新范式研究对数据、网络、算力等资源的综合能力提出了新的哀求,须要加快推进新一代信息根本举动步伐培植,办理算力“卡脖子”问题。
新范式下的交叉创新科研新生态匮乏
现有AI驱动的生命科学研究办法大多为课题组自发组合的“小作坊”模式,缺少新范式发展所需的交叉创新环境。美国在2023年发布的《国家人工智能研发计策操持》更新版本中也着重强调了人工智能研究的跨学科交叉发展的主要性。因此,新范式下的科研生态应鼓励更为广泛的多学科“大交叉”“大领悟”,建立干湿结合、理实交融的新型研究模式,持续培养高水平复合型交叉研究人才。
在新形势下我国也已经开始广泛布局和推进交叉学科的发展。《中华公民共和国国民经济和社会发展第十四个五年方案和2035年远景目标纲要》中指出要推动互联网、大数据、人工智能等同各家当的深度领悟。结合我国生命科学领域的实际发展情形,我国生命科学领域发展更应着眼于将AI赋能生命科学研究的范式变革融入我国新时期的国家发展远景布局中,实现以点带面的整体效应建立更加开放的新型科研生态和发展环境。
近年来,生命科学领域正经历着前所未有的巨变,这一领域的发展不仅受到生物技能和信息技能的双重推动,更受到AI技能进步的巨大影响。这一变革的核心在于从传统的紧张依赖于人履历的假说和实验驱动的科研范式向大数据和AI驱动的新研究范式的演化。这意味着我们不再仅仅依赖于实验和假说,而是通过大数据剖析和AI技能主动揭示生命的奥秘。更广泛的,这个演化将广泛改变或促进不同层面的科学研究活动的变革,涵盖了认识论、方法论、研究组织形式、经济社会及伦理法律等浩瀚层面。
综合而言,我们正身临着一个充满变革和希望的时期,生命科学的改造与科技的进步共同绘制出人类对生命奥秘更深层次探索的未来蓝图。可以预见,随着通用AI的进一步发展,生命科学研究将在不远的未来实现干湿领悟、人机协同的新模式,迎来AI自驱抽象新知识、新规律的“预人所未见,思人所未思”的科学新时期。
(作者:李鑫,中国科学院动物研究所 北京干细胞与再生医学研究院;于汉超,中国科学院前沿科学与教诲局。《中国科学院院刊》供稿)
本文系作者个人观点,不代表本站立场,转载请注明出处!