来源丨ACM通讯

AI 与合成生物学「联姻」的五大年夜寻衅:技能、数据、算法、评估与社会学_人工智能_数据 智能助手

编译 | 王玥

编辑 | 陈彩娴

在过去的二十年里,生物学发生了翻天覆地的变革,建立在生物系统上的工程成为了可能。
授予了我们细胞遗传密码(DNA)排序能力的基因组革命是这一巨大变革的紧张推手。
而基因组革命带来的最新创造之一,正是利用CRISPR在体内精确编辑DNA的能力。

遗传密码的高等表现,如蛋白质的合成,被称为「表型」(phenotype)。
高通量表型数据与DNA的精确编辑结合到一起,将底层代码的变革与外部表型联系了起来。

图注:Wacomka

图注:本图表示了细胞遗传密码(DNA)的高层次表现

图注:生物学中常常利用的数据集/数据类型(本列表收录不全)

1
合成生物学的潜力

合成生物学将对食品、能源、景象、医药和材料……以至于天下上每个领域都产生变革性的影响。

图注:合成生物学可能会影响天下上的每一个领域

合成生物学已经为众人带来了不用捐躯猪就能得到猪的胰岛素(在之前的基因工程阶段就能做到)、合成皮革、压根不是蜘蛛吐的蛛丝做的大衣、抗疟疾和抗癌药物、尝起来像肉的无肉汉堡、可再生生物燃料、没有啤酒花的啤酒花味啤酒,已灭绝了的花朵的喷鼻香味,用于扮装品的人造胶原蛋白,肃清携带登革热蚊子的基因。
许多人认为这只是冰山一角,由于设计生物的能力带来了改造天下的无限可能性,而且在这一领域,公共和私人投资水平都在不断增长。

图注:学术(a)和商业(b)领域的显著增长为 AI 在合成生物领域的运用供应了丰富的信息、数据和环境资源。

此外,进入AI 第三次浪潮后,AI 专注于将环境融入模型,其影响合成生物学的潜力大大增加。

众所周知,生物体的基因型与其说是其表型的蓝图,不如说是一个繁芜的、相互关联的、动态系统的初始条件。
生物学家们花了几十年的韶光来构建和管理一套大型包含调节、关联、变革速率和功能在内的属性,用来描述这个繁芜的、动态的系统。
其他资源如基因网络、已知功能关联、蛋白质与蛋白质的相互浸染、蛋白质与代谢物的相互浸染以及转录、翻译和交互的知识驱动的动态模型则为人工智能模型供应了丰富的资源。

模型的可阐明性对付揭示新的设计原则也是至关主要的。
这些模型给了生物学家去办理关于生物系统的更繁芜的问题的能力,并且建立综合的、可阐明的模型去加速创造与研究。
我们可以从合成生物学出版物的数量以及合成生物学的商业机会中明显看出该领域知识和资源的增长。

2
AI 及其对合成生物学的影响

与AI在合成生物领域的潜力比较,它在合成生物领域的影响有限。

我们已经看到了AI的成功运用,但仍旧局限于特定的数据集和研究问题。
AI在该领域目前面对的寻衅,仍旧是对更广泛的运用程序和其他数据集来说有多大的通用性。

数据挖掘、统计和机器建模目前是该领域打算生物学和生物信息学的紧张驱出发分,但这些技能与人工智能/机器学习之间的界线每每是模糊的。
例如,聚类是一种数据挖掘技能,可以识别基因表达数据中的模式和构造,这些模式可以表明工程修恰是否会导致细胞的毒性结果。
这些聚类技能还可以作为无监督学习模型,在未标记的数据集中找到构造。
这些正在开拓中的经典技能和新的AI/ML(机器学习)方法将在未来的领域合成生物中发挥更大的浸染和影响,由于届时人们对付更大的数据集将习以为常。
转录组数据量每7个月翻一番,蛋白质组学和代谢组学的高通量事情流程越来越可用。

此外,实验室事情微流控芯片的逐步自动化和小型化预示着未来数据处理和剖析将使得合成生物学的生产力倍增。
DARPA的协同创造和设计(SD2, 2018–2021) 操持专注于构建人工智能模型,旨在拉近AI与合成生物学需求的差距。
这一点在一些采取该领域SoTA技能的公司中也很明显(例如Amyris、Zymergen或Ginkgo Bioworks)。

AI和合成生物学在一些方面存在重叠,比如将现有AI/ML运用于现有数据集;天生新的数据集(例如即将到来的NIH Bridge2AI);并创造新的AI/ML技能来运用于新的或现有的数据。
虽然SD2在末了一项中有所贡献,但其仍有一定潜力,未来也有较长的路要走。

人工智能可以帮助合成生物学战胜一个大寻衅,即预测生物工程方法对生物主体和环境的影响。
由于无法预测生物工程的结果,合成生物学的细胞工程目标(即逆设计)只能通过大量的试错来实现。
人工智能供应了一个利用公开数据和实验数据来预测对生物主体和环境影响的机会。

为细胞编程设计遗传构造。
许多合成生物学领域的研究都集中在基因构造/基因线路的工程上,这与设计电子电路面临着的寻衅大相径庭。

人工智能技能结合了已知的生物物理、机器学习和强化学习模型,能够有效预测构造对主体的影响,反之亦然,虽然已经颇为强大,但仍旧有改进空间。
而在机器赞助基因线路设计方面,已有各种人工智能技能投入运用,个中包括专家系统、多智能体系统、约束推理、启示式搜索、优化和机器学习。

基于序列的模型和图卷积网络在工程生物系统领域也得到了关注。
因子-图神经网络已被用于将生物知识纳入深度学习模型。
图卷积网络已被用于从蛋白质与蛋白质相互浸染网络中预测蛋白质的功能。
基于序列的卷积和递归神经网络模型已被用于识别蛋白质的潜在结合位点、基因的表达和新的生物构造的设计。
人工智能最有用之处是运用于开拓综合模型,而这将减少须要进行的实验或设计的数量。

代谢工程。
在代谢工程中,人工智能已经运用到生物工程过程的险些所有阶段,例如人工神经网络已被用于预测翻译起始位点,注释蛋白质功能,预测合成路子,优化多个外源基因的表达水平,预测调控元件的强度,预测质粒表达,优化营养浓度和发酵条件,预测酶动力学参数,理解基因型与表型的关联,预测CRISPR的辅导效果等阶段。
聚类已被用于创造次生代谢物生物合成基因聚类和识别催化特定反应的酶。
凑集方法已被用于预测路子动态、最优成长温度,并在定向进化方法中找到授予更高适应度的蛋白质。
支持向量机已被用于优化核糖体结合位点序列和预测CRISPR勾引RNA的行为。
在代谢工程的各阶段中,人工智能最有希望被运用于流程放大,这是该领域的一个重大瓶颈,以及下贱处理(例如从发酵液中系统提取所产生的分子)。

实验自动化。
在帮助自动化实验室事情和推举实验设计方面,人工智能的影响已经远远超出了DBTL周期的“学习”阶段。
自动化正逐渐在实践中变得十分主要,由于自动化是得到演习人工智能算法所需的高质量、大容量、低偏差数据的最可靠的办法,自动化还使得可预测的生物工程成为可能。
自动化供应了将繁芜协议快速转移和扩展到其他实验室的机会。
例如,液体处理机器人站构成了生物铸造厂和云实验室的支柱。
这些铸造厂已经能够看到在未来自身会被机器人和方案算法颠覆,从而得到快速迭代通过DBTL周期的能力。
语义网络、本体和模式彻底改变了设计和协议的表示、通信和交流。
这些工具支持快速实验,并以构造化、可查询的格式天生更多的数据。
在一个大多数内容要么丢失,要么被人工记录在实验室条记中的领域,人工智能的前景推动领域发生重大变革,从而减少天生数据的障碍。

微流体是宏不雅观液体处理的替代品,具有更高的通量、更少的试剂花费和更便宜的结垢。
事实上,微流体可能是实现自动驾驶实验室的关键技能,它有望通过利用人工智能增强自动化实验平台,大大加快研发过程。
自动驾驶实验室涉及完备自动化的DBTL周期,个中人工智能算法会根据之前的实验结果进行假设,积极探求有前景的实验程序。
因此这可能是合成生物领域人工智能研究职员的最大机会。
虽然自动DBTL回路已经在液体处理机器人事情站中得到了证明,但微流控芯片供应的可扩展性、高通量能力和制造灵巧性可能会供应终极的技能飞跃,使人工智能成为现实。

3
用AI研究合成生物学所面临的寻衅

人工智能已经开始进入各种合成生物运用领域,但仍旧存在的技能和社会问题成为了这两个领域之间的障碍。

技能寻衅。
将人工智能运用于合成生物学的技能寻衅是:数据分散在不同的模式中,难以组合,非构造化,每每缺少网络数据的背景;模型须要的数据比常日在单个实验中网络的数据多得多,而且缺少可阐明性和不愿定性量化;并且在更大的设计任务中,没有度量标准或标准来有效地评估模型的性能。
此外,实验每每设计为只探索积极的结果,这使得模型的评估变得繁芜化或偏倚。

图注:将人工智能技能运用于合成生物学领域的寻衅。

数据寻衅。
缺少得当的数据集仍旧是人工智能与合成生物学结合的紧张障碍。
将人工智能运用于合成生物学须要从个体实验中得到大量标记过的、精选的、高质量、情境丰富的数据。
只管该社区在建立包含各种生物序列(乃至全基因组)和表型的数据库方面取得了进展,但标记数据仍旧很匮乏。
此处所说的“标记数据”指的是映射到捕捉它们的生物功能或细胞反应的丈量的表型数据。
正是这种丈量和标签的存在让AI/ML和合成生物学办理方案日趋成熟,和其他领域一样让AI与人类的能力相互竞争。

缺少对数据工程的投资是缺少适用数据集的部分缘故原由。
在人工智能技能进步的光芒粉饰下,人们每每看不到支持和确保其成功的打算根本举动步伐需求。
AI社区将其称为需求金字塔,数据工程是个中一个主要的组成部分。
数据工程中包括了实验方案、数据网络、构造化、访问和探索的步骤。
成功的AI运用程序故事包含标准化、同等和可复制的数据工程步骤。
虽然我们现在可以以前所未有的规模和细节网络生物数据,但这些数据每每不能立即适用于机器学习。
目前在采取全社区标准来存储和共享丈量数据、实验条件和使得数据更服从于AI技能的其他元数据方面仍存在许多障碍。
须要进行严格的事情和达成高度共识才能使这些标准迅速被采取,同时促进数据质量评估的通用标准。
简而言之,人工智能模型须要在所有实验中进行同等和可比的丈量,这就会延长实验韶光线。
这一哀求为已经遵照繁芜协议进行科研实验职员又增加了巨大的包袱。
因此,为了赶近在眉睫的项目期限,网络数据的长期须要每每会被捐躯掉。

图注:一个规范的AI/ML根本举动步伐可以支持合成生物学研究。
虽然研究中期每每是人们关注的焦点,但根本才是至关主要的,须要大量的资源投资。

这种情形常日会造成稀疏的数据凑集,稀疏的数据凑集只表示构成组学数据栈的多个层的一小部分。
在这种情形下,数据表示对集成这些伶仃数据集进行综合建模的能力有重大影响。
目前,业界在各个垂直领域都投入了大量事情,实行数据清理、模式对齐以及提取、转换和加载操作(ETL),用这种办法网络难以掌握的数字数据,并将其准备为适宜剖析的形式。
这些任务霸占了数据科学家近50%到80%的韶光,限定了他们深入探索的能力。
处理大量的数据类型(数据多模态)是合成生物学研究职员面临的一个寻衅,与数据量比较,预处理活动的繁芜性随着数据多样性的增加而急剧增加。

建模/算法的寻衅。
许多推动当古人工智能进步的盛行算法(例如打算机视觉和NLP领域的盛行算法)在剖析组学数据时都没有鲁棒性。
当运用于特定实验中网络的数据时,这些模型的传统运用常常遭受“维数灾害”的困扰。
在特定条件下,一个实验职员可以就一个生物体产生超过12,000个丈量值(维度)的基因组学、转录组学和蛋白质组学数据。
对付这样一个实验,标记实例的数量(例如,成功或失落败)常日最多只有几十到几百个。
对付这些高维数据类型,很少捕捉到系统的动态(韶光分辨率)。
这些丈量偏差使得对繁芜的动态系统进行推断成为一个重大寻衅。

图注:维数灾害

组学数据与其他数据模式(如顺序数据、文本数据和基于网络的数据)既有相似之处,也有不同之处,而经典方法并不总是适用。
这些数据相同的特色包括位置编码和依赖关系,以及繁芜的交互模式。
然而这些数据之间也有一些基本的差异,如:它们的潜在表征,故意义剖析所需的背景,以及跨模态的干系标准化以进行生物学上故意义的比较。
因此,很难找到有鲁棒性的天生模型(类似于高斯模型或随机块模型)可以准确地描述组学数据。

此外,生物序列和系统代表了繁芜的生物功能编码,但很少有系统的方法以类似阐明语义或从书面文本高下文的办法来阐明这些编码。
这些不同的特色使得通过数据探索提取见地、天生和验证假设具备寻衅性。
工程生物学涉及到学习黑盒系统的寻衅,我们可以不雅观察输入和输出,但我们对系统内部事情的理解有限。
考虑到这些生物系统运行在组合的大参数空间中,人工智能办理方案利用策略有效地设计实验以探索生物系统,从而产生各种假设并进行验证,即是是在这个空间中提出了巨大的需求和机会 。

末了,许多盛行的AI算法办理方案没有明确地考虑不愿定性,也没有显示出在输入扰动下掌握偏差的鲁棒机制。
考虑到我们正在考试测验设计的生物系统中固有的随机性和噪声,这种基本差距在合成生物空间中尤其主要。

指标/评估的寻衅。
基于预测和准确性的标准AI评价指标不敷以运用在合成生物学领域中。
像ℝ这样的回归模型或基于分类模型的准确性的度量标准不能阐明我们试图建模的潜在生物系统的繁芜性。
在这个领域中,量化一个模型能够阐明生物系统内部事情和获取现有领域知识的其他指标也同样主要。
为此,包含可阐明性和透明度原则的人工智能办理方案是支持迭代和跨学科研究的关键。
此外,对付恰当地量化不愿定性的能力,我们须要创造性地开拓新的指标来衡量这些方法的有效性。

我们还须要适当的实验设计指标。
评估和验证合成生物学中的模型有时须要额外的实验和额外的资源。
少量的分类缺点或小缺点可能会对研究目标产生重大影响。
这些本钱应整合到人工智能模型的目标函数或评估中,以反响误分类对现实天下的影响。

社会学的寻衅。
在利用人工智能与合成生物学结合的方面,社会学方面的问题可能比技能障碍更具寻衅性(反之亦有可能)。
我们的印象是,研究当中所涉及的完备不同的文化之间缺少折衷和理解,因此会导致一些社会学方面的障碍。
虽然已经已经有些办法能办理这种障碍,但有趣的是,学术界和工业界仍旧存在一些旷日持久的社会学问题。

之以是会涌现社会问题,是由于两个非常不同群体的专家:打算科学家和实验室科学家在事情中碰撞摩擦,产生了一定的不合。

打算科学家和实验室科学家接管的演习不同之处太多。
经由演习的打算科学家方向于专注于抽象、热衷于自动化、打算效率和颠覆性方法。
他们自然方向于任务专门化,并费尽心机将重复性任务丢给自动化打算机系统去做。
而实验室科学家都很实际,他们接管过详细不雅观察的演习,更喜好通过可阐明的剖析来准确描述实验的详细结果。

图注:打算科学家和实验室科学家来自不同的研究文化背景,他们必须学会共同协作,才能从人工智能和合成生物结合中充分受益。

这两个天下有着不同的文化,这不仅反响在这两部分人如何办理问题,也反响在他们认为哪些问题值得办理。

例如,致力于培植支持通用研究的根本举动步伐,与致力于研究特定研究问题的努力之间一贯很紧张。
打算科学家方向于供应可用于各种项目的可靠根本举动步伐,而实验科学家每每专注于终极目标。
打算科学家喜好开拓数学模型来阐明和预测生物系统的行为,而实验室科学家喜好产生定性的假设,并尽快通过实验来考验这些假设(至少在研究微生物时,由于这些实验可以在3-5天内很快完成)。

此外,打算机科学家们每每只对一些虚高的目标感到愉快,比如生物工程生物对火星、生活写编译器能够创建DNA来知足所需的规范,重修树采纳所需的形状,生物工程龙在现实生活中,或者用人工智能取代科学家。
实验室的科学家们则认为这种目标纯属“炒作”,由于之前的案例中,打算类型承诺了许多,却没有兑现,他们甘心只考虑利用当前的技能状态可以实现的目标。

办理社会的寻衅。
办理这些社会学问题的方法是去鼓励跨学科的团队和需求。
虽然我们不能否认,在公司(团队一荣俱荣一损俱损)中实现这种原谅的环境可能比在学术环境中更随意马虎,由于在学术环境中一个研究生或博士后每每是揭橥了几篇第一作者论文就流传宣传成功了,而不须要与其他学科进行整合。

实现这种整合的一种可能的办法是开办交叉培训课程,让实验室科学家接管编程和机器学习的培训,让打算科学家接管实验培训。
这样就能给两个社区都带来一些有代价的、独特的、必要的文化互换。
大家越早创造这一点,合成生物学就能发展得越快。

从长远来看,我们须要将生物和生物工程的传授教化与自动化和数学相结合的大学课程。
虽然目前有一些学校正在开办这样的课程,但目前只是杯水车薪而已。

4
不雅观点和机会

人工智能可以从根本上增强合成生物学,还能通过为工程阶段空间增加第三个轴,比如物理、化学或者生物,从而使其充分发挥影响力。
最明显的是,人工智能可以在生物工程结果中产生准确的预测,从而实现有效的逆向设计。

此外,人工智能还可以支持科学家设计实验,并选择何时何地采样,而目前这一问题须要演习有素的专家来办理。
人工智能还可以支持自动搜索、高吞吐量剖析和基于大数据源的假设天生,这些数据源包括历史实验数据、在线数据库、本体和其他技能材料。

人工智能可以许可合成生物学领域专家更快地探索大型设计空间,并提出一些有趣的“跳出框框”的假设,从而增加专家们的知识。
合成生物学为当前的人工智能办理方案提出了一些独特的寻衅,如果这些寻衅得到办理,将使得合成生物学和人工智能领域得到根本性进步。
设计生物系统实质上依赖于掌握系统的能力,这是对系统基本规律理解的终极磨练。
因此,能够实现合成生物研究的人工智能办理方案必须能够描述能够做到最佳预测的机制。

只管最近基于深度学习架构的人工智能技能已经改变了我们对特色工程和模式创造的意见,但就推理和解释其学习机制的能力而言,它们仍处于起步阶段。

因此,结合因果推理、可阐明性、鲁棒性和不愿定性估计需求的人工智能办理方案在这一跨学科领域具有巨大的潜在影响。
生物系统的繁芜性使得纯粹基于蛮力关联创造的人工智能办理方案无法有效地描述系统的内在特色。
将物理和机器模型与数据驱动模型顺利地结合起来的一类新算法是一个令人愉快的新研究方向。
目前我们在景象科学和打算化学方面看到了一些初步的积极成果,希望在生物系统研究方面也能取得类似的进展。

由于人工智能供应了修正生物系统的工具,合成生物学还可以反过来引发新的人工智能方法。
生物学启示了诸如神经网络、遗传算法、强化学习、打算机视觉和群体机器人等人工智能的基本要素。
事实上,有许多生物征象可以用也值得用数字技能来仿照的。
例如,基因调控涉及到一个风雅的相互浸染网络,它不仅许可细胞感知环境并对环境作出反应,而且还保持细胞的存活和稳定。
保持体内平衡(由生命系统坚持的稳定的内部、物理和化学条件的状态)涉及到在适当的韶光、适当的数量产生适当的细胞身分,感知内部梯度,并小心地调节细胞与环境的交流。
我们能不能理解并利用这种能力光降盆真正自我调节的人工智能或机器人呢?

另一个例子涉及紧急属性(即,由系统显示但不由其组成部分显示的属性)。
例如,蚁群的行为和反应是一个单一的有机体,不仅仅是单个蚂蚁的总和。
类似地,意识(即,对内部或外部存在的感知或意识)是一种来自物理根本(比如神经元)的定性特色。
自组织和集体建造构造的群机器人已经存在。
我们能不能用呈现的一样平常理论来创造机器人和生物系统的稠浊体呢?我们能从一个完备不同的物理基质,比如晶体管中创造意识吗?末了一个可能的例子涉及自我修复和复制:纵然是最大略的生命例子也显示出自我修复和复制的能力。
我们能理解这种征象产生自我修复和复制的人工智能的困境吗?

虽然这种生物仿照以前就有人考虑过,但“合成生物”的美妙之处在于,它为我们供应了“修补”生物系统的能力,以测试生物仿照的模型和基本事理。
例如,我们现在可以在基因组规模上修补细胞基因调控,对其进行修正,并测试到底是什么导致了其非凡的韧性温柔应性。
或者我们可以对蚂蚁进行生物工程,测试随后会发生什么样的蚁群行为,以及这种行为如何影响蚂蚁的存活率。
或者我们可以改变细胞的自我修复和自我复制机制,测试长期进化对其竞争能力的影响。

此外,在细胞建模中,我们能够很好地理解所涉及的生物机制。
就算理解了神经网络如何检测眼睛的形状,也不太可能就明白大脑是怎么做同样的事情的,但合成生物学的研究不一样。
机器模型的预测并不完美,但产生了质量上可以接管的结果。
将这些机制模型与ML的预测能力相结合,可以帮助弥合两者之间的差距,并供应生物学上的见地,阐明为什么某些ML模型在预测生物行为方面比其他模型更有效。
这种见地可以勾引我们研究新的ML体系构造和方法。

人工智能可以帮助合成生物,合成生物也可以反过来帮助人工智能,这两个学科在持续反馈循环中的相互浸染,将创造我们现在不能想象的未来,就像本杰明·富兰克林也无法想象他对电的创造,在未来有一天会使互联网成为可能。

原文链接:

https://cacm.acm.org/magazines/2022/5/260341-artificial-intelligence-for-synthetic-biology/fulltext#R2