自2021年以来,洪亮团队致力于推进通用人工智能在蛋白质工程领域的创新研究,自主研发了 Pro系列蛋白质工程通用人工智能。
如果说ChatGPT是通过用大模型理解人类笔墨排列办法来做智能问答,那么Pro系列则是用大模型理解自然界蛋白质的氨基酸排列办法,来设计性能优胜的蛋白质产品。

AI for Engineering:大年夜模型实现多款高难度蛋白质产品家当化落地|上海交大年夜洪亮团队_卵白质_人工智能 科技快讯

Pro系列打造了“AI自动设计+少量实验验证”的蛋白质设计新范式,办理了传统“专家履历&大量试错”范式下,蛋白质设计韶光长、本钱高、阳性率低以及多指标优化难度大等核心问题,在提升企业产品性能、缩短研发周期、降落生产本钱以及建立高壁垒专利布局方面发挥了显著浸染。

作为AI for Science的范例代表,Pro系列研究成果已在Nature Communication[1]、JCIM[2]等国际威信学术期刊揭橥,在美国哈佛大学医学院创立的蛋白质突变性子预测榜单 ProteinGym-Substitution上,Pro系列多个单项指标环球前三[3]。

作为AI for Engineering的先行者,Pro系列将研发模式从依赖专家履历的缓慢试错过程变革为大模型快速精准设计的范式,在一年多韶光里,成功交付了20多款不同领域的蛋白设计项目,展现了其在蛋白质工程领域的泛化能力和技能实力,赢得了浩瀚行业头部企业的认可。
个中两款生物医药干系蛋白质产品在一年内实现了从小试研究抵家当化落地。

第一款是和金赛药业联合开拓用于纯化生物药的极耐碱的单域抗体,是环球首个大模型设计的蛋白质产品实现5000升工业化生产,该成果为生物大分子纯化供应全新的办理方案。
第二款是和瀚海新酶联合开拓的糖基转移酶,用于生产胰腺炎筛查核心物料EPS-G7,冲破了国外巨子的长期垄断,将本钱降至入口产品的十分之一。
以上两个案例是环球第一款和第二款大模型设计并放大生产进入家当化阶段的蛋白质产品。

1 AI for Science范例代表

2020年,AlphaFold 2.0在CASP根据序列预测构造的赛事中摘得桂冠,极大地办理蛋白质折叠问题。
近期发布的AlphaFold 3.0又在2.0的根本上拓展了对蛋白质和其它生物大分子以及小分子结合的构造预测能力。

然而一个蛋白质纵然拥有精确的构造也不虞味着它能有好的功能,例如高活性、高稳定性、高特异性、高表达等等,功能才是一个蛋白质成为产品的关键,也是生物制药、工业酶领域关注的焦点。

因此,洪亮团队开始探索其余一条全新的道路。
在近代生物学,蛋白质工程领域都是遵照“序列-构造-功能”的路线做蛋白质设计,但按照“第一性事理”,功能和构造信息都该当包含在序列信息之中,我们能否直接通过氨基酸序列来设计蛋白质功能?洪亮团队决定用大措辞模型来考试测验办理这个问题:

01

首先,网络Uniprot数据库中公开的2.8亿条蛋白质氨基酸序列与构造信息,并通过纵向与横向互助,整合了近5亿条非公开的氨基酸序列与构造信息,以此7.8亿条数据为演习集,用自然措辞去学习自然界蛋白质的氨基酸的排列规律[4];

02

其次,利用9800万条标注了蛋白质各种性能参数的标签信息,进行监督学习,让模型学习不同蛋白质性能的特色;

03

末了,对模型的打分结果进行少量实验验证,并将实验数据反馈给模型,通过自研小样本学习方法,用实验数据微调大模型使得它能精准预测蛋白质特定功能性子,终极定向进化出空想功能的蛋白质产品。

经由两年多的探索,洪亮团队自主研发的蛋白质通用人工智能Pro系列首创性地实现了从序列直达功能的精准蛋白质设计,成为AI for Science的范例代表。

比较理性设计、定向进化等传统的蛋白质工程方法,Pro系列不再依赖专家履历,阳性率由不到1%提升至30%,总实验样本数量由成千上万个减少至100个乃至更少,项目交付周期由2-5年压缩至2-6个月,打造了“AI自动设计+少量实验验证”的蛋白质设计新范式。

Pro系列拥有小样本学习[1]、多指标同步优化、多场景运用、多项目并行等工程化能力,其泛化能力也决定了它可以胜任各个领域的需求,是真正的蛋白质工程通用人工智能。
洪亮团队在生物信息学和人工智能研究领域的国际威信学术期刊JCIM[2]上揭橥的最新研究成果也表明,Pro系列人工智能在极少乃至没有实验数据的情形下,在6款蛋白上成功实现了针对特定蛋白质性子的定向进化,这是环球首次经湿实验验证,人类可以通过建立通用人工智能,在极少实验数据乃至无实验数据下实现不同蛋白质特定性子的定向进化。

“以往我们做蛋白质工程,只能针对单个场景下的单个指标逐步去改,一个工业酶改造三五年很正常,但在过去一年多韶光里,我们团队仅用20多位设计和实验职员,便完成了20余款蛋白质设计项目的交付,涉及热稳定性、酸碱稳定性、活性、亲和力、特异性等诸多蛋白质理化性子,覆盖生物医药、营养保健、酶制剂等多个领域,这在以往是绝对不可能实现的。
”洪亮自满地谈到。

2 AI for Engineering先行者

“科研不应该只追求揭橥高水平的文章或获奖,更要将科研成果由学术的殿堂引入莅临盆运用中,实现从实验室抵家当的超过,将AI落到工业运用实处。

抱着这样的心态,洪亮团队将Pro系列人工智能运用在蛋白质工程的各个领域,从创新药研发到体外检测酶质料开拓,从工业酶改造到合成生物学工具酶设计,Pro系列不仅经受住了磨练,更为家当界供应了多个经济高效的创新性办理方案。

家当化案例一

血液淀粉酶检测关键质料

打破入口垄断

血液淀粉酶增高常见于急性胰腺炎、唾液腺疾病、胆管疾病、糖尿病酮酸中毒及分裂异位受孕等疾病,血液淀粉酶检测试剂盒的关键质料EPS-G7长期被罗氏诊断环球独家垄断。
瀚海新酶作为一家专注特种酶的生物科技企业,成功改造过多种工业用酶和诊断用酶,但对付这样一个须要多指标同步优化的酶,如何在短韶光内完成对该酶的改造,知足市场的需求,瀚海新酶研发项目卖力人阎振鑫博士想到了一贯有技能互换的洪亮。

洪亮团队剖析了合成路径后创造,该酶须要同时提升总转糖活力、产物特异性,并降落水解活力,而且产物要烘干称重丈量,无法建立高通量筛选体系,传统方法进行改造难度相称大。
但在Pro系列人工智能赞助的酶定向进化策略的加持下,双方研发团队配合尽力,仅用时4个月,便办理了这一难题:总转糖活力提升了7倍,产物特异性由60%提升至98%,水解活力降落了33%。
随后,瀚海新酶进行了中试生产工艺的优化,使目标产物产量由3g/L提升至150g/L,本钱降至入口产品售价的十分之一。

目前,瀚海新酶的这一产品落地在宜昌将在本年度实现1000公斤产能,办理该产品领域的卡脖子问题。

EPS-G7在宜昌落地放大生产

瀚海新酶体外诊断奇迹部总经理孟旭辉表示:“作为一家特种酶公司,Pro系列人工智能的工程化能力和泛化能力令人吃惊,它帮助我们打破了入口垄断,提升了我国在胰腺炎诊断的自主可控能力和国际竞争力,也为很多类似问题的办理指明了方向,期待未来与洪亮团队有更多、更深入的互助。

家当化案例二

极度耐碱的纳米抗体作为亲和填料

长春金赛药业有限任务公司(下称“金赛药业”)是海内成长激素龙头企业,为理解决其核心产品金赛增®的纯化问题,金赛药业在4000万的羊驼单域抗体库中,筛选到了一个亲和力不错的单域抗体,作为亲和层析填料分子。
但是,该单域抗体耐碱性很差,在强碱(0.1M NaOH,PH 13-14)洗脱过程中蛋白质构造会被毁坏,导致其利用寿命短,花费量大。

提升蛋白质的耐碱性历来是一项极具寻衅性的事情,生物大分子层析介质的“皇冠之珠”——Protein A,天然就具有一定耐碱性,纵然如此,某国际企业将其优化到生物制药CMC中工业可用也耗费多年的韶光。

针对金赛药业的需求,4个月韶光后,洪亮团队Pro系列人工智能设计后的单域抗体,在蛋白小试环节被证明,经0.5M NaOH处理24小时往后,断裂比例就由改造前(野生型)的60%减少至15%,这意味着耐碱性有了显著提高;和成长激素的结合能力是改造前的2倍;热稳定性比较改造前提高8摄氏度。

考虑到该产品广阔的运用处景,洪亮团队与金赛药业一起对其进行了中试与家当化开拓,在不到一年的韶光里,从一个普通耐碱的蛋白变为极度耐碱蛋白,从没有任何实验数据到成为环球首个实现5000升工业化生产的大模型设计蛋白产品,成为家当界的奇迹。

金赛药业总经理金磊表示:“洪亮团队这一打破性进展,不仅标志着低成本地利用亲和层析进行纯化成为可能,也意味着人工智能在生物制药领域迈出了从Science研究到Engineering运用的主要一步,对付提升药物生产效率、降落生产本钱具有主要意义。

金赛药业5000升工业化生产

为了进一步加强产学研协同与转化,洪亮团队及其Pro系列人工智能开始与家当界频繁碰撞,办理了一个又一个行业难题,交付了一个又一个家当项目,成为AI for Engineering的先行者,一年内交付20余款蛋白项目,在研项目50余款。

路漫漫其修远兮,期待洪亮团队同其他AI for Science、AI for Engineering探索者们一起,持续推动人工智能技能成为人类认识天下和改造天下的变革性力量。

这些研究事情得到了上海市科委打算生物学项目,上海交通大学科技创新基金(21X010200843) ,以及上海人工智能实验室的支持。

[1]https://www.nature.com/articles/s41467-024-49798-6?utm_source=rct_congratemailt&utm_medium=email&utm_campaign=oa_20240702&utm_content=10.1038/s41467-024-49798-6

[2]https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036

[3]https://proteingym.org/benchmarks

[4]https://arxiv.org/abs/2307.12682