数学家运用人工智能和新型聚类算法识别新出现的COVID-19变种_曼彻斯特_年夜众
叠加在冠状病毒插图上的 CLASSIX 聚类结果的风格化图像。资料来源:曼彻斯特大学、疾病预防掌握中央/MSMI 的 Alissa Eckert;MAMS 的 Dan Higgins
本周揭橥在《美国国家科学院院刊》(PNAS)上的这项研究可以支持传统的病毒进化追踪方法,如系统发育剖析,目前这种方法须要大量的手工致顿。
曼彻斯特大学研究员、论文第一作者和通讯作者罗伯托-卡万齐(Roberto Cahuantzi)说:\"大众自从COVID-19涌现以来,我们已经看到了多波新的变种、传播性增强、免疫反应躲避和疾病严重性增加。科学家们现在正加紧努力,以便在α、δ和Ω等这些令人担忧的新变种涌现的最初阶段就将其定位。如果我们能找到一种快速有效的方法,就能更积极地采纳应对方法,比如开拓有针对性的疫苗,乃至有可能在变异体形成之前就将其消灭。\公众
拟议的 COVID-19 变异识别方法步骤示意图。资料来源:曼彻斯特大学
与许多其他RNA病毒一样,COVID-19 的变异率很高,而且两代之间的间隔韶光很短,这意味着它的进化速率极快。这意味着识别未来可能涌现问题的新毒株须要付出巨大的努力。
目前,GISAID 数据库(环球共享所有流感数据倡议)供应了近 1600 万个序列,该数据库供应了流感病毒的基因组数据。
从这些数据中绘制出所有 COVID-19 基因组的进化和历史,目前须要耗费大量的打算机和人力韶光。
所述方法实现了此类任务的自动化。研究职员只用了一到两天韶光,就用一台标准的当代条记本电脑处理了 570 万个高覆盖率序列;这是现有方法无法做到的,由于减少了资源需求,更多研究职员节制了识别干系病原体菌株的能力。
曼彻斯特大学数学科学教授托马斯-豪斯(Thomas House)说:\"大众大盛行期间产生了前所未有的大量基因数据,这哀求我们改进方法,对其进行彻底剖析。数据仍在快速增长,但如果不显示出整理这些数据的益处,这些数据就有可能被移除或删除。\"大众
\公众我们知道,人类专家的韶光是有限的,因此我们的方法不应该完备取代人类的事情,而该当与他们并肩事情,以便更快地完成事情,并将我们的专家解放出来,从事其他主要的开拓事情\"大众。
拟议方法的事情事理是通过计数将 COVID-19病毒的基因序列分解成以数字表示的较小\"大众词\"大众(称为 3-mers)。然后,它利用机器学习技能,根据单词模式将相似的序列分组。
曼彻斯特大学运用数学教授斯特凡-居特尔(Stefan Güttel)说:\公众与传统方法比较,我们开拓的聚类算法CLASSIX对打算的哀求要低得多,而且是完备可阐明的,也便是说,它能对打算出的聚类供应笔墨和视觉上的阐明\公众。
Roberto Cahuantzi 补充说:\"大众我们的剖析是一个观点验证,证明了机器学习方法作为一种预警工具的潜在用场,可用于早期创造新涌现的紧张变种,而无需依赖天生系统发育。虽然系统发生学仍旧是理解病毒先人的'黄金标准',但这些机器学习方法能够以较低的打算本钱容纳比当前系统发生学方法多几个数量级的序列\"大众。
编译自:ScitechDaily
本文系作者个人观点,不代表本站立场,转载请注明出处!