图 | 康厚祥(来源:康厚祥)

科学家研发种子筛选AI模型实现高效数字化的抗病品种筛选_抗病性_机械 计算机

在近期一项研究中,他和团队创造利用机器学习可以预测作物的抗病性,并开拓出了上述新方法。

通过全基因组关联剖析得到抗病关联标记,以适当的 P 阈值范围之内筛选标记,此方法可以利用这些标记来快速、准确地筛选抗病资源和品种,既能节省韶光又能节省人力。

基于基因型、以及结合亲缘关系后的已有机器学习方法,比如 lightGBM_K、RFC_K 和 SVC_K 等机器学习方法,能够准确地预测水稻稻瘟病、黑条矮缩病、纹枯病,以及预测小麦对付麦瘟病和条绣病的抗性水平。

研究中,课题组还给出了核心水稻品种对付多种病害的抗病鉴定结果。

对付育种公司来说,结合已经成熟且本钱低廉的全基因组单核苷酸多态性(SNP,single nucleotide polymorphism)标记检测技能,就能准确地判断所有亲本、中间品种、或现有商业品种,对付多种病害的抗病性。

同时,也可以结合育种公司的亲本材料,在本次机器学习方法的根本之上,自行建立一个专属流程,实现高效、数字化的抗病品种筛选,降落抗病品种筛选本钱、以及提高筛选效率。

同时,除了抗病性以外的其它优秀性状,本次方法也能起到赞助筛选的浸染。

(来源:康厚祥)

田间鉴病价格缘何高居不下?

据先容,在全天下范围之内,当前的粮食生产安全依然面临一些重大寻衅。

比如水稻稻瘟病、小麦锈病、赤霉病等重大疾病的盛行,常常导致减产乃至绝收。

因此,选择和栽培抗病品种,对付保障粮食生产安全具有主要意义。

与作物产量、外不雅观品质等性状不同的是,作物的抗病性是一个很难得到准确丈量的性状。

因此,在育种过程中、或生产栽培过程中,如何从成千上万的育种材料中准确地筛选抗病材料,以及如何从浩瀚栽培品种中准确地选择抗病品种,是植保学家和育种家一贯努力实现的目标。

在当前的生产实践中,抗病品种的筛选手段依赖于田间抗病鉴定。

对付一些重大病害比如水稻稻瘟病的田间抗病鉴定,目前的市场价格大概在 1000 公民币/品种/地点,既耗钱又耗时。

举例来说:如果一家育种公司在育种过程中,通过不同组合产生 10000 个中间材料,就须要从 10000 个中间材料中,准确地选择出抗稻瘟病的材料。

如果利用传统的田间抗病鉴定方法,用度每每高达 1000 万公民币,而且至少要花费一个生产时令的韶光才能完成。

研究表明 AI 与工业方面的结合大大促进了干系工业研究和家当的发展,而将 AI 和农业结合,目前还处于起步阶段。

作为一名从事农业生产干系的科研职员,康厚祥创造在农业生产中,常常面临一些很难采纳传统方法办理的问题。

例如,如何从外不雅观相似的成千上万品种资源中,精准挑选产量高、品质好、对病害抵抗力强的品种,以用于造就下一代优秀品种?并能做到将传统方法的价格“打下来”?

基于多年的数据剖析履历,康厚祥意识到或许机器学习能够办理这些问题。

AlphaGo、AlphaFold 等 AI 工具的陆续面世,更加武断了他利用 AI 来办理农业生产问题的想法。

基于此,康厚祥和同事开始利用机器学习,来提高作物抗病品种筛选效率。

他希望可以开拓一种新方法,在大幅降落本钱的情形下,依然能够准确筛选出抗病品种,从而提高抗病育种效率。

(来源:Engineering)

当农业研究者开始自学 Python

而康厚祥真正决定拥抱 AI 则要从 2019 年底提及。
当时,新冠疫情溘然爆发,他被永劫光限定在家里不能出门。

于是,他考试测验改变常规的以湿实验为主的思维模式,开始思考如何利用机器学习方法来做科研。

有了这个想法之后,康厚祥开始学习打算机措辞 Python,他创造 Python 不仅可以灵巧地调动机器学习库,而且具有很多成熟的机器学习框架。

事实上,在新冠疫情之前他和团队,已经环绕实验室积累的数据,打造出一款结合机器学习的方法。

在此根本之上,他希望可以快速、精准地预测作物新品种的抗病性,打消费时费力的田间抗病鉴定传统方法,从而提高抗病育种的效率。

但是,从刚学会一门打算机措辞、到立时利用它来办理科研问题,并非一件易事。

在农业研究者中,此前也鲜少有人利用 Python 来做课题。
有时,程序中一个小小的语法缺点,可能就得耗费半天来办理。

不过,功夫不负有心人。
大约两个月之后,康厚祥学会了在 PyTorch 框架中利用稠密神经网来进行图片识别。

同时,他利用独热编码办法,办理了从种子基因型到种子图片的转化问题,学会了利用神经网络来进行机器学习,也学会了利用机器学习方法来分类数据。

为了处理原始数据和优化剖析流程,康厚祥和团队考试测验了两种方法。

第一种是利用原始的 SNP 数据;第二种是利用全基因组关联剖析法(GWAS,Genome-wide association study),找到与抗病性干系联的 SNP 数据。

借此创造:比较第一种方法,在后续的机器学习过程中,第二种方法不仅耗时更短、而且准确率更高。

于是,通过 GWAS 剖析法得到关联 SNP 数据之后,课题组开展了数据测试,并选取不同的 P 阈值作为数据输入。

结果创造:不管是 P 阈值过大、还是 P 阈值过小,都不利于机器学习建立精准的预测模型。
通过此,他们也找到了几种主要病害的最佳 P 阈值。

而在建立机器学习预测模型期间,在机器学习的抽样上,他们采纳了随机抽样的方法。

其创造,根据群体亲缘关系建立一个别系树后,再从系统树中通过均匀抽样进行学习,能够显著提高模型的预测准确性。

这表明对付机器学习来说,通过均匀投喂数据的方法所建立的模型,比随机挑选数据所建立的模型要更精准。

末了,他们利用所建立的机器学习模型,针对水稻稻瘟病进行预测。

预测结果显示:在这款模型的帮助之下,只需根据基因型就能精准地预测任何新品种的抗病性,准确性超过 90%。

随后,对付水稻纹枯病和黑条矮缩病这两种公认难以鉴定的抗病性水稻病害,课题组也在机器学习模型的帮助之下,得到了较高的准确性。

而当将其用于小麦的麦瘟病和条锈病的预测时,该团队也得到了较高的准确性。
通过逐一的接种鉴定,他们进一步证明了预测结果的真实性。

日前,干系论文以《开拓机器学习方法以准确预测植物抗病性》(Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance)为题发在 Engineering[1]。

中国农业科学院植物保护研究所研究生刘琪、扬州大学/生物育种钟山实验室左示敏教授是共同一作,康厚祥担当通讯作者。

图 | 干系论文(来源:Engineering)

据先容,左示敏承担了大量的抗病鉴定事情。
如前所述,水稻纹枯病和黑条矮缩病是两种极难进行抗病鉴定的水稻病害。

“但是,左示敏任劳任怨,带领团队针对几百个水稻品种,完成了黑条矮缩病多地点、以及纹枯病多致病型的抗病鉴定。
”康厚祥说。

与此同时,本次成果的顺利完成,也让康厚祥真正体会到机会只给准备好的人。

在本次课题之前,他已经积累了多年的数据剖析履历,也常常通过网络***和购买书本等办法自学代码编程。

这让他在 AI For Science 愈发盛行确当下,得以结合自身所长和 AI 趋势,做出契合时代发展背景的新成果。

后续,康厚祥准备与育种公司开展互助,争取将本次技能推向运用市场。

参考资料:

1.Liu, Q., Zuo, S. M., Peng, S., Zhang, H., Peng, Y., Li, W., ... & Kang, H. (2024). Development of Machine Learning Methods for Accurate Prediction of Plant Disease Resistance.Engineering.https://www.sciencedirect.com/science/article/pii/S2095809924002431

运营/排版:何晨龙