10月8日,清华大学生命学院的张强锋课题组在《自然·通讯》(Nature Communications)上揭橥题为“SCALE方法基于隐特色提取进行单细胞ATAC-seq数据剖析”(SCALE method for single-cell ATAC-seq analysis via latent feature extraction)的学术文章。

生命学院张强锋课题组运用深度进修人工智能算法分析单细胞ATAC-seq数据_单细胞_数据 计算机

真核生物的染色质具有繁芜的高等构造,由DNA一圈一圈缠绕在组蛋白上形成串珠式模型并进一步折叠聚拢而成。
基因的转录必须要将相应的染色质打开形成开放区域才能结合其他的转录调控因子。
因此可以说染色质开拓区域是基因组编码生命的窗口。
单细胞ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing)技能在单细胞层次上通过Tn5 DNA转座酶在开放染色质插入测序接头进行标记并测序,从而获取“高分辨”的单细胞精度的染色质开放图谱,并依此揭示细胞异质性的调控机制。

越来越多的研究者们运用单细胞ATAC-seq技能,在肿瘤、免疫、发育领域获取大量的测序数据。
然而,目前没有一个有效的方法可以很好的剖析挖掘海量的单细胞ATAC-seq数据中宝贵的生物信息。
单细胞ATAC-seq数据剖析的难点在于数据本身。
首先,细胞整体的染色质开放位点数有几十万之多,造成所谓的“维度灾害”。
其余,由于生物的缘故原由许多潜在的开放没有旗子暗记,数据非常稀疏,技能限定带来的数据丢失极大程度上加剧了这种征象。
特殊地,在二倍体基因组上一个开放区域一样平常至多只有两个拷贝,使得数据近乎二值化。
这些问题都给单细胞ATAC-seq数据的剖析带来了巨大寻衅。

近日,张强锋课题组揭橥的文章提出了SCALE,利用人工智能深度学习的方法,结合变分自编码器和高斯稠浊模型,提取单细胞ATAC-seq数据的隐层特色,将问题从繁芜稀疏的高维度的染色质开放图谱空间投射到了大略抽象的低维度特色空间。
这种处理不但可以创造和解析细胞特异性的染色质图谱模式,还通过相似细胞信息共享,补充了技能限定导致的缺失落值,从而奥妙地办理了单细胞ATAC-seq数据中高维度、稀疏性、二值化等问题。
SCALE供应了完全的可视化、聚类、数据增强、帮助下贱生物信息的挖掘,为研究者们解码单细胞表不雅观遗传学供应了有力的工具。

清华大学生命学院研究员张强锋为本文通讯作者,CLS项目博士生熊磊为本文第一作者。
本事情得到国家重点研发操持项目、国家自然科学基金、清华大学构造生物学高精尖中央、清华-北大生命科学联合中央的资金支持。

原文链接:

https://www.nature.com/articles/s41467-019-12630-7

笔墨来源:清华大学生命学院