2019年10月8日,清華大學(xué)生命學(xué)院的張強(qiáng)鋒課題組在《自然通訊》(Nature Communications)上發(fā)表題為“SCALE方法基于隱特征提取進(jìn)行單細(xì)胞ATAC-seq數(shù)據(jù)分析”(SCALE method for single-cell ATAC-seq analysis via latent feature extraction)的學(xué)術(shù)文章。
真核生物的染色質(zhì)具有復(fù)雜的高級(jí)結(jié)構(gòu),由DNA一圈一圈纏繞在組蛋白上形成串珠式模型并進(jìn)一步折疊聚集而成?;虻霓D(zhuǎn)錄必須要將相應(yīng)的染色質(zhì)打開形成開放區(qū)域才能結(jié)合其他的轉(zhuǎn)錄調(diào)控因子。因此可以說染色質(zhì)開發(fā)區(qū)域是基因組編碼生命的窗口。單細(xì)胞ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing)技術(shù)在單細(xì)胞層次上通過Tn5 DNA轉(zhuǎn)座酶在開放染色質(zhì)插入測(cè)序接頭進(jìn)行標(biāo)記并測(cè)序,從而獲取“高分辨“的單細(xì)胞精度的染色質(zhì)開放圖譜,并依此揭示細(xì)胞異質(zhì)性的調(diào)控機(jī)制。
越來越多的研究者們應(yīng)用單細(xì)胞ATAC-seq技術(shù),在腫瘤、免疫、發(fā)育領(lǐng)域獲取大量的測(cè)序數(shù)據(jù)。然而,目前沒有一個(gè)有效的方法可以很好的分析挖掘海量的單細(xì)胞ATAC-seq數(shù)據(jù)中寶貴的生物信息。單細(xì)胞ATAC-seq數(shù)據(jù)分析的難點(diǎn)在于數(shù)據(jù)本身。第一,細(xì)胞整體的染色質(zhì)開放位點(diǎn)數(shù)有幾十萬之多,造成所謂的“維度災(zāi)難”。另外,由于生物的原因許多潛在的開放沒有信號(hào),數(shù)據(jù)異常稀疏,技術(shù)限制帶來的數(shù)據(jù)丟失極大程度上加劇了這種現(xiàn)象。特別的,在二倍體基因組上一個(gè)開放區(qū)域一般至多只有兩個(gè)拷貝,使得數(shù)據(jù)近乎二值化。這些問題都給單細(xì)胞ATAC-seq數(shù)據(jù)的分析帶來了巨大挑戰(zhàn)。
近日,張強(qiáng)鋒課題組發(fā)表的文章提出了SCALE,利用人工智能深度學(xué)習(xí)的方法,結(jié)合變分自編碼器和高斯混合模型,提取單細(xì)胞ATAC-seq數(shù)據(jù)的隱層特征,將問題從復(fù)雜稀疏的高維度的染色質(zhì)開放圖譜空間投射到了簡(jiǎn)單抽象的低緯度特征空間。這種處理不但可以發(fā)現(xiàn)和解析細(xì)胞特異性的染色質(zhì)圖譜模式,還通過相似細(xì)胞信息共享,填補(bǔ)了技術(shù)限制導(dǎo)致的缺失值,從而巧妙地解決了單細(xì)胞ATAC-seq數(shù)據(jù)中高維度、稀疏性、二值化等問題。SCALE提供了完整的可視化、聚類、數(shù)據(jù)增強(qiáng)、幫助下游生物信息的挖掘,為研究者們解碼單細(xì)胞表觀遺傳學(xué)提供了有力的工具。
圖1. SCALE的模型框架
清華大學(xué)生命學(xué)院研究員張強(qiáng)鋒為本文通訊作者,CLS項(xiàng)目博士生熊磊為本文第一作者。本工作得到了北京大學(xué)高歌教授、清華大學(xué)張奇?zhèn)ソ淌谝约凹又荽髮W(xué)河邊分校和清華大學(xué)姜濤教授的幫助,并獲得國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目、國家自然科學(xué)基金、清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖中心、清華-北大生命科學(xué)聯(lián)合中心的資金支持。
原文鏈接:https://www.nature.com/articles/s41467-019-12630-7
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com