作為細(xì)胞異質(zhì)性研究的重要工具,近年來(lái)單細(xì)胞轉(zhuǎn)錄組測(cè)序技術(shù)蓬勃發(fā)展,并積累了大量研究數(shù)據(jù)。若能有效利用現(xiàn)有的單細(xì)胞數(shù)據(jù)進(jìn)行檢索與推斷,研究者便能更好地進(jìn)行新測(cè)序單細(xì)胞的注釋,以及綜合多數(shù)據(jù)集的研究。然而,精確的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)檢索和注釋需要克服兩個(gè)挑戰(zhàn):一、數(shù)據(jù)集之間的批次效應(yīng)(batch effect)會(huì)顯著影響細(xì)胞檢索的可靠性;二、目前缺少跨物種和平臺(tái)、具有高質(zhì)量注釋的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)庫(kù)。
日前,北京大學(xué)生物醫(yī)學(xué)前沿創(chuàng)新中心(BIOPIC)、北京未來(lái)基因診斷高精尖創(chuàng)新中心(ICG)、北京大學(xué)生命科學(xué)學(xué)院生物信息中心(CBI)、蛋白質(zhì)與植物基因研究國(guó)家重點(diǎn)實(shí)驗(yàn)室的高歌課題組,在期刊Nature Communications上發(fā)表了題為“Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST”的生物信息學(xué)論文,發(fā)布了基于深度學(xué)習(xí)模型的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)檢索和注釋的新方法Cell BLAST,以及具備高質(zhì)量注釋的單細(xì)胞轉(zhuǎn)錄組參考數(shù)據(jù)庫(kù)ACA,為有效利用現(xiàn)有數(shù)據(jù)進(jìn)行細(xì)胞注釋和跨數(shù)據(jù)集研究提供了新的工具和資源。
Cell BLAST使用對(duì)抗自編碼器(Adversarial Autoencoder)進(jìn)行轉(zhuǎn)錄組數(shù)據(jù)降維,利用對(duì)抗學(xué)習(xí)策略來(lái)消除數(shù)據(jù)集間的批次效應(yīng),取得了優(yōu)于當(dāng)前其他同類工具的效果。此外作者基于該模型提出了一個(gè)新的、更為準(zhǔn)確的細(xì)胞相似性度量用于細(xì)胞檢索,在設(shè)計(jì)上考慮了單細(xì)胞轉(zhuǎn)錄組觀測(cè)本身所具有的不確定性。
除了可以用于細(xì)胞類型鑒定,Cell BLAST能靈敏地發(fā)現(xiàn)參考數(shù)據(jù)集中不存在的、未知的細(xì)胞類型(圖一 a-c);此外,作者用一系列造血干細(xì)胞分化的數(shù)據(jù)集驗(yàn)證了Cell BLAST還能用于注釋連續(xù)細(xì)胞狀態(tài)(圖一 d-f)。
最后,通過(guò)收集大量已發(fā)表的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),作者建立了一個(gè)涵蓋2,989,582個(gè)單細(xì)胞、8個(gè)物種、27個(gè)不同的組織器官的數(shù)據(jù)庫(kù),稱為Animal Cell Atlas (ACA)(圖一 g, h)。作者對(duì)ACA中的細(xì)胞注釋進(jìn)行了詳細(xì)的整理,并使用Cell Ontology構(gòu)建了一套結(jié)構(gòu)化的細(xì)胞類型標(biāo)注,用于統(tǒng)一不同數(shù)據(jù)集中的標(biāo)注以及支持細(xì)胞類型的推斷。
圖一 Cell BLAST的應(yīng)用和ACA數(shù)據(jù)庫(kù)
該課題提供了在線檢索平臺(tái)(https://cblast.gao-lab.org),用戶可以直接上傳待注釋的單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù),用ACA中的參考數(shù)據(jù)集進(jìn)行細(xì)胞檢索和自動(dòng)注釋;同時(shí)也提供了Python軟件包Cell BLAST(https://github.com/gao-lab/Cell_BLAST),用戶可以使用軟件包在自定義的參考數(shù)據(jù)集上進(jìn)行模型訓(xùn)練、檢索和定制化分析。
北京大學(xué)生命科學(xué)學(xué)院博士生曹智杰和魏琳為該論文的共同第一作者,高歌研究員為通訊作者,陸燊、楊德昌在網(wǎng)站構(gòu)建方面提供了大力支持。該課題得到了國(guó)家重點(diǎn)研發(fā)計(jì)劃、863計(jì)劃、蛋白質(zhì)與植物基因研究國(guó)家重點(diǎn)實(shí)驗(yàn)室和北京未來(lái)基因診斷高精尖創(chuàng)新中心的資助。
參考資料:
Cao, Z-J. et al. Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST. Nat Commun 11, 3458 (2020).
https://doi.org/10.1038/s41467-020-17281-7
版權(quán)與免責(zé)聲明:本網(wǎng)頁(yè)的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com