?
?2月18日,北京大學生物醫(yī)學前沿創(chuàng)新中心(BIOPIC)、生命科學學院、北京未來基因診斷高精尖創(chuàng)新中心(ICG)、生命科學聯(lián)合中心(CLS)張澤民實驗室聯(lián)合百奧智匯在期刊《Genome Biology》上發(fā)表了題為 “iMAP: integration of multiple single-cell datasets by adversarial paired transfer networks”的生物信息方法學論文,提出了基于深度自編碼器和生成式對抗神經(jīng)網(wǎng)絡的單細胞數(shù)據(jù)整合的新方法iMAP。
?
利用單細胞RNA測序技術(shù)產(chǎn)生可靠新發(fā)現(xiàn)的重要途徑是整合多來源的數(shù)據(jù)集。然而,不同批次實驗產(chǎn)生的數(shù)據(jù)集之間存在不可避免的技術(shù)差異。消除這些技術(shù)差異且保留不同實驗之間真實存在的生物學差異,是開發(fā)批量效應消除方法的主要挑戰(zhàn)。目前的主流批次效應消除方法都很難在兩者之間做到可靠的平衡。
?
張澤民實驗室博士后王東方等開發(fā)出新方法iMAP,為單細胞數(shù)據(jù)的有效整合提供了新思路。iMAP方法結(jié)合了目前兩種最先進的無監(jiān)督深度網(wǎng)絡結(jié)構(gòu)—深度自編碼器和生成式對抗神經(jīng)網(wǎng)絡(GAN)(圖1)的優(yōu)勢。
GAN的主要作用在于能夠準確地將不同數(shù)據(jù)集、相同細胞類型的細胞的基因表達分布進行混合,然而真實生物數(shù)據(jù)集的細胞組成十分復雜,可能存在不完全重合的細胞類型,相同細胞類型在不同數(shù)據(jù)集中的分布比例也可能存在很大差異。
因此,iMAP首先構(gòu)建了一種新的自編碼器結(jié)構(gòu)來提取細胞的低維表示特征,該特征能夠一定程度上消弭批次效應的影響,同時保留不同數(shù)據(jù)集之間真實存在的生物學差異,進而通過構(gòu)建rwMNN細胞對,形成有效的自訓練數(shù)據(jù)指導后續(xù)GAN網(wǎng)絡進行正確的細胞基因表達分布混合。
與其他方法相比,iMAP既能匹配不同批次數(shù)據(jù)集中相同類型的細胞的基因表達分布,又能識別各個數(shù)據(jù)集上特定的細胞類型。他們在十多個不同規(guī)模、不同測序技術(shù)產(chǎn)生的數(shù)據(jù)集上論證了iMAP方法的有效性與可靠性。與其他基于深度學習的方法相比,iMAP在大規(guī)模數(shù)據(jù)集上具有顯著的速度優(yōu)勢。他們也將iMAP應用于腫瘤浸潤免疫細胞數(shù)據(jù)集的分析,通過整合分別由Smart-seq2和10x Genomics技術(shù)產(chǎn)生的數(shù)據(jù)集發(fā)現(xiàn)了腫瘤微環(huán)境中新的細胞間相互作用。
圖1. iMAP算法的基本框架
?
iMAP提供了免費Python軟件包 (https://github.com/Svvord/iMAP),可供用戶實現(xiàn)單細胞轉(zhuǎn)錄組數(shù)據(jù)整合。隨著單細胞測序技術(shù)的廣泛應用以及大量的大規(guī)模數(shù)據(jù)集的產(chǎn)生,iMAP可能成為整合不同批次實驗產(chǎn)生數(shù)據(jù)的有利工具,并為后續(xù)算法的開發(fā)提供新思路。
?
北京大學BIOPIC/生命科學學院博士后王東方和清華大學博士生侯思宇為該論文的共同第一作者,王東方和BIOPIC/生命科學學院張澤民教授為該論文的通訊作者。該課題得到了國家自然科學基金委、北京未來基因診斷高精尖創(chuàng)新中心、生命科學聯(lián)合中心及北京百奧智匯的資助。
論文鏈接:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-021-02280-8
版權(quán)與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com