單細胞測序技術有助于刻畫細胞層面的異質性,為進一步探索細胞功能和內在作用機制等奠定了基礎。在單細胞轉錄組測序數(shù)據(jù)的分析過程中,細胞類型鑒定是必須且重要的一步。常規(guī)的細胞類型鑒定依賴于細胞類型標記基因,這種方法費時費力且不穩(wěn)定,可重復性差,易導致不同實驗室的鑒定結果不可比較。隨著單細胞測序技術的迅猛發(fā)展,眾多科學家聯(lián)名在2017年提出人類細胞圖譜計劃(The Human Cell Atlas[1]),于2020年提出了人類癌癥圖譜計劃(The Human Tumor Atlas[2]),海量的已標注細胞類型的單細胞轉錄組測序數(shù)據(jù)越來越多,利用這些數(shù)據(jù)作為參考數(shù)據(jù)集(reference)來鑒定新測序的細胞(single cell assignment against the reference),正成為一種細胞注釋的新思路。
日前,同濟大學生命科學與技術學院生物信息系劉琦教授課題組于10月30日在Science子刊Science Advances線上發(fā)表了題為“Learning for single cell assignment”的論文[3],發(fā)布了基于人工智能度量學習的單細胞類型鑒定新方法scLearn,以及簡單易用的R包平臺和包含人類、小鼠在內的多個組織器官的預訓練的完整reference數(shù)據(jù)集,為有效利用海量的單細胞測序數(shù)據(jù)進行細胞類型鑒定提供了可借鑒的工具和資源。作者同時首次提出了一種基于最大化依賴的多標簽維度約簡策略(MDDM,multi-label dimension reduction via dependence maximization),用以針對多標簽細胞類型鑒定進行度量學習,可適用于附加時間維度信息的單細胞類型鑒定。
利用參考數(shù)據(jù)集來鑒定新的細胞類型的方法具有兩個方面的需求:(1)如果query細胞的細胞類型存在于reference中,那么需要以盡可能高的準確率對這些query細胞匹配正確的細胞類型(single cell assignment in the positive control scenario);(2)如果query細胞的細胞類型在reference中缺失,也需要正確的以“unassigned”的標識識別出來(single cell assignment in the negative control scenario)。但是現(xiàn)有的方法普遍存在兩個不足,一是對于以上兩個方面的要求往往不能同時兼顧;二是魯棒性不佳,無法適用于多個來源的數(shù)據(jù)集。究其原因,作者認為現(xiàn)有的方法在框架設計上存在兩方面的共性問題,一是衡量相似性的測度是人為選定的或者固定的,二是判定“unassigned”的閾值也是人為選定的。單細胞轉錄組測序數(shù)據(jù)具有高異質性和高噪音等特點,需要避免人為設定相應的測度和參數(shù),而通過數(shù)據(jù)本身進行度量學習,將有助于解決該類共性問題。
基于以上考量,作者提出了一種基于人工智能度量學習的細胞類型鑒定框架scLearn,該框架將可以適用于單標簽以及多標簽的細胞類型鑒定。其核心思想是學習一個優(yōu)化的轉化矩陣,將reference數(shù)據(jù)集映射到特定的特征子空間中,在這個子空間中,相同類型細胞之間距離更近,不同類型細胞之間距離更遠,使得轉化后的reference數(shù)據(jù)更有利于進行細胞間相似性的準確衡量(圖1)。
該工作通過在多達30套的單細胞benchmark數(shù)據(jù)集上的基準測試,證明了基于度量學習的scLearn具有普適而優(yōu)良的細胞類型鑒定性能。scLearn計算平臺基于R語言開發(fā),同時提供了多達30套預訓練的高質量的單細胞轉錄組測序reference數(shù)據(jù)集,其中包含了小鼠和人類的腦細胞,胰腺細胞,免疫細胞等等各個組織以及小鼠20個器官的數(shù)據(jù),方便用戶后續(xù)進行相關領域的研究。需要特別指出的是,該工作所提出的針對于附加時序信息的單細胞測序數(shù)據(jù)的細胞類型鑒定的新策略具有廣闊的應用前景。以胚胎發(fā)育為例,除了需要鑒定細胞類型之外,鑒定其所處的發(fā)育階段也是至關重要的問題。一個細胞的類型往往與其所處的發(fā)育階段息息相關,scLearn可以充分利用這兩類標簽(發(fā)育階段和細胞類型)之間的關系,同時進行兩類標簽的鑒定,提高了多維度下細胞注釋的性能。
圖1. scLearn的算法框架
劉琦教授課題組長期從事基于人工智能和組學數(shù)據(jù)分析的腫瘤精準治療、藥物發(fā)現(xiàn)以及基因編輯方面的研究工作。近年來關注的研究方向之一是基于人工智能面向單細胞測序數(shù)據(jù)開發(fā)組學分析平臺及其在腫瘤免疫和細胞治療領域的應用。2019年,劉琦教授課題組基于人工智能主題學習(Topic model)模型,在Nature Communications發(fā)表了針對于單細胞CRISPR篩選數(shù)據(jù)進行分析的計算平臺MUSIC (Model-based Understanding of single cell CRISPR screening)[4]。本次工作是劉琦教授課題組繼2019年MUSIC工作之后在單細胞測序數(shù)據(jù)分析領域的又一有益探索。該論文第一作者是劉琦教授課題組的博士生段斌,通訊作者是劉琦教授。該研究成果得到國家科技部精準醫(yī)學重點研發(fā)計劃,國家科技部慢病項目重點研發(fā)計劃、國家自然科學基金面上項目以及上海市人工智能技術標準專項項目的資助。
論文鏈接:
https://doi.org/10.1126/sciadv.abd0855
1.Regev, A., et al., The Human Cell Atlas. Elife, 2017. 6.
2.Rozenblatt-Rosen, O., et al., The Human Tumor Atlas Network: Charting Tumor Transitions across Space and Time at Single-Cell Resolution. Cell, 2020. 181(2): p. 236-249.
3.Duan, B., et al., Learning for single cell assignment. Science Advance, 2020.
4.Duan, B., et al., Model-based understanding of single-cell CRISPR screening. Nat Commun, 2019. 10(1): p. 2233.