同濟大學(xué)生物信息系劉琦教授課題組近日成功開發(fā)了基于人工智能主題模型(Topic Modeling)的單細(xì)胞CRISPR篩選數(shù)據(jù)的分析方法。相關(guān)研究論文《Model-based Understanding of Single-cell CRISPR screening》于5月20日在《自然·通訊》(Nature Communication)雜志在線發(fā)表【1】。
圖1:基于主題模型的單細(xì)胞CRISPR篩選數(shù)據(jù)的分析流程圖
CRISPR篩選(CRISPR screening)是揭示基因功能以及進(jìn)行基因篩選的一項有效的高通量實驗技術(shù)。近來,面向單細(xì)胞的CRISPR篩選技術(shù)(被稱為Perturb-Seq, CRISP-seq和CROP-seq等)通過結(jié)合傳統(tǒng)CRISPR篩選技術(shù)和單細(xì)胞測序技術(shù)的各自優(yōu)點,使得研究者能夠在單細(xì)胞水平上實施大規(guī)模的基因擾動,從而在更加精細(xì)準(zhǔn)確的尺度下對基因擾動進(jìn)行檢測和評估,適合針對于高異質(zhì)性的細(xì)胞類型(如腫瘤細(xì)胞,免疫細(xì)胞等)進(jìn)行大規(guī)模的基因功能研究和靶點篩選。伴隨這一技術(shù)的產(chǎn)生, 開發(fā)面向該數(shù)據(jù)類型的數(shù)據(jù)建模方法對于闡明復(fù)雜疾病的發(fā)生發(fā)展機制、有效進(jìn)行藥物靶點篩選等具有重要的研究意義。然而,該技術(shù)數(shù)據(jù)分析具有若干挑戰(zhàn):1)單細(xì)胞測序技術(shù)和CRISPR篩選技術(shù)各自存在巨大的噪音,二者結(jié)合所產(chǎn)生的單細(xì)胞CRISPR篩選技術(shù)使得數(shù)據(jù)本身的噪音加劇,迫切需要開發(fā)對噪音魯棒的數(shù)據(jù)分析方法;2) 面向單細(xì)胞CRSIPR篩選,如何設(shè)計有效的算法定量衡量sgRNA的敲除(knockout)/敲降(knockdown)的效率以及評估其潛在的脫靶(Off-target)效應(yīng)?3)在單細(xì)胞層面,如何定量分析和評估擾動基因?qū)?xì)胞表型的影響以及兩兩擾動之間的相互關(guān)系?4)如何將擾動基因?qū)?xì)胞的影響進(jìn)行直觀有效的可視化展示?
針對上述單細(xì)胞CRISPR篩選數(shù)據(jù)分析中存在的問題,劉琦教授課題組提出了一種基于人工智能主題模型(Topic Modeling)的計算框架MUSIC(Model-based Understanding of SIngle cell CRISPR screening), 用以有效地對單細(xì)胞CRISPR篩選數(shù)據(jù)進(jìn)行分析。MUSIC將單細(xì)胞CRISPR篩選數(shù)據(jù)分析類比于自然語言處理中的大規(guī)模文本處理,通過主題模型對數(shù)據(jù)本身所蘊含的隱變量(Latent variable)分布情況進(jìn)行推斷(Inference),用以進(jìn)一步揭示該類數(shù)據(jù)本身所體現(xiàn)出來的生物學(xué)意義。其數(shù)據(jù)建模過程包含三個步驟:1)數(shù)據(jù)預(yù)處理。除考慮單細(xì)胞測序過程中普遍存在的噪音以及相應(yīng)的預(yù)處理方法之外,MUSIC根據(jù)單細(xì)胞CRISPR篩選數(shù)據(jù)的特性設(shè)計了若干有效的數(shù)據(jù)預(yù)處理步驟,例如考慮sgRNA的敲除/敲入效率,最小干擾細(xì)胞數(shù)量等來進(jìn)行噪音細(xì)胞樣本的有效過濾;2)模型建立。運用主題模型對單細(xì)胞CRISPR篩選數(shù)據(jù)進(jìn)行建模,獲得擾動基因?qū)?xì)胞表型影響的主題分布,該主題分布可以用于對基因擾動所產(chǎn)生的細(xì)胞表型影響進(jìn)行定量刻畫; 3)基于主題模型定量和精準(zhǔn)的刻畫基因擾動后對細(xì)胞表型所產(chǎn)生的影響,并基于該影響對擾動基因進(jìn)行功能排序,方便大規(guī)模的基因靶點篩選及基因功能注釋等。MUSIC計算平臺基于R語言開發(fā),提供Docker版本方便用戶進(jìn)行快速有效的安裝、部署以及使用,并在大規(guī)模的實驗數(shù)據(jù)集上進(jìn)行了系統(tǒng)的比較和測試。值得一提的是,近日(4月8日)發(fā)表在《自然·方法》(Nature Methods)上的一項工作開發(fā)cisTopic方法進(jìn)行單細(xì)胞ATAC-seq數(shù)據(jù)分析,其核心算法同樣基于主題模型,進(jìn)一步體現(xiàn)了利用人工智能的隱變量模型對單細(xì)胞測序數(shù)據(jù)進(jìn)行分析的優(yōu)勢【2】。
劉琦教授課題組近年來一直致力基于人工智能機器學(xué)習(xí)方法進(jìn)行CRISPR基因編輯系統(tǒng)的優(yōu)化設(shè)計研究。2018年,劉琦教授課題組基于深度學(xué)習(xí)方法,開發(fā)了CRISPR基因編輯系統(tǒng)的優(yōu)化設(shè)計軟件平臺DeepCRISPR。相應(yīng)的成果發(fā)表在國際著名期刊《基因組生物學(xué)》(Genome Biology)。該工作獲國際權(quán)威論文評價體系F1000推薦為領(lǐng)域內(nèi)Technique Advance【3】。本次工作是劉琦教授課題組繼2018年DeepCRISPR工作之后在基因編輯系統(tǒng)數(shù)據(jù)分析領(lǐng)域的又一有益探索。該論文第一作者是劉琦教授課題組的博士生段斌,第一通訊作者是劉琦教授,上海交通大學(xué)第九人民醫(yī)院孫樹洋教授團(tuán)隊和同濟大學(xué)醫(yī)學(xué)院王平教授團(tuán)隊對本工作中單細(xì)胞CRISPR篩選實驗層面的理解和數(shù)據(jù)解讀提供了重要的支持。該研究成果得到國家科技部精準(zhǔn)醫(yī)學(xué)重點研發(fā)計劃,慢病項目重點研發(fā)計劃及國家自然科學(xué)基金面上項目經(jīng)費的資助。
【1】Bin Duan et al, Qi Liu#, Model based Understanding of Single-cell CRISPR Screening, Nature Communications, Advance Access, 2019.
【2】Carmen Bravo González-Blas et al, cisTopic: cis-regulatory topic modeling on single-cell ATAC-seq data, , Nature Methods, Advance Access, 2019.
【3】 Guohui Chuai et al, Qi Liu#, DeepCRISPR: optimized CRISPR guide RNA design by deep learning, Genome Biology, Advance Access, 2018.
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com