CRISPR基因編輯與深度學(xué)習(xí)分別是當(dāng)前生命科學(xué)和信息科學(xué)領(lǐng)域的熱點(diǎn)研究技術(shù)。實(shí)現(xiàn)CRISPR基因敲除的重要挑戰(zhàn)之一是設(shè)計(jì)具有高打靶活性的sgRNA,同時(shí)降低其全基因組范圍內(nèi)的脫靶,從而完成高效及特異性的基因敲除。近日,同濟(jì)大學(xué)劉琦教授課題組及其合作者首次開(kāi)發(fā)了一種基于人工智能深度學(xué)習(xí)框架的向?qū)NA(sgRNA)設(shè)計(jì)的計(jì)算平臺(tái)DeepCRISPR(http://www.deepcrispr.net/)。該平臺(tái)基于深度學(xué)習(xí)模型進(jìn)行一站式的sgRNA打靶活性預(yù)測(cè)及全基因組范圍類的脫靶譜(off-target profile)預(yù)測(cè),從而幫助用戶挑選最優(yōu)化的sgRNA進(jìn)行基因編輯。相關(guān)成果發(fā)表在國(guó)際著名期刊《Genome Biology》。
DeepCRISPR平臺(tái)基于深度學(xué)習(xí)模型,首次提出CRISPR系統(tǒng)的打靶活性預(yù)測(cè)和脫靶譜預(yù)測(cè)的統(tǒng)一計(jì)算框架(圖一),并且在以下四個(gè)層面整合了若干有效的計(jì)算技術(shù)進(jìn)行sgRNA的優(yōu)化設(shè)計(jì):
(1) DeepCRISPR平臺(tái)整合了來(lái)自多細(xì)胞系的打靶活性數(shù)據(jù)及多個(gè)脫靶檢測(cè)技術(shù)(GUIDE-seq、Digenome-seq、BLESS、HTGTS、IDLV)產(chǎn)生的脫靶數(shù)據(jù)。其整體架構(gòu)基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行模型訓(xùn)練,同時(shí)考慮了sgRNA序列層面和表觀遺傳層面(如染色質(zhì)開(kāi)放程度,甲基化等)的特征描述,利用深度學(xué)習(xí)layer-wise的表征學(xué)習(xí)(Representation Learning)能力自動(dòng)學(xué)習(xí)有效的特征表示,避免人工進(jìn)行sgRNA的特征工程,并且可以達(dá)到細(xì)胞系特異性的sgRNA設(shè)計(jì)。
(2) DeepCRISPR平臺(tái)首次采用多細(xì)胞系genome-wide的非標(biāo)記sgRNA序列(包含表觀遺傳層面信息,共~6.8億樣本)進(jìn)行自編碼式(Auto-encoder)的模型預(yù)訓(xùn)練(Pre-training)。該預(yù)訓(xùn)練模型從海量的無(wú)標(biāo)記樣本中進(jìn)行sgRNA的特征學(xué)習(xí),一定程度上避免了在有限標(biāo)記樣本下的深度學(xué)習(xí)過(guò)擬合問(wèn)題。
(3) DeepCRISPR平臺(tái)首次借鑒了圖像處理領(lǐng)域的樣本擴(kuò)增技術(shù)(Data Augmentation)進(jìn)行標(biāo)記sgRNA樣本的擴(kuò)增(例如改變sgRNA遠(yuǎn)離PAM端的堿基并不改變?cè)搒gRNA的活性,類比于圖像處理中改變圖像中若干像素并不改變?cè)搱D像的標(biāo)簽),從而有效的擴(kuò)展了標(biāo)記訓(xùn)練樣本的數(shù)量。
(4) DeepCRISPR平臺(tái)將Bootstrap重采樣技術(shù)應(yīng)用至深度學(xué)習(xí)的mini-batch過(guò)程中,緩解了脫靶預(yù)測(cè)中的數(shù)據(jù)不平衡性(Data Imbalance),提升了脫靶預(yù)測(cè)的精度。
圖一:DeepCRISPR計(jì)算框架
通過(guò)面向基準(zhǔn)數(shù)據(jù)的系統(tǒng)測(cè)試,DeepCRISPR超越了現(xiàn)有代表性的打靶活性預(yù)測(cè)及全基因組脫靶預(yù)測(cè)工具(如sgRNA designer、CFD score,Nature Biotechnology 2016)。DeepCRISPR底層基于Tensorflow開(kāi)發(fā),目前提供網(wǎng)頁(yè)版(圖二)和Github版本,同時(shí)可對(duì)sgRNA的全基因組層面的脫靶預(yù)測(cè)結(jié)果進(jìn)行可視化展示。
圖二:DeepCRISPR網(wǎng)頁(yè)版本
劉琦教授課題組以AI和機(jī)器學(xué)習(xí)計(jì)算技術(shù)為基礎(chǔ),重點(diǎn)關(guān)注于生物醫(yī)藥大數(shù)據(jù)挖掘領(lǐng)域的交叉問(wèn)題研究。目前主要關(guān)注于基因編輯的小RNA設(shè)計(jì)、藥物信息學(xué)及腫瘤的精準(zhǔn)治療和免疫治療。課題組圍繞CRISPR系統(tǒng)的打靶預(yù)測(cè)和脫靶分析進(jìn)行了系列工作:包括系統(tǒng)研究了CRISPR基因敲除過(guò)程中microhomology和in-frame mutation發(fā)生率之間的關(guān)系及開(kāi)發(fā)了相關(guān)計(jì)算工具CAGE【Molecular Therapy-Nucleic Acids, 2016】;合作開(kāi)發(fā)了包含非編碼區(qū)的sgRNA設(shè)計(jì)工具CRISPR-DO【Bioinformatics, 2016】;系統(tǒng)探討了CRISPR基因編輯系統(tǒng)中的in-silico sgRNA設(shè)計(jì)問(wèn)題【Trends in Biotechnology, 2016】;對(duì)于主流的sgRNA打靶預(yù)測(cè)工具進(jìn)行了基準(zhǔn)評(píng)估【Briefings in Bioinformatics, 2017】等。本工作由同濟(jì)大學(xué)劉琦教授、電信學(xué)院黃徳雙教授、阿斯利康制藥公司及美國(guó)麻省大學(xué)醫(yī)學(xué)院馬涵慧博士等合作完成。第一作者為同濟(jì)大學(xué)博士研究生啜國(guó)暉和馬涵慧博士。本項(xiàng)目得到了國(guó)家科技部重點(diǎn)研發(fā)計(jì)劃精準(zhǔn)醫(yī)學(xué)重大專項(xiàng),慢病專項(xiàng),國(guó)家自然科學(xué)基金和上海市科委的基金項(xiàng)目資助。
論文鏈接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-018-1459-4
版權(quán)與免責(zé)聲明:本網(wǎng)頁(yè)的內(nèi)容由收集互聯(lián)網(wǎng)上公開(kāi)發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com