日前,來自同濟(jì)大學(xué)生命科學(xué)與技術(shù)學(xué)院生物信息系劉琦教授課題組在Nucleic Acids Research期刊發(fā)表題為“Benchmarking and integrating genome-wide CRISPR off-target detection and prediction”的長(zhǎng)文[3]。該論文全面系統(tǒng)地評(píng)估了現(xiàn)有CRISPR/Cas9基因編輯系統(tǒng)中全基因組脫靶位點(diǎn)的檢測(cè)技術(shù)以及預(yù)測(cè)算法,并使用人工智能集成學(xué)習(xí)模型系統(tǒng)整合現(xiàn)有脫靶預(yù)測(cè)工具,開發(fā)了用于CRISPR基因編輯系統(tǒng)的集成脫靶預(yù)測(cè)平臺(tái)iGWOS(integrated Genome-Wide Off-target cleavage Search platform),實(shí)現(xiàn)了更為準(zhǔn)確的CRISPR全基因組范圍類脫靶分布預(yù)測(cè),為CRISPR基因編輯系統(tǒng)的優(yōu)化設(shè)計(jì)和脫靶研究提供了進(jìn)一步的計(jì)算指導(dǎo)。
CRISPR/Cas9系統(tǒng)在基因編輯和基因治療領(lǐng)域具有廣泛的應(yīng)用。而CRISPR系統(tǒng)可能存在的潛在脫靶效應(yīng)是制約其臨床應(yīng)用的瓶頸之一[1]。針對(duì)于這一問題,諸多檢測(cè)CRISPR全基因組脫靶分布的實(shí)驗(yàn)技術(shù)(如GUIDE-seq, Digenome-seq, CIRCLE-seq等)和預(yù)測(cè)脫靶分布的算法工具應(yīng)運(yùn)而生。然而,這些檢測(cè)技術(shù)和預(yù)測(cè)工具尚未經(jīng)過系統(tǒng)全面的基準(zhǔn)評(píng)估,同時(shí)設(shè)計(jì)客觀而全面的基準(zhǔn)測(cè)試以及對(duì)于現(xiàn)有脫靶預(yù)測(cè)工具的有效整合,將有助于深刻理解CRISPR的脫靶機(jī)制,以及進(jìn)一步提升CRISPR全基因組范圍內(nèi)脫靶預(yù)測(cè)的精度。
為此,本論文對(duì)現(xiàn)有的CRISPR全基因組脫靶切割位點(diǎn)(OTS)檢測(cè)技術(shù)以及OTS預(yù)測(cè)工具進(jìn)行了全面的基準(zhǔn)研究和整合分析。CRISPR全基因組OTS檢測(cè)技術(shù)的基準(zhǔn)研究將為后續(xù)全基因組OTS預(yù)測(cè)工具的基準(zhǔn)評(píng)估提供客觀的基準(zhǔn)數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)。同時(shí),作者開發(fā)了一站式的CRISPR全基因組范圍內(nèi)脫靶位點(diǎn)預(yù)測(cè)和搜索的計(jì)算平臺(tái)iGWOS,該平臺(tái)基于AdaBoost集成學(xué)習(xí)模型將現(xiàn)有OTS預(yù)測(cè)算法進(jìn)行整合,實(shí)現(xiàn)目前最優(yōu)的脫靶分布預(yù)測(cè)(圖1)。需要特別指出的是,該基準(zhǔn)研究表明基于分子動(dòng)力學(xué)模擬和能量?jī)?yōu)化的CRISPR脫靶預(yù)測(cè)算法普遍具有更高的預(yù)測(cè)精度,提示進(jìn)一步深入理解CRISPR系統(tǒng)脫靶的潛在分子動(dòng)力學(xué)機(jī)制,將有助于設(shè)計(jì)更好的脫靶預(yù)測(cè)工具。
iGWOS平臺(tái)基于Python語言開發(fā),使用Docker封裝,方便用戶使用該平臺(tái)預(yù)測(cè)和分析給定gRNA的潛在脫靶切割位點(diǎn)。該平臺(tái)支持人類多個(gè)細(xì)胞中PAM序列為NGG且錯(cuò)配數(shù)達(dá)到6個(gè)的CRISPR/Cas9全基因組脫靶分布預(yù)測(cè),以及全基因組范圍內(nèi)高危脫靶位點(diǎn)的circos圖可視化展示。
劉琦教授課題組長(zhǎng)期從事基于人工智能和組學(xué)數(shù)據(jù)分析的基因編輯、腫瘤精準(zhǔn)治療、以及藥物發(fā)現(xiàn)方面的研究工作。2018年,劉琦教授課題組基于人工智能的深度學(xué)習(xí)(Deep Learning)模型,在Genome Biology發(fā)表了針對(duì)CRISPR基因編輯系統(tǒng)的sgRNA優(yōu)化設(shè)計(jì)工具DeepCRISPR [2]。本次工作是劉琦教授課題組繼2018年DeepCRISPR工作之后在CRISPR基因編輯脫靶預(yù)測(cè)領(lǐng)域的進(jìn)一步探索。該論文第一作者是劉琦教授課題組的博士生閆紀(jì)芳,通訊作者是劉琦教授。該研究成果得到國(guó)家重大研究與發(fā)展計(jì)劃,國(guó)家自然科學(xué)基金項(xiàng)目,上海市自然科學(xué)基金項(xiàng)目,上海市人工智能標(biāo)準(zhǔn)專項(xiàng)項(xiàng)目等基金的資助。
1.Chuai, G., et al., In-silico meets in-vivo: towards computational CRISPR-based sgRNA design. Trends in Biotechnology, 2017. 35(1): p. 12-21.
2.Chuai, G., et al., DeepCRISPR: optimized CRISPR guide RNA design by deep learning. Genome Biol, 2018. 19(1): p. 80.
3.Jifang Y., et al., Benchmarking and integrating genome-wide CRISPR off-target detection and prediction.NAR, 2020. gkaa930, https://doi.org/10.1093/nar/gkaa930