數(shù)據(jù)非依賴性采集(DIA)是近幾年來興起的一種新的質(zhì)譜數(shù)據(jù)采集方式。不同于傳統(tǒng)的數(shù)據(jù)依賴性采集(DDA)策略,DIA將整個掃描范圍劃分為若干個可變窗口,將每個窗口內(nèi)的所有母離子進行碎裂,采集所有母離子的碎片離子,從而完整地獲得樣本中所有母離子的全部碎片信息?;贒IA的定量蛋白質(zhì)組具有通量高、穩(wěn)定、準確性好等優(yōu)點,對于大規(guī)模蛋白質(zhì)組的定量分析具有顯著優(yōu)勢。然而,DIA數(shù)據(jù)異常復雜,通常需要對同一樣本預先利用DDA實驗構(gòu)建數(shù)字譜圖庫,使得DIA的數(shù)據(jù)挖掘受限于DDA實驗。
近日,我系喬亮研究員團隊與合作者利用深度學習技術(shù)從肽段或蛋白質(zhì)序列構(gòu)建預測譜圖庫,實現(xiàn)了DIA蛋白質(zhì)組數(shù)據(jù)的直接分析。論文“In silico spectral libraries by deep learning facilitate data-independent acquisition proteomics”在線發(fā)表于《Nature Communications》2020, 11, 146。論文的共同第一作者是復旦大學化學系17級直博生楊奕和復旦大學生物醫(yī)學研究院劉曉慧老師,通訊作者是復旦大學化學系喬亮研究員。
研究人員設計了基于卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡的深度神經(jīng)網(wǎng)絡模型來預測肽段的二級質(zhì)譜圖(MS/MS)和歸一化保留時間(iRT),由DDA鑒定得到的肽段列表生成DIA分析所需的譜圖庫,并在HeLa細胞數(shù)據(jù)集上將DeepDIA與另外一種現(xiàn)有的基于深度學習的譜圖預測工具Prosit(Nature Methods 2019, 16, 509–518)進行了比較測試。結(jié)果表明,與使用通用模型來生成譜圖庫相比,使用DeepDIA構(gòu)建專用于特定儀器的模型預測生成的譜圖庫質(zhì)量更好,DIA數(shù)據(jù)分析檢測到的肽段和蛋白數(shù)量更多,重復性更好,效果接近DDA構(gòu)建的譜圖庫:
研究人員還設計了預測肽段在質(zhì)譜中的可檢測性的模型,實現(xiàn)了由蛋白序列構(gòu)建預測譜圖庫。從SwissProt物種數(shù)據(jù)出發(fā),預測蛋白的理論酶切肽段的可檢測性,篩選可檢測性分數(shù)達到一定閾值的肽段來構(gòu)建譜圖庫。在HeLa細胞和小鼠組織樣品數(shù)據(jù)集上的測試結(jié)果表明,與考慮全部理論肽段相比,可檢測性篩選能降低DIA分析的假陽性率并提高蛋白鑒定量。最終實現(xiàn)了完全不需要DDA實驗,從SwissProt蛋白序列數(shù)據(jù)庫出發(fā)的DIA數(shù)據(jù)直接解析。研究人員還將DeepDIA用于未去高峰度蛋白的血清樣品的DIA數(shù)據(jù)直接分析。與傳統(tǒng)方法相比,DeepDIA檢測到蛋白的數(shù)量為DDA建庫的兩倍以上。
本研究中訓練深度神經(jīng)網(wǎng)絡模型所需數(shù)據(jù)量僅為HeLa細胞樣品分餾DDA的鑒定結(jié)果,通常可以在一天的時間內(nèi)完成訓練數(shù)據(jù)的采集。模型訓練只需要普通的臺式工作站,可以在數(shù)小時內(nèi)完成。研究人員期望,未來蛋白質(zhì)組學實驗室可以利用深度學習技術(shù)構(gòu)建專用于每一臺儀器的模型,將其用于該儀器DIA數(shù)據(jù)的分析,而無需另外進行DDA實驗。同時,深度學習也可以在質(zhì)譜組學大數(shù)據(jù)分析的其他方面發(fā)揮作用。
DeepDIA開源代碼:https://github.com/lmsac/DeepDIA
全文鏈接:https://www.nature.com/articles/s41467-019-13866-z
版權(quán)與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com