近日,我院蛋白質(zhì)組學和代謝組學研究室程驚秋教授、楊浩副研究員團隊和耶魯大學醫(yī)學院劉延盛教授團隊在國際著名期刊《Nucleic Acids Research》(IF: 11.147) 在線發(fā)表了題為“NAguideR: performing and prioritizing missing value imputations for consistent bottom-up proteomic analyses”的研究論文。該研究開發(fā)了一款針對蛋白質(zhì)組學數(shù)據(jù)缺失值填充(missing value imputation)的系統(tǒng)性評價工具。
在基于液相色譜-串聯(lián)質(zhì)譜技術(簡稱LC-MSMS)的蛋白質(zhì)組學研究中,尤其是在研究大隊列的臨床樣本中,重現(xiàn)性(reproducibility)是一個核心問題。這里的重現(xiàn)性通常包括蛋白質(zhì)定性的重現(xiàn)性和定量的重現(xiàn)性,即要回答“在多個樣本中,蛋白質(zhì)能不能穩(wěn)定被鑒定到,以及鑒定到的蛋白質(zhì)能不能被穩(wěn)定地定量”這個問題。
隨著質(zhì)譜儀以及相關數(shù)據(jù)采集方式的發(fā)展,利用數(shù)據(jù)非依賴型(Data Independent Acquisition,簡稱DIA)采集模式獲得原始數(shù)據(jù)的技術得到了廣泛應用。相較于傳統(tǒng)的數(shù)據(jù)依賴型(Data Dependent Acquisition,簡稱DDA)采集模式,在DIA模式下,質(zhì)譜儀基本不會對數(shù)據(jù)進行偏好性選擇,因此其重現(xiàn)性會有明顯的的提升。但是隨著DIA技術的逐步應用,研究團隊注意到即使在DIA模式下,大量研究的數(shù)據(jù)重現(xiàn)性并不能達到令人滿意的效果。尤其是在研究蛋白質(zhì)翻譯后修飾(Post Translational Modification)的數(shù)據(jù)時,如本研究中采集的蛋白質(zhì)磷酸化數(shù)據(jù)(Phosphoproteomic dataset),其中有超過75%的磷酸化肽段都無法同時在所有樣本中獲得完整的定量信息,即在某一些樣本中定量數(shù)據(jù)出現(xiàn)了缺失(missing value)的情況。對于肽段或蛋白發(fā)生部分缺失的數(shù)據(jù),通常需要進行缺失值的填充后才能進行差異表達等統(tǒng)計分析。目前填充缺失值得方法較多,但如何選擇往往取決于研究者的個人經(jīng)驗和偏好,缺乏為科學的評判依據(jù),此類問題亟需得到解決。
在本項工作中,研究人員開發(fā)出了一款能系統(tǒng)性評價缺失值填充方法的工具,取名為NAguideR,以求能輔助用戶選擇出適合其數(shù)據(jù)特征的缺失值填充方法。該工具整合了已經(jīng)發(fā)表的23種常用的缺失值填充方法,作者針對這些方法系統(tǒng)性地提出2套評價指標:經(jīng)典型(classic criteria)和基于蛋白質(zhì)組信息型(proteomic criteria)。每一套指標又細分為4個子指標,在每一個指標下,都會對用戶在工具中擬選擇的23種方法中的任意方法進行打分。最后該工具會給出綜合性評價的分數(shù)和對應的結果表格,用戶根據(jù)此結果,即可對缺失值的填充方法進行合理和科學地選擇。該工具可在線或下載使用,操作較為簡單,不需要專業(yè)的生物信息學和編程經(jīng)驗,能夠幫助研究者處理大規(guī)模的相關蛋白質(zhì)組學數(shù)據(jù),提升數(shù)據(jù)質(zhì)量和深度。同時,該工具也適用于基因和代謝組學數(shù)據(jù)填充方法的評價和選擇。
圖注:NAguideR數(shù)據(jù)分析流程圖。(A)帶有缺失值的定性和定量表格數(shù)據(jù),其中行是每一個Feature(如蛋白質(zhì)、肽段、代謝物或者基因等),列是樣本。(B)數(shù)據(jù)質(zhì)量控制,這里主要通過統(tǒng)計缺失值的占比和計算變異系數(shù)來控制參與后續(xù)分析的數(shù)據(jù)質(zhì)量,如果某個Feature缺失的比例比較高或者變異系數(shù)比較大,那么其就會在這一步被刪除掉,不會參與后續(xù)的分析。(C)23種缺失值填充的方法。(D)2套評價的指標。(E)根據(jù)每一個指標得分,輔助指導用戶選擇相應的缺失值填充的方法。
四川大學華西醫(yī)院為該工作的第一完成單位,華西-華盛頓線粒體與代謝研究中心蛋白質(zhì)組學和代謝組學技術平臺實驗師、程驚秋教授再生醫(yī)學研究中心博士研究生王詩盛為論文第一作者,四川大學華西醫(yī)院國家衛(wèi)健委移植工程與移植免疫重點實驗室楊浩副研究員和耶魯大學醫(yī)學院癌癥生物學研究所劉延盛教授為論文共同通訊作者。該研究得到了國家自然科學基金(81871475)、四川大學華西醫(yī)院1.3.5卓越項目(ZYGD18014)等基金的資助。
原文鏈接:https://doi.org/10.1093/nar/gkaa498。
作者:王詩盛 楊浩 科研一支部編輯:史杰蔚 周亮來源:科研一支部
版權與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com