近日,上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院微生物代謝國(guó)家重點(diǎn)實(shí)驗(yàn)室在生物信息學(xué)頂級(jí)刊物《Briefings in Bioinformatics》(IF:11.622)上發(fā)表題為“T4SEfinder: a bioinformatics tool for genome-scale prediction of bacterial type IV secreted effectors using pre-trained protein language model”的研究論文。該文將人工智能方法應(yīng)用于細(xì)菌IV型分泌系統(tǒng)效應(yīng)蛋白預(yù)測(cè)的場(chǎng)景,提供了一款新的、適用于細(xì)菌全基因組規(guī)模的預(yù)測(cè)軟件。生命科學(xué)技術(shù)學(xué)院碩士生張昱朦和張陽(yáng)明為該論文的并列第一作者,生命科學(xué)技術(shù)學(xué)院歐竑宇教授和澳大利亞莫納什大學(xué)生物醫(yī)學(xué)發(fā)現(xiàn)研究所宋江寧副教授為該論文的共同通訊作者。
細(xì)菌IV型分泌系統(tǒng)分泌系統(tǒng)(type IV secretion system, T4SS)是由多個(gè)蛋白組件構(gòu)成的跨膜裝置,不僅能夠介導(dǎo)DNA接合轉(zhuǎn)移,還能將效應(yīng)蛋白精準(zhǔn)轉(zhuǎn)運(yùn)到真核或原核細(xì)胞中。IV型分泌系統(tǒng)效應(yīng)蛋白(T4SE)能夠影響真核細(xì)胞的基因表達(dá)和信號(hào)轉(zhuǎn)導(dǎo),在病原細(xì)菌致病過(guò)程中起到重要作用。前期工作中,歐竑宇研究組構(gòu)建了T4SS開(kāi)放數(shù)據(jù)庫(kù)SecReT4,通過(guò)文本挖掘和人工校正,系統(tǒng)地收錄了實(shí)驗(yàn)驗(yàn)證的IV型分泌系統(tǒng)基因簇和效應(yīng)蛋白等高質(zhì)量數(shù)據(jù)(Bi, et al.,?Nucleic Acids Research, 2013)。預(yù)測(cè)效應(yīng)蛋白最簡(jiǎn)便的方法是與SecReT4收錄的T4SEs進(jìn)行序列比對(duì);而人工智能方法則有可能發(fā)現(xiàn)與已知T4SE序列相似性低的新效應(yīng)蛋白。近期,卷積神經(jīng)網(wǎng)絡(luò)(CNN)等多種機(jī)器學(xué)習(xí)方法開(kāi)始應(yīng)用于T4SE和non-T4SE的分類問(wèn)題,然而它們的預(yù)測(cè)精度和運(yùn)行速度仍有待提高。
該論文將蛋白序列預(yù)訓(xùn)練語(yǔ)言模型(pre-trained protein language model)TAPEBert應(yīng)用到T4SE分類任務(wù)中,開(kāi)發(fā)了快速準(zhǔn)確的T4SE預(yù)測(cè)軟件T4SEfinder。首先,通過(guò)更新SecReT4數(shù)據(jù)庫(kù),T4SEfinder的訓(xùn)練集包含了來(lái)自21種細(xì)菌的518個(gè)經(jīng)實(shí)驗(yàn)驗(yàn)證的T4SEs。其次,通過(guò)綜合評(píng)估多種機(jī)器學(xué)習(xí)模型對(duì)T4SE的預(yù)測(cè)性能后,T4SEfinder采用了基于BERT的蛋白序列預(yù)訓(xùn)練方法TAPE(Task Assessing Protein Embeddings)以及多層感知機(jī)分類器(multi-layer perceptron,MLP)來(lái)搭建模型TAPEBert_MLP(圖1);對(duì)于五折交叉驗(yàn)證和獨(dú)立測(cè)試數(shù)據(jù)集,TAPEBert_MLP模型的預(yù)測(cè)準(zhǔn)確率略優(yōu)于常用的基于PSSM(位置特異性打分矩陣)和CNN的PSSM_CNN模型。最后,部署在一臺(tái)RTX 2080 SUPER?GPU服務(wù)器上的T4SEfinder能夠在3分鐘內(nèi)完成5000條蛋白序列中T4SE和non-T4SE的分類,速度比PSSM_CNN方法快五十多倍。因此,T4SEfinder適用于細(xì)菌全基因組規(guī)模的T4SE識(shí)別問(wèn)題,可能有助于實(shí)驗(yàn)發(fā)現(xiàn)病原菌的新效應(yīng)蛋白。
圖1. 細(xì)菌IV型分泌系統(tǒng)效應(yīng)蛋白預(yù)測(cè)軟件T4SEfinder的模型架構(gòu)。TAPEBert_MLP主體結(jié)構(gòu)由蛋白序列預(yù)訓(xùn)練語(yǔ)言模型(TAPEBert)和多層感知機(jī)分類器(MLP)組成
?
論文鏈接:
https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab420/6397152?login=true
版權(quán)與免責(zé)聲明:本網(wǎng)頁(yè)的內(nèi)容由收集互聯(lián)網(wǎng)上公開(kāi)發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點(diǎn)或證實(shí)其真實(shí)性,也不構(gòu)成其他建議。僅提供交流平臺(tái),不為其版權(quán)負(fù)責(zé)。如涉及侵權(quán),請(qǐng)聯(lián)系我們及時(shí)修改或刪除。郵箱:sales@allpeptide.com