近日,國際知名期刊《Nature?Machine?Intelligence》在線發(fā)表了上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院魏冬青團隊的研究論文《A transformer-based model to predict peptide–HLA class I binding and optimize mutated peptides for vaccine design》。生命科學(xué)技術(shù)學(xué)院2017級博士研究生褚晏伊和香港大學(xué)深圳醫(yī)院的張艷博士為該論文的共同第一作者。生命科學(xué)技術(shù)學(xué)院魏冬青教授和熊毅副研究員為該論文的共同通訊作者。
人類白細胞抗原(HLA)和肽(pHLA)之間相互作用的計算預(yù)測可以加快表位篩選和疫苗。該研究開發(fā)了TransMut框架,包含了用于pHLA結(jié)合預(yù)測的TransPHLA和用于突變肽優(yōu)化的AOMP程序,它可以推廣到生物分子的任何結(jié)合和突變?nèi)蝿?wù)(圖1)。
TransPHLA設(shè)計了Transformer衍生模型來預(yù)測pHLA的結(jié)合。在pHLA結(jié)合預(yù)測、新抗原鑒定和HPV疫苗鑒定方面,TransPHLA均優(yōu)于現(xiàn)有的14種方法。基于TransPHLA開發(fā)的AOMP程序可用于疫苗設(shè)計,它可以自動優(yōu)化突變肽,以搜索對目標HLA具有更高親和力并與源肽具有高度同源性的突變肽。在3660個非結(jié)合pHLA中,有3630個源肽被成功突變。其中,94%通過IEDB的推薦方法得到驗證,88%與源肽的同源性高于80%。
圖1.TransMut框架在webserver上的輸入和輸出
?
1.數(shù)據(jù)集
該研究包含112種HLA,肽長度從8到14,共有366種HLA-肽長度組合。詳情見圖2和圖3。
圖2.不同數(shù)據(jù)集中每個HLA相關(guān)的可結(jié)合的pHLA樣本數(shù)
圖3.不同數(shù)據(jù)集中肽長度相關(guān)的可結(jié)合的pHLA樣本數(shù)
2.TransPHLA模型
TransPHLA的核心思想是自注意力機制的應(yīng)用。TransPHLA由以下四個模塊組成(圖4):首先使用embedding?block將positional?embedding添加到amino?acid?embedding中,以生成sequence?embedding,然后應(yīng)用dropout技術(shù)來增強魯棒性。通過embedding?block,TransPHLA分別生成肽和HLA的embedding。接下來,這些embedding將分別作為Encoder?block的輸入。Encoder?block包含masked?multi-head?self-attention?mechanism和feature?optimization?block。Feature?optimization?block是先上升后下降的全連接層的組合,這個模塊使得注意力機制得到的特征表示更好。然后,將輸出的肽和HLA的特征表示連接,作為pHLA的embedding。在pHLA的embedding通過encoder?block后,使用projection?block預(yù)測pHLA的結(jié)合分數(shù)。
圖4.TransPHLA模型圖
3.TransPHLA模型解釋了pHLA結(jié)合的模式
TransPHLA的注意力機制為提供了生物學(xué)可解釋性。有證據(jù)表明,肽的C端、N端和錨定位點對于與HLA的結(jié)合至關(guān)重要,它們通常位于肽序列的第一個、最后一個和第二個位置。TransPHLA的注意力分數(shù)也證實了這一點,如圖5a所示。
此外,我們分析了正負樣本上的氨基酸類型分別對不同肽位置的結(jié)合和非結(jié)合的貢獻(圖5b)??梢园l(fā)現(xiàn),pHLA的結(jié)合和不結(jié)合受到肽的不同成分的影響。因此,我們分析了不同肽位置的20種氨基酸對所有366種HLA-肽長度組合的結(jié)合或非結(jié)合的影響。這些結(jié)果不僅有助于人們了解pHLA結(jié)合的機制,還在AOMP程序的疫苗設(shè)計上起到關(guān)鍵作用。
由于注意力分數(shù)代表了pHLA結(jié)合的模式,這意味著肽序列上的關(guān)鍵氨基酸位點對于結(jié)合或不結(jié)合目標HLA很重要。我們可視化了5個HLA的結(jié)合模式(圖5c)。正如預(yù)期的那樣,TransPHLA在不同的肽位置發(fā)現(xiàn)了與先前研究相似的氨基酸類型模式。對于HLA-A*11:01,TransPHLA識別第9位具有K(Lys)的肽的錨定殘基。對于HLA-B*40:01,TransPHLA成功鑒定了重要的殘基,即第2位的E(Glu)和第9位的L(Leu)。對于HLA-B*57:03,疏水殘基通常形成結(jié)合口袋,TransPHLA通過第9位的L、第9位的F(Phe)和第9位的W(Trp)確定了這種偏好。對于HLA-A*68:01,4HWZ55證明肽的第9位的K和第9位的R(Arg)殘基顯著有助于結(jié)合。對于HLA-B*44:02,第2位的E的重要性已被1M6O56證明。所有這些結(jié)果都得到了先前研究的支持,并證明了我們方法的有效性。
圖5.(a)與所有正確預(yù)測的樣本、正確預(yù)測的正樣本和正確預(yù)測的負樣本相關(guān)聯(lián)的注意力分數(shù) (b)肽的氨基酸類型和肽位置對pHLA結(jié)合的貢獻 (c)與5個充分表征的HLA等位基因相關(guān)的肽結(jié)合劑的累積注意力分數(shù)。注意,較亮的殘基被認為在pHLA結(jié)合中更重要。
4.AOMP程序
基于TransPHLA獲得的注意力機制,開發(fā)了AOMP程序(圖6)用于肽疫苗設(shè)計。當用戶提供一對源肽和目標HLA時,AOMP程序可以搜索對目標HLA具有更高親和力且不超過4個突變位置的突變肽。該程序既保證了突變肽與目標HLA的親和性,又保證了突變肽與源肽的同源性,從而觸發(fā)交叉免疫。
一方面,對于366種HLA-肽長度組合中的每一種,該研究為每個肽位置建立了關(guān)于20種氨基酸的結(jié)合貢獻矩陣。為了適應(yīng)新的或未知的HLA-肽長度的組合,該研究還建立了一個通用的結(jié)合貢獻矩陣。另一方面,在預(yù)測親和力相對較弱的pHLA時,使用TransPHLA得到的注意力分數(shù)來計算肽上每個氨基酸位點的貢獻矩陣。
根據(jù)上述兩個貢獻矩陣計算了兩個貢獻率矩陣,其中貢獻矩陣中的元素值越大,對相應(yīng)氨基酸位點的結(jié)合或非結(jié)合越關(guān)鍵。直觀地說,如果氨基酸位點對預(yù)測為非結(jié)合的貢獻更大,那將它們替換為對預(yù)測為結(jié)合貢獻更大的其他氨基酸,則突變肽更有可能與目標HLA具有更高的親和力。基于上述四個矩陣,設(shè)計了四種策略來生成突變肽(圖6),主要思想是比較源肽上對弱親和力有很大影響的氨基酸位點和目標HLA-肽長度上對高親和力有顯著影響的氨基酸位點。然后根據(jù)比較結(jié)果進行相應(yīng)的氨基酸替換。過程如下:(1)預(yù)測源肽和目標HLA的結(jié)合分數(shù);(2)基于self-attention機制找到一些最重要的氨基酸位點;(3)用一些可能對結(jié)合預(yù)測貢獻更大的氨基酸替換這些弱親和力pHLA的重要位點;(4)選擇一些最佳突變候選者進行評估。
圖6.AOMP程序的工作流程,以肽DLLPETPW和HLA-B*51:01為例。其中,最下面兩張子圖的數(shù)字和字母,如8I表示將上一級得到的肽的第8位氨基酸W替換為氨基酸I
5.分子動力學(xué)模擬
基于已報道的等位基因特異性HLA分子的X射線晶體結(jié)構(gòu),該研究使用分子動力學(xué)(MD)模擬方法進一步驗證了TransPHLA和AOMP程序的有效性。根據(jù)結(jié)果??,(a)提出的TransPHLA獲得的注意力機制與pHLA復(fù)合物的結(jié)構(gòu)一致,(b)TransPHLA的預(yù)測結(jié)果與MD模擬和IEDB推薦的NetMHCpan_BA方法的預(yù)測結(jié)果一致。
該研究選擇HLA-A*02:01作為目標HLA分子,因為HLA-A*02:01是高頻等位基因,PDB數(shù)據(jù)庫中公開了多個肽和HLA-A*02:01的復(fù)雜結(jié)構(gòu),為MD提供了足夠的數(shù)據(jù)支持。KRAS是腫瘤發(fā)生和發(fā)展的驅(qū)動突變,而且KRAS的突變位點相對保守,G12突變頻率占該基因所有突變的83%。G12中,G12D的突變頻率最高(41%),其次是G12V(28%),G12C為14%。因此,該研究選擇了含有G12的長度為9的肽作為源肽。
對于TransPHLA預(yù)測出的不與目標HLA結(jié)合的源肽,使用AOMP生成一系列突變肽。然后,選擇只有兩個位點發(fā)生變化并預(yù)測為結(jié)合的突變肽作為MD對象。基于HLA-A*02:01(PDB:1HHK)的結(jié)構(gòu),構(gòu)建了HLA-A*02:01與多肽的分子動力學(xué)模型。肽包括源肽和選定的突變肽。分子動力學(xué)模擬的結(jié)果表明,突變肽的結(jié)合力明顯強于源肽,這與TransPHLA和NetMHCpan_BA的預(yù)測結(jié)果一致。
而且,許多研究已經(jīng)證明HLA-A*02:01的關(guān)鍵結(jié)合位點是N端(即位置1或P1)、第二位置(即P2)和C端(即P9)。HLA-A*02:01與長度為9的肽復(fù)合物的X射線晶體結(jié)構(gòu)也表明,P2和P9錨定位點的氨基酸可以與HLA的側(cè)鏈形成氫鍵。圖7證實了所提出的TransPHLA對HLA-A*02:01和長度為9的肽的注意力機制的有效性。該圖顯示位置2的L氨基酸(2L),9L或9V是肽與HLA結(jié)合的關(guān)鍵氨基酸,與現(xiàn)有文獻的結(jié)果一致。此外,分析源肽YKLVVVGAG和衍生自它的2個突變肽YLLVVVGAV和YLLVVVGAL。圖8和圖9分別顯示了上述3種肽和HLA-A*02:01的分子動力學(xué)模擬結(jié)果。結(jié)果證實源肽對HLA-A*02:01的親和力更弱,圖8a展示源肽與HLA沒有氫鍵相互作用,圖9a顯示源肽遠離HLA結(jié)合溝。而圖8bc和圖9bc顯示突變肽可與HLA側(cè)鏈形成多個氫鍵相互作用,促進了突變肽與HLA的結(jié)合。
圖7.TransPHLA對HLA-A*02:01和長度為9的肽的注意機制
圖8.分子動力學(xué)模擬的肽和HLA-A*02:01的2D結(jié)構(gòu)。氫鍵顯示為黃色虛線
圖9.分子動力學(xué)模擬的肽和HLA-A*02:01的3D結(jié)構(gòu)。(a)中的源肽鏈顯示為紫紅色卷線,氫鍵顯示為黃色虛線
?
論文鏈接:https://www.nature.com/articles/s42256-022-00459-7
版權(quán)與免責(zé)聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責(zé)。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com