大數(shù)據(jù)和人工智能與化學基因和材料基因的融合正推動生物醫(yī)學和新材料的前沿科學發(fā)展。近年來,機器學習,尤其是深度學習,已經(jīng)成為基于數(shù)據(jù)驅(qū)動的分子尺度發(fā)現(xiàn)化學基因和材料基因強大方法。2019年冠狀病毒?。–OVID-19)爆發(fā)一年后還沒有特異性的有效藥物,這提醒我們生物醫(yī)藥是復雜的前沿科學領域,有效的藥物發(fā)現(xiàn)涉及一系列相關的分子特性,包括結(jié)合親和力、毒性、分配系數(shù)、溶解度、藥代動力學、藥效學等等。對生物醫(yī)藥分子特性的實驗測定是非常耗時和昂貴的。此外,涉及到動物或人類的實驗測試會有會有道德問題的禁區(qū)。因此,大數(shù)據(jù)和人工智能的方法在許多情況下可以產(chǎn)生快速的結(jié)果而不嚴重犧牲準確性,其中最受歡迎的方法之一是定量結(jié)構(gòu)活性關系(QSAR)分析,它假定類似的分子具有類似的生物活性和理化性質(zhì)。盡管科研人員在預測分子性質(zhì)的方向已經(jīng)進行了做大量的工作,但各種分子性質(zhì)的定量預測仍然是一個挑戰(zhàn)。
近日,北京大學深圳研究生院新材料學院的潘鋒團隊與密歇根州立大學數(shù)學系的魏國衛(wèi)教授合作,通過融合代數(shù)圖論方法和Google開發(fā)的深度自注意力變換(Transformer)的機器學習方法提出和發(fā)展了一種新型的代數(shù)圖輔助的雙向轉(zhuǎn)化器(AGBT)框架,實現(xiàn)基于小樣本數(shù)據(jù)有效的定量預測分子特性。這一成果近期發(fā)表在《自然.通訊》(Algebraic graph-assisted bidirectional transformers for molecular property prediction. Nature Communications, 2021,12(1), 1-9.)。
圖1 代數(shù)圖論方法輔助的雙向轉(zhuǎn)化器(AGBT)框架
通常深度學習方法需要大量的數(shù)據(jù)集來進行訓練,在小型數(shù)據(jù)集上利用深度學習模型一般很難取得有效準確的預測。在化學中,通過實驗或者第一性原理確定有標簽性能的數(shù)據(jù)只占少數(shù)。團隊發(fā)現(xiàn)化學中的分子性能預測極大依賴于分子描述符或分子表示法,拓展深度學習方法來產(chǎn)生高質(zhì)量的分子描述符可以提升預測的準確性,包括運用自然語言處理(NLP)中自監(jiān)督學習方法,大量無標簽的語言數(shù)據(jù)可被用于“預學習”和用于模型的訓練和預測,在生物醫(yī)學方面運用分子的SMILES表示的化學語言,利用自然語言處理中的相關模型實現(xiàn)了基于自監(jiān)督學習方法的預訓練。團隊在研究中發(fā)現(xiàn)基于SMILES數(shù)據(jù)的訓練模型會丟失一些分子結(jié)構(gòu)的三維信息,從而影響相應的分子描述符的質(zhì)量,從而自主原創(chuàng)設計出一種基于代數(shù)圖論輔助的深度學習框架(AGBT),這種方法既利用了Transformer這種深度學習方法將大量無標簽的分子數(shù)據(jù)利用起來,又借助了代數(shù)圖論的方法彌補了深度學習框架(Transformers)所遺失的一些三維信息,可以實現(xiàn)高質(zhì)量的分子描述符的產(chǎn)生。這種分子描述符,對小數(shù)據(jù)樣本的分子特征預測的能力有較高的提升,實現(xiàn)快速有效的定量的分子特性預測。
圖2 一種元素特異性的多尺度加權(quán)彩色代數(shù)圖論方法
此外,本工作利用代數(shù)圖圖論的方法,特別是特定元素的多尺度加權(quán)彩色代數(shù)圖論方法,將三維分子信息嵌入圖的不變量中,發(fā)展了代數(shù)圖輔助的雙向轉(zhuǎn)化器(AGBT)框架,通過融合代數(shù)圖論方法產(chǎn)生的分子描述符和Transformers產(chǎn)生的分子描述符表,實現(xiàn)與兩種分子信息的互補。此外,借助各種機器學習算法,包括決策樹、多任務學習和深度神經(jīng)網(wǎng)絡,實現(xiàn)下游任務中對分子特性的預測。本工作在八個分子數(shù)據(jù)集上驗證了所提出的AGBT框架,涉及定量毒性、物理化學和生理學數(shù)據(jù)集。大量的數(shù)值實驗表明,所發(fā)展的AGBT是一個高效的分子特性預測模型。
文章的第一作者是北京大學深圳研究生院新材料學院的博士研究生陳冬,通信作者是潘鋒教授和魏國衛(wèi)教授。感謝國家材料基因工程重點專項和廣東與深圳科技項目的支持。
文章鏈接:https://doi.org/10.1038/s41467-021-23720-w
?
版權(quán)與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構(gòu)成其他建議。僅提供交流平臺,不為其版權(quán)負責。如涉及侵權(quán),請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com