?
一個人在成長過程中會遇到各種各樣的選擇問題,如一些人生規(guī)劃的抉擇:上哪所大學,學什么專業(yè),去哪家公司,等等。再如我們進入一家電玩城,那里擺著一排老虎機,雖然外表一模一樣,但是每個老虎機吐錢的概率卻不一樣,作為一名資深玩家應該選擇搖動哪臺老虎機呢(圖1)?這些選擇問題有沒有什么科學的辦法來解決呢?答案是:有!而且是非常科學的辦法,那就是強化學習中的多臂老虎機算法。該算法可以科學地推薦收益最大的方案,而且能夠應用于許多領域,如:一種新疾病(如新冠),如何嘗試各種治療方法,來盡快治愈病人?一個新產(chǎn)品,如何調整定價,來獲得最大收入?一個新聞稿,如何嘗試推薦,來獲得最多總點擊次數(shù)?在大名鼎鼎的阿爾法狗(AlphaGo)中,也能看到多臂老虎機算法的身影。
圖1. 多臂老虎機模型
最近,北京大學化學與分子工程學院的劉志榮教授課題組將多臂老虎機算法應用于天然無序蛋白質的藥物設計問題,大大加速了基于構象系綜的配體虛擬篩選過程(圖2)。
圖2. 多臂老虎機的強化學習算法可以應用于無序蛋白的配體虛擬篩選。
天然無序蛋白質(Intrinsically Disordered Proteins)沒有固定的三維結構,卻具有正常的生物學功能,不但是對蛋白質“結構-功能”傳統(tǒng)范式的重要補充,而且因其與多種疾病密切相關而成為重要的潛在藥物靶標。無序蛋白與小分子的相互作用機制與傳統(tǒng)的有序蛋白迥然不同,在生理條件下是以包含很多不同構象的系綜形式存在的,單單針對某一個構象設計藥物并不能保證對整個無序蛋白系綜的結合有效性。如果對系綜中的所有構象進行分子對接,再結合統(tǒng)計熱力學原理將對接結果綜合起來,理論上是可以得到藥物配體與無序蛋白的結合親和力(J. Chem. Inf. Model. 2020, 60, 4967)(圖3)。但是,與傳統(tǒng)的藥物設計流程相比,這種做法的計算量將暴增成千上萬倍,這在實際應用中是無法接受的。那么,有沒有可能存在某種算法,既能夠大大降低計算量,又能保持較高的篩選性能?
圖3. 表觀親和力與單個構象和配體的相互作用自由能有關
事實上,這種可能性是存在的。關鍵是需要認識到虛擬篩選的目的不是準確地計算所有小分子配體(數(shù)目通常高達十萬)的親和力,而是篩選出少量的(數(shù)目在100左右)具有最大親和力的“頂尖”配體。對于位于金字塔底部的大量配體,是沒有必要準確計算的。這與多臂老虎機問題非常相似。對于這個老虎機問題,顯然最佳的做法是找到那個預期收益最大的拉桿并不斷地去拉動它。但是,玩家無法預先知道每一個拉桿的期望值,必須根據(jù)拉動的結果來動態(tài)地進行估計。多臂老虎機問題的目的是找出最有價值的1個拉桿,而虛擬篩選的目的是找出最有價值的100個配體,它們的核心問題是共通的。
基于這些認識,劉志榮課題組提出了一種可逆的UCB算法(reversible upper confidence bound, rUCB),用于對無序蛋白的強化學習虛擬篩選過程。在測試中,rUCB展現(xiàn)出了非常優(yōu)異的效果。例如,在人工數(shù)據(jù)的測試中,對于十萬個配體,只需要進行二十萬次對接(即平均每個配體只需要對接兩次),所挑選出的親和力最大的100個配體的準確性高達94%。對真實癌蛋白c-Myc的虛擬篩選中,rUCB也有很好的效果(圖4)。
圖4. 強化學習rUCB算法在癌蛋白c-Myc的配體虛擬篩選中的結果。
該工作表明強化學習算法可以有效解決無序蛋白藥物設計的配體虛擬對接中構象數(shù)目過多所導致的瓶頸問題。研究成果以“Reinforcement learning to boost molecular docking upon protein conformational ensemble”為題發(fā)表在Phys. Chem. Chem. Phys. (2021, 23, 6800-6806)上。(https://pubs.rsc.org/en/content/articlelanding/2021/cp/d0cp06378a#!divAbstract)。 ?論文第一作者為北京大學化學學院2021屆博士畢業(yè)生崇濱,通訊作者為劉志榮教授。該項研究受到國家自然科學基金委員會重點項目(21633001)和北京分子科學國家研究中心的資助。
?
版權與免責聲明:本網(wǎng)頁的內(nèi)容由收集互聯(lián)網(wǎng)上公開發(fā)布的信息整理獲得。目的在于傳遞信息及分享,并不意味著贊同其觀點或證實其真實性,也不構成其他建議。僅提供交流平臺,不為其版權負責。如涉及侵權,請聯(lián)系我們及時修改或刪除。郵箱:sales@allpeptide.com