網(wǎng)站如何運(yùn)營(yíng)主流搜索引擎有哪些
GAABind 作者是蘇州大學(xué)的生物基礎(chǔ)與醫(yī)學(xué)院, 期刊是 Briefings in Bioinformatics, 2024, 25(1), 1–14。GAABind 是一個(gè)基于注意力的幾何感知蛋白-小分子結(jié)合模式與親和力預(yù)測(cè)模型,可以捕捉小分子和蛋白的幾何、拓?fù)浣Y(jié)構(gòu)特征以及相互作用。使用 PDBBind2020 和 CASF2016 作為訓(xùn)練數(shù)據(jù)集,可以達(dá)到 82% 的結(jié)合模式預(yù)測(cè)能力,親和力的預(yù)測(cè)的皮爾森相關(guān)系數(shù)為 0.803。
一、背景介紹
GAABind 來(lái)源于蘇州大學(xué)基礎(chǔ)醫(yī)學(xué)與生物科學(xué)學(xué)院的胡廣教授為通訊作者的文章:《GAABind: a geometry-aware attention-based network for accurate protein–ligand binding pose and binding affinity prediction》。文章鏈接:https://academic.oup.com/bib/article/25/1/bbad462/7473491 。該文章在 2023 年 11 月 22 日發(fā)表于 《Briefings in Bioinformatics》 上。
準(zhǔn)確預(yù)測(cè)結(jié)合構(gòu)象和結(jié)合親和力是計(jì)算方法理解蛋白質(zhì)-配體相互作用的關(guān)鍵挑戰(zhàn)。傳統(tǒng)的分子對(duì)接工具在構(gòu)象搜索采樣時(shí)需要很高的計(jì)算成本。現(xiàn)有的深度學(xué)習(xí)方法在分子表示學(xué)習(xí)和分子間相互作用建模方面也不盡人意。為此,作者提出了 GAABind ,這是一種幾何感知的基于注意力的深度學(xué)習(xí)模型,能夠在多任務(wù)學(xué)習(xí)框架內(nèi)有效預(yù)測(cè)口袋-配體結(jié)合構(gòu)象和結(jié)合親和力。GAABind 全面捕捉了結(jié)合口袋和配體的幾何和拓?fù)涮匦裕⒉捎帽磉_(dá)性強(qiáng)的分子表示學(xué)習(xí)來(lái)建模分子內(nèi)相互作用。此外,GAABind 熟練地學(xué)習(xí)分子間的多體相互作用,并通過(guò)精心設(shè)計(jì)的網(wǎng)絡(luò)模擬配體在與蛋白質(zhì)相互作用過(guò)程中動(dòng)態(tài)的構(gòu)象適應(yīng)。
作者在 PDBbind v2020 上訓(xùn)練了 GAABind,并在 CASF 2016數(shù)據(jù)集上進(jìn)行了評(píng)估。結(jié)果表明 GAABind 在結(jié)合構(gòu)象預(yù)測(cè)中的成功率達(dá)到 82.8%,而預(yù)測(cè)的結(jié)合親和力與實(shí)驗(yàn)值之間的皮爾遜相關(guān)系數(shù)高達(dá) 0.803 。此外,作者還評(píng)估了 GAABind 在嚴(yán)重急性呼吸綜合癥冠狀病毒 2 型主要蛋白酶交叉對(duì)接數(shù)據(jù)集上的表現(xiàn)。在該評(píng)估中,GAABind 在結(jié)合構(gòu)象預(yù)測(cè)中的成功率達(dá)到 76.5%,并在結(jié)合親和力預(yù)測(cè)中與所有基準(zhǔn)方法相比,獲得了最高的皮爾遜相關(guān)系數(shù)。
二、模型介紹
理解蛋白質(zhì)-配體相互作用是藥物開(kāi)發(fā)中的一個(gè)重要步驟。由于實(shí)驗(yàn)方法的花費(fèi)和時(shí)間成本較高,所以計(jì)算方法已經(jīng)成為一種新的研究范式。計(jì)算識(shí)別蛋白質(zhì)-配體相互作用的三個(gè)主要問(wèn)題包括準(zhǔn)確預(yù)測(cè):(1) 結(jié)合位點(diǎn):蛋白質(zhì)表面配體可以結(jié)合的特定區(qū)域;(2) 結(jié)合構(gòu)象:配體結(jié)合其靶蛋白時(shí)所采用的特定取向和構(gòu)象;(3) 結(jié)合親和力:相互作用的強(qiáng)度。
分子對(duì)接是一種廣泛用于預(yù)測(cè)蛋白質(zhì)-配體的結(jié)合構(gòu)象和結(jié)合親和力的計(jì)算方法。傳統(tǒng)的對(duì)接工具通過(guò)兩個(gè)主要操作來(lái)預(yù)測(cè)蛋白質(zhì)-配體的結(jié)合構(gòu)象和結(jié)合親和力:構(gòu)象采樣和評(píng)分。
近年來(lái),提出了許多基于深度學(xué)習(xí)的評(píng)分函數(shù),預(yù)測(cè)結(jié)合親和力?;诘鞍?小分子復(fù)合物的模型利用從蛋白質(zhì)-配體結(jié)合結(jié)構(gòu)中獲取的分子間相互作用信息,通常優(yōu)于無(wú)復(fù)合物模型。然而,大多數(shù)蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)并不可用,通過(guò)實(shí)驗(yàn)方法或?qū)蛹夹g(shù)獲取復(fù)合物結(jié)構(gòu)涉及高昂的成本和勞力。
只有少數(shù)基于深度學(xué)習(xí)的方法專(zhuān)門(mén)用于蛋白質(zhì)-配體結(jié)合構(gòu)象預(yù)測(cè),包括 DeepDock、EDM-Dock、TankBind 和 Uni-Mol。這些方法通常由兩個(gè)階段組成。第一階段專(zhuān)注于學(xué)習(xí)分子表示,而第二階段則建模分子間相互作用,以預(yù)測(cè)蛋白質(zhì)與配體之間的原子距離。預(yù)測(cè)的分子間距離隨后被用于通過(guò)差分進(jìn)化、反向傳播或距離幾何優(yōu)化等策略生成結(jié)合構(gòu)象。
在第一階段,DeepDock、EDM-Dock 和 TankBind使用圖模型來(lái)表示分子。然而,圖模型面臨過(guò)度平滑和捕捉長(zhǎng)距離依賴(lài)性困難等挑戰(zhàn)。相比之下,Uni-Mol 結(jié)合了原子和成對(duì)表示與基于變換器的網(wǎng)絡(luò),建模分子的 3D 結(jié)構(gòu)。然而,輸入的成對(duì)表示僅包含原子對(duì)之間的幾何距離,缺乏對(duì)分子關(guān)鍵 2D 拓?fù)湫畔⒌恼稀4送?,成?duì)表示僅從原子表示中接收更新的注意力權(quán)重,忽略了分子表示學(xué)習(xí)中成對(duì)之間的多體相互作用。
進(jìn)入第二階段,DeepDock 和 EDM-Dock 以成對(duì)方式連接分子圖的節(jié)點(diǎn)特征,然后將其輸入多層感知器以預(yù)測(cè)分子間距離。然而,這種簡(jiǎn)單的特征連接方法未能充分捕捉分子間相互作用的復(fù)雜性。Uni-Mol 將學(xué)習(xí)到的分子表示連接成口袋-配體復(fù)合物表示,隨后作為整體分子通過(guò)基于變換器的網(wǎng)絡(luò)預(yù)測(cè)原子距離,對(duì)分子間和分子內(nèi)相互作用沒(méi)有區(qū)別對(duì)待。TankBind 使用分子圖的節(jié)點(diǎn)特征初始化口袋-配體相互作用嵌入,并使用一個(gè)結(jié)合分子內(nèi)距離圖的三角函數(shù)模塊對(duì)其進(jìn)行更新。雖然三角函數(shù)模塊整合了分子內(nèi)幾何約束,但分子內(nèi)距離圖的使用并未全面整合分子內(nèi)相互作用。
為了解決當(dāng)前方法的局限性,作者提出了 GAABind,這是一種幾何感知的基于注意力的網(wǎng)絡(luò),用于同時(shí)預(yù)測(cè)蛋白質(zhì)-配體的結(jié)合構(gòu)象和結(jié)合親和力。
3D 結(jié)構(gòu)在分子相互作用中發(fā)揮的重要作用,這促使作者將幾何感知注意力納入模型。這一機(jī)制通過(guò)整合幾何信息擴(kuò)展了傳統(tǒng)的注意力模型,從而增強(qiáng)了原子間相互作用的建模,并實(shí)現(xiàn)了配體與蛋白質(zhì)之間物理上合理的幾何關(guān)系的學(xué)習(xí)。在 GAABind 中,作者利用原子和成對(duì)嵌入進(jìn)行分子表示。原子嵌入用于表示分子中的每個(gè)原子,而成對(duì)嵌入則表示原子對(duì)之間的關(guān)系。GAABind 的核心在于原子-成對(duì)注意編碼塊和互交塊。前者專(zhuān)注于學(xué)習(xí)富有表現(xiàn)力的分子表示,而后者有效建模口袋與配體之間的互相作用。通過(guò)利用這些組件,GAABind 對(duì)口袋-配體對(duì)距離、配體對(duì)距離和蛋白質(zhì)-配體結(jié)合親和力進(jìn)行預(yù)測(cè)?;陬A(yù)測(cè)的距離,作者采用簡(jiǎn)單高效的反向傳播方法生成配體的結(jié)合構(gòu)象。在 CASF 2016 基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,GAABind 在結(jié)合構(gòu)象預(yù)測(cè)方面的表現(xiàn)優(yōu)于其他先進(jìn)的基準(zhǔn)方法。此外,GAABind 在預(yù)測(cè)結(jié)合親和力方面表現(xiàn)相當(dāng),且不依賴(lài)于蛋白質(zhì)-配體復(fù)合物結(jié)構(gòu)作為輸入。
文章的主要貢獻(xiàn)如下:
(1)作者引入了原子-成對(duì)注意編碼塊(Atom–Pair Attentive Encoding Block),這是一種用于富有表現(xiàn)力的分子表示學(xué)習(xí)的新方法。在該塊中,原子和成對(duì)嵌入交替更新并相互通信,促進(jìn)了輸入分子的分子內(nèi)相互作用的全面編碼。
(2) 為有效建??诖c配體之間的互相作用,作者提出了互交塊( Mutual Interaction Block)。該塊涉及一個(gè)迭代過(guò)程,包括口袋/配體到復(fù)合物、復(fù)合物自更新和復(fù)合物到配體的信息流階段,從而實(shí)現(xiàn)對(duì)對(duì)接過(guò)程的有效和動(dòng)態(tài)建模。
(3) 通過(guò)結(jié)合原子-成對(duì)注意編碼和互交塊,作者提出了 GAABind,這是一個(gè)強(qiáng)大的框架,用于預(yù)測(cè)口袋-配體結(jié)合構(gòu)象和結(jié)合親和力。實(shí)驗(yàn)結(jié)果表明 GAABind 在這兩項(xiàng)任務(wù)中的穩(wěn)健表現(xiàn)。
2.1 模型框架
GAABind 的整體架構(gòu)如下圖所示。給定一個(gè)已知 3D 結(jié)構(gòu)的結(jié)合口袋和處于任何未結(jié)合(apo)構(gòu)象的配體,首先提取輸入分子的特征,并采用原子-成對(duì)注意編碼塊(Atom–Pair Attentive Encoding Block)為每個(gè)分子獲取原子和成對(duì)嵌入。隨后,通過(guò)整合口袋和配體的原子嵌入來(lái)初始化口袋-配體復(fù)合物對(duì)嵌入。接著,采用互交塊( Mutual Interaction Block)基于分子間相互作用迭代更新復(fù)合物對(duì)和配體對(duì)嵌入。利用這些更新后的成對(duì)嵌入,GAABind 在預(yù)測(cè)塊(Prediction Block)中對(duì)復(fù)合物對(duì)距離、配體對(duì)距離和輸入的結(jié)合親和力進(jìn)行預(yù)測(cè)。通過(guò)預(yù)測(cè)的復(fù)合物對(duì)距離和配體對(duì)距離,可以使用簡(jiǎn)單高效的反向傳播方法生成配體的3D結(jié)合構(gòu)象。
模型的關(guān)鍵模塊是原子-成對(duì)注意編碼塊(Atom–Pair Attentive Encoding Block)、互交塊( Mutual Interaction Block)和預(yù)測(cè)塊(Prediction Block)等。接下來(lái)主要介紹這幾個(gè)模塊。
2.1.1 原子-成對(duì)注意編碼塊
原子對(duì)注意編碼塊從嵌入初始化層開(kāi)始,在這里,利用輸入分子的提取特征初始化每個(gè)分子的原子和對(duì)嵌入。接著,交替使用原子注意層和對(duì)注意層來(lái)更新原子和對(duì)嵌入。結(jié)合口袋和配體的原子對(duì)注意編碼塊共享相同的架構(gòu),但權(quán)重不同。
對(duì)于嵌入初始化層,為了減少計(jì)算負(fù)擔(dān),僅考慮每個(gè)分子中的重原子。原子嵌入是使用基于輸入原子特征的嵌入矩陣初始化的。對(duì)于對(duì)嵌入初始化,作者采用 Zhou 等人提出的空間位置編碼方法來(lái)捕捉分子的幾何特性。這種方法利用一種對(duì)配對(duì)類(lèi)型敏感的高斯核來(lái)嵌入所有原子對(duì)的歐幾里得距離。此外,原子之間的鍵特征也被納入對(duì)嵌入中,這些特征包含重要的化學(xué)和拓?fù)湫畔?。因此,使用的特征?duì)全局旋轉(zhuǎn)和位移是不變的。
如下圖所示,作者在原子注意力層中使用多頭自注意力(MHA),以全面捕捉局部和全局的原子間關(guān)系。對(duì)嵌入作為偏置項(xiàng)被納入,以增強(qiáng)注意力機(jī)制,提供來(lái)自原子對(duì)的上下文信息。此外,原子之間的注意力權(quán)重被用來(lái)更新對(duì)嵌入,從而促進(jìn)原子與其對(duì)應(yīng)對(duì)之間的有效交流。
對(duì)注意力層操作對(duì)嵌入,以建模對(duì)之間的多體相互作用。在對(duì)嵌入的更新中,保持幾何一致性(例如三角不等式)至關(guān)重要,因?yàn)樗硎娟P(guān)于原子的成對(duì)信息。受到 AlphaFold 2 中使用的 Evoformer 框架的啟發(fā),作者設(shè)計(jì)了兩個(gè)模塊來(lái)有效更新對(duì)嵌入。
第一個(gè)模塊稱(chēng)為自三角更新模塊,如下圖 A 所示,它結(jié)合了 AlphaFold2 提出的“具有外向邊的三角乘法更新”和“具有內(nèi)向