抗體設(shè)計:從序列結(jié)構(gòu)到親和力優(yōu)化的全流程突破
發(fā)布時間:2025-06-13 14:27:45來源:
摘要:在生物醫(yī)學(xué)領(lǐng)域,抗體作為免疫系統(tǒng)的 “精密武器”,在疾病治療中扮演著關(guān)鍵角色。傳統(tǒng)抗體開發(fā)面臨周期長、成本高、效率低等挑戰(zhàn),而深度學(xué)習(xí)技術(shù)的興起為這一領(lǐng)域帶來了革命性突破。本文系統(tǒng)梳理了深度學(xué)習(xí)在抗體設(shè)計中的前沿應(yīng)用,涵蓋抗體序列設(shè)計、結(jié)構(gòu)預(yù)測、抗原 - 抗體相互作用分析、親和力成熟等核心環(huán)節(jié),解析了基于圖神經(jīng)網(wǎng)絡(luò)(GNN)、Transformer 等模型的創(chuàng)新方法,揭示了深度學(xué)習(xí)如何通過整合海量生物數(shù)據(jù)與計算能力,加速抗體發(fā)現(xiàn)與優(yōu)化進(jìn)程。文中還探討了當(dāng)前技術(shù)面臨的挑戰(zhàn)及未來發(fā)展方向,為理解這一交叉領(lǐng)域的最新進(jìn)展提供全面視角。

一、抗體與抗體藥物:生物醫(yī)學(xué)的 “戰(zhàn)略武器”
1.1 抗體的結(jié)構(gòu)與功能
抗體,又稱免疫球蛋白,是免疫系統(tǒng)對抗病原體的關(guān)鍵蛋白質(zhì)。其典型結(jié)構(gòu)呈 “Y” 形,由兩條重鏈和兩條輕鏈組成,包含恒定區(qū)(Fc)和抗原結(jié)合區(qū)(Fab)。在 Fab 區(qū)域中,可變區(qū)(Fv)的互補(bǔ)決定區(qū)(CDRs) 是識別抗原的核心部位,尤其是重鏈的 CDR-H3 環(huán),因其高度多樣性成為抗體特異性的關(guān)鍵決定因素(文檔圖 2)。

人類抗體庫通過 V (D) J 基因重組產(chǎn)生約 10¹³ 種不同序列,這種巨大的多樣性賦予免疫系統(tǒng)識別各種抗原的能力。而治療性單克隆抗體(mAbs)因其高特異性和低脫靶效應(yīng),已成為生物制藥的重要分支。截至目前,全球已有超過 100 種抗體藥物獲 FDA 批準(zhǔn),臨床研究中的抗體藥物更是超過 1000 種,預(yù)計到 2028 年抗體治療市場規(guī)模將突破 4000 億美元(文檔圖 1)。

1.2 傳統(tǒng)抗體開發(fā)的挑戰(zhàn)
盡管抗體藥物潛力巨大,傳統(tǒng)開發(fā)方法卻面臨嚴(yán)峻挑戰(zhàn):
-
實驗周期長:從免疫動物到篩選高親和力抗體,往往需要數(shù)年時間;
-
成本高昂:單克隆抗體制備、結(jié)構(gòu)解析等步驟耗資巨大;
-
技術(shù)瓶頸:CDR-H3 環(huán)的結(jié)構(gòu)預(yù)測困難,親和力成熟過程依賴大量試錯實驗;
-
篩選效率低:面對復(fù)雜抗原(如細(xì)菌表面數(shù)百種抗原),傳統(tǒng)方法難以全面覆蓋。
這些痛點促使科研人員尋求計算方法的突破,而深度學(xué)習(xí)的崛起為抗體設(shè)計提供了全新范式。
二、深度學(xué)習(xí)賦能抗體設(shè)計:從數(shù)據(jù)到模型的革新
2.1 抗體數(shù)據(jù)資源庫的構(gòu)建
深度學(xué)習(xí)依賴海量高質(zhì)量數(shù)據(jù),為此科研人員建立了豐富的抗體數(shù)據(jù)庫:
-
序列數(shù)據(jù)庫:如 Observed Antibody Space(OAS)收錄超過 20 億條免疫受體序列,PAD 和 PLAbDab 分別從專利和文獻(xiàn)中收集數(shù)萬條抗體序列;
-
結(jié)構(gòu)數(shù)據(jù)庫:Structural Antibody Database(SAbDab)從 PDB 中整理出約 1 萬條抗體結(jié)構(gòu),Thera-SAbDab 專門收錄治療性抗體;
-
功能數(shù)據(jù)庫:SKEMPI v2 記錄 7085 個突變的結(jié)合能變化,CoV-AbDab 聚焦抗冠狀病毒抗體(文檔表 1)。

這些數(shù)據(jù)庫為深度學(xué)習(xí)模型訓(xùn)練提供了 “燃料”,尤其是下一代測序(NGS)技術(shù)的普及,使得大規(guī)??贵w序列數(shù)據(jù)得以高效獲取。
2.2 深度學(xué)習(xí)模型的兩大支柱
在抗體設(shè)計中,兩類深度學(xué)習(xí)模型尤為關(guān)鍵:
-
圖神經(jīng)網(wǎng)絡(luò)(GNN):將蛋白質(zhì)結(jié)構(gòu)表示為圖,節(jié)點代表氨基酸,邊代表相互作用,如 Graph Convolutional Network(GCN)可捕捉三維空間中的幾何關(guān)系;
-
Transformer 模型:借鑒自然語言處理技術(shù),通過注意力機(jī)制學(xué)習(xí)序列中的長距離依賴,如 ESM-2、AntiBERTa 等蛋白質(zhì)語言模型(pLM),將氨基酸序列轉(zhuǎn)化為富含結(jié)構(gòu)與功能信息的嵌入向量(文檔圖 5)。
這兩類模型的結(jié)合,使深度學(xué)習(xí)能夠同時處理抗體的序列信息與結(jié)構(gòu)信息,實現(xiàn)從 “語言” 到 “形態(tài)” 的全面理解。
三、抗體序列與結(jié)構(gòu)設(shè)計:從生成到優(yōu)化的全流程創(chuàng)新
3.1 基于結(jié)構(gòu)的抗體設(shè)計
針對 CDR-H3 環(huán)的設(shè)計難題,研究人員開發(fā)了專門的結(jié)構(gòu)生成模型:
-
Ig-VAE:利用變分自編碼器(VAE)直接生成抗體骨架的 3D 坐標(biāo),通過約束結(jié)構(gòu)元素(如 Ramachandran 角)確保生成結(jié)構(gòu)的合理性,實現(xiàn)旋轉(zhuǎn)和平移不變性, backbone 生成精度達(dá) φ±10°、ψ±10°(文檔表 2);
-
親和力預(yù)測模型:如 Shan 等人的 Transformer 模型,通過分析氨基酸替換對結(jié)合能(ΔΔG)的影響,識別蛋白質(zhì)界面關(guān)鍵殘基對,單突變預(yù)測相關(guān)系數(shù)達(dá) 0.65(文檔表 2)。

這些模型突破了傳統(tǒng)方法依賴已知結(jié)構(gòu)模板的限制,實現(xiàn)了 “從頭設(shè)計” 抗體骨架的可能。
3.2 基于序列的抗體設(shè)計
蛋白質(zhì)序列與自然語言的相似性啟發(fā)了一系列語言模型的應(yīng)用:
-
AntiBERTy:在 5.58 億抗體序列上訓(xùn)練的 BERT 模型,能識別抗原結(jié)合殘基,揭示親和力成熟軌跡;
-
IgLM:基于 GPT-2 的抗體語言模型,可生成跨物種完整抗體序列,填充 CDR 環(huán)庫,在區(qū)分人類與非人類抗體時 AUROC 達(dá) 0.96;
-
nanoBERT:專為納米抗體設(shè)計的 Transformer,V 區(qū)重建準(zhǔn)確率比通用模型高 12%(文檔表 3)。
這些模型如同 “抗體語言翻譯器”,將序列信息轉(zhuǎn)化為功能預(yù)測,甚至能 “補(bǔ)全” 測序中缺失的氨基酸片段。
3.3 序列與結(jié)構(gòu)結(jié)合的協(xié)同設(shè)計
更先進(jìn)的模型實現(xiàn)了兩者的融合:
-
RefineGNN:通過圖神經(jīng)網(wǎng)絡(luò)迭代優(yōu)化序列與全局結(jié)構(gòu),利用圖表示氨基酸位置和骨架角度,指導(dǎo)殘基選擇,已用于設(shè)計抗 SARS-CoV-2 抗體;
-
擴(kuò)散模型:如 DiffAb 和 AbDiffuser,結(jié)合去噪擴(kuò)散概率模型(DDPM)實現(xiàn) CDR 序列 - 結(jié)構(gòu)共設(shè)計,其中 AbDiffuser 可獨立生成可變長度的全原子抗體結(jié)構(gòu)(文檔圖 7、表 4);
-
幻覺模型(Hallucination):FvHallucinator 基于參考結(jié)構(gòu)生成 Fv 序列庫,但需野生型序列引導(dǎo),無引導(dǎo)時 H3 氨基酸回收率僅 15-50%(文檔圖 7)。

這種 “雙軌設(shè)計” 模式,如同同時掌握語言語法與語義,使抗體設(shè)計兼具序列合理性與結(jié)構(gòu)功能性。
四、抗體結(jié)構(gòu)預(yù)測:從模糊到清晰的技術(shù)飛躍
4.1 通用蛋白質(zhì)折疊模型的突破
AlphaFold2 的問世標(biāo)志著蛋白質(zhì)結(jié)構(gòu)預(yù)測進(jìn)入新紀(jì)元:
-
工作原理:通過多序列比對(MSA)捕捉進(jìn)化關(guān)系,利用 Evoformer 模塊處理序列 - 結(jié)構(gòu)模式,最終通過結(jié)構(gòu)模塊生成 3D 坐標(biāo),在 CASP14 中達(dá)到原子級精度;
-
抗體適應(yīng)性:AlphaFold-Multimer 擴(kuò)展至復(fù)合物預(yù)測,但 CDR-H3 環(huán)因缺乏進(jìn)化數(shù)據(jù),MSA 方法效果有限;
-
新一代模型:AlphaFold3 采用擴(kuò)散框架,改進(jìn)抗原 - 抗體復(fù)合物預(yù)測,PairFormer 模塊替代 Evoformer,大幅縮短計算時間(文檔圖 8)。

4.2 專為抗體優(yōu)化的折疊模型
針對抗體特點優(yōu)化的模型表現(xiàn)更優(yōu):
-
ABlooper:使用 E (n)- 等變圖神經(jīng)網(wǎng)絡(luò)(E (n)-EGNNs)直接處理 3D 坐標(biāo),快速預(yù)測 6 個 CDR 環(huán)的 backbone 位置,單結(jié)構(gòu)預(yù)測僅需秒級;
-
IgFold:結(jié)合 AntiBERTy 嵌入與圖 Transformer,利用模板結(jié)構(gòu)提升納米抗體預(yù)測精度,平均誤差低于 ABlooper 和 DeepAb;
-
ABodyBuilder2:基于 AlphaFold-Multimer 定制,預(yù)測 CDR-H3 環(huán)的 RMSD 為 2.81Å,遠(yuǎn)超原始模型,且計算速度更快(文檔圖 9、表 5)。

這些模型如同 “抗體結(jié)構(gòu)顯微鏡”,將原本模糊的 CDR 環(huán)結(jié)構(gòu)清晰呈現(xiàn),為后續(xù)相互作用分析奠定基礎(chǔ)。

五、抗原 - 抗體相互作用:從預(yù)測到對接的精準(zhǔn)建模
5.1 結(jié)合界面預(yù)測
識別抗體的paratope(互補(bǔ)位)與抗原的epitope(表位)是關(guān)鍵第一步:
-
PECAN:使用對稱 GCN 同時預(yù)測兩者,paratope 預(yù)測 PR-AUC 達(dá) 0.70,epitope 因抗原表面不確定性僅 0.21;
-
EPMP:采用非對稱架構(gòu),Para-EPMP 結(jié)合序列與結(jié)構(gòu)圖預(yù)測 paratope,Epi-EPMP 僅依賴結(jié)構(gòu)預(yù)測 epitope,PR-AUC 分別提升至 0.75 和 0.28;
-
PINet:幾何深度神經(jīng)網(wǎng)絡(luò)將相互作用視為分割任務(wù),epitope 預(yù)測 PR-AUC 達(dá) 0.37,創(chuàng)當(dāng)前最佳(文檔圖 10、表 6)。
5.2 分子對接技術(shù)革新
對接模型模擬抗原 - 抗體結(jié)合姿態(tài):
-
GeoDock:借鑒 AlphaFold 架構(gòu),通過圖模塊和結(jié)構(gòu)模塊處理柔性配體,實現(xiàn)蛋白質(zhì) - 蛋白質(zhì)柔性對接,成功概率(SSR)達(dá) 41%;
-
DockGPT:利用 Transformer 進(jìn)行 CDR 環(huán)設(shè)計與抗原 - 抗體對接,H3 環(huán)設(shè)計 RMSD 為 1.88Å,對接 DockQ 分?jǐn)?shù) 26.1%;
-
dyMEAN:端到端全原子設(shè)計模型,結(jié)合多通道等變注意力網(wǎng)絡(luò),CDR 設(shè)計氨基酸回收率(AAR)達(dá) 60.07%,對接 DockQ 達(dá) 41.2%(文檔圖 11、表 7)。


這些對接模型如同 “分子媒人”,精準(zhǔn)預(yù)測抗原與抗體的最佳結(jié)合姿勢,為親和力優(yōu)化提供靶點。
六、抗體親和力成熟:從試錯到智能優(yōu)化的跨越
6.1 計算驅(qū)動的親和力提升
傳統(tǒng)隨機(jī)突變法效率低下,而深度學(xué)習(xí)模型可精準(zhǔn)預(yù)測突變效果:
-
GearBind:幾何 GNN 結(jié)合對比學(xué)習(xí),預(yù)測單突變 ΔΔG 的 Pearson 相關(guān)系數(shù) 0.62,均方根誤差(RMSE)1.40Å,優(yōu)于 Shan 等人的 Transformer 模型;
-
GeoPPI:通過圖注意力網(wǎng)絡(luò)(GAT)自監(jiān)督學(xué)習(xí)蛋白質(zhì)結(jié)構(gòu)拓?fù)涮卣?,多突變預(yù)測相關(guān)系數(shù)達(dá) 0.74,但單突變表現(xiàn)稍弱;
-
Shan 等人模型:針對 SARS-CoV-2 變體優(yōu)化的 Transformer,通過關(guān)注界面殘基對,單突變預(yù)測相關(guān)系數(shù) 0.65,助力廣譜中和抗體設(shè)計(文檔表 8)。

6.2 全流程優(yōu)化案例
以 CR3022 抗體優(yōu)化為例,GearBind 通過集成模型成功將其對 Omicron 株刺突蛋白的親和力提升 17 倍,且在 80% 的設(shè)計中實現(xiàn)親和力增強(qiáng),展現(xiàn)了計算方法在 抗體工程中的實際價值(文檔圖 12)。這種 “計算設(shè)計 - 實驗驗證” 的閉環(huán)模式,大幅縮短了親和力成熟周期。

七、抗體可開發(fā)性評估:從實驗室到臨床的關(guān)鍵把關(guān)
7.1 多維度評估體系
可開發(fā)性評估關(guān)注抗體的成藥潛力:
-
穩(wěn)定性:預(yù)測熱穩(wěn)定性、聚集傾向;
-
免疫原性:評估非人源序列引發(fā)免疫反應(yīng)的風(fēng)險;
-
化學(xué)降解:分析氧化、糖基化等修飾可能性。
7.2 深度學(xué)習(xí)的應(yīng)用
盡管該領(lǐng)域研究較少,已有模型嘗試整合序列與結(jié)構(gòu)信息:
-
IgLM:通過生成序列優(yōu)化可開發(fā)性,降低免疫原性風(fēng)險;
-
計算工具:如 StabilityScore、Aggrescan 等,結(jié)合深度學(xué)習(xí)預(yù)測聚集熱點,但尚未形成完整體系。
可開發(fā)性評估如同 “抗體質(zhì)量檢測站”,在早期篩選出高成藥潛力的候選分子,降低臨床失敗風(fēng)險。
八、挑戰(zhàn)與未來:深度學(xué)習(xí)抗體設(shè)計的下一個前沿
8.1 當(dāng)前技術(shù)瓶頸
-
數(shù)據(jù)缺口:高質(zhì)量抗原 - 抗體復(fù)合物結(jié)構(gòu)仍有限,尤其缺乏罕見病原體相關(guān)數(shù)據(jù);
-
動態(tài)建模:抗體與抗原結(jié)合時的構(gòu)象變化難以精準(zhǔn)模擬;
-
多參數(shù)平衡:親和力、穩(wěn)定性、可開發(fā)性等多目標(biāo)優(yōu)化尚未有效整合;
-
可解釋性:深度學(xué)習(xí)模型的 “黑箱” 特性阻礙機(jī)制理解。
8.2 未來發(fā)展方向
-
多模態(tài)模型:整合序列、結(jié)構(gòu)、功能數(shù)據(jù)的統(tǒng)一框架;
-
實時設(shè)計平臺:基于云計算的交互式抗體設(shè)計工具;
-
AI 驅(qū)動濕實驗:自動化實驗平臺與深度學(xué)習(xí)的無縫銜接;
-
個性化抗體:結(jié)合患者免疫特征的定制化抗體開發(fā)。
正如 AlphaFold 改變了蛋白質(zhì)結(jié)構(gòu)預(yù)測,深度學(xué)習(xí)正在重塑抗體設(shè)計的全流程。從 “試錯驅(qū)動” 到 “計算驅(qū)動” 的轉(zhuǎn)變,不僅加速了新藥研發(fā),更為攻克癌癥、傳染病等重大疾病提供了強(qiáng)大工具。未來,隨著模型精度提升與數(shù)據(jù)積累,深度學(xué)習(xí)有望成為抗體藥物發(fā)現(xiàn)的核心引擎,推動生物醫(yī)學(xué)進(jìn)入精準(zhǔn)設(shè)計的新時代。