高 闖,唐 冕,趙 亮,2*
(1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,南寧 530004;2.湖北醫(yī)藥學(xué)院太和醫(yī)院,湖北十堰 442000)
(?通信作者電子郵箱S080011@e.ntu.edu.sg)
B 細(xì)胞表位是抗原表面上可以被抗體的免疫反應(yīng)識(shí)別的特定區(qū)域[1]。識(shí)別抗原與抗體相結(jié)合的表位對(duì)現(xiàn)代藥物和疫苗的開(kāi)發(fā)起到至關(guān)重要的作用[2-3]。通過(guò)實(shí)驗(yàn)方法(如X 射線晶體學(xué)[4])檢測(cè)表位雖然準(zhǔn)確,但需要消耗大量的時(shí)間和資源,因此,探索有效并且可靠的計(jì)算方法進(jìn)行抗原上的B細(xì)胞表位識(shí)別,具有重要的現(xiàn)實(shí)意義;同時(shí),蛋白質(zhì)數(shù)據(jù)庫(kù)(Protein Data Bank,PDB)[5]中提供的抗原-抗體結(jié)構(gòu)數(shù)據(jù)也為預(yù)測(cè)算法的研究提供了幫助。
目前,已經(jīng)開(kāi)發(fā)出許多可用于預(yù)測(cè)表位的計(jì)算方法。Kringelum 等[6]提出的方法使用了來(lái)自376 種抗原-抗體復(fù)合物的107 個(gè)抗原數(shù)據(jù)的結(jié)構(gòu)和幾何特征;Sun 等[7]通過(guò)分析161 種免疫球蛋白復(fù)合物的理化性質(zhì)和結(jié)構(gòu)特征,識(shí)別表位和非表位之間的差異。隨著機(jī)器學(xué)習(xí)算法的發(fā)展,這些技術(shù)也被用于設(shè)計(jì)表位預(yù)測(cè)算法。例如,Zhang等[8]結(jié)合常規(guī)特征和從3D 結(jié)構(gòu)中提取的特殊特征,將隨機(jī)森林算法用作分類器,設(shè)計(jì)B 細(xì)胞構(gòu)象表位的預(yù)測(cè)模型。此外基于圖的方法也被應(yīng)用于表位預(yù)測(cè),如CEP(Conformational Epitope Prediction server)[9]。但是,這些方法大部分只關(guān)注單個(gè)或多個(gè)分離的表位,對(duì)抗原中存在的重疊表位的預(yù)測(cè)效果不理想。與免疫反應(yīng)相關(guān)的蛋白質(zhì)不止存在單個(gè)或多個(gè)分離的結(jié)合位點(diǎn)情況,還存在多個(gè)重疊的結(jié)合位點(diǎn)的情況[10]。Zhao 等[11]提出的模型已經(jīng)證明重疊的子圖挖掘方法可以提高對(duì)抗原表位的識(shí)別能力,特別是對(duì)于多個(gè)重疊表位;但是,該模型在子圖擴(kuò)展階段需要設(shè)置閾值,這會(huì)降低模型的泛化能力。
針對(duì)現(xiàn)有表位預(yù)測(cè)方法對(duì)重疊表位預(yù)測(cè)能力不佳的問(wèn)題,本文提出了一種基于局部度量(Local Metric,L-Metric)[12]的重疊子圖發(fā)現(xiàn)算法用于表位預(yù)測(cè)的模型SGLMEP(overlapping SubGraph mining based on L-Metric for Epitope Prediction)。該模型分為三個(gè)主要步驟:1)利用抗原-抗體復(fù)合物中的表面原子構(gòu)建氨基酸殘基圖;2)利用馬爾可夫聚類算法(Markov CLustering algorithm,MCL)[13]將氨基酸殘基圖劃分為互不重疊的種子子圖,并利用重疊子圖發(fā)現(xiàn)算法對(duì)種子子圖擴(kuò)展以得到重疊子圖;3)利用圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional neural Network,GCN)[14]和全連接網(wǎng)絡(luò)(Fully Connected Network,F(xiàn)CN)[15]構(gòu)建的分類器對(duì)子圖進(jìn)行分類。
本文采用兩個(gè)步驟構(gòu)建氨基酸殘基圖:第一,利用抗原鏈中氨基酸殘基的表面原子構(gòu)建原子圖;第二,將表面原子圖升級(jí)為氨基酸殘基圖。表面原子的定義是指可及表面積(Accessible Surface Area,ASA)不小于10 ?2的原子[16]。為了得到抗原主鏈和側(cè)鏈上的表面原子,本文使用工具NACCESS(Non-commercial atomic solvent ACCESSible area calculation)[17]計(jì)算每個(gè)原子的ASA,探針大小采用默認(rèn)設(shè)置。根據(jù)表面原子的坐標(biāo)構(gòu)建KD(K-Dimensional)樹(shù)[18](利用空間劃分在k維空間中存儲(chǔ)點(diǎn)的一種數(shù)據(jù)結(jié)構(gòu)),計(jì)算由表面原子構(gòu)成的不大于閾值(設(shè)置為8 ?)的邊。通過(guò)此步驟可以得到抗原的原子圖表示。若兩個(gè)氨基酸殘基中的原子至少有一組邊,則定義兩個(gè)殘基存在邊。按照此規(guī)則,將原子圖表示升級(jí)為氨基酸殘基圖。當(dāng)兩個(gè)氨基酸殘基的側(cè)鏈最外層原子之間存在邊時(shí),則兩個(gè)殘基也一定存在邊,因此,為了減少計(jì)算量,在構(gòu)建原子圖表示時(shí)僅利用主鏈的表面原子與側(cè)鏈的最外層原子。
對(duì)重疊社區(qū)的檢測(cè)已被廣泛用于發(fā)現(xiàn)社交網(wǎng)絡(luò)中的社區(qū)挖掘[19-20]。本文基于子圖劃分和社區(qū)挖掘思想提出了基于L-Metric的重疊子圖發(fā)現(xiàn)算法,包括子圖發(fā)現(xiàn)和子圖擴(kuò)展兩個(gè)階段。
MCL 是一種子圖劃分的算法,它基于消息流傳遞發(fā)現(xiàn)圖中成員的不重疊分組[13],因此,首先使用該算法將氨基酸殘基圖劃分為互不重疊的種子子圖。MCL的機(jī)制是模擬帶權(quán)重的無(wú)向圖中的消息流傳遞過(guò)程,需要輸入由邊權(quán)重組成的轉(zhuǎn)移矩陣。本文基于Zhao 等[16]提出的邊界邊思想,設(shè)計(jì)邊權(quán)重的計(jì)算公式。
本文計(jì)算氨基酸殘基(組成生命體中蛋白質(zhì)的20 種氨基酸)r1和r2構(gòu)成的邊的權(quán)重W(r1,r2),由兩部分組成,即由r1和r2構(gòu)成的邊在表位和非表位中的頻率的χ2檢驗(yàn)和對(duì)數(shù)函數(shù)生成,具體計(jì)算式為:
其中:α為超參數(shù),通過(guò)網(wǎng)格搜索法優(yōu)化后為0.4;Wχ2(r1,r2)和的計(jì)算式如式(2)、(3)。
其中:c∈{c1,c2},c1為表位殘基,c2為非表位殘基為在殘基圖x中標(biāo)簽是c的殘基r1和r2構(gòu)成的邊的出現(xiàn)頻率;為標(biāo)簽是c的殘基r1和r2構(gòu)成的邊出現(xiàn)頻率的期望。的計(jì)算式為:
其中:P為由氨基酸殘基圖所組成的數(shù)據(jù)集;的計(jì)算如式(5)。
其中:γ和φ為超參數(shù),通過(guò)網(wǎng)格搜索法優(yōu)化后分別為4和1。
在殘基圖中,邊界邊(由表位殘基和非表位殘基構(gòu)成的邊)的存在會(huì)影響對(duì)表位與非表位殘基的鑒別。利用上述公式,計(jì)算在c1為邊界殘基和c2為表位殘基、c1為邊界殘基和c2為非表位殘基的兩種情況下邊的權(quán)重,這兩個(gè)權(quán)重中較大的為邊的新權(quán)重。當(dāng)權(quán)重不小于θ(超參數(shù),通過(guò)網(wǎng)格搜索法優(yōu)化后為0.5)時(shí),則這條邊被當(dāng)作邊界邊從殘基圖中刪除。
L-Metric可以度量局部社區(qū)網(wǎng)絡(luò)中的成員關(guān)系緊密度,它的優(yōu)點(diǎn)是不需要全局網(wǎng)絡(luò)信息,且不需要設(shè)置任何參數(shù)。本文基于L-Metric對(duì)種子子圖進(jìn)行擴(kuò)展,以檢測(cè)重疊子圖。
圖1 描述了在氨基酸殘基圖G中的一個(gè)子圖的定義。D是G的一個(gè)子圖內(nèi)的點(diǎn)構(gòu)成的集合,它被分為兩部分:邊界點(diǎn)集合B(與D外的點(diǎn)存在連接關(guān)系的點(diǎn)構(gòu)成的集合)和核心點(diǎn)集合C(僅與D中的點(diǎn)存在連接關(guān)系的點(diǎn)構(gòu)成的集合)。鄰居點(diǎn)集合N是D外與邊界點(diǎn)存在連接關(guān)系的點(diǎn)構(gòu)成的集合。
圖1 子圖描述Fig.1 Description of subgraph
本文中度量L的計(jì)算方法為:
式中,Lin和Lex分別為內(nèi)部和外部的度量,具體計(jì)算式為:
式中:Win和Wex為子圖內(nèi)部和外部權(quán)重;W(ri,rj)為由式(1)計(jì)算得到的邊權(quán)重。
式中:Ein為由D中的點(diǎn)構(gòu)成的邊集;Eex為B中的點(diǎn)與N中的點(diǎn)構(gòu)成的邊集。
因此,當(dāng)新加入的點(diǎn)滿足第1)種和第2)種情況時(shí),該點(diǎn)被加入后形成新的D。當(dāng)沒(méi)有其他點(diǎn)被添加進(jìn)D時(shí),則得到擴(kuò)展后的重疊子圖。擴(kuò)展后的重疊子圖包含表位殘基和非表位殘基。本文將表位殘基數(shù)不少于3 個(gè)的重疊子圖標(biāo)記為表位子圖,其他標(biāo)記為非表位子圖。
抗原表位預(yù)測(cè)的難點(diǎn)之一是特征選擇問(wèn)題[21]。深度學(xué)習(xí)是一種無(wú)特征學(xué)習(xí)算法,它能夠自動(dòng)提取特征,降低因?qū)I(yè)知識(shí)不足而導(dǎo)致忽略某些重要特征的可能性。本文構(gòu)建了基于深度學(xué)習(xí)的子圖分類模型,總體架構(gòu)如圖2 所示,主要由基于圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)構(gòu)建的特征提取器和基于全連接網(wǎng)絡(luò)(FCN)構(gòu)建的分類器兩部分構(gòu)成。
圖2 分類模型總體架構(gòu)Fig.2 Overall architecture of classification model
圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在圖數(shù)據(jù)上的擴(kuò)展,它可以有效地利用圖數(shù)據(jù)的全局信息表示圖節(jié)點(diǎn)的特征。本文構(gòu)建的特征提取器包含兩層GCN。假設(shè)GCN 的輸入子圖G=(A,Z),A∈Rn×n表示子圖帶權(quán)重的鄰接矩陣,Z∈Rn×d表示節(jié)點(diǎn)的特征矩陣,其中,n表示圖中節(jié)點(diǎn)的數(shù)量,d表示節(jié)點(diǎn)特征向量的維度。第i∈{1,2}層的GCN通過(guò)式(13)得到第i層節(jié)點(diǎn)特征矩陣:
由兩層FCN 構(gòu)成的分類器,以特征提取器得到的節(jié)點(diǎn)特征矩陣為輸入。第j∈{1,2}層FCN的映射公式為:
分類器得到子圖節(jié)點(diǎn)的類別屬性(表位殘基或者非表位殘基),然后利用子圖類別定義(子圖中含有不少于3 個(gè)表位殘基的子圖為表位子圖)對(duì)子圖進(jìn)行分類。
由于表位與非表位數(shù)據(jù)的數(shù)量極不平衡,表位子圖的數(shù)量遠(yuǎn)遠(yuǎn)少于非表位子圖的數(shù)量。在本文使用的訓(xùn)練數(shù)據(jù)中,表位子圖的數(shù)量與非表位子圖的數(shù)量之比為1∶6。為了避免與此問(wèn)題相關(guān)的性能損失,本文在訓(xùn)練過(guò)程使用焦點(diǎn)損失函數(shù)(Focal Loss function,F(xiàn)L)[23]作為網(wǎng)絡(luò)結(jié)構(gòu)的損失函數(shù),計(jì)算式為:
式中,λ為超參數(shù),通過(guò)網(wǎng)格搜索優(yōu)化后為2。pt和αt的計(jì)算式如下:
式中:p∈[0,1]為正類的概率;α∈[0,1]為正類在訓(xùn)練樣本中所占比例;y∈{-1,+1}為子圖標(biāo)簽類型(其中,-1 表示負(fù)類即非表位子圖,+1表示正類即表位子圖)。
本文從PDB 中檢索到808種抗體-抗原復(fù)合物,利用通用的數(shù)據(jù)選擇標(biāo)準(zhǔn)[10,16]從其中篩選出397 種復(fù)合物。然后,使用 工 具 CD-HIT(Cluster Database at High Identity with Tolerance)[24]去除序列相似性不小于0.9 的冗余數(shù)據(jù)以降低噪聲。最終,獲得了由254個(gè)復(fù)合物組成的實(shí)驗(yàn)數(shù)據(jù)。
由于非表位子圖數(shù)據(jù)的數(shù)量遠(yuǎn)多于表位子圖數(shù)據(jù),為了實(shí)驗(yàn)的準(zhǔn)確性,本文采用F1值、召回率Re(Recall)和精確度Pre(Precision)作為模型表位子圖分類效果的評(píng)估指標(biāo),計(jì)算式為:
式中:TP(True Positive)表示實(shí)際為表位子圖被正確預(yù)測(cè)的數(shù)量;FN(False Negative)表示實(shí)際為表位子圖被錯(cuò)誤預(yù)測(cè)的數(shù)量;FP(False Positive)表示實(shí)際為非表位子圖被錯(cuò)誤預(yù)測(cè)的數(shù)量。
選擇當(dāng)前主流的表位預(yù)測(cè)模型DiscoTope 2(Discontinuous epiTope prediction 2)[25]、ElliPro(Ellipsoid and Protrusion)[26]、EpiPred(Epitope Prediction server)[27]和Glep(overlapping Graph clustering-based B-cell epitope predictor)[10]與本文所提出的模型SGLMEP 進(jìn)行比較。圖3 描述了各個(gè)表位預(yù)測(cè)模型的F1值分布。從圖3 中可以看出,SGLMEP 的F1值優(yōu)于其他模型,且擁有更高的性能下限。
圖3 表位預(yù)測(cè)模型的F1值比較Fig.3 F1-score comparison of epitope prediction models
表1 給出了各表位預(yù)測(cè)模型的平均F1值、召回率和精確度。與表位預(yù)測(cè)模型DiscoTope 2、ElliPro、EpiPred 和Glep 相比,本文所提出的模型SGLMEP 將平均F1值分別提高了267.3%、57.0%、65.4% 和3.5%。從表1 可以看出,模型SGLMEP 主要的優(yōu)勢(shì)在于擁有更高的召回率,與Glep 相比提高了18.3%。實(shí)驗(yàn)結(jié)果說(shuō)明,SGLMEP 能夠識(shí)別出更多的潛在表位殘基,對(duì)重疊表位的識(shí)別優(yōu)于Glep。雖然SGLMEP 的精確度不是十分突出,但仍然高于大多數(shù)模型。
表1 不同預(yù)測(cè)模型結(jié)果對(duì)比Tab.1 Result comparison of different prediction models
本文所提出的模型SGLMEP 的核心是基于L-Metric 的重疊子圖發(fā)現(xiàn)算法。通過(guò)在相同實(shí)驗(yàn)數(shù)據(jù)上進(jìn)行消融實(shí)驗(yàn),驗(yàn)證該算法對(duì)表位預(yù)測(cè)性能的影響。
通過(guò)圖4可以直觀地看出,基于L-Metric的重疊子圖發(fā)現(xiàn)算法的F1值高于未使用的情況。實(shí)驗(yàn)結(jié)果表明,該重疊子圖發(fā)現(xiàn)算法對(duì)表位預(yù)測(cè)性能的提升是有效的。應(yīng)用該算法的模型的優(yōu)勢(shì)主要是提高了召回率,即對(duì)未知表位殘基的識(shí)別能力。
表2 給出了消融實(shí)驗(yàn)的詳細(xì)結(jié)果。通過(guò)表2 中數(shù)據(jù)可以看出,應(yīng)用了基于L-Metric 的重疊子圖發(fā)現(xiàn)算法的模型相較于未使用子圖發(fā)現(xiàn)算法時(shí)的平均F1值、召回率分別提高了19.2%和38.9%。
表2 消融實(shí)驗(yàn)的詳細(xì)結(jié)果Tab.2 Detailed results of ablation experiment
為提高重疊表位預(yù)測(cè)性能,本文提出了基于L-Metric 的重疊子圖發(fā)現(xiàn)算法,自適應(yīng)對(duì)種子子圖進(jìn)行擴(kuò)展。同時(shí),利用深度學(xué)習(xí)算法自學(xué)習(xí)特征的特點(diǎn)設(shè)計(jì)分類模型,降低人工設(shè)計(jì)特征構(gòu)建分類器的難度。通過(guò)實(shí)驗(yàn)驗(yàn)證了本文所提出的表位預(yù)測(cè)模型SGLMEP 對(duì)抗原表位具有良好的預(yù)測(cè)性能。此外,通過(guò)消融實(shí)驗(yàn)驗(yàn)證了本文所提出的重疊子圖算法的有效性。在今后的研究工作中,將對(duì)重疊子圖發(fā)現(xiàn)算法進(jìn)行優(yōu)化,旨在發(fā)現(xiàn)更多潛在表位的基礎(chǔ)上,進(jìn)一步提高對(duì)表位識(shí)別的精確程度。