基于L-Metric重疊子圖發(fā)現(xiàn)的B細(xì)胞表位預(yù)測(cè)模型

2022-01-05 02:32高闖，唐冕，趙亮，2*

計(jì)算機(jī)應(yīng)用 2021年12期

高闖，唐冕，趙亮，2*

（1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院，南寧 530004；2.湖北醫(yī)藥學(xué)院太和醫(yī)院，湖北十堰 442000）

（?通信作者電子郵箱S080011@e.ntu.edu.sg）

0 引言

B 細(xì)胞表位是抗原表面上可以被抗體的免疫反應(yīng)識(shí)別的特定區(qū)域［1］。識(shí)別抗原與抗體相結(jié)合的表位對(duì)現(xiàn)代藥物和疫苗的開(kāi)發(fā)起到至關(guān)重要的作用［2-3］。通過(guò)實(shí)驗(yàn)方法（如X 射線晶體學(xué)［4］）檢測(cè)表位雖然準(zhǔn)確，但需要消耗大量的時(shí)間和資源，因此，探索有效并且可靠的計(jì)算方法進(jìn)行抗原上的B細(xì)胞表位識(shí)別，具有重要的現(xiàn)實(shí)意義；同時(shí)，蛋白質(zhì)數(shù)據(jù)庫(kù)（Protein Data Bank，PDB）［5］中提供的抗原-抗體結(jié)構(gòu)數(shù)據(jù)也為預(yù)測(cè)算法的研究提供了幫助。

目前，已經(jīng)開(kāi)發(fā)出許多可用于預(yù)測(cè)表位的計(jì)算方法。Kringelum 等［6］提出的方法使用了來(lái)自376 種抗原-抗體復(fù)合物的107 個(gè)抗原數(shù)據(jù)的結(jié)構(gòu)和幾何特征；Sun 等［7］通過(guò)分析161 種免疫球蛋白復(fù)合物的理化性質(zhì)和結(jié)構(gòu)特征，識(shí)別表位和非表位之間的差異。隨著機(jī)器學(xué)習(xí)算法的發(fā)展，這些技術(shù)也被用于設(shè)計(jì)表位預(yù)測(cè)算法。例如，Zhang等［8］結(jié)合常規(guī)特征和從3D 結(jié)構(gòu)中提取的特殊特征，將隨機(jī)森林算法用作分類器，設(shè)計(jì)B 細(xì)胞構(gòu)象表位的預(yù)測(cè)模型。此外基于圖的方法也被應(yīng)用于表位預(yù)測(cè)，如CEP（Conformational Epitope Prediction server）［9］。但是，這些方法大部分只關(guān)注單個(gè)或多個(gè)分離的表位，對(duì)抗原中存在的重疊表位的預(yù)測(cè)效果不理想。與免疫反應(yīng)相關(guān)的蛋白質(zhì)不止存在單個(gè)或多個(gè)分離的結(jié)合位點(diǎn)情況，還存在多個(gè)重疊的結(jié)合位點(diǎn)的情況［10］。Zhao 等［11］提出的模型已經(jīng)證明重疊的子圖挖掘方法可以提高對(duì)抗原表位的識(shí)別能力，特別是對(duì)于多個(gè)重疊表位；但是，該模型在子圖擴(kuò)展階段需要設(shè)置閾值，這會(huì)降低模型的泛化能力。

針對(duì)現(xiàn)有表位預(yù)測(cè)方法對(duì)重疊表位預(yù)測(cè)能力不佳的問(wèn)題，本文提出了一種基于局部度量（Local Metric，L-Metric）［12］的重疊子圖發(fā)現(xiàn)算法用于表位預(yù)測(cè)的模型SGLMEP（overlapping SubGraph mining based on L-Metric for Epitope Prediction）。該模型分為三個(gè)主要步驟：1）利用抗原-抗體復(fù)合物中的表面原子構(gòu)建氨基酸殘基圖；2）利用馬爾可夫聚類算法（Markov CLustering algorithm，MCL）［13］將氨基酸殘基圖劃分為互不重疊的種子子圖，并利用重疊子圖發(fā)現(xiàn)算法對(duì)種子子圖擴(kuò)展以得到重疊子圖；3）利用圖卷積神經(jīng)網(wǎng)絡(luò)（Graph Convolutional neural Network，GCN）［14］和全連接網(wǎng)絡(luò)（Fully Connected Network，F(xiàn)CN）［15］構(gòu)建的分類器對(duì)子圖進(jìn)行分類。

1 氨基酸殘基圖的構(gòu)建

本文采用兩個(gè)步驟構(gòu)建氨基酸殘基圖：第一，利用抗原鏈中氨基酸殘基的表面原子構(gòu)建原子圖；第二，將表面原子圖升級(jí)為氨基酸殘基圖。表面原子的定義是指可及表面積（Accessible Surface Area，ASA）不小于10 ?2的原子［16］。為了得到抗原主鏈和側(cè)鏈上的表面原子，本文使用工具NACCESS（Non-commercial atomic solvent ACCESSible area calculation）［17］計(jì)算每個(gè)原子的ASA，探針大小采用默認(rèn)設(shè)置。根據(jù)表面原子的坐標(biāo)構(gòu)建KD（K-Dimensional）樹(shù)［18］（利用空間劃分在k維空間中存儲(chǔ)點(diǎn)的一種數(shù)據(jù)結(jié)構(gòu)），計(jì)算由表面原子構(gòu)成的不大于閾值（設(shè)置為8 ?）的邊。通過(guò)此步驟可以得到抗原的原子圖表示。若兩個(gè)氨基酸殘基中的原子至少有一組邊，則定義兩個(gè)殘基存在邊。按照此規(guī)則，將原子圖表示升級(jí)為氨基酸殘基圖。當(dāng)兩個(gè)氨基酸殘基的側(cè)鏈最外層原子之間存在邊時(shí)，則兩個(gè)殘基也一定存在邊，因此，為了減少計(jì)算量，在構(gòu)建原子圖表示時(shí)僅利用主鏈的表面原子與側(cè)鏈的最外層原子。

2 基于L-Metric的重疊子圖發(fā)現(xiàn)算法

對(duì)重疊社區(qū)的檢測(cè)已被廣泛用于發(fā)現(xiàn)社交網(wǎng)絡(luò)中的社區(qū)挖掘［19-20］。本文基于子圖劃分和社區(qū)挖掘思想提出了基于L-Metric的重疊子圖發(fā)現(xiàn)算法，包括子圖發(fā)現(xiàn)和子圖擴(kuò)展兩個(gè)階段。

2.1 子圖發(fā)現(xiàn)

MCL 是一種子圖劃分的算法，它基于消息流傳遞發(fā)現(xiàn)圖中成員的不重疊分組［13］，因此，首先使用該算法將氨基酸殘基圖劃分為互不重疊的種子子圖。MCL的機(jī)制是模擬帶權(quán)重的無(wú)向圖中的消息流傳遞過(guò)程，需要輸入由邊權(quán)重組成的轉(zhuǎn)移矩陣。本文基于Zhao 等［16］提出的邊界邊思想，設(shè)計(jì)邊權(quán)重的計(jì)算公式。

本文計(jì)算氨基酸殘基（組成生命體中蛋白質(zhì)的20 種氨基酸）r1和r2構(gòu)成的邊的權(quán)重W(r1，r2)，由兩部分組成，即由r1和r2構(gòu)成的邊在表位和非表位中的頻率的χ2檢驗(yàn)和對(duì)數(shù)函數(shù)生成，具體計(jì)算式為：

其中：α為超參數(shù)，通過(guò)網(wǎng)格搜索法優(yōu)化后為0.4；Wχ2(r1，r2)和的計(jì)算式如式（2）、（3）。

其中：c∈{c1，c2}，c1為表位殘基，c2為非表位殘基為在殘基圖x中標(biāo)簽是c的殘基r1和r2構(gòu)成的邊的出現(xiàn)頻率；為標(biāo)簽是c的殘基r1和r2構(gòu)成的邊出現(xiàn)頻率的期望。的計(jì)算式為：

其中：P為由氨基酸殘基圖所組成的數(shù)據(jù)集；的計(jì)算如式（5）。

其中：γ和φ為超參數(shù)，通過(guò)網(wǎng)格搜索法優(yōu)化后分別為4和1。

在殘基圖中，邊界邊（由表位殘基和非表位殘基構(gòu)成的邊）的存在會(huì)影響對(duì)表位與非表位殘基的鑒別。利用上述公式，計(jì)算在c1為邊界殘基和c2為表位殘基、c1為邊界殘基和c2為非表位殘基的兩種情況下邊的權(quán)重，這兩個(gè)權(quán)重中較大的為邊的新權(quán)重。當(dāng)權(quán)重不小于θ（超參數(shù)，通過(guò)網(wǎng)格搜索法優(yōu)化后為0.5）時(shí)，則這條邊被當(dāng)作邊界邊從殘基圖中刪除。

2.2 子圖擴(kuò)展

L-Metric可以度量局部社區(qū)網(wǎng)絡(luò)中的成員關(guān)系緊密度，它的優(yōu)點(diǎn)是不需要全局網(wǎng)絡(luò)信息，且不需要設(shè)置任何參數(shù)。本文基于L-Metric對(duì)種子子圖進(jìn)行擴(kuò)展，以檢測(cè)重疊子圖。

圖1 描述了在氨基酸殘基圖G中的一個(gè)子圖的定義。D是G的一個(gè)子圖內(nèi)的點(diǎn)構(gòu)成的集合，它被分為兩部分：邊界點(diǎn)集合B（與D外的點(diǎn)存在連接關(guān)系的點(diǎn)構(gòu)成的集合）和核心點(diǎn)集合C（僅與D中的點(diǎn)存在連接關(guān)系的點(diǎn)構(gòu)成的集合）。鄰居點(diǎn)集合N是D外與邊界點(diǎn)存在連接關(guān)系的點(diǎn)構(gòu)成的集合。

圖1 子圖描述Fig.1 Description of subgraph

本文中度量L的計(jì)算方法為：

式中，Lin和Lex分別為內(nèi)部和外部的度量，具體計(jì)算式為：

式中：Win和Wex為子圖內(nèi)部和外部權(quán)重；W(ri，rj)為由式（1）計(jì)算得到的邊權(quán)重。

式中：Ein為由D中的點(diǎn)構(gòu)成的邊集；Eex為B中的點(diǎn)與N中的點(diǎn)構(gòu)成的邊集。

因此，當(dāng)新加入的點(diǎn)滿足第1）種和第2）種情況時(shí)，該點(diǎn)被加入后形成新的D。當(dāng)沒(méi)有其他點(diǎn)被添加進(jìn)D時(shí)，則得到擴(kuò)展后的重疊子圖。擴(kuò)展后的重疊子圖包含表位殘基和非表位殘基。本文將表位殘基數(shù)不少于3 個(gè)的重疊子圖標(biāo)記為表位子圖，其他標(biāo)記為非表位子圖。

3 基于深度學(xué)習(xí)的子圖分類模型

3.1 模型總體架構(gòu)

抗原表位預(yù)測(cè)的難點(diǎn)之一是特征選擇問(wèn)題［21］。深度學(xué)習(xí)是一種無(wú)特征學(xué)習(xí)算法，它能夠自動(dòng)提取特征，降低因?qū)I(yè)知識(shí)不足而導(dǎo)致忽略某些重要特征的可能性。本文構(gòu)建了基于深度學(xué)習(xí)的子圖分類模型，總體架構(gòu)如圖2 所示，主要由基于圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）構(gòu)建的特征提取器和基于全連接網(wǎng)絡(luò)（FCN）構(gòu)建的分類器兩部分構(gòu)成。

圖2 分類模型總體架構(gòu)Fig.2 Overall architecture of classification model

圖卷積神經(jīng)網(wǎng)絡(luò)（GCN）是卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）在圖數(shù)據(jù)上的擴(kuò)展，它可以有效地利用圖數(shù)據(jù)的全局信息表示圖節(jié)點(diǎn)的特征。本文構(gòu)建的特征提取器包含兩層GCN。假設(shè)GCN 的輸入子圖G=(A，Z)，A∈Rn×n表示子圖帶權(quán)重的鄰接矩陣，Z∈Rn×d表示節(jié)點(diǎn)的特征矩陣，其中，n表示圖中節(jié)點(diǎn)的數(shù)量，d表示節(jié)點(diǎn)特征向量的維度。第i∈{1，2}層的GCN通過(guò)式（13）得到第i層節(jié)點(diǎn)特征矩陣：

由兩層FCN 構(gòu)成的分類器，以特征提取器得到的節(jié)點(diǎn)特征矩陣為輸入。第j∈{1，2}層FCN的映射公式為：

分類器得到子圖節(jié)點(diǎn)的類別屬性（表位殘基或者非表位殘基），然后利用子圖類別定義（子圖中含有不少于3 個(gè)表位殘基的子圖為表位子圖）對(duì)子圖進(jìn)行分類。

3.2 基于代價(jià)敏感的損失函數(shù)

由于表位與非表位數(shù)據(jù)的數(shù)量極不平衡，表位子圖的數(shù)量遠(yuǎn)遠(yuǎn)少于非表位子圖的數(shù)量。在本文使用的訓(xùn)練數(shù)據(jù)中，表位子圖的數(shù)量與非表位子圖的數(shù)量之比為1∶6。為了避免與此問(wèn)題相關(guān)的性能損失，本文在訓(xùn)練過(guò)程使用焦點(diǎn)損失函數(shù)（Focal Loss function，F(xiàn)L）［23］作為網(wǎng)絡(luò)結(jié)構(gòu)的損失函數(shù)，計(jì)算式為：

式中，λ為超參數(shù)，通過(guò)網(wǎng)格搜索優(yōu)化后為2。pt和αt的計(jì)算式如下：

式中：p∈[0，1]為正類的概率；α∈[0，1]為正類在訓(xùn)練樣本中所占比例；y∈{-1，+1}為子圖標(biāo)簽類型（其中，-1 表示負(fù)類即非表位子圖，+1表示正類即表位子圖）。

4 實(shí)驗(yàn)和結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

本文從PDB 中檢索到808種抗體-抗原復(fù)合物，利用通用的數(shù)據(jù)選擇標(biāo)準(zhǔn)［10，16］從其中篩選出397 種復(fù)合物。然后，使用工具 CD-HIT（Cluster Database at High Identity with Tolerance）［24］去除序列相似性不小于0.9 的冗余數(shù)據(jù)以降低噪聲。最終，獲得了由254個(gè)復(fù)合物組成的實(shí)驗(yàn)數(shù)據(jù)。

4.2 模型評(píng)估及分析

由于非表位子圖數(shù)據(jù)的數(shù)量遠(yuǎn)多于表位子圖數(shù)據(jù)，為了實(shí)驗(yàn)的準(zhǔn)確性，本文采用F1值、召回率Re（Recall）和精確度Pre（Precision）作為模型表位子圖分類效果的評(píng)估指標(biāo)，計(jì)算式為：

式中：TP（True Positive）表示實(shí)際為表位子圖被正確預(yù)測(cè)的數(shù)量；FN（False Negative）表示實(shí)際為表位子圖被錯(cuò)誤預(yù)測(cè)的數(shù)量；FP（False Positive）表示實(shí)際為非表位子圖被錯(cuò)誤預(yù)測(cè)的數(shù)量。

選擇當(dāng)前主流的表位預(yù)測(cè)模型DiscoTope 2（Discontinuous epiTope prediction 2）［25］、ElliPro（Ellipsoid and Protrusion）［26］、EpiPred（Epitope Prediction server）［27］和Glep（overlapping Graph clustering-based B-cell epitope predictor）［10］與本文所提出的模型SGLMEP 進(jìn)行比較。圖3 描述了各個(gè)表位預(yù)測(cè)模型的F1值分布。從圖3 中可以看出，SGLMEP 的F1值優(yōu)于其他模型，且擁有更高的性能下限。

圖3 表位預(yù)測(cè)模型的F1值比較Fig.3 F1-score comparison of epitope prediction models

表1 給出了各表位預(yù)測(cè)模型的平均F1值、召回率和精確度。與表位預(yù)測(cè)模型DiscoTope 2、ElliPro、EpiPred 和Glep 相比，本文所提出的模型SGLMEP 將平均F1值分別提高了267.3%、57.0%、65.4% 和3.5%。從表1 可以看出，模型SGLMEP 主要的優(yōu)勢(shì)在于擁有更高的召回率，與Glep 相比提高了18.3%。實(shí)驗(yàn)結(jié)果說(shuō)明，SGLMEP 能夠識(shí)別出更多的潛在表位殘基，對(duì)重疊表位的識(shí)別優(yōu)于Glep。雖然SGLMEP 的精確度不是十分突出，但仍然高于大多數(shù)模型。

表1 不同預(yù)測(cè)模型結(jié)果對(duì)比Tab.1 Result comparison of different prediction models

4.3 消融實(shí)驗(yàn)結(jié)果及分析

本文所提出的模型SGLMEP 的核心是基于L-Metric 的重疊子圖發(fā)現(xiàn)算法。通過(guò)在相同實(shí)驗(yàn)數(shù)據(jù)上進(jìn)行消融實(shí)驗(yàn)，驗(yàn)證該算法對(duì)表位預(yù)測(cè)性能的影響。

通過(guò)圖4可以直觀地看出，基于L-Metric的重疊子圖發(fā)現(xiàn)算法的F1值高于未使用的情況。實(shí)驗(yàn)結(jié)果表明，該重疊子圖發(fā)現(xiàn)算法對(duì)表位預(yù)測(cè)性能的提升是有效的。應(yīng)用該算法的模型的優(yōu)勢(shì)主要是提高了召回率，即對(duì)未知表位殘基的識(shí)別能力。

表2 給出了消融實(shí)驗(yàn)的詳細(xì)結(jié)果。通過(guò)表2 中數(shù)據(jù)可以看出，應(yīng)用了基于L-Metric 的重疊子圖發(fā)現(xiàn)算法的模型相較于未使用子圖發(fā)現(xiàn)算法時(shí)的平均F1值、召回率分別提高了19.2%和38.9%。

表2 消融實(shí)驗(yàn)的詳細(xì)結(jié)果Tab.2 Detailed results of ablation experiment

5 結(jié)語(yǔ)

為提高重疊表位預(yù)測(cè)性能，本文提出了基于L-Metric 的重疊子圖發(fā)現(xiàn)算法，自適應(yīng)對(duì)種子子圖進(jìn)行擴(kuò)展。同時(shí)，利用深度學(xué)習(xí)算法自學(xué)習(xí)特征的特點(diǎn)設(shè)計(jì)分類模型，降低人工設(shè)計(jì)特征構(gòu)建分類器的難度。通過(guò)實(shí)驗(yàn)驗(yàn)證了本文所提出的表位預(yù)測(cè)模型SGLMEP 對(duì)抗原表位具有良好的預(yù)測(cè)性能。此外，通過(guò)消融實(shí)驗(yàn)驗(yàn)證了本文所提出的重疊子圖算法的有效性。在今后的研究工作中，將對(duì)重疊子圖發(fā)現(xiàn)算法進(jìn)行優(yōu)化，旨在發(fā)現(xiàn)更多潛在表位的基礎(chǔ)上，進(jìn)一步提高對(duì)表位識(shí)別的精確程度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡