陳煥超,魏志森,於東軍,楊敬民,楊靜宇
(閩南師范大學(xué)1.計算機學(xué)院;2.數(shù)據(jù)科學(xué)與智能應(yīng)用福建省高校重點實驗室,福建 漳州 363000;3.南京理工大學(xué) 計算機科學(xué)與工程學(xué)院,江蘇 南京 210094)
翻譯后修飾(Post-translational modifications,PTMs)是一種涉及蛋白質(zhì)原始化學(xué)組成改變的化學(xué)修飾,它可以將化學(xué)基團添加到特殊殘基或在特定位置切割序列,從而擴展從相同基因組序列生成蛋白質(zhì)的最終形式范圍,是增加蛋白質(zhì)組多樣性的關(guān)鍵機制[1]。PTMs在功能蛋白質(zhì)組中發(fā)揮關(guān)鍵作用,包括調(diào)節(jié)酶的活性和定位蛋白質(zhì)在細胞中的位置、介導(dǎo)信號轉(zhuǎn)導(dǎo)、激酶與識別候選蛋白和蛋白質(zhì)降解及泛素化調(diào)控等[2]。類泛素化(Sumoylation,SUMO)修飾位點是PTMs一種重要的類型,與許多人類疾病的發(fā)生息息相關(guān),包括神經(jīng)退化疾病、阿爾茨海默病和癌癥等[2]。
傳統(tǒng)的SUMO修飾位點檢測方法利用生物濕試驗,需要大量的人力物力,周期長,成本高。近十幾年以來,開發(fā)計算模型預(yù)測SUMO修飾位點已經(jīng)成為生物信息學(xué)領(lǐng)域的一個研究熱點,特別是機器學(xué)習(xí)的發(fā)展促進了相關(guān)機器學(xué)習(xí)算法在生物信息學(xué)領(lǐng)域的應(yīng)用,許多學(xué)者提出了不同的計算模型預(yù)測SUMO修飾位點,作為試驗方法的一種低廉高效的補充手段。Xue等[3]基于同源蛋白質(zhì)序列聚類分組比對和序列模式匹配相結(jié)合的方法,開發(fā)一個在線SUMO修飾位點預(yù)測服務(wù)器SUMOsp。Ren等[4]將SUMOsp中的同源序列聚類分組比對算法進行改進,引入了試驗觀察的分組先驗信息。Zhao等[5]通過粒子群優(yōu)化算法改進SUMOsp的同源序列聚類分組策略并取得了更好的預(yù)測性能。Xu等[6]提出基于數(shù)據(jù)集上的序列信息的概率統(tǒng)計預(yù)測新序列的SUMO修飾位點。Chen等[7]提出將氨基酸疏水性作為參數(shù)引入到傳統(tǒng)的二進制編碼方案中,并使用支持向量機作為分類器,其試驗證明了疏水性在SUMO修飾位點預(yù)測上的鑒別能力。Teng等[8]提出位置特異性得分矩陣和生物特征相結(jié)合的特征表示,并訓(xùn)練支持向量機和隨機森林進行預(yù)測。Xu等[9]提出結(jié)合3種不同的序列特征表示方法,基于不同特征的組合使用線性判別分析進行預(yù)測。Jia等[10]提出將序列偶合信息整合到一般的偽氨基酸組成中,并將其應(yīng)用于協(xié)方差判別算法,此預(yù)測器可以自動緩解由數(shù)據(jù)不平衡所帶來的誤差。Sharma等[11]基于蛋白質(zhì)的半球裸露結(jié)構(gòu)特征訓(xùn)練決策樹分類器預(yù)測SUMO修飾位點。最近,Qian等[12]結(jié)合氨基酸的疏水性等物化屬性統(tǒng)計特征和氨基酸序列二元語法模式特征,訓(xùn)練級聯(lián)森林分類器,并使用遺傳算法對預(yù)測得分進行加權(quán)平均。雖然這些工作在SUMO修飾位點的預(yù)測上取得了重要的進展,但是預(yù)測精度還有較大的改進空間。
本文提出了一種新的蛋白質(zhì)泛素化修飾位點預(yù)測模型,基于氨基酸的疏水性等物化屬性統(tǒng)計與氨基酸序列二元語法模式的特征組合,訓(xùn)練一種輕量型梯度提升機(Light gradient boosting machine,LightGBM)分類器[13]將待預(yù)測氨基酸殘基識別為修飾位點或非修飾位點,此模型記作SUMO-LGBM。在基準數(shù)據(jù)集上進行十折交叉驗證試驗,證明其泛化能力。
SUMO-LGBM的算法框架如圖1所示。對于蛋白質(zhì)序列中的某個賴氨酸(K)殘基,通過統(tǒng)計以其為中心的大小為21的滑動窗口內(nèi)氨基酸殘基的物化屬性統(tǒng)計特征(Statistics property,SP)和二元語法模式(Bi-gram and k-skip-bi-gram,BK),將其表示為一個62維的特征向量;然后,將這個特征向量輸入到多個決策樹集成的LightGBM分類器中,將分類器的輸出值與設(shè)置的閾值進行比較,大于閾值則標記為類泛素化修飾位點,否則標記為非修飾位點。下文將對氨基酸殘基的特征描述和LightGBM分類器分別進行介紹。
圖1 SMUO-LGBM預(yù)測模型的算法框架
將機器學(xué)習(xí)算法應(yīng)用于SUMO修飾位點預(yù)測問題,蛋白質(zhì)序列上的每個氨基酸殘基需要表示成一個特征向量。在本文中,每個氨基酸殘基由兩部分特征組合表示,一部分是物化屬性統(tǒng)計特征SP,另一部分是氨基酸序列二元語法模式特征BK。其中,SP是一個5維向量,而BK是一個57維向量,拼接得到一個62維的特征向量。在以氨基酸殘基為分類對象的生物信息學(xué)問題中,經(jīng)常將目標殘基為中心的鄰域窗口內(nèi)的殘基的特征作為目標殘基特征向量的一部分,以增強特征向量的鑒別力[14-17]。因此,本文對蛋白質(zhì)序列設(shè)置了一個滑動窗口,每個氨基酸殘基由以其為中心的滑動窗口內(nèi)的殘基的SP和BK特征拼接而成的特征向量表示。根據(jù)Qian等[12]報告的試驗結(jié)果,本文同樣選擇滑動窗口大小為21。
根據(jù)Beauclair等[18]的統(tǒng)計結(jié)果,將序列中SUMO修飾位點的位置標注為0,往左n個位置標注為-n,往右n個位置標注為n,那么,在SUMO修飾位點的-1位置處,疏水性氨基酸的發(fā)生率更高,其中帶有脂肪族側(cè)鏈的殘基為大多數(shù),占比67.5%,而芳香族氨基酸比較少,占比5.4%;在+2位置處,酸性殘基比較富集;而在+1位置處,沒有特定氨基酸表達。據(jù)此,Qian等[12]以目標氨基酸殘基的-1位置和+2位置處的氨基酸屬性作為鑒別特征。其中,將-1位置處的氨基酸分為4類:(1)I、L、V;(2)A、F、M、P、W;(3)G、Y;(4)其余的氨基酸;分別由(0,0,0,1)、(0,0,1,0)、(0,1,0,0)和(1,0,0,0)表示;將+2位置處的氨基酸分為2類:D和E為一類,用0表示,其余為另一類,用1表示。將這2者組合起來,目標氨基酸殘基可以由一個5維的特征向量表示。
在自然語言處理領(lǐng)域,單詞序列多元語法模式(K-skip-n-gram)[19]被用于統(tǒng)計單詞之間共現(xiàn)概率。由于蛋白質(zhì)序列與自然語言文本序列都是一維序列,可以將每個氨基酸殘基類比為文本序列的單詞,從而將K-skip-n-gram應(yīng)用于生物信息學(xué)領(lǐng)域[12]。本文采取Bi-gram和K-skip-bi-gram,其中K=1,2。Bi-gram相當于K=0時的K-skipbi-gram。由于有20種氨基酸,兩兩組合二肽可得20*20=400種組合,因此特定位置的二肽可以描述為
式中
在矩陣F中,每一行代表每一種二肽組合,前20列代表K=0時每個位置出現(xiàn)某種二肽的概率,中間19列代表K=1時每個位置出現(xiàn)某種二肽的概率,最后18列代表K=2時每個位置出現(xiàn)某種二肽的概率。這樣,對于一個長度為21的氨基酸序列,根據(jù)每個位置出現(xiàn)的二肽,由矩陣F中取相應(yīng)的元素,可以得到一個維數(shù)為20+19+18=57的特征向量。
Ke等[13]提出的LightGBM算法是微軟發(fā)布的一個高效、開源的梯度提升決策樹(Gradient boosting decision tree,GBDT)算法[20]框架。相比于傳統(tǒng)的GBDT,LightGBM具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更高的準確率和支持分布式等特點,可以快速地處理海量數(shù)據(jù),因此得到廣泛應(yīng)用。
LightGBM的最大特點是在傳統(tǒng)的GBDT基礎(chǔ)上引入了基于梯度的單邊采樣(Gradient-based one-side sampling,GOSS)和互斥特征捆綁(Exclusive feature bundling,EFB)這兩種技術(shù)。GOSS技術(shù)根據(jù)梯度大小對訓(xùn)練樣本進行排序,下采樣時隨機拋棄梯度比較小的樣本,保留對信息增益有更大影響的大梯度樣本。這種方法被證明在相同的采樣率下比隨機采樣具有更高的準確率,尤其是在信息增益范圍較大時。
EFB算法將樣本中不同維度的互斥特征進行捆綁,用一個合成特征代替多個互斥特征,從而達到降低特征維度的目的,提高算法的效率。其中,互斥特征是指在稀疏特征空間中,不同時為零值的兩個特征,比如獨熱編碼特征中的不同維度。
在本節(jié)中,將對試驗用到的數(shù)據(jù)集,評估方法以及試驗結(jié)果與分析進行描述,并與現(xiàn)有的SUMO修飾位點預(yù)測方法進行比較。
本文使用Qian等[12]構(gòu)建的基準數(shù)據(jù)集對提出的方法進行評估。此數(shù)據(jù)集從UniProt數(shù)據(jù)庫[21]獲取510個蛋白質(zhì)序列中以賴氨酸為中心的長度為21的肽段。這些肽段的中心賴氨酸殘基如果被試驗標注為SUMO修飾位點則作為正樣本,否則作為負樣本。為了去除冗余數(shù)據(jù),對數(shù)據(jù)集中的數(shù)據(jù)進行序列同一性的樣本篩選,確保數(shù)據(jù)集中任意兩個樣本的相似度小于40%,最終得到755個正樣本和9 944個負樣本。
在本文的試驗中,引入6種常用的指標用于評估本文提出的方法以及與其他方法進行比較,包括準確率(Accuracy,Acc)、特異性(Specificity,Sp)、靈敏度(Sensitivity,Sn,也稱為召回率Recall)、馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC)、精確率(Precision)和F1指數(shù)。這些指標定義如下
式中:TP為被正確分類的正樣本的數(shù)量,F(xiàn)P為被錯誤分類的負樣本的數(shù)量,TN為被正確分類的負樣本的數(shù)量,F(xiàn)N為被錯誤分類的正樣本的數(shù)量。由于數(shù)據(jù)集的兩類樣本分布不平衡,單一使用Acc、Sp、Sn評價無法很好地評估整體性能,因此,本文主要關(guān)注AUC、AUPR、MCC這3個能反映分類器整體性能的指標,其中AUC是接收者操作特征曲線(Receiver operating characteristic curve,ROC曲線)下包圍的面積,AUPR表示精度召回率曲線(Precision recall curve,PR曲線)下包圍的面積,通常認為這兩個面積越大,分類效果越好[22]。
本文將使用10折交叉驗證和留一法交叉驗證來評估提出的方法在數(shù)據(jù)集上的性能,通過使用不同的評價指標來觀察參數(shù)對性能的影響,并選擇MCC、AUC和AUPR作為最終的評價指標。
3.3.1 分類算法對比為了建立一個有效的預(yù)測模型,K近鄰算法(K-nearest neighbor,KNN)、決策樹(Decision tree,DT)、樸素貝葉斯(Naive bayesian,NB)、隨機森林(Random forest,RF)、邏輯回歸(Logistics regression,LR)、極端隨機樹(Extremely randomized trees,ET)和LightGBM被用于構(gòu)建分類模型。各種算法的參數(shù)通過十折交叉驗證進行優(yōu)化,其中,KNN的K值設(shè)置為10,極端隨機樹、邏輯回歸、決策樹和隨機森林對正負類樣本設(shè)置不同的權(quán)重,使得兩類樣本的權(quán)重之和相等。在基準數(shù)據(jù)集上進行十折交叉驗證,各種分類算法構(gòu)建的分類器的性能指標展示在表1中。為了更直觀地比較不同分類器的性能,圖2和圖3分別展示了數(shù)據(jù)集上十折交叉驗證的平均ROC曲線和PR曲線。
表1 不同分類算法的性能比較 %
圖2 不同分類器的ROC曲線比較
圖3 不同分類器的PR曲線比較
從表1可以看出,LightGBM在所有評估指標上均取得了最好的結(jié)果,其中,在F1指數(shù)、MCC、AUC和AUPR這幾個反映全局性能的指標上分別達到了92.21%、91.64%、99.57%和96.59%,比排在第二的RF高出了11.21%、11.94%、1%和5.45%。這說明,與其他算法相比,LightGBM在分類準確率和整體性能上均表現(xiàn)出更好的結(jié)果。另外,從表1也可以發(fā)現(xiàn),相比于其他4種算法,LightGBM、RF和ET這3種算法在MCC等全局性能指標上均獲得了較為明顯的更好的結(jié)果,這說明了樹分類器的集成算法在這一數(shù)據(jù)集上具有更好的分類性能。同樣,從圖2和圖3的ROC曲線和PR曲線中也能得出以上結(jié)論。在圖2的ROC曲線中,對于任意一個假陽性率(False positive rate,F(xiàn)PR)值,LightGBM的ROC曲線均位于其他算法的曲線之上,而在圖3的PR曲線上,對于任意一個召回率值,LightGBM的PR曲線均位于其他算法的曲線之上,這說明LightGBM在性能上顯著地戰(zhàn)勝了其他所有算法。同時,LightGBM、RF和ET這3種算法的曲線比較靠近,且明顯超越其他4種算法,進一步驗證了這類樹分類器的集成算法具有更好的分類性能。
3.3.2 特征分析
為了驗證SP和BK這兩種特征表示方法的有效性,本文對單獨使用SP和BK特征,以及兩種特征的組合分別進行了測試,同時與蛋白質(zhì)序列常用的另外兩種特征表示方法進行了比較,即氨基酸組成(Amino acid composition,AAC)[23]和氨基酸二進制編碼(Binary encoding,BE)[24]?;谝陨系奶卣骷疤卣鹘M合分別訓(xùn)練LightGBM分類器,在基準數(shù)據(jù)集上進行十折交叉驗證,對MCC、AUC和AUPR這幾個重要指標進行比較,結(jié)果展示在表2中。
從表2可以看出,在所有單特征表示中,BK在MCC、AUC和AUPR上分別取得了88.75%、99.44%和95.69%,顯著地高于其他所有的特征。而SP和BE的表現(xiàn)比較接近,SP取得了更高的M C C值,但是在AUC和AU P R上均弱于BE。另外,SP+BK的特征組合進一步提高了性能,比BK在M C C和F1上分別提升了2.89%和2.79%,在AUC和AUP R上有略微提高。這說明BK和SP特征具有一定的互補性,兩種特征的組合具有更好的鑒別性,能夠有效地提高預(yù)測模型的性能。
表2 不同特征的性能比較 %
3.3.3 與現(xiàn)有方法的比較
為了證明方法的有效性,將本文提出的SUMO-LGBM 與 pSumo-CD[10]、HseSUMO[11]、SUMO-Forest-FM[12]、SUMO-Forest-CM[12]等現(xiàn)有方法進行了比較,結(jié)果展示在表3中,表中現(xiàn)有方法的數(shù)據(jù)均來自于文獻[12]。其中,除HseSUMO外,其他預(yù)測器與本文使用相同的基準數(shù)據(jù)集。
表3 SUMO-LGBM預(yù)測器與其他方法的比較
如表3所示,在所有方法中,本文提出的SUMO-LGBM取得了最好的Acc、Sp、MCC和AUC。其中,MCC值為91.64%,超過第二高的SUMO-Forest-FM預(yù)測器2.1%;AUC值為99.57%,與SUMO-Forest-CM相近,超過SUMO-Forest-FM預(yù)測器1.4%。
為了更直觀地說明SUMO-LGBM模型的性能提升,SUMO-LGBM、SUMO-Forest-CM和SUMOForest-FM的ROC曲線和PR曲線分別展示在圖4和圖5中。由圖4可知,3種模型的ROC曲線是非常接近的,這也驗證了SUMO-LGBM在AUC上只取得了輕微的提升。而從圖5可以發(fā)現(xiàn),SUMO-LGBM的PR曲線顯著地高于另外兩個模型的PR曲線。這說明,在相同的召回率下,SUMO-LGBM模型具有更高的精確率,從而具有更好的預(yù)測性能。
圖4 與最新預(yù)測器的ROC曲線比較
圖5 與最新預(yù)測器的PR曲線比較
本文基于SUMO修飾位點鄰域內(nèi)氨基酸殘基的物化屬性和二肽統(tǒng)計規(guī)律,利用LightGBM算法出色的分類能力,提出了一種新的蛋白質(zhì)SUMO修飾位點預(yù)測模型SUMO-LGBM。在基準數(shù)據(jù)集上的試驗結(jié)果證明了本文所提模型的有效性和魯棒性,取得了當前領(lǐng)先的預(yù)測性能,可作為試驗方法識別SUMO修飾位點的一種輔助手段。
由于當前的基準數(shù)據(jù)集在規(guī)模上還無法滿足訓(xùn)練大通量預(yù)測模型的要求,在未來的研究工作中,一方面要探索更具鑒別性的特征和更復(fù)雜的機器學(xué)習(xí)模型的應(yīng)用,另一方面需要繼續(xù)收集數(shù)據(jù),擴充基準數(shù)據(jù)集的規(guī)模以支持更復(fù)雜模型的訓(xùn)練和評估。