楊欣華,顧海明
(青島科技大學(xué)數(shù)理學(xué)院,山東青島266061)
蛋白質(zhì)在生物體的生命活動(dòng)中起著非常重要的作用,而蛋白質(zhì)的功能取決于蛋白質(zhì)折疊以及與其他蛋白質(zhì)的相互作用[1]。蛋白質(zhì)折疊識(shí)別是從蛋白質(zhì)的氨基酸序列中得到蛋白質(zhì)的三級(jí)結(jié)構(gòu)而不依賴(lài)于蛋白質(zhì)序列的相似性[2]。在人體中蛋白質(zhì)會(huì)發(fā)生折疊錯(cuò)誤而引起很多的疾病。而深入了解蛋白質(zhì)折疊對(duì)于這些疾病的致病機(jī)制,闡明蛋白質(zhì)錯(cuò)誤折疊的各種因素將有助于醫(yī)學(xué)研究和醫(yī)學(xué)藥物的研發(fā)。但目前的試驗(yàn)方法的代價(jià)高,而計(jì)算方法具有比實(shí)驗(yàn)室方法更便宜更快的優(yōu)點(diǎn),現(xiàn)在普遍用于蛋白質(zhì)折疊識(shí)別[3]。目前對(duì)蛋白質(zhì)折疊的研究是根據(jù)蛋白質(zhì)主要結(jié)構(gòu)信息將蛋白質(zhì)進(jìn)行分類(lèi),由此得到已知的蛋白質(zhì)折疊類(lèi)型[4]。基于分類(lèi)的方法就是基于各種蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)中的數(shù)據(jù)運(yùn)用機(jī)器學(xué)習(xí)方法對(duì)蛋白質(zhì)進(jìn)行結(jié)構(gòu)分類(lèi)。
目前得到所需要的蛋白質(zhì)折疊信息主要是是通過(guò)機(jī)器學(xué)習(xí),從蛋白質(zhì)序列出發(fā)對(duì)蛋白質(zhì)折疊模式的分類(lèi)。常用的數(shù)據(jù)庫(kù)有蛋白質(zhì)結(jié)構(gòu)分類(lèi)數(shù)據(jù)庫(kù)SCOP(structural classification of protein,SCOP)數(shù)據(jù)庫(kù)[5]。其中SCOP 數(shù)據(jù)庫(kù)包括蛋白質(zhì)結(jié)構(gòu)類(lèi)、折疊類(lèi)型、超家族、家族等不同層次[6],本研究所使用的數(shù)據(jù)集同樣是從SCOP 數(shù)據(jù)庫(kù)中選取的。蛋白質(zhì)折疊識(shí)別作為多類(lèi)分類(lèi)任務(wù),在該領(lǐng)域中已經(jīng)有很多基于機(jī)器學(xué)習(xí)方法構(gòu)建的模型。這些方法中的大多數(shù)包含兩個(gè)階段:1)特征提取;2)分類(lèi)算法[4]。
對(duì)于特征提取方法也有許多,例如位置特異性得分矩陣 (position specific scoring matrix,PSSM)[7]、分組重量編碼(encoding based on grouped weight,EBGW)[8-10]、偽氨基酸組成(pseudo amino acid composition,Pse AAC)[11-13]來(lái)提取特征信息;例如預(yù)測(cè)蛋白質(zhì)序列的二級(jí)結(jié)構(gòu)有助于提高分類(lèi)精度[14]。研究表明,各種特征提取方法的信息是互補(bǔ)的。對(duì)于分類(lèi)的方法,也有許多分類(lèi)器用于蛋白質(zhì)結(jié)構(gòu)分類(lèi)預(yù)測(cè)。2017年XIA 等[6]提出基于模板分配和支持向量機(jī)(support vector machine,SVM)相結(jié)合的集成方法[15]。2018 年SUDHA等[16]提出的一種新的增強(qiáng)型人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)模型下得到了較高的預(yù)測(cè)的結(jié)果。2019 年YAN 等[4]提出MV-fold 與兩種基于模板的方法H Hblits(HMM-HMM-based lightning-fast iterative sequence search,HHblits)方法和基于隱馬爾可夫模型(hidden Markov model,HMM)的HMMER 方法相結(jié)合的方法。雖然目前取得了一定的研究成果,但是仍有很大的研究空間。如何選擇計(jì)算效率高花費(fèi)少,性能好的預(yù)測(cè)方法是研究的重點(diǎn)。
集成分類(lèi)器通過(guò)多個(gè)基分類(lèi)器組合在一起,會(huì)獲得比單一學(xué)習(xí)器優(yōu)越的泛化性能。目前,已有許多的集成分類(lèi)器用于分類(lèi)算法,并且可以得到較好的預(yù)測(cè)結(jié)果。本研究提出一種用于蛋白質(zhì)折疊識(shí)別的BAG-fold 模型。在BAG-fold模型中使用4 種不同的特征提取方法提取蛋白質(zhì)序列的特征信息,并將4種蛋白質(zhì)特征信息進(jìn)行融合。并使用LFDA方法處理融合后的特征空間,選取更有效的特征信息。將降維后得到的最優(yōu)特征子集輸入到集成分類(lèi)器中,通過(guò)集成分類(lèi)器來(lái)進(jìn)一步提高分類(lèi)準(zhǔn)確性。根據(jù)10折交叉驗(yàn)證得到的預(yù)測(cè)結(jié)果進(jìn)行蛋白質(zhì)折疊識(shí)別。實(shí)驗(yàn)結(jié)果表明,本研究的方法可以達(dá)到較好的預(yù)測(cè)性能。
在本研究中使用兩個(gè)數(shù)據(jù)集來(lái)評(píng)估構(gòu)建的模型在折疊識(shí)別中的性能。兩個(gè)數(shù)據(jù)集包括DD 數(shù)據(jù)集[2],RDD 數(shù)據(jù)集[17]。DD 數(shù)據(jù)集獲自蛋白質(zhì)結(jié)構(gòu)分類(lèi)SCOP 數(shù)據(jù)庫(kù),DD 數(shù)據(jù)集包含695個(gè)蛋白質(zhì)序列,具有27個(gè)折疊類(lèi)別,并且數(shù)據(jù)集的序列同源性小于35%。DD 數(shù)據(jù)集中的4個(gè)主要類(lèi)是α,β,α+β和α/β。RDD 數(shù)據(jù)集是DD 數(shù)據(jù)集的修訂版。包含了691個(gè)蛋白質(zhì)序列,具有27個(gè)折疊類(lèi)別。詳細(xì)信息如表1所示。
表1 DD數(shù)據(jù)集與RDD數(shù)據(jù)集的折疊類(lèi)別Table 1 Folding categories of DD dataset and RDD dataset
位置特異性得分矩陣(position specific scoring matrix,PSSM),利用迭代PSI-BLAST[7]搜索方法提取蛋白質(zhì)序列信息,得到它對(duì)應(yīng)的PSSM 是L×20(其中L為蛋白質(zhì)序列的長(zhǎng)度)的矩陣
利用公式(2)把PSSM 矩陣中的元素轉(zhuǎn)化到0~1之間。當(dāng)數(shù)據(jù)集中含有長(zhǎng)度不等的蛋白質(zhì)序列時(shí),則蛋白質(zhì)序列的PSSM 矩陣應(yīng)轉(zhuǎn)化為維數(shù)相同的向量。PsePSSM 特征提取[18-19]結(jié)果:
其中,表示氨基酸j的φ階相關(guān)因子,用PsePSSM 表示蛋白質(zhì)序列為
由此一條蛋白質(zhì)序列PsePSSM 生成一個(gè)20+20×φ維的特征向量。
DCCA coefficient是為了量化兩個(gè)非平穩(wěn)時(shí)間序列之間的互相關(guān)水平。每個(gè)蛋白質(zhì)序列的PSSM矩陣的大小是L×20,將PSSM 矩陣中的20列作為20個(gè)非平穩(wěn)時(shí)間序列進(jìn)行計(jì)算[20]。
在對(duì)PSSM 矩陣標(biāo)準(zhǔn)化后,對(duì)于任意PSSM的兩個(gè)不同列{pi}和{qi},i=1,2,…,L,L表示蛋白質(zhì)序列的長(zhǎng)度。首先利用公式(6)計(jì)算新的時(shí)間序列P和Q。
然后把Pk和Qk分成L-T段可重疊的部分,每段含有T+1個(gè)數(shù)據(jù),并對(duì)每段進(jìn)行最小二乘線(xiàn)性擬合,則擬合值為。利用公式計(jì)算每一段的協(xié)方差
接下來(lái),利用公式(8)計(jì)算L-T段的協(xié)方差
最后,利用公式(9)計(jì)算兩個(gè)不同時(shí)間序列{pi}和{qi}的DCCA coefficient。取值范圍為-1≤ρDCCA≤1,因此,1表示完全的互相關(guān),0表示沒(méi)有互相關(guān),-1表示完全的反互相關(guān)。通過(guò)DCCA coefficient算法將一條蛋白質(zhì)序列生成190維的特征向量。
二級(jí)結(jié)構(gòu)是通過(guò)骨架上氨基之間形成的氫鍵定義的。SS的統(tǒng)計(jì)表示基于3 種狀態(tài)構(gòu)建:α-螺旋(α-helix,H),β-鏈(β-strand,E)和無(wú)規(guī)卷曲(random coil,C)。在網(wǎng)址https://sparks-lab.org/server/spider3/上進(jìn)行SPIDER3 預(yù)測(cè)可以得到[21],可以定義此功能:
其中,L是蛋白質(zhì)的長(zhǎng)度,fa是H,E和C。
ZHANG 等[22]提出了EBGW 方法對(duì)蛋白質(zhì)序列進(jìn)行特征提取。由氨基酸對(duì)應(yīng)的物理化學(xué)性質(zhì)分成四類(lèi):堿性氨基酸U1={H,K,R}、酸性氨基酸U2={D,E}、中性和極性氨基酸U3={Q,N,S,T,Y,C}和中性和疏水性氨基酸U4={G,A,V,L,I,M,P,F,W}。將4 種劃分方式兩兩合并可以得到{U1,U2}和{U3,U4}、{U1,U3}和{U2,U4}、{U1,U4}和{U2,U3}。假設(shè)一條蛋白質(zhì)序列P=p1p2p3…pN,經(jīng)過(guò)劃分后:
利用公式(12)、公式(13)、公式(14)將K序列P變成3 條長(zhǎng)度為N的二進(jìn)制序列G1(P)、G2(P)、G3(P)。把這些序列劃分成若干個(gè)長(zhǎng)度依次遞增的子序列,設(shè)定一個(gè)固定參數(shù)M,子序列可以表示為kn/M」,k=1,2,…,M。其中·」表示取整運(yùn)算符,計(jì)算每一條子序列中1出現(xiàn)的頻率,一條Gi(P)可以轉(zhuǎn)化成特征向量。綜上,對(duì)于一條長(zhǎng)度為N的蛋白質(zhì)序列,可以得到3M維向量。
局部Fisher 判別分析(local Fisher discriminant analysis,LFDA)[23]是一種有監(jiān)督的降維方法。令蛋白質(zhì)數(shù)據(jù)矩陣為X=x1,x2,…,xn
[],其中,n是蛋白質(zhì)的樣本個(gè)數(shù),d是蛋白質(zhì)序列特征提取的維數(shù)。由公式(15)計(jì)算局部類(lèi)內(nèi)散射矩陣H(w)和局部類(lèi)間散射矩陣H(b):
其中,A是一個(gè)親和度矩陣,Ai,j∈A是xi和xj的親和度。親和度矩陣(18)表示圍繞xi的數(shù)據(jù)樣本的局部縮放,其中x(K)i是xi的第K個(gè)最近鄰。
降維后的矩陣變?yōu)?/p>
在機(jī)器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)算法中,預(yù)測(cè)效果好并且穩(wěn)定的模型是不容易得到的。而集成學(xué)習(xí)則是結(jié)合多個(gè)弱監(jiān)督模型來(lái)得到效果比單個(gè)弱監(jiān)督模型更好的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)是用多個(gè)弱分類(lèi)器來(lái)糾正某一個(gè)弱分類(lèi)器錯(cuò)誤的預(yù)測(cè)。集成分類(lèi)器系統(tǒng)的框架是通過(guò)將眾多基本分類(lèi)器組合在一起而建立的,而建立起的框架可以減少因單個(gè)訓(xùn)練集的特殊性而引起的方差。假設(shè)基分類(lèi)器計(jì)算相應(yīng)的復(fù)雜度為Ο(m),則Bagging的計(jì)算復(fù)雜度T(Ο(m)+Ο(s)),由于采樣與投票/平均的復(fù)雜度Ο(s)很小,且T是較小的一個(gè)常數(shù),所以訓(xùn)練一個(gè)Bagging集成與直接使用基學(xué)習(xí)算法訓(xùn)練分類(lèi)器的復(fù)雜度同階,這更加能說(shuō)明Bagging是一個(gè)高效的集成學(xué)習(xí)算法。本研究中用的是Bagging算法,是由決策樹(shù)集成的同種類(lèi)型基分類(lèi)器的集成。算法過(guò)程如下[24]:
1)從原始樣本集中抽取訓(xùn)練集。D=(x1,y1),(x2,y2),…,(xn,yn){}每次使用Bootstraping方法從原始樣本集中抽取n個(gè)訓(xùn)練樣本。共進(jìn)行k輪抽取,得到k個(gè)訓(xùn)練集。其中k個(gè)訓(xùn)練集之間是相互獨(dú)立的。
2)每次用一個(gè)訓(xùn)練集訓(xùn)練出一個(gè)模型,k個(gè)訓(xùn)練集共訓(xùn)練出k個(gè)模型。
3)將2)得到的k個(gè)模型采用投票的方式得到分類(lèi)結(jié)果(21)。
Bagging方法在本工作中的優(yōu)點(diǎn):
1)每個(gè)模型獨(dú)立構(gòu)建。各個(gè)基分類(lèi)器之間相互獨(dú)立。
2)能夠減少方差。整體模型的方差小于等于基模型的方差,隨著基模型數(shù)的增多,整體模型的方差減少,從而防止過(guò)擬合的能力增強(qiáng),模型的準(zhǔn)確度得到提高。
3)適用于高方差低偏差模型。對(duì)于Bagging算法來(lái)說(shuō),算法會(huì)并行地訓(xùn)練很多不同的分類(lèi)器,然后采用多數(shù)投票原則/平均值原則。所以在同一樣本上訓(xùn)練出來(lái)的模型方差小。
4)Bagging方法是相對(duì)于單個(gè)模型改進(jìn)的一種方法,無(wú)需調(diào)整底層的基本算法。
5)提供了一種減少過(guò)度擬合的方法。
在本研究中采用10折交叉驗(yàn)證來(lái)檢驗(yàn)預(yù)測(cè)模型的性能。本工作采用準(zhǔn)確率(accuracy,Acc)、敏感性(sensitivity,Sen)、特異性(specificity,Spe)、Matthew 相關(guān)系數(shù)(MCC)和精確率(precision,Pre)來(lái)評(píng)價(jià)預(yù)測(cè)模型的結(jié)果。指標(biāo)定義如下:
準(zhǔn)確率是正確預(yù)測(cè)的蛋白質(zhì)的數(shù)量與所研究的蛋白質(zhì)的總數(shù)的比率:
特異性是正確剔除樣品與剔除測(cè)試樣品總數(shù)的比率:
靈敏度是對(duì)每種類(lèi)別的測(cè)試數(shù)據(jù)集中正確分類(lèi)的樣本與整個(gè)樣本的比率:
精確率是精度測(cè)量正確分類(lèi)的樣本與整個(gè)陽(yáng)性預(yù)測(cè)樣本的比率:
整體上衡量模型性能的Matthew 相關(guān)系數(shù):
其中TP為真陽(yáng)性樣本,FN為假陰性樣本,TN為真陰性,FP為假陽(yáng)性。本工作使用由精確度、特異性、靈敏度和Matthew 相關(guān)系數(shù)數(shù)組成的3個(gè)標(biāo)準(zhǔn)來(lái)證明本工作的方法在DD 和RDD 數(shù)據(jù)集上的性能。
為了方便起見(jiàn),提出的蛋白質(zhì)折疊的預(yù)測(cè)方法BAG-fold的流程如圖1所示。
圖1 基于BAG-fold方法的蛋白質(zhì)折疊預(yù)測(cè)流程圖Fig.1 Flow chart of protein folding prediction based on BAG-fold method
基于BAG-fold方法的蛋白質(zhì)折疊識(shí)別的步驟可以描述如下。
1)從SCOP中獲取數(shù)據(jù)集,輸入數(shù)據(jù)集中的蛋白質(zhì)序列和相對(duì)的類(lèi)別標(biāo)簽。
2)特征提取。將蛋白質(zhì)序列通過(guò)編碼將字符信號(hào)轉(zhuǎn)化為數(shù)值信號(hào)。利用DCCA、PsePSSM、SS、EBGW 對(duì)蛋白質(zhì)信息進(jìn)行特征提取。然后將4 種特征提取的特征進(jìn)行融合,數(shù)據(jù)集中每條蛋白質(zhì)序列由590維的數(shù)值向量表示。
3)降維。使用LFDA 算法去除特征融合后產(chǎn)生的冗余和噪聲,篩選最優(yōu)的特征子集,從而為輸入分類(lèi)器提供良好的特征信息。
4)根據(jù)步驟2)和3),將所選取的最優(yōu)特征子集及其所對(duì)應(yīng)的標(biāo)簽,輸入到Bagging集成分類(lèi)器中結(jié)合10折交叉驗(yàn)證進(jìn)行蛋白質(zhì)折疊識(shí)別。
5)模型性能評(píng)估。將Acc、Sen、Spe、Pre和MCC作為評(píng)價(jià)指標(biāo),檢驗(yàn)?zāi)P偷念A(yù)測(cè)性能。
參數(shù)的選取是從蛋白質(zhì)序列中提取有效的特征信息的關(guān)鍵的一步,參數(shù)的選取對(duì)模型的構(gòu)建起著非常重要的作用。為了得到更好的特征信息,需要不斷地對(duì)參數(shù)進(jìn)行調(diào)整。在本工作中,通過(guò)10折交叉驗(yàn)證調(diào)節(jié)參數(shù)得到一組最佳的模型參數(shù)。本工作把訓(xùn)練集DD 作為研究對(duì)象,對(duì)蛋白質(zhì)序列進(jìn)行特征提取。本研究方法中有3種方法的參數(shù)選擇分別為DCCA、PsePSSM 和EBGW。
2.1.1 DCCA 算法的參數(shù)值T的選取
采用DCCA coefficient特征提取中T取值不同對(duì)模型的預(yù)測(cè)性能所產(chǎn)生的影響效果也不同。使用參數(shù)T確定DCCA coefficient的每一段重合部分的長(zhǎng)度。因?yàn)閮蓚€(gè)數(shù)據(jù)集中蛋白質(zhì)序列中最短長(zhǎng)度為13,因此為了尋找最優(yōu)參數(shù)將DCCA coefficient中T取值依次設(shè)置為1、2、3、4、5、6、7、8、9、10、11和12,在集成分類(lèi)器中進(jìn)行預(yù)測(cè),采用10折交叉驗(yàn)證對(duì)結(jié)果進(jìn)行檢驗(yàn)。選擇不同參數(shù)所得到的結(jié)果如表2所示。
表2 DD數(shù)據(jù)集對(duì)于不同的T 值的結(jié)果Table 2 DD data set results for different T values
由表2可知,隨著T值的變化,預(yù)測(cè)的準(zhǔn)確率也隨之變化。選擇值達(dá)到最大時(shí)所對(duì)應(yīng)的T值作為DCCA 編碼中的最佳參數(shù),此時(shí)模型的性能最好。由表2可知當(dāng)T=12時(shí)得到的精度是最高的,為60.28%,比其它參數(shù)高出0.57%~27.62%。因此本工作DD 數(shù)據(jù)集選用DCCA的參數(shù)值為12。此時(shí)特征空間所對(duì)應(yīng)的維數(shù)為190維。因此測(cè)試集RDD 數(shù)據(jù)集的參數(shù)值同為12。
2.1.2 PsePSSM 算法的參數(shù)值φ的選取
PsePSSM 編碼的參數(shù)φ取值不同對(duì)模型的預(yù)測(cè)性能有一定的影響。兩個(gè)數(shù)據(jù)集中蛋白質(zhì)序列中最短長(zhǎng)度為13,因此為了尋找最優(yōu)參數(shù)將PsePSSM的參數(shù)φ取值依次設(shè)置為1、2、3、4、5、6、7、8、9、10、11和12。在集成分類(lèi)器中進(jìn)行預(yù)測(cè),采用10折交叉驗(yàn)證對(duì)結(jié)果進(jìn)行檢驗(yàn)。選擇不同參數(shù)所得到的結(jié)果如表3所示。
表3 DD數(shù)據(jù)集對(duì)于不同的φ 值的結(jié)果Table 3 DD data set results for differentφvalues
由表3可以看出,評(píng)價(jià)指標(biāo)隨著φ取值的變化而發(fā)生變化。當(dāng)訓(xùn)練數(shù)據(jù)集中φ取值為9時(shí),數(shù)值達(dá)到最大,代表此時(shí)PsePSSM 算法對(duì)模型性能的影響最好,因此選擇φ取值為9作為PsePSSM 編碼中的最佳參數(shù),φ=9 時(shí)PsePSSM的Acc值為65.75%。比其它參數(shù)高出0.14%~2.3%。因此本工作訓(xùn)練集DD 選用PsePSSM的參數(shù)值為9。因此測(cè)試集RDD 數(shù)據(jù)集的參數(shù)值同為9。此時(shí),特征空間所對(duì)應(yīng)的維數(shù)為200維。
2.1.3 EBGW 算法的參數(shù)值M的選取
EBGW 編碼中參數(shù)M取值不同對(duì)模型的預(yù)測(cè)性能有不同的影響。兩個(gè)數(shù)據(jù)集中蛋白質(zhì)序列中最短長(zhǎng)度為13。因此為了尋找最優(yōu)參數(shù)將EBGW 中參數(shù)M的取值依次設(shè)置為1、2、3、4、5、6、7、8、9、10、11和12。在集成分類(lèi)器中進(jìn)行預(yù)測(cè),采用10折交叉驗(yàn)證對(duì)結(jié)果進(jìn)行檢驗(yàn)。選擇不同參數(shù)所得到的結(jié)果如表4所示。
由表4可以知,評(píng)價(jià)指標(biāo)隨著M取值的變化而發(fā)生變化。當(dāng)M取值為9時(shí)數(shù)值達(dá)到最大,代表此時(shí)EBGW 算法對(duì)模型性能的影響最好,因此選擇EBGW的最佳參數(shù)為9。當(dāng)M值取值為9時(shí),EBGW的Acc值為36.83%。比其它參數(shù)高出0.72%~8.35%。因此訓(xùn)練集DD 選用EBGW的參數(shù)值為9。因此測(cè)試集RDD 數(shù)據(jù)集的參數(shù)值同為9。此時(shí),特征空間所對(duì)應(yīng)的維數(shù)為27維。
表4 DD數(shù)據(jù)集對(duì)于不同的M 值的結(jié)果Table 4 DD data set results for different M values
使用特征提取算法提取蛋白質(zhì)序列的有效信息,是構(gòu)建蛋白折疊識(shí)別預(yù)測(cè)模型的一個(gè)重要步驟。本工作共選擇了4 種特征提取算法,DCCA、PsePSSM、SS和EBGW。為了更好的研究模型的性能,本文做了如下對(duì)比,包括4種單獨(dú)特征提取方式和特征融合后的方式ALL(PsePSSM、DCCA、SS和EBGW)。將不同的特征提取方式數(shù)據(jù)集上獲得的特征空間分別輸入到Bagging集成分類(lèi)器中進(jìn)行預(yù)測(cè),得到了DD數(shù)據(jù)集的Acc、Sen、Spe、Pre和MCC值。不同特征提取方式得到的結(jié)果如表5和表6所示。
表5 DD數(shù)據(jù)集不同特征的預(yù)測(cè)結(jié)果Table 5 Prediction results of different features of the DD dataset
表6 RDD數(shù)據(jù)集不同特征的預(yù)測(cè)結(jié)果Table 6 Prediction results of different characteristics of the RDD data set
由表5可知,DD 數(shù)據(jù)集用PsePSSM、DCCA、SS和EBGW 特征提取方式得到Acc值分別為65.75%、60.28%、37.69%和36.83%。而DD 數(shù)據(jù)集的ALL特征提取方法融合后得到的Acc值為69.06%。由表6 可知,RDD 數(shù)據(jù)集用PsePSSM、DCCA、SS和EBGW 特征提取方式得到Acc值分別 為72.06%、61.93%、40.66% 和40.23%。而RDD 數(shù)據(jù)集的ALL 特征提取方法融合后得到的Acc值為73.08%。很明顯得到特征提取融合后的結(jié)果比單個(gè)的結(jié)果的Acc值要更高,所以融合后特征與單一特征提取方法相比具有良好的預(yù)測(cè)性能。
通過(guò)PsePSSM、DCCA、SS和EBGW 4種特征提取方式對(duì)DD 數(shù)據(jù)集進(jìn)行特征提取,從序列不同角度提取特征信息,融合后得到419 維特征向量。由于融合后的特征向量維數(shù)大并且有冗余所以對(duì)數(shù)據(jù)的準(zhǔn)確率有影響,因此,消除冗余信息并且保留原有數(shù)據(jù)的有效信息顯得至關(guān)重要。選取不同的特征選擇方法對(duì)蛋白質(zhì)折疊識(shí)別的準(zhǔn)確性有一定的影響。對(duì)得到的數(shù)據(jù)分別通過(guò)5種降維方法在分別在Bagging集成分類(lèi)器中進(jìn)行測(cè)試。5種降維方法分別為最小冗余最大相關(guān)(max-relevance and min-redundancy,m RMR)[25]、最小二乘特征選擇(leastsquares feature selection,LSFS)[26]、多級(jí)特征選擇(maximum-likelihood feature selection,MLFS)[27]、遺傳算法(genetic algorithm,GA)[28]和局部Fisher判別分析(linear fisher discriminant analysis,LFDA)。降維后的特征向量維數(shù)為200。
使用不同的特征選擇方法,并根據(jù)10折交叉驗(yàn)證在DD 數(shù)據(jù)集上預(yù)測(cè)得到的結(jié)果如表7和圖2。
表7 不同降維方法的對(duì)比Table 7 Comparison of different dimensionality reduction methods
由表7可知,LFDA 這一降維方法的Acc精度得到了較高的結(jié)果。其中LFDA的Acc值比mRMR方法的高出31.08%,比MLFS高出30.36%,比LSFS高出28.2%,比GA高出30.5%。而且使用LFDA 降維時(shí)Sen、Spe、Pre和MCC都達(dá)到了很高的數(shù)值,分別為97.42%、99.86%、98.43%和97%。由圖2可以明顯的看出使用LFDA 降維方法比使用其它方法的預(yù)測(cè)結(jié)果高。綜上所述,使用LFDA 降維方法取得Acc的精度要高于其它的5種降維方法,再次驗(yàn)證了LFDA降維的優(yōu)異性能。因此本研究選擇LFDA 這一降維方法。
圖2 LFDA降維方法與不同降維方法進(jìn)行比較Fig.2 Comparison of LFDA dimensionality reduction method with different dimensionality reduction methods
目前,已經(jīng)有很多的人對(duì)蛋白質(zhì)折疊識(shí)別進(jìn)行了各式的研究。為了證明BAG-fold 模型的有效性,將預(yù)測(cè)模型與其它使用相同數(shù)據(jù)集的預(yù)測(cè)模型進(jìn)行比較分析。將模型的性能與其它機(jī)器學(xué)習(xí)方法進(jìn)行了比較,以展示本研究方法的有效性。與支持向量機(jī)(support vector machine,SVM)[29]、K 近 鄰(K-nearest neighbor,KNN)[30]、決策樹(shù)(decision tree,DT)[31]和樸素貝葉斯(na?ve Bayes,NB)[32]5種機(jī)器學(xué)習(xí)方法進(jìn)行了比較。其中SVM 分類(lèi)器的核函數(shù)為sigmoid,其它參數(shù)為默認(rèn)參數(shù);K 近鄰分類(lèi)器的分類(lèi)中,最近鄰的個(gè)數(shù)為7,計(jì)算數(shù)據(jù)間距離為曼哈頓距離,其它參數(shù)為默認(rèn)參數(shù)。DT 和NB分類(lèi)器都為默認(rèn)參數(shù)。并采用10折交叉驗(yàn)證方法對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢驗(yàn)結(jié)果,如表8所示。
由表8可知,使用Bagging方法明顯比其它的分類(lèi)器得到的結(jié)果好。運(yùn)用Bagging集成算法作為分類(lèi)器得到DD 數(shù)據(jù)集的Acc值最高,達(dá)到了96.83%,比SVM 分類(lèi)器高3.31%,比KNN 分類(lèi)器高2.59%,比DT 分類(lèi)器高14.68%,比NB分類(lèi)器高7.34%。顯然,使用Bagging集成算法作為分類(lèi)器得到的預(yù)測(cè)結(jié)果是最高的。因此基于Bagging集成分類(lèi)器的BAG-fold模型得到的精度明顯高于基于其它分類(lèi)器的模型,而B(niǎo)agging集成分類(lèi)器使BAG-fold模型的預(yù)測(cè)能力增強(qiáng)預(yù)測(cè)精度提高。所以本文提出的方法能夠提高模型預(yù)測(cè)性能得到更好的結(jié)果。
表8 Bagging集成方法與其他機(jī)器學(xué)習(xí)方法對(duì)比Table 8 Comparison of Bagging integration method and other machine learning methods
本工作在訓(xùn)練集DD 和測(cè)試集RDD 上的精度與其它論文中提到的方法Taxfold[33],SVMfold[6],TA-fold[6],MV-fold[4],MT-fold[4]進(jìn)行了對(duì)比,如表9所示。
表9 BAG-fold方法與其它方法的比較Table 9 Comparison of BAG-fold method and other methods
由表9可知,DD 和RDD 數(shù)據(jù)集的Acc精度都達(dá)到了較高數(shù)值。本研究中DD 數(shù)據(jù)集和RDD 數(shù)據(jù)集的精度分別為96.8%和98.8%。在與最新論文中提到MV-fold和MT-fold的方法相比,在DD數(shù)據(jù)集上BAG-fold 模型比MV-fold 模型高出13.3%,而在RDD 數(shù)據(jù)集上BAG-fold 模型要比MV-fold模型高出7.1%。在DD 數(shù)據(jù)集上BAGfold模型比MT-fold模型高出8.6%,而在RDD 數(shù)據(jù)集上高出2.1%。通過(guò)比較,提出的BAG-fold模型在DD 和RDD 數(shù)據(jù)集上明顯優(yōu)于其它最新的蛋白質(zhì)折疊識(shí)別模型?;谝陨嫌^察和比較,提出的方法優(yōu)于現(xiàn)有模型。
在折疊識(shí)別領(lǐng)域,傳統(tǒng)的實(shí)驗(yàn)方法現(xiàn)已經(jīng)無(wú)法滿(mǎn)足科學(xué)研究的需要,大多數(shù)判別方法都是基于機(jī)器學(xué)習(xí)技術(shù)的,因此探索先進(jìn)的機(jī)器學(xué)習(xí)方法以進(jìn)一步提高預(yù)測(cè)性能至關(guān)重要。而集成分類(lèi)器具有運(yùn)行時(shí)間短,準(zhǔn)確性高的優(yōu)勢(shì),所以本研究的方法得到了較好的預(yù)測(cè)結(jié)果。本研究通過(guò)集成學(xué)習(xí)方法建立了BAG-fold預(yù)測(cè)模型。首先對(duì)DD 和RDD 數(shù)據(jù)集進(jìn)行特征提取,與其它方法相比本研究對(duì)4種不同特征信息PsePSSM、DCCA、SS和EBGW 進(jìn)行了融合。使用多種特征提取方法進(jìn)行融合可以獲得更多的蛋白質(zhì)序列特征信息,可有效的防止單一特征提取方法對(duì)對(duì)蛋白質(zhì)序列信息的損失。其次,采用LFDA 方法去除特征冗余信息選取最優(yōu)特征子集。使用降維方法可以將融合多特征的蛋白質(zhì)序列信息中的冗余信息進(jìn)行去除,可減少對(duì)分類(lèi)器性能的影響。最后,將最優(yōu)特征子集輸入到集成分類(lèi)器中進(jìn)行蛋白質(zhì)折疊識(shí)別。使用10 折交叉驗(yàn)證的實(shí)驗(yàn)結(jié)果表明,所提出的方法能提高數(shù)據(jù)的精度。BAG-fold預(yù)測(cè)模型在DD和RDD數(shù)據(jù)集上的精度分別達(dá)到96.8%和98.8%。實(shí)驗(yàn)結(jié)果表明,對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行評(píng)估,本研究所提出的BAGfold模型優(yōu)于所有其它比較方法。盡管與其它方法相比,本研究的方法具有一定的的優(yōu)越性,但還有進(jìn)一步的提升空間。在今后的工作中將以提高模型預(yù)測(cè)精度為目的,在蛋白質(zhì)折疊識(shí)別領(lǐng)域進(jìn)行下一步研究。