王 瑩
(齊齊哈爾工程學(xué)院,黑龍江齊齊哈爾 161000)
用隨機(jī)森林算法預(yù)測(cè)六類酶的亞類*
王 瑩
(齊齊哈爾工程學(xué)院,黑龍江齊齊哈爾 161000)
從蛋白質(zhì)序列出發(fā),我們首先將每條蛋白質(zhì)序列分成等長的15段得到離散增量值、低頻功率譜密度值、N端和C端的打分值和模體頻數(shù)構(gòu)成的組合向量表示蛋白質(zhì)序列信息,用隨機(jī)森林算法,對(duì)氧化還原酶、轉(zhuǎn)移酶、水解酶、裂解酶、異構(gòu)酶和連接酶中包含的亞類分別進(jìn)行分類預(yù)測(cè)??偩纫来螢?0.86%、95.24%、96.42%、98.60%、97.53%和98.03%。除轉(zhuǎn)移酶和水解酶略低于前人,其余好于前人的預(yù)測(cè)結(jié)果。
模體;矩陣打分值;離散增量;隨機(jī)森林;酶的亞類
酶是具有高度專一性和催化效率的蛋白質(zhì),也稱生物催化劑[1,2],完成生命過程中幾乎所有的化學(xué)反應(yīng)。由于酶的亞類決定其催化性及性能,對(duì)酶的亞類的研究非常必要。因此,本文對(duì)六類酶的亞類進(jìn)行預(yù)測(cè)。從21世紀(jì)開始,對(duì)酶的分類出現(xiàn)了許多的預(yù)測(cè)方法,并取得了許多的研究成果。
2007年,Shen和Chou運(yùn)用Top-down的方法預(yù)測(cè)酶的6個(gè)家族類和酶的亞類[3],其中酶的6個(gè)家族類的預(yù)測(cè)總精度為93.7%;各類酶的亞類預(yù)測(cè)總精度分別為 86.7%、95.8%、95.9%、94.4%、93.3%、98.3%。我們小組的石瑞佳等人采用支持向量機(jī)的方法預(yù)測(cè)酶的亞類得到較好的結(jié)果[4]。
由于隨機(jī)森林算法是是處理高維、非線性模型的前沿理論和工具。因此,本文具體的采用隨機(jī)森林(random forests,RF)算法構(gòu)建一個(gè)非線性的模型,實(shí)現(xiàn)對(duì)六類酶的亞類進(jìn)行分類預(yù)測(cè)。并得到較好的精度。
本文選取的數(shù)據(jù)集是通過ENZYME數(shù)據(jù)庫http://www.expasy.org/enzyme/(released on 01 -May-2007)構(gòu)建的新數(shù)據(jù)庫,步驟如下:
(1)通過 ENZYME 和 Swiss- Prot(http://www.ebi.ac.uk/swissprot/)兩個(gè)數(shù)據(jù)庫得到酶的序列。
(2)首先去掉不足50個(gè)殘基的序列。
(3)刪除同時(shí)在兩個(gè)或多個(gè)亞類中出現(xiàn)的序列,以免信息重復(fù)。
(4)利用BLAST軟件使序列的相似性小于40%。
(5)為了保證信息的完整,最后將不足10條序列的亞類除去。
經(jīng)通過處理后共得到14757條酶序列。其中氧化還原酶有2167條、轉(zhuǎn)移酶有5460條水解酶有4498條、裂解酶的931條、異構(gòu)酶有688條和連接酶有1013條。
1.2.1 離散增量值(ID)
D(X+Y ) 為混合離散源
的離散量。計(jì)算公式為:
本文將一條酶序列分成15等份,分別用以緊鄰疏水性的ID值作為參數(shù)。以氧化還原酶為例,對(duì)于一條酶序列由公式1可以得到18個(gè)離散增量值。其它各類作法類似。
1.2.2 低頻功率譜密度值(F)
功率譜密度能反映序列的順序信息,因此本文選取該值作為參數(shù)。提取功率譜密度值步驟如下[4]:
序列轉(zhuǎn)換。利用氨基酸的疏水值(見表1,取自文獻(xiàn)[4]),將酶序列轉(zhuǎn)化成數(shù)字序列:R1R2…RL。其中Ri是第i個(gè)氨基酸。假設(shè)v(i)是第i個(gè)氨基酸殘基的疏水值。
根據(jù)以下公式,對(duì)得到的數(shù)字序列進(jìn)行離散傅里葉變換[9]:
數(shù)據(jù)處理。通過以上的處理將每個(gè)序列都變成512維,表示512個(gè)頻點(diǎn)。由于信號(hào)的特征及能量主要在低頻部分[9],并通過多次驗(yàn)證得出取16時(shí)結(jié)果最好。因此,本文取每條序列前16個(gè)頻點(diǎn)。又因?yàn)槊織l序列中第一個(gè)頻點(diǎn)較特殊。因此,本文選取每條序列第2-16個(gè)低頻功率譜密度值作為參數(shù)。
1.2.3 矩陣打分值(D)
矩陣打分算法[31-33]是一種有效的預(yù)測(cè)方法。我們利用該算法的打分函數(shù)來對(duì)酶序列進(jìn)行特征提取。這里將矩陣打分算法分為以下3步介紹。
位置概率矩陣的構(gòu)建。為更準(zhǔn)確的表達(dá)序列信息,將氨基酸的位置概率作為位置概率矩陣的矩陣元[5]。
其中nij是第i個(gè)位置第j中氨基酸出現(xiàn)的頻數(shù),Ni是第i個(gè)位置出現(xiàn)氨基酸的總數(shù),l為20。Pij表示第i個(gè)位置第j中氨基酸出現(xiàn)的概率。
位點(diǎn)保守性參量Ci反映位點(diǎn)氨基酸的保守性:
本文使用的打分函數(shù)為[13]:
由于酶序列的N端和C端保守性比較好,因此本文選取N端和C端各30個(gè)氨基酸分別根據(jù)以上方法得到打分值。以氧化還原酶為例,對(duì)于一條蛋白質(zhì)序列由公式2可以得到N端18個(gè)打分值和C端18個(gè)打分值。
1.2.4 模體頻數(shù)值(MR)
模體通常與生物學(xué)功能相聯(lián)系。為了反映序列功能信息。因此,本文利用MEME在線服務(wù)器(http://meme.nbcr.net/meme430/cgi- bin/meme.cgi[5])和 PROSITE 在線服務(wù)器(http://www.expasy.ch/prosite/[6])搜索各亞類的模體。
MEME。MEME中得到的模體具有統(tǒng)計(jì)學(xué)意義。因此選取每類亞類現(xiàn)次數(shù)最高的3種模體,以氧化還原酶的18個(gè)亞類為例,共得到54種模體。在一條酶序列中,對(duì)各模體進(jìn)行計(jì)數(shù)。因此可以將序列變?yōu)轭l數(shù)值。
PROSITE。用Prosite數(shù)據(jù)庫對(duì)酶序列進(jìn)行搜索,得到N個(gè)模體。經(jīng)過統(tǒng)計(jì)分析后,每類酶取三種出現(xiàn)較多的模體,以氧化還原酶的18個(gè)亞類為例,共得到18種模體。對(duì)各模體進(jìn)行計(jì)數(shù)。因此可以將序列變?yōu)轭l數(shù)值。
隨機(jī)森林算法是2001年Leo Breiman提出的一種新型分類和預(yù)測(cè)模型[7-8],是基于決策樹的分類器集成算法。它利用大數(shù)定律原理防止過度擬合、分類速度快,能有效處理大樣本數(shù)據(jù),能估計(jì)哪個(gè)特征參數(shù)在分類中更重要以及較強(qiáng)的抗噪聲干擾能力等特點(diǎn),因此,在基因芯片數(shù)據(jù)挖掘及藥物篩選等生物學(xué)領(lǐng)域得到應(yīng)用并取得了較好的效果。
本文隨機(jī)森林算法是使用2.8.1版本的R軟件(http://www.r-project.org/),通過調(diào)用其中的隨機(jī)森林程序包來實(shí)現(xiàn)的。
將15段的六類親疏水緊鄰的離散增量值、低頻功率譜密度、N端和C端氨基酸組分的矩陣打分值和兩種模體頻數(shù)值的組合向量共同輸入到隨機(jī)森林中,對(duì)六類酶的亞類分別進(jìn)行預(yù)測(cè),總精度依次為 90.86%、95.24%、96.42%、98.60%、97.53%和98.03%(見表1-6)。同時(shí),我還將氧化還原酶?jìng)€(gè)亞類與原庫不同序列組成的數(shù)據(jù)集作為檢驗(yàn)集,原數(shù)據(jù)庫中的氧化還原酶作為訓(xùn)練集,進(jìn)行獨(dú)立檢驗(yàn),得到的預(yù)測(cè)總精度為96.11%。
表1:氧化還原酶的18個(gè)亞類的結(jié)果
表2:轉(zhuǎn)移酶的8個(gè)亞類的結(jié)果
表3:水解酶的5個(gè)亞類結(jié)果
表4:裂解酶的6個(gè)亞類的結(jié)果
表5:異構(gòu)酶的6個(gè)亞類的結(jié)果
表6:連接酶的6個(gè)亞類的結(jié)果
根據(jù)上表,本文的預(yù)測(cè)方法是有效的,結(jié)果好于前人。其要原因:(1)隨機(jī)森林算法是一種很有效的組合分類器,它由多棵決策樹組成,最終的分類結(jié)果由所有決策樹的綜合投票而定,因此與單分類器(如SVM)算法相比分類更為準(zhǔn)確。(2)利用模體反映序列功能,并使用了兩種有效模體收索方法。(3)對(duì)序列進(jìn)行分段處理,有效的突出了酶序列的活性部位,反映其有效信息。
[1]L.F.Yan,Z.R.Sun.Protein molecular structures[M].Beijing:Tsinghua University,1999:65–74.
[2]L.F.Yan.The structure and the function of protein[M].Changsha:Hunan science and technology publishing house,1988.
[3]SHEN H.B.,CHOU K.C.EzyPred:A top - down approach for predicting enzyme functional classes and subclasses[J].Biochemical and Biophysical Research Communication,2007,364:53-59.
[4]Ruijia Shi,Xiuzhen Xu.Predicting enzyme subclasses by using support vector machine with composite vectors[J].Volume 17,Number 5,May 2010:599-604(6).
[5]Bailey TL,Williams N,Misleh C,Li WW.MEME:discovering and analyzing DNA and protein sequence motifs[J].Nucl Acids Res,2006,34:369 -373.
[6]Castro,D.E,Sigrist,C.J.,Gattiker,A.,Bulliard,V.,etc.ScanProsite:detection of PROSITE signature matches and ProRule-associated functional and structural residues in protein[J].Nucleic Acids Research,2009,37:202 -208.
[7]Breiman L.Random forests[J].Machine Learning,2001,45:5-32.
[8]袁敏,胡秀珍.隨機(jī)森林方法預(yù)測(cè)膜蛋白類型[J].生物物理學(xué),2009,5:349-355.
[9]CHOU K.C.The biological functions of low - frequency phonons:3.Helical structures and microenvironment[J].Biophysical journal,1984,45:881 -890.
[10]Lei Liu,Xiuzhen Hu.Bases on Improved Parameters Predicting Protein Fold.2010 sixth international conference on Natural computation YanTai,shandon.
[11]李鳳敏,李前忠.蛋白質(zhì)亞細(xì)胞定位的識(shí)別[J].生物物理學(xué)報(bào),2004,22(4):297-302.
[12]胡秀珍,李前忠.用離散量的方法識(shí)別蛋白質(zhì)的超二級(jí)結(jié)構(gòu)[J].生物物理學(xué)報(bào),2006,22(6):424-428.
[13]楊科利,李前忠,林昊.預(yù)測(cè)酵母(Yeast)基因轉(zhuǎn)錄因子結(jié)合位點(diǎn)[J].內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,37(5):524-53.
Predicting Enzyme Subclasses by Using Random Forest
WANG Ying
(Qiqihar Institute of Technology;Qiqihar 161000)
Based on protein sequence,by selecting increment of diversity value,low - frequency of power spectral density,matrix scoring function values and motif frequency as characteristic parameters to describe the sequence information,Random Forest algorithm for predicting enzyme subclass is proposed.The overall success rate are 90.86%,95.24%,96.42%,98.60%,97.53%and 98.03%.Furthermore,in the same way,using the previous database to predict is better than the previous forecast results.
Motif;matrix scoring function value;Increment of diversity value;Random Forest algorithm;enzyme subclasses;prediction
Q55
A
1004-1869(2014)02-0022-04
10.13388/j.cnki.ysajs.2014.02.006
2014-04-17
王 瑩(1986-),女,吉林永吉人,碩士,研究方向:生物信息學(xué)。