程薇薇 王瑩
摘要:隨著對(duì)酶分類(lèi)預(yù)測(cè)的研究需要,本文采用Shen建立的數(shù)據(jù)庫(kù),從蛋白質(zhì)序列出發(fā),將每條蛋白質(zhì)序列分成等長(zhǎng)的15段得到離散增量值、低頻功率譜密度值、N端和C端的矩陣打分函數(shù)值和模體頻數(shù)構(gòu)成的組合向量表示蛋白質(zhì)序列信息,用支持向量機(jī)算法對(duì)六類(lèi)酶的家族類(lèi)及其亞類(lèi)進(jìn)行預(yù)測(cè).轉(zhuǎn)移酶的預(yù)測(cè)精度依次為92.9%.
關(guān)鍵詞:模體;矩陣打分值;離散增量;支持向量機(jī);轉(zhuǎn)移酶
中圖分類(lèi)號(hào):Q55 ?文獻(xiàn)標(biāo)識(shí)碼:A ?文章編號(hào):1673-260X(2019)05-0017-02
酶是一種生物催化劑,影響著細(xì)胞生長(zhǎng)、代謝等生命過(guò)程的化學(xué)反應(yīng)[1,2].為了更有效地研究酶的分類(lèi),對(duì)酶的研究正朝著亞類(lèi)預(yù)測(cè)方向上發(fā)展.因此,本文對(duì)轉(zhuǎn)移酶的亞類(lèi)進(jìn)行預(yù)測(cè).
石等人用SVM算法預(yù)測(cè)酶的亞類(lèi)得到很好的結(jié)果[3].因此,本文也選用SVM這種預(yù)測(cè)方法預(yù)測(cè)轉(zhuǎn)移酶的亞類(lèi),得到較好的預(yù)測(cè)精度.
1 數(shù)據(jù)庫(kù)和方法
1.1 數(shù)據(jù)庫(kù)
本文選取2007年Shen等人構(gòu)建的數(shù)據(jù)庫(kù),其中包括1820條氧化還原酶序列、2847條轉(zhuǎn)移酶序列、3279條水解酶序列、892條裂解酶序列、639條異構(gòu)酶序列和965條連接酶序列.
2 結(jié)論
本文先用新構(gòu)建的新數(shù)據(jù)庫(kù)進(jìn)行預(yù)測(cè).將15段的六類(lèi)親疏水緊鄰的離散增量值、低頻功率譜密度、N端和C端氨基酸組分的矩陣打分值和兩種模體頻數(shù)值作為參數(shù),分別將六類(lèi)酶的序列轉(zhuǎn)化為向量,轉(zhuǎn)移酶共得到71維向量.將得到的六類(lèi)酶的向量分別輸入到隨即森林中,在Jack-knife檢驗(yàn)下進(jìn)行預(yù)測(cè),總精度為92.9%(見(jiàn)表2).
參考文獻(xiàn):
〔1〕L. F. Yan, and Z. R. Sun, Protein molecular structures, Beijing: Tsinghua University, 1999, pp.65–74.
〔2〕L. F. Yan. The structure and the function of protein [M].Changsha:Hunan science and technology publishing house,1988.
〔3〕Ruijia Shi, Xiuzhen Predicting enzyme subclasses by using support vector machine with composite vectors.Volume 17, Number 5, May 2010, pp. 599-604(6).
〔4〕Bailey TL, Williams N, Misleh C, Li WW. MEME:discovering and analyzing DNA and protein sequence motifs. Nucl Acids Res, 2006,34: 369~373.
〔5〕Castro, D.E, Sigrist,C.J., Gattiker,A.,Bulliard,V., Langendijk-Genevaux,P.S., Gasteiger, E., Bairoch, A., Hulo, N. ScanProsite: detection of PROSITE signature matches and ProRule-associated functional and structural residues in protein [J]. Nucleic Acids Research. 2009, 37, 202~208.
〔6〕Ho,Tin Kam.“Random Decision Forest”.Proc.of the 3rd Int’l Conf.Document Analysis and Recognition.1995, 278-282.
〔7〕Oppenheim AV, Willsky AS, Nawab SH, Signals and systems. New York: PrenticeHall, 1985.
〔8〕CHOU K.C. The biological functions of low-frequency phonons: 3. Helical structures and microenvironment [J]. Biophysical journal, 1984, 45: 881~890.
〔9〕Zhang LR, Luo LF. Splice site prediction with quadratic discriminate analysis using diversity measure [J]. Nucleic Acids Res. 2003, 31: 6214-6220.
〔10〕Hu XZ, Li QZ. Using Support Vector Machine to Predict ?- and ?-Turns in Proteins[J]. InterScience. 2007.
〔11〕高麗群.時(shí)空地理加權(quán)回歸模型的統(tǒng)計(jì)診斷[J].哈爾濱師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(6):50-52.