王 婷
(長治職業(yè)技術(shù)學(xué)院 山西長治 046000)
酶是人體健康的源泉,它幾乎參與所有的生命活動,如消化、呼吸、睡眠、思考、情緒、內(nèi)分泌等。人體的生長和延續(xù)需要成千上萬種以上的酶化反應(yīng)來實現(xiàn)。根據(jù)酶所能催化反應(yīng)種類的不同,將酶分為6個家族類:氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶[1-2]。按照國際科學(xué)文獻中的分類原則,在這6個家族類的基礎(chǔ)上,再根據(jù)底物中被作用的基團或鍵的特點進一步將每個家族分為不同的亞類[3]。酶的結(jié)構(gòu)及作用機理與其所屬的家族類或亞類關(guān)系密切,因此對酶分類問題的研究十分必要。近年來對酶的家族類的分類研究已經(jīng)比較完善,故如今的熱點變?yōu)榱嗣竵嗩惖姆诸愵A(yù)測。
本文基于酶的序列信息,分別使用矩陣打分與離散增量的方法提取各類特征參數(shù),然后將多種特征參數(shù)有效組合,利用支持向量機分類算法對數(shù)據(jù)集中酶家族類的各個亞類進行分類識別。計算結(jié)果表明,此算法能夠獲得較高的預(yù)測成功率。
本文使用的酶序列來源于ENZYME數(shù)據(jù)集http://www.expasy.org/enzyme/(released on 01-May-2007),和Chou等人使用的數(shù)據(jù)集相同[4]。按照以下3個標準來選取數(shù)據(jù)集:①選取長度均大于50個殘基的序列;②刪除同時屬于多種類型的酶序列;③酶序列的相似性小于40%?;谝陨蠘藴士梢缘玫剑?18個亞類的1820條氧化還原酶序列;8個亞類的2847條轉(zhuǎn)移酶序列;5個亞類的3279條水解酶序列;6個亞類的892條裂合酶序列;6個亞類的639條異構(gòu)酶序列;6個亞類的965條合成酶序列。
1.2.1 矩陣打分方法
矩陣打分方法已被成功應(yīng)用于蛋白質(zhì)β-發(fā)夾模體的識別[5]、蛋白質(zhì)折疊子的預(yù)測[6]等方面。由于酶序列片段具有很強的位點保守性,故使用矩陣打分方法來提取特征參數(shù),此方法的應(yīng)用分為以下4步。
這里,i = 1,2,…, L (L為酶序列片斷的截取長度),j表示20種氨基酸和1個空位,iN表示在第 i個位置氨基酸出現(xiàn)的總頻數(shù),ijn表示在第i個位置第j種氨基酸出現(xiàn)的頻數(shù)[7]。
②依據(jù)位點的位置概率,構(gòu)造21行L列的位置權(quán)重矩陣:
其中,0jP 表示第j種氨基酸的背景概率[7]。
③計算酶序列中第i個位點的保守性參量:
④使用位置權(quán)重矩陣,對于任意一段給定的酶序列片段進行打分,定義打分函數(shù)(S)為:
其中,,maxiw 和,inimw 分別表示第i行矩陣元的最大值和最小值,這里0 1S≤ ≤ 。
以氧化還原酶為例,利用氧化還原酶包含的18個亞類的數(shù)據(jù)集可以得到18個位置權(quán)重矩陣,對于任意一段給定的酶序列片段,由(4)式可以得出18個打分值,比較這18個分值的大小,哪一個亞類的分值高,此序列片段就被判斷為屬于哪一類別的亞類。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別也據(jù)此判斷。
截取酶序列片段的原則:①由于酶序列的N端與C端所反映的位點保守性差異很大,需分別從酶序列的N端與C端截取氨基酸片段進行矩陣打分的分類預(yù)測,通過比較,選取包含70個氨基酸殘基的片段長計算效果最佳;②為了不影響計算結(jié)果,對酶序列的長度作了統(tǒng)計分析,如表1所示,發(fā)現(xiàn)序列 長≤140個氨基酸殘基的序列數(shù)在各類中都<6.13%;③以氧化還原酶為例,從酶序列的N端和C端分別截取70個氨基酸殘基的片段長進行打分,任意一條待測序列得到18×2個打分值。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別可以得到 8×2、5×2、6×2、6×2和6×2個打分值。
表1 酶的6個家族類序列長度的統(tǒng)計分析 Tab.1 Statistical analysis of sequence length of six families of enzymes
1.2.2 離散增量方法
近年來離散增量方法已在亞細胞定位[8]、蛋白質(zhì)超家族的預(yù)測[9]等工作中大量使用。
在S維空間中,構(gòu)造2個離散源X:[n1,n2,…,ni,…,ns]和Y:[m1,m2,…,mi,…,ms],這里ni和mi分別表示第i種氨基酸關(guān)聯(lián)出現(xiàn)的頻數(shù),它們的離散量分別為:
離散增量定義為:
其中,D ( X + Y)為混合離散源X+Y(n1+m1,n2+ m2,…,ns+ms)的離散量,,對數(shù)的底b=10,離散量的單位為哈特。
離散增量定義了2個離散源的同源性程度,離散增量值越小,它們之間的相似性越高[7]。
以氧化還原酶為例,由其18個亞類的數(shù)據(jù)集可以構(gòu)成18個標準離散源,對于任意一條酶序列,由(7)式可以求得18個離散增量值,比較它們的大小,哪一個亞類的離散增量值小,此序列就被判斷為屬于哪一類別的亞類。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶也適用。
根據(jù)氨基酸殘基的物理化學(xué)、生物化學(xué)性質(zhì)的不同,將20種氨基酸分為以下9類[10]:C;M;N、Q;D、E;S、T;P、A、G;I、V、L;F、Y、W;H、K、R。
本文以酶序列中氨基酸理化性緊鄰關(guān)聯(lián)與氨基酸次鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)分別構(gòu)成標準離散源,均計算離散增量值。以氧化還原酶為例,利用氨基酸理化性緊鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)為參數(shù)可以得到18個標準離散源,對于任意一條待測序列可以得出18個離散增量值;同樣以氨基酸次鄰關(guān)聯(lián)的出現(xiàn)頻數(shù)為參數(shù)也可以得到18個離散增量值。類似的,轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶分別可以得到8×2、5×2、6×2、6×2和6×2個離散增量值。
1.2.3 支持向量機方法
支持向量機(SVM)是一個非常強大且具有多種功能的機器學(xué)習(xí)模型,能夠處理線性或非線性分類問題。SVM是最好的現(xiàn)成分類器(現(xiàn)成指不用修改可以直接使用),而且它的分類錯誤率較低。SVM特別適合應(yīng)用于中小型規(guī)模數(shù)據(jù)集樣本的分類問題,能夠解決高維問題,還可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點問題[11]。本文使用的是臺灣大學(xué)林智仁等人開發(fā)的libSVM-3.1版的程序包[12]。libSVM提供了一些簡單易用的接口,使用戶能夠方便應(yīng)用而不必關(guān)心其內(nèi)部復(fù)雜的數(shù)學(xué)模型和運行過程。
以氧化還原酶為例,對任一待測的酶序列,把氨基酸理化性的緊鄰關(guān)聯(lián)與氨基酸的次鄰關(guān)聯(lián)分別的出現(xiàn)頻數(shù)作為特征參數(shù),使用離散增量方法得到18×2個離散增量值;分別從酶序列的N端與C端截取70個氨基酸殘基片段長進行矩陣打分,得到18×2個打分值;將這36個離散增量值與36個打分值構(gòu)成的組成向量,共同輸入支持向量機中,使用刀切法(Jackknife)檢驗對氧化還原酶中的亞類進行分類識別,其預(yù)測結(jié)果見表2。類似的,對其他5個家族類的酶的亞類也做了同樣的分類識別,預(yù)測結(jié)果在表2中列出。此外,為了方便預(yù)測結(jié)果的比較,還分別采用前面介紹的矩陣打分方法和離散增量方法對酶家族類的亞類進行預(yù)測,同時將Chou等[4]運用相同數(shù)據(jù)集的Jackknife檢驗的預(yù)測結(jié)果也列于該表中。
表2 酶的6個家族類中各亞類的Jackknife檢驗下的預(yù)測結(jié)果 Tab.2 Prediction results of each subclass in six families of enzymes under jackknife test
續(xù)表2
從表2的預(yù)測結(jié)果能夠看出,從酶序列的N端和C端截取氨基酸殘基片段的矩陣打分方法預(yù)測結(jié)果整體上優(yōu)于離散增量方法的預(yù)測結(jié)果,進一步表明酶序列的兩端具有很好的位點保守性。而矩陣打分的2種分值結(jié)合氨基酸關(guān)聯(lián)的2種離散增量值共同作為特征參數(shù)進行有效的組合,利用支持向量機的分類算法,獲得了最佳的預(yù)測結(jié)果。不但每個家族類的總體預(yù)測成功率很高,而且各個亞類的結(jié)果也非常理想。氧化還原酶、轉(zhuǎn)移酶、水解酶、裂合酶、異構(gòu)酶和合成酶中亞類的總體預(yù)測成功率分別為96.43%、92.90%、90.85%、99.22%、99.84%和98.86%。氧化還原酶、異構(gòu)酶和裂合酶的總體預(yù)測成功率比Chou[4]的方法分別提高了9.73%、6.54%和4.82%,水解酶和轉(zhuǎn)移酶的總體預(yù)測成功率比Chou等[4]的結(jié)果稍差。究其原因,是因為水解酶和轉(zhuǎn)移酶的序列數(shù)目很大,故噪聲顯著。由于支持向量機需要大量的內(nèi)存,選擇正確的核很重要,所以很難做出調(diào)整,當數(shù)據(jù)集的噪聲較大時,無法獲得滿意的結(jié)果。
本文基于酶的序列信息,使用多特征的組合向量作為參數(shù)對酶的亞家族類進行類型識別,預(yù)測成功率有了很大提高。這是因為支持向量機方法具有高效的分類能力,它能夠?qū)⒏鞣N序列信息有效融合,通過網(wǎng)格化尋找最優(yōu)參數(shù)c值和g值。此方法的優(yōu)勢還表現(xiàn)在通過提取矩陣打分值和離散增量值的方法,降低了輸入支持向量機的特征參數(shù)維數(shù),避免了維數(shù)災(zāi)難,簡化了計算過程。■