譚生龍
摘要:機(jī)器學(xué)習(xí)算法無(wú)法直接對(duì)連續(xù)的氨基酸序列進(jìn)行功能注釋?zhuān)瑢⒂米址硎镜陌被嵝蛄修D(zhuǎn)化成用數(shù)值表示的特征向量是必要步驟,本文探討了基于氨基酸序列的特征提取方法,簡(jiǎn)單探討了各種方法的優(yōu)劣,為新的氨基酸序列特征提取方法的研究起到拋磚引玉的作用。
關(guān)鍵詞:蛋白質(zhì)序列;特征向量;特征提取
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)22-0169-02
1 引言
隨著測(cè)序成本的下降,通過(guò)高通量測(cè)序獲得生物序列的速度正以幾何級(jí)數(shù)增長(zhǎng),如何應(yīng)對(duì)如此快速增長(zhǎng)的序列并進(jìn)行快速的功能注釋變得非常必要,一種可行的方法是利用計(jì)算機(jī)的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)對(duì)序列進(jìn)行快速的功能注釋。目前,機(jī)器學(xué)習(xí)算法僅支持對(duì)離散特征向量進(jìn)行學(xué)習(xí)和分類(lèi),而不能對(duì)用連續(xù)字符串表示的生物序列進(jìn)行自動(dòng)分類(lèi)。生物序列包括核苷酸序列和氨基酸序列,核苷酸序列又可以分為DNA序列和RNA序列,形成DNA序列的字母表為{A,T,C,G},RNA序列的字母表由{A,U,C,G}組成;而蛋白質(zhì)的氨基酸序字母表為∑={A,C,D,E,F(xiàn),G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y},字母表中字符的個(gè)數(shù)為|∑|=20,氨基酸序列由字母表中的字符生成,本文主要討論將氨基酸序列轉(zhuǎn)化成離散特征向量的方法及各方法的優(yōu)缺點(diǎn)。
2 常用生物序列的特征提取策略
1)氨基酸組成成分的特征提取方法
將氨基酸序列轉(zhuǎn)化為特征向量的方法中,最簡(jiǎn)單的方法是計(jì)算字母表中的各個(gè)字母在序列中的出現(xiàn)頻率。將長(zhǎng)度為n的氨基酸序列S表示為:S[1..n]=r1r2..ri..rn,其中ri∈∑,ri是組成氨基酸序列的單個(gè)字母,則字母表中的單個(gè)字符ri出現(xiàn)的頻率為Fi = Ai /n。其中 Ai 為字符ri在序列S中出現(xiàn)的次數(shù)。字母表中有20個(gè)字符,對(duì)不同長(zhǎng)度的氨基酸序列,均生成一個(gè)有20個(gè)分量的特征向量,具體的實(shí)現(xiàn)方法見(jiàn)[1]。本方法實(shí)現(xiàn)簡(jiǎn)單,且不同長(zhǎng)度的氨基酸序列生成的特征向量長(zhǎng)度相同,方便運(yùn)算和比較,但該方法沒(méi)有考慮氨基酸序列內(nèi)部的順序關(guān)系,丟失了序列內(nèi)部較重要的位置信息。
2)分段偽氨基酸組成成分的特征提取
蛋白質(zhì)的氨基酸序列具有局部特征,蛋白序列的局部子序列具有功能域的作用。一般把氨基酸序列中具有功能域特征的子片段稱(chēng)為模體(motif),具有功能的氨基酸序列一般由多個(gè)功能域構(gòu)成。由此,將蛋白序列S均分成m個(gè)子片段,然后在每個(gè)子片段內(nèi)部計(jì)算氨基酸組成成分的特征向量,然后將這m個(gè)特征向量拼成一個(gè)具有20×m長(zhǎng)度的特征向量,具體的實(shí)現(xiàn)方法見(jiàn)[2]。
3)基于k-mer頻度的特征提取方法
為了考慮氨基酸序列內(nèi)部的位置關(guān)系,以氨基酸序列內(nèi)部固定長(zhǎng)度的小片段為研究對(duì)象,計(jì)算這些小片段序列的出現(xiàn)頻率,稱(chēng)這種小片段為k-mer,k為小片段的長(zhǎng)度。當(dāng)k=1時(shí),本方法即為氨基酸組成成分的特征提取方法。當(dāng)k=2時(shí),由20種基本氨基酸組成的2-mer有202=400種組合,即包括∑2={AA,AC,AD,…,YY}共400種短片度,生成的特征向量有400個(gè)分量。我們可以統(tǒng)計(jì)這400種小片段在序列S中的出現(xiàn)頻率,由此可將序列S轉(zhuǎn)換為一個(gè)400維的向量。計(jì)算某個(gè)k-mer頻率的方法為Fi = Ai /(n-k+1),Ai為單個(gè)k-mer在序列S中的出現(xiàn)次數(shù),n為序列S的長(zhǎng)度,k為短片段k-mer的長(zhǎng)度。當(dāng)k=3時(shí),蛋白質(zhì)序列中的3-mer有203=8000種可能,即∑3={AAA,AAC,…,YYY},生成一個(gè)8000維的向量,每個(gè)分量表示某3-mer在該序列中出現(xiàn)的頻率。當(dāng)k-mer中的長(zhǎng)度繼續(xù)增加時(shí),比如k≥4時(shí),在單條序列S中,k-mer個(gè)數(shù)太多而單個(gè)k-mer在序列S中出現(xiàn)在頻率很少,很多k-mer出現(xiàn)0次或者1次,大量由0和1構(gòu)成的特征向量已經(jīng)沒(méi)有意義。比如4-mer生成的特征向量有204=160000個(gè)分量,在氨基酸序列S中,多數(shù)4-mer僅出現(xiàn)0次,故特征向量中的多數(shù)分量是0,因此該向量的維數(shù)太高而很少被采用。通過(guò)計(jì)算同一組蛋白不同k-mer的頻率,可以將蛋白的氨基酸序列表示成一組由k-mer頻率表示的特征向量,長(zhǎng)度不同的氨基酸序列,只要選擇相同的k值,其生成的特征向量的維度相同。本方法考慮了序列的相鄰關(guān)系,但當(dāng)k增大時(shí),特征向量的維度以幾何方式增長(zhǎng),高維特征向量為后續(xù)的機(jī)器學(xué)習(xí)算法引入維度災(zāi)難,使預(yù)測(cè)分類(lèi)性能顯著下降。
4)偽氨基酸組成成分
氨基酸組成成分方法沒(méi)有考慮殘基在序列中出現(xiàn)的順序,而僅僅計(jì)算二十種基本氨基酸在序列中的出現(xiàn)頻率,該模型忽略了氨基酸殘基間的順序關(guān)系;k-mer頻度的特征提取方法僅考慮了氨基酸殘基的局部順序關(guān)系,當(dāng)k增加時(shí),向量維度迅速升高;這兩種模型在將氨基酸序列轉(zhuǎn)化成特征向量方面丟失了較多的氨基酸殘基間的順序關(guān)系。為了更完整的表示序列的位置信息,Chou等人提出了偽氨基酸組成模型[3, 4]PAAC(Pseudo Amino Acid Composition Model),在該模型中,偽氨基酸組成模型保留了氨基酸組成成分的特征,并通過(guò)擴(kuò)展特征向量來(lái)表示位置信息。故偽氨基酸組成成分的特征向量表示為:
PAAC =(x1,x2,…,xi,…,x20,x20+1,…,x20+λ) (1)
在PAAC中,前20個(gè)分量x1,..,x20表示20個(gè)基本氨基酸的出現(xiàn)頻率,而分量x20+1,…,x20+λ部分表示了氨基酸序列中殘基的位置信息。殘基間的位置信息能通過(guò)如圖1所示的殘基間的相關(guān)關(guān)系來(lái)描述。圖1中的(a)描述殘基間的第一層關(guān)系,即分量x20+1,(b)和(c)分別描述了殘基間的第二層和第三層關(guān)系,即分量x20+2和x20+3,層數(shù)λ可由用戶(hù)指定,但λ應(yīng)該小于蛋白序列的長(zhǎng)度n。
圖1中氨基酸序列的殘基之間的相關(guān)關(guān)系可以用下面的公式計(jì)算:
…
在這里x20+1表示氨基酸序列間的第一層關(guān)系,x20+2表示氨基酸序列的第二層關(guān)系,x20+λ表示氨基酸序列的第λ層關(guān)系,λ是一個(gè)輸入?yún)?shù);n表示氨基酸序列的長(zhǎng)度,λ(ri,rj),表示兩個(gè)基本氨基酸殘基之間的關(guān)系。通常,λ(ri,rj)是用兩基本氨基酸的理化性質(zhì)、空間結(jié)構(gòu)改變或者序列間的轉(zhuǎn)化等數(shù)量關(guān)系來(lái)描述。
5)組合的特征向量生成方法
在應(yīng)用這些特征提取方法將蛋白的氨基酸序列轉(zhuǎn)化成特征向量的過(guò)程中,可同時(shí)使用幾種特征向量提取方法,將由不同特征提取方法生成的特征向量進(jìn)行組合,生成組合的特征向量,實(shí)踐證明這種組合特征向量能更好地表示序列S的內(nèi)部信息,這種組合特征向量能較好的提升機(jī)器學(xué)習(xí)算法的預(yù)測(cè)性能。在應(yīng)用這些方法的過(guò)程中,經(jīng)常遇到因?yàn)樘卣飨蛄烤S度過(guò)高引發(fā)的維度災(zāi)難問(wèn)題,一般采用主成分分析、F-Score和二項(xiàng)分布[5]等多種方式對(duì)特征向量進(jìn)行降維。
3 總結(jié)
蛋白序列的特征提取技術(shù)直接決定機(jī)器學(xué)習(xí)分類(lèi)模型的預(yù)測(cè)性能和預(yù)測(cè)結(jié)果的準(zhǔn)確性。高效的特征提取技術(shù)能將連續(xù)的氨基酸序列快速轉(zhuǎn)化為離散的特征向量,且更好展現(xiàn)了序列的內(nèi)部隱藏信息。在生物序列數(shù)據(jù)快速增長(zhǎng)的新形勢(shì)下,研究高效特征提取技術(shù)已經(jīng)變得非常必要,本文對(duì)目前的氨基酸序列的特征提取技術(shù)進(jìn)行了綜述,希望能對(duì)高效特征提取方法的研究起到拋磚引玉的作用。
參考文獻(xiàn):
[1] Nakashima H,Nishikawa K.Discrimination of intracellular and extracellular proteins using amino acid composition andresidue—pair frequencies.J Mol Biol,1994,238(1):54-61.
[2] 楊會(huì)芳,程詠梅,張紹武,等. 基于一種新的特征提取方法 分段偽氨基酸組成成分預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位 生物物理學(xué)報(bào),2008,24(33):232-238.
[3] K. C. Chou, Prediction of protein cellular attributes using pseudo-amino acid composition, Proteins: Structure, Function, and Bioinformatics, 2001(43):246-255.
[4] K.-C. Chou, Some remarks on protein attribute prediction and pseudo amino acid composition, Journal of Theoretical Biology, 2011(273):236-247.
[5] Lin H, Deng E, Ding H. iPro54-PseKNC: a sequence-based predictor for identifying sigma-54 promoters in prokaryote with pseudo k-tuple nucleotide composition. Nucleic Acids Research, 2014, 42(21), 12961-12972. doi:10.1093/nar/gku1019.