姜雪 于巍
摘要:選取了來自1 423個相似性小于33%的蛋白質(zhì)序列的1 459個βαβ模體和2 419個非βαβ模體,通過分析模體中各二級結(jié)構(gòu)單元的分布情況,確定固定序列模式長。基于優(yōu)化的氨基酸信息,利用離散增量算法識別βαβ模體。運用10-fold交叉檢驗和獨立檢驗方法對算法進行檢驗,識別總精度分別達到79.4%和78.6%。
關(guān)鍵詞:蛋白質(zhì);βαβ模體;離散增量;優(yōu)化的參量;優(yōu)化位點氨基酸;識別精度
中圖分類號: Q51文獻標(biāo)志碼: A文章編號:1002-1302(2015)02-0020-04
收稿日期:2014-04-09
基金項目:遼寧省教育廳教學(xué)改革立項(編號:2012411)。
作者簡介:姜雪(1978—),女,黑龍江明水人,碩士,講師,主要從事生物信息學(xué)研究。E-mail:shuidi780829@163.com。 模體是具有特定功能或作為一個獨立結(jié)構(gòu)域一部分的相鄰的二級結(jié)構(gòu)的聚合體,是蛋白質(zhì)家族組成結(jié)構(gòu)和執(zhí)行功能的重要部分,介于蛋白質(zhì)二級結(jié)構(gòu)和三級結(jié)構(gòu)之間,充當(dāng)三級結(jié)構(gòu)的構(gòu)件。近20年來,對簡單模體如β-轉(zhuǎn)角、β-發(fā)夾的預(yù)測[1-8]得到了很好的發(fā)展,主要方法集中在人工神經(jīng)網(wǎng)絡(luò)、支持向量機和統(tǒng)計方法上,且都取得了較好的預(yù)測效果。而βαβ是常見的復(fù)雜結(jié)構(gòu)模體之一。如果2組平行的β折疊片通過α螺旋經(jīng)過連接肽(Loop)回折2次,且β折疊之間有氫鍵相連,最終β折疊片的疏水側(cè)鏈面向α螺旋的疏水面,彼此緊密裝配,形成β-Loop-α-Loop-β結(jié)構(gòu),簡記為βαβ,多傾向于形成右手扭曲的拓撲結(jié)構(gòu)[9]。它包含大量的折疊信息,頻繁地出現(xiàn)在每一個具有β折疊片的蛋白質(zhì)結(jié)構(gòu)中,常與形成功能結(jié)構(gòu)位點和活性位點有關(guān),同時βαβ模體上存在大量的功能位點,能為藥物分子設(shè)計提供信息。因此對蛋白質(zhì)的功能有著重要影響。正確地識別βαβ模體對研究蛋白質(zhì)的空間結(jié)構(gòu)和功能具有重要意義,對分子藥物開發(fā)設(shè)計具有相應(yīng)的理論價值。1983年,Taylor等運用和已知模板進行序列比對的方法對16個α/β類蛋白質(zhì)包含的βαβ模體進行了預(yù)測,預(yù)測率達到70%[10];1984年,Taylor等在統(tǒng)計βαβ模體的基礎(chǔ)上用同樣的方法對18個α/β類蛋白質(zhì)包含的βαβ模體進行了預(yù)測,預(yù)測率達到75%[11];1986年Wierenga等運用指紋圖譜方法對PID數(shù)據(jù)集中的2 676條序列中的βαβ模體的ADP結(jié)合位點進行了預(yù)測[12]。可見,對復(fù)雜結(jié)構(gòu)模體βαβ的預(yù)測研究工作還很少,但成功的預(yù)測卻說明βαβ存在著功能位點,其理論預(yù)測是可行的。
本研究構(gòu)建了2個數(shù)據(jù)集:一是來自1 423個相似性小于33%的蛋白質(zhì)的1 459個βαβ模體和2 419個非βαβ模體;二是來自256個相似性小于25%的蛋白質(zhì)的310個βαβ模體和480個非βαβ模體。通過分析模體中各二級結(jié)構(gòu)單元的分布情況,確定了固定序列模式長為33個氨基酸殘基,運用了一種基于優(yōu)化特征參量的離散信息算法,識別了βαβ模體,取得了良好的效果。
1材料與方法
1.1數(shù)據(jù)
構(gòu)建合理的數(shù)據(jù)集是蛋白質(zhì)模體預(yù)測的關(guān)鍵,本研究中使用DSSP[13](definition of secondary structure of proteins)數(shù)據(jù)庫和PROMOTIF[14]軟件來構(gòu)建βαβ數(shù)據(jù)集,這是目前廣泛應(yīng)用的獲得蛋白質(zhì)特殊結(jié)構(gòu)模體的方法。數(shù)據(jù)來自EVA(這是一種連續(xù)的、自動化、大規(guī)模的工作方式進行蛋白質(zhì)結(jié)構(gòu)預(yù)測算法評估的Web服務(wù)器http://pdg.cnb.uam.es/eva/)。從中選取了1 423個相似性小于33%、分辨率高于2.5的蛋白質(zhì)作為數(shù)據(jù)集1(set1)和256個相似性小于25%、分辨率高于3.0的蛋白質(zhì)作為數(shù)據(jù)集2(set2)。選取的蛋白質(zhì)需要滿足:(1)每個蛋白質(zhì)序列中至少包含一個βαβ模體;(2)剔除含有不規(guī)則氨基酸的模體。序列及其對應(yīng)的二級結(jié)構(gòu)信息按DSSP庫確定,文中在使用時將二級結(jié)構(gòu)分為3類:H、I、G歸為α螺旋,用H表示;E歸為β折疊;其他都歸為無規(guī)卷曲,用C表示。對set1,獲得二級結(jié)構(gòu)為ECHCE模式的片斷為 3 878個,利用PROMOTIF軟件分析獲得βαβ模體片段為1 622個,其中與ECHCE模式相匹配的1 459個片斷確認為βαβ,其余2 419個確認為非βαβ;對set2,獲得的二級結(jié)構(gòu)為ECHCE模式的片斷為790個,利用PROMOTIF獲得與ECHCE模式相匹配的310個確認為βαβ,其余480個確認為非βαβ。
1.2序列固定模式長的選取
復(fù)雜結(jié)構(gòu)模體是由簡單的二級結(jié)構(gòu)連接而成,其二級結(jié)構(gòu)單元的種類、連接肽的長度等信息影響著復(fù)雜結(jié)構(gòu)模體的形成及功能。因此有必要對2個數(shù)據(jù)集的βαβ模體序列片段長、組成單元β折疊長、連接肽loop長和α螺旋長進行統(tǒng)計,結(jié)果如表1和表2。
從表1和表2的數(shù)據(jù)看出,2個數(shù)據(jù)集中各二級結(jié)構(gòu)單元的分布情況基本一致,2個數(shù)據(jù)集的模體平均長分別為33、31個氨基酸殘基左右,左右兩端β折疊長為5個氨基酸左右,α螺旋長為10個氨基酸左右,這也說明了二級結(jié)構(gòu)單元在βαβ模體中分布的特定性。因此,選取適合的序列信息是預(yù)測的關(guān)鍵步驟,根據(jù)2個數(shù)據(jù)集中序列的平均長度,為使得表1set1二級結(jié)構(gòu)單元長度統(tǒng)計
預(yù)測過程中信息更好的進入序列,確定固定序列長為33個氨基酸殘基。參照文獻[3]、[6]和[7]識別β發(fā)夾的思想,對βαβ模體進行以下3種截取方式,得到B00型、N05型和C29型。其具體截取方法為:
(1)以模體對應(yīng)的二級結(jié)構(gòu)CHC為中央位置對齊(B00型):當(dāng)序列對應(yīng)的二級結(jié)構(gòu)CHC為奇數(shù)時,序列對應(yīng)二級結(jié)構(gòu)CHC的左端和右端取相同個數(shù)的殘基;當(dāng)序列對應(yīng)的二級結(jié)構(gòu)CHC為偶數(shù)時,序列對應(yīng)二級結(jié)構(gòu)CHC的左側(cè)比右側(cè)多取一個氨基酸殘基。
(2)以序列左端loop的起始位點作為序列的第5位點,選取序列(N05)。
(3)以序列右端loop的終止位點作為序列的第29位點,選取序列(C29)。
選取過程中,若序列長不足33個氨基酸殘基時,添加空位補齊。截取示意圖如圖1。
同時,為考察模體序列中氨基酸的保守性,計算了位點信息矢量,Ci[15]定義如下:
Ci=100lgl(∑lj=1Pijlgpij+lgl)。
如果某一位點是完全保守的,可計算該位點Ci的值為100;如果該位點的氨基酸是隨機分布的,同樣可計算Ci的值為0。因此Ci取值在[0,100]之間。Ci的值在各自的取值區(qū)域內(nèi)越高表明該位點的保守性越強。對set1的βαβ 3種取法對應(yīng)序列位點的保守性計算結(jié)果如圖2、圖3、圖4。
型左端氨基酸的保守性好于右端,這2種取法綜合起來與B00型的保守性結(jié)果一致。因此本研究以位點氨基酸為參量來預(yù)測βαβ模體。
1.3計算方法
離散量是對離散性的度量,是信息系數(shù)之一,生物多樣性指標(biāo)和生物的關(guān)聯(lián)性分析等都需要引入離散量。它是一種較好的模式識別分類器,離散量和離散增量定義如下:
定義1:對于s個信息符號的狀態(tài)空間X,ni表示第i狀態(tài)出現(xiàn)的個數(shù),離散源X:[n1,n2,…,ns]的離散量為:
D(X)=D(n1,n2,…,ns)=NlogbN-∑si=1nilogbni。(1)
定義2:對于2個離散源X:[n1,n2,…,ns]和Y:[m1,m2,…,ms],它們的離散增量為
Δ(X,Y)=D(X,Y)-D(X)-D(Y)=(M+N)lg(M+N)-∑si=1(mi+ni)lg(mi+ni)-MlgM-NlgN+∑si=1milgmi+∑si=1nilgni。(2)
其中D(X,Y)是混合離散源X+Y:[n1+m1,n2+m2,…,ns+ms]的離散量,N=∑si=1ni,M=∑si=1mi??梢宰C明,離散增量的取值范圍是0≤Δ(X,Y)≤D(M,N)。
2個離散源之間的離散增量Δ(X,Y)值越小,說明這2個離散源的相似程度越大,而Δ(X,Y)值越大,說明這2個離散源的相似性越差。
本研究中選取位點氨基酸作為參量,對于βαβ和非βαβ模體的3種選取模式的任何一種,其位點氨基酸維數(shù)分別為(21×33)(21表示20種氨基酸和一個空位,33表示固定序列長),共得到2 079(21×33×3)維向量。任一待測序列應(yīng)用公式(2)得到2個離散增量值,哪一個值小,則被判斷為哪一類模體。
1.4檢驗方法
檢驗方法使用目前廣泛應(yīng)用的k-fold交叉檢驗和獨立檢驗。k-fold交叉檢驗即隨機、均勻地將數(shù)據(jù)集分為k個子集,依次取出一個子集作為測試集,其余k-1個子集作為訓(xùn)練集,此過程循環(huán)k次,識別的結(jié)果取k次的平均,本研究中k取10。獨立檢驗是指訓(xùn)練集和檢驗集相互獨立,即訓(xùn)練集中的數(shù)據(jù)不會出現(xiàn)在檢驗集中,更加客觀地反應(yīng)實際問題和預(yù)測之間的差別。
1.5精度評價指標(biāo)
本研究中計算了βαβ的正確識別率(即識真的能力)Q(βαβ)、非βαβ發(fā)夾正確識別率Q(nβαβ)、βαβ發(fā)夾識別的預(yù)測率[即辨假的能力S(βαβ)]、非βαβ發(fā)夾識別的預(yù)測率S(nβαβ),識別總精度(Acc)和相關(guān)系數(shù)(MCC),定義如下:
Q(βαβ)=PP+U×100,Q(nβαβ)=NN+O×100,
S(βαβ)=PP+O×100,
S(nβαβ)=NN+U×100,Acc=P+NO+N+U+O×100,
MCC=(P×N)-(O×U)(P+O)×(P+U)×(N+U)×(N+O)。
這里P、U、N、O分別表示βαβ被正確識別出來的序列數(shù)目、βαβ沒有被正確識別出來的數(shù)目、非βαβ被正確識別出來的序列數(shù)目、非βαβ沒有被正確識別出來的數(shù)目。
2結(jié)果與分析
2.1以位點氨基酸為參量的預(yù)測結(jié)果
由于氨基酸在蛋白質(zhì)序列中具有很強的保守性,以位點氨基酸出現(xiàn)的頻率為參量,輸入到離散增量的算法中,得出每條序列的離散量值,用上文中的識別方法作判斷,對set1和set2 3種截取模式的10-fold交叉檢驗結(jié)果如表3和表4。表3set1的10-fold交叉檢驗預(yù)測結(jié)果
截取模式Q(βαβ)Q(nβαβ)S(βαβ)S(nβαβ)Acc(%)MCCB0082.255.652.484.065.50.371N0580.862.556.185.669.30.419C2983.153.751.582.464.60.362
表4set2的10-fold交叉檢驗預(yù)測結(jié)果
截取模式Q(βαβ)Q(nβαβ)S(βαβ)S(nβαβ)Acc(%)MCCB0083.958.754.786.068.10.417N0583.959.855.386.368.80.426C2984.856.153.486.266.80.402
從表3和表4的數(shù)據(jù)可看出,兩數(shù)據(jù)集中βαβ的識真能力均達到80%以上,好于辯假能力,但非βαβ的識真能力低于辯假能力,說明可以很好地識別出βαβ,排除非βαβ。數(shù)據(jù)顯示,3種截取模式中N05型的識別總精度好于B00型和C29型,set1的識別精度達到69.3%,相關(guān)系數(shù)達到0.419。
2.2優(yōu)化的位點氨基酸(A)的預(yù)測結(jié)果
上述計算中選取參量的維數(shù)較高,計算中常會由于高維參量引起維數(shù)災(zāi)難問題,因此有必要將位點氨基酸通過降維來避免過訓(xùn)練發(fā)生,從而提高識別的效果。下面選取mRMR(maximum relevance mimimum redundancy)方法來進行降維。mRMR方法是一種基于互信息的特征篩選方法:利用互信息計算特征參量與分析目標(biāo)間的相關(guān)性和特征之間的冗余性,根據(jù)最大依賴性來優(yōu)先選取具有最小冗余性的n個特征,本研究中用已編譯成程序[16]的mRMR軟件包實現(xiàn)。2個數(shù)據(jù)集的序列模式長為33個氨基酸殘基的序列中提取的2 079維位點氨基酸通過篩選,累積貢獻率達到90%以上的前100維作為優(yōu)化的位點氨基酸(A)。運用上述算法2個數(shù)據(jù)集的10-fold交叉檢驗結(jié)果如表5和表6。