馬 昕 郭 靜 孫 嘯
(1東南大學生物電子學國家重點實驗室,南京 210096)(2南京審計學院金審學院,南京 210029)
蛋白質與RNA的相互作用在生物體細胞活動中起到至關重要的作用,如蛋白質的合成、信使RNA的穩(wěn)定、定位和轉錄、病毒的復制、非編碼RNA發(fā)揮生物學作用等.而今國際上對蛋白和RNA相互作用的研究主要關注于蛋白質能否與RNA相互作用、如何相互作用以及在蛋白質鏈上哪些殘基與 RNA分子進行結合等.提高識別RNA-結合殘基的能力不僅有助于更好地理解上述生物學過程,還可更好地指導用于研究核酸結合蛋白功能點的突變實驗研究,能夠進一步地指導藥物開發(fā).
目前已有較多利用復合物的三維結構信息來識別RNA-結合殘基的算法,但是可得到的高分辨率結構的蛋白質-RNA復合物的結構數據很少;而且,通過實驗的方法獲得復合物結構不僅價格昂貴而且耗時.一種可替代的方法就是直接從蛋白質序列出發(fā)來預測RNA-結合殘基,而機器學習方法通過構建分類器提供了一條行之有效的途徑來解決這個問題.例如人工神經網絡利用氨基酸序列信息和結構信息作為特征預測RNA-結合殘基[1].支持向量機也廣泛應用于識別RNA-結合殘基并取得了很好的預測效果,如RISP[2]達到了61.0%的敏感性和83.3%的特異性.此外,代表進化保守信息的位置特異性矩陣(PSSM)是一種重要的特征,利用這個特征能有效地預測RNA-結合殘基.Kumar等構建了利用支持向量機和PSSM 的模型[3],預測得到的MCC值、準確率、特異性、敏感性分別為0.45,81.16%,89.55%和 53.05%.
目前構建分類器最重要的工作就是尋找到一些有效的分類特征,所以有必要先通過經典的統(tǒng)計學方法來分析已知結構的復合物中存在的結合規(guī)律,得到有效的序列和結構信息,提高分類器的性能.本文提出了一個新穎的特征PSSM-PP,該特征不僅包含蛋白質序列的進化保守信息,還包含了與蛋白質和RNA結合有關的氨基酸理化信息.與以前的相關工作相比,本文利用隨機森林算法構建的預測模型最終達到了最優(yōu)的結果.
在本研究中,收集了Protein Data Bank數據庫[4]中所有101個RNA-蛋白質復合物,這些復合物結構中至少包括一條氨基酸鏈和一條長度大于50個堿基的核酸鏈.利用NCBI中BLAST包中的blastclust程序來剔除這些RNA-蛋白質復合物中所有蛋白質序列數據集里的冗余蛋白質序列,此處設置25%的序列相似度為閾值.去冗余過程中,保留每類中最長的氨基酸序列.最終處理后得到的非冗余RNA-蛋白質數據集(RBP-180)包含了180條蛋白質序列.
與以前的研究相似[2,5-6],在本次研究中使用了0.35 nm作為定義結合殘基的距離閾值.在同一復合物中,氨基酸序列中的某個氨基酸殘基如果包含一個原子與RNA分子中任一原子之間距離小于0.35 nm,那么這個氨基酸殘基就定義為RNA-結合殘基;否則,就定義為非結合殘基.在數據集RBP-180中包含33282個殘基,通過這個定義,最終獲得3865個RNA-結合殘基,其余29417個則為非結合殘基.
本文將RBP-180數據集中的180條RNA-結合蛋白質序列隨機分成一個訓練集(RBP-123)和一個驗證集(TS-57).訓練集中所含的123條隨機抽取的蛋白質序列包含了2068個RNA-結合殘基和21164個非結合殘基.剩余的57條蛋白質序列取作驗證集,則驗證集包含1797個RNA-結合殘基和8263個非結合殘基.
模型建立所需的樣本,是通過滑動窗口掃描RBP-180數據集中的蛋白質序列得到的.如果窗口的中央殘基為RNA-結合殘基,則該樣本為正樣本;如果中央殘基為非結合殘基,則該樣本為負樣本.當窗口長度為11時,發(fā)現(xiàn)其最終的預測效果是最好的.
本文將樣本特征分為PSSM-PP、二級結構特征以及正交編碼特征三大類.
1.2.1 PSSM-PP
本文提出了一個新的特征PSSM-PP,該特征包含了位置特異性矩陣和6種理化特性的信息,整合成一個新的矩陣.
PSSM是由BLAST包中的PSI-BLAST程序產生的一組序列譜.PSSM值由
標準化至0~1之間.本文中考慮了與RNA和蛋白相互結合有關的6種氨基酸理化特征(氨基PKa值、羧基 PKa值、孤電子對數目、Wiener值、Balaban值和最低自由能).這6種理化特征通過下式進行歸一化:
式中,da(i)是第i類氨基酸第a種理化特征歸一化后的數值;Pa(i)是第i類氨基酸第a種理化特征值;為第 a種理化特征20種氨基酸的平均值.
在PSSM-PP中,對于某種特定的理化特性a在第k個位置上的指標為
式中,fk(i)為PSSM對于第i種氨基酸在第k個位置上得到的歸一化后的數值(由式(1)計算).通過這個定義,PSSM-PP特征為66(6×11)維向量.
1.2.2 二級結構特征(SS)
在蛋白質和RNA的相互作用中,蛋白質的結構會影響兩者的作用模式.所以在本文中選取二級結構信息作為結構特征.在訓練模型時,從pdb文件中獲取蛋白質序列二級結構信息,而在預測新蛋白質序列時,殘基的二級結構是通過PREDATOR程序[7]來預測的,具體編碼方式為 α 螺旋(0,0,1)、β 折疊(0,1,0)和其他(0,0,1).因此二級結構為33(3×11)維向量.
1.2.3 正交編碼特征(OBVs)
靜電作用和疏水作用對RNA-蛋白質相互作用有影響,而靜電作用和疏水作用與氨基酸的偶極矩和側鏈體積緊密相關.按照其偶極矩和側鏈體積以及蛋白質與RNA相互作用機制,將20種氨基酸分成6類,采用6維正交向量來編碼每一類型.因此該特征可得到66(6×11)維向量.
隨機森林算法[8]最早是由Breiman提出的.隨機森林算法的基本單元是決策樹,它是決策樹的集成,并且由隨機向量決定決策樹的構造.如果將決策樹看成分類任務中的一個專家,則隨機森林就是許多專家在一起對某種任務進行分類.
隨機森林算法融合了Bagging和隨機特征選取兩大機器學習技術,因此擁有比以往算法更多的優(yōu)勢.
數據集中正負樣本數量不均衡問題在許多實際的分類問題中存在.在本文中,正樣本與負樣本比例達到1∶8,存在明顯的不均衡問題.解決這類問題的主要方式是發(fā)現(xiàn)那些數量少但很重要的樣本.解決這類問題的方法主要可以分為2類:① 通過對樣本進行預處理使不同類樣本數量變得均衡(或增加小類樣本的數量或減少大類樣本的數量);②對算法進行修改使其適于處理樣本數量不均衡問題.Kubat等[9]提出了一種通過減少大類樣本數量的方法.該方法把大類中所有的樣本分成噪聲樣本、邊界樣本、冗余樣本和安全樣本4類.該方法的主要目的是創(chuàng)建一個只保留其中安全樣本的子數據集.本文提出了一種類似的算法來處理數據集中正負樣本數量不均衡的問題,通過減少大類樣本數量算法的步驟總結如下:
①設Ω為初始訓練數據集,φ為由Ω中所有負樣本組成的數據集.
②ψ包含Ω中所有的正樣本和從φ中隨機挑選的1%負樣本.
③利用隨機森林算法和ψ訓練得到的模型來預測φ中的所有樣本,得到它們的F+值,其中F+表示每個樣本得到的正投票數.
④重復步驟②和③,共10次.
⑤在10次重復中,φ中的樣本如果50%的F+值位于1/10~1/5之間,則被認為是安全樣本(因為ψ中正負樣本數量的比為2068∶211).
⑥得到處理后的數據集ProRBP-123包含了所有的正樣本和φ中的安全負樣本.數據集ζ包含有2068個正樣本和9381個負樣本.
對于分類預測問題所預測的樣本有4種情況:假陽性值(false positive,F(xiàn)P)、真陽性值(true positive,TP)、假陰性值(false negative,F(xiàn)N)和真陰性值(true negative,TN).其總體預測準確率(accuracy,ACC)、敏感性(sensitivity,SE)、特異性(specificity,SP)和Matthew相關系數(matthew's correlation coefficient,MCC)的定義如下:
ROC曲線[10]是反映敏感性和特異性連續(xù)變量的綜合指標,通過構圖法揭示敏感性和特異性的相互關系,能夠直觀地衡量預測結果的好壞.ROC曲線下的面積(area under curve,AUC)可反映診斷實驗的準確性.這一指標取值范圍在0.5~1之間,0.5則表示完全無價值的預測;1表示完全理想的預測;0.5~0.7表示預測準確率較低;0.7~0.9表示準確性中等;0.9以上表示準確性較高.
隨機森林模型是由許多分類子樹生長而成.為了判斷新樣本類別,先用特征向量表示該樣本,再把這個特征向量放到每一顆子樹中去判斷.每一顆子樹都會給一個判斷結果,而最后該樣本的類別取決于這些判斷中投票最多的那個類別.
本文利用R語言中的randomForest包[11]來構建隨機森林分類模型.
隨機森林模型的構建過程中,參數的選取對于預測的性能有著十分重要的作用.單獨用測試數據來決定參數容易產生泛化性.為了保證隨機森林模型中的參數選取完全獨立于測試數據,本文采用嵌套式交叉驗證方法[12].所謂的嵌套式交叉驗證的過程,即構建一個外層交叉驗證循環(huán)用來驗證模型,并構建另一個內層交叉驗證循環(huán)用來選擇參數并訓練模型.在整個驗證過程中,訓練數據集和測試數據集是完全獨立的,隨機森林會按照測試數據集得到的評價指標來選擇最優(yōu)模型.
不同特征組合構造的隨機森林模型的預測特性如表1所示.以PSSM-PP為特征的隨機森林模型準確率達到了85.87%,MCC值為0.5204.如果分別將殘基的二級結構特征和正交編碼特征與PSSM-PP特征結合,所建立模型的性能也得到了一定的提高.當PSSM-PP與二級結構結合時,準確率達到86.85%;當PSSM-PP與正交編碼特征結合時,準確率達到86.18%.由此也能說明,二級結構信息和正交編碼特征的確在RNA與蛋白結合過程中起到了重要的作用.如果將這些特征結合起來,則模型得到了最佳的預測效果:準確率達到87.02%,MCC值為0.5336,AUC 值為0.8593.
位置特異性矩陣(PSSM)這一特征體現(xiàn)了蛋白質序列的進化保守性.在以往相關的預測工作中可以發(fā)現(xiàn),PSSM對正負樣本的分類起到極其重要的作用.本文研究改進了PSSM這一特征,將蛋白質的進化保守性與理化特征的保守性有機結合在一起,使得這個特征體現(xiàn)出了更多的RNA與蛋白質的結合信息.在構建PSSM-PP特征時,所選取的理化特征均是與RNA和蛋白相互作用有關的特征,是經過多次實驗篩選得到的.由表2可以發(fā)現(xiàn),利用PSSM-PP構建的預測模型準確率達到了82.47%,MCC值為0.3162;利用PSSM 構建的預測模型的準確率和MCC值分別為80.85%和0.2853.由此說明,與PSSM相比,利用PSSM-PP這一全新的特征區(qū)分正負樣本的效果會更好.此外,對照表1和表2,將原始數據集RBP-123利用PSSM-PP特征構建模型得到的預測結果與處理后的數據集ProRBP123利用同一特征構建模型的預測結果相比較可知,顯然處理后的數據集對區(qū)分正負樣本有更大的優(yōu)勢.由此可見,本文對正負樣本不均衡問題的處理能夠提高預測的性能.
二級結構特征體現(xiàn)了蛋白質序列的空間結構的信息,而蛋白質的結構能夠決定功能,在蛋白質和RNA相互作用過程中,蛋白質的結構勢必會影響兩者之間的相互作用.正交編碼信息(OBVs)包含了靜電作用信息和疏水作用信息,這2個信息對蛋白質和RNA的相互作用也存在著一定影響.因此,本文選取氨基酸的二級結構信息和正交編碼信息作為特征能夠提高模型的預測能力.
表1 不同組合特征構建的隨機森林模型的預測效果
表2 利用不同特征構建隨機森林預測模型的預測結果
近年來,支持向量機已被成功運用于模式識別和數據挖掘領域.本文選用支持向量機和隨機森林模型進行比較.2種分類模型都基于相同的訓練集ProRBP-123、相同的組合特征和相似的嵌套式交叉驗證方法.ROC曲線結果表明,支持向量機分類器(AUC0.8521)的效果略低于隨機森林分類器(AUC0.8685)(見圖1).由于2個分類器預測效果相似,而隨機森林模型計算速度快且對參數的魯棒性好,因此本文選用了隨機森林來構建預測模型.
Wang等[13]利用3種氨基酸的理化特性作為特征,其中包括邊鏈PKa值、疏水性和分子量,并利用支持向量機作為分類器建立了預測模型,用來預測RNA-結合殘基,并基于此模型開發(fā)了名為BindN的在線預測平臺.Tong等[2]利用位置特異性矩陣表示進化信息作為特征,以支持向量機作為分類器,建立了預測RNA-結合殘基的在線平臺RISP.利用獨立的數據集TS-57作為驗證集將這3種方法的預測結果進行比較.這3種方法都是以0.35 nm為距離閾值來定義RNA-結合殘基.ROC曲線結果表明,BindN,RISP和隨機森林模型的AUC 值分別為0.6621,0.7336,0.7641(見圖2),由此說明本文得到的隨機森林構建的預測模型達到了最好的預測性能.
圖1 2種分類算法取得的曲線
圖2 3種預測模型基于TS-57得到的ROC曲線
利用隨機森林算法和全新的特征,構建了基于蛋白質序列預測RNA-結合殘基的模型.構建該模型時使用的全新特征PSSM-PP,不僅包含了位置特異性矩陣(PSSM)所含有的進化保守特征,還包含了若干氨基酸理化特征的保守信息,而這些理化特征均是與RNA和蛋白質相互結合有關的特征.通過研究可以發(fā)現(xiàn),利用PSSM-PP特征構建的預測模型與原PSSM特征構建出的模型相比,前者的預測效果明顯高于后者.由此也能夠說明,新的PSSM-PP特征能夠更好地區(qū)分正負樣本,對預測模型的建立提供了更有效的工具.最終利用PSSM-PP特征,結合正交編碼信息和二級結構信息,通過隨機森林構建出分類模型,取得了很好的預測效果,總體預測準確率達到87.02%,特異性達到95.62%,敏感性達51.16%,Matthew相關系數為0.5336.通過與前期RNA結合殘基的預測工作相比較,可以發(fā)現(xiàn),本文的工作達到了最優(yōu)的預測效果.此外,構建出了RNA結合殘基的預測平臺[14],從而便于今后蛋白質方面研究工作的應用.
References)
[1]Jeong E,Chung I F,Miyano S.A neural network method for identification of RNA-interacting residues in protein[J].Genome Inform,2004,15(1):105-116.
[2]Tong J,Jiang P,Lu Z H.RISP:a web-based server for prediction of RNA-binding sites in proteins[J].Comput Methods Programs Biomed,2008,90(2):148-153.
[3]Kumar M,Gromiha M M,Raghava G P.Prediction of RNA binding sites in a protein using SVM and PSSM profile[J].Proteins,2008,71(1):189-194.
[4]Berman H M,Westbrook J,F(xiàn)eng Z,et al.The protein data bank[J].Nucleic Acids Res,2008,28(1):235-242.
[5]Ma X,Guo J,Wu J S,et al.Prediction of RNA-binding residues in proteins from primary sequence using an enriched random forest model with a novel hybrid feature[J].Proteins,2011,79(4):1230-1239.
[6]Cheng C W,Su E C,Hwang J K,et al.Predicting RNA-binding sites of proteins using support vector machines and evolutionary information[J].BMC Bioinformatics,2008,9(supp 12):S6
[7]Frishman D,Argos P.Seventy-five percent accuracy in protein secondary structure prediction[J].Proteins,1997,27(3):329-335.
[8]Breiman L.Random forests[J].Machine Learning,2001,45(1):5-32.
[9]Kubat M,Matwin S.Addressing the curse of imbalanced training sets:one-sided selection[C]//Proceedings of the Fourteenth International Conference on Machine Learning.San Francisco,CA,USA:Morgan Kaufmann Publishers,1997:179-186.
[10]Swets J A.Measuring the accuracy of diagnostic systems[J].Science,1988,240(4857):1285-1293.
[11]Liaw A,Wiener M.Classification and regression by random Forest[J].R News,2002,2(3):18-22.
[12]Scheffer T.Error estimation and model selection[M].Berlin:Technischen University,1999:74-82.
[13]Wang L,Brown S J.BindN:a web-based tool for efficient prediction of DNA and RNA binding sites in amino acid sequences[J].Nucleic Acids Res,2006,34(supp 2):243-248.
[14]Ma X,Guo J.RNAPre-RF[EB/OL].(2011-06)[2011-11].http://www.cbi.seu.edu.cn/RNAPre-RF/.