孫曉芳 劉亞秋 初硯碩
(東北林業(yè)大學(xué),哈爾濱,150040)
責(zé)任編輯:王廣建。
蛋白質(zhì)在細(xì)胞的各類生物過程中發(fā)揮著重要作用,且功能多樣廣泛(促進(jìn)化學(xué)反應(yīng)、進(jìn)行信息傳遞等)。蛋白質(zhì)通常是以相互作用的形式完成各種生物學(xué)功能。了解蛋白質(zhì)相互作用(PPIs),可更好的了解蛋白質(zhì)的功能及參與生物學(xué)的過程。
近年來,芥子油苷被證實(shí)是重要的抗癌藥物前體,能被模式植物擬南芥合成。針對(duì)參與芥子油苷生物合成過程的蛋白質(zhì)相互作用進(jìn)行預(yù)測,構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò),從蛋白質(zhì)一級(jí)序列抽取了蛋白質(zhì)結(jié)構(gòu)域信息并建立結(jié)構(gòu)域特征向量,使用一對(duì)對(duì)稱的特征向量表示一對(duì)蛋白質(zhì)關(guān)系,應(yīng)用支撐向量機(jī)方法構(gòu)建蛋白質(zhì)相互作用預(yù)測器。
目前,使用生物實(shí)驗(yàn)來判斷蛋白質(zhì)之間發(fā)生相互作用的方法有酵母雙雜交、免疫共沉淀等,這類生物實(shí)驗(yàn)方法費(fèi)時(shí)費(fèi)力,使用計(jì)算方法預(yù)測蛋白質(zhì)相互作用,能輔助生物學(xué)實(shí)驗(yàn)縮減待測樣本數(shù)量,提高驗(yàn)證效率。
在眾多的基于蛋白質(zhì)結(jié)構(gòu)的蛋白質(zhì)相互作用預(yù)測方法中,一類方法是從蛋白質(zhì)的一級(jí)結(jié)構(gòu),即氨基酸序列中找到?jīng)Q定蛋白質(zhì)相互作用的子序列;另一類方法是從蛋白質(zhì)的一級(jí)結(jié)構(gòu)中提取蛋白質(zhì)的物理化學(xué)性質(zhì)或者蛋白質(zhì)的高級(jí)結(jié)構(gòu),通過這類信息進(jìn)行預(yù)測蛋白質(zhì)相互作用。這些方法特征向量的維度過高、計(jì)算復(fù)雜,且其特征向量中含有冗余特征。目前對(duì)特征向量降維方法有很多種,例如:將20 個(gè)氨基酸根據(jù)其極性以及配基的分子量、范德華力等壓縮為幾類氨基酸,或者從樣本中選取幾類主要特征、使用氨基酸的2 元組(3 元組)代替單位為1 個(gè)氨基酸的特征表示形式。
蛋白質(zhì)的結(jié)構(gòu)域被認(rèn)為是構(gòu)成蛋白質(zhì)的框架結(jié)構(gòu)。認(rèn)為蛋白質(zhì)結(jié)構(gòu)域是長期進(jìn)化而來的構(gòu)成蛋白質(zhì)結(jié)構(gòu)和功能的基本單元,蛋白質(zhì)結(jié)構(gòu)域代表了蛋白質(zhì)的結(jié)構(gòu)特征。基于蛋白質(zhì)結(jié)構(gòu)域的蛋白質(zhì)相互作用預(yù)測方法,認(rèn)為蛋白質(zhì)相互作用是蛋白質(zhì)中的結(jié)構(gòu)域和結(jié)構(gòu)域相互作用而導(dǎo)致的。
Chen 等[1-2]使用結(jié)構(gòu)域相互作用數(shù)據(jù)庫中的結(jié)構(gòu)域信息加上文獻(xiàn)中的數(shù)據(jù)作為蛋白質(zhì)相互作用預(yù)測的源數(shù)據(jù),這些數(shù)據(jù)含有3 713 個(gè)蛋白質(zhì)、9 843個(gè)相互作用、4 239 個(gè)結(jié)構(gòu)域,再加上該對(duì)蛋白是否真正發(fā)生相互作用,共組成了4240 維的蛋白質(zhì)相互作用特征向量。使用決策森林作為蛋白質(zhì)相互作用的學(xué)習(xí)機(jī),進(jìn)行蛋白質(zhì)相互作用預(yù)測,然后用兩個(gè)蛋白質(zhì)特征向量拼接的方法構(gòu)建特征向量,拼接后的特征向量作為該組蛋白質(zhì)對(duì)是否相互作用的特征。Jefferson 等[3]提出使用結(jié)構(gòu)域的相互作用信息作為預(yù)測蛋白質(zhì)相互作用,實(shí)驗(yàn)結(jié)果表明使用結(jié)構(gòu)域相互作用(DDIs)信息可以提高蛋白質(zhì)相互作用預(yù)測的準(zhǔn)確性。
本文使用數(shù)據(jù)庫AtPIN[4]中的擬南芥蛋白質(zhì)相互作用數(shù)據(jù)作為源數(shù)據(jù),用Pfam25.0[5]中的結(jié)構(gòu)域隱馬爾科夫模型,從蛋白質(zhì)一級(jí)序列中識(shí)別結(jié)構(gòu)域,DOMINE 數(shù)據(jù)庫中的結(jié)構(gòu)域相互作用信息作為額外補(bǔ)充特征。根據(jù)以上數(shù)據(jù),構(gòu)建對(duì)稱的蛋白質(zhì)相互作用特征向量。使用該特征向量作為訓(xùn)練樣本,訓(xùn)練支撐向量機(jī)學(xué)習(xí)機(jī);在參數(shù)選擇中,使用5 折交叉驗(yàn)證的網(wǎng)格尋優(yōu)方法,優(yōu)化高斯徑向基核函數(shù)的降噪?yún)?shù)(c)和核寬參數(shù)(γ)。然后,使用高斯徑向支撐向量機(jī)作為蛋白質(zhì)相互作用預(yù)測器,使用數(shù)據(jù)庫中的蛋白質(zhì)相互作用對(duì)進(jìn)行驗(yàn)證,使用預(yù)測器預(yù)測蛋白質(zhì)的相互作用。
蛋白質(zhì)相互作用預(yù)測的問題可以形式化為兩類問題:每一個(gè)蛋白質(zhì)對(duì)作為一個(gè)樣本,屬于相互作用類或者不相互作用類。蛋白質(zhì)A 和蛋白質(zhì)B 組成的蛋白質(zhì)對(duì)屬于相互作用(或者不相互作用)類,可表述為A 與B 有相互作用(沒有相互作用),或者B與A 有相互作用(或沒有相互作用)。蛋白質(zhì)A 和蛋白質(zhì)B 組成的蛋白質(zhì)對(duì)有無相互作用關(guān)系,表示為,那么,向量可以表示為同時(shí)使用這兩個(gè)對(duì)稱的向量來表示蛋白質(zhì)對(duì)AB 之間的關(guān)系(有相互作用或無相互作用)。
源數(shù)據(jù)集合中共含有1913 個(gè)不重復(fù)Pfam 結(jié)構(gòu)域,每一個(gè)結(jié)構(gòu)域使用數(shù)字0 到1912 來一一對(duì)應(yīng)標(biāo)記。這樣每一個(gè)蛋白質(zhì)使用一個(gè)1913 維數(shù)字向量表示,其每一維對(duì)應(yīng)該位置序號(hào)的結(jié)構(gòu)域數(shù)量。例如:如果一個(gè)蛋白質(zhì)含有一個(gè)標(biāo)記為5 的結(jié)構(gòu)域,那么特征向量中對(duì)應(yīng)的第5 個(gè)數(shù)字為1。Pfam25.0 可將蛋白質(zhì)結(jié)構(gòu)域分為5 個(gè)類型(Domain、Motif、Repeat、Family、PfamB)。根據(jù)蛋白質(zhì)結(jié)構(gòu)域的類型,統(tǒng)計(jì)一個(gè)蛋白質(zhì)對(duì)應(yīng)的所有由Pfam25.0 發(fā)現(xiàn)的各自類型結(jié)構(gòu)域的數(shù)目。在原特征向量末尾額外連接5 個(gè)特征(D、M、R、F、P)。為表示一對(duì)蛋白質(zhì)的關(guān)系,將兩個(gè)分別表示蛋白質(zhì)的結(jié)構(gòu)域的特征向量拼接成一個(gè)向量。即,蛋白質(zhì)A 的特征向量表示為VA=[fA0,fA1,fA2,…,fAn-1,DA,F(xiàn)A,RA,MA,PA],其中,n=1 913,fA0表示蛋白質(zhì)A 中標(biāo)號(hào)為0 的結(jié)構(gòu)域的數(shù)量,DA表示蛋白質(zhì)A 中Domain 類型的結(jié)構(gòu)域的數(shù)量,F(xiàn)A表示蛋白質(zhì)A 中Family 類型結(jié)構(gòu)域的數(shù)量,RA表示蛋白質(zhì)A 中Repeat 的數(shù)量,MA表示蛋白質(zhì)A 中Motif 的數(shù)量,PA表示蛋白質(zhì)A 中PfamB 的數(shù)量。蛋白質(zhì)A 和B 的相互作用關(guān)系可以表示為[VA,VB]或[VB,VA]。在結(jié)構(gòu)域相互作用數(shù)據(jù)庫DOMINE中,結(jié)構(gòu)域相互作用按照可信度分為高可信、中可信、低可信預(yù)測[6]。在特征向量[VA,VB]和[VB,VA]末尾拼接額外三維向量,分別對(duì)應(yīng)該三類可信度結(jié)構(gòu)域相互作用的數(shù)量。最終得到蛋白質(zhì)A 和B 的相互作用關(guān)系的特征向量[VA,VB,HCPs,MCPs,LCPs]和[VB,VA,HCPs,MCPs,LCPs]。進(jìn)一步對(duì)所有特征向量進(jìn)行歸一化,使每一維度數(shù)值范圍在[0,1]。如式(1)所示,特征矩陣S'm,n中的每一行對(duì)應(yīng)m 個(gè)樣本中相應(yīng)的特征向量,特征矩陣歸一化方法如式(2)所示,
結(jié)構(gòu)域相互作用數(shù)據(jù)庫DOMINE 搜集了已知和預(yù)測的蛋白質(zhì)結(jié)構(gòu)域相互作用。DOMINE 含有26 219 個(gè)結(jié)構(gòu)域相互作用,涉及5 410 個(gè)不重復(fù)結(jié)構(gòu)域,包含6 634 個(gè)直接從PDB 預(yù)測而來的DDIs,以及21 620 個(gè)由13 種預(yù)測算法預(yù)測而來的DDIs。在所有DDIs 中,共有2 989 個(gè)高可信DDIs、2 537 個(gè)中可信DDIs、2 537 個(gè)低可信DDIs。
擬南芥蛋白質(zhì)相互作用數(shù)據(jù)庫AtPIN 收集了擬南芥蛋白質(zhì)相互作用、本體、亞細(xì)胞定位等信息,是一個(gè)高可信的擬南芥蛋白質(zhì)相互作用數(shù)據(jù)庫。在AtPIN 中,所有的蛋白質(zhì)相互作用被分為2 類。
使用AtPIN 中,至少含有一個(gè)結(jié)構(gòu)域的蛋白質(zhì)對(duì)作為正樣本。經(jīng)過濾,我們得到6320 個(gè)經(jīng)過實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)相互作用對(duì),表示為POS,POS 包含有2695 個(gè)蛋白質(zhì)。使用Pfam25.0 從氨基酸序列中識(shí)別結(jié)構(gòu)域。蛋白質(zhì)對(duì)應(yīng)的氨基酸序列由數(shù)據(jù)庫BiowebDB(http://biowebdb.org/)中下載,該數(shù)據(jù)庫收集了擬南芥中的統(tǒng)一蛋白質(zhì)資源(UniProt)。本文中使用的負(fù)樣本由隨機(jī)生成,生成負(fù)樣本的方法是在正樣本所涉及的蛋白質(zhì)中隨機(jī)選取一對(duì)不在At-PIN 數(shù)據(jù)庫中的蛋白質(zhì)對(duì)作為一例負(fù)樣本。本文生成了與正樣本同樣大小的負(fù)樣本,共含有2695 對(duì)蛋白質(zhì)。
使用5 折交叉驗(yàn)證的網(wǎng)格搜索高斯徑向基核(k(u,v)=exp(-γ*‖u-v‖2))支撐向量機(jī)中的降噪?yún)?shù)和核寬參數(shù)。參數(shù)(c)的網(wǎng)格范圍設(shè)置為logc2∈[-5,-3,-1,…,13],γ 設(shè)置為logy2∈[-15,-13,-11,…,3]。
由圖1所示,最佳精確度logc2=1 和logy2=-1,該坐標(biāo)的5 折交叉驗(yàn)證的高斯徑向基核支撐向量機(jī)的精確度為85.4549%,最優(yōu)參數(shù)c=2,γ=0.5。
圖1 5 折交叉驗(yàn)證網(wǎng)格尋優(yōu)準(zhǔn)確度熱力圖
圖2是根據(jù)最優(yōu)參數(shù)c=2,y=0.5 的5 折交叉驗(yàn)證ROC 曲線和最優(yōu)參數(shù)訓(xùn)練,得到支撐向量機(jī)的驗(yàn)證ROC 曲線(模型預(yù)測)。這兩條ROC 曲線的下面積(AUC)分別用AUCCV、AUCMFP。一般地,由所有可用的正樣本POS 訓(xùn)練而得的RBF-SVM 的分類性能,優(yōu)于部分正樣本訓(xùn)練而得的RBF-SVM。所以,最終由全部正樣本訓(xùn)練得到RBF-SVM 的真實(shí)分類性能在這兩個(gè)下面積之間,即:0.905 72(AUCCV)到0.995 53(AUCMFP)。
芥子油苷是擬南芥中的次代謝產(chǎn)物,富含氮、硫。芥子油苷是模式植物擬南芥與環(huán)境發(fā)生相互作用的媒介,是植物學(xué)研究的熱點(diǎn)[7-8]。另外,已證實(shí),芥子油苷與擬南芥中的芥子降解酶發(fā)生相互作用時(shí),生成異硫代氰酸鹽,該產(chǎn)物具有抗癌活性[9]。
圖2 5 折交叉驗(yàn)證和PPI 預(yù)測模型的ROC 曲線
在模式植物擬南芥中,芥子油苷是一種次代謝產(chǎn)物,由氨基酸經(jīng)過乙醛肟、氧化腈、酸式硝基化合物、脫硫芥子油苷等中間產(chǎn)物生成。其中,多種酶在此過程中起催化作用(細(xì)胞色素P450(CYS450)、P79(CYS79),谷胱甘肽轉(zhuǎn)移酶(G-ST),S-糖基轉(zhuǎn)移酶(SGT),磺基轉(zhuǎn)移酶(ST)等)。應(yīng)用PPI 預(yù)測器構(gòu)建擬南芥中芥子油苷合成途徑相關(guān)的PPI 網(wǎng)絡(luò)。
AtPIN 中的5697 個(gè)預(yù)測而得的蛋白質(zhì)相互作用,所涉及的蛋白質(zhì)結(jié)構(gòu)域都存在于正樣本POS中;AtPIN 中的90043 個(gè)預(yù)測蛋白質(zhì)相互作用不是高可信,且其數(shù)量巨大,若以該數(shù)據(jù)構(gòu)建PPI 網(wǎng)絡(luò)將給研究擬南芥帶來很大的噪聲。將AtPIN 中的低可信的預(yù)測蛋白質(zhì)相互作用標(biāo)記出來,會(huì)有助于芥子油苷合成相關(guān)的蛋白質(zhì)網(wǎng)絡(luò)相互作用的研究。
文獻(xiàn)[10]中列出了擬南芥中與芥子油苷合成相關(guān)的46 個(gè)基因。基于AtPIN 中的蛋白質(zhì)相互作用,這46 個(gè)基因?qū)?yīng)的蛋白質(zhì)作為種子蛋白,來尋找新的與這46 個(gè)蛋白質(zhì)相互作用的蛋白質(zhì)。在At-PIN 中有4 個(gè)實(shí)驗(yàn)證實(shí)的蛋白質(zhì)相互作用,237 個(gè)預(yù)測相互作用。
圖3為該芥子油苷相關(guān)PPI 網(wǎng)絡(luò),基于表1中列出的46 個(gè)種子蛋白質(zhì)而構(gòu)建的,該P(yáng)PI 網(wǎng)絡(luò)的深度為1。
表1 芥子油苷合成相關(guān)的46 個(gè)基因
續(xù)(表1)
蛋白質(zhì)結(jié)構(gòu)域是不同蛋白質(zhì)家族中結(jié)構(gòu)保守區(qū)域。蛋白質(zhì)相互作用是通過分子間的作用產(chǎn)生,而這種相互作用存在在蛋白質(zhì)的特定的結(jié)構(gòu)域中,因此,在結(jié)構(gòu)域?qū)用鎸?duì)蛋白質(zhì)相互作用的理解,能夠加深對(duì)蛋白質(zhì)功能的了解。使用結(jié)構(gòu)域信息,預(yù)測芥子油苷相關(guān)的蛋白質(zhì)相互作用并構(gòu)建PPI 網(wǎng)絡(luò)。用對(duì)稱訓(xùn)練方法解決蛋白質(zhì)相互作用的對(duì)稱問題,即使用一對(duì)對(duì)稱的特征向量表示一對(duì)蛋白質(zhì)的相互作用關(guān)系。特征向量基于從氨基酸序列中抽取的結(jié)構(gòu)域和結(jié)構(gòu)域相互作用信息構(gòu)建。高斯徑向基核的降噪?yún)?shù)(c)和核寬參數(shù)(γ)由5 折交叉驗(yàn)證的網(wǎng)格尋優(yōu)而得。使用ROC 曲線下面積來衡量RBF-SVM的預(yù)測性能。最優(yōu)RBF 為k(u,v)= exp(-0.5*‖u-v‖2),最佳降噪?yún)?shù)c=2。使用RBF-SVM 驗(yàn)證了AtPIN 數(shù)據(jù)庫中的預(yù)測類蛋白質(zhì)的可信度,并發(fā) 現(xiàn) 了 蛋 白 質(zhì) AGI,標(biāo) 號(hào) 為 AT4G14800、AT5G54810、AT5G05730、AT4G18040、AT1G04510、AT5G05260 是相互作用的蛋白質(zhì)對(duì)。目前,擬南芥中實(shí)驗(yàn)證實(shí)的蛋白質(zhì)相互作用的數(shù)量遠(yuǎn)遠(yuǎn)達(dá)不到研究所需,同時(shí),在預(yù)測類的蛋白質(zhì)相互作用數(shù)據(jù)中還含有未知數(shù)量的噪聲,因此,蛋白質(zhì)相互作用的預(yù)測仍然是一大難題。
圖3 AtPIN 中芥子油苷合成相關(guān)的PPI 網(wǎng)絡(luò)
[1] Xuewen Chen,Mei Liu.Prediction of protein-protein interactions using random decision forest framework[J].Bioinformatics,2005,21(24):4394-4400.
[2] Xuewen Chen,Mei Liu.Domain-based predictive models for protein-protein interaction prediction[J].Eurasip Journal on Advances in Signal Process-ing,2006,2006:1-8.
[3] E R Jefferson,T P Walsh,G J Barton.Biological units and their effect upon the properties and prediction of Protein-Protein interactions[J].Journal of Molecular Biology,2006,364(5):1118-1129.
[4] Brand?o M M,Dantas L L,Silva-Filho M C.Atpin:Arabidopsis thaliana protein interaction net-work[J].BMC Bioinformatics,2009,10(1):454-458.
[5] Robert D F,John T,Jaina M,et al.The pfam protein families database[J].Nucleic Acids Research,2008,36:281-288.
[6] S Yellaboina,A Tasneem,D V Zaykin,et al.Domine:a comprehensive collection of known and predicted domain-domain interactions[J].Nucleic Acids Research,2011,39(1):730-735.
[7] Michael Reichelt,Paul D Brown,Bernd Schneider,et al.Benzoic acid glucosinolate esters and other glucosinolates from arabidopsis thaliana[J].Phytochemistry,2002,59(6):663-672.
[8] S J Tonsor,C Alonso-Blanco,M Koornneef.Gene function beyond the single trait:natural variation,gene effects,and evolutionary ecology in arabidopsis thaliana[J].Plant,Cell & Environment,2005,28(1):2-20.
[9] C Douglas Grubb,Steffen Abel.Glucosinolate metabolism and its control[J].Trends in Plant Science,2006,11(2):89-100.
[10] Yazhou Chen,Xiufeng Yan,Sixue Chen.Bioinformatic analysis of molecular network of glucosinolate biosynthesis[J].Computational Biology and Chemistry,2011,35(1):10-18.