靳佩軒,高 潔
(江南大學(xué) 理學(xué)院,江蘇 無錫214122)
流感病毒組成蛋白質(zhì)序列的分析與預(yù)測
靳佩軒,高 潔*
(江南大學(xué) 理學(xué)院,江蘇 無錫214122)
在NCBI數(shù)據(jù)庫中獲得1902—2013年關(guān)于流感病毒10種組成蛋白的所有氨基酸序列,在MATLAB中采用大數(shù)據(jù)編程分析,結(jié)合詳細的HP模型,并基于CGR-WALK模型的方法將全部流感病毒蛋白質(zhì)序列轉(zhuǎn)化為數(shù)據(jù)形式,引入時間序列ARFIMA(p,d,q)模型來擬合所有序列,分析10種組成蛋白的序列在近80年的變化趨勢,并對其未來10年的發(fā)展趨勢進行預(yù)測.通過分析可以發(fā)現(xiàn),其對流感病毒變異趨勢的預(yù)測有很好的效果,這為基于大數(shù)據(jù)分析流感病毒蛋白質(zhì)序列,預(yù)測流感病毒的爆發(fā)提供一定的的研究參考價值.
流感病毒;蛋白質(zhì)序列;詳細HP模型;CGR-WALK模型;ARFIMA(p,d,q)模型
流感病毒為負向單鏈RNA病毒[1],自身具有很強的變異性,歷史上多次流感大流行都是由其新的亞型和以往出現(xiàn)過的亞型經(jīng)過變異再次出現(xiàn),人類由于缺乏對其的免疫力而導(dǎo)致流感病毒在人群中快速傳播。
目前對流感病毒蛋白質(zhì)序列的研究上,劉娟等用時間序列模型識別,預(yù)測流感病毒的DNA序列。張玲用時間序列模型識別,預(yù)測甲型H1N1流感病毒蛋白質(zhì)序列在未來年份的變異情況取得很好的預(yù)測效果[2-5]。作者以時間序列分析研究為基礎(chǔ),分別選取數(shù)據(jù)庫中現(xiàn)有的從1902—2013年間近100年的流感病毒的10種組成蛋白:Hemagglutinin,MatrixProtein 1,Matrix Protein2,Neuraminidase,Nonstructural Protein1,Nonstructural Protein2,Nucleocapsid Protein,Polymerase PA,Polymerase PB1,Polymerase PB2等作為研究對象。運用大數(shù)據(jù)處理方法將全部序列以HP模型為基礎(chǔ)進行數(shù)據(jù)化轉(zhuǎn)換,并利用CGR-WALK建模,再采用時間序列ARFIMA(p,d,q)模型分析流感病毒每種蛋白質(zhì)的變異規(guī)律和未來的發(fā)展趨勢,以蛋白質(zhì)序列整體為研究對象,從宏觀研究分析的角度為研究流感病毒在之后幾年內(nèi)的變異情況提供預(yù)測依據(jù),并能夠為相關(guān)流感病毒的預(yù)測研究提供重要的研究思路和方法。
1.1材料
選取NCBI數(shù)據(jù)庫中1902—2013年之間所有流感病毒的10種組成蛋白質(zhì)序列,即Hemagglutinin,Matrix Protein 1,Matrix Protein 2,Neuraminidase,Nonstructural Protein 1,Nonstructural Protein2,NucleocapsidProtein,PolymerasePA,Polymerase PB1,Polymerase PB2蛋白質(zhì)序列作為作者的研究對象進行分析。(NCBI:http://www.ncbi. nlm.nih.gov/.)
1.2方法
1.2.1蛋白質(zhì)序列基于詳細的HP模型數(shù)據(jù)化構(gòu)建CGR-WALK模型Jeffrey在1990年提出的一種將序列數(shù)據(jù)化的CGR-WALK方法[6],其是一種迭代映射技術(shù),可以將蛋白質(zhì)序列中的每一個位置上氨基酸投影到一個連續(xù)坐標空間上,由此將序列進行可視化圖形表示,同時可以進行有效的進行獨立的精確尺度的序列分析研究。
在詳細的HP模型中將20種氨基酸分成4大類,即非極性氨基酸(non-polar),極性帶負電荷的氨基酸 (negative polar),極性不帶電荷的氨基酸(uncharged polar),極性帶正電荷的氨基酸(positive polar),在此分別記作NP,NEP,UP,PP。因此將20種氨基酸{A,I,L,M,F(xiàn),P,W,V,N,C,Q,G,S,T,Y,D,E,R,H,K}按照在詳細的HP格點模型中依據(jù)氨基酸的生物特性的分類方法將氨基酸依次分類:
NP={A,V,L,I,P,F(xiàn),W,M},NEP={D,E},UP= {G,S,T,C,Y,N,Q},PP={K,R,H}。
經(jīng)過分類之后,則可將任意含有n個氨基酸的蛋白質(zhì)序列進行數(shù)據(jù)化定義:蛋白質(zhì)序列 s=s1s2s3…sn,其中si,i=1,2,…,n為組成此蛋白質(zhì)序列的氨基酸,
由上方法即可將任意一條蛋白質(zhì)序列轉(zhuǎn)化為一條由A0,A1,A2,A3構(gòu)成的四元序列,記作:X(s)= α1α2α3…αn。
定義序列X(s)的CGR-WALK:
(1)在二維坐標平面上作[0,1]×[0,1]正方形,標記四個頂點為A0(0,0),A1(0,1),A2(1,1),A3(1,0)。
(2)以正方形中心(0.5,0.5)作為CGR-WALK的初始點。
(3)設(shè)置目標蛋白質(zhì)序列的第一個數(shù)據(jù)作為當前迭代目標,并將初始點與當前起始目標坐標連線,并標記此線段中點。
(4)以此規(guī)律依次迭代,繼續(xù)以蛋白質(zhì)序列的下一個數(shù)據(jù)作為當前迭代目標,循環(huán)執(zhí)行(3)過程,直到將整條蛋白質(zhì)序列循環(huán)運算結(jié)束,最終得到在坐標平面上的一個可視化CGR-WALK模型視圖。
在此給出CGR迭代函數(shù)公式:含有n個氨基酸的蛋白質(zhì)序列:s=s1s2s3…sn,其中si,i=1,2,…,n,并且有si∈{A,V,L,I,P,F(xiàn),W,M,D,E,G,S,T,C,Y,N,Q,K,R,H},由詳細的HP模型的分類得由A0,A1,A2,A3構(gòu)成的序列:X(s)=α1α2α3…αn。通過以下迭代過程得到此蛋白質(zhì)序列的CGR:令A(yù)0(0,0),A1(0,1),A2(1,1),A3(1,0),即:
CGRi=CGRi-1-0.5(CGRi-1-gi),i=1,2,…N,CGRi= (0.5,0.5)。
其中g(shù)i∈{(0,0),(1,0),(1,1),(0,1)},gi與si相對應(yīng)。
對于流感病毒的蛋白質(zhì)序列研究,在此定義變量tk=yk/xk,其中xk和yk分別是CGRk的x和y對應(yīng)坐標值,由此可以將甲型H1N1流感病毒蛋白質(zhì)序列數(shù)據(jù)化為一條具有統(tǒng)計意義的數(shù)據(jù)序列 {tk:k= 1,2,…,n},即視作一條時間序列,由于其是經(jīng)過CGR-WALK得到,則在此記為“CGR-WALK序列”。
1.2.2ARFIMA模型定義1{εt}為白噪聲序列[7],記作εt~WN(μ,σ2)。如果時間序列滿足如下性質(zhì):
(1)任取t∈T,有Eεt=u;
圖1 蛋白質(zhì)HA,NA,NP1,PB1差分時序圖Fig.1 Differenced model of HA,NA,NP1,PB1 sequence tim ing diagram
定義 2如果隨機序列{Xt}滿足差分方程(1-B)dxt=εt,其中 -0.5<d<0.5,{εt}為白噪聲序列,Eεt=0,E=σε2<∞,稱{Xt}服從-0.5<d<0.5的ARFIMA(0,d,0)模型[7]。
定義3如果隨機過程{Xt}是平穩(wěn)的,且滿足差分方程Φ(B)▽dxt=Θ(B)εt,其中{εt}為白噪聲序列,Eεt=0,E=<∞,Θ(B)=1-Φ1B-…-ΦpBp,為 p階自回歸系數(shù)多項式;Θ(B)=1-θ1B-…-θqBq,為q階移動平均系數(shù)多項式,-0.5<d<0.5,則稱{Xt}服從-0.5<d<0.5的ARFIMA(p,d,q)模型[8]。
2.1流感病毒蛋白質(zhì)序列數(shù)據(jù)集構(gòu)造
選取數(shù)據(jù)庫中1902—2013年的所有關(guān)于流感病毒蛋白質(zhì)序列,對所取的數(shù)據(jù)集中每一條序列從第一個位置開始,進行數(shù)據(jù)化處理,即將A0→0;A1→1;A2→2;A3→3。則可將由初始的氨基酸序列轉(zhuǎn)化為由0,1,2,3構(gòu)成的四元序列,并對序列進行CGR-WALK轉(zhuǎn)化,獲得CGR-WALK后的{tk}數(shù)據(jù)集。在此對每種蛋白質(zhì)對應(yīng)的t值序列分別求其變異系數(shù),得到10組相應(yīng)蛋白質(zhì)的變異系數(shù)數(shù)據(jù)集。
2.2甲型H 1N1流感病毒蛋白質(zhì)數(shù)據(jù)集特征分析
以流感病毒蛋白質(zhì)HA、NA、NP1、PB1(分別為Hemagglutinin,Neuraminidase,Nonstructural Protein 1,Polymerase PB1等4種蛋白簡寫)為例進行分析。計算得其差分值分別為:d1=0.462,d2=0.465,d3=0.308,d4=0.307。
對應(yīng)其di(i=1,2…,10)階差分分別得到4組對應(yīng)的差分序列。然后分別作對應(yīng)階差分的時間序列圖(如圖1),可以看到在從所選擇數(shù)據(jù)中4次爆發(fā)年份1918,1957,1968,2009年所對應(yīng)差分值較高,此數(shù)據(jù)結(jié)構(gòu)與實際情況相符。
在圖2中分別做了關(guān)于4種蛋白對應(yīng)階差分值的自相關(guān)函數(shù)(ACF)和偏自相關(guān)函數(shù)(PACF)圖像,可以發(fā)現(xiàn)他們的自相關(guān)函數(shù)曲線衰減迅速,偏相關(guān)函數(shù)曲線衰減緩慢,則其具備長記憶的特征。
對4種蛋白質(zhì)對應(yīng)的差分序列進行白噪聲檢驗,(結(jié)果見表1),均有P<0.000 1<0.05,則可知它們不是白噪聲序列,則可利用ARFIMA(p,d,q)模型對4組序列進行擬合。
由Akaike信息判別準則,選取ARFIMA(1,-0.047,1),ARFIMA(4,0.308,0),ARFIMA(2,-0.146,0),ARFIMA(2,0.307,3)對4條序列進行擬合,在表2中給出模型中相應(yīng)的參數(shù)估計值。從表中可以看到,P值都小于0.1,則表明ARFIMA(p,d,q)模型的對序列能夠取得很好的擬合效果。
圖2 蛋白質(zhì)HA、NA、NP1、PB1的ACF與PACF曲線圖Fig.2 ACF and PACF of HA、NA、NP1、PB1
表1 蛋白質(zhì)HA、NA、NP1、PB1的白噪聲檢驗Table 1 W hite noise test of HA、NA、NP1、PB1
最后對模型的合理性進行檢驗,選取LB檢驗統(tǒng)計量:
其中rk是滯后的樣本自相關(guān)函數(shù),n為樣本容量,M是一個比n小的常數(shù),且n為正整數(shù)。
由此可得表3中為各滯后階數(shù)的相關(guān)統(tǒng)計量,其中LB統(tǒng)計量的P值都顯著大于0.1,則可知所擬合模型的殘差序列為白噪聲序列,則ARFIMA(p,d,q)模型可以進行正確的數(shù)據(jù)擬合,即此模型在流感病毒蛋白質(zhì)序列分析是合理的。
在表4中給出由ARFIMA(p,d,q)模型進行流感病毒4種組成蛋白在未來10年中的趨勢預(yù)測。并從對應(yīng)圖3中的預(yù)測圖中綜合觀察,自1902年起到未來10年中關(guān)于4種流感病毒組成蛋白HA、NA、NP1、PB1的變化趨勢。在1918,1957,1968,2009年4次流感爆發(fā)年份中,在圖中都有大幅度的波動,表明該模型的建立符合實際情況。從2014—2023這未來10年中波動情況存在差異,蛋白質(zhì)HA 與NP1較平緩,蛋白質(zhì)NA與PB1有明顯起伏,因此在未來十年里要對蛋白質(zhì)NA與PB1的變異情況進行重點的研究和檢測,為流感病毒預(yù)防和臨床治療提供指導(dǎo)與幫助。
表2 蛋白質(zhì)HA、NA、NP1、PB1的參數(shù)的最小二乘估計Table 2 Least-square estimation of HA、NA、NP1 and PB1
表3 蛋白質(zhì)HA、NA、NP1、PB1的參數(shù)的自相關(guān)檢驗Table 3 Auto-correlation test of the HA、NA、NP1 and PB1
表4 蛋白質(zhì)HA、NA、NP1、PB1在未來10年中的預(yù)測值Table 4 Forest values of HA、NA、NP1 and PB1
圖3 蛋白質(zhì)HA、NA、NP1、PB1差分時序模型與預(yù)測圖Fig.3 Forestmodel of HA、NA、NP1、PB1
利用大數(shù)據(jù)分析處理方法獲得所要研究的對象,并利用詳細的HP模型將全部蛋白質(zhì)序列數(shù)據(jù)化,以CGR-WALK模型和分數(shù)階差分模型對目標數(shù)據(jù)進行處理,最終求的相應(yīng)的變異系數(shù)序列,分析后顯示其具有明顯的長記憶特征,并對相應(yīng)序列的差分化序列運用ARFIMA(p,d,q)模型對其進行預(yù)測,從理論上取得了較好的預(yù)測分析結(jié)果;又由預(yù)測結(jié)果可知,利用從1902—2013年流感病毒的10種組成蛋白的氨基酸序列數(shù)據(jù)得到的時間序列模型結(jié)果很好的與歷史上4次較大流感爆發(fā)年份1918,1957,1968,2009相吻合,并接著進行了2014—2023年序列的變異情況進行預(yù)測,從理論和實際分析應(yīng)用中表明時間序列分析結(jié)合大數(shù)據(jù)的思想對流感病毒蛋白質(zhì)序列的分析預(yù)測有重要的應(yīng)用和研究意義,由此表明最終獲得很好的預(yù)測效果,在下一步的研究中要進一步完善數(shù)據(jù)收集和整理工作,以更加全面的數(shù)據(jù)作為研究分析工作的基礎(chǔ),并對模型在精確度上進行優(yōu)化,提高該研究的實際應(yīng)用價值和科研價值。
[1]Hilleman,MauriceR.Realities and enigmas of human viral influenza:pathogenesis,epidem iology and control[J].Vaccine,2002,20(25-26):3068-3087.
[2]劉娟,高潔.甲型流感病毒DNA序列的長記憶ARFIMA模型[J].物理學(xué)報,2011,60(4):702-707. LIU Juan,GAO Jie.Long-memory ARFIMAmodel for DNA sequencesof influenza A virus[J].Acta Physica Sinica,2011,60 (4):702-707.(in Chinese)
[3]劉娟,高潔.甲型H1N1流感病毒DNA序列堿基的預(yù)測[J].生物信息學(xué),2011,9(3):259-262. LIU Juan,GAO Jie.Forecasting bases for DNA sequences of influenza virus A/H1N1[J].China Journal of Bioinformatics,2011,9(3):259-262.(in Chinese)
[4]劉娟,高潔.乙型、丙型流感病毒DNA序列的長記憶ARFIMA模型[J].生物信息學(xué),2011,9(2):97-101. LIU Juan,GAO Jie.Long-memory ARFIMA model for DNA sequences of influenza B,C virus[J].China Journal of Bioinformatics,2011,9(2):97-101.(in Chinese)
[5]劉娟.基于時間序列理論方法的流感病毒DNA序列特征分析[D].無錫:江南大學(xué),2011.
[6]Jeffrey H J.Chaosgame representation ofgene structure[J].Nucleic Acids Research,1990,18(8):2163-2170.
[7]王燕.應(yīng)用時間序列分析[M].北京:中國人民大學(xué)出版社,2008.
[8]GAO Jie,XU Zhenyuan.Chao game representation(CGR)-walk model for DNA sequences[J].Chinese Physics B,2009,18 (11):370-376.
Sequence Analysis and Prediction of the Influenza Virus Protein
JIN Peixuan,GAO Jie*
(School of Science,Jiangnan University,Wuxi214122,China)
Ten protein am ino acid sequences of influenza virus were obtained from the National Center for Biotechnology Information(NCBI)from 1902 to 2013,which was analyzed using big data in MATLAB programm ingw ith the detailed HPmodel.Meanwhile,the protein sequenceswere converted to the data series based on the CGR-WALK model.The time series ARFIMA(p,d,q)was introduced to fit all the sequences.The analysis results indicated a good model w ith accurate prediction for the variation tendency in the next 10 years,which also provided a reference for the prediction of influenza virususing thebig dataanalysis.
influenza virus,protein sequence,the detail HPmodel,CGR-WALK model,ARFIMA (p,d,q)model
Q 51
A
1673—1689(2016)04—0393—06
2014-06-09
國家自然科學(xué)基金項目(11271163);中央高?;究蒲袠I(yè)務(wù)費專項資金項目(JUSRP21117)。
高潔(1972—),女,江蘇無錫人,工學(xué)博士,副教授,主要從事生物信息學(xué)研究。E-mail:ezhun6669@sina.com