肖前軍,周金玉,鄧總綱
(湖南理工職業(yè)技術(shù)學(xué)院,湖南湘潭411104)
蛋白質(zhì)序列混沌游戲表示模擬效果的優(yōu)化
肖前軍,周金玉,鄧總綱
(湖南理工職業(yè)技術(shù)學(xué)院,湖南湘潭411104)
蛋白質(zhì)序列的可視化表示——混沌游戲表示呈現(xiàn)出明顯的分形特征.根據(jù)分形的產(chǎn)生機(jī)理,可以用遞歸迭代函數(shù)系統(tǒng)很好地模擬蛋白質(zhì)序列的混沌游戲表示.在實(shí)驗(yàn)中發(fā)現(xiàn),其模擬效果可以進(jìn)一步優(yōu)化,可能有助于更準(zhǔn)確地進(jìn)行物種親緣關(guān)系的分析.
遞歸迭代函數(shù)系統(tǒng);混沌游戲表示;模擬;蛋白質(zhì)序列;優(yōu)化
蛋白質(zhì)序列是由20種不同的氨基酸組成的一維字符序列,但要直接從中得出更多隱含的生物特性是非常困難的.為此人們?cè)O(shè)計(jì)出很多方法來(lái)進(jìn)行序列分析,例如,統(tǒng)計(jì)分析、人工神經(jīng)網(wǎng)絡(luò)技術(shù)和動(dòng)態(tài)規(guī)劃等方法已經(jīng)成功地應(yīng)用到蛋白質(zhì)序列分析的某些領(lǐng)域,但這些方法不夠直觀且其中很多方法都需要進(jìn)行繁瑣的序列比對(duì).因此,人們探索將蛋白質(zhì)序列轉(zhuǎn)化為數(shù)字信號(hào)、曲線或者可視化模型,再利用數(shù)學(xué)方法(如分形理論)進(jìn)行相關(guān)分析,以期從中發(fā)現(xiàn)更多的生物特性.Jeffrey[1]介紹了一種表征蛋白質(zhì)序列的可視化方法——混沌游戲表示,通過在蛋白質(zhì)序列的混沌游戲表示圖中發(fā)現(xiàn)明顯的分形特征[2-5],而實(shí)際的分形是隨機(jī)迭代產(chǎn)生的,因此可以運(yùn)用遞歸迭代函數(shù)系統(tǒng)[2,5-10]來(lái)模擬蛋白質(zhì)序列的混沌游戲表示.實(shí)驗(yàn)發(fā)現(xiàn)模擬效果很好[2,7],而且其結(jié)果可以進(jìn)行物種進(jìn)化等相關(guān)分析[6],實(shí)驗(yàn)過程中還發(fā)現(xiàn)其模擬結(jié)果可以進(jìn)一步優(yōu)化.
蛋白質(zhì)序列由20種不同的氨基酸組成[11],即甘氨酸(G)、丙氨酸(A)、纈氨酸(V)、異亮氨酸(I)、亮氨酸(L)、苯丙氨酸(F)、脯氨酸(P)、甲硫氨酸(M)、色氨酸(W)、半胱氨酸(C)、絲氨酸(S)、蘇氨酸(T)、天冬酰胺(N)、谷氨酸(E)、酪氨酸(Y)、組氨酸(H)、天冬氨酸(D)、谷酰胺(Q)、賴氨酸(K)和精氨酸(R).根據(jù)detailed-HP模型[5,7,12-13],可以把以上20種氨基酸分成4類:無(wú)極性氨基酸(A、I、L、M、F、P、W和V),負(fù)極性氨基酸(D和E),正極性氨基酸(R、H和K)和不帶電氨基酸(N、C、Q、G、S、T和Y).對(duì)一條長(zhǎng)度為l的蛋白質(zhì)序列s=s1s2…sl,其中si是20種氨基酸中的某一種,i=1,2,…,l,定義:這樣就把蛋白質(zhì)的氨基酸序列轉(zhuǎn)換成了一條字符序列X(s)=a1a2…al,其中ai∈{0,1,2,3}.根據(jù)Jeffrey[1]的定義,一條蛋白質(zhì)序列s的混沌游戲表示規(guī)則如下:先在平面上作一正方形[0,1]×[0,1],以其4個(gè)頂點(diǎn)分別代表4個(gè)字符0、1、2和3,然后進(jìn)行打點(diǎn),第一點(diǎn)打在正方形中心與序列X(s)第一個(gè)字符對(duì)應(yīng)頂點(diǎn)的中點(diǎn),第i(i≥2)點(diǎn)打在第i-1點(diǎn)與序列X(s)第i個(gè)字符對(duì)應(yīng)頂點(diǎn)的中點(diǎn),直到在正方形中作出序列X(s)最后一個(gè)字符對(duì)應(yīng)的點(diǎn),這樣得到的圖像稱為蛋白質(zhì)序列s的混沌游戲表示CGR.
根據(jù)蛋白質(zhì)序列混沌游戲表示的作法可知,序列X(s)與其CGR之間具有一一對(duì)應(yīng)關(guān)系,即不同的蛋白質(zhì)序列對(duì)應(yīng)著不同的混沌游戲表示.為了進(jìn)一步討論的需要,引入蛋白質(zhì)序列的混沌游戲表示的測(cè)度這一概念,對(duì)給定的蛋白質(zhì)序列,以如下方式來(lái)定義其CGR測(cè)度:μ(B)=#(B)/N,其中#(B)表示該蛋白質(zhì)序列CGR子集B中點(diǎn)的數(shù)目,N表示蛋白質(zhì)序列的長(zhǎng)度.為了便于討論,將正方形[0,1]×[0,1]分割成2k×2k個(gè)小正方形網(wǎng)格,對(duì)每一種分割,取B為該分割中每一網(wǎng)格與蛋白質(zhì)序列CGR的交集,則#(B)就是該網(wǎng)格上CGR點(diǎn)的數(shù)目,這樣我們得到2k×2k的測(cè)度矩陣.
在完備距離空間X上,一個(gè)由壓縮映射集S={S1,…,SN}和與其對(duì)應(yīng)的概率集P=(pij)(其中構(gòu)成的系統(tǒng)(S,P),任取起始點(diǎn)A0,按如下的迭代過程產(chǎn)生隨機(jī)點(diǎn)列:An+1=Sσn(An)(n=0,1,2,…),其中σn在集合{1,2,…,N}中取值且P(σn+1=i)=pσni,i=1,…,N,則稱(S,P)為遞歸迭代函數(shù)系統(tǒng).
在本文中,我們?nèi)=[0,1]×[0,1],N=4,壓縮映射為:1,2,3,4,即:
遞歸迭代函數(shù)系統(tǒng)的一個(gè)主要結(jié)論是:存在唯一不變測(cè)度且其支撐集為遞歸迭代函數(shù)系統(tǒng)的吸引子.由于需要用遞歸迭代函數(shù)系統(tǒng)的吸引子來(lái)逼近蛋白質(zhì)序列的混沌游戲表示,所以為了得到給定的蛋白質(zhì)序列對(duì)應(yīng)的RIFS的吸引子,我們根據(jù)已知蛋白質(zhì)序列混沌游戲表示的測(cè)度,用矩方法來(lái)估計(jì)遞歸迭代函數(shù)系統(tǒng)中的未知參數(shù)pij.如果μ′與A分別是RIFS的不變測(cè)度與吸引子,則μ′的矩為:
記Gmn為蛋白質(zhì)序列的混沌游戲表示測(cè)度μ的各階矩,通過解優(yōu)化問題Gmn)2可得參數(shù)pij的估計(jì)值,根據(jù)其估計(jì)值可以產(chǎn)生上述RIFS吸引子A,記χB為吸引子A的子集B的特征函數(shù),根據(jù)RIFS遍歷理論可知其不變測(cè)度為:μ′(B)=這樣就可以計(jì)算出與上述蛋白質(zhì)序列混沌游戲表示的測(cè)度矩陣同樣大小的不變測(cè)度矩陣,然后根據(jù)它們的差異程度來(lái)判別RIFS的吸引子逼近蛋白質(zhì)序列CGR的好壞.
1.4.1 相對(duì)標(biāo)準(zhǔn)誤差
為了說(shuō)明不變測(cè)度對(duì)原始測(cè)度的模擬效果,引入相對(duì)標(biāo)準(zhǔn)誤差:e=e1/e2,其中e1=為原始測(cè)度矩陣的元素,yij為模擬測(cè)度矩陣的元素,若e<1,則說(shuō)明擬合得比較好,如果e<0.1,則擬合的效果更好[2].
1.4.2 測(cè)度累積行走
測(cè)度累積行走定義如下:其中fi是將測(cè)度矩陣的k×k網(wǎng)格所有行擴(kuò)展為一行后第i個(gè)網(wǎng)格的密度值,是網(wǎng)格上所有密度值的平均值.
數(shù)據(jù)庫(kù)Genebank(ftp://ncbi.nlm.nih.gov/genbank/genomes)中有大量的蛋白質(zhì)序列,從中隨機(jī)下載了20種細(xì)菌(見表1)的蛋白質(zhì)序列.以細(xì)菌Thevo(Thermoplasma volcanium,火山熱原體,廣古生菌(Euryarchaeota))為例,根據(jù)1.1節(jié)中的方法,圖1是Thevo蛋白質(zhì)序列的混沌游戲表示,該圖呈現(xiàn)出明顯的分形特征.根據(jù)1.2節(jié)中的方法,圖2是k=7時(shí)Thevo蛋白質(zhì)序列混沌游戲表示的測(cè)度圖.基于1.3節(jié)中的理論,通過計(jì)算得到參數(shù)pij的估計(jì)為:
根據(jù)概率矩陣P4×4得到了對(duì)應(yīng)的k=7時(shí)遞歸迭代函數(shù)系統(tǒng)的吸引子圖3及不變測(cè)度圖4.對(duì)于Thevo而言,根據(jù)1.4.1節(jié)的方法,計(jì)算得到e=0.130 8,根據(jù)1.4.2節(jié)的方法,圖5給出了k=7時(shí)Thevo的CGR測(cè)度行走表示及其模擬的比較圖,表明用遞歸迭代函數(shù)系統(tǒng)能很好地模擬Thevo的蛋白質(zhì)序列CGR.為了對(duì)模擬結(jié)果進(jìn)一步優(yōu)化,我們考慮兩個(gè)問題:第一,迭代次數(shù)是否影響迭代結(jié)果?第二,k的不同取值是否影響迭代效果?在文獻(xiàn)[2,5]中,都是選用k=7來(lái)進(jìn)行研究.實(shí)驗(yàn)證實(shí)迭代次數(shù)并不影響迭代結(jié)果,而k的不同取值可以影響迭代效果.以Thevo為例,圖6~8分別是k=8時(shí)Thero的CGR測(cè)度,RIFS吸引子及RIFS模擬CGR的不變測(cè)度,由圖1和圖3、圖2和圖4的對(duì)比結(jié)果與圖1和圖7、圖6和圖8的對(duì)比結(jié)果可以直觀地看出,k=8時(shí)的模擬效果明顯優(yōu)于k=7時(shí)的模擬效果,圖5和圖9分別表示k=7和8時(shí),Thevo的CGR測(cè)度行走表示及其模擬的比較圖,也很好地證實(shí)了上述結(jié)論.此時(shí),參數(shù)pij的估計(jì)為:
而且從表1可以看出,對(duì)Thevo而言,k=8時(shí)有最好的模擬效果.之后隨機(jī)選取了20種不同細(xì)菌進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)k取不同的值時(shí),其模擬效果是不同的,可以選取不同的k值使其模擬效果達(dá)到最優(yōu)(見表1).其缺點(diǎn)就是過程相對(duì)麻煩,需要進(jìn)行反復(fù)的實(shí)驗(yàn)去尋找適合的k值.
圖1 Thevo的CGR
圖2 k=7時(shí)Thevo的CGR測(cè)度
圖3 k=7時(shí)Thevo的RIFS吸引子
圖4 k=7時(shí)Thevo的RIFS模擬CGR不變測(cè)度
表1 不同k值時(shí)RIFS對(duì)20種細(xì)菌的CGR模擬結(jié)果
細(xì)菌名稱(簡(jiǎn)寫)蛋白質(zhì)序列長(zhǎng)度相對(duì)標(biāo)準(zhǔn)誤差k=7k=8k=9k=10k=11k=12Cloab1 123 6040.189 50.180 50.092 30.099 20.099 60.099 8 lo640 5460.052 70.037 70.039 10.041 10.043 50.044 8Borbu283 5960.200 80.167 80.152 70.101 40.108 10.115 3Brume950 1280.038 20.036 00.027 30.025 90.026 90.027 8Camje508 8370.080 20.083 80.025 70.026 00.026 70.027 2Caucr1 209 2280.025 90.024 20.015 80.016 20.017 20.018 1Chlmu321 0650.118 30.113 80.092 40.098 10.098 70.113 2ChlpnAYerpek1 273 9040.068 90.058 00.055 10.057 50.058 60.060 5Wigbr201 6721.103 51.116 90.867 70.932 00.961 20.964 0Thevo450 1070.130 80.050 30.053 60.055 20.057 20.063 5Mycpe400 8000.325 30.221 70.230 20.235 20.241 20.251 1Urepa228 2390.405 80.330 30.248 10.262 80.268 90.271 3Bachd1 188 4480.048 70.046 60.034 60.036 70.037 20.038 2Bacsu1 218 6160.068 60.041 80.042 30.043 30.045 10.048 1Bif 364 0780.104 40.098 20.061 90.064 60.074 50.086 7
用分形方法中的遞歸迭代函數(shù)系統(tǒng)對(duì)基于detailed-HP模型的蛋白質(zhì)序列可視化方法——混沌游戲表示作了逼近,分析發(fā)現(xiàn)用遞歸迭代函數(shù)系統(tǒng)來(lái)逼近蛋白質(zhì)序列的混沌游戲表示時(shí)有好的效果,且其模擬結(jié)果可以進(jìn)一步優(yōu)化,為更準(zhǔn)確地進(jìn)行物種親緣關(guān)系的分析提供一種新的方法.
[1] Jeffrey H J.Chaos game representation of gene structure[J].Nucleic Acids Res,1990(18):2 163-2 170.
[2] 肖前軍.遞歸迭代函數(shù)系統(tǒng)對(duì)基于detailed-HP模型的蛋白質(zhì)序列的混沌游戲表示的模擬[J].湘潭師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2008,30(1):14-17.
[3] 肯尼思·法爾科內(nèi).分形幾何中的技巧[M].曾文曲,王向陽(yáng),陸夷,等,譯.沈陽(yáng):東北大學(xué)出版社,1999.
[4] 肯尼思·法爾科內(nèi).分形幾何——數(shù)學(xué)基礎(chǔ)及其應(yīng)用[M].曾文曲,王向陽(yáng),陸夷,等,譯.沈陽(yáng):東北大學(xué)出版社,2001.
[5] 肖前軍.功能蛋白質(zhì)序列的混沌游戲表示及其遞歸迭代函數(shù)系統(tǒng)模擬[D].湘潭:湘潭大學(xué)數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,2008.
[6] Lau K S,Anh V V,Yu Z G.Recognition of an organism from fragments of its complete genomes[J].Physical Review E,2002(66):0319101-9.
[7] 喻祖國(guó),Vo Anh,劉家成.迭代函數(shù)系統(tǒng)模型在生物序列分析中的應(yīng)用[J].湘潭大學(xué)(自然科學(xué)學(xué)報(bào)),2003(9):131-139.
[8] Yu Z G,Anh V V,Wanliss J A,et al.Chaos game representation of the dst index and prediction of geomagnetic storm events[J].Chaos,Solitons and Fractals,2007(31):736-746.
[9] Vrscay E R.Fractal geometry and analysis,chapter iterated function systems:theory,applicationsand the inverse problem[M].Dorsrecht:Kluwer,1991:405-468.
[10] Yu Z G,Shi L,Xiao Q J,et al.Simulation for chaos game representation of genomes by recurrent iterated function systems[J].J Biomedical Science and Engineering,2008(1):44-51.
[11] 孫嘯,陸祖宏,謝建明,等.生物信息學(xué)基礎(chǔ)[M].北京:清華大學(xué)出版社,2005.
[12] Yu Z G,Anh V V,Lau K S.Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses[J].Journal of Theoretical Biology,2004(226):341-348.
[13] Yu Z G,Anh V V,Lau K S.Fractal analysis of measure representation of large proteins based on the detailed HP model[J].Physica A:Statistical and Theoretical Physics,2004(337):171-184.
Optimization of Simulation for Chaos Game Representation of Protein Sequence
XIAO Qian-jun,ZHOU Jin-yu,DENG Zong-gang
(Hunan Vocational College of Science and Technology,Xiangtan 411104,Hunan,China)
A fractal pattern is apparent in visual representation of a protein sequence:Chaos Game Representation(CGR).According to the mechanism of fractal forming,Chaos Game Representation(CGR)of protein sequences can be simulated by Recurrent Iterated Function System(RIFS).In experiments,a close approximation of CGR is obtained by the method.The results of simulation can be further optimized and the phylogenetic tree can be correctly worked out.
iterated function system;chaos game representation;simulation;protein sequence;optimization
O 29;O 811.4;Q 516
A
1001-4217(2010)01-0035-07
2009-06-24
肖前軍(1978-),男,湖南湘潭人,講師.研究方向:分形幾何與生物信息學(xué).E-mail:xqjxt@126.com
2008年湖南省教育廳項(xiàng)目(08C882)