張 靜, 周小安, 趙 宇
(深圳大學(xué) 信息工程學(xué)院, 廣東 深圳 518000)
人類基因組計(jì)劃完成,基因測序技術(shù)得到飛速的發(fā)展,生物序列也已吸引到多方關(guān)注與矚目,如何分析和解讀生物序列中所包含的有用信息已然成為目前生物學(xué)研究的關(guān)鍵。對于獲得的一個(gè)新物種,如果能證實(shí)其與某些已知序列存在的一定的聯(lián)系,那么就能分析出該新物種的結(jié)構(gòu)和功能與相似序列之間存在的共同性,如此將會(huì)大大減輕基因檢測與新序列測定的工程量。面對數(shù)量級巨大的生物序列,DNA序列的相似性分析即已顯得尤為重要[1-4]。
分析DNA序列相似性的傳統(tǒng)方法,不僅計(jì)算量大,且存在一定的缺陷。諸如,點(diǎn)陣圖分析方法,實(shí)驗(yàn)數(shù)據(jù)是不能插入空格的[5];而傅里葉變換方法則會(huì)丟失序列中的部分信息,也不能清楚地顯示序列之間的異同[6];但將信息理論方法運(yùn)用在相似性分析上,取得的實(shí)驗(yàn)結(jié)果也并不理想[7-10];此外的統(tǒng)計(jì)特征方法對數(shù)據(jù)量卻有著極高的要求[11]。因此找尋一種不僅能真實(shí)反映出序列的復(fù)雜度情況,還能高度準(zhǔn)確地從相關(guān)性角度全面分析生物序列的相似性的計(jì)算方法就已成為本文設(shè)計(jì)討論的重點(diǎn)。
近年來,作為一種數(shù)字化表示時(shí)間序列復(fù)雜度和研究時(shí)間序列基本性質(zhì)的重要計(jì)算方法,樣本熵(sample entropy,SampEn)在DNA序列的相似性分析方法中得到了充分的認(rèn)可與使用[12]。在分析比較DNA序列相似性的研究中,樣本熵能有效解讀序列變化中很小的復(fù)雜性變化,精確度也較高,但也依然存在一定的局限性。首先,DNA分子是一種高分子聚合物,在本次實(shí)驗(yàn)研究中,僅是選取其中的一個(gè)片段,若運(yùn)用樣本熵的測度方法,分析整個(gè)DNA序列,其巨大的工程量,也將凸顯出此方法的短板與不足。其次,樣本熵的測度方法具有時(shí)間尺度單一的特點(diǎn),而時(shí)間尺度對于衡量序列的復(fù)雜度是有影響的。為了能對DNA序列的復(fù)雜度進(jìn)行全面量化,本文擬將引入一種基于多尺度熵的測度算法。相對于樣本熵算法而言,多尺度熵能夠更加高效、清晰地展示出DNA序列的相似程度。對此內(nèi)容可展開研究論述如下。
基于樣本熵的DNA序列相似性分析方法主要計(jì)算和的對數(shù),過程中避免分析自身無意義的值。其物理意義是衡量序列的復(fù)雜程度,是一種有關(guān)時(shí)間復(fù)雜度的分析方法。序列的樣本熵值越大,其復(fù)雜程度越高,序列“同源”的可能性就越小,反之,序列的樣本熵值越低,序列相似的可能性就越大[13-16]。其計(jì)算過程可表述為:
(1)將N點(diǎn)時(shí)間序列{u(i):1≤i≤N}按順序組成m維矢量,對此可表示如下:
Xm(i)=[u(i),u(i+1),…,u(i+m-1)]
i=1~N-m
(1)
(2)對每一個(gè)i值計(jì)算矢量Xm(i)與其余矢量Xm(j)之間的距離,定義d[Xm(i),Xm(j)]為矢量Xm(i)和Xm(j)中對應(yīng)元素差值的最大值,即:
d[Xm(i),Xm(j)]=max|x(i+k)-u(j+k)|
(2)
其中,i,j=1~N-m+1;i≠j。
(3)
然后對所有i求平均值,記作Bm(r),即:
(4)
(4)將維數(shù)加1變?yōu)閙+1,重復(fù)步驟(1)~(3),得到Bm+1(r),即:
(5)
(5)運(yùn)算得出理論上的樣本熵值為:
(6)
此時(shí),令N為無限大,依上述步驟計(jì)算得出長度為N時(shí),序列的樣本熵值約為:
SampEn(m,r,N)=-ln?Bm+1(r)/Bm(r)」
(7)
分析可知,SampEn的值與m、r、N的值相關(guān),所以本文中取m=2、r=0.1~0.25SD(x)。
在2002年,Costa等人[17]首次提出一種基于樣本熵的、用來分析有關(guān)時(shí)間序列復(fù)雜程度的重要度量方法——多尺度熵(MultiScale Entropy,MSE)。該方法很好地解決了樣本熵算法單尺度的缺陷,多尺度熵是在樣本熵計(jì)算方法基礎(chǔ)上的改進(jìn),研究推得其計(jì)算過程如下。
(1)設(shè)N點(diǎn)離散時(shí)間序列為X={x(i):1≤i≤N},在給定的嵌入維數(shù)(即窗口長度)m和相似容限r(nóng)之下,構(gòu)建新的粗?;蛄俊?傻闷鋽?shù)學(xué)計(jì)算公式如下:
?N/τ」
(8)
其中,?N/τ」表示向下取整,τ=1,2,3,…是正整數(shù),稱為尺度因子。
粗?;^程也就是用長度為τ的窗口進(jìn)行滑動(dòng)平均的過程。將其描繪出來,則如圖1所示。
圖1 時(shí)間序列的粗?;幚磉^程
(2)計(jì)算在不同尺度因子粗粒化后的序列的樣本熵值,每個(gè)值對應(yīng)一個(gè)尺度因子,也就是計(jì)算序列對應(yīng)的尺度熵值。設(shè)最大的尺度因子為τmax,分別計(jì)算尺度[1,2,…,τmax]對應(yīng)的粗?;蛄縖y1(j),y2(j),…,yτmax(j)]對應(yīng)的樣本熵值,從而得到原始序列的多尺度熵值MSE=[SE1,SE2,…,SEτmax]。
DNA序列是由4種不同的堿基組合而成的,在文獻(xiàn)[18]中,提供了一種基于數(shù)值的表示方法。其本質(zhì)就是將4種堿基字符串依照適當(dāng)?shù)挠成湟?guī)則一一對應(yīng)映射為數(shù)值序列,這樣編碼得到的DNA序列就可以對其進(jìn)行后續(xù)的數(shù)據(jù)處理和數(shù)據(jù)分析。研究求出其映射關(guān)系表示方法如下:
(9)
本文從NCBI數(shù)據(jù)庫(http://www.nubi.nlm.nih.gov)中下載了7種病毒的DNA序列作為實(shí)驗(yàn)研究對象。實(shí)驗(yàn)所需的7種病毒的片段信息可詳見表1。
表1 7種病毒的DNA序列片段
將DNA序列用上述整數(shù)表示方式,表示為數(shù)值時(shí)間序列后,研究首先令尺度因子τ=1,這時(shí)得到的就是7種DNA序列之間的樣本熵值。詳情參見表2。
當(dāng)尺度因子τ=2時(shí),計(jì)算7種DNA序列之間的多尺度熵值,即τ=2時(shí)的樣本熵值。綜合運(yùn)算結(jié)果見表3。
表2 τ=1時(shí),7種病毒的DNA序列之間的互樣本熵矩陣
表3τ=2時(shí),7種病毒的DNA序列之間的互樣本熵矩陣
Tab.3MultiscaleentropybetweenDNAsequencesofsevenviruseswhenτ=210-2
VIRUSH5N1(1)H5N1(2)H1N1H2N2H3N2H7N9SARSH5N1(1)0.573 80.645 42.574 51.943 12.162 41.811 21.947 1H5N1(2)0.617 22.602 72.054 12.274 91.791 81.945 9H1N10.844 21.909 52.107 41.713 81.883 0H2N20.806 12.639 12.021 01.921 8H3N20.751 01.543 31.414 9H7N90.693 11.386 3SARS0.802 3
當(dāng)尺度因子τ=3時(shí),計(jì)算7種DNA序列之間的多尺度熵值,即τ=3時(shí)的樣本熵值。綜合運(yùn)算結(jié)果見表4。
τ=1時(shí),實(shí)際上計(jì)算的就是DNA序列之間的樣本熵值,從表2~表4中,可知τ=3與τ=2時(shí)的實(shí)驗(yàn)結(jié)果與τ=1時(shí)的實(shí)驗(yàn)結(jié)果相同,都表現(xiàn)出H5N1(1)與H5N1(2)有著很高的相似性,這也驗(yàn)證、并說明了基于多尺度熵的相似性分析方法是切實(shí)可行的。τ=2時(shí)實(shí)驗(yàn)展示的DNA序列之間相似性程度比τ=1時(shí)實(shí)驗(yàn)效果要更加明顯,且在τ=3中的數(shù)據(jù)差異則尤其明顯,這也進(jìn)一步展現(xiàn)出其在研究H5N1(1)與H5N1(2)具有很高的相似性、而與其它序列相似性較低方面的優(yōu)越性能。綜上分析可知,多尺度熵分析算法可以運(yùn)用在DNA序列相似性分析研究上,不僅能降低計(jì)算量、提高實(shí)驗(yàn)分析的效率,還能更加突出顯示序列整體之間的相似性程度。
表4τ=3時(shí),7種病毒的DNA序列之間的互樣本熵矩陣
Tab.4MultiscaleentropybetweenDNAsequencesofsevenviruseswhenτ=310-2
VIRUSH5N1(1)H5N1(2)H1N1H2N2H3N2H7N9SARSH5N1(1)0.387 80.446 32.639 12.351 43.135 51.722 81.945 9H5N1(2)0.313 72.351 42.154 72.233 61.845 81.609 4H1N10.405 52.345 12.483 72.028 12.484 9H2N20.479 61.897 12.944 41.504 1H3N20.525 01.223 81.981 0H7N90.578 11.386 3SARS0.470 0
本文在樣本熵的基礎(chǔ)上,運(yùn)用多尺度熵的分析方法分析7種病毒序列的相似性,實(shí)驗(yàn)結(jié)果表明,該方法能夠有效表現(xiàn)序列之間的相似性程度。相對于樣本熵分析算法,多尺度熵分析算法效率更高,但是多尺度熵算法中數(shù)據(jù)分析的精確度卻降低了,所以本文的方法適用于分析研究序列長度較大的數(shù)據(jù)對象。在具體實(shí)驗(yàn)中,要根據(jù)整體詳盡的實(shí)驗(yàn)需求,有針對性地選擇最合適的DNA序列的分析算法。