郭麗娜, 郭俊峰
(1.南京財(cái)經(jīng)大學(xué) 應(yīng)用數(shù)學(xué)學(xué)院, 江蘇 南京 210023; 2.南京財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)學(xué)院, 江蘇 南京 210023)
基因識(shí)別中信噪比與功率譜的快速計(jì)算公式及算法實(shí)現(xiàn)
郭麗娜1, 郭俊峰2
(1.南京財(cái)經(jīng)大學(xué) 應(yīng)用數(shù)學(xué)學(xué)院, 江蘇 南京 210023; 2.南京財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)學(xué)院, 江蘇 南京 210023)
DNA序列信號(hào)頻譜3-周期性是一個(gè)被廣泛用于區(qū)分編碼區(qū)和非編碼區(qū)的重要特征,根據(jù)核苷酸中3個(gè)密碼子位置的不均衡性,給出了功率譜與信噪比的快速計(jì)算公式. 研究發(fā)現(xiàn)快速計(jì)算公式有助于基因識(shí)別的實(shí)現(xiàn),為探測(cè)內(nèi)含子、外顯子提供了一個(gè)快速高效的方法.
信噪比; 功率譜; 基因識(shí)別; 外顯子; 內(nèi)含子
基于海量的人類(lèi)及其他生物基因組數(shù)據(jù),對(duì)基因進(jìn)行識(shí)別是生物信息學(xué)的一項(xiàng)重要研究課題[1]. 利用計(jì)算機(jī)分析和研究核苷酸序列,對(duì)蛋白質(zhì)編碼區(qū)的位置、結(jié)構(gòu)和功能進(jìn)行注釋是基因識(shí)別的主要內(nèi)容,其研究又分為兩大類(lèi):蛋白質(zhì)編碼區(qū)識(shí)別和功能位點(diǎn)識(shí)別[2-3].目前這兩方面的研究都不是非常令人滿(mǎn)意,關(guān)于基因編碼區(qū)的識(shí)別,特別是對(duì)較短序列的預(yù)測(cè)效果仍然不理想.在面對(duì)大量、復(fù)雜的基因序列數(shù)據(jù)時(shí),如何更好更快地獲取準(zhǔn)確的基因信息,如何在眾多的基因序列中確定功率譜和信噪比,如何快速實(shí)現(xiàn)基因識(shí)別算法,是我們面臨的一項(xiàng)重要課題.
在生物學(xué)、醫(yī)學(xué)、藥學(xué)等諸多方面,對(duì)DNA的研究具有重要的理論意義與實(shí)際價(jià)值.對(duì)于較長(zhǎng)的DNA序列,應(yīng)用離散Fourier變換(Discrete Fourier Transform,簡(jiǎn)稱(chēng)DFT變換) 計(jì)算其信噪比或功率譜時(shí)總體計(jì)算量很大,會(huì)影響到所設(shè)計(jì)的基因識(shí)別算法的效率[4].鑒于此,文中基于Voss映射,給出對(duì)于任意映射下功率譜與信噪比的快速計(jì)算公式.
在DNA序列研究中,首先需要把A、T、G、C這4種核苷酸的符號(hào)序列,根據(jù)一定的規(guī)則映射成相應(yīng)的數(shù)值序列,以便于對(duì)其作數(shù)字處理.
令I(lǐng)={A,T,G,C},長(zhǎng)度(即核苷酸符號(hào)個(gè)數(shù),又稱(chēng)堿基對(duì)(Base Pair)長(zhǎng)度,單位記為bp)為N的任意DNA序列,可表達(dá)為
S={S[n] |S[n]∈I,n=0,1,2,…N-1},
即A、T、G、C的符號(hào)序列S:S[0],S[1],…,S[N-1].現(xiàn)對(duì)于任意確定的b∈I,令
稱(chēng)之為Voss映射[1],于是生成相應(yīng)的0-1序列(即二進(jìn)制序列){ub[n]}:ub[0],ub[1], …,ub[N-1](b∈I).
例如,假設(shè)給定的一段DNA序列片段為S=ATCGTACTG,則所生成的4個(gè)0-1序列分別為:
{uA[n]}:{1,0,0,0,0,1,0,0,0}; {uG[n]}:{0,0,0,1,0,0,0,0,1};
{uC[n]}:{0,0,1,0,0,0,1,0,0}; {uT[n]}:{0,1,0,0,1,0,0,1,0}.
這樣產(chǎn)生的4個(gè)數(shù)字序列又稱(chēng)為DNA序列的指示序列(indicator Sequence).
為研究DNA編碼序列(外顯子)的特性,對(duì)指示序列分別做離散Fourier變換(DFT)
以此可得到4個(gè)長(zhǎng)度均為N的復(fù)數(shù)序列{Ub[k]},b∈I.計(jì)算每個(gè)復(fù)序列{Ub[k]}的平方功率譜,并相加則得到整個(gè)DNA序列S的功率譜序列{P[k]}:
P[k]=|UA[k]|2+|UT[k]|2+|UG[k]|2+|UC[k]|2,k=0,1,…N-1
對(duì)于同一段DNA序列,其外顯子與內(nèi)含子序列片段的功率譜通常表現(xiàn)出不同的特性
圖1 編號(hào)為BK006948.2的酵母基因DNA序列的功率譜
記DNA序列S的總功率譜的平均值為
(1)
(2)
DNA序列的信噪比值的大小,既表示頻譜峰值(Peak Value)的相對(duì)高度,也反映編碼或非編碼序列3-周期性的強(qiáng)弱.
信噪比R大于某個(gè)適當(dāng)選定的閾值R0(比如R0=2),是DNA序列上編碼序列片段(外顯子)通常滿(mǎn)足的特性,而內(nèi)含子則一般不具有該性質(zhì)[2].
3.1 基于密碼子中核苷酸分布頻率的平均功率譜的快速計(jì)算公式
對(duì)A→0,C→1,G→2,T→3這種類(lèi)型的實(shí)數(shù)映射,其目的是為了繼續(xù)對(duì)核苷酸序列信息轉(zhuǎn)換進(jìn)行降維,從而提高計(jì)算功率譜與信噪比的速度.但是,基于映射建立的信噪比和功率譜的計(jì)算量仍然很大,根據(jù)核苷酸中3個(gè)密碼子位置的不平衡性,可以通過(guò)分析核苷酸序列的頻率分布來(lái)建立信噪比與功率譜的快速計(jì)算公式.
(3)
其中σF是密碼子3個(gè)位置處核苷酸頻率的方差,記作:
(4)
(5)
則可得功率譜的快速計(jì)算公式:
(6)
3.2 基于密碼子中核苷酸分布頻率的信噪比的快速計(jì)算公式
(7)
因而DNA序列的功率譜峰值:
(8)
二次型的系數(shù)矩陣M為半正定陣,其特征值分別為1.5、1.5、0,且當(dāng)Fx1=Fx2=Fx3時(shí),功率譜值為0.因此,當(dāng)堿基在序列的3種位置上的頻數(shù)(Fx1,Fx2,Fx3)分布偏差越小時(shí),功率譜曲線的峰值P(N/3)越接近于0.功率譜峰值實(shí)際上反映了基因密碼子出現(xiàn)的某種概率不均衡性.
大量的計(jì)算實(shí)驗(yàn)表明[3],一個(gè)沒(méi)有錯(cuò)誤符號(hào)的長(zhǎng)度為N的DNA序列的總功率為:
(9)
(10)
3.3 數(shù)值實(shí)驗(yàn)
本段均選取線蟲(chóng)粘粒(AF100306)及人的線粒體全基因組(NC-012920)的第3個(gè)基因片段進(jìn)行實(shí)驗(yàn). 分別用原始的信噪比、功率譜計(jì)算式(1)、式(2)及文中改進(jìn)的快速算法式(6)、式(10)來(lái)進(jìn)行求解. 應(yīng)用Matlab 7.0運(yùn)行結(jié)果如表1和表2所示.
表1 基于兩種算法下線蟲(chóng)粘粒的DNA序列所對(duì)應(yīng)的信噪比
表2 基于兩種算法下人的線粒體全基因組的DNA序列所對(duì)應(yīng)的信噪比
線蟲(chóng)粘?;谠嫉墓β首V計(jì)算公式所得圖形如圖2所示,由圖2可看出線蟲(chóng)粘粒的這段基因序列不具有雙峰結(jié)構(gòu).并且由表1可看出,對(duì)于內(nèi)含子基因片段,運(yùn)用快速算法計(jì)算的信噪比較之于原始算法更小,根據(jù)閾值的計(jì)算原理,可排除該基因片段是外顯子的可能性.
人的線粒體全基因組基于原始的功率譜計(jì)算公式所得圖形如圖3所示,由圖3可以看出人的線粒體全基因組具有雙峰結(jié)構(gòu),而人們通常都是根據(jù)基因序列的功率譜圖是否具有雙峰結(jié)構(gòu)來(lái)判別是否是外顯子區(qū)域.但由表2發(fā)現(xiàn),運(yùn)用原始算法計(jì)算的信噪比值較之于快速算法更小,根據(jù)閾值的計(jì)算原理可知,從一定程度上運(yùn)用原始算法在識(shí)別基因外顯子區(qū)間時(shí)將會(huì)產(chǎn)生誤差,會(huì)擴(kuò)大外顯子區(qū)間,將原本內(nèi)含子的部分誤認(rèn)為是外顯子.由此,可發(fā)現(xiàn)快速計(jì)算公式有助于基因識(shí)別的實(shí)現(xiàn),為探測(cè)內(nèi)含子、外顯子提供了一個(gè)快速高效的方法.
圖2 線蟲(chóng)粘粒的功率譜圖
圖3 人的線粒體全基因組的功率譜圖
本文根據(jù)DNA序列3-周期性,得到了功率譜與信噪比的快速計(jì)算公式,使之更具有廣泛性和適用性. 并且研究發(fā)現(xiàn)快速計(jì)算公式有助于基因識(shí)別的實(shí)現(xiàn),為探測(cè)內(nèi)含子、外顯子提供了一個(gè)快速高效的方法.
[1] Rushdi A, Tuqan J. Gene identification using the Z-curve representation[J]. Department of Electrical and Computer Engineering University of California, 2006, 2(2): 1024-1027.
[2] Yin C C, Yau S T. Prediction of protein coding regions by the 3-base periodicity analysis of a DNA sequence[J]. Journal of Theoretical Biology, 2007, 247(4):687-694.
[3] 邵建峰,嚴(yán)曉華,邵偉,等. DNA序列信號(hào)3-周期特性[J]. 南京工業(yè)大學(xué)學(xué)報(bào),2012,7(4):134-137.
[4] Chang H, Stephen S Y. A fourier characteristic of coding sequences: origins and a non-fourier approximation[J]. Journal of Computational Biology, 2005, 12(9):1153-1165.
[5] Sharma S, Doherty K M, Brosh R M. Mechanisms of RecQ helicases in pathways of DNA metabolism and maintenance of genomic stability[J]. Biochem J, 2006,398:319-337.
[6] 馬寶山. 基于信號(hào)處理理論和方法的基因預(yù)測(cè)研究[D]. 大連:大連海事大學(xué), 2008.
[7] 田元新, 陳超, 鄒小勇, 等. 外顯子周期三行為特征的研究[J]. 化學(xué)學(xué)報(bào), 2005, 63: 1215-1219.
[8] 楊莉. DNA序列4D表示及基因識(shí)別算法研究[D]. 長(zhǎng)沙: 湖南大學(xué)博士論文, 2005.
[9] Burge C, Karlin S. Prediction of complete gene structures in human genomic DNA[J]. Mol Biol, 2007, 268:78-94.
[10] Berryman M J, Allison A. Review of signal processing in genetics[J]. Fluctuation and Noise Letters, 2005, 5(4):13-35.
[11] Koltar D, Lavner Y. Gene prediction by spectral rotation measure: a new method for identifying protein-coding regions[J]. Genome Res, 2003, 13: 1930-1937.
[12] Guan M X. Mitochondrial DNA mutations associated with aminoglycoside ototoxicity[J]. Journal of Otology, 2006:65-75.
[13] 郭爍. DNA信號(hào)序列分析的基因預(yù)測(cè)方法研究[D]. 大連: 大連海事大學(xué),2010.
[14] 楊莉. DNA序列4D表示及基因識(shí)別算法研究[D]. 長(zhǎng)沙: 湖南大學(xué), 2007.
TheFastCalculationFormulasandAlgorithmsofSignalNoiseRatioandPowerSpectruminGeneIdentification
GUO Li-na1, GUO Jun-feng2
(1.School of Applied Mathematics Nanjing University of Finance and Economics, Nanjing Jiangsu 210023, China)(2.School of economics, Nanjing University of Finance and Economics, Nanjing Jiangsu 210023, China)
The 3-periodicity is well acknowledged as an important feature that can be used for distinguishing gene coding regions of a DNA sequence. According to the asymmetric distribution of each of the four bases among the three codon positions, we draw the fast calculation formulas of signal noise ratio and power spectrum. It turned out that the fast calculation formulas can contribute to gene identification, and provide a fast and effective method to the prediction of intron and exon
signal noise ratio; power spectrum; gene identification; extron; intron
2013-02-05
江蘇省高校研究生科研創(chuàng)新項(xiàng)目(2012CXLX1)
郭麗娜(1989-), 女, 江西吉安人, 碩士研究生, 研究方向?yàn)榉中闻c小波理論.
O212.1
A
1671-6876(2013)02-0110-05
[責(zé)任編輯李春紅]
淮陰師范學(xué)院學(xué)報(bào)(自然科學(xué)版)2013年2期