劉建麗,周德良,靳 文
(1.中國(guó)地質(zhì)大學(xué)(北京) 水資源與環(huán)境學(xué)院,北京 100083;2.北京中電易達(dá)科技有限公司,北京 100190;3.內(nèi)蒙古自治區(qū)人民醫(yī)院 臨床醫(yī)學(xué)研究中心 內(nèi)蒙古自治區(qū)代謝紊亂疾病基因調(diào)控重點(diǎn)實(shí)驗(yàn)室,內(nèi)蒙古 呼和浩特 010010)
酵母是最簡(jiǎn)單的真核單細(xì)胞生物[1-5],其廣泛分布于整個(gè)自然界,在有氧和無氧條件下均能存活。酵母是人類文明史中應(yīng)用最早的微生物,也是基因克隆試驗(yàn)中常用的真核生物受體細(xì)胞[6-7]。近些年,隨著獲得更多的高等真核生物遺傳信息,已經(jīng)發(fā)現(xiàn)有更多的酵母基因與高等真核生物基因具有同源性,這也使得酵母基因組在生物信息學(xué)領(lǐng)域具有更加重要的作用[8-12]。相關(guān)研究已發(fā)現(xiàn),人類和酵母同樣存在一定的同源性,有三分之一的酵母基因可以在人類基因組中找到對(duì)應(yīng)的版本,而且酵母和人類的對(duì)應(yīng)蛋白,在氨基酸序列上平均重疊32%[13-17]。所以,對(duì)酵母基因組的生物信息學(xué)研究對(duì)高等真核生物的研究具有重要的意義和價(jià)值[18-19]。
本文利用生物信息學(xué)方法,通過編寫腳本程序,對(duì)酵母1號(hào)和2號(hào)染色體DNA的核苷組成與排列分布進(jìn)行分析研究,以獲得酵母染色體DNA的核苷組成與排列特征,并在核苷組成與排列特征的基礎(chǔ)上對(duì)酵母1號(hào)和2號(hào)染色體DNA之間的相似性和差異性進(jìn)行統(tǒng)計(jì)分析,從而為酵母與高等真核生物基因的同源性分析提供更多的數(shù)據(jù)與技術(shù)支持。
從UCSC(university of california santa cruz)基因組瀏覽器下載酵母1號(hào)和2號(hào)染色體DNA,它們的長(zhǎng)度見表1。
表1 1號(hào)和2號(hào)染色體DNA的長(zhǎng)度Tab.1 Length of yeast DNA in chromosome 1 and 2
對(duì)給定的 DNA 序列,單核苷組成百分比(mononucleoside composition persentage,MCP)根據(jù)公式(1)進(jìn)行計(jì)算:
MCP=N/L
(1)
其中,N指某個(gè)單核苷(單核苷包括A、T、C和G共4個(gè))在染色體DNA中出現(xiàn)的次數(shù);L指染色體DNA的長(zhǎng)度。
對(duì)給定的 DNA 序列,雙核苷組成百分比(dinucleoside composition persentage,DCP)根據(jù)公式(2)進(jìn)行計(jì)算:
DCP=N/(L-1)
(2)
其中,N指某個(gè)雙核苷(雙核苷包括AA、AT、TA、TT、AC、AG、CA、GA、TC、TG、CT、GT、CC、CG、GC和GG,共16個(gè))在染色體DNA中出現(xiàn)的次數(shù),其以2 bp為窗口、1 bp為步長(zhǎng)進(jìn)行統(tǒng)計(jì);L指染色體DNA的長(zhǎng)度。
對(duì)給定的 DNA 序列,雙核苷步距頻次百分比(dinucleoside spacing frequency persentage,DSFP)根據(jù)公式(3)進(jìn)行計(jì)算:
(3)
其中,Ni指雙核苷X和雙核苷Y交替出現(xiàn)但出現(xiàn)間距為i的次數(shù),其中X和Y可以是相同或不相同的單個(gè)雙核苷,也可以是相同或不相同的多個(gè)雙核苷的集合;i指X和Y交替出現(xiàn)的出現(xiàn)間距,是大于等于0的任意可能整數(shù)值(包含0),比如X和Y都是相同的單個(gè)雙核苷AA,以AAACTGAACC序列為例,AA交替出現(xiàn)的出現(xiàn)間距i分別為0和4;若X和Y都是相同的單個(gè)雙核苷AC,同樣以AAACTGAACC序列為例,AC交替出現(xiàn)的出現(xiàn)間距i為4;若X和Y都是AA、AT、TA、TT這4類雙核苷的集合,以AAACTGATACC序列為例,AA、AT、TA、TT交替出現(xiàn)的出現(xiàn)間距i分別為0、4和0。
利用公式(1)計(jì)算酵母1號(hào)和2號(hào)染色體DNA的單核苷組成百分比(MCP),得到結(jié)果見表2。從表2發(fā)現(xiàn),1號(hào)和2號(hào)染色體DNA的單核苷組成差異很小,其中單核苷A和T都是在30%左右,C和G都是在19%左右;單核苷G的組成百分比在2個(gè)染色體DNA之間的差異最大,但也只有0.89%。
表2 單核苷組成百分比Tab.2 Mononucleoside composition percentage
利用公式(2)計(jì)算酵母1號(hào)和2號(hào)染色體DNA的雙核苷組成百分比(DCP),得到結(jié)果見表3。從表3發(fā)現(xiàn),1號(hào)和2號(hào)染色體DNA的雙核苷組成百分比差異很小,幾乎相同,其中雙核苷AA、AT、TA、TT的組成百分比均占據(jù)最高的前4位,而CC、CG、GC、GG的組成百分比均占據(jù)最低的后4位;雙核苷TT的組成百分比在2個(gè)染色體DNA之間的差異最大,但也只有0.42%。
表3 雙核苷組成百分比Tab.3 Dinucleoside composition percentage
從表2與表3的數(shù)據(jù)分析發(fā)現(xiàn),對(duì)于酵母1號(hào)和2號(hào)染色體DNA,它們的單核苷和雙核苷組成百分比基本相同,由此可以認(rèn)為單核苷和雙核苷組成在酵母1號(hào)和2號(hào)染色體DNA上并沒有較明顯的組成偏好性,它們?cè)诮湍竷蓷l染色體DNA上的組成具有較高程度的趨同性。目前已經(jīng)發(fā)現(xiàn)有更多的酵母基因與高等真核生物基因具有同源性,我們推測(cè),單核苷和雙核苷組成應(yīng)該不僅在1號(hào)和2號(hào)染色體DNA上沒有較明顯的組成偏好性,在全部16條染色體DNA上應(yīng)該同樣沒有較明顯的組成偏好性,這樣的結(jié)果或許對(duì)高等真核生物的研究分析具有一定的意義和價(jià)值,這個(gè)工作我們將在后續(xù)工作中持續(xù)展開。
利用公式(3)分別計(jì)算酵母1號(hào)和2號(hào)染色體DNA上雙核苷X和Y交替出現(xiàn)的步距頻次百分比(DSFP),這里雙核苷X和Y均為AA、AT、TA、TT這4類雙核苷的集合。同理,再分別計(jì)算:1)X和Y均為CC、CG、GC、GG這4類雙核苷的集合;2)X和Y均為AC、AG、CA、GA這4類雙核苷的集合;3)X和Y均為TC、TG、CT、GT這4類雙核苷的集合;這3種條件下的X和Y交替出現(xiàn)的步距頻次百分比(表4)。同時(shí)為了對(duì)步距頻次實(shí)現(xiàn)顯性分析,我們忽略了出現(xiàn)次數(shù)很少的出現(xiàn)間距i,只在表4中列出出現(xiàn)間距i在[0,15]間的步距頻次百分比。
表4 雙核苷步距頻次百分比Tab.4 Dinucleoside spacing frequency percentage
表4表明,AA、AT、TA、TT 在1號(hào)和2號(hào)染色體DNA上交替出現(xiàn)的步距頻次百分比差異很小、幾乎相同,它們?cè)诮湍?號(hào)和2號(hào)染色體DNA上的排列存在一定的相似性。同理,CC、CG、GC、GG,AC、AG、CA、GA,TC、TG、CT、GT在1號(hào)和2號(hào)染色體DNA上交替出現(xiàn)的步距頻次百分比也幾乎相同,它們?cè)?號(hào)和2號(hào)染色體DNA上的排列同樣存在一定的相似性。這樣的結(jié)果表明,酵母1號(hào)和2號(hào)染色體DNA在一定程度上可能具有較高相似度的雙核苷排列分布。
為了進(jìn)一步驗(yàn)證上述觀點(diǎn),我們繼續(xù)利用公式(3)分別計(jì)算酵母1號(hào)和2號(hào)染色體DNA上雙核苷X和Y交替出現(xiàn)的步距頻次百分比,這次雙核苷X為AA、AT、TA、TT這4類雙核苷的集合,Y為CC、CG、GC、GG這4類雙核甘的集合。同時(shí)為了對(duì)步距頻次實(shí)現(xiàn)顯性分析,我們忽略了出現(xiàn)次數(shù)很少的出現(xiàn)間距i,只在表5中列出出現(xiàn)間距i在[0,15]間的步距頻次百分比。
表5 雙核苷步距頻次百分比Tab.5 Dinucleoside spacing frequency percentage
從表5發(fā)現(xiàn),在酵母1號(hào)和2號(hào)染色體DNA上AA、AT、TA、TT和CC、CG、GC、GG交替出現(xiàn)的步距頻次百分比同樣差異很小、幾乎相同,它們?cè)?號(hào)和2號(hào)染色體DNA上的排列存在一定的相似性。這樣的結(jié)果驗(yàn)證了我們上述提出的“酵母1號(hào)和2號(hào)染色體DNA在一定程度上可能具有較高相似度的雙核甘排列分布”這一觀點(diǎn)。
上述利用公式(3)分別計(jì)算酵母1號(hào)和2號(hào)染色體DNA上雙核苷X和Y交替出現(xiàn)的步距頻次百分比,使用的X和Y都是多個(gè)雙核苷的集合。接下來,我們將X和Y均取為單個(gè)雙核苷AA再進(jìn)行計(jì)算驗(yàn)證。同理,再分別計(jì)算:1)X和Y均取為TT;2)X和Y均取為CC;3)X和Y均取為GG。這3種條件下X和Y交替出現(xiàn)的步距頻次百分比,最終得到的結(jié)果見表6。同時(shí)為了對(duì)步距頻次實(shí)現(xiàn)顯性分析,我們忽略了出現(xiàn)次數(shù)很少的出現(xiàn)間距i,表6中只列出出現(xiàn)間距i在[0,15]間的步距頻次百分比。
表6 雙核苷步距頻次百分比Tab.6 Dinucleoside spacing frequency percentage
從表6發(fā)現(xiàn),AA在酵母1號(hào)和2號(hào)染色體DNA上交替出現(xiàn)的步距頻次百分比差異很小、幾乎相同,它們?cè)?號(hào)和2號(hào)染色體DNA上的排列存在一定的相似性。同理,TT、CC、GG在1號(hào)和2號(hào)染色體DNA上交替出現(xiàn)的步距頻次百分比也幾乎相同,它們?cè)?號(hào)和2號(hào)染色體DNA上的排列同樣存在一定的相似性。上述分析結(jié)果又更進(jìn)一步表明,酵母1號(hào)和2號(hào)染色體DNA在一定程度上可能具有較高相似度的雙核苷排列分布。
在上述分析中,我們利用公式(3)分別計(jì)算了3種不同類型雙核苷在酵母1號(hào)和2號(hào)染色體DNA上的步距頻次百分比,結(jié)果分析均一致表明“酵母1號(hào)和2號(hào)染色體DNA在一定程度上可能具有較高相似度的雙核甘排列分布”。目前已經(jīng)發(fā)現(xiàn)有更多的酵母基因與高等真核生物基因具有同源性,如果不僅是酵母1號(hào)和2號(hào)染色體DNA可能具有較高相似度的雙核苷排列分布,而是酵母全部16條染色體DNA都可能具有較高相似度的雙核苷排列分布,那么這樣的結(jié)果或許對(duì)高等真核生物的研究分析具有一定的意義和價(jià)值,這個(gè)工作我們將在后續(xù)工作中持續(xù)展開。
酵母是最簡(jiǎn)單的真核單細(xì)胞生物,包含16條染色體。本文利用生物信息學(xué)方法,分別計(jì)算分析了單核苷和雙核苷在酵母1號(hào)和2號(hào)染色體DNA上的組成百分比,發(fā)現(xiàn)單核苷和雙核苷組成百分比在這兩條染色體DNA上基本相同,這說明單核苷和雙核苷組成在酵母1號(hào)和2號(hào)染色體DNA上沒有明顯的組成偏好性,它們的組成在這兩條染色體DNA上具有較高程度的趨同性。另外我們分別計(jì)算分析了3種不同類型的雙核苷在酵母1號(hào)和2號(hào)染色體DNA上的步距頻次百分比,發(fā)現(xiàn)無論哪一種類型的雙核苷,它們?cè)诮湍?號(hào)和2號(hào)染色體DNA上交替出現(xiàn)的步距頻次百分比都差異很小、幾乎相同,它們?cè)谶@兩條染色體DNA上的排列分布均存在一定的相似性,這樣的結(jié)果表明酵母1號(hào)和2號(hào)染色體DNA在一定程度上可能具有較高相似度的雙核苷排列分布。
目前已經(jīng)發(fā)現(xiàn)有更多的酵母基因與高等真核生物基因具有同源性,對(duì)酵母基因組的生物信息學(xué)研究對(duì)高等真核生物的研究具有重要的意義和價(jià)值。在后續(xù)的工作中,我們將對(duì)酵母全部16條染色體DNA的單核苷和雙核苷組成百分比進(jìn)行統(tǒng)計(jì)分析,同時(shí)也會(huì)對(duì)酵母全部16條染色體DNA的雙核苷步距頻次百分比進(jìn)行計(jì)算分析,這兩者的分析結(jié)果或許對(duì)高等真核生物的研究分析具有一定的意義和價(jià)值。
貴州大學(xué)學(xué)報(bào)(自然科學(xué)版)2021年6期