原核生物基因識別問題的相關(guān)分析

2017-02-16 19:35楊漢銘

科技與創(chuàng)新 2017年1期

楊漢銘

摘要：原核生物基因識別屬于生物信息學的范疇，作為一門交叉性的學科，生物信息學中融入了對生物信息的解釋、分析、分發(fā)、存儲、處理和獲取等多方面的內(nèi)容，利用生物學、計算機科學和數(shù)學等工具，對大量數(shù)據(jù)中包含的生物學意義進行理解和闡述。通過分析DNA序列，有效分析蛋白質(zhì)中非編碼和編碼序列的特征，以期提升蛋白質(zhì)編碼基因的識別率。簡要闡述原核基因組中ORF及基因的結(jié)構(gòu)特征，嘗試提取描述基因特征的參量，通過分析重疊基因，有效設(shè)計自訓練識別原核生物基因算法。

關(guān)鍵詞：原核生物；基因識別；結(jié)構(gòu)特征；蛋白質(zhì)編碼

中圖分類號：Q93-33 文獻標識碼：A DOI：10.15913/j.cnki.kjycx.2017.01.038

在生物信息學領(lǐng)域中，基因識別是一項重要內(nèi)容，通過分析基因序列，能夠提取基因特征結(jié)構(gòu)信息，得到相應(yīng)的理論模型，設(shè)計識別算法，從而實現(xiàn)對計算機輔助基因的識別。在基因識別中，主要識別RNA基因、蛋白質(zhì)編碼基因。過去，采用生物學實驗的方法確定基因及其結(jié)構(gòu)，存在費用高、周期長等問題。因此，采用非實驗的方法定位基因，確定基因結(jié)構(gòu)，具有十分重要的意義。

1 Fisher判別法

過去，應(yīng)用統(tǒng)計模式識別方法存在的一個問題，就是特征數(shù)或維數(shù)問題?；诖?，逐漸產(chǎn)生了一種能夠?qū)⑻卣骺臻g維數(shù)降低的方法，其中一種較為常用的方法就是Fisher線性判別法。在這種方法中，在一條過原點的直線上投影d維空間的所有模式，從而形成在一起聚合的一個群，其在一維直線上可能存在混雜的投影。但是，如果轉(zhuǎn)動這條支線，就能夠在某個方向上很好地區(qū)分不同模式的投影。假設(shè)存在X1，X2 2種模式樣本集，各自的d維樣本數(shù)為n1，n2，假設(shè)能夠有效區(qū)分模式樣本投影的直線正方向單位向量為W，丨W丨=1，在直線中，X1，X2的投影能夠分別得到r1，r2 2個集合，而y∈ri，即x∈Xi在單位向量W中的投影，則y=WTX。在Fisher先行判別方程中，對編碼區(qū)的識別存在多維空間的一個超平面，用矢量c代表，其中包含了c1，c2……cm這m個組分，這個內(nèi)容可以從2組樣本中得出。其中，第一組g=1表示編碼樣本，第二組g=2則表示非編碼樣本。

2 蛋白質(zhì)編碼區(qū)的識別

在生物信息領(lǐng)域，蛋白質(zhì)編碼區(qū)的識別是一項十分重要的內(nèi)容。通過訓練已知蛋白質(zhì)的正負樣本，可確定識別標準，從而預(yù)測未知序列。隨著基因識別算法的發(fā)展，對序列編碼能力的尺度的衡量是基因識別算法中最重要的內(nèi)容。但是，在實際應(yīng)用中，對于原核生物基因的識別仍然存在不足。在提取過程中，重要的部分是參量，選擇的參量應(yīng)當恰當有效，同時，具有明確的統(tǒng)計學意義和生物學意義，并且具有足夠高的識別率。在實際應(yīng)用中，利用氨基酸不均勻度能夠達到96.5%的識別率，GC含量的增加能夠有效提升識別率。在不均勻度中發(fā)現(xiàn)了很多參量，例如密碼子不均勻度、堿基不均勻度等，這些都能達到較高的識別率。其中，堿基含量不均勻度能夠達到97.8%的識別率。而采用Bayes判別法、Fisher判別法等均能夠達到不錯的識別率。對于生成負樣本，可通過隨機兩兩交換基因堿基一萬次、直接利用基因間序列、生成[0，3]的隨機數(shù)等方法加以實現(xiàn)。采用這種方法識別蛋白質(zhì)編碼區(qū)，能夠達到95%以上的識別率。

3 自訓練原核生物基因識別

近年來，隨著模式生物基因組、人來基因組的大規(guī)模測序，產(chǎn)生了大量未注釋DNA序列。因此，為了自動注釋原始序列，需要采用準確、快速的算法。在基因識別中，主要的問題是正確識別給定基因組的基因范圍，以及其在基因組序列中的具體位置。目前，常用的基因識別方法是基于序列比對方法。這種方法基于同源蛋白質(zhì)，具有相似的基因結(jié)構(gòu)，是對其與已知基因未知序列相似性的比對進行判斷和識別。不過，這種方法的局限性是顯而易見的，一旦遇到不具有相近親緣關(guān)系的新物種，這種方法就不能適用。所以，可采用自訓練方法識別原核生物基因，也就是從頭計算方法。在這種方法下，可以考慮基因結(jié)構(gòu)保守性的特點，通過分析已知基因結(jié)構(gòu)的特征，提取其中的信息參量，并基于相應(yīng)理論模型設(shè)計算法，從而實現(xiàn)對原核生物基因的識別。

在基因識別中，除了原核基因識別以外，還包括真核基因識別，只是原核基因的結(jié)構(gòu)更為簡單，所以，識別原核生物基因意義更為重要。在識別原核生物基因時，ORF篩選是一項重要的工作，通過下載到某物種序列，尋找正反鏈中起始于TTG、GTG、ATG，終止于TGA、TAG、TAA的，長度在300 bp以上的，是3的倍數(shù)的ORF，共得到6個相位。在ORF的篩選中，排除非基因的ORF，并找出訓練集，訓練一組參量，識別篩選后的ORF。在篩選過程中，主要采用的方法有去短留長、信息熵相乘、出現(xiàn)頻率、錯位方差、堿基平均自信息、氨基酸自信息量等。

4 結(jié)束語

生物信息學是目前十分重要的學科之一，其包含了很多相關(guān)學科的知識和內(nèi)容。原核生物基因識別作為生物信息學中的一個重要問題，近年來，通過不斷的研究，取得了較大的進展。在識別過程中，F(xiàn)isher是常用的判別方法。基于此識別蛋白質(zhì)編碼區(qū)，并用自訓練方法識別原核生物基因，有良好的效果。

參考文獻

[1]杜武英，黃江，胡旭初，等.豬帶絳蟲乳酸脫氫酶基因的序列分析、克隆表達和免疫學分析[J].中國人獸共患病學報，2010（03）：246-251.

[2]郝志敏，申珅，李志勇，等.玉米大斑病菌Stga-2及其啟動子的克隆與基因表達分析[J].中國農(nóng)業(yè)科學，2010（18）：3705-3712.

[3]謝兆輝，曾強成，沈亮，等.真核生物翻譯過程中的mRNA質(zhì)量控制[J].生物化學與生物物理進展，2013（01）：22-29.

[4]朱叢睿，周明旭，朱國強.大腸埃希菌內(nèi)參基因gapA克隆表達及抗體的制備與應(yīng)用[J].揚州大學學報（農(nóng)業(yè)與生命科學版），2015（02）：14-18.

〔編輯：白潔〕

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

原核生物基因識別問題的相關(guān)分析