国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于遺傳算法酵母核小體定位性質預測

2019-07-05 09:43郭亞茹豐繼華于華崢黃月月
生物信息學 2019年2期
關鍵詞:波谷遺傳算法性質

郭亞茹, 豐繼華, 于華崢,牟 錦, 黃月月,劉 珂

(云南民族大學 電氣信息工程學院, 昆明 650504)

真核細胞內普遍存在著兩種定位性質不同的核小體:即定位良好和定位模糊的核小體。二者的區(qū)別在于,定位良好的核小體包裝DNA平均長度為147 bp左右,而定位模糊的核小體包裝DNA長度不定。盡管隨著生物實驗技術的進步和成本的下降,不同物種的核小體定位數據在不斷產生,但現階段完全依靠實驗方法檢測核小體定位性質還面臨著以下問題:(1)生物種類繁多,用實驗方法檢測所有生物的核小體位置是一項不可能完成的任務。(2)生物實驗需要大量的人力、物力和時間投入,其成本和時效性是一大制約因素。(3)雖然現階段實驗數據的規(guī)模和豐富程度給核小體相關研究提供了極大支持,但仍不能滿足部分研究人員希望即時獲得自身關注領域數據的現實要求。因此,在基因組研究的某些領域使用計算機建模并進行預測,是對生物實驗研究的有力補充,甚至是現階段一項不可替代的工作。

對于核小體定位性質(定位良好與定位模糊)一般是根據生物實驗數據進行研究的。Gan等人[1]于2014年首次從結構角度研究了核小體定位特征和模糊核小體性質,提出了一種基于連續(xù)小波變換(CWT)的核小體位置預測新方法(WaveNuc)。

研究表明,基因的轉起始位點周圍通常存在著一個保守的核小體缺失區(qū)域(NFR)[2-4],而在其上、下游區(qū)域的核小體則呈現出周期性排列[5-11]。我們根據現有核小體分布規(guī)律,對基因組轉錄起始位點周圍的核小體分布建立了一個高精度復合正弦模型,并在前人所做的核小體位置預測工作基礎上[12],以該分布模型作為遺傳算法的尋優(yōu)目標函數,以確定不同性質核小體分布中心及相鄰區(qū)域,最終實現對局部核小體定位性質的預測。

1 建立分布模型

在使用遺傳算法進行核小體定位性質預測之前,需要構建一個能真實反映核小體分布的數學模型。由于目前在核小體研究領域還未解決全基因組范圍內定位良好和定位模糊核小體的分布問題。面對這一難題,我們首先注意到一個普遍事實,即無論是單細胞的酵母,還是多細胞的果蠅,甚至是屬于高等哺乳動物的人類,其核小體在基因啟動子周圍的組織形式都是高度保守和近似的[13](見圖1)。

1.1 數據來源

酵母轉錄起始位點的核小體分布圖譜來源于Lee等人于2007年做出的酵母核小體高分辨率占位率實驗數據[20]。基因的轉錄起始位點據來源于David等人提出的4 792個高置信度轉錄數據[21]。

圖1 酵母轉錄起始位點的核小體分布圖譜Fig.1 Nucleosome distribution map of yeast transcription initiation site

1.2 擬合函數的選取

為了提取核小體組織形式,我們分別對多項式、傅里葉級數、高斯函數和正弦函數的擬合效果進行了比較。以上四種擬合方式實驗結果如圖2所示,其中(a)、(b)、(c)、(d)分別代表多項式擬合、傅里葉擬合、高斯擬合和正弦函數擬合。

圖2 四種擬合函數對比圖Fig 2 Comparison of four fitting functions

在圖2的擬合結果中,多項式擬合精度最低(圖2(a))。傅里葉擬合圖像與核小體分布圖像具有一定的相似性(圖2(b)),但是位于轉錄起始點下游的區(qū)域擬合未能捕獲原分布特征,即在遠離轉錄起始位點兩端的區(qū)域擬合程度較差。圖2(c)是高斯函數擬合的結果,在轉錄區(qū)域高斯函數擬合的相似性較高,但在轉錄起始位點上游區(qū)域擬合誤差最大。

圖2(d)使用的是正弦函數進行的擬合,擬合圖像幾乎與實測核小體分布圖譜完全重合,僅在上游區(qū)域遠離TSS的區(qū)域存在擬合誤差。

表1列出了五種擬合函數的性能指標。分別是:和方差(SSE)、擬合優(yōu)度(Rsquare)、標準差(Rmse)、自由度(Dfe)及校正決定系數(Adjrsquare)。其中,和方差和標準差越接近于0,說明擬合出的數據與原始分布數據越相似。

而擬合優(yōu)度與校正決定系數越接近于1時,擬合的效果越好。通過比較,可知使用正弦函數擬合的核小體分布圖效果最好。

本文采用的復合正弦函數為:

(1)

對上述擬合模型擬合后得到的最優(yōu)參數見表2。

表1 四種擬合函數性能指標(酵母)Table 1 Performance indicators of four fitting functions (Yeast)

表2 正弦擬合函數參數列表(酵母)Table 2 List of sine fitting function parameters (Yeast)

2 核小體性質預測

在前人所做的核小體位置預測的基礎上[12],我們利用遺傳算法尋找分布模型中的極值點,其代表兩種不同性質核小體的分布中心。

具體方法:(1)首先隨機產生200個個體作為初始種群,為了簡化計算,使用的是常規(guī)二進制編碼。(2)在遺傳算子的選擇上,交叉算子選用均勻交叉,變異算算子采用離散變異算法。我們測試后發(fā)現交叉概率選取區(qū)間為[0.7,0.9],變異率選取[0.001,0.1],遺傳算法無論在收斂速度上,還是精度上都達到了實驗預期。結果見表3和表4。

獲得表3和表4所示的分布中心后,我們將按以下假設判別個體基因上的核小體定位性質:

(1)轉錄起始位點周圍核小體分布譜的波峰中心及其鄰近區(qū)域,是定位良好核小體的最可能出現的范圍。如果支持向量機預測到核小體可能出現的區(qū)域與其重合,且連續(xù)范圍達到120-160 bp左右,可判別為定位良好的核小體。

(2)相反,如果核小體分布譜的波谷中心及其鄰近區(qū)域與核小體預測區(qū)域重合,且連續(xù)范圍大于160 bp,則可判斷為定位模糊的核小體。

表3 遺傳算法搜索到的波峰位置Table 3 Veak position searched by genetic algorithm

表4 遺傳算法搜索到的波谷位置Table 4 Valley location found by genetic algorithm

圖3是示意了在轉錄起始位點(TSS)上下游各取1 000 bp的區(qū)域,通過擬合函數辨識出定位良好核小體和模糊核小體的分布中心,其中黑色橢圓代表定位良好的核小體最可能出現的位置,藍色為定位模糊的核小體最可能出現的位置。從總體辨識結果觀察,定位良好核小體和模糊核小體在轉錄起始點周圍區(qū)域遵循著“間隔平均,交替出現”的規(guī)律。

圖3中,分布模型曲線中的藍色陰影區(qū)域表示核小體缺失區(qū)域(NFR),波峰對應定位良好的核小體,波谷對應定位模糊的核小體。

將單個基因上預測到可能存在核小體的區(qū)域與模板進行比對,當波峰區(qū)域與存在核小體區(qū)域重疊時,可以認為這一區(qū)域有較高概率出現定位良好的核小體;反之,當波谷區(qū)域與存在核小體區(qū)域重疊,那么表明這一區(qū)域有較高概率出現定位模糊的核小體;如果模板中無論是波峰還是波谷區(qū)域均不存在核小體時,那么可以認為這些區(qū)域是連接DNA。

圖3 轉錄起始位點周圍核小體預測示意圖Fig.3 Schematic diagram of nucleosome prediction around the transcription start site

根據上述方法,我們繪制了核小體定位性質預測示意圖(見圖4),圖中最上端是預測模板,(a)、(b)、(c)、(d)分別代表是第三條染色體上,隨機選取的4個基因(YCL027W、YCL040W、YCR054W和YCR066W)的轉錄區(qū)域,藍色區(qū)域是由支持向量機根據DNA物理性質預測到的核小體可能出現的區(qū)域。圖4中,通過擬合函數波峰與波谷周圍構成的預測模板,將基因劃分為不同的區(qū)域,如果預測到的核小體出現在波峰區(qū)域,且滿足判定條件,可判別為定位良好,而出現在波谷區(qū)域則判別為定位模糊。通過以上方法,可以對全基因組轉錄起始位點周圍的核小體預測結果進行定位性質判別。為了證明以上方法的正確性,我們將不同性質核小體區(qū)域與生物實驗數據做了比較,在此陽性樣本定義為預測區(qū)間內確實出現與該區(qū)間同性質的核小體,反之則為陰性樣本,并使用了以下統(tǒng)計指標[23]:真陽性(TP),假陽性(FP),真陰性(TN),假陰性(FN),

真樣本靈敏度:Sn+=TP/(TP+FN)

(2)

負樣本靈敏度:Sn-=TN/(TN+FP)

(3)

真樣本特異度:Sp+=TP/(TP+FP)

(4)

負樣本特異度:Sp-=TN/(TN+FN)

(5)

(6)

馬修斯相關系數:

MCC=

(7)

預測的四種基因的性能指標如表5所示。

圖4 核小體預測性質定位示意圖Fig.4 Schematic diagram of nucleosome prediction properties

性能指標YCL027WYCL040WYCL040WYCR066WTP489489479480FP80918187TN205194204198FN69697978Sn+(%)87.687.685.886.0Sn-(%)71.968.071.569.4Sp+(%)85.984.385.584.6Sp-(%)74.873.772.071.7Ac(%)82.381.081.080.4MCC(%)60.256.957.556.0AUC(%)78.9975.3377.0276.12

實驗結果顯示陽性樣本所占比例即準確率(Ac)均以超過80%,說明此預測方法有效。圖5為ROC曲線。

由圖5看出四種基因的ROC曲線的得分均大于0.75,進一步說明預測結果具有統(tǒng)計意義,實現了核小體的性質判別,達到了預期的準確率和實驗目的。

圖5 四種基因的預測結果ROC曲線圖Fig.5 ROC graph of prediction results of four genes

3 結 語

根據轉錄起始位點核小體分布先驗知識,建立擬合函數后,利用遺傳算法搜索極值,確定出核小體定位性質劃分模板,可有效辨別出定位良好和模糊的核小體位置。通過結果分析,證明了我們的方法在局部區(qū)域是行之有效的,是對模糊核小體預測工作進行的一次有益嘗試。

猜你喜歡
波谷遺傳算法性質
板厚與波高對波紋鋼管涵受力性能影響分析
隨機變量的分布列性質的應用
梅緣稻
完全平方數的性質及其應用
九點圓的性質和應用
基于遺傳算法的智能交通燈控制研究
厲害了,我的性質
一種基于遺傳算法的聚類分析方法在DNA序列比較中的應用
基于音節(jié)時間長度高斯擬合的漢語音節(jié)切分方法
基于改進的遺傳算法的模糊聚類算法
竹溪县| 资源县| 惠水县| 上饶市| 台北县| 浦城县| 内黄县| 涟源市| 衡东县| 六枝特区| 民乐县| 汾西县| 阜城县| 泰兴市| 宝清县| 襄汾县| 波密县| 潮州市| 通化市| 密云县| 聂拉木县| 开远市| 通城县| 灵石县| 北川| 石门县| 忻州市| 资兴市| 景东| 汕尾市| 吉木萨尔县| 图木舒克市| 安阳市| 钟山县| 博乐市| 公主岭市| 新民市| 隆林| 凭祥市| 建阳市| 台东县|