国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

斑馬魚piRNA預(yù)測(cè)方法的研究

2017-07-25 14:05:49劉立婷臧鴻雁劉秀芹
中國(guó)科技縱橫 2017年12期
關(guān)鍵詞:支持向量機(jī)預(yù)測(cè)

劉立婷++臧鴻雁++劉秀芹

摘 要:本文主要討論斑馬魚piRNA的預(yù)測(cè)方法。本文通過選取恰當(dāng)?shù)陌唏R魚piRNA特征,使用SVM方法訓(xùn)練正訓(xùn)練集和負(fù)訓(xùn)練集,然后利用5-fold交叉驗(yàn)證去預(yù)測(cè)正負(fù)測(cè)試集。完成上述工作后,使用Python語言進(jìn)行編程,模擬理論研究成果,使用測(cè)試集進(jìn)行預(yù)測(cè),得到敏感性為83.2%,特異性為74.6%,預(yù)測(cè)精度為78.9%。

關(guān)鍵詞:斑馬魚piRNA;支持向量機(jī);預(yù)測(cè)

中圖分類號(hào):Q74 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2017)12-0251-01

2006年7月,雜志Science和Nature均報(bào)道了一種最新發(fā)現(xiàn)的非編碼類小RNA[1],這些非編碼類小RNA主要分布于哺乳動(dòng)物的生殖細(xì)胞中,經(jīng)科學(xué)家們研究發(fā)現(xiàn),這種小RNA可以與PIWI蛋白質(zhì)之間相互結(jié)合而產(chǎn)生重大作用,被稱為piRNA。經(jīng)過多年的研究,研究人員發(fā)現(xiàn)piRNA可以調(diào)控哺乳動(dòng)物體內(nèi)生殖細(xì)胞的生長(zhǎng)和發(fā)育進(jìn)程,從而對(duì)各種生物體產(chǎn)生重要作用[2]。因此,piRNA的預(yù)測(cè)能夠促進(jìn)人們對(duì)piRNA生成過程和結(jié)構(gòu)特點(diǎn)的認(rèn)識(shí),進(jìn)一步研究piRNA的結(jié)構(gòu)特點(diǎn)和功能特點(diǎn),對(duì)腫瘤的診斷和治療,對(duì)新藥的研發(fā)提供了重要的科學(xué)理論依據(jù)。

1 數(shù)據(jù)來源

由于斑馬魚基因與人類基因的相似度程度高,而且容易獲取大數(shù)量的實(shí)驗(yàn)數(shù)據(jù),這樣可以有效的減少時(shí)間消耗和實(shí)驗(yàn)成本,提高預(yù)測(cè)精度。

根據(jù)本文的研究目的選擇斑馬魚piRNA序列作為正集,斑馬魚非編碼序列作負(fù)集,因?yàn)槭褂猛晃锓N的基因序列可以避免由于不同物種之間的同源性差所造成的結(jié)果偏差,提高預(yù)測(cè)精度。從http://www.regulatoryrna.org/database/piRNA/download.html下載斑馬魚piRNA序列,共1330692條。從http://www.noncode.org/download.php上下載了12836條斑馬魚非編碼序列。

2 訓(xùn)練集與測(cè)試集

本文正集和負(fù)集序列均為1500條,這個(gè)數(shù)字是作者任意選取的,當(dāng)然,可以通過多次試驗(yàn)選取最合適的樣本條數(shù)。

從斑馬魚piRNA序列中隨機(jī)選擇1500條序列作為正集,其中2/3的序列(即1000條序列)作為訓(xùn)練集,剩余的1/3序列(即500條序列)作為測(cè)試集。從斑馬魚非編碼序列中隨機(jī)選擇1500條序列作為負(fù)集,其中2/3的序列作為訓(xùn)練集,剩余的1/3序列作為測(cè)試集。使用python編程統(tǒng)計(jì)了正集序列的長(zhǎng)度為17-36,因此為了提高預(yù)測(cè)精度,負(fù)集序列的長(zhǎng)度應(yīng)該也在此范圍內(nèi)。所以,編程實(shí)現(xiàn)了從負(fù)集的非編碼序列中隨機(jī)截取相似程度的序列作為試驗(yàn)中用到的負(fù)集。

3 特征的提取

使用軟件Teiresias提取訓(xùn)練集的特征。選項(xiàng)選擇為“Exact Discovery”,“Seq Version”和“Only nucleic acid characters”。經(jīng)多次試驗(yàn),參數(shù)選擇為L(zhǎng)=2,W=5,K=600,它表示1000條序列中有共同特征的至少有600條序列,長(zhǎng)度最大為5的motifs中至少有兩個(gè)核苷酸[3]。

從訓(xùn)練集的正集中共提取出了59條特征,從訓(xùn)練集負(fù)集中共提取出了62條特征。去除提取出的motifs特征中的冗余特征后剩余62條特征,如特征“T..A”,“T”和“A”分別表示胸腺嘧啶和腺嘌呤,“T”和“A”之間的“.”表示任意核苷酸。

計(jì)算每個(gè)motif在每條序列中出現(xiàn)的頻數(shù),構(gòu)成了一個(gè)特征矩陣,如(3,0,1,2,1,3,1,4,2,1,2,0,2,2,0,0,2,2,1,2,1,2,1,0,0,0,3,0,1,3,2,2,4,2,1,2,0,1,0,1,2,3,0,2,1,1,0,3,1,1,1,2,0,0,1,1,0,0,1,1,0,0)為其中某一條序列的特征向量,其中第一個(gè)元素“3”表示在該序列中第一個(gè)特征“TG”的個(gè)數(shù),第二個(gè)元素為第二個(gè)特征“TA”在該序列中的個(gè)數(shù),之后的數(shù)字依次類推。

4 訓(xùn)練和預(yù)測(cè)

在網(wǎng)址http://www.csie.ntu.edu.tw/~cjlin/libsvm/oldfiles/上下載libsvm。

首先,統(tǒng)計(jì)訓(xùn)練集中每條序列的motifs頻數(shù),使用python編程將統(tǒng)計(jì)的motifs頻數(shù)轉(zhuǎn)換成libsvm所接受的特征矩陣的形式,然后使用libsvm軟件包中的svm-scale.exe對(duì)訓(xùn)練集特征矩陣train.txt進(jìn)行標(biāo)準(zhǔn)化處理,對(duì)測(cè)試集進(jìn)行同樣的標(biāo)準(zhǔn)化處理。

本文使用的訓(xùn)練函數(shù)為RBF核函數(shù)。因?yàn)檫@個(gè)核函數(shù)可以非線性的映射到高維空間中,能夠處理類標(biāo)簽和屬性是非線性時(shí)的關(guān)系,并且線性核函數(shù)是RBF的一個(gè)特殊情況。使用libsvm tools目錄下的grid.py來選擇參數(shù),選擇結(jié)果為=512。0,=0。00390625,它的交叉驗(yàn)證率為77.35%。使用得到的最佳參數(shù)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,然后使用該訓(xùn)練模型對(duì)標(biāo)準(zhǔn)化后的測(cè)試集進(jìn)行預(yù)測(cè)。經(jīng)預(yù)測(cè),得到了測(cè)試集的預(yù)測(cè)結(jié)果為78.9%。

5 特異性和靈敏性

使用SVM訓(xùn)練訓(xùn)練集得到了預(yù)測(cè)模型來預(yù)測(cè)測(cè)試集中的序列,由于測(cè)試集中的序列分類是已知的,因此,本文使用已知分類和預(yù)測(cè)得到的分類結(jié)果求得特異性為74.6%,靈敏性為78.9%。

特異性表明500條斑馬魚非編碼序列被預(yù)測(cè)正確的概率是74.6%,靈敏性表明500條斑馬魚piRNA序列中被預(yù)測(cè)正確的概率是78.9%。預(yù)測(cè)精度為特異性和靈敏性的平均值,表示整個(gè)測(cè)試集中序列被預(yù)測(cè)正確的概率。

6 結(jié)語

本文使用高斯核函數(shù)(RBF)建立了一個(gè)斑馬魚piRNA的分類模型,由于斑馬魚piRNA序列和斑馬魚非編碼序列之間具有不同的特征,因此使用motifs特征可以識(shí)別斑馬魚piRNA序列和非編碼序列。然后統(tǒng)計(jì)訓(xùn)練集中每條序列中motifs的頻數(shù),構(gòu)成特征矩陣。使用支持向量機(jī)對(duì)訓(xùn)練集和測(cè)試集進(jìn)行分類和預(yù)測(cè),得到的預(yù)測(cè)精度為78。9%,其中特異性為74.6%,敏感性為83.2%。特異性和靈敏性結(jié)果表明,在提取特征過程中,負(fù)集的特征提取不完善,如果想要得到更高的預(yù)測(cè)精度,就需要提取盡可能多的特征。

參考文獻(xiàn)

[1]Aravin A,Gaidatzis D,Pfeffer S,et al. A novel class of small RNAs bind to MILI protein in mouse testes[J]. Nature,2006,442(7099):203-207.

[2]郭艷合,劉立,蔡榮,等.小 RNA 家族的新成員—piRNA[J].遺傳,2008,30(1):28-34.

[3]Liu X,He S,Skogerb G,et al. Integrated sequence-structure motifs suffice to identify microRNA precursors[J]. PloS one,2012,7(3):e32797.

猜你喜歡
支持向量機(jī)預(yù)測(cè)
無可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2—2期中考試預(yù)測(cè)卷(A卷)
不可預(yù)測(cè)
不必預(yù)測(cè)未來,只需把握現(xiàn)在
基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
基于SVM的煙草銷售量預(yù)測(cè)
動(dòng)態(tài)場(chǎng)景中的視覺目標(biāo)識(shí)別方法分析
論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
大竹县| 长汀县| 大城县| 舒兰市| 呼伦贝尔市| 毕节市| 金乡县| 城口县| 溧水县| 吴川市| 专栏| 绥中县| 丹江口市| 绥德县| 本溪市| 高邮市| 新化县| 会泽县| 镇康县| 鄢陵县| 嘉义市| 错那县| 静宁县| 公安县| 明光市| 深水埗区| 刚察县| 东莞市| 望江县| 聂拉木县| 枣阳市| 明星| 沭阳县| 嘉鱼县| 柳江县| 清水县| 嘉义县| 清水河县| 如东县| 文化| 腾冲县|