国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于支持向量機(jī)的供體剪接位點(diǎn)識別

2018-10-20 17:43:17曾瑩
數(shù)碼設(shè)計(jì) 2018年12期
關(guān)鍵詞:內(nèi)含子供體堿基

曾瑩

摘要:剪接位點(diǎn)識別是基因識別中的關(guān)鍵環(huán)節(jié)。本文對待測樣本采用0/1編碼,以表征各位置上的堿基,并結(jié)合堿基二聯(lián)體出現(xiàn)的頻次,最后采用支持向量機(jī)( SVM)進(jìn)行分類決策。HS3D數(shù)據(jù)集上的仿真結(jié)果顯示,本方法獲得的預(yù)測精度為92.84%。

關(guān)鍵詞:剪接位點(diǎn);基因識別;支持向量機(jī)( SVM);0/1編碼

中圖分類號:Q271

文獻(xiàn)標(biāo)識碼:A

文章編號:1672 - 9129(2018)12 - 0082 - 01

引言:隨著人類基因組計(jì)劃的實(shí)施,基因組序列數(shù)據(jù)呈指數(shù)增長。如何解讀人類基因組,挖掘其背后隱藏的信息,是一個(gè)迫切需要解決的問題?;蜃R別基因組注釋的核心任務(wù)之一,旨在采用生物學(xué)實(shí)驗(yàn)或計(jì)算機(jī)手段識別DNA序列中的基因。絕大多數(shù)真核基因是不連續(xù)結(jié)構(gòu),由外顯子和內(nèi)含子交替組成,其中,外顯子是編碼蛋白質(zhì)的序列片段,內(nèi)含子是非編碼蛋白質(zhì)的序列片段。外顯子和內(nèi)含子的邊界即為剪接位點(diǎn),內(nèi)含子的5端起始堿基為CT,稱作供體剪接位點(diǎn),3端起始堿基為AC,稱作受體剪接位點(diǎn)。因此,準(zhǔn)確識別剪接位點(diǎn),能夠精準(zhǔn)定位基因外顯子的邊界,對于真核生物基因識別起著至關(guān)重要的作用。盡管99%的剪接位點(diǎn)遵循“CT - AC”規(guī)則,但這種強(qiáng)保守性并不能有效檢測剪接位點(diǎn),因?yàn)樵贒NA序列的非剪接位點(diǎn)上還存在著大量GT/AG,因此,剪接位點(diǎn)識別可以看成一個(gè)二分類問題。本文主要研究基于機(jī)器學(xué)習(xí)方法的供體剪接位點(diǎn)識別。

1 數(shù)據(jù)及其預(yù)處理

實(shí)驗(yàn)數(shù)據(jù)源自HS3D( home sapiens splice sites dataset)數(shù)據(jù)集。我們從該數(shù)據(jù)集中選取2796個(gè)真實(shí)供體位點(diǎn)作為正樣本,并隨機(jī)抽取2796個(gè)虛假供體位點(diǎn)作為負(fù)樣本。所有樣本均為140個(gè)堿基長度(即140bp)的序列,其中第1~70個(gè)堿基為外顯子序列,第70~140個(gè)堿基屬于內(nèi)含子,而保守位點(diǎn)CT則位于第71、72位。

本文將序列中保守GT的位置設(shè)為00,上游區(qū)域位置分別標(biāo)記為-l,-2,…,- 70,下游區(qū)域位置則記為l,2,…,68。對樣本序列中的每個(gè)位置,分別構(gòu)建一張24的列聯(lián)表,以統(tǒng)計(jì)該位置上的四種堿基在正負(fù)樣本中出現(xiàn)頻次,然后計(jì)算各個(gè)位置對應(yīng)的卡平方值,由于序列-3~+5、+7、+8、+10位的卡平方值高于其他位點(diǎn)卡平方值的平均值,考慮到窗口的連續(xù)性,我們最終確定序列長度為8bp(-3~ +5,不含00位),后續(xù)實(shí)驗(yàn)均基于8bp供體位點(diǎn)序列。

2 特征提取

對序列長度為8bp的各個(gè)樣本,首先將其每個(gè)位置上的A,C,G,T四種堿基分別按:A - 0001,C- 0010,G- 0100,T- 1000進(jìn)行編碼;然后,分別提取16個(gè)堿基二聯(lián)體(即二聯(lián)體AA,AT,AC--)在序列中出現(xiàn)的頻次。這樣,對任一個(gè)序列樣本,可得到一個(gè)48維(8 x4+16)特征向量。

3 基于SVM的分類決策

SVM能夠解決小樣本、高維數(shù)、非線性、過擬合及局部最小等問題,在生物信息、圖像識別等問題中得到了廣泛應(yīng)用。本文采用LIBSVM作為分類器,其核函數(shù)固定為徑向基核,參數(shù)c、g自動搜索獲取。

4 實(shí)驗(yàn)結(jié)果

在HS3D數(shù)據(jù)集(2796/2796個(gè)正/負(fù)樣本)上,采用10折交叉測試進(jìn)行驗(yàn)證,即將數(shù)據(jù)集均分為10份,每次使用其中的9份進(jìn)行訓(xùn)練,余下的l份進(jìn)行測試,重復(fù)10次,最后將10次測試的精度均值作為最終結(jié)果,即敏感性( Sensitivity,SN)為0.9233、特異性(Specificity,sP)為0.9335、準(zhǔn)確度( Accuracy,ACC)為0.9284。

參考文獻(xiàn):

[1]馬猛,汪洋.應(yīng)用序列特征分析基因剪接信號[J].計(jì)算機(jī)工程與應(yīng)用,2012,48( 27):180 - 185.

[2] Li J L,Wang L F,Wang H Y, et al.High - accuracy splice siteprediction hased on sequence, component and position features[J]. Cenetics&Molecular Research 2012. 11(3):3432 - 51.

[3]李琴,張瑾,駢聰?shù)?基于位置關(guān)聯(lián)權(quán)重矩陣及序列組分的多樣性增量識別剪接位點(diǎn)[J].生物物理學(xué)報(bào)2014,30(5):391 -400.

[4] Meher P.Sahu T,Rao A, et al.A statistical approach for 5'splicesite prediction using short sequence motifs and without encoding sequence data[J].BMC Bioinformatics 2014, 15(1):1- 14.

猜你喜歡
內(nèi)含子供體堿基
線粒體核糖體蛋白基因中內(nèi)含子序列間匹配特性分析
應(yīng)用思維進(jìn)階構(gòu)建模型 例談培養(yǎng)學(xué)生創(chuàng)造性思維
中國科學(xué)家創(chuàng)建出新型糖基化酶堿基編輯器
不同方向內(nèi)含子對重組CHO細(xì)胞中神經(jīng)生長因子表達(dá)的影響
生命“字母表”迎來4名新成員
生命“字母表”迎來4名新成員
更 正
內(nèi)含子的特異性識別與選擇性剪切*
不同氫供體對碳納米管負(fù)載鈀催化劑催化溴苯脫溴加氫反應(yīng)的影響
高齡供體的肝移植受者生存分析
双江| 资源县| 磐安县| 博爱县| 修武县| 宿迁市| 马公市| 东安县| 柏乡县| 和田市| 大宁县| 恭城| 庐江县| 金川县| 沽源县| 萍乡市| 齐河县| 武宁县| 五莲县| 南雄市| 衡东县| 明光市| 灯塔市| 木里| 宜君县| 谷城县| 株洲县| 常熟市| 波密县| 南丹县| 瓦房店市| 洛隆县| 铁岭市| 周宁县| 永川市| 五大连池市| 涿鹿县| 闸北区| 甘南县| 吴桥县| 明光市|