杜耀華 倪青山 王正志
摘要:?jiǎn)?dòng)子預(yù)測(cè)是研究基因轉(zhuǎn)錄調(diào)控的重要環(huán)節(jié),但現(xiàn)有算法的預(yù)測(cè)正確率偏低。在深入分析啟動(dòng)子生物特征的基礎(chǔ)上,提出了一種基于支持向量機(jī)的枯草桿菌啟動(dòng)子預(yù)測(cè)算法,在啟動(dòng)子序列的組成特征、信號(hào)特征和結(jié)構(gòu)特征中選取9種典型特征作為預(yù)測(cè)的依據(jù),對(duì)于信號(hào)特征,除了利用保守模式的一致序列,還考慮了間隔距離的分布信息。首先通過特征描述模型分別計(jì)算每種特征在啟動(dòng)子序列和非啟動(dòng)子序列中的得分,將特征得分組合成9維特征向量,再利用支持向量機(jī)在特征向量集上進(jìn)行訓(xùn)練和判別。對(duì)實(shí)際數(shù)據(jù)集進(jìn)行的刀切法測(cè)試驗(yàn)證了算法的有效性。對(duì)σA啟動(dòng)予的預(yù)測(cè),平均正確率達(dá)到了90.7%;對(duì)幾種其它σ因子啟動(dòng)子的預(yù)測(cè),平均正確率也超過了80%。算法不但有廣泛的適用性,還有良好的可擴(kuò)展性,能夠方便的容納新特征,使識(shí)別性能不斷提高。
關(guān)鍵詞:枯草桿菌;啟動(dòng)子預(yù)測(cè);組合特征;支持向量機(jī);刀切法
中圖分類號(hào):Q527
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1007—7847(2005)04—0319—08