孫華 張燕 施偉
摘要:由于miRNA的復(fù)雜性,只在調(diào)控時(shí)袁征出來,因此對于miRNA的識別工作難度很大。事實(shí)上,在miRNA分類問題中,有多種分類方法,如支持向量機(jī)、馬爾科夫鏈模型、非負(fù)矩陣分解、KNN算法等,該文對前期研究報(bào)告中用到的分類方法做比較,找出各類方法的特點(diǎn)及使用環(huán)境,為后續(xù)研究做準(zhǔn)備。
關(guān)鍵詞:miRNA;支持向量機(jī);馬爾科夫鏈模型;非負(fù)矩陣分解;KNN算法
miRNA是真核生物中的一組內(nèi)源性非編碼序列RNA分子,個(gè)體很小,只有不到24m,因?yàn)殡y被發(fā)現(xiàn),所以也被稱為真核生物體內(nèi)的“暗物質(zhì)”。但它能在細(xì)胞發(fā)育、生物細(xì)胞的凋亡與增殖,器官形成過程中起重要作用,具備調(diào)控功能。因此,miRNA的研究對疾病防治以及生物進(jìn)化等都具有重要意義。也因此有越來越多的生物學(xué)家對miRNA在各種疾病的診斷和治療等方面的應(yīng)用寄予了極高的期望。對于miRNA的識別主要有兩個(gè)階段:尋找有效的特征選擇方法一尋找分類效率高的分類器。以下就對目前研究識別工作的分類器進(jìn)行一一比較。
1支持向量機(jī)(SVM)方法
發(fā)現(xiàn)miRNA的方法主要有計(jì)算預(yù)測和eDNA克隆測序兩種,支持向量機(jī)(SVM)法已經(jīng)被廣泛應(yīng)用在miRNA預(yù)測中,通過合理的特征提取與編碼,SVM分類器可以達(dá)到較高的分類精度,但以往的模型通過單物種的miRNA序列或前體序列建立模型,在對其他物種的預(yù)測中分類精度往往會有所降低,并且沒有形成一套從前體結(jié)構(gòu)預(yù)測到成熟miRNA預(yù)測的完整流程。2012年孫超等人基于支持向量機(jī)分類算法的番茄miRNA預(yù)測,利用SVM方法構(gòu)建sly_pre_SVM模型和sly_SVM模型,并以已發(fā)現(xiàn)的miRNA特征為基礎(chǔ),預(yù)測番茄前體miRNA序列和成熟miRNA序列。研究miRNA特征向量的編碼、miRNA特征選擇和參數(shù)的優(yōu)化。從測試集的分類精度、敏感性和特異性上看,分別達(dá)到99.69%、100%和99.66%。
另外,馬靜等人基于數(shù)據(jù)不平衡的方法預(yù)測miRNA,文中提出了綜合SVM-RFE和RelieW兩種特征的選擇方法,在每次迭代過程中,參照特征的評價(jià)標(biāo)準(zhǔn),利用ReliefF算法計(jì)算的特征權(quán)重值,同時(shí),利用SVM-RFE算法刪除冗余特征,并對特征子集的樣本集合使用K折交叉驗(yàn)證方法,最終從準(zhǔn)確率最高的集合中選擇最優(yōu)特征子集。
2隱馬爾科夫鏈(HMM)模型
高松等人研究指出,傳統(tǒng)的HMM方法最大的優(yōu)點(diǎn)是有可靠的概率統(tǒng)計(jì)理論,但也存在缺陷,如一階HMM無法表示遠(yuǎn)距離的依賴關(guān)系,從而忽略了部分有用的統(tǒng)計(jì)特征。因此,他們提出采用高階HMM方法,并對方法做出改進(jìn),提出“前向一后向”算法和Baum-Weleh訓(xùn)練算法使得模型更易于理解和實(shí)現(xiàn)。
劉麗云等人研究針HMM,指出高階馬爾科夫鏈模型存在維數(shù)多和存儲量大的缺點(diǎn),并提出可變長的馬爾科夫鏈模型,用于預(yù)測可趨近交互位點(diǎn)的算法。該算法通過比對原miRNA和可趨近性的miRNA位點(diǎn),從而形成具有二聚體的新序列。新序列中對不同的堿基配采用不同的符號,以代表不同類型。再用可變長HMM模擬新序列,并在概率后綴樹上加入平滑化技術(shù)改進(jìn)模型。通過比較正、負(fù)分類上新序列概率的大小判斷新序列所屬類別。
Wei Shen等人提出基于二級結(jié)構(gòu)模式的固定階馬爾可夫模型方法對mieroRNA進(jìn)行預(yù)測,建立了一個(gè)閥桿凸出間隙符號描述發(fā)夾的二級結(jié)構(gòu),成功地從發(fā)夾序列直接實(shí)現(xiàn)了成熟miRNAs的全功能識別。
3非負(fù)矩陣分解算法
2013年尤燕玲等人利用非負(fù)矩陣分解算法和粒子群優(yōu)化算法對miRNA與基因的互作關(guān)系展開了深入的探索。他們的研究得出了50對新的miRNA與基因互作關(guān)系對,并對這50個(gè)關(guān)系對的生物學(xué)意義做部分闡述。具體做法是:在給定的基因與基因互作數(shù)據(jù),及已知的miRNA與基因互作關(guān)系上,同時(shí)用收斂圖檢測算法的收斂有效性;同時(shí),考慮到非負(fù)矩陣分解算法在對miRNA與基因整合時(shí),并沒有注意到基因與miRNA互作關(guān)系的生物學(xué)統(tǒng)計(jì)意義。因此,引入粒子群優(yōu)化算法,對非負(fù)矩陣分解算法中的目標(biāo)函數(shù)參數(shù)值進(jìn)行優(yōu)化,并以miRNA與基因數(shù)據(jù)矩陣的皮爾森系數(shù)值作適應(yīng)值。
4混合分類器
2016年梅端等人提出一種改進(jìn)的SVM算法對miRNA表達(dá)譜的分析,文章提出了一種新的數(shù)據(jù)挖掘算法——SVM-KNN.該算法的思想是:首先采用統(tǒng)計(jì)量法對該數(shù)據(jù)集進(jìn)行特征初選,其次將融合了支持向量機(jī)和k-最近鄰判別法思想的SVM-KNN算法作為分類器,最后輸出分類結(jié)果,SVM-KNN分類器的分類效果,比分另4單獨(dú)運(yùn)行SVM-KNN分類器和SVM-KNN分類器的分類效果都要好㈣。
5小結(jié)
miRNA的研究仍有許多問題需要解決,目前所采用的支持向量機(jī)、馬爾科夫鏈模型、非負(fù)矩陣分解、KNN算法等熱點(diǎn)分類方法,在識別過程中起著重要作用,但仍然有很多不足,如數(shù)據(jù)的單一值特征選取,生物數(shù)據(jù)庫的基因組、代謝基因組、蛋白質(zhì)組數(shù)據(jù)多特征分類,還有很大的研究空間。