趙潔苑, 龔云路, 王翼飛
(上海大學(xué) 理學(xué)院,上海 200444)
基于M iRf ilter系統(tǒng)的毛果楊 m iRNA預(yù)測(cè)
趙潔苑, 龔云路, 王翼飛
(上海大學(xué) 理學(xué)院,上海 200444)
從參數(shù)訓(xùn)練、參數(shù)范圍訓(xùn)練、候選成熟體打分等方面改進(jìn) miRNA預(yù)測(cè)系統(tǒng)M iRfilter,使其適應(yīng)擁有更長(zhǎng)前體的植物miRNA的預(yù)測(cè).預(yù)測(cè)毛果楊基因組上的 miRNA,并對(duì)系統(tǒng)進(jìn)行精度檢驗(yàn).利用M iRfilter系統(tǒng)共預(yù)測(cè)出 3 860條候選 miRNA;在 110個(gè)正樣本中,正確識(shí)別 91條前體和 80條成熟體,前體預(yù)測(cè)精度為 82.73%,成熟體預(yù)測(cè)精度為 72.73%;在毛果楊第 4號(hào)染色體 (LG_Ⅳ)上得到的 1 968個(gè)負(fù)樣本中,有 12個(gè)數(shù)據(jù)可認(rèn)為是 miRNA,假陽(yáng)性率為0.61%.
植物 miRNA;M iRfilter;毛果楊基因組;一類分類法;K-最近鄰分類器 (KNN)
Abstract:Thispaper improves theMiRfilter system by parameter,range of parameter and score in mature miRNAs in order to predict miRNAs in plants.We predict miRNAs in Populus trichocarpa genome and use itspositive and negative samples to examine the accuracy of MiRfilter’sp rediction.M iRfilter predicts 3 860 Populus trichocarpa miRNA candidates in all.It correctly identifies91 p recursors and 80 matures in 110 positive samp les.Accuracies of the precursor and mature prediction reach 82.73%and 72.73%,respectively.We find 12 false positive miRNA s from 1 968 negative samp les in LG_Ⅳchromosome,and the false positive rate reaches0.61%.
Key words:plant miRNA;MiRfilter;Populus trichocarpa genome;one-class methods;K-nearest neighbor(KNN)
miRNA是一類長(zhǎng)度約為 20~24 nt(少數(shù)小于20 nt)的內(nèi)源性非編碼調(diào)控單鏈小分子 RNA,由一段具有發(fā)夾結(jié)構(gòu)的單鏈 RNA前體 (pre-miRNA)剪切后生成.成熟的 miRNA 5′端為單磷酸基,3′端為羥基,通過(guò)與其靶 mRNA分子的 3′端非編碼區(qū)域 (3′-untranslated region,3′UTR)互補(bǔ)匹配來(lái)抑制該mRNA分子的翻譯.miRNA基因以單拷貝、多拷貝或基因簇等多種形式存在于基因組中,而且絕大部分定位于基因間隔區(qū).miRNA在生物體中的基因表達(dá)具有進(jìn)化保守性、時(shí)序性和組織特異性等特點(diǎn),顯示了其在控制個(gè)體發(fā)育、決定細(xì)胞命運(yùn)和分化中的特定功能[1].到 2009年 2月為止,miRBase(http:∥microrna.sanger.ac.uk/cgi-bin/sequences/)數(shù)據(jù)庫(kù)已發(fā)布了 8 619種 miRNA.
除一些基本特征外,植物 miRNA和動(dòng)物miRNA有明顯區(qū)別[2-5].植物 miRNA前體比動(dòng)物的更長(zhǎng)、更復(fù)雜,通常為數(shù)百核苷酸;不同于動(dòng)物 miRNA的加工來(lái)自于蛋白質(zhì)編碼基因內(nèi)含子,大部分植物miRNA前體產(chǎn)生于其自身的轉(zhuǎn)錄單元;植物 miRNA以單基因形式為多,基因簇內(nèi)的 miRNA排列也相對(duì)較松散;植物 miRNA的靶序列還包括蛋白質(zhì)編碼區(qū)[2].研究植物 miRNA的功能可以通過(guò)以下兩種方法:①導(dǎo)入抗miRNA的靶基因或上調(diào) miRNA的表達(dá),分析植物出現(xiàn)的表型變化;②用生化與分子生物學(xué)方法,如 cDNA末端快速擴(kuò)增 (rapid amplification of cDNA ends,RACE)技術(shù),測(cè)定 miRNA指導(dǎo)下靶mRNA剪切反應(yīng)的精確位點(diǎn)[2].研究表明,植物miRNA主要通過(guò)以下 3種途徑來(lái)調(diào)節(jié)基因的表達(dá):①通過(guò)堿基間互補(bǔ)配對(duì)直接結(jié)合于靶基因 mRNA上,從而導(dǎo)致靶基因的特異性剪切;②miRNA介導(dǎo)的翻譯阻遏;③miRNA介導(dǎo)的翻譯沉默[4].由此可見(jiàn),植物miRNA的正常表達(dá)是植物正常生長(zhǎng)發(fā)育所必需的,它所調(diào)節(jié)的靶基因控制著植物生長(zhǎng)發(fā)育的各個(gè)方面,包括根、葉、花等形態(tài)發(fā)生、細(xì)胞分化、疏導(dǎo)組織形成等,也在調(diào)節(jié)植物對(duì)環(huán)境脅迫如干旱、鹽害和養(yǎng)分脅迫反應(yīng)等方面起著重要的作用[2-3].
miRNA可以通過(guò) cDNA克隆測(cè)序的方法加以識(shí)別.一些實(shí)驗(yàn)室已經(jīng)建立了不同組織、不同發(fā)育時(shí)期或不同生長(zhǎng)條件下的 miRNA基因文庫(kù).然而,真核生物組織中有些 miRNA的豐度較低,其表達(dá)又具有時(shí)序性和組織特異性,使得克隆法分離 miRNA十分困難.通過(guò)計(jì)算預(yù)測(cè)miRNA成為miRNA發(fā)現(xiàn)的一個(gè)有效方法,該方法以基因組序列和計(jì)算機(jī)程序鑒定為基礎(chǔ)進(jìn)行科學(xué)預(yù)測(cè)和鑒定,彌補(bǔ)了 cDNA克隆測(cè)序方法中的不足.根據(jù)計(jì)算預(yù)測(cè)方法的本質(zhì),可分為以下 5種[6]:同源片段搜索方法、基于比較基因組學(xué)的預(yù)測(cè)方法[7-8]、基于序列和結(jié)構(gòu)特征打分的預(yù)測(cè)方法[9]、結(jié)合作用靶標(biāo)的預(yù)測(cè)方法、基于機(jī)器學(xué)習(xí)的預(yù)測(cè)方法[10-11].
MiRfilter系統(tǒng)是本實(shí)驗(yàn)室自主開(kāi)發(fā)的一個(gè)用于預(yù)測(cè)miRNA的自動(dòng)化軟件,不依賴物種的同源性,僅根據(jù)物種已知 miRNA的固有信息進(jìn)行預(yù)測(cè),屬于基于序列和結(jié)構(gòu)特征打分的預(yù)測(cè)方法,在病毒miRNA識(shí)別中具有良好的預(yù)測(cè)精度[12].然而,由于植物 miRNA的序列結(jié)構(gòu)特征較病毒來(lái)說(shuō)更為多樣和復(fù)雜,直接使用M iRfilter系統(tǒng)進(jìn)行預(yù)測(cè)的效果并不理想.為了使MiRfilter系統(tǒng)能夠適應(yīng)植物 miRNA的預(yù)測(cè),本研究從參數(shù)訓(xùn)練、參數(shù)范圍訓(xùn)練、候選成熟體打分等方面對(duì)系統(tǒng)進(jìn)行改進(jìn),并應(yīng)用于毛果楊(Populus trichocarpa)的 miRNA預(yù)測(cè).
1.1 M iRf ilter系統(tǒng)簡(jiǎn)介
M iRfilter系統(tǒng)的預(yù)測(cè)步驟層次分明,整個(gè)過(guò)程分為 4個(gè)階段[12]:①在預(yù)測(cè)之前,對(duì)待測(cè)物種的基因組序列及已知 miRNA序列進(jìn)行預(yù)處理;②根據(jù)預(yù)處理后的訓(xùn)練集界定訓(xùn)練參數(shù)和參數(shù)范圍;③對(duì)預(yù)測(cè)區(qū)域作二級(jí)結(jié)構(gòu)模擬,從中提取合格的發(fā)夾結(jié)構(gòu);④根據(jù)訓(xùn)練得到的參數(shù)范圍,從合格的發(fā)夾結(jié)構(gòu)中篩選候選miRNA成熟體序列和前體序列.系統(tǒng)具體流程如圖1所示.
圖1 M iRf ilter系統(tǒng)流程圖Fig.1 Flow char t of the M iRf ilter system
1.2 M iRf ilter系統(tǒng)改進(jìn)
1.2.1 參數(shù)訓(xùn)練
在前體參數(shù)中,由于植物前體長(zhǎng)度跨度較大,預(yù)測(cè)出的前體與miRBase數(shù)據(jù)庫(kù)給出的前體在序列兩端可能存在一定的差異,該差異會(huì)同時(shí)影響最小自由能的數(shù)值,使依賴于前體長(zhǎng)度和自由能這兩個(gè)參數(shù)的MFEL[13]參數(shù)變化過(guò)大.用MFEL篩選前體,有時(shí)會(huì)將已知的 miRNA前體排除出去.因此,本研究去掉MFEL參數(shù),另外增加 3個(gè)新參數(shù),即定位前體(不包括發(fā)夾結(jié)構(gòu)尾部的前體,如圖2所示)的長(zhǎng)度、莖區(qū)配對(duì)個(gè)數(shù)以及它們的比值,使篩選不受前體序列兩端差異的影響,提高預(yù)測(cè)精度;還統(tǒng)計(jì)了兩條莖上配對(duì)堿基的個(gè)數(shù),以此替代原來(lái)用于判斷合格發(fā)夾結(jié)構(gòu)的標(biāo)準(zhǔn)——18 nt.
圖2 m iRNA前體二級(jí)結(jié)構(gòu)示意圖(ptc-M IR156a發(fā)夾結(jié)構(gòu))Fig.2 Pre-m iRNA stem-loop(ptc-M IR 156a ha irp in structure)
在成熟體參數(shù)中,miRNA序列的首字母特征明顯,傾向于以 U開(kāi)始[2],因此,本研究添加成熟體序列首字母參數(shù),作為參與成熟體打分的一個(gè)變量;補(bǔ)充成熟體所在臂參數(shù)、發(fā)夾環(huán)與成熟體之間的配對(duì)堿基個(gè)數(shù)、成熟體與前體尾端之間的距離,這些參數(shù)與原有的發(fā)夾環(huán)與成熟體之間的距離參數(shù)一起界定候選成熟體在前體上的位置.
另外,本研究增加了一組成熟體互補(bǔ)序列參數(shù),包括互補(bǔ)序列的長(zhǎng)度、最大內(nèi)環(huán)大小、平均內(nèi)環(huán)大小、內(nèi)環(huán)個(gè)數(shù).這些參數(shù)能更好地反映成熟體互補(bǔ)序列本身的序列結(jié)構(gòu)特征,以及成熟體序列與其在結(jié)構(gòu)上的對(duì)稱性質(zhì).
最終,本研究確定以下三類描述 miRNA前體及成熟體特征的參數(shù).
(1)前體參數(shù):H1為前體序列長(zhǎng)度 (Prelen);H2為發(fā)夾環(huán)大小 (Hplen);H3為發(fā)夾結(jié)構(gòu)最小自由能(Energy);H4為前體莖區(qū)配對(duì)堿基個(gè)數(shù) (paNum);H5為定位前體序列長(zhǎng)度 (MarPrelen);H6為定位前體莖區(qū)配對(duì)堿基個(gè)數(shù) (MarPaNum);H7為定位前體莖區(qū)配對(duì)堿基個(gè)數(shù)與其長(zhǎng)度之比 (MarPAPL=MarPaNum/MarPrelen).
(2)成熟體參數(shù):M1為成熟體序列長(zhǎng)度(Marlen);M2為成熟體序列首字母 (Marst1);M3為成熟體序列中 C+G含量 (cgCon);M4為成熟體序列在發(fā)夾結(jié)構(gòu)中的位置,即左臂或右臂 (Arm);M5為發(fā)夾環(huán)與成熟體之間的距離 (Dist1);M6為發(fā)夾環(huán)與成熟體之間的配對(duì)堿基個(gè)數(shù)(Dist1P);M7為成熟體與前體尾端之間的距離 (Dist2);M8為發(fā)夾結(jié)構(gòu)莖區(qū)內(nèi)成熟序列中不配對(duì)堿基的個(gè)數(shù) (upNum);M9為發(fā)夾結(jié)構(gòu)莖區(qū)內(nèi)成熟序列的兩端處不配對(duì)堿基的個(gè)數(shù)(TerUpNum);M10為發(fā)夾結(jié)構(gòu)莖區(qū)內(nèi)成熟序列中最大內(nèi)環(huán)的大小(InlpMax);M11為發(fā)夾結(jié)構(gòu)莖區(qū)內(nèi)成熟序列中內(nèi)環(huán)的平均大小 (InlpAvg);M12為發(fā)夾結(jié)構(gòu)莖區(qū)內(nèi)成熟序列中內(nèi)環(huán)的個(gè)數(shù)(InlpNum).
(3)成熟體互補(bǔ)序列參數(shù):P1為成熟體互補(bǔ)序列長(zhǎng)度(Parlen);P2為發(fā)夾結(jié)構(gòu)莖區(qū)內(nèi)成熟體互補(bǔ)序列中最大內(nèi)環(huán)的大小 (Par InlpMax);P3為發(fā)夾結(jié)構(gòu)莖區(qū)內(nèi)成熟體互補(bǔ)序列中內(nèi)環(huán)的平均大小(Par InlpAvg);P4為發(fā)夾結(jié)構(gòu)莖區(qū)內(nèi)成熟體互補(bǔ)序列中內(nèi)環(huán)的個(gè)數(shù)(Par InlpNum).
1.2.2 參數(shù)范圍訓(xùn)練
在對(duì) 1.2.1節(jié)參數(shù)進(jìn)行范圍界定時(shí),依然采用按總數(shù)據(jù)量的 3%刪除最大或最小參數(shù)值的方法.根據(jù)每個(gè)參數(shù)的實(shí)際意義選擇適合的刪除原則,使得到的范圍更具有針對(duì)性.具體可分為以下 4種情況:
(1)同時(shí)刪除最大值和最小值,得到一個(gè)范圍,適合一般參數(shù),包括 H1,H2,H4,H5,H6,H7,M3,M7,P1.
(2)只刪除最大值,得到一個(gè)范圍,適合一般認(rèn)為參數(shù)值越小越好的參數(shù),包括 H3,M8,M9,M10,M11,M12,P2,P3,P4.
(3)取中位數(shù),適合只需用一個(gè)均值描述整體的參數(shù),包括M1(使用中位數(shù)是為了避免再次取整).
(4)將左臂和右臂作為兩類分別統(tǒng)計(jì),適合在這兩類中范圍相差較大的參數(shù),避免其中一類范圍擴(kuò)大,包括 M5,M6.
表 1列出了毛果楊各參數(shù)的范圍.
1.2.3 M iRNA預(yù)測(cè)
本研究根據(jù)修改后的新參數(shù)調(diào)整了預(yù)測(cè)前體和成熟體的篩選標(biāo)準(zhǔn).在最后預(yù)測(cè)成熟體的過(guò)程中,一個(gè)候選前體上可能會(huì)有多個(gè)符合標(biāo)準(zhǔn)的成熟體被保留下來(lái).為此,引入一個(gè)打分機(jī)制,為每一個(gè)候選前體上預(yù)測(cè)出的成熟體打分,從中挑選出得分最佳的成熟體作為該前體的候選成熟體.具體打分方法采用最近鄰一類分類法.
一般而言,兩類分類法 (two-classmethods)需要考慮正樣本和負(fù)樣本兩組數(shù)據(jù),通過(guò)一定的算法學(xué)習(xí)這兩類樣本,從而構(gòu)建一個(gè)能夠區(qū)分它們的分類器.使用兩類分類法識(shí)別miRNA,是將已知的miRNA作為正樣本的同時(shí),還需要人為地構(gòu)造一組非miRNA的負(fù)樣本數(shù)據(jù).但是負(fù)樣本的選擇具有一定的難度,如果選出的負(fù)樣本并不適合,就會(huì)顯著影響分類器的表現(xiàn)或者產(chǎn)生巨大誤差.另一方面,一類分類法 (one-class methods)只需要考慮目標(biāo)類 (正樣本)的信息,就可以構(gòu)建一個(gè)能夠識(shí)別目標(biāo)類樣本并丟棄其他非目標(biāo)類樣本的分類器,避免了人為構(gòu)造負(fù)樣本數(shù)據(jù)[14].因此,在無(wú)法確定負(fù)樣本的情況下,采用一類分類法識(shí)別新的miRNA.
最近鄰一類分類法(one-class K-nearest neighbor classifier,OC-KNN)是一種修正了已知的最近鄰兩類分類法,使其只學(xué)習(xí)正樣本數(shù)據(jù)的分類方法[14].該算法存儲(chǔ)所有的訓(xùn)練樣本(正樣本)y,將其作為鄰居集;對(duì)于一個(gè)給定的測(cè)試樣本 z,計(jì)算 z到鄰居集中所有鄰居 y的距離 d(z,y);將 k個(gè)最近鄰居距離的平均值作為 z的得分,當(dāng)?shù)梅譂M足一定條件時(shí),將z歸為目標(biāo)類.
在實(shí)際應(yīng)用中,將已知的 miRNA作為訓(xùn)練樣本y,將預(yù)測(cè)出的 miRNA作為測(cè)試樣本 z,每個(gè)樣本包含成熟體及其互補(bǔ)序列的序列參數(shù)和結(jié)構(gòu)參數(shù),即H7,M2,M3,M8,M9,M10,M11,M12,P1,P2,P3,P4共12個(gè)變量;取 k=1,保留滿足以下打分公式的測(cè)試樣本:
式中,d(z,y)采用歐拉距離,且變量在計(jì)算之前先標(biāo)準(zhǔn)化;N(z)為測(cè)試樣本 z所在的候選前體上所有預(yù)測(cè)出的miRNA的個(gè)數(shù);閾值δ可根據(jù)已知 miRNA的得分進(jìn)行選取.在每個(gè)候選前體上選取得分最低的,即與已知 miRNA相似度最高的成熟體,將其作為該候選前體的候選成熟體.表 2列出了毛果楊各條染色體選取的δ值.
表 1 毛果楊參數(shù)范圍Table 1 Ranges of Populus trichocarpa’s param eter s
表 2 毛果楊各染色體δ值Table 2 δof Populus trichocarpa’s each chrom osom e
1.3 數(shù)據(jù)集
本研究使用改進(jìn)的MiRfilter系統(tǒng)在毛果楊基因組序列中預(yù)測(cè)miRNA,并根據(jù)預(yù)測(cè)結(jié)果對(duì)該系統(tǒng)的預(yù)測(cè)精度進(jìn)行檢驗(yàn).毛果楊基因組 19對(duì)染色體 4.8億個(gè)堿基的測(cè)序工作已于 2004年 9月 21日完成,這是林木上第一個(gè)、植物上繼擬南芥和水稻之后第三個(gè)進(jìn)行基因組測(cè)序的物種[15],其基因組序列 (版本 1.1)及相關(guān)注釋文件可從楊樹(shù)基因網(wǎng)站 JGI(http://www.jgi.doe.gov/poplar/)上獲得.毛果楊已知的 miRNA數(shù)據(jù)取自 miRBase數(shù)據(jù)庫(kù) (2008年 8月).本研究保留 19對(duì)染色體中前體二級(jí)結(jié)構(gòu)只含有一個(gè)發(fā)夾環(huán)、成熟體長(zhǎng)度為 21 nt的 miRNA序列,共 110條前體上的 110條成熟體,將其作為正樣本數(shù)據(jù);負(fù)樣本數(shù)據(jù)選用在毛果楊第 4號(hào)染色體 (LG_Ⅳ)的外顯子部分中預(yù)測(cè)出的 1 968條可能的成熟體.
1.4 評(píng)價(jià)標(biāo)準(zhǔn)
對(duì)于每一個(gè)測(cè)試樣本,只可能屬于以下 4種類型之一:正確識(shí)別的正樣本 TP、正確識(shí)別的負(fù)樣本TN、本來(lái)是負(fù)樣本卻被識(shí)別為正樣本 (假陽(yáng)性樣本)FP、本來(lái)是正樣本卻被識(shí)別為負(fù)樣本 (假陰性樣本)FN.用 N表示樣本總數(shù),Q表示總預(yù)測(cè)精度,QP表示正樣本的預(yù)測(cè)精度,QN表示負(fù)樣本的預(yù)測(cè)精度,FPR表示假陽(yáng)性預(yù)測(cè)率,FNR表示假陰性預(yù)測(cè)率,MCC表示Matthew相關(guān)系數(shù),分別定義如下[12]:
本研究在毛果楊非外顯子序列中預(yù)測(cè)出 3 860條成熟體,對(duì)應(yīng) 3 860條前體;在 110個(gè)正樣本中正確識(shí)別出 91條已知前體和 80條已知成熟體,前體預(yù)測(cè)精度達(dá) 82.73%,成熟體預(yù)測(cè)精度達(dá) 72.73%,表 3為各條染色體的預(yù)測(cè)情況.在未被識(shí)別出的 30個(gè)miRNA中,有 16個(gè) miRNA的前體已被預(yù)測(cè)出來(lái),但由于存在得分更低的成熟體序列而被排除;有14個(gè)miRNA因沒(méi)有預(yù)測(cè)出其前體而被排除,表 4列出了未被成功識(shí)別出的毛果楊 miRNA.根據(jù)毛果楊第 4號(hào)染色體的閾值δ,對(duì) 1 968個(gè)負(fù)樣本數(shù)據(jù)進(jìn)行篩選,最終有 12個(gè)數(shù)據(jù)被認(rèn)為是 miRNA,假陽(yáng)性率為 0.61%,具體假陽(yáng)性數(shù)據(jù)見(jiàn)表 5.表 6為改進(jìn)后的M iRfilter系統(tǒng)具體的預(yù)測(cè)精度.
表 3 毛果楊各染色體的預(yù)測(cè)結(jié)果和預(yù)測(cè)精度Table 3 Pred iction resultsand accuracy of Populus trichocarpa’s each chromosome
序列分析發(fā)現(xiàn),病毒 miRNA之間的序列相似性很低,很少存在同源序列.對(duì)于很多病毒而言,它們只存在進(jìn)化距離很遠(yuǎn)的直系同源成員.類似的問(wèn)題也發(fā)生在高等真核生物中.迄今為止,具有完整基因組序列且與擬南芥進(jìn)化距離相對(duì)最近的物種是水稻,而水稻與擬南芥基因組早在 2億年前就已經(jīng)分化.具有完整基因組序列且與人類進(jìn)化距離相對(duì)最近的物種是黑猩猩,而黑猩猩與人類的基因組也早在 4百萬(wàn)年前就已經(jīng)分化[6].因此,不依賴序列保守性的 M iRfilter系統(tǒng)適用于各種生物的miRNA預(yù)測(cè),它是發(fā)現(xiàn)非同源、物種特異 miRNA的有效途徑.
表 4 未成功識(shí)別的 m iRNATable 4 Un identif ied m iRNAs
雖然小分子的 miRNA可能以幾乎任意序列存在,其前體發(fā)卡環(huán)形的二級(jí)結(jié)構(gòu)和它在前體的位置卻呈現(xiàn)出十分固定的特點(diǎn),可以說(shuō),相對(duì)于序列間的相似性,miRNA更具備結(jié)構(gòu)上的相似性[2].改進(jìn)M iRfilter的時(shí)候,更注重加強(qiáng) miRNA結(jié)構(gòu)信息的描述.在 23個(gè)訓(xùn)練參數(shù)中,有 4個(gè)序列參數(shù)和 19個(gè)結(jié)構(gòu)參數(shù);在 12個(gè)用于打分的變量中,也只有 2個(gè)與序列信息有關(guān).對(duì) miRNA結(jié)構(gòu)特征的關(guān)注使得M iRfilter可以在不搜索同源片段的情況下仍然表具有良數(shù)好據(jù)的預(yù)測(cè)精度.
Table 5 False positivem iRNAs
表 6 M iRf ilter系統(tǒng)預(yù)測(cè)精度Table 6 Pred iction accuracy of M iRf ilter
雖然制定了嚴(yán)格的篩選標(biāo)準(zhǔn)來(lái)降低假陽(yáng)性率,仍然會(huì)得到大量的預(yù)測(cè)結(jié)果,為了確認(rèn)其中的 miRNA,需要進(jìn)行實(shí)驗(yàn)驗(yàn)證.目前,miRNA的實(shí)驗(yàn)檢測(cè)方法主要有:RNA印跡 (Northem blot)、實(shí)時(shí)熒光定量 PCR(real-time PCR)、芯片技術(shù) (microarray)等[16].每種方法都有其優(yōu)缺點(diǎn),可以相互結(jié)合進(jìn)行檢測(cè).
miRNA的確定需要計(jì)算預(yù)測(cè)和實(shí)驗(yàn)檢測(cè)共同完成.像M iRfilter這樣的計(jì)算預(yù)測(cè)工具可以從海量的數(shù)據(jù)中篩選出合理的潛在對(duì)象,彌補(bǔ)實(shí)驗(yàn)方法效率低、成本高的缺點(diǎn),已然成為實(shí)驗(yàn)檢測(cè)不可或缺的前提條件.
[1] 華友佳,肖華勝.microRNA研究進(jìn)展 [J].生命科學(xué),2005,17(3):278-281.
[2] 金由辛.核糖核酸與核糖核酸組學(xué)[M].北京:科學(xué)出版社,2005:106-133.
[3] 王磊,范云六.植物微小 RNA(microRNA)研究進(jìn)展[J].中國(guó)農(nóng)業(yè)科技導(dǎo)報(bào),2007,9(3):18-23.
[4] 李培旺,盧向陽(yáng),李昌珠,等.植物 microRNA s研究進(jìn)展 [J].遺傳,2007,29(3):283-288.
[5] DUGAS D V,BARTEL B.M icroRNA regulation of gene expression in plants[J]. Current Opinion in Plant Biology,2004,7(5):512-520.
[6] 侯妍妍,應(yīng)曉敏,李伍舉.M icroRNA計(jì)算發(fā)現(xiàn)方法的研究進(jìn)展[J].遺傳,2008,30(6):687-696.
[7] GLAZOV E A,COTTEE P A,BARRISW C,et al.A microRNA catalog of the developing chicken embryo identified by a deep sequencing app roach[J].Genome Research,2008,18(6):957-964.
[8] RITCHIEW,THEODULE FX,GAUTHERETD.M ireval:a web tool for simple microRNA p rediction in genome sequences[J].Bioinformatics,2008,24(11):1394-1396.
[9] WANG X J,REYES J L,CHUA N H,et al.Prediction and identification of Arabidopsis thaliana microRNAs and theirmRNA targets[J].Genome Biology,2004,5(9):R65.
[10] XUE C H,L I F,HE T,et al.Classification of real and pseudo microRNA p recursors using local structuresequence features and support vector machine[J].BMC Bioinformatics,2005,6:310.
[11] HERTEL J,STADLER P F.Hairp ins in a Haystack:recognizing microRNA precursors in comparative genomics data[J].Bioinformatics,2006,22(14):197-202.
[12] 張玉濱.基于生物信息學(xué)方法預(yù)測(cè) microRNA的研究[D].上海:上海大學(xué),2007:36-49.
[13] 陳薇,譚軍,何晨.植物 miRNAs前體的生物信息分析[J].重慶郵電學(xué)院學(xué)報(bào):自然科學(xué)版,2006,18(6):803-808.
[14] YOUSEFM,JUNG S,SHOWE L C,et al.Learning from positive examples when the negative class is undetermined-microRNA gene identification [J].Algorithms for Molecular Biology,2008,3:2.
[15] 甘四明,蘇曉華.林木基因組學(xué)研究進(jìn)展 [J].植物生理與分子生物學(xué)學(xué)報(bào),2006,32(2):133-142.
[16] 王旭丹.M icroRNA檢測(cè)方法的發(fā)展現(xiàn)狀[J].國(guó)際內(nèi)科學(xué)雜志,2007,34(11):679-682.
(編輯:劉志強(qiáng))
Pred iction of Populus trichocarpa m iRNAs w ith Im proved M iRf ilter System
ZHAO Jie-yuan, GONG Yun-lu, WANG Yi-fei
(College of Sciences,Shanghai University,Shanghai200444,China)
O 224
A
1007-2861(2010)04-0397-07
10.3969/j.issn.1007-2861.2010.04.014
2009-02-20
國(guó)家自然科學(xué)基金資助項(xiàng)目 (30871341);上海市重點(diǎn)學(xué)科建設(shè)資助項(xiàng)目 (S30104);上海市教委重點(diǎn)學(xué)科建設(shè)資助項(xiàng)目(J50101)
王翼飛 (1948~),男,教授,博士生導(dǎo)師,研究方向?yàn)橛?jì)算分子生物學(xué).E-mail:yifei_wang@staff.shu.edu.cn