?
基于生物信息學方法挖掘奶山羊miRNAs研究
曲波,甄貞,仇有文,袁肖寒,王春梅
(東北農業(yè)大學生命科學學院,哈爾濱150030)
摘要:microRNAs(miRNAs)是長約22 nt的內源非編碼小分子RNA,在轉錄后基因調控中發(fā)揮重要作用。奶山羊是具有重要經濟價值的產乳動物,有關奶山羊miRNAs研究相對匱乏,識別和鑒定新的奶山羊miRNA至關重要。文章以與奶山羊高度同源的綿羊基因組為參考數(shù)據(jù)庫,應用生物信息學方法得到101條新的奶山羊miRNAs序列,并對其進行序列特性分析,為今后基因組信息不全物種的miRNAs挖掘與鑒定提供參考。
關鍵詞:miRNAs;奶山羊;綿羊基因組;生物信息學方法
網(wǎng)絡出版時間2015-1-12 9:53:07
[URL]http://www.cnki.net/kcms/detail/23.1391.S.20150112.0953.007.html
曲波,甄貞,仇有文,等.基于生物信息學方法挖掘奶山羊miRNAs研究[J].東北農業(yè)大學學報, 2015, 46(1): 86-93.
miRNA(microRNA)是一類長約22 nt的內源非編碼小分子RNA,通過與靶基因互補發(fā)揮轉錄后水平的負調控作用,廣泛參與細胞發(fā)育、分化、增殖、凋亡、代謝、腫瘤轉移等多種生物學過程[1]。奶山羊是最早被人類馴化的動物之一,但其基因組測序工作卻遠落后于其他家畜,直到2012年底,山羊基因組序列組裝才初步完成,這也使其miRNAs研究工作極大受限。迄今有關奶山羊miR? NAs研究相對較少,miRBase數(shù)據(jù)庫中尚未收錄相關miRNAs信息[2]。因此,挖掘新的奶山羊miRNAs具有重要理論和現(xiàn)實意義。
盡管山羊基因組序列信息仍不完整,有關奶山羊miRNAs挖掘工作開展,但都以新一代測序為主,集中于乳腺、睪丸、肌肉等組織特異miRNAs的鑒定。本研究應用生物信息學方法,以與奶山羊高度同源的綿羊基因組為參考比對數(shù)據(jù)庫,挖掘新的奶山羊miRNAs,并對其進行序列特性分析,為進一步研究奶山羊miRNAs及其調控機制和功能提供基礎。建立一套適合基因組信息不全的物種miRNAs挖掘及分析方法,對預測、篩選和鑒定其他物種miRNAs具有指導和借鑒意義。
1.1相關數(shù)據(jù)庫
1.1.1本研究涉及的相關數(shù)據(jù)庫
NCBI:http://www.ncbi.nlm.nih.gov;miRBase:http://www.mirbase.org/;
UCSC:http://genome.ucsc.edu。
1.1.2構建miRNAs參考數(shù)據(jù)庫
本研究采用已報道的主要哺乳動物成熟miRNAs序列作為參考數(shù)據(jù)庫。首先從miRBase(Release 20)數(shù)據(jù)庫獲取綿羊(Ovis)、牛(Bos)、豬(Sus)、狗(Canis)、小鼠(Mus)、大鼠(Rat)和人(Homo)等主要哺乳動物miRNAs成熟序列7 127條,去除重復序列后,共得到5 485條非冗余miRNAs序列,作為miRNAs參考數(shù)據(jù)庫。
1.1.3構建綿羊基因組比對數(shù)據(jù)庫
從UCSC數(shù)據(jù)庫獲取綿羊基因組序列(Oar3.1/oviAri3),本地解壓縮,構建比對數(shù)據(jù)庫。
1.2相關應用軟件
1.2.1 Blast
在線版:http://blast.ncbi.nlm.nih.gov/Blast.cgi;
本地版:ftp://ftp.ncbi.nlm.nih.gov/blast/executa?bles/blast+,版本為2.2.28。
1.2.2 RNAFold
在線版:http://rna.tbi.univie.ac.at/cgi-bin/RNA fold. cgi;
本地版: http://rna.tbi.univie.ac.at/,版本為1.8.4。
1.2.3 MiPred
在線版:http://www.bioinf.seu.edu.cn/miRNA/。
1.3奶山羊miRNAs預測流程
根據(jù)miRNAs保守性原則,本研究采用同源搜索方法進行奶山羊miRNAs挖掘篩選,主要流程見圖1。包括①獲取已知主要哺乳動物miRNAs序列,去冗余,構建miRNAs參考數(shù)據(jù)庫;②將miR?NAs參考數(shù)據(jù)庫與綿羊基因組進行本地Blastn比對,字長為7,E值為10;③將與已知miRNAs錯配數(shù)<4的序列提取出來,與非冗余蛋白質數(shù)據(jù)庫進行比對,去除蛋白編碼序列;④在綿羊基因組中,將剩余的候選序列匹配區(qū)域上下游各延伸200 nt,作為候選pre-miRNAs序列;⑤采用RNAFold 1.8.4分析候選pre-miRNAs二級折疊結構,篩選出具有發(fā)夾型二級結構、最小折疊自由能(Minimal fold free energy, MFE)<-15 kcal·mol-1、成熟miRNA序列中至少有16 bp位于前體二級結構中的莖部,且不含有環(huán)或缺口的為最終候選pre-miRNAs序列;⑥采用MiPed對已篩選的候選pre-miRNAs進行篩選驗證,預測模型為隨機森林法(Random forest)。
圖1 奶山羊miRNAs預測流程Fig. 1 Overview of in silico detection of potential miRNAs in dairy goat
2.1奶山羊miRNAs的預測挖掘
按照圖1所示流程,利用miRNA在不同物種間保守性和前體二級結構特點,通過同源片段搜索的方法尋找奶山羊miRNAs,共發(fā)現(xiàn)101條與其他物種同源的miRNAs,結果見表1。
2.1.1綿羊基因組與miRNAs參考數(shù)據(jù)庫比對結果
將含有5 485條非冗余miRNAs序列的參考數(shù)據(jù)庫,應用Blast(2.2.28)本地版與綿羊基因組進行比對,得到53 522條與已知miRNAs序列錯配堿基數(shù)<4、比對長度≥18的候選序列。
2.1.2候選序列中蛋白質編碼序列的去除
將候選序列轉換為bed格式,在UCSC上調取上下游各200 nt作為miRNA前體二級結構分析序列,將這些序列去冗余后,與蛋白數(shù)據(jù)庫比對,去除編碼蛋白序列,得到8 407條候選序列。
2.1.3二級結構預測與MiPed篩選鑒定
采用RNAFold 1.8.4預測候選序列的二級結構,并計算其MFE,共有973條序列滿足篩選條件。這些序列經MiPred進行進一步的預測篩選,結果共得到101條新的miRNAs(見表1)。
部分奶山羊預測miRNAs前體的二級結構見圖2。
表1 奶山羊乳腺miRNA預測結果Table 1 Potential miRNAs of mammary gland in dairy goat
續(xù)表
續(xù)表
圖2 奶山羊miRNAs前體的二級結構Fig. 2 Predicted stem-loop structures of some newly identified pre-miRNAs in dairy goat
2.2奶山羊新miRNAs序列特性分析
近來有關miRNAs挖掘和鑒定的研究中,miRNAs序列特征分析逐漸成為研究重點。本研究也對新預測的奶山羊miRNAs序列特性進行詳細分析,包括序列長度、堿基偏好性、MFE及miRNA家族等方面(見表1、2),進一步驗證miRNAs預測的正確性。
表2 奶山羊pre-miRNAs主要序列特性Table 2 Major sequence characteristics of the newlyidentified pre-miRNAs in dairy goat
2.2.1序列長度與堿基偏好性
從表1、2可知,新預測的101條miRNAs中,成熟miRNAs序列長度在18~27 nt,平均為(22±2)nt;pre-miRNAs序列長度為52~123 nt,平均為(79±10)nt。成熟miRNAs序列中,長度為22 nt的所占比例最高,達41.58%(見圖3A);pre-miRNAs序列中,長度在80~89 nt比例最大,為38.61%(見圖3B)。值得注意的是,有59.41%(60個)miRNAs序列位于pre-miRNAs序列5'端,其余40.59%(41個)miRNAs序列定位于3'端。
一般情況下,動物miRNAs前體序列中4種堿基比例不同。由表2可知,本研究中A、U、G、C含量亦如此。含量最高為A(29.22%±10.73%),其次為U(28.65%±9.32%)和G(24.71%±11.73%),最低為C(17.42%±8.23%)。顯然,新預測的奶山羊miRNAs前體序列中A+U(57.87%±12.48%)含量大大超過G+C(42.13%±12.48%)。此外,A/U和G/C平均值分別為(1.19±0.86)和(1.41±1.04),表明奶山羊miRNAs前體序列中A和G含量要相對高于U 和C。
成熟miRNAs序列各個位置的堿基偏好性也是miRNAs序列特性分析的主要指標之一。由圖4可知,在新預測的奶山羊miRNAs序列中,在首位至第4位,A出現(xiàn)的頻率最高,U最低;在第15~20位,U出現(xiàn)的頻率最高;在第23位之后,C出現(xiàn)的幾率最低。
2.2.2 MFE和MFEI
由表1可知,新預測的奶山羊miRNAs中,MFE在(-20.02~-58.87)kcal·mol-1,平均值為(-34.93± 8.47)kcal·mol-1。MFEI在0.73~2.19,平均(1.12± 0.36)。其中,MFEI>0.85的miRNAs序列比例高達82.18%。
2.2.3 miRNA家族
根據(jù)miRNA家族分類原則和種子序列(Seed sequence)鑒定,新預測的101個奶山羊miRNAs中,共有52條miRNAs分屬于29個miRNA家族(見表1)。其中,miR-2285b家族數(shù)量最多,共有8條新預測的miRNAs。miR-2312家族次之,有5 條miRNAs。
圖3 奶山羊成熟miRNAs(A)和pre-miRNAs(B)序列長度分布Fig. 3 Length distribution of novel mature miRNAs (A) and pre-miRNAs (B) in dairy goat
圖4 奶山羊成熟miRNAs序列各個位置堿基偏好性分布Fig. 4 Distribution of base composition at each position in mature miRNA sequences of dairy goat
3.1奶山羊新miRNAs的預測挖掘
奶山羊是產乳動物,但miRNAs研究相對滯后。直到2012年底,山羊基因組序列組裝才初步完成,該研究整合使用NGS和最新的DNA單分子光學作圖技術,成功克服山羊基因組的組裝難題,提供首個小型反芻動物參考基因組,目前正在進行基因組注釋工作[3]。
miRNAs挖掘鑒定主要有三類方法,①傳統(tǒng)克隆方法,精準度相對較高,但不能檢測低豐度的miRNAs,且需要相對完整的基因組信息;②新一代測序技術(Next-generation sequencing, NGS),實現(xiàn)高通量篩選新的miRNAs,但費用高,需要處理龐大的數(shù)據(jù)流,目前已報道的奶山羊乳腺、睪丸和肌肉等特異miRNAs挖掘均采用此方法[4];③生物信息學方法、高效、應用廣,并為NGS的高通量篩選提供技術保證,已成為尋找和鑒定miRNAs及靶基因的主要方法[5]。
一般認為,山羊與綿羊具有極高同源性(> 90%),只是由于羅伯遜易位造成它們染色體組型出現(xiàn)細微差異[6]。由于目前山羊基因組信息還不完整,本研究以綿羊基因組為參考序列,采用生物信息學方法進行奶山羊miRNAs挖掘,共獲得101條新的奶山羊miRNAs序列。眾所周知,生物信息學方法預測結果都有一定的假陽性[7],在后續(xù)研究中,將對新預測的miRNAs序列進行生物學試驗驗證,進一步鑒定出新的奶山羊miRNAs序列。
Dong等研究表明,山羊與牛同源性比綿羊高[3],但考慮到山羊與綿羊同屬于羊亞科,親緣性可能更近,最終選擇綿羊作為參考基因組。
3.2奶山羊新miRNAs序列特性分析
目前,miRNAs序列特征分析正成為miRNAs鑒定重要指標之一。本研究中,pre- miRNAs平均序列長度為(79±10)nt,并且93.07%序列長度為60~99 nt;成熟miRNAs平均序列長度為(22±2)nt,73.27%序列長度為20~33 nt,這與miRNAs鑒定結果一致,包括豬[8]、綿羊[9]、馬[10]、大豆[11]、玉米[12]等物種。此外,pre-miRNAs前體序列中A+U含量達到57.87%±12.48%,這也使pre-miRNAs二級結構不穩(wěn)定,更易形成RNA誘導沉默復合體(RNA-induced silencing complex, RISC)[10]。
RNA二級結構的穩(wěn)定性決定于其最小折疊自由能(MFE)。通常情況下,MFE越小,RNA越穩(wěn)定。與其他RNA分子相比,pre- miRNAs的MFE值要更小。由于pre-miRNAs的序列長度不同,提出修正的最小折疊自由能(Adjusted minimal fold free energy, AMFE)和MFEI兩個指標,修正序列長度對MFE影響,逐漸成為鑒定pre-miRNAs主要標準[11]。本研究MFE平均值為(-34.93±8.47)kcal·mol-1,MFEI平均為(1.12±0.36),且大部分序列MFEI超過0.85,均符合miRNA二級結構穩(wěn)定性要求,這一結果與Zhou報道一致[8-12]。
miRBase已收錄幾萬條miRNAs序列,普遍存在于從植物、線蟲到人類細胞中,miRNAs在不同物種普遍存在,揭示其在生物進化過程中保守趨勢,高度保守的miRNA在生命活動中發(fā)揮重要調節(jié)作用[13]。miRNAs被分成不同miRNA家族。miRNA家族成員都具有相同的種子序列區(qū),即成熟miR?NA 5'端第2~7位堿基序列[14]。種子序列區(qū)是miR?NAs靶基因識別的主要結合位點,種子區(qū)內一個堿基變化將導致整個miRNA功能改變,因此對新預測miRNAs進行miRNA家族分類至關重要。本研究應用種子區(qū)特征鑒定法,發(fā)現(xiàn)共有52條miRNAs分屬于29個miRNA家族,具體靶基因及功能有待進一步研究。
miRNA生物信息學預測方法根據(jù)pre-miRNA獨特的序列結構特征及保守性原則,依賴于研究物種的基因組信息,對山羊沒有完整參考基因組非模式動物,傳統(tǒng)生物信息學方法有一定困難。本研究以與奶山羊高度同源的綿羊基因組為參考數(shù)據(jù)庫,應用生物信息學方法得到101條新的奶山羊miR?NAs序列,為今后基因組信息不全物種的miRNAs挖掘與鑒定提供參考。在后續(xù)研究中,新miRNAs進行生物學鑒定及靶基因的預測鑒定與功能分析,為奶山羊miRNAs研究提供理論基礎。
[參考文獻]
[1]Bartel D P. MicroRNAs: Genomics, biogenesis, mechanism, and function[J]. Cell, 2004, 116(2): 281-297.
[2]Kozomara A, Griffiths-Jones S. miRBase: Integrating microRNA annotation and deep-sequencing data[J]. Nucleic Acids Res, 2011, 39: 152-157.
[3]Dong Y, Xie M, Jiang Y, et al. Sequencing and automated wholegenome optical mapping of the genome of a domestic goat (Capra hircus)[J]. Nat Biotechnol, 2013, 31(2): 135-141.
[4]金曉露,楊建香,李真,等.乳腺發(fā)育及泌乳相關miRNA研究進展[J].遺傳, 2013, 35(6): 695-702.
[5]Huang Y, Zou Q, Wang S P, et al. The discovery approaches and detection methods of microRNAs[J]. Mol Biol Rep, 2011, 38(6): 4125-4135.
[6]Kaftanovskaya H M, Serov O L. High-resolution GTG-banded chromosomes of cattle, sheep, and goat: A comparative study[J]. J Hered, 1994, 85(5): 395-400.
[7]Mendes N D, Freitas A T, Sagot M F. Current tools for the identifi?cation of miRNA genes and their targets[J]. Nucleic Acids Res, 2009, 37(8): 2419-2433.
[8]Zhou B, Liu H L. Computational identification of new porcine mi?croRNAs and their targets[J]. Anim Sci J, 2010, 81(3): 290-296.
[9]Barozai M Y. The novel 172 sheep (Ovis aries) microRNAs and their targets[J]. Mol Biol Rep, 2012, 39(5): 6259-6266.
[10]Zhou M, Wang Q, Sun J, et al. In silico detection and characteris?tics of novel microRNA genes in the Equus caballus[J]. Genomics, 2009, 94(2): 125-131.
[11]Frazier T P, Zhang B. Identification of plant microRNAs using ex?pressed sequence tag analysis[J]. Methods Mol Biol, 2011, 678: 13-25.
[12]Zhang B H, Pan X P, Cox S B, et al. Evidence that miRNAs are different from other RNAs[J]. Cell Mol Life Sci, 2006, 63(2): 246-254.
[13]Friedman R C, Farh K K, Burge C B, et al. Most mammalian mRNAs are conserved targets of microRNAs[J]. Genome Res, 2009, 19(1): 92-105.
[14]Lewis B P, Burge C B, Bartel D P. Conserved seed pairing, often flanked by adenosines, indicates that thousands of human genes are microRNA targets[J]. Cell, 2005, 120: 15-20.
Qu Bo, Zhen Zhen, Qiu Youwen, et al. In silico detection and characteristics of miRNAs in dairy goat[J]. Journal of Northeast Agricultural University, 2015, 46(1): 86-93. (in Chinese with English abstract)/QU Bo,
In silico detection and characteristics of miRNAs in dairy goat
ZHEN Zhen, QIU Youwen, YUAN Xiaohan, WANG Chunmei
(School of Life Sciences, Northeast Agricultural University, Harbin 150030, China)
Abstract:microRNAs (miRNAs) are a large class of endogenous non-coding small RNAs that average 22 nucleotides (nt) in length, which play important roles in post-transcriptional gene regulation because they can negatively regulate gene expression. Dairy goat is a milk producing animal with economic importance. The studies on miRNAs in dairy goat are relatively lack and then detecting and identifying the new miRNAs of dairy goat is very important. In this study, 101 miRNAs of dairy goat were obtained using bioinformatics approach based on sheep genome, which was highly homologous with goat. Finally, detailed analysis of sequence characteristics in novel miRNAs of goat were carried out. This study would provide a reference for further identification of miRNAs in animals without complete genome.
Key words:miRNAs; dairy goat; sheep genome; bioinformatics approach
作者簡介:曲波(1977-),男,副研究員,博士,研究方向為泌乳生物學與乳腺功能調控。E-mail: qb5172@neau.edu.cn
基金項目:國家自然科學基金項目(31100959);黑龍江省博士后啟動基金項目(LBH-Q11169)
收稿日期:2014-06-27
文章編號:1005-9369(2015)01-0086-08
文獻標志碼:A
中圖分類號:Q492.7;S858.2