王平平,盧建國,王樂,欒培賢,王秋實(shí),張曉峰
(中國水產(chǎn)科學(xué)研究院黑龍江水產(chǎn)研究所,黑龍江 哈爾濱 150070)
快速高效miRNA分析流程在黃顙魚中的應(yīng)用
王平平,盧建國,王樂,欒培賢,王秋實(shí),張曉峰
(中國水產(chǎn)科學(xué)研究院黑龍江水產(chǎn)研究所,黑龍江 哈爾濱 150070)
高通量測序技術(shù)速度快、成本低、通量高,廣泛應(yīng)用于miRNA領(lǐng)域研究。本研究基于高通量測序技術(shù)所產(chǎn)生的海量小RNA數(shù)據(jù),結(jié)合已有的數(shù)據(jù)分析軟件,開發(fā)了一套快速高效一鍵化的miRNA分析流程。該流程整合多個生物信息學(xué)數(shù)據(jù)分析軟件,對多個miRNA高通量測序數(shù)據(jù)集進(jìn)行標(biāo)記、整合和去冗余分析,只需運(yùn)行一次核心程序就可以實(shí)現(xiàn)對多個miRNA高通量測序數(shù)據(jù)的分析,避免每個樣本單獨(dú)數(shù)據(jù)分析的技術(shù)重復(fù),精簡后的數(shù)據(jù)集能大幅度減少軟件計算量,顯著提高軟件運(yùn)行效率。本研究利用快速高效miRNA分析流程分析黃顙魚性腺XX卵巢、XY精巢、YY精巢的miRNA高通量測序數(shù)據(jù),獲得一批準(zhǔn)確的黃顙魚保守miRNA。在相同參數(shù)設(shè)置下,miRNA分析流程可以顯著節(jié)約分析時間。該流程最終輸出結(jié)果為多樣本整合后的miRNA表達(dá)數(shù)據(jù),便于研究者直接進(jìn)行樣本之間的比較和miRNA的表達(dá)差異,減少研究者手動整合分析結(jié)果的操作步驟。miRNA分析流程針對多樣本miRNA測序數(shù)據(jù)具有明顯的優(yōu)勢,樣本越多測序量越大,軟件運(yùn)行效率越高。針對日益積累的海量小RNA測序數(shù)據(jù),miRNA分析流程高效快速一鍵化數(shù)據(jù)處理優(yōu)勢將會越來越明顯。
miRNA;高通量測序;miRNA識別方法;黃顙魚
microRNAs(miRNAs)是一類內(nèi)源性非編碼RNA,長度約為18~30個核苷酸。miRNA基因首先在RNA聚合酶的作用下轉(zhuǎn)錄成初始轉(zhuǎn)錄本,經(jīng)Drosha酶剪切形成miRNA前體,再進(jìn)一步由Dicer酶切割產(chǎn)生成熟體miRNA[1]。成熟miRNA通過堿基互補(bǔ)配對的方式識別靶基因的mRNA,降解靶基因mRNA或抑制靶基因的翻譯。miRNA參與生物體內(nèi)多種調(diào)控通路,包括發(fā)育、器官形成、細(xì)胞增殖和凋亡等[2]。因此準(zhǔn)確識別miRNA,了解其生物功能具有重要科學(xué)意義。
高通量測序技術(shù)測序速度快、成本低、通量高,已廣泛應(yīng)用于miRNA領(lǐng)域研究。miRNA高通量測序可以從系統(tǒng)的全局的角度獲得生物體內(nèi)絕大部分表達(dá)的miRNA,廣泛用于比較不同發(fā)育階段、不同組織及不同條件下的miRNA表達(dá)譜。隨著miRNA高通量測序數(shù)據(jù)的不斷豐富,使得快速高效的miRNA識別方法越來越受關(guān)注。
miRDeep是一款被廣泛使用的miRNA深度測序數(shù)據(jù)分析軟件,由Friedlander團(tuán)隊在2008年發(fā)表[3],2012年更名為miRDeep2[4]。miRDeep主要基于貝葉斯概率模型來預(yù)測miRNA,數(shù)據(jù)分析過程[5]包括BLAST[6,7]或Bowtie[8]比對測序數(shù)據(jù)到參考基因組、篩選得到候選miRNA前體序列、前體序列打分等,最終獲得物種保守的miRNA。miRDeep在無基因組注釋信息的情況下,在真渦蟲樣本上仍能達(dá)到86%的敏感度[3]。miRDeep2在時間效率和內(nèi)存分配上都有很大的改進(jìn),能同時識別正義和反義鏈上的miRNA,且允許一個或多個位置的堿基錯配。miRDeep2預(yù)測動物miRNA的準(zhǔn)確率可以達(dá)到98.6%~99.9%[4]。miRDeep2已經(jīng)被廣泛用于miRNA高通量測序數(shù)據(jù)的分析[9-12]。
miRDeep2軟件操作簡單,缺點(diǎn)是多樣本數(shù)據(jù)需要每個樣本單獨(dú)進(jìn)行分析,分析結(jié)果還需要繁瑣的整合過程。目前的研究很少只對單一樣本進(jìn)行小RNA測序,通常都需要對多個樣本小RNA測序數(shù)據(jù)進(jìn)行對比性研究。針對于多樣本miRNA測序數(shù)據(jù),miRDeep2結(jié)果的整合過程需要一定的編程基礎(chǔ)和生物信息學(xué)知識,在這一整合過程中需耗費(fèi)較多的時間和精力。本研究基于高通量測序技術(shù)所產(chǎn)生的海量小RNA數(shù)據(jù),開發(fā)出一套基于miRDeep2的多樣本整合分析流程,只需運(yùn)行一次核心程序就可以實(shí)現(xiàn)對多個miRNA高通量測序數(shù)據(jù)的處理和分析,極大地節(jié)約數(shù)據(jù)分析的時間和精力。
1.1 材料
本研究開發(fā)的miRNA快速識別流程適用于Illumina高通量測序平臺獲得的小RNA測序數(shù)據(jù),輸入數(shù)據(jù)為測序reads的fasta格式文件。Fastq格式的原始測序數(shù)據(jù)可以根據(jù)本流程中提供的軟件和本實(shí)驗(yàn)室開發(fā)的腳本,按自身需求進(jìn)行個性化的數(shù)據(jù)預(yù)處理,包括測序數(shù)據(jù)接頭序列去除、數(shù)據(jù)質(zhì)量控制和格式轉(zhuǎn)換。
本研究使用的測試數(shù)據(jù)為Illumina測序平臺的黃顙魚Pelteobagrus fulvidraco miRNA高通量測序數(shù)據(jù),包含雌魚XX卵巢、雄魚XY精巢和全雄魚YY精巢三個樣本的小RNA高通量測序數(shù)據(jù)[13]。數(shù)據(jù)來自NCBI的SRA數(shù)據(jù)庫,訪問編號分別為SRR1154617、SRR1154615和SRR1154616。
1.2 miRNA高通量測序數(shù)據(jù)分析流程
miRNA快速高效識別流程是以開放軟件miRDeep2為核心,通過整合多個數(shù)據(jù)分析軟件和實(shí)驗(yàn)室自主開發(fā)的腳本程序,達(dá)到快速高效一鍵化的分析miRNA高通量測序數(shù)據(jù)的目的。該流程命名為miRDeep-pipeline,主要步驟(圖1)包括:原始高通量測序數(shù)據(jù)預(yù)處理;多樣本數(shù)據(jù)標(biāo)記、整合和聚類分析;miRDeep2軟件分析;多樣本數(shù)據(jù)分析結(jié)果提取和比較。
圖1 miRDeep-pipeline流程圖Fig.1 The flowing chart of miRDeep-pipeline
miRDeep-pipeline的輸入數(shù)據(jù)為測序reads的fasta格式數(shù)據(jù),其他格式的高通量測序數(shù)據(jù),如sra、fastq等格式數(shù)據(jù)。本流程中也提供相應(yīng)的分析軟件和實(shí)驗(yàn)室自主開發(fā)的腳本程序,研究者可以根據(jù)自身需求進(jìn)行個性化的原始數(shù)據(jù)預(yù)處理。miRD-eep-pipeline整合的數(shù)據(jù)分析軟件和實(shí)驗(yàn)室自主開發(fā)的腳本程序見表1,包括SRAToolkit、Cutadapt[14]等。實(shí)驗(yàn)室自主開發(fā)的腳本程序miRNA_length_ stats.pl、stats_nuc_bias.pl,主要用于統(tǒng)計分析miRNA測序數(shù)據(jù),包括miRNA長度分布統(tǒng)計和堿基偏好性統(tǒng)計。miRDeep-pipeline提供Illumina測序平臺小RNA測序數(shù)據(jù)通用的接頭序列,適用于大多數(shù)Illumina平臺,研究者也可以根據(jù)自身數(shù)據(jù)特點(diǎn)選擇合適的接頭序列處理數(shù)據(jù)。mirdeep-pipeline是本流程的核心程序,可以實(shí)現(xiàn)一鍵化的多樣本miRNA高通量測序數(shù)據(jù)分析。
1.3 miRDeep-pipeline核心數(shù)據(jù)處理策略
miRDeep-pipeline的核心內(nèi)容是標(biāo)記、整合和聚類分析多樣本數(shù)據(jù),減少數(shù)據(jù)分析過程中重復(fù)的軟件調(diào)用,精簡的數(shù)據(jù)集也能有效減少軟件運(yùn)行時間。根據(jù)不同的樣本標(biāo)簽以及序列重復(fù)次數(shù)標(biāo)簽可以有效地拆分miRDeep2輸出結(jié)果,達(dá)到快速高效分析多樣本數(shù)據(jù)的目的。
針對多個樣本單獨(dú)分析過程中重復(fù)調(diào)用miRDeep2軟件造成的時間和精力浪費(fèi),miRD-eep-pipeline首先標(biāo)記多個樣本數(shù)據(jù),整合標(biāo)記后的數(shù)據(jù)集;然后根據(jù)序列相似性對測序數(shù)據(jù)進(jìn)行聚類分析和序列重復(fù)次數(shù)標(biāo)記,減少重復(fù)序列重復(fù)運(yùn)算的計算資源和計算時間的浪費(fèi),獲得精簡的待分析數(shù)據(jù)集。在保證結(jié)果準(zhǔn)確性的前提下,所有樣本中重復(fù)的序列只需要進(jìn)行一次基因組比對和miRD-eep2軟件計算,大大提高了軟件運(yùn)行效率;最后根據(jù)不同的樣本標(biāo)簽以及序列重復(fù)次數(shù)標(biāo)簽拆分miRDeep2輸出結(jié)果,樣本標(biāo)簽用于區(qū)分來自不同樣本的分析結(jié)果,序列重復(fù)次數(shù)標(biāo)簽用于估計每一個識別的miRNA在各樣本中的表達(dá)量。最終獲得每個樣本中表達(dá)的miRNA,及其對應(yīng)的表達(dá)量。
miRDeep-pipeline一方面大大減少多個樣本在單獨(dú)數(shù)據(jù)處理過程中頻繁的軟件調(diào)用;另一方面,結(jié)合多樣本數(shù)據(jù)標(biāo)記、整合和聚類分析策略,大大減少軟件計算的數(shù)據(jù)量,節(jié)約計算成本。另外,miRDeep-pipeline的輸出結(jié)果可以直接比較不同樣本,分析差異表達(dá)的miRNA,避免對每個樣本單獨(dú)進(jìn)行miRDeep2計算后繁瑣的數(shù)據(jù)合并工作,提高了工作效率。miRDeep-pipeline整個運(yùn)行過程中只需要調(diào)用一次核心程序“mirdeep-pipeline”就可以實(shí)現(xiàn)對全部數(shù)據(jù)的處理和結(jié)果整合分析,真正實(shí)現(xiàn)一鍵化的操作流程。
表1 miRDeep-pipeline整合的軟件及實(shí)驗(yàn)室自主開發(fā)的腳本Tab.1 The list of software and laboratory developed scripts integrated in miRDeep-pipeline
2.1 軟件效率
用miRDeep2分別處理黃顙魚XX卵巢、XY精巢、YY精巢三個樣本的小RNA高通量測序數(shù)據(jù),并與miRDeep-pipeline進(jìn)行對比(表2)。miRD-eep-pipeline一鍵化地處理黃顙魚三個樣本小RNA測序數(shù)據(jù),大概需要7h。用miRDeep2分別處理XX、XY和YY三個樣本程序運(yùn)行總時間大概為13.5h,單獨(dú)處理樣本XY需要將近6h,如果可以并行化處理,那么miRDeep2數(shù)據(jù)分析總時間需要將近6h。在本文中,miRDeep-pipeline相對于單線程運(yùn)行miRDeep2可以節(jié)約一半的軟件運(yùn)行時間,與多線程運(yùn)行miRDeep2相比無明顯優(yōu)勢。但是miRDeep-pipeline的主要優(yōu)勢在于其可以實(shí)現(xiàn)一鍵化分析多個樣本數(shù)據(jù)及整合結(jié)果,大大減少軟件的重復(fù)調(diào)用和多樣本分析結(jié)果繁瑣的整合步驟,節(jié)約了時間,提高了效率。
表2 miRDeep-pipeline運(yùn)行時間效率Tab.2 Time efficiency of miRDeep-pipeline process
表3 黃顙魚miRNA的識別與比較Tab.3 Identification and comparison of miRNA in yellow catfish
2.2 黃顙魚miRNA的識別與比較
miRDeep-pipeline在黃顙魚XX卵巢,XY精巢和YY精巢樣本中共識別543個保守miRNA,其中能在黃顙魚基因組上準(zhǔn)確定位并且pre-miRNA能形成完整的莖環(huán)結(jié)構(gòu)的有361個(表3)。在高通量測序數(shù)據(jù)和黃顙魚基因組的雙重支持下,獲得的361個黃顙魚保守的miRNA具有較高的可信度,其中286個為miRBase數(shù)據(jù)庫[15,16]中收錄的已知miRNA,剩余75個為新miRNA。在XX卵巢、XY精巢和YY精巢中分別識別出316、360和350個保守miRNA,其中新miRNA數(shù)目分別為59個、75個和73個。Jing等人[13]在2014年利用商業(yè)軟件ACGT101-miR v4.2分析這部分?jǐn)?shù)據(jù)的結(jié)果與 miRD-eep-pipeline的預(yù)測結(jié)果具有較好的一致性。
Jing等通過實(shí)時定量PCR技術(shù)驗(yàn)證部分miRNA,這些miRNA在本研究中也被正確識別和定量(圖2)。從圖2可以看出,miRDeep-pipeline對表達(dá)量的估計與商業(yè)軟件ACGT101-miR v4.2具有較好的一致性。
圖2 部分miRNA定量結(jié)果Fig.2 The expression level of several selected miRNAs
隨著測序技術(shù)的發(fā)展,獲取一組miRNA高通量測序數(shù)據(jù)越來越容易,高效快速的一鍵化的處理軟件越來越受歡迎。本研究整合了一整套miRNA高通量測序分析軟件,合理設(shè)計算法策略,巧妙地先合并后拆分多個樣本數(shù)據(jù),達(dá)到快速、高效、一鍵化的處理多樣本miRNA高通量數(shù)據(jù)的目的。
miRDeep-pipeline整合了優(yōu)秀的miRDeep2軟件[4],具有與miRDeep2同等的精確性和優(yōu)于miRDeep2的運(yùn)行效率。
首先在操作上,單純miRDeep2針對多個樣本需要重復(fù)相同的分析操作,而miRDeep-pipeline可以一次性處理多個樣本,并且只需要運(yùn)行一個核心程序mirdeep-pipeline,就可以完成對多個miRNA測序數(shù)據(jù)的分析工作,大大精簡了操作步驟。
其次在軟件運(yùn)行成本上,miRDeep-pipeline對多個樣本數(shù)據(jù)進(jìn)行先合并后拆分的策略,在合并過程中進(jìn)行聚類分析,避免重復(fù)序列的重復(fù)計算。在黃顙魚性腺miRNA測序數(shù)據(jù)上試驗(yàn),miRD-eep-pipeline相對于單線程運(yùn)行miRDeep2軟件至少可以節(jié)約一半的分析時間。miRDeep-pipeline處理多個樣本的時間優(yōu)勢會隨著數(shù)據(jù)量的增加而更加明顯,因?yàn)樯矬w內(nèi)存在的miRNA是有限的,測序深度的增加和樣本數(shù)的增加對數(shù)據(jù)復(fù)雜度的增加是很有限的,大多數(shù)情況下只會影響序列的重復(fù)次數(shù),對唯一序列的總數(shù)影響非常微弱[17]。在本研究中,對序列進(jìn)行合并后去冗余,精簡后的數(shù)據(jù)集在測序深度和樣本數(shù)增加的情況下增加幅度相對微弱,不會導(dǎo)致大幅度的軟件計算時間的增加,因而miRDeep-pipeline在處理大數(shù)據(jù)和多樣本時隨著數(shù)據(jù)量的增加而效率更高,優(yōu)勢更明顯。
最后,miRDeep-pipeline最終輸出結(jié)果為多樣本整合后的miRNA表達(dá)數(shù)據(jù),便于直接進(jìn)行樣本之間比較和miRNA差異表達(dá)分析,減少手動整合多樣本分析結(jié)果的操作,節(jié)約大量時間成本,提高工作效率。沒有任何編程基礎(chǔ)的研究者也很容易讀懂分析結(jié)果,開展進(jìn)一步的研究工作。
本研究開發(fā)的miRNA快速高效分析流程針對多樣本miRNA高通量測序數(shù)據(jù)具有明顯的優(yōu)勢,樣本數(shù)量越多測序量越大,軟件運(yùn)行效率越高。針對日益積累的海量小 RNA測序數(shù)據(jù),miRD-eep-pipeline高效快速一鍵化數(shù)據(jù)處理流程將被廣泛使用。
[1]Chen X.Small RNAs and their roles in plant development[J].Annual Review of Cell and Developmental Biology, 2009,25(1):21-44.
[2]Bartel D P.MicroRNAs:genomics,biogenesis,mechanism, and function[J].Cell,2004,116(2):281-297.
[3 Friedl?nder M R,Chen W,Adamidi C,et al.Discovering microRNAs fromdeep sequencingdata usingmiRDeep[J]. Nat Biotechnol,2008,26(4):407-415.
[4]Friedl?nder M R,Mackowiak S D,Li N,et al.miRDeep2 accurately identifies known and hundredsofnovel microRNA genes in seven animal clades[J].Nucleic Acids Res,2012,40(1):37-52.
[5]萬琳霞,丁建棟,關(guān)佶紅.計算方法預(yù)測microRNA研究進(jìn)展[J].計算機(jī)應(yīng)用與軟件,2012,29(5):159-162,194.
[6]Altschul S F,Gish W,Miller W,et al.Basic local alignment search tool[J].J Mol Biol,1990,215(3):403-410.
[7 Mount D W.Using the basic local alignment search tool(BLAST)[J].CSH Protocols,2007(14):pdb.top17,doi: 10.1101/pdb.top17.
[8 Langmead B,Trapnell C,Pop M,et al.Ultrafast and memory-efficient alignment ofshort DNA sequences to the human genome[J].Genome Biology,2009,10(3):R25.
[9]Xu F,WangX,FengY,et al.Identification ofconserved and novel microRNAs in the Pacific oyster Crassostrea gigas by deep sequencing[J].PLoSOne,2014,9(8):e104371.
[10 Li R,Beaudoin F,Ammah A A,et al.Deep sequencing shows microRNA involvement in bovine mammary gland adaptation to diets supplemented with linseed oil or safflower oil[J].BMCGenomics,2015,16(1):884.
[11]Fan G,CaoX,Niu S,et al.Transcriptome,microRNA,and degradome analyses of the gene expression of Paulownia with phytoplamsa[J].BMCGenomics,2015,16(1):896.
[12 Keller A,Leidinger P,Meese E,et al.Next-generation sequencing identifies altered whole blood microRNAs in neuromyelitis optica spectrum disorder which may permit discriminationfrommultiplesclerosis[J].Journalofneuroinflammation,2015,12(1):196.
[13]Jing J,Wu J,Liu W,et al.Sex-biased miRNAs in gonad and their potential roles for testis development in yellow catfish[J].PloSONE,2014,9(9):e107946.
[14 Martin M.Cutadapt removes adapter sequences from high-throughput sequencing reads[J].EMBnet Journal, 2011,17(1):10-12.
[15]Griffiths-JonesS,GrocockRJ,vanDongenS,etal.miRBase: microRNA sequences,targets and gene nomenclature[J]. NucleicAcidsRes,2006,34:D140-D144.
[16 Kozomara A and Griffiths-Jones S.miRBase:annotating high confidence microRNAs using deep sequencing data[J].Nucleic Acids Res,2014,42:D68-D73.
[17]Sims D,Sudbery I,Ilott N E,et al.Sequencing depth and coverage:key considerations in genomic analyses[J].Nature Reviews Genetics,2014,15(2):121-132.
Rapid and Efficient miRNA Identification Pipeline and its Application in Yellow Catfish
WANG Ping-ping,LU Jian-guo,WANG Le,LUAN Pei-xian,WANG Qiu-shi,ZHANG Xiao-feng
(Heilongjiang River Fisheries Research Institute,Chinese Academy of Fishery Sciences,Harbin 150070,China)
High-throughput sequencing technologies have been widely used in miRNA studies with the advantages of high speed,low cost and high throughput.Based on the massive miRNA data from high-throughput sequencing,we developed a rapid and efficient miRNA identification pipeline integrated with several data analysis softwares.By marking,merging and clustering of several miRNA sequencing data sets,our pipeline can avoid duplicate analysis processes for every single data set,which can greatly reduce the amount of calculation and significantly improve the software efficiency.Just run one more time of our pipeline,all the samples will be analyzed.In this study,we analyzed miRNA sequencing data from XX ovaries,XY testis and YY testis of yellow catfish(Pelteobagrus fulvidraco)with this pipeline,and identified a number of conserved miRNAs,with significant reduce in time in the same parameters by pipeline.The integrated results from our pipeline are comparable between samples and easily to do further miRNA differentially expression analysis,which will greatly reduce the manual integration operation for every single results.Our miRNA identification pipeline has obvious advantages in processing multiple data sets.The more samples and greater data sets,the higher the efficiency.The advantages of our pipeline will be more and more obvious with the increasing accumulated miRNA sequencing data.
miRNA;high-throughput sequencing;miRNA identification;yellow catfish(Pelteobagrus fulvidraco)
S917
A
1005-3832(2016)05-0027-05
2016-06-10
中央級公益性科研院所基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(HSY201505).
王平平(1988-),女,碩士,研究實(shí)習(xí)員,從事魚類生物信息學(xué)和遺傳育種研究.E-mail:wangpingping@hrfri.ac.cn