李國(guó)治 鄧衛(wèi)東
摘要 基因組測(cè)序技術(shù)從第1代Sanger測(cè)序經(jīng)第2代高通量測(cè)序已發(fā)展到第3代單分子測(cè)序,第2代高通量測(cè)序技術(shù)是當(dāng)前基因組測(cè)序中最主要的分析技術(shù)。對(duì)高通量測(cè)序技術(shù)在全基因組de novo測(cè)序、全基因組重測(cè)序、簡(jiǎn)化基因組測(cè)序、宏基因組測(cè)序分析和表觀基因組學(xué)研究等領(lǐng)域的應(yīng)用原理、步驟及現(xiàn)狀進(jìn)行綜述,以為基因組測(cè)序技術(shù)的應(yīng)用提參考。
關(guān)鍵詞 高通量測(cè)序;全基因組重測(cè)序;宏基因組測(cè)序;表觀基因組學(xué)
中圖分類(lèi)號(hào) Q75 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 0517-6611(2018)22-0020-03
Abstract Genome sequencing technology has been developed from the first generation of Sanger sequencing to the third generation of single molecule sequencing through the second generation of highthroughput sequencing. The second generation of highthroughput sequencing technology was the most commonly used technology in genome sequencing. The application principles, steps and status of highthroughput sequencing technology in genomewide de novo sequencing, genomewide resequencing, reducedrepresentation sequencing, metagenomic sequencing and epigenetic research were reviewed in this paper to provide reference for applying genome sequencing technology.
Key words Highthroughput sequencing;Genomewide resequencing;Metagenomic sequencing;Epigenetic
以Sanger測(cè)序?yàn)榇淼牡?代測(cè)序技術(shù)讀長(zhǎng)達(dá)1 000 bp,準(zhǔn)確率高達(dá)99.99%,可靠性高。但由于其依賴(lài)于酶和電泳分離技術(shù),導(dǎo)致測(cè)序成本高,分析速度慢。Roche/454焦磷酸測(cè)序、Illumina/Solexa聚合酶合成測(cè)序、ABI/SOLiD連接酶測(cè)序和Ion PGM半導(dǎo)體芯片測(cè)序是第2代測(cè)序技術(shù)的4種主流測(cè)序方法,其突出特點(diǎn)是單次運(yùn)行(run)產(chǎn)出序列數(shù)據(jù)量大,故這4種測(cè)序方法被統(tǒng)稱(chēng)為高通量測(cè)序技術(shù)。因測(cè)序原理各異,4種測(cè)序方法的數(shù)據(jù)產(chǎn)量、數(shù)據(jù)質(zhì)量和運(yùn)行成本也不相同。Roche/454測(cè)序讀長(zhǎng)(600~1 000 bp)最長(zhǎng),通量(0.5~1.0 Gb/run)最低;Illumina/Solexa測(cè)序讀長(zhǎng)(100 bp)較短,通量(600Gb/run)較大;ABI/SOLiD測(cè)序讀長(zhǎng)(50 bp)最短,創(chuàng)新應(yīng)用雙堿基編碼,降低測(cè)序錯(cuò)誤率,其原理與重測(cè)序相似,對(duì)于具有高質(zhì)量參考基因組序列物種的重測(cè)序特別適用;Ion PGM測(cè)序基于半導(dǎo)體芯片技術(shù),無(wú)需激光、照相機(jī)或標(biāo)記等技術(shù),成本不到普通測(cè)序的10%[1]。并行單分子合成測(cè)序、單分子實(shí)時(shí)合成測(cè)序、納米孔單分子測(cè)序、基于熒光共振能量傳遞測(cè)序、半導(dǎo)體測(cè)序等單分子測(cè)序方法屬于第3代測(cè)序技術(shù),以邊合成邊測(cè)序(SBS)技術(shù)為基本原理,無(wú)需PCR擴(kuò)增,簡(jiǎn)化文庫(kù)構(gòu)建,與第2代測(cè)序技術(shù)相比,讀長(zhǎng)更長(zhǎng),后續(xù)拼接工作更為簡(jiǎn)單,可對(duì)未知基因組測(cè)序,但錯(cuò)誤率仍較高,因采用水解法,不能重復(fù)測(cè)序[2-4]。上述3代測(cè)序技術(shù)各有優(yōu)缺點(diǎn),已被廣泛應(yīng)用于全基因組de novo測(cè)序、全基因組重測(cè)序、簡(jiǎn)化基因組測(cè)序、宏基因組測(cè)序分析和表觀基因組學(xué)研究等方面。該研究重點(diǎn)對(duì)這3種測(cè)序技術(shù)在基因組DNA水平研究中的具體應(yīng)用進(jìn)行綜述。
1 全基因組de novo測(cè)序
全基因組de novo測(cè)序不參考任何已有的DNA序列信息,直接測(cè)序某物種的基因組,因此被稱(chēng)為從頭測(cè)序。從頭測(cè)序技術(shù)首先獲取某物種基因組DNA樣品,檢測(cè)樣品質(zhì)量,評(píng)估基因組特征,構(gòu)建梯度插入片段文庫(kù)上機(jī)測(cè)序,采用生物信息學(xué)分析手段將測(cè)序產(chǎn)生的海量DNA序列片段(reads)進(jìn)行排序、拼接,從而組裝出該物種完整的基因組DNA序列圖譜。
全基因組de novo測(cè)序生物信息學(xué)分析可獲得基因組拼裝信息:原始數(shù)據(jù)、測(cè)序覆蓋率、Contig N50、Scaffold N50、GC含量等;基因組注釋?zhuān)夯蝾A(yù)測(cè)、功能注釋?zhuān)ㄅcInterpro、Swiss-Prot、NR等同源比對(duì))、重復(fù)序列分析及Non-coding RNA注釋等;基因功能分類(lèi):GO分類(lèi)、KEGG通路等;比較基因組學(xué)研究:對(duì)相近物種基因組數(shù)據(jù)進(jìn)行比較,從功能、結(jié)構(gòu)、進(jìn)化等方面分析目標(biāo)基因組;構(gòu)建數(shù)據(jù)庫(kù):按照國(guó)際標(biāo)準(zhǔn)建立具有良好兼容性的基因組數(shù)據(jù)庫(kù),實(shí)現(xiàn)基因數(shù)據(jù)查詢(xún)與共享。
從頭測(cè)序組裝物種基因組圖譜是通過(guò)識(shí)別不同reads間的重疊區(qū)域(overlap),確定其相對(duì)位置順序,把多條較短的reads序列片段拼接成較長(zhǎng)的contigs,進(jìn)一步構(gòu)建mate-pair或paired-end文庫(kù),選擇大片段測(cè)序獲取兩端reads序列,通過(guò)兩端reads序列確定contigs間的相對(duì)位置,按照contigs間的位置關(guān)系拼接成scaffolds,最后填補(bǔ)空缺序列(gaps)獲得物種全基因組DNA序列?;蚪M從頭拼接組裝常用軟件有:Velvet、SOAPdenovo、ABySS和CLC Genomic Workbench等[5]。Velvet是EMBL-EBI開(kāi)發(fā)的一款在linux系統(tǒng)下運(yùn)行的拼接軟件,是目前廣泛使用的拼接短reads(25-500bp)的首選工具,不足之處是無(wú)法同時(shí)利用多個(gè)CPU進(jìn)行拼接[6]。SOAPdenovo由華大基因開(kāi)發(fā),在linux系統(tǒng)下采用一種新型短read拼接方法對(duì)大型動(dòng)植物、細(xì)菌和真菌基因組進(jìn)行從頭拼接。ABySS用于大型基因組從頭拼接,在C++環(huán)境中運(yùn)行,優(yōu)點(diǎn)在于可以同時(shí)執(zhí)行多項(xiàng)拼接任務(wù)。CLC Genomic Workbench由丹麥Aarhus公司研發(fā)的一種綜合性跨平臺(tái)拼接軟件,在windows/macosx/linux操作系統(tǒng)下可分析來(lái)自Illumina、SOLiD、454、HeliScope等多個(gè)平臺(tái)的基因組數(shù)據(jù)。
ICGSC完成一只雌性近交系紅色原雞全基因組de novo測(cè)序拼接組裝,構(gòu)建了其完整基因組序列圖譜,含有1.05 Gb堿基對(duì),contigs N50為36 kb,覆蓋率為98%,堿基替代率為0.02%[7]。Li等[8]運(yùn)用Solexa聚合酶合成測(cè)序技術(shù)完成熊貓全基因組de novo測(cè)序,獲得其2.4 Gb基因組序列圖譜,研究結(jié)果表明熊貓與狗的遺傳關(guān)系最近,熊貓TIR1基因失活導(dǎo)致感受不到肉的鮮美,所以熊貓不吃肉。Wang等[9]對(duì)一只雌性藏雞de novo測(cè)序,繪制出藏雞基因組序列圖譜,采用比較基因組學(xué)和群體基因組學(xué)分析方法揭示了藏雞高原適應(yīng)性的分子機(jī)制,鈣離子通路在藏雞高原適應(yīng)中扮演著重要作用。Li等[10]運(yùn)用de novo組裝策略獲得中國(guó)和歐洲10個(gè)代表性豬種高質(zhì)量基因組序列,共鑒定出8.86~15.95 Mb單核苷酸多態(tài)(SNP)、15.99~23.07 Mb插入變異和3.61~5.63 Mb缺失變異,中國(guó)豬種遺傳多樣性明顯高于歐洲豬種;還鑒定出參考基因組中缺失的137.02 Mb序列,包含1 737個(gè)蛋白編碼基因,其中有74個(gè)基因與肌肉生長(zhǎng)和脂肪沉積相關(guān),76個(gè)基因與免疫調(diào)控相關(guān),研究結(jié)果為豬肉產(chǎn)量和抗病性等生產(chǎn)性能分子遺傳學(xué)研究奠定了重要基礎(chǔ)。
2 全基因組重測(cè)序
對(duì)已有參考基因組序列的物種進(jìn)行個(gè)體或群體全基因組測(cè)序稱(chēng)為全基因組重測(cè)序。全基因組重測(cè)序結(jié)果與已有參考基因組序列進(jìn)行比對(duì),檢測(cè)出全基因組范圍的單核苷酸多態(tài)(SNP)、插入缺失突變(InDel)、拷貝數(shù)變異(CNV)和機(jī)構(gòu)變異(SV)等變異信息,獲得個(gè)體或群體分子遺傳特征,進(jìn)行動(dòng)物重要經(jīng)濟(jì)性狀候選基因預(yù)測(cè)及遺傳進(jìn)化分析,廣泛應(yīng)用于遺傳變異檢測(cè)、性狀基因定位、遺傳圖譜構(gòu)建和遺傳進(jìn)化研究。
全基因組重測(cè)序數(shù)據(jù)分析最關(guān)鍵的一步在于序列比對(duì)(mapping),將重測(cè)序所得的reads序列與已有的參考基因組序列進(jìn)行相似性比較,比對(duì)過(guò)程一般按兩步進(jìn)行:首先歸類(lèi)整理reads數(shù)據(jù)或參考基因組序列,然后用適當(dāng)算法比對(duì)和定位reads序列。用于序列比對(duì)的軟件有很多種,如2008年推出的SeqMap、Soap、Zoom、MAQ、RMAP,2009年推出的SOAP2、SHRiMP、BOAT、BFAST、MOM、BWA、MapNext、Bowtie,2010年推出了BWA-SW,各種軟件處理數(shù)據(jù)的方法、重點(diǎn)和能力不同,選擇合適比對(duì)軟件的主要依據(jù)是產(chǎn)生分析數(shù)據(jù)的測(cè)序平臺(tái),能處理多個(gè)平臺(tái)產(chǎn)生的數(shù)據(jù)的軟件有較好的實(shí)用性和應(yīng)用前景。目前,多數(shù)比對(duì)軟件只處理一個(gè)測(cè)序平臺(tái)產(chǎn)生的數(shù)據(jù),只有MAQ、SHRiMP、BFAST、BWA等軟件通過(guò)轉(zhuǎn)換格式可以處理2個(gè)測(cè)序平臺(tái)產(chǎn)生的數(shù)據(jù)。
Li等[11]對(duì)48份家豬樣本(6個(gè)藏豬群體、5個(gè)四川豬種)進(jìn)行全基因組重測(cè)序(深度131×),與55個(gè)歐亞野豬和家豬基因組數(shù)據(jù)比對(duì)分析,檢測(cè)出低氧適應(yīng)、能量代謝等268個(gè)基因位點(diǎn),揭示藏豬高原低氧適應(yīng)的遺傳基礎(chǔ);比較基因組學(xué)研究發(fā)現(xiàn),早在690萬(wàn)年前藏豬和家豬祖先開(kāi)始分化,早于牦牛和家牛(490萬(wàn)年前)以及人類(lèi)和黑猩猩(500萬(wàn)~700萬(wàn)年前)的分化時(shí)間;遺傳對(duì)比分析野生種和馴養(yǎng)種表明,人工選擇比自然選擇更能改變馴養(yǎng)動(dòng)物基因組;歐亞豬種明顯的遺傳背景差異證明地理隔離導(dǎo)致的遺傳差異比野生種與馴化種的差異大。Daetwyler等[12]對(duì)2頭奶牛和232頭公牛(其中荷蘭種129頭、德國(guó)種43頭、澤西種15頭)開(kāi)展全基因組重測(cè)序(深度8.3×),共檢測(cè)出28.3萬(wàn)個(gè)變異位點(diǎn),平均每1000個(gè)堿基上含有1.44個(gè)雜合位點(diǎn);鑒定出了與胚胎死亡、骨骼畸形、卷毛以及產(chǎn)奶等性狀連鎖的基因,并分析出胚胎死亡與牛繁殖力降低顯著相關(guān);該項(xiàng)研究成果為提高牛產(chǎn)肉量和產(chǎn)奶量奠定了科學(xué)基礎(chǔ)。Yi等[13]對(duì)12只不同品種的雞進(jìn)行全基因組重測(cè)序,共檢測(cè)出8 840個(gè)CNVs區(qū)域,片段大小從1.1~268.8 kb不等,平均長(zhǎng)度11.1 kb,覆蓋98.2 Mb堿基,占全基因組的9.4%;共分析出2 214個(gè)CNVs與2 216個(gè)RefSeq功能基因相關(guān);在CNVs覆蓋區(qū)域發(fā)現(xiàn)了與疾病易感性和抗病性相關(guān)的FZD6L基因和IMS1基因。
3 簡(jiǎn)化基因組測(cè)序
簡(jiǎn)化基因組測(cè)序(Reduced Representation Genome Sequencing)能大幅降低基因組的復(fù)雜度,顯著降低測(cè)序成本,快速鑒定高密度SNP位點(diǎn),常用于遺傳變異檢測(cè)、高密度遺傳圖譜構(gòu)建、重要性狀候選基因定位和群體遺傳進(jìn)化分析。常用于動(dòng)物基因組研究的簡(jiǎn)化基因組測(cè)序技術(shù)主要有簡(jiǎn)化代表文庫(kù)測(cè)序(Reduced-Representation Libraries sequencing,RRLs)和限制性酶切位點(diǎn)關(guān)聯(lián)DNA測(cè)序(Restriction-site-Associated DNA sequencing,RAD-seq)。
RRLs將某群體中不同個(gè)體DNA樣本混合,選擇特異內(nèi)切酶消化基因組DNA,回收特定長(zhǎng)度的酶切片段,作為全基因組序列的簡(jiǎn)化代表性文庫(kù)用于高通量測(cè)序,將測(cè)序片段與參考基因組序列比對(duì),或拼接組裝測(cè)序片段相互比對(duì),快速檢測(cè)SNPs。RAD-seq利用限制性?xún)?nèi)切酶消化目標(biāo)基因組DNA,在酶切基因組片段兩端加上P1接頭,打斷加有P1接頭的片段,選擇特定長(zhǎng)度的片段加上P2接頭,PCR擴(kuò)增富集既有P1接頭又有P2接頭的DNA tags,并進(jìn)行高通量測(cè)序比對(duì),對(duì)有無(wú)參考基因組的物種進(jìn)行SNPs的快速開(kāi)發(fā)和基因分型。
Van等[14]利用HaeⅢ酶切3個(gè)品種66頭?;蚪M混合樣構(gòu)建RRLs文庫(kù),經(jīng)Illumina Genome Analyzer 測(cè)序5000萬(wàn)條,檢測(cè)到62042個(gè)候選SNPs,對(duì)其中23357個(gè)隨機(jī)SNPs進(jìn)行基因分型驗(yàn)證,準(zhǔn)確率達(dá)到92%。Kerstens等[15]利用Sau 3A消化2個(gè)品系6只火雞基因組混合樣建立RRLs文庫(kù),經(jīng)高通量測(cè)序和數(shù)據(jù)分析,鑒定出1.1萬(wàn)個(gè)SNPs,基因分型驗(yàn)證其中340個(gè)代表性SNPs,準(zhǔn)確率達(dá)到95%,證明RRLs技術(shù)在未知基因組序列的情況下可有效開(kāi)發(fā)SNPs。Baird等[16]利用SbfⅠ分別消化96條F2代和親本三刺魚(yú)基因組,通過(guò)RAD-seq技術(shù)測(cè)序分析,檢測(cè)出1.3萬(wàn)個(gè)SNPs,定位到弱骨盆結(jié)構(gòu)刺退化和體側(cè)骨板缺失等性狀的基因位點(diǎn)。李勇等[17]采用RAD-seq技術(shù)對(duì)618頭母豬基因組測(cè)序并進(jìn)行遺傳分型,獲得79 725個(gè)SNPs,在未知驗(yàn)證群表型值的情況下分析最佳線性無(wú)偏預(yù)測(cè)(best linear unbiased prediction,BLUP)、基因組BLUP、一步基因組BLUP預(yù)測(cè)育種值的準(zhǔn)確性和偏向性,結(jié)果表明基于RAD-seq的基因組選擇法能有效預(yù)測(cè)種豬繁殖性狀的育種值。
4 宏基因組測(cè)序分析
宏基因組是指生態(tài)環(huán)境中全部微生物基因組的總和,宏基因組學(xué)以基因組學(xué)技術(shù)為基礎(chǔ),研究環(huán)境中微生物的多樣性、種群關(guān)系、功能關(guān)系及與環(huán)境間的關(guān)系,無(wú)需人工培養(yǎng)微生物,直接提取環(huán)境中微生物混合基因組DNA并測(cè)序,從群落水平上解析微生物活動(dòng),挖掘微生物新資源。
全基因組測(cè)序分析和16S rDNA測(cè)序分析是宏基因組學(xué)研究的2個(gè)主要策略,分別以環(huán)境樣品中全部DNA序列和16S rDNA序列為研究對(duì)象。2種測(cè)序分析策略直接提取環(huán)境樣品中全部基因組DNA,全基因組測(cè)序分析經(jīng)酶切或超聲波打斷DNA,16S rDNA測(cè)序分析經(jīng)16S rDNA可變區(qū)PCR擴(kuò)增,建立質(zhì)粒文庫(kù)并測(cè)序,去噪處理測(cè)序數(shù)據(jù);全基因組測(cè)序分析拼裝去噪序列并進(jìn)行基因預(yù)測(cè),利用比對(duì)和數(shù)據(jù)庫(kù)搜索分析方法對(duì)預(yù)測(cè)基因進(jìn)行功能注釋和分類(lèi)注釋?zhuān)?6S rDNA測(cè)序分析聚類(lèi)分析去噪序列,生成操作分類(lèi)單元,開(kāi)展多樣性和系統(tǒng)發(fā)育樹(shù)構(gòu)建等后續(xù)分析。
Parmar等[18]對(duì)飼喂青草、干草的水牛瘤胃微生物進(jìn)行宏基因組測(cè)序分析發(fā)現(xiàn),門(mén)水平上擬桿菌最多,屬水平上普氏菌最多;食糜中厚壁菌和擬桿菌占比高于胃液;飼喂干草的水牛瘤胃食糜中擬桿菌數(shù)量隨著日糧中粗飼料含量的增加顯著升高,梭菌數(shù)量也顯著增加;飼喂青草、干草的牛瘤胃液中糖苷水解酶水平隨著日糧中纖維素含量的增加而升高。Singh等[19]對(duì)不同飼料轉(zhuǎn)化率肉雞糞便中微生物菌群進(jìn)行宏基因測(cè)序比對(duì)發(fā)現(xiàn),細(xì)菌比率高達(dá)95%以上,真核生物比率達(dá)2%以上,古菌和病毒比率分別在0.2%以上;在門(mén)水平上,高、低飼料轉(zhuǎn)化率肉雞糞便樣品中變形菌、厚壁菌和擬桿菌比率分別為52.04%和78.83%、27.53%和11.97%、17.53%和7.10%。Larsbrink等[20]對(duì)奶牛瘤胃微生物進(jìn)行宏基因組測(cè)序,共鑒定出27 755個(gè)碳水化合物水解酶類(lèi)候選基因,此類(lèi)候選基因可編譯出90種蛋白,其中57%蛋白通過(guò)酶促作用激活抗纖維素底物相關(guān)酶類(lèi)。
5 表觀基因組學(xué)研究
基因組DNA序列無(wú)變化,但有基因表達(dá)和性狀發(fā)生可遺傳的變異,這種現(xiàn)象稱(chēng)為表觀遺傳。表觀遺傳學(xué)研究采用高通量測(cè)序技術(shù)及相應(yīng)的研究方法進(jìn)行基因表達(dá)調(diào)控機(jī)制研究,DNA甲基化、組蛋白修飾是表觀遺傳學(xué)研究的2個(gè)重要領(lǐng)域。
DNA甲基化表觀遺傳學(xué)研究主要采用全基因組重亞硫酸氫鹽測(cè)序(全基因組Bisulfite測(cè)序)和甲基化DNA免疫共沉淀測(cè)序(MeDIP-Seq)。全基因組Bisulfite測(cè)序?qū)︻A(yù)處理的DNA進(jìn)行巢式PCR擴(kuò)增,采用瓊脂糖凝膠電泳檢測(cè)盒單克隆測(cè)序擴(kuò)增產(chǎn)物,準(zhǔn)確獲得全基因組甲基化水平數(shù)據(jù),被認(rèn)為DNA甲基化檢測(cè)的“金標(biāo)準(zhǔn)”,適用于構(gòu)建全基因組DNA單堿基分辨率甲基化圖譜。MeDIP-Seq特異性識(shí)別5-甲基胞嘧啶抗體,富集全基因組DNA甲基化片段,對(duì)CpG島富集的甲基化區(qū)域進(jìn)行高通量測(cè)序,比較不同組織細(xì)胞DNA甲基化的差異,廣泛應(yīng)用于分子標(biāo)記育種和遺傳疾病診斷。組蛋白修飾表觀遺傳學(xué)研究主要集中在甲基化、乙?;揎?,染色質(zhì)免疫沉淀結(jié)合高通量測(cè)序技術(shù)(ChIP-Seq),研究蛋白質(zhì)與DNA相互作用關(guān)系,在全基因組范圍高效而準(zhǔn)確地篩選和鑒定蛋白結(jié)合位點(diǎn)。
Lister等[21]采用全基因組Bisulfite測(cè)序技術(shù)構(gòu)建人類(lèi)基因組甲基化圖譜,為人類(lèi)遺傳疾病的研究奠定了堅(jiān)實(shí)基礎(chǔ)。張小麗[22]采用MeDIP-Seq技術(shù)構(gòu)建3頭210日齡長(zhǎng)白母豬DNA文庫(kù),獲取高度匹配的32.91Gb DNA序列,鑒定出不同組織中甲基化差異區(qū)域(DMRs),外顯子區(qū)域DMRs內(nèi)CpG的比率顯著高于啟動(dòng)子、內(nèi)含子、轉(zhuǎn)錄起始位點(diǎn)上游2 kb等區(qū)域,證明啟動(dòng)子區(qū)域的甲基化能調(diào)控基因表達(dá),該研究為深入解析動(dòng)物不同組織脂肪功能提供了表觀遺傳基礎(chǔ)數(shù)據(jù)。Sun等[23]采用ChIP-Seq技術(shù)研究小白鼠組織中的RNA Pol-Ⅱ 啟動(dòng)子,檢測(cè)到38 639個(gè)Pol-Ⅱ 啟動(dòng)子,有12 270個(gè)新啟動(dòng)子,識(shí)別不同組織中注釋基因的Pol-Ⅱ 啟動(dòng)子,發(fā)現(xiàn)37%編碼基因受選擇性啟動(dòng)子調(diào)控。
參考文獻(xiàn)
[1] HARISMENDY O,NG P C,STRAUSBERG R L,et al.Evaluation of next generation sequencing platforms for population targeted sequencing studies[J].Genome Biol,2009,10(3):1-13.
[2]DERRINGTON I M,BUTLER T Z,COLLINS M D,et al.Nanopore DNA sequencing with MspA[J].Proc Natl Acad Sci USA,2010,107(37):6060-6065.
[3]LUAN B Q,PENG H B,POLONSKY S,et al.BaseByBase ratcheting of single stranded DNA through a solidstate nanopore[J].Phys Rev Lett,2010,104:238103.
[4]EID J,F(xiàn)EHR A,GRAY J,et al.Realtime DNA sequencing from single polymerase molecules[J].Science,2009,323:133-138.
[5]朱大強(qiáng),李存,陳斌,等.四種常用高通量測(cè)序拼接軟件的應(yīng)用比較[J].生物信息學(xué),2011,9(2):106-112.
[6]ZERBINO D R,BIMEY E.Velvet:Algorithms for de novo short read assembly using de Bruijn graphs[J].Genome Res,2008,18(5):821-829.
[7]International Chicken Genome Sequencing Consortium.Sequence and comparative analysis of the chicken genome provide unique perspectives on vertebrate evolution[J].Nature,2004,432(7018):695-716.
[8]LI R Q,F(xiàn)AN W,TIAN G,et al.The sequence and de novo assembly of the giant panda genome[J].Nature,2010,463(7279):311-317.
[9]WANG M S,LI Y,PENG M S,et al.Genomic analyses reveal potential independent adaptation to high altitude in tibetan chickens[J].Molecular biology and evolution,2015,32(7):1880-1889.
[10] LI M Z,CHEN L,TIAN S L,et al.Comprehensive variation discovery and recovery of missing sequence in the pig genome using multiple de novo assemblies[J].Genome research,2017,27(5):865-874.
[11]LI M Z,TIAN S L,JIN L,et al.Genome analyse identify distinct patterns of selection in domesticated pigs and Tibetan wild boars[J].Nat Genet,2013,45(12):1431-1438.
[12]DAETWYLER H D,CAPITAN A,PAUSCH H,et al.Wholegenome sequencing of 234 bulls facilitates mapping of monogenic and complex traits in cattle[J].Nat Genet,2014,46(8):858-865.
[13]YI G Q,QU L J,LIU J F,et al.Genomewide patterns of copy number variation in the diversified chicken genomes using nextgeneration sequencing[J].BMC Genomics,2014,15(1):1-16.
[14]VAN TASSELL C P,SMITH T P L,MATUKUMALLI L K,et al.SNP discovery and allele frequency estimation by deep sequencing of reduced representation libraries[J].Nature methods,2008,5(3):247-252.
[15]KERSTENS H H D,CROOIJMANS R P M A,VEENENDAAL A,et al.Large scale single nucleotide polymorphism discovery in unsequenced genomes using second generation high throughput sequencing technology:Applied to turkey[J].BMC Genomics,2009,10(1):1-11.
[16]BAIRD N A,ETTER P D,ATWOOD T S,et al.Rapid SNP discovery and genetic mapping using sequenced RAD markers[J].PLoS One,2008,10(3):3376.
[17]李勇,苗澤圃,蒙小云,等.RAD-seq技術(shù)在大白豬繁殖性狀基因組選擇上的應(yīng)用[J].農(nóng)業(yè)生物技術(shù)學(xué)報(bào),2017,25(9):1508-1515.
[18]PARMAR N R,SOLANKI J V,PATEL A B,et al.Metagenome of Mehsani buffalo rumen microbiota:An assessment of variation in feeddependent phylogenetic and functional classification[J].J Mol Microbiol Biotechnol,2014,24(4):249-261.
[19]SINGH K M,SHAH T M,REDDY B,et al.Taxonomic and genecentric metagenomics of the fecal microbiome of low and high feed conversion ratio(FCR)broilers[J].J Appl Genet,2014,55(1):145-154.
[20]LARSBRINK J,ROGERS T E,HEMSWORTH G R,et al.A discrete genetic locus confers xyloglucan metabolism in select human gut Bacteroidetes[J].Nature,2014,506(7489):498-502.
[21]LISTER R,ECKER J R.Finding the fifth base:Genomewide sequencing of cytosine methylation[J].Genome Res,2009,19(6):959-966.
[22]張小麗.豬背部淺層和背部深層脂肪組織全基因組甲基化研究[D].雅安:四川農(nóng)業(yè)大學(xué),2013.
[23]SUN H,WU J J,WICKRAMASINGHE P,et al.Genomewide mapping of RNA PolⅡ promoter usage in mouse tissues by ChIPSeq[J].Nucleic Acids Res,2011,39(1):190-201.