闞東揚(yáng)
(昭通學(xué)院農(nóng)學(xué)與生命科學(xué)學(xué)院 云南 昭通 657000)
眾所周知,遺傳信息是通過信使RNA(mRNA),經(jīng)過精細(xì)調(diào)節(jié)的過程從DNA傳遞到蛋白質(zhì)的。由中心法則我們可以知道RNA是作為一個“橋”連接著遺傳信息由DNA傳遞到蛋白質(zhì)中,而每個基因以及其相應(yīng)的表達(dá)量水平被稱為轉(zhuǎn)錄組[1]。從廣義上來說轉(zhuǎn)錄組包括mRNA,rRNA,tRNA,以及非編碼RNA。狹義上來說它僅指所一個樣本中收集到的所有mRNA[2],因此轉(zhuǎn)錄組測序也被稱為RNA-seq。
隨著對基因組研究的深入,研究者對能夠進(jìn)行各種轉(zhuǎn)錄基因分析的工具的需求,更加迫切。特別是能夠進(jìn)行差異基因鑒別和表達(dá)量分析的工具。因此隨著新一代測序技術(shù)的成熟,RNA-seq被廣泛應(yīng)用于各種RNA功能研究中,通過不同的分離試劑可以在制備cDNA文庫前得到所需要的各種類型RNA(mRNA,rRNA,tRNA,小分子RNA)。
目前RNA-seq已經(jīng)作為一種主流的研究轉(zhuǎn)錄組的測序技術(shù),其相比較于其他幾種技術(shù)具有顯著的優(yōu)勢。
通過建立泊松分布模型捕獲差異表達(dá)基因,發(fā)現(xiàn)相較于其他幾種測序技術(shù)(分子雜交,生物芯片,堿基測序,這些方法基本都基于桑格爾測序法),有0.5%的基因可以觀察到明顯的差異,背離分布。并且通過這個模型,比基因組芯片鑒定出的基因更多,高達(dá)30%[3](Marioni et al.,2008)(Marioni,J.C,2008)。特別是對具有親緣關(guān)系的相近物種進(jìn)行檢測基因表達(dá)量分析和差異基因鑒別時,相比其他方法具有高度靈敏性和更高的信息深度[4]。而這些基于堿基雜交的方法其固有的缺陷:1花費(fèi)昂貴,2 high-resolution tiling arrays(高分辨率芯片)需要查詢大量的基因組,此外這些方法還有其他限制:1需要大量已知的片段序列,2高背景水平(由于交叉雜交的特點(diǎn)),3有限的檢測范圍(由于信號的濃度和溶解度)并且對表達(dá)水平的檢測,一個實(shí)驗往往很難辦到,而且常常是普通實(shí)驗復(fù)雜化[5]。RNA-seq的三個優(yōu)勢:1:無需現(xiàn)有基因的支持,可以測序非模式種,2與DNA芯片相比低背景,高敏感性,樣品只需少量,無序列數(shù)量上限,精度高[6]。
RNA-seq相比芯片技術(shù)在測序范圍內(nèi)高出了五個數(shù)量級,高豐度情況下,RNA-seq相比芯片能檢測出大約40%的差異基因表達(dá)的。事實(shí)上,RNA-seq相比芯片技術(shù)的最大優(yōu)勢是在外顯子邊界范圍的預(yù)測[7]。采用RNA-seq可以較為準(zhǔn)確的測量基因表達(dá)水平[8]轉(zhuǎn)錄子的表達(dá)水平是與它的讀段是成比例的,相應(yīng)的讀段數(shù)目乘以轉(zhuǎn)錄子的長度,即可作為一個直觀的量化表達(dá)量的水平的依據(jù)[9]。RNA-seq的另一個巨大優(yōu)勢體現(xiàn)在時效性和廉價性上,特別是在大規(guī)模測序應(yīng)用中,可以以低廉的花費(fèi)在較短的時間內(nèi)獲得樣品基因組的數(shù)據(jù)。
表1 RNA-seq的特點(diǎn)
RNA-seq是以 Illumina 公司的 Solexa 技術(shù)為代表的新一代測序技術(shù),又稱作深度測序技術(shù)。由于其具有的測序通量高、測序時間和成本顯著下降特點(diǎn),使其被廣泛應(yīng)用于各種RNA片段測序研究中,因此被稱為RNA-seq 或 RNA 測序。
以Illumina公司的Solexa技術(shù)為例,其測序原理為:邊合成邊測序[10],其測序過程是在獲得的RNA單鏈反轉(zhuǎn)錄為DNA 單鏈后,以單鏈cDNA為模板,在生成互補(bǔ)鏈時,利用帶熒光標(biāo)記的 dNTP 發(fā)出不同顏色的熒光來確定不同的堿基.新加入 dNTP 的末端被可逆的保護(hù)基團(tuán)封閉,既保證單次反應(yīng)只能加入一個堿基,又能在該堿基讀取完畢后,將保護(hù)基團(tuán)除去,繼續(xù)下一個反應(yīng)。
RNA-seq主要包含兩個流程:1 cDNA文庫的構(gòu)建,2 測序得到的讀段(read)處理。以Illumina技術(shù)為例,典型的構(gòu)建mRNA文庫主要分為(1)抽提總RNA并片段化,(2)使用共軛磁珠(oligo-dT)從總RNA中捕獲polyA+,獲得mRNA(RNA片段相對于DNA片段的優(yōu)勢在于減少RNA二級結(jié)構(gòu)[11]庫,(3)反轉(zhuǎn)錄mRNA獲得cDNA片段,(4)為cDNA裝配測序接頭,(5)清理文庫并擴(kuò)增文庫片段。如圖1所示:
圖1 cDNA文庫構(gòu)建流程
完成cDNA文庫的構(gòu)建后,即可上機(jī)測序,獲得讀段(reads),將獲得的讀段進(jìn)行比較,基于讀段之間的重疊區(qū)域進(jìn)行拼接,構(gòu)建重疊群。對這些拼接后獲得的序列(contigs)進(jìn)行相鄰序列界定(往往還需要構(gòu)建454 Paired-end庫或Illumina Mate-pair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列。基于這些序列,可以確定這些Contigs之間的順序關(guān)系),進(jìn)一步拼接。這些確定前后順序的contigs拼接后的片段稱為Scaffold。隨后就可以將獲得的Scaffold拼接并構(gòu)建樣品基因組。如圖2所示:
圖2 讀段后續(xù)處理
幾乎所有的RNA-seq研究都可以分為三類:1.差異基因表達(dá)研究,比較在不同條件下,每個基因的差異表達(dá)。2.差異轉(zhuǎn)錄本/外顯子使用研究,比較在不同條件下基因同工型豐度譜的組成。3.差異轉(zhuǎn)錄表達(dá)研究,重點(diǎn)在研究單個轉(zhuǎn)錄本是否顯示不同條件之間的差異表達(dá)[12]。
整個轉(zhuǎn)錄組分析的主要目標(biāo)是鑒定,表征和分類在特定細(xì)胞/組織(特定階段)表達(dá)的所有轉(zhuǎn)錄本,它具有確定正確剪接模式和基因結(jié)構(gòu)的潛力,并量化兩種轉(zhuǎn)錄本的差異表達(dá) 生理和病理狀況。同樣的,具有同工型編碼不同蛋白的基因可能是作用于不同細(xì)胞或者生命活動周期,而檢測不同的promoter和拼接位點(diǎn)可以探明轉(zhuǎn)錄組的調(diào)節(jié)行為和規(guī)律[13],了解這些差異對于我們理解或者解決生物的多種重大疾病有極大的幫助。
(1)RNA-seq得到的數(shù)十億對堿基數(shù)據(jù)對于高效構(gòu)建轉(zhuǎn)錄圖譜是一個巨大的挑戰(zhàn)。大量“未充分利用”的信息的滯存,由于新信息的產(chǎn)生,使得這些滯存的信息在幾個月內(nèi)變得無用[14]而由于轉(zhuǎn)錄子結(jié)構(gòu)的不連續(xù)性,對于精準(zhǔn)拼接龐大的RNA-seq數(shù)據(jù)庫是很困難的[15],但現(xiàn)有的算法有其固有的缺陷對于拼接或者表達(dá)水平有誤差(如:RPKM(一種RNA-seq的讀段測量方法)——所固有的問題:掩蓋了總mRNA含量的差異。如果總mRNA含量也發(fā)生變化,則一個基因的RPKM可能會“上調(diào)”,并且絕對表達(dá)水平會降低[16]因此對新的計算策略和專業(yè)知識進(jìn)行同等開發(fā)就迫在眉睫,以處理當(dāng)前一代新測序儀器創(chuàng)建的數(shù)據(jù)量,最大程度地發(fā)揮其潛在效益。(2)數(shù)據(jù)管理:沒有適當(dāng)?shù)男畔⒓夹g(shù)(IT)基礎(chǔ)架構(gòu),下游計算分析將變得困難;每次測序運(yùn)行產(chǎn)生的數(shù)兆字節(jié)的數(shù)據(jù)需要顯著的存儲和備份容量,大大增加了,這也迫切需要專業(yè)的生物信息技術(shù)學(xué)者開發(fā)新的算法;(3)關(guān)于原始數(shù)據(jù)生成所使用的協(xié)議:每個平臺在樣品制備以及原始數(shù)據(jù)的類型和數(shù)量上都有其獨(dú)特性,因此使用它們時,每個均需要相應(yīng)的實(shí)驗室專業(yè)知識和數(shù)據(jù)處理管道,這很大程度上阻礙了研究人員的實(shí)驗進(jìn)度。(4)無論使用哪種軟件,最重要的問題是了解其局限性和假設(shè)。測序采用輸入/輸出數(shù)據(jù)標(biāo)準(zhǔn)對于有效處理數(shù)據(jù)管理問題也至關(guān)重要。(5)仔細(xì)的實(shí)驗設(shè)計的未得到充分考慮。
近年來對于單細(xì)胞RNA-seq的應(yīng)用不斷深入,將RNA-seq應(yīng)用于單細(xì)胞轉(zhuǎn)錄組中,以研究細(xì)胞在不同分化階段上的轉(zhuǎn)錄組差異,構(gòu)建細(xì)胞的時間軸上的分化差異,從而構(gòu)建細(xì)胞的分化時間軸,進(jìn)而挖掘重要的功能基因[18]。這對于研究生物系統(tǒng)發(fā)育極具吸引力,新的研究成果不斷涌現(xiàn),未來RNA-seq也將更進(jìn)一步的應(yīng)用于非模式種的單細(xì)胞轉(zhuǎn)錄組測序中。