劉 偉 郭光艷 秘彩莉
(河北師范大學(xué)生命科學(xué)學(xué)院 石家莊 050024)
遺傳學(xué)中心法則表明,遺傳信息在精密的調(diào)控下通過(guò)信使RNA(mRNA)從DNA傳遞到蛋白質(zhì)。因此,mRNA被認(rèn)為是DNA與蛋白質(zhì)之間生物信息傳遞的“橋梁”,而所有表達(dá)基因及其轉(zhuǎn)錄水平的綜合被稱(chēng)作轉(zhuǎn)錄組(transcriptome)。轉(zhuǎn)錄組這個(gè)概念最初由Velcuescu等[1]在研究酵母基因表達(dá)時(shí)提出。研究轉(zhuǎn)錄組的轉(zhuǎn)錄組學(xué)(transcriptomics)與蛋白質(zhì)組學(xué)和代謝組學(xué)一樣,均屬于功能基因組學(xué)研究范疇[2],是一門(mén)在整體水平上研究細(xì)胞中所有基因轉(zhuǎn)錄及轉(zhuǎn)錄調(diào)控規(guī)律的學(xué)科[3]。作為一種新的研究方法,轉(zhuǎn)錄組學(xué)利用全部基因的表達(dá)調(diào)控、蛋白質(zhì)功能等信息來(lái)解決生物學(xué)問(wèn)題,將基因組學(xué)研究帶入了一個(gè)高速發(fā)展的時(shí)代。轉(zhuǎn)錄組學(xué)的研究目的不僅是不同轉(zhuǎn)錄組樣本中每個(gè)基因的表達(dá)水平的變化,也包括轉(zhuǎn)錄組的定位和注釋及每個(gè)基因在基因組中的功能和結(jié)構(gòu)的測(cè)定。對(duì)基因及其轉(zhuǎn)錄表達(dá)產(chǎn)物功能研究的功能基因組學(xué),將為疾病控制和新藥開(kāi)發(fā)、作物和畜禽品種的改良提供新思路,為人類(lèi)解決健康問(wèn)題、食物問(wèn)題、能源問(wèn)題和環(huán)境問(wèn)題提供新方法。
轉(zhuǎn)錄組學(xué)作為一個(gè)率先發(fā)展起來(lái)的技術(shù)已經(jīng)在生物學(xué)前沿研究中得到了越來(lái)越廣泛的應(yīng)用。廣義轉(zhuǎn)錄組指從一種細(xì)胞或者組織的基因組所轉(zhuǎn)錄出來(lái)的RNA總和,包括編碼蛋白質(zhì)的mRNA和各種非編碼RNA(ncRNA),如rRNA、tRNA、核仁小RNA(snoRNA)、小核RNA(snRNA)、微RNA(mRNA)和其他ncRNA等。轉(zhuǎn)錄組學(xué)從整體水平研究基因的功能和基因結(jié)構(gòu),揭示特定生物學(xué)過(guò)程中的分子機(jī)理。目前,已廣泛應(yīng)用于微生物和動(dòng)植物基礎(chǔ)研究、臨床診斷和藥物研發(fā)等領(lǐng)域。
由于測(cè)序價(jià)格昂貴、基因序列數(shù)目有限,轉(zhuǎn)錄組學(xué)研究者只能進(jìn)行極少數(shù)特定基因的結(jié)構(gòu)功能分析和表達(dá)研究。近十幾年,分子生物學(xué)技術(shù)的快速發(fā)展使高通量分析成為可能,這為真正意義上的轉(zhuǎn)錄組學(xué)的研究奠定了基礎(chǔ)。這些高通量研究方法主要分為兩類(lèi): 一類(lèi)是基于雜交的方法,主要是指微陣列技術(shù)(microarray)、基因芯片(microassay)技術(shù);一類(lèi)是基于測(cè)序的方法,這類(lèi)方法包括表達(dá)序列標(biāo)簽技術(shù)(expression sequence tags technology, EST)、基因表達(dá)系列分析技術(shù)(serial analysis of gene expression, SAGE)、大規(guī)模平行測(cè)序技術(shù)(massively parallel signature sequencing, MPSS)、RNA測(cè)序技術(shù)(RNA sequencing, RNA-seq)。其中,microarray和EST技術(shù)是較早發(fā)展起來(lái)的先驅(qū)技術(shù),SAGE、 MPSS和RNA-seq是高通量測(cè)序條件下的轉(zhuǎn)錄組學(xué)研究方法,有助于了解特定生命過(guò)程中相關(guān)基因的整體表達(dá)情況,進(jìn)而從轉(zhuǎn)錄水平揭示生命過(guò)程的代謝網(wǎng)絡(luò)及調(diào)控機(jī)理。
2.1 微陣列技術(shù) 微陣列技術(shù)是分子生物學(xué)領(lǐng)域具有里程碑式意義的重大突破,同時(shí)它可以測(cè)量不同樣本中成千上萬(wàn)個(gè)基因在不同環(huán)境和不同狀態(tài)下的表達(dá)水平?;虮磉_(dá)數(shù)據(jù)是基于DNA微陣列技術(shù)而產(chǎn)生的反映基因轉(zhuǎn)錄產(chǎn)物mRNA豐度值的一種數(shù)據(jù)。
2.1.1 cDNA微陣列 cDNA微陣列的制備過(guò)程包括: ①對(duì)各種生物隨機(jī)克隆和隨機(jī)測(cè)序所得的cDNA片段進(jìn)行歸類(lèi);②把每一類(lèi)cDNA片段的代表克隆(代表一個(gè)獨(dú)立基因)進(jìn)行體外擴(kuò)增,并將得到的大小和序列不同的片段分別進(jìn)行純化;③利用機(jī)械手高速、高密度、有序地將它們點(diǎn)樣固定在玻片硅晶片或尼龍膜上制備成cDNA微陣列;④以此cDNA微陣列對(duì)各基因的表達(dá)情況進(jìn)行同步分析。它的特點(diǎn)是造價(jià)低、適用面廣、研制周期短、靈活性高。
2.1.2 寡核苷酸微陣列 寡核苷酸微陣列的主要原理與cDNA微陣列類(lèi)似,主要是通過(guò)堿基互補(bǔ)配對(duì)原則進(jìn)行雜交,來(lái)檢測(cè)對(duì)應(yīng)片段是否存在和存在量的多少。它與cDNA芯片的本質(zhì)差別在于寡核苷酸的探針片段相對(duì)較短(一般為20~70 nt)。寡核苷酸微陣列的探針經(jīng)過(guò)優(yōu)化,長(zhǎng)度基本一致,而且Tm也相差不大。比較而言,cDNA微陣列具有以下優(yōu)點(diǎn): 無(wú)需擴(kuò)增,可避免擴(kuò)增失敗而影響實(shí)驗(yàn);減少非特異性雜交,能夠有效地區(qū)分同源序列的基因;雜交溫度均一,可提高雜交效率;減少了微陣列片上探針的二級(jí)結(jié)構(gòu)。
2.2 基因芯片技術(shù) 基因芯片是基于核酸雜交的一種轉(zhuǎn)錄組研究技術(shù),該技術(shù)利用紅、綠熒光染料分別標(biāo)記實(shí)驗(yàn)樣本和對(duì)照樣本cDNA,將樣本混合后與基因芯片雜交,可顯示實(shí)驗(yàn)樣本和對(duì)照樣本基因的表達(dá)強(qiáng)度[4]。目前,基因芯片主要應(yīng)用于基因表達(dá)檢測(cè)、尋找新基因和基因突變以及基因文庫(kù)作圖等方面研究。
基因芯片技術(shù)比較成熟,能夠準(zhǔn)確地檢測(cè)較高表達(dá)的基因。但因雜交背景高,受基因拷貝數(shù)的限制無(wú)法檢測(cè)出低豐度基因,且數(shù)據(jù)庫(kù)數(shù)據(jù)有限,可能出現(xiàn)注釋錯(cuò)誤。
2.3 表達(dá)序列標(biāo)簽技術(shù)(EST) 基因表達(dá)序列標(biāo)簽(expressed sequence tags, ESTs)為長(zhǎng)約200~800 bp的cDNA部分序列。當(dāng)人類(lèi)基因組計(jì)劃剛剛開(kāi)始時(shí),一些科學(xué)家就主張cDNA測(cè)序應(yīng)該先于基因組測(cè)序進(jìn)行,原因是基因組的編碼區(qū)代表了基因組絕大部分信息,而編碼區(qū)長(zhǎng)度只有總基因組長(zhǎng)度的3%,因此可以用最低的代價(jià)、最短的時(shí)間獲得最多、最有用的信息。
一個(gè)典型的真核生物mRNA分子由5′端轉(zhuǎn)錄非翻譯區(qū)(5′-UTR)、開(kāi)放閱讀框架(ORF)、3′端轉(zhuǎn)錄非翻譯區(qū)(3′-UTR)和聚A [poly(A)]四部分組成,其cDNA具有對(duì)應(yīng)的結(jié)構(gòu)。對(duì)于任何一個(gè)基因,其5′-UTR和3′-UTR都是特定的,即每條cDNA的5′端或3′端的有限序列可特異性地代表生物體某種組織在特定的時(shí)空條件下的一個(gè)表達(dá)基因。通過(guò)對(duì)生物體EST的分析,可以獲得生物體內(nèi)基因的表達(dá)情況和表達(dá)豐度。要獲得生物體EST信息,通常應(yīng)先構(gòu)建其某個(gè)代表性組織的cDNA文庫(kù),從中隨機(jī)挑取大量克隆,根據(jù)載體的通用引物進(jìn)行測(cè)序,一般可以得到5′或3′端的200~500 bp的堿基序列,然后將測(cè)得的EST序列與網(wǎng)上已有的EST數(shù)據(jù)庫(kù)進(jìn)行比較,對(duì)生物體基因的表達(dá)豐度進(jìn)行分析。
2.4 新一代高通量測(cè)序技術(shù) 主要介紹三種:
2.4.1 基因表達(dá)系列分析技術(shù)(SAGE) SAGE技術(shù)是由Velculescu等人[5]在1995年提出的,是一種可以定量并同時(shí)分析大量轉(zhuǎn)錄本的方法。1998年,Powell[6]利用生物素標(biāo)記的PCR引物合成生物素標(biāo)記的接頭,并利用鏈霉抗生素蛋白磁珠綁定接頭,有效地去除了一些多余的接頭,從而提高了SAGE技術(shù)的分析效率。SAGE技術(shù)的理論依據(jù)主要有兩點(diǎn): 第一,來(lái)自cDNA特定位置的一段9~13 bp的序列包含有足夠的信息作為確認(rèn)唯一一種轉(zhuǎn)錄物的SAGE標(biāo)簽(9個(gè)堿基能夠分辨49個(gè)不同轉(zhuǎn)錄物);第二,將來(lái)自不同cDNA的SAGE標(biāo)簽集于同一克隆中進(jìn)行測(cè)序,就可以獲得連續(xù)的短序列SAGE標(biāo)簽,而這些SAGE標(biāo)簽可以顯示對(duì)應(yīng)的基因表達(dá)情況。
2.4.2 大規(guī)模平行測(cè)序技術(shù)(MPSS) MPSS技術(shù)是由Brenner等[7]在2000年建立的以測(cè)序?yàn)榛A(chǔ)的大規(guī)模高通量的基因分析技術(shù)。其方法的理論基礎(chǔ)[8]是: 一個(gè)標(biāo)簽序列(一般為10~20 bp)含有其對(duì)應(yīng)cDNA的足夠識(shí)別信息,將標(biāo)簽序列與某種長(zhǎng)的連續(xù)分子連接在一起,可以便于克隆和測(cè)序分析,而每個(gè)標(biāo)簽序列的出現(xiàn)頻率又能夠代表其相應(yīng)基因的表達(dá)量。
2.4.3 RNA測(cè)序技術(shù)(RNA-seq) 該技術(shù)首先將細(xì)胞中的所有轉(zhuǎn)錄產(chǎn)物作為cDNA文庫(kù),然后將cDNA文庫(kù)中的DNA隨機(jī)剪切為小片段(或先將RNA片段化后再轉(zhuǎn)錄),再在cDNA兩端加上接頭,并利用新一代高通量測(cè)序儀測(cè)序,直到獲得足夠的序列,最后將所得序列通過(guò)比對(duì)或從頭組裝形成全基因組范圍的轉(zhuǎn)錄譜。
3.1 微陣列技術(shù) 主要介紹該技術(shù)用于基因組表達(dá)差異研究以及基因點(diǎn)突變與多態(tài)性研究。
3.1.1 表達(dá)差異的研究 1995年Schena[9]等用了48個(gè)PCR擴(kuò)增的cDNA探針點(diǎn)制的微陣列片分析了野生型和轉(zhuǎn)基因的擬南芥中基因表達(dá)差異,并且在同一張玻片上使用不同的熒光染料同步進(jìn)行差異比較。近年來(lái),研究多集中于突變型與野生型、環(huán)境脅迫型與正常生長(zhǎng)型、激素處理組與未處理組或者不同組織器官之間基因表達(dá)差異的比較。Ma等[10]利用寡核苷酸微陣列研究了玉米3個(gè)雄性不育突變體和可育植株花藥4個(gè)發(fā)育階段的基因表達(dá)情況,檢測(cè)到了近9 200個(gè)正、反義轉(zhuǎn)錄本。通過(guò)比較每個(gè)突變體與其可育花藥的基因表達(dá)差異,篩選到了一大批可能與花藥分化相關(guān)的重要轉(zhuǎn)錄因子和調(diào)控因子。
3.1.2 基因點(diǎn)突變及多態(tài)性檢測(cè) 現(xiàn)用于治療艾滋病(AIDS)的藥物,主要是病毒逆轉(zhuǎn)錄酶和蛋白酶的抑制劑,但在用藥3~12月后常出現(xiàn)耐藥性,其原因是逆轉(zhuǎn)錄酶和蛋白酶基因都能產(chǎn)生一個(gè)或多個(gè)點(diǎn)突變。逆轉(zhuǎn)錄酶的四個(gè)常見(jiàn)突變位點(diǎn)是Asp67-Asn、 Lys70-Arg、 Thr215-Phe/Tyr和Lys219-Gln,四個(gè)位點(diǎn)同時(shí)突變較單一位點(diǎn)突變對(duì)藥物的耐受能力成百倍增加[11]。如將這些基因突變部位的全部序列構(gòu)建為DNA芯片,則可快速地檢測(cè)患者體內(nèi)發(fā)生的是一個(gè)還是多個(gè)基因突變,這對(duì)指導(dǎo)治療和預(yù)后具有十分重要的意義。
3.2 表達(dá)序列標(biāo)簽技術(shù)的應(yīng)用 主要介紹以下5個(gè)方面的應(yīng)用:
3.2.1 繪制基因組物理圖譜 通過(guò)已知的EST序列設(shè)計(jì)引物,并對(duì)基因組BAC文庫(kù)進(jìn)行PCR,能顯示擴(kuò)增條帶的那個(gè)克隆就是EST在染色體上的位置,這個(gè)EST就可以被定位在相關(guān)染色體上,并進(jìn)而亞定位至染色體的某個(gè)區(qū)段。另外,還可以用EST序列提供的探針與基因組BAC文庫(kù)雜交,同樣能將某個(gè)已知EST在染色體上定位和亞定位。
3.2.2 基因的電子克隆 電子克隆技術(shù)是以算法為核心,以計(jì)算機(jī)和互聯(lián)網(wǎng)為工具,利用現(xiàn)有的表達(dá)序列標(biāo)簽(EST)和生物信息數(shù)據(jù)庫(kù),對(duì)其中大量的EST進(jìn)行分類(lèi)、整合和組裝,直接獲得大片段或cDNA全長(zhǎng)的方法。電子克隆技術(shù)的出現(xiàn),可充分利用現(xiàn)有的信息資源,特別是利用其他模式生物的EST信息,快速發(fā)現(xiàn)目標(biāo)基因。
3.2.3 分離鑒定新基因 對(duì)某一特異組織或某一生長(zhǎng)發(fā)育階段的cDNA文庫(kù)進(jìn)行隨機(jī)的部分測(cè)序,得到大量EST,將這些EST作查詢(xún)項(xiàng)在GenBank的子數(shù)據(jù)庫(kù)dbEST中進(jìn)行同源查找,同時(shí)將由EST推出的氨基酸序列作為查詢(xún)項(xiàng)在聚異三聚氰酸酯(polyisocyanurate foam, PIR)中查找類(lèi)似物,可以識(shí)別這些基因到底是什么基因;對(duì)于那些在以上數(shù)據(jù)庫(kù)中沒(méi)有找到類(lèi)似物的EST,再把它們置于6個(gè)開(kāi)放閱讀框下,翻譯出推定的氨基酸序列,將可能的氨基酸序列作為查詢(xún)項(xiàng),在PIR數(shù)據(jù)庫(kù)中查找類(lèi)似物,如果有類(lèi)似物,就認(rèn)為這個(gè)EST代表著這個(gè)蛋白的基因。而那些在dbEST和PIR數(shù)據(jù)庫(kù)中都沒(méi)有類(lèi)似物的EST,就可能是完全新的基因,需要進(jìn)一步識(shí)別和研究。
3.2.4 通過(guò)EST尋找SSR和SNR分子標(biāo)記 從EST數(shù)據(jù)庫(kù)中篩選簡(jiǎn)單重復(fù)序列(SSR)和單核苷酸多態(tài)性(SNP)的主要優(yōu)點(diǎn)在于,這樣篩選出來(lái)的SSR和SNP分子標(biāo)記直接與基因的編碼區(qū)相對(duì)應(yīng),即得到的往往是基因相關(guān)標(biāo)記。篩選的大致步驟為: EST重疊群的組裝;通過(guò)對(duì)大量重復(fù)的EST進(jìn)行序列比較,識(shí)別出候選SSR或SNP;對(duì)候選SSR或SNP進(jìn)行確認(rèn)。EST還可在基因結(jié)構(gòu)分析(內(nèi)含子、外顯子識(shí)別)、基因表達(dá)及重組蛋白表達(dá)的分析中具有重要作用。
3.2.5 RNAi技術(shù)的研究 RNAi指外源性雙鏈RNA(dsRNA)能抑制細(xì)胞內(nèi)與其序列同源的基因表達(dá)。在進(jìn)化上,這可能是生物調(diào)控基因表達(dá)及抵御病毒侵染或轉(zhuǎn)座子誘導(dǎo)DNA突變的一種共有的生理機(jī)制。該技術(shù)最大的優(yōu)點(diǎn)就是可以獲得大規(guī)模的缺失突變體,能為基因功能的研究提供很好的研究工具。同時(shí)EST作為序列標(biāo)簽,很好地實(shí)現(xiàn)表型相關(guān)的基因克隆。
3.3 新一代高通量測(cè)序技術(shù)的應(yīng)用 主要介紹三個(gè)方面:
3.3.1 SAGE技術(shù)同時(shí)檢測(cè)大量的基因轉(zhuǎn)錄本 一個(gè)測(cè)序反應(yīng)可得到40個(gè)左右標(biāo)簽序列,同時(shí)由于SAGE技術(shù)的靈敏度很高,可以檢測(cè)出低豐度表達(dá)的基因,是一種預(yù)測(cè)基因數(shù)目和發(fā)現(xiàn)新基因的有效途徑。SAGE還可用于在不同生理狀態(tài)、不同環(huán)境或不同生長(zhǎng)階段的細(xì)胞或組織的基因表達(dá)圖譜構(gòu)建,對(duì)不同狀態(tài)下基因表達(dá)水平的定量或定性比較。
3.3.2 MPSS可提供某一cDNA在體內(nèi)特定發(fā)育階段的拷貝數(shù) MPSS的這一功能,為在轉(zhuǎn)錄水平上進(jìn)行基因表達(dá)分析提供了強(qiáng)有力定性和定量手段。MPSS所獲得的基因序列可提供PCR引物,通過(guò)比較EST數(shù)據(jù)庫(kù)等進(jìn)行基因定位,也可轉(zhuǎn)化為分子標(biāo)記構(gòu)建遺傳圖譜等,因此該技術(shù)可廣泛用于動(dòng)植物分類(lèi)學(xué)和遺傳學(xué)、功能基因組學(xué)、蛋白質(zhì)組學(xué)等研究領(lǐng)域。
3.3.3 RNA-seq能在單核苷酸水平對(duì)任意物種的整體轉(zhuǎn)錄活動(dòng)進(jìn)行高精確度檢測(cè) 可以用于分析真核生物復(fù)雜的轉(zhuǎn)錄本的結(jié)構(gòu)及表達(dá)水平,提供最全面的轉(zhuǎn)錄組信息。從而可以在總體上全面研究基因表達(dá),制定構(gòu)建基因表達(dá)圖譜的首選策略,用以發(fā)現(xiàn)新的基因。
3.4 在代謝工程領(lǐng)域中的應(yīng)用 動(dòng)物細(xì)胞系目前已經(jīng)被廣泛用于蛋白質(zhì)藥物等產(chǎn)品的大量生產(chǎn)上,利用動(dòng)物細(xì)胞表達(dá)蛋白其優(yōu)勢(shì)在于有助于蛋白質(zhì)正確折疊、組裝并進(jìn)行翻譯后的修飾,目標(biāo)蛋白質(zhì)可正常行使其功能。轉(zhuǎn)錄組分析在減少細(xì)胞代謝負(fù)擔(dān)、控制細(xì)胞貼壁性、調(diào)控細(xì)胞生長(zhǎng)活性等方面有成功的應(yīng)用。
3.5 在藥用植物研究中的應(yīng)用 目前,1/3以上的臨床用藥來(lái)源于植物提取物或其衍生物。隨著分子生物學(xué)向各個(gè)學(xué)科領(lǐng)域的滲透及蛋白質(zhì)學(xué)和生物信息學(xué)的應(yīng)用,闡明藥用植物天然活性成分生物合成途徑及其關(guān)鍵酶,實(shí)現(xiàn)關(guān)鍵酶基因的克隆與體外高效表達(dá),利用現(xiàn)代生物技術(shù)手段及次生代謝工程,大規(guī)模生產(chǎn)藥用植物的有效成分將成為未來(lái)發(fā)展方向之一。
3.6 在瓜菜作物上的應(yīng)用 轉(zhuǎn)錄組技術(shù)因具有測(cè)序通量高、時(shí)間短且成本低、信息量大等優(yōu)勢(shì),現(xiàn)已被廣泛應(yīng)用于瓜菜作物轉(zhuǎn)錄組的研究中,如辣椒、南瓜、西葫蘆、西瓜、黃瓜、甘薯、大蒜、西蘭花、番茄等作物。這些研究運(yùn)用RNA-seq技術(shù),有助于發(fā)現(xiàn)瓜菜作物轉(zhuǎn)錄組的重要基因和SSR分子標(biāo)記。此外,瓜菜作物在受到生物和非生物因素影響后,會(huì)引起自身代謝失衡等生理狀態(tài)的變化,而運(yùn)用轉(zhuǎn)錄組學(xué)方法,可以研究特定時(shí)間、特定狀態(tài)下內(nèi)源因子和外源因子調(diào)控的基因表達(dá)差異情況,在瓜菜非生物脅迫和抗病機(jī)制研究應(yīng)用方面前景廣闊。
隨著各種轉(zhuǎn)錄組學(xué)研究技術(shù)的發(fā)展,尤其是RNA-Seq技術(shù)的應(yīng)用,轉(zhuǎn)錄組學(xué)研究已經(jīng)進(jìn)入了一個(gè)全新的階段。轉(zhuǎn)錄水平調(diào)控是生物體最主要的調(diào)控方式,對(duì)生物體細(xì)胞RNA的調(diào)控機(jī)制研究可以從基因組水平上進(jìn)行。就目前來(lái)看,轉(zhuǎn)錄組測(cè)序技術(shù)正逐步取代傳統(tǒng)測(cè)序方法(如基因芯片技術(shù))而成為研究基因的主要手段?,F(xiàn)階段,轉(zhuǎn)錄組學(xué)技術(shù)因其低成本和方便性已經(jīng)受到廣泛重視。