張泗舉,欒維江
(1.天津師范大學(xué)生命科學(xué)學(xué)院,天津 300387;2.天津師范大學(xué)天津市動(dòng)植物抗性重點(diǎn)實(shí)驗(yàn)室,天津 300387)
自從人們認(rèn)識(shí)基因的本質(zhì)是DNA 以來(lái),就嘗試著采用各種方法對(duì)基因進(jìn)行一系列的改變,以期通過(guò)創(chuàng)造相應(yīng)的突變體,獲得對(duì)人類(lèi)有益的微生物和動(dòng)植物性狀或應(yīng)用于人類(lèi)的疾病治療.在這個(gè)過(guò)程中,人們運(yùn)用了物理方法、化學(xué)方法、分子生物學(xué)方法等,對(duì)基因的改變也從當(dāng)初的不定向突變發(fā)展為定向改變.在定向改變技術(shù)中,又經(jīng)歷了ZFN、TALEN、CRISPR/Cas 等技術(shù)的發(fā)展過(guò)程.本文對(duì)這一過(guò)程進(jìn)行了系統(tǒng)梳理,對(duì)各種方法的原理及應(yīng)用范圍進(jìn)行了簡(jiǎn)要總結(jié),并著重介紹以CRISPR/Cas9 為代表的基因編輯技術(shù)的發(fā)展歷程、基本原理、應(yīng)用范圍及注意事項(xiàng)等.此外,對(duì)基因編輯的前景作了展望.
非定向打靶技術(shù)主要包括物理方法和化學(xué)方法.物理方法主要通過(guò)各種射線來(lái)處理生物材料,造成生物體DNA 的斷裂或交聯(lián)等損傷.常用的射線有X 射線、γ 射線、中子、電子束、紫外線等.輻射可產(chǎn)生A-T或C-G 之間的氫鍵斷裂、 在1 或2 個(gè)DNA 鏈中糖與磷酸基之間發(fā)生斷裂、同一DNA 上相鄰胸腺嘧啶之間形成二聚體以及DNA 鏈的斷裂和交聯(lián)等多種結(jié)果[1].這些損傷如果得不到正確修復(fù),就會(huì)產(chǎn)生突變.化學(xué)方法主要是使用能引起DNA 序列改變的化學(xué)試劑,包括:①烷化劑類(lèi),它們能置換DNA 分子的H 原子(烷化作用),改變基因的分子結(jié)構(gòu);②核酸堿基類(lèi)似物,在不妨礙DNA 復(fù)制的情況下,代替DNA 的成分滲入到DNA 分子中去,引起DNA 復(fù)制時(shí)堿基配對(duì)的差錯(cuò);③吖啶類(lèi)嵌入劑,誘發(fā)移碼突變; ④亞硝酸,能使核酸、核苷酸和核苷中的嘌呤和嘧啶上的氨基轉(zhuǎn)變?yōu)榱u基,造成DNA 復(fù)制的紊亂[2].
理化誘變僅造成個(gè)別或者一些位點(diǎn)的DNA 結(jié)構(gòu)發(fā)生變化,總體的遺傳背景是一致的,因此在生物學(xué)研究特別是基因克隆和功能研究中該技術(shù)受到高度重視.理化誘變方法簡(jiǎn)便,突變效率高,突變由DNA點(diǎn)突變、缺失、重排引起,已廣泛應(yīng)用于擬南芥和水稻突變體庫(kù)的構(gòu)建中.但其誘變過(guò)程難以控制,一個(gè)突變體經(jīng)常包含多個(gè)點(diǎn)突變,突變表型可能由多個(gè)點(diǎn)突變引起,增加了基因功能鑒定的難度.
插入突變是T-DNA(Transfer DNA)、轉(zhuǎn)座子標(biāo)簽(Transposon tagging)或逆轉(zhuǎn)座子標(biāo)簽(Retrotransposon tagging)插入到基因組中,相應(yīng)位點(diǎn)基因的功能可能受到抑制而產(chǎn)生基因敲除(Knock out)突變體,插入元件同時(shí)又可用作標(biāo)簽從基因組中分離出相應(yīng)位點(diǎn)的基因并鑒定其功能.T-DNA、逆轉(zhuǎn)座子標(biāo)簽和轉(zhuǎn)座子標(biāo)簽是構(gòu)建插入突變體庫(kù)的3 種主要方法,經(jīng)常用于模式植物的突變體創(chuàng)建[3].農(nóng)桿菌介導(dǎo)的植物遺傳轉(zhuǎn)化方法的成熟和完善為插入突變體庫(kù)的構(gòu)建提供了依據(jù)[4].
T-DNA插入突變是農(nóng)桿菌侵染植物后,農(nóng)桿菌Ti 質(zhì)粒中的一段DNA 整合到植物基因組中.如果插入位點(diǎn)是功能基因,通常會(huì)造成該基因的功能喪失,如果該基因是植物生長(zhǎng)發(fā)育不可缺少的,則會(huì)表現(xiàn)出相應(yīng)的突變性狀.T-DNA 在外源植物基因組中的整合是隨機(jī)的,它可以整合到植物的任何一條染色體上.T-DNA 插入的位置不同,可引起植物產(chǎn)生不同表型.利用T-DNA 方法構(gòu)建插入突變體庫(kù),每個(gè)轉(zhuǎn)基因植株的產(chǎn)生都是獨(dú)立的遺傳轉(zhuǎn)化事件,是發(fā)現(xiàn)基因突變的有效手段.但轉(zhuǎn)基因步驟復(fù)雜,有些植物的轉(zhuǎn)化效率不高,因此構(gòu)建T-DNA 插入的大群體費(fèi)錢(qián)費(fèi)功,而且伴有大量的逆轉(zhuǎn)座子轉(zhuǎn)座事件,提高了研究難度.T-DNA插入突變方法多應(yīng)用于水稻、 擬南芥等植物[4-5].
轉(zhuǎn)座子插入突變包括2 種類(lèi)型: 一種是以DNA介導(dǎo)的轉(zhuǎn)座子,通過(guò)切粘機(jī)制復(fù)制并發(fā)生轉(zhuǎn)座,如玉米Ac/Ds 系統(tǒng)、En/Spm 系統(tǒng)、金魚(yú)草Tam3 等[6].不同于T-DNA 標(biāo)簽法需要成千上萬(wàn)次的遺傳轉(zhuǎn)化事件才能構(gòu)建大規(guī)模的插入突變體庫(kù),這種轉(zhuǎn)座子系統(tǒng)可以通過(guò)轉(zhuǎn)座子的轉(zhuǎn)座活性在基因組中轉(zhuǎn)座而產(chǎn)生突變體,構(gòu)建插入突變體庫(kù).它既具有T-DNA插入突變體庫(kù)信息量大的優(yōu)點(diǎn),又不需要數(shù)以十萬(wàn)計(jì)的轉(zhuǎn)基因植株,大大減少了轉(zhuǎn)基因的工作量.另一種是逆轉(zhuǎn)座子插入突變,它是以RNA 介導(dǎo)的轉(zhuǎn)座方式,與DNA 介導(dǎo)的轉(zhuǎn)座子不同,它可以通過(guò)反轉(zhuǎn)錄后經(jīng)復(fù)制產(chǎn)生一個(gè)新的拷貝插入到基因中,而原來(lái)的拷貝仍然存在.目前在水稻中應(yīng)用較多的是水稻內(nèi)源逆轉(zhuǎn)座子Tos17,研究發(fā)現(xiàn),組織培養(yǎng)可以使得Tos17 轉(zhuǎn)座子變得活躍,培養(yǎng)時(shí)間越長(zhǎng),拷貝數(shù)變得越多[7].因而該方法被廣泛應(yīng)用于水稻突變體庫(kù)的構(gòu)建,通過(guò)對(duì)突變體進(jìn)行分析,鑒定了一些重要的功能基因[7-8].
人類(lèi)基因組計(jì)劃開(kāi)展以來(lái),基因組測(cè)序技術(shù)得到了飛躍式的發(fā)展,越來(lái)越多生物的基因組得到了測(cè)定與解析.除了人類(lèi)基因組,重要的模式生物(如線蟲(chóng)、酵母、小鼠、擬南芥)、農(nóng)作物(如水稻、玉米、大豆)以及牲畜(如豬、牛)等生物的基因組都得到了測(cè)定.在此基礎(chǔ)上,人們希望對(duì)生物的單個(gè)基因進(jìn)行精確操作以期研究基因的功能,進(jìn)而控制基因的表達(dá),獲得有益的生物性狀.在這種需求下,人們逐步發(fā)展了以下幾種基因定向操作技術(shù).
鋅指核酸酶(Zinc-finger nucleases,ZFNs)技術(shù)是將具有鋅指結(jié)構(gòu)且能夠識(shí)別特定堿基序列的多肽與Ⅱ型核酸酶的FokⅠ結(jié)構(gòu)域融合表達(dá),分別結(jié)合于互補(bǔ)雙鏈的2 個(gè)融合蛋白形成二聚體,對(duì)DNA 雙鏈進(jìn)行切割[9].該技術(shù)的構(gòu)思最早來(lái)源于人們對(duì)小鼠鋅指蛋白Zif268 結(jié)構(gòu)的解析,Pavletich 等[10]發(fā)現(xiàn)小鼠Zif268 蛋白共有90 個(gè)氨基酸,每30 個(gè)氨基酸構(gòu)成一個(gè)鋅指單體,一個(gè)鋅指單體可識(shí)別3個(gè)相鄰的堿基.將多個(gè)鋅指單體串聯(lián)后,就可以結(jié)合多個(gè)相鄰的堿基,與Ⅱ型核酸酶的切割結(jié)構(gòu)域融合后,形成二聚體,即可切割DNA 序列,產(chǎn)生雙鏈DNA 斷點(diǎn)(Double strand break,DSB).由于斷點(diǎn)的產(chǎn)生,生物就會(huì)啟動(dòng)自身修復(fù)系統(tǒng)進(jìn)行斷點(diǎn)的修復(fù),主要通過(guò)同源重組(Homologydirected recombination,HDR)和非同源末端連接(Nonhomologous end joining,NHEJ)2 種方式修復(fù).無(wú)論哪種修復(fù)方式,都會(huì)造成在斷點(diǎn)附近的DNA 插入或缺失,從而引入突變.該技術(shù)主要在人類(lèi)細(xì)胞、 煙草、斑馬魚(yú)、果蠅、線蟲(chóng)等模式生物中得到應(yīng)用[11].ZFN 技術(shù)是最早被應(yīng)用于基因定向打靶的技術(shù),由于三聯(lián)體識(shí)別序列的種類(lèi)較少、技術(shù)存在專(zhuān)利保護(hù)以及當(dāng)時(shí)測(cè)序的物種較少等原因,該技術(shù)的應(yīng)用并不十分廣泛.
TALEN,即轉(zhuǎn)錄激活子樣效應(yīng)因子核酸酶(Transcription activator-like effector nucleases,TALENs),其構(gòu)建思路與ZFN 相似,將轉(zhuǎn)錄激活子樣效應(yīng)因子(TALE)與Ⅱ型核酸酶的FokⅠ結(jié)構(gòu)域融合表達(dá),2 個(gè)不同的融合蛋白分別結(jié)合互補(bǔ)雙鏈后形成二聚體,對(duì)DNA 雙鏈進(jìn)行切割,產(chǎn)生DSB,然后又用上述方式進(jìn)行修復(fù)產(chǎn)生突變.
TALE 是從黃單胞菌屬細(xì)菌中發(fā)現(xiàn)的蛋白質(zhì)類(lèi)的毒力因子,在侵染植物時(shí),該因子通過(guò)Ⅲ型分泌途徑注入到植物的細(xì)胞質(zhì)中,然后在核定位信號(hào)的引導(dǎo)下進(jìn)入細(xì)胞核,與核DNA 結(jié)合而激活寄主細(xì)胞的基因轉(zhuǎn)錄[12].TALE 的結(jié)構(gòu)分為3 部分,即中心串聯(lián)重復(fù)結(jié)構(gòu)域、核定位信號(hào)區(qū)(NLS)和酸性轉(zhuǎn)錄激活區(qū)(AAD).中心串聯(lián)重復(fù)結(jié)構(gòu)域是識(shí)別并結(jié)合DNA 的位點(diǎn),由多個(gè)TALE 單體組成,單體的個(gè)數(shù)從1.5~28.5 不等,每個(gè)單體由34~35 個(gè)氨基酸組成[13].
TALE 單體的34 個(gè)氨基酸中,只有第12 和第13個(gè)氨基酸是重復(fù)可變雙氨基酸(Repeat variant di-residue,RVD),決定了單體所識(shí)別的4種DNA 堿基的類(lèi)型,如NI 識(shí)別A 堿基、NG 識(shí)別T 堿基、HD 識(shí)別C 堿基、NN 識(shí)別G 或A 堿基[14-15].根據(jù)對(duì)應(yīng)關(guān)系,可以人為設(shè)計(jì)TALE 各單體的組成,對(duì)特定基因的DNA 序列進(jìn)行識(shí)別,然后用和TALE 融合的核酸酶對(duì)DNA 雙鏈進(jìn)行切割,產(chǎn)生DSB.對(duì)TALE 的利用分為2 類(lèi):第一類(lèi)將TALE 與轉(zhuǎn)錄激活結(jié)構(gòu)域融合,形成TALE-TF,通過(guò)激活轉(zhuǎn)錄,提高基因的表達(dá)水平,這在人類(lèi)全能細(xì)胞系和擬南芥中得到了驗(yàn)證[16-17]; 第二類(lèi)將TALE與Ⅱ型核酸內(nèi)切酶的催化結(jié)構(gòu)域FokⅠ融合表達(dá),形成TALEN,TALEN 二聚體切割DNA 雙鏈,產(chǎn)生突變,達(dá)到基因功能敲除目的.明尼蘇達(dá)大學(xué)的研究人員首先將TALE 與FokⅠ融合,并在酵母中進(jìn)行表達(dá),驗(yàn)證了其活性[18].之后TALEN 的功能在人類(lèi)細(xì)胞系、斑馬魚(yú)、大鼠、線蟲(chóng)等模式動(dòng)物中得到了驗(yàn)證[19-20];在煙草、擬南芥、水稻、小麥等植物中得到了驗(yàn)證[21-22].
2012年之后,一種新型的基因編輯技術(shù)—CRISPR/Cas9 技術(shù)被廣泛應(yīng)用于不同物種的基因靶向編輯,該技術(shù)同ZFN 及TALEN 技術(shù)一樣,都用特異性核酸酶對(duì)特定基因DNA 序列進(jìn)行編輯,但其操作簡(jiǎn)單方便,效率相對(duì)較高,已廣泛應(yīng)用于基因功能研究中,對(duì)生命科學(xué)的發(fā)展起到較大的推動(dòng)作用.
2.3.1 CRISPR 序列的發(fā)現(xiàn)及命名
CRISPR/Cas9技術(shù)的發(fā)現(xiàn)及命名源于一段DNA序列.早在1987年,日本科學(xué)家Ishino 等[23]在大腸桿菌中克隆了一個(gè)編碼堿性磷酸酶的基因ipa,為了分析該基因的編碼框及蛋白產(chǎn)物,對(duì)1.7 kb 的克隆片段進(jìn)行測(cè)序,分析發(fā)現(xiàn)1.7 kb 序列包括1 038 bp 的ORF、331 bp 的5’端側(cè)翼以及約300 bp 的3’端側(cè)翼序列.進(jìn)一步分析3’端側(cè)翼序列發(fā)現(xiàn),約300 bp 的序列中有5 個(gè)29 bp 的回文重復(fù)序列,并被4 個(gè)32 bp的間隔序列隔開(kāi).4 個(gè)32 bp 的間隔序列各不相同,而且與大腸桿菌的序列沒(méi)有同源性.由于局限于當(dāng)時(shí)測(cè)序還沒(méi)有規(guī)模化發(fā)展,數(shù)據(jù)庫(kù)中序列比較少,因此作者比對(duì)后在其他原核生物中也沒(méi)發(fā)現(xiàn)其同源序列,也不知道其重要意義何在,作者在以后的研究中未對(duì)這段有趣的序列進(jìn)行深究,直到約10年后與這段序列有相似特點(diǎn)的序列才再次進(jìn)入科學(xué)家的視野.
1990年代初,Mojica 等[24]利用一種耐高鹽的嗜鹽古菌(Haloferax mediterranei)研究鹽濃度如何影響限制性?xún)?nèi)切酶對(duì)其基因組DNA 序列的切割時(shí)發(fā)現(xiàn)了類(lèi)似1987年Ishino 等發(fā)現(xiàn)的特殊序列,這種特殊序列由多個(gè)高度保守的30 bp 的回文序列組成,這些回文序列被多個(gè)不相關(guān)的36 bp 的非嗜鹽古菌自身的序列居間隔開(kāi).后來(lái),Mojica 等[25]又在其他細(xì)菌中發(fā)現(xiàn)了類(lèi)似結(jié)構(gòu)的序列,通過(guò)比對(duì),發(fā)現(xiàn)雖然每種細(xì)菌的回文重復(fù)及居間序列都不同,但都具有相同的“重復(fù)-居間序列-反向重復(fù)”的結(jié)構(gòu),他開(kāi)始認(rèn)識(shí)到了這種特殊結(jié)構(gòu)序列的重要性.由于1989年人類(lèi)基因組計(jì)劃的實(shí)施,測(cè)序方法有了長(zhǎng)足進(jìn)展,測(cè)序費(fèi)用也有所降低,因此不同物種的測(cè)序計(jì)劃也廣泛實(shí)施,數(shù)據(jù)庫(kù)中已知的DNA 序列日益增多.為了揭開(kāi)這種特殊結(jié)構(gòu)序列的生物學(xué)意義,Mojica 等[26]進(jìn)一步利用生物信息學(xué)對(duì)自己所獲得的序列進(jìn)行比對(duì)搜尋,以期能在不同細(xì)菌中找到更多的這種特殊的回文重復(fù)序列.截止2000年,他已在20 種不同的微生物中找到這種特殊結(jié)構(gòu)的序列,并命名為短的規(guī)律性的間隔重復(fù)(Short regularly spaced repeat,SRSR).2年后,科學(xué)家們進(jìn)一步從不同原核生物中發(fā)現(xiàn)了更多的這種特殊序列,并根據(jù)序列特點(diǎn)進(jìn)一步規(guī)范其命名,將Mojica 命名的SRSR 改為成簇的、有規(guī)律間隔排列的短回文重復(fù)序列(Clustered regularly interspaced short palindromic repeats,CRISPR)[27].
2.3.2 CRISPR 序列生物學(xué)意義的探索
隨著CRISPR 序列的增多,越來(lái)越多的科學(xué)家被這種特殊的序列所吸引,科學(xué)家們認(rèn)識(shí)到它一定具有重要的生物學(xué)意義.為了揭開(kāi)CRISPR 序列的生物學(xué)功能,2003年,Mojica 首先改變了研究思路,從以前著重比對(duì)搜尋回文序列轉(zhuǎn)移到著重比對(duì)搜尋居間序列,希望能找到回文序列之間的居間序列來(lái)自于哪里.通過(guò)他的努力,終于在P1 噬菌體中發(fā)現(xiàn)與居間序列完全匹配的序列,通過(guò)進(jìn)一步擴(kuò)大比對(duì)居間序列的數(shù)目,發(fā)現(xiàn)很多居間序列匹配到不同的病毒及外來(lái)的質(zhì)粒中.至此,他認(rèn)識(shí)到CRISPR 序列可能在細(xì)菌對(duì)抗外來(lái)物質(zhì)的侵染中發(fā)揮重要作用[28].同時(shí),來(lái)自法國(guó)的科學(xué)家Vergnaud 和他的研究團(tuán)隊(duì)在鼠疫桿菌(Yersinia pestis)中發(fā)現(xiàn)了CRISPR 序列,并揭示出其居間序列來(lái)自于噬菌體,對(duì)于鼠疫桿菌抵抗噬菌體的侵染具有重要作用[29].來(lái)自法國(guó)的另外一個(gè)研究團(tuán)隊(duì)在嗜熱鏈球菌(Streptococcus thermophilus)中克隆了4 個(gè)基因Cas1~Cas4,并在這些基因附近發(fā)現(xiàn)了CRISPR 序列,分析這些CRISPR 序列中的居間序列發(fā)現(xiàn)它們來(lái)自于噬菌體及染色體外遺傳元件(Extrachromosomal elements),進(jìn)一步的噬菌體敏感性實(shí)驗(yàn)研究發(fā)現(xiàn),這些居間序列對(duì)嗜熱鏈球菌抵抗外來(lái)侵染物具有重要作用,可能起到細(xì)胞免疫作用[30].從發(fā)表年份上可以看出,基因編輯技術(shù)的研究存在激烈競(jìng)爭(zhēng).
2.3.3 CRISPR/Cas 系統(tǒng)作用機(jī)制的解析
在弄清楚了CRISPR 序列可能與細(xì)菌的免疫有關(guān)后,科學(xué)家們開(kāi)始著手解析微生物是如何利用CRISPR序列進(jìn)行免疫作用的.早在2002年美國(guó)國(guó)家生物信息研究中心Eugene Koonin 研究組[31]認(rèn)為,CRISPR 可能與DNA 的修復(fù)有關(guān),但是后來(lái)擯棄了這種假設(shè).Makarova 等[32]通過(guò)對(duì)多種細(xì)菌中CRISPR 和Cas 序列的基因組比較分析,認(rèn)為CRISPR/Cas 系統(tǒng)是一種防御機(jī)制,用來(lái)對(duì)抗入侵的噬菌體和質(zhì)粒,其作用機(jī)制可能與真核生物的RNAi 類(lèi)似.但是將該系統(tǒng)的成分與RNAi 機(jī)制相關(guān)的蛋白,如雙鏈RNA 特異的解旋酶(dicer)、切割靶標(biāo)mRNA 的內(nèi)切酶(slicer)以及RNA依賴(lài)的RNA 聚合酶,進(jìn)行比對(duì)后,卻找不到與之匹配的成分.根據(jù)CRISPR 中的獨(dú)特居間序列與噬菌體和質(zhì)粒片段同源的事實(shí),Makarova 等[32]提出CRISPR/Cas可作為原核中的siRNA 起作用(psiRNA),通過(guò)與靶標(biāo)mRNA堿基配對(duì),促使其降解或翻譯終止,并推測(cè)這個(gè)系統(tǒng)包含將外源基因片段整合到自身染色體上以產(chǎn)生對(duì)相應(yīng)成分的遺傳免疫等步驟.按照該假說(shuō),CRISPR 序列首先被轉(zhuǎn)錄成原初RNA 前體,之后進(jìn)一步剪切變成成熟的siRNA 起作用,但變成成熟siRNA的酶是什么、如何切割成熟仍然未知.
在此假設(shè)基礎(chǔ)上,法國(guó)微生物學(xué)家Barrangou 等[33]證實(shí)了居間序列與相應(yīng)噬菌體之間的對(duì)應(yīng)關(guān)系.研究者以乳制品生產(chǎn)中的工程菌嗜熱鏈球菌為對(duì)象,用2種基因組序列有93%一致性的近緣噬菌體858 和2972 進(jìn)行侵染,得到了一些對(duì)之不敏感的嗜熱鏈球菌株.測(cè)序發(fā)現(xiàn),抗性突變體菌株中含有噬菌體來(lái)源的居間序列,當(dāng)居間序列與噬菌體基因組DNA 存在單堿基多態(tài)性(SNP)時(shí),即居間序列突變與噬菌體基因組DNA 序列不一致時(shí),則抗性喪失.細(xì)菌中CRISPR 位點(diǎn)整合的噬菌體來(lái)源的居間序列越多,對(duì)噬菌體的侵染越不敏感.對(duì)于已經(jīng)獲得噬菌體抗性的菌株,將居間序列刪除后,抗性即喪失,將居間序列替換后,也改變了其抗性,這說(shuō)明居間序列與細(xì)菌獲得的抗性具有緊密的對(duì)應(yīng)關(guān)系.同時(shí),Barrangou 等[33]還研究了與CRISPR 序列相聯(lián)系的Cas 基因與居間序列的關(guān)系.改變Cas 基因與間隔序列之間的距離,則抗性也會(huì)喪失.抑制Cas5 的轉(zhuǎn)錄,抗性喪失,抑制Cas7 的轉(zhuǎn)錄,抗性不受影響,但刪除Cas7 序列,則抗性喪失,這可能是因?yàn)镃as7 參與了新的間隔序列的插入.這些實(shí)驗(yàn)進(jìn)一步表明了與噬菌體序列一致的居間序列的存在,為菌株提供了抗性.Mojica 等[34]通過(guò)對(duì)多種細(xì)菌的多個(gè)CRISPR 位點(diǎn)進(jìn)行比較,發(fā)現(xiàn)居間序列所對(duì)應(yīng)的噬菌體或質(zhì)粒上有一個(gè)通用的NGG 結(jié)構(gòu),該通用結(jié)構(gòu)對(duì)于Cas 蛋白識(shí)別特異居間靶向序列具有重要作用.
為了進(jìn)一步揭開(kāi)CRISPR 序列的作用機(jī)制,科學(xué)家們開(kāi)始研究與CRISPR 序列相聯(lián)系的Cas 蛋白.荷蘭Wageningen 大學(xué)的van der Oost 研究組以大腸桿菌K12 菌株為材料,研究了Cas 基因的功能[35].他們從K12中得到8 個(gè)編碼Cas 的基因,分別編碼Cas3(1 個(gè)預(yù)測(cè)的HD 核酸酶融合1 個(gè)DEAD 螺旋酶)、CasA、CasB、CasC、CasD、CasE、Cas1(預(yù)測(cè)的整合酶)和Cas2(核糖核酸內(nèi)切酶).通過(guò)對(duì)Cas 蛋白進(jìn)行標(biāo)記后純化,發(fā)現(xiàn)了由CasA、CasB、CasC、CasD、CasE 5 個(gè)蛋白組成的復(fù)合體,命名為Cascade.以單鏈spacer 為探針進(jìn)行northern雜交,發(fā)現(xiàn)了一個(gè)57 nt 的非編碼RNA 產(chǎn)物,命名為CRISPR RNA(crRNA).進(jìn)一步研究發(fā)現(xiàn),CasE 是催化pre-crRNA 為成熟的crRNA 所必需的蛋白.CasE 的晶體結(jié)構(gòu)顯示,它包括2 個(gè)結(jié)構(gòu)域與1 個(gè)類(lèi)鐵氧化還原蛋白折疊,與其他的RNA 結(jié)合蛋白具有高度的結(jié)構(gòu)相似性.點(diǎn)突變實(shí)驗(yàn)表明,CasEH20A喪失了切割活性.他們進(jìn)一步研究裝載了crRNA 的Cascade 能否產(chǎn)生對(duì)λ 噬菌體的抗性,發(fā)現(xiàn)Cascade 在Cas3 存在的時(shí)候才起作用,并且pre-crRNA 以DNA 為模板時(shí)效率更高.5 個(gè)Cas 蛋白組成的復(fù)合體在對(duì)pre-crRNA 到crRNA 的成熟過(guò)程中起作用,crRNA 的兩端側(cè)翼序列都是重復(fù)結(jié)構(gòu)中的序列,后者可能是Cascade 亞基結(jié)合的保守位點(diǎn).CrRNA 引導(dǎo)復(fù)合體靶向噬菌體的核酸,由于與靶向的方向無(wú)關(guān),沒(méi)有極性,因而認(rèn)為靶標(biāo)是DNA.之后多個(gè)研究表明,Cas6、Csy4 等核糖核酸內(nèi)切酶類(lèi)Cas 蛋白切割pre-crRNA 的重復(fù)序列產(chǎn)生crRNA[36-37].以上研究確切表明了Cas 蛋白復(fù)合體是CRISPR 序列成熟變成小的功能crRNA 的核酸酶,而且它可以靶向外源DNA,對(duì)外源DNA 進(jìn)行切割.至此,人們對(duì)CRISPR 的作用機(jī)制有了一個(gè)較為明確的認(rèn)識(shí).
隨著CRISPR 作用機(jī)制的解開(kāi),科學(xué)家們發(fā)現(xiàn)現(xiàn)有的CRISPR 加工系統(tǒng)(需要較多的Cas 蛋白復(fù)合體)非常復(fù)雜,不利于CRISPR 的應(yīng)用,因此希望找到較為簡(jiǎn)單的CRISPR 系統(tǒng)以便于應(yīng)用.Deltcheva 等[38]發(fā)現(xiàn),在一些細(xì)菌的CRISPR/Cas 中,缺少加工crRNA的核糖核酸內(nèi)切酶(CasE,Cas6).研究者以人源致病菌化膿性鏈球菌(Streptococcus pyogenes)為研究對(duì)象,通過(guò)差異化RNA 測(cè)序發(fā)現(xiàn)了反式編碼的小RNA,它有24nt 與CRISPR 前體RNA 中的重復(fù)序列互補(bǔ),稱(chēng)之為tracrRNA(trans-crRNA).他們?cè)诨撔枣溓蚓邪l(fā)現(xiàn)了與CRISPR 序列相聯(lián)系的Csn1(后來(lái)命名為Cas9)蛋白,揭示出tracrRNA 是通過(guò)廣泛保守的RNaseⅢ和Csn1 蛋白指導(dǎo)crRNA 的成熟,所有這些成分都是防御所必需的.Deltcheva 發(fā)現(xiàn)的CRISPR/Cas 系統(tǒng)就是后來(lái)被廣泛使用的CRISPR/Cas9 系統(tǒng).Nature 雜志專(zhuān)門(mén)配發(fā)了評(píng)論文章[39],該評(píng)論指出,Csn1 指導(dǎo)的crRNA的成熟過(guò)程與其他幾種機(jī)制完全不同.這一系統(tǒng)成分簡(jiǎn)單,便于操作,為后來(lái)CRISPR/Cas9 系統(tǒng)的廣泛應(yīng)用起到理論指導(dǎo)作用.
為了方便CRISPR/Cas 系統(tǒng)的應(yīng)用,來(lái)自多個(gè)國(guó)家和實(shí)驗(yàn)室的研究人員一起協(xié)作,對(duì)CRISPR-Cas 系統(tǒng)的進(jìn)化關(guān)系和分類(lèi)進(jìn)行了系統(tǒng)論述[40].CRISPR-Cas系統(tǒng)的主要元件是Cas 操縱子,被分布其上成簇的重復(fù)序列居間隔開(kāi).CRISPR/Cas 免疫過(guò)程大致分為3個(gè)階段:第1 個(gè)是適應(yīng)階段,當(dāng)有外源病毒或質(zhì)粒入侵時(shí),Cas 操縱子捕獲帶有PAM(Proto-spacer adjacent motif,序列為NGG)結(jié)構(gòu)特征的外源DNA 片段,整合到操縱子的重復(fù)序列之間;第2 個(gè)是表達(dá)階段,整合了外源DNA 片段的Cas 操縱子轉(zhuǎn)錄為RNA,與相應(yīng)的Cas 蛋白形成復(fù)合體并切割為較短的crRNA,crRNA中含有外源片段及重復(fù)序列;第3個(gè)是干擾階段,在crRNA 的引導(dǎo)下,Cas 蛋白將與crRNA 中外源片段同源的雙鏈DNA 切割,達(dá)到防御目的.根據(jù)crRNA 加工的途徑和必要的Cas 蛋白的數(shù)目,CRISPR/Cas 系統(tǒng)分為3 類(lèi).其中第1 類(lèi)和第3 類(lèi)crRNA 需要裝載到多個(gè)蛋白構(gòu)成的復(fù)合體中,不方便工程化;第2 類(lèi)只需要一個(gè)Cas9 蛋白起作用,利用宿主的RNaseⅢ使crRNA 成熟.Cas9 也可以單獨(dú)起切割作用,通過(guò)位點(diǎn)突變分析發(fā)現(xiàn),免疫作用依賴(lài)于Cas9 蛋白的HNH 結(jié)構(gòu)域和RuvC 結(jié)構(gòu)域.
在CRISPR/Cas 系統(tǒng)的作用機(jī)制被揭示清楚后,科學(xué)家們認(rèn)識(shí)到它可能具有巨大的應(yīng)用前景,基于以前ZFN及TALEN編輯技術(shù)的應(yīng)用,CRISPR/Cas 系統(tǒng)也可能在其他的真核生物中工作.為了驗(yàn)證該系統(tǒng)是否可以編輯其他生物的基因組DNA 序列,霍華德休斯醫(yī)學(xué)研究所(HHMI)的Doudna 課題組和瑞典于默奧大學(xué)的Charpentier 課題組合作,最早將CRISPR/Cas技術(shù)進(jìn)行實(shí)際應(yīng)用[41].研究者將純化的Cas9 蛋白與crRNA 和tracrRNA 混合,在體外實(shí)現(xiàn)了對(duì)質(zhì)粒DNA或線性雙鏈DNA 的有效切割.他們首先解析了Cas9蛋白的結(jié)構(gòu),表明該蛋白約由1 367 個(gè)氨基酸組成(不同菌株有差異),N 端的Ruvc I 結(jié)構(gòu)域和C 端的HNH 結(jié)構(gòu)域是其催化結(jié)構(gòu)域.Cas9:: gRNA(引導(dǎo)RNA)復(fù)合體結(jié)合靶標(biāo)DNA 雙鏈后,Ruvc I 結(jié)構(gòu)域切割gRNA 的非互補(bǔ)鏈,HNH 結(jié)構(gòu)域切割互補(bǔ)鏈,產(chǎn)生雙鏈斷裂.將Cas9 蛋白第10 位的天冬氨酸突變?yōu)楸彼?,Ruvc I 結(jié)構(gòu)域喪失活性;將第840 位的組氨酸突變?yōu)楸彼幔琀NH 結(jié)構(gòu)域失去功能.使用任一結(jié)構(gòu)域突變的Cas9 蛋白,可導(dǎo)致靶標(biāo)DNA 雙鏈產(chǎn)生切刻(nick)而非斷裂,突變的Cas9 蛋白可用于對(duì)純合致死的基因進(jìn)行編輯.基于此,他們簡(jiǎn)化了該系統(tǒng)的作用機(jī)制,將crRNA 和tracrRNA 融合表達(dá),形成gRNA,再將Cas9 蛋白和gRNA 分別表達(dá)融合,這樣就繞過(guò)了crRNA 和tracrRNA 互補(bǔ)配對(duì)的步驟,方便了操作.其他科學(xué)家進(jìn)一步對(duì)該系統(tǒng)進(jìn)行優(yōu)化,如Gasiunas 等[42]證明,PAM 序列是DNA 結(jié)合所必需的,并證明了Cas9D31A和Cas9N891A同樣能產(chǎn)生單鏈切刻.
CRISPR/Cas9 系統(tǒng)的打靶功能一經(jīng)發(fā)現(xiàn)便得到了廣泛應(yīng)用,2013年是CRISPR 應(yīng)用的爆發(fā)之年.美國(guó)博德研究所的張鋒實(shí)驗(yàn)室在人類(lèi)細(xì)胞和小鼠等真核細(xì)胞中進(jìn)行精確基因編輯獲得成功[43],首次實(shí)現(xiàn)了CRISPR/Cas9 系統(tǒng)在真核細(xì)胞內(nèi)的應(yīng)用,對(duì)SpCas9和SpRNaseⅢ的編碼序列進(jìn)行了優(yōu)化,并添加了核定位信號(hào),使其真核細(xì)胞中高效表達(dá),以人類(lèi)EMX1 位點(diǎn)的30 bp 序列為靶標(biāo),通過(guò)轉(zhuǎn)化不同的組合進(jìn)入人類(lèi)細(xì)胞293FT,實(shí)現(xiàn)了對(duì)靶標(biāo)基因EMX1 的編輯.與TALEN 的效率相比,CRISPR/Cas 的效率略高.進(jìn)一步研究居間序列的點(diǎn)突變對(duì)切割效率的影響,發(fā)現(xiàn)當(dāng)點(diǎn)突變發(fā)生在PAM 之前的11 個(gè)堿基之內(nèi)時(shí),不會(huì)產(chǎn)生切割;當(dāng)13個(gè)堿基處突變時(shí),會(huì)有一定效率的切割,表明具有潛在的脫靶可能性.因此提出采用RvuCI 結(jié)構(gòu)域失活的Cas9 可能會(huì)降低脫靶.研究者對(duì)EMX1位點(diǎn)中相距119 bp 的2 個(gè)位點(diǎn)進(jìn)行打靶,發(fā)現(xiàn)有1.6%的機(jī)會(huì)獲得片段缺失.
在同一期Science 雜志上,哈佛醫(yī)學(xué)院的Church實(shí)驗(yàn)室也報(bào)道了利用CRISPR/Cas9 系統(tǒng)在多個(gè)人類(lèi)細(xì)胞系中進(jìn)行同源重組基因編輯的研究[44].該研究先將一段報(bào)告基因序列轉(zhuǎn)入人類(lèi)胚腎細(xì)胞系HEK293T中,而后設(shè)計(jì)T1 和T2 兩種gRNA 分別與Cas9 質(zhì)粒和重組模板一起轉(zhuǎn)化HEK293T 細(xì)胞,得到的編輯效率分別為3%和8%.
隨后,許多實(shí)驗(yàn)室利用CRISPR/Cas9 系統(tǒng)得到了基因編輯的其他模式動(dòng)物,如基因編輯的斑馬魚(yú)[45]、果蠅[46]、非洲蟾蜍(Xenopus tropicalis)[47]等.中國(guó)的季維智院士等科學(xué)家得到了基因編輯的食蟹獼猴[48].
Nature biotechnology 雜志在同一期發(fā)表了3 篇CRISPR 在植物中的應(yīng)用研究.中科院遺傳發(fā)育所高彩霞研究組[49]以水稻原生質(zhì)體為材料,以八氫番茄紅素去飽和酶基因OsPDS 為靶標(biāo)基因,設(shè)計(jì)了SP1 和SP2 兩條sgRNA,靶標(biāo)序列含有PstⅠ酶切位點(diǎn).根據(jù)植物密碼子偏好,優(yōu)化了Cas9的密碼子,為了保證定位到細(xì)胞核中,在其N(xiāo) 端和C 端都加上核定位信號(hào)NLS.轉(zhuǎn)化子經(jīng)PCR、 酶切、 測(cè)序驗(yàn)證,得到了15%的突變率.之后又對(duì)3個(gè)水稻基因和一個(gè)小麥基因打靶,得到的突變率為26.5%~38.0%.研究者還對(duì)CRISPR/Cas9 系統(tǒng)誘導(dǎo)的同源重組效率進(jìn)行了初步試驗(yàn),在29 個(gè)轉(zhuǎn)化子中得到了2 個(gè)陽(yáng)性轉(zhuǎn)化子,效率為2/29.
美國(guó)哈佛醫(yī)學(xué)院的研究人員[50]以擬南芥原生質(zhì)體為材料,以擬南芥八氫番茄紅素去飽和酶基因AtPDS3 為靶標(biāo)基因,比較了植物密碼子優(yōu)化的Cas9蛋白pcoCas9 和細(xì)菌Cas9 蛋白SpCas9的效率,發(fā)現(xiàn)前者效率顯著高于后者.對(duì)轉(zhuǎn)化后的擬南芥原生質(zhì)體PCR測(cè)序,得到5.6%的突變率,對(duì)另一個(gè)基因AtFLS2 打靶,得到的突變率為1.1%.研究還計(jì)算了轉(zhuǎn)化時(shí)所用gRNA 和Cas9 蛋白的相對(duì)比例,發(fā)現(xiàn)當(dāng)比例為1 ∶1時(shí)最有效,當(dāng)比例為1 ∶19 時(shí)無(wú)效.只設(shè)計(jì)一條gRNA對(duì)擬南芥AtRACK1b 和AtRACK1c 基因中相同的一段序列進(jìn)行打靶時(shí),發(fā)現(xiàn)2 個(gè)基因都發(fā)生了突變.在對(duì)煙草細(xì)胞的NbPDS 基因打靶時(shí),得到了38%左右的突變率.
英國(guó)諾維奇科技園的Nekrasov 等[51]用農(nóng)桿菌侵染煙草葉片的方法在煙草中做了CRISPR/Cas9 系統(tǒng)基因打靶的研究.他們首先將GFP 基因與Cas9 蛋白融合,觀察其核定位效果,而后用擬南芥U6 啟動(dòng)子驅(qū)動(dòng)的gRNA 與Cas9 基因一起注射煙草,經(jīng)過(guò)PCR、酶切實(shí)驗(yàn),得到了2.1%的突變率.
此外,還有多位中國(guó)科學(xué)家將CRISPR 技術(shù)應(yīng)用到植物研究中.如Mao 等[52]研究了靶標(biāo)位點(diǎn)的PAM 序列對(duì)打靶效率的影響,發(fā)現(xiàn)不正確的PAM 序列會(huì)使效率降低(從11%降到5.4%),但不會(huì)消除;Feng 等[53]觀察了用CRISPR/Cas9 系統(tǒng)在擬南芥中打靶后的數(shù)個(gè)世代,發(fā)現(xiàn)T1、T2、T3 代帶有突變的植株分別為71.2%、58.3%和79.4%,突變類(lèi)型主要是單堿基插入和短的缺失.Miao 等[54]也在水稻中進(jìn)行了誘導(dǎo)基因突變的研究,獲得了較高的突變率.Ma 等[55]構(gòu)建了一種可以串聯(lián)多個(gè)靶點(diǎn)的CRISPR/Cas9 系統(tǒng),利用Golden gate 方法,最多可以一次將8 個(gè)靶點(diǎn)串聯(lián)起來(lái)進(jìn)行多基因編輯.
由于CRISPR/Cas 技術(shù)操作方便,因此不斷有大量的與該技術(shù)相關(guān)的論文發(fā)表在國(guó)際期刊上.后來(lái)人們又發(fā)現(xiàn)了類(lèi)似于CRISPR/Cas9 系統(tǒng)的CRISPR/Cpf1系統(tǒng)[56]、具有更高兼容性的PAM 結(jié)構(gòu)和更高DNA 特異性的xCas9 系統(tǒng)[57]等.
CRSPR/Cas 系統(tǒng)原理簡(jiǎn)單,設(shè)計(jì)方便,已在多種動(dòng)物和植物中得到了應(yīng)用,它與ZFN 和TALEN 的比較結(jié)果如表1 所示.CRSPR/Cas 系統(tǒng)具有以下優(yōu)勢(shì):①設(shè)計(jì)更為方便.ZFN 和TALEN 需要考慮DNA 雙鏈的結(jié)構(gòu)特征,還要考慮2 個(gè)位點(diǎn)之間spacer 的距離,CRISPR/Cas 系統(tǒng)則只需一條鏈上帶有PAM 結(jié)構(gòu).②構(gòu)建更為便捷.TALEN 需要多個(gè)串聯(lián)重復(fù)單體的組裝,CRISPR/Cas 系統(tǒng)只需構(gòu)建長(zhǎng)度約為100 堿基的gRNA.③CRISPR/Cas 系統(tǒng)可多次作用,一旦將Cas蛋白整合到染色體上,再次利用時(shí),只需重新導(dǎo)入短片段的gRNA.④可對(duì)多個(gè)基因打靶.由于gRNA 序列很短,容易構(gòu)建,因而一次可將多個(gè)基因的gRNA 轉(zhuǎn)入植物中實(shí)現(xiàn)對(duì)多個(gè)基因的編輯.
表1 3 種基因編輯技術(shù)的比較Tab.1 Comparison of three gene editing techniques
CRISPR/Cas9 已成為分子生物學(xué)研究的必備工具.在理解其作用原理的基礎(chǔ)上,具體運(yùn)用中把握住以下要點(diǎn),才能更高效地發(fā)揮作用,達(dá)到事半功倍的效果.
(1)Cas9 蛋白的密碼子優(yōu)化.不同生物具有密碼子偏好性,CRISPR/Cas 系統(tǒng)來(lái)源于古細(xì)菌,應(yīng)用時(shí)要根據(jù)目標(biāo)物種的偏好性進(jìn)行優(yōu)化,這樣轉(zhuǎn)進(jìn)去的Cas9才能夠得到高效的翻譯.Li 等[50]以擬南芥原生質(zhì)體為材料,以擬南芥八氫番茄紅素去飽和酶基因AtPDS3為靶標(biāo)基因,比較了植物密碼子優(yōu)化的pcoCas9 蛋白和細(xì)菌的SpCas9 蛋白的效率,發(fā)現(xiàn)前者的效率顯著高于后者.
(2)啟動(dòng)子選擇.選擇適合于目的生物的啟動(dòng)子,保證其能高效驅(qū)動(dòng)Cas9 蛋白和gRNA 的轉(zhuǎn)錄.目前常用的啟動(dòng)子是泛素連接酶的Ubi 啟動(dòng)子,人類(lèi)細(xì)胞系中常用的是U6 啟動(dòng)子[44],植物中常用的是U6 或U3啟動(dòng)子[49].
(3) 靶位點(diǎn)的選擇.gRNA 的選擇一般為20 個(gè)堿基,其3’ 端之后一般是NGG 的結(jié)構(gòu).在人類(lèi)細(xì)胞系中一般為GN20NGG(U6 啟動(dòng)子)[44];在植物中一般為5’-A-N(20)GG-3’(U3 啟動(dòng)子)或5’-G-N(20)GG-3’(U6 啟動(dòng)子)[49].對(duì)于真核生物來(lái)說(shuō),靶位點(diǎn)應(yīng)該位于其外顯子序列上.研究者開(kāi)發(fā)了數(shù)個(gè)用于gRNA 在線設(shè)計(jì)的平臺(tái),其中大多數(shù)平臺(tái)既可以用來(lái)設(shè)計(jì)靶位點(diǎn),還能給出潛在的脫靶位點(diǎn),如https://omictools.com/casot-tool、http://www.e-crisp.org/E-CRISP/、http://skl.scau.edu.cn/等.如果目的是敲除基因的功能,靶位點(diǎn)最好選擇其5’上游,這樣可以產(chǎn)生移碼突變或者提前終止;如果編碼基因很長(zhǎng),可以把靶位點(diǎn)選擇在保守結(jié)構(gòu)域上.靶位點(diǎn)的選擇除了需滿足上述要求,還應(yīng)該考慮編輯后便于檢測(cè).切割位點(diǎn)一般位于NGG前1~4 個(gè)堿基處,可以選擇在此處有酶切位點(diǎn)的靶序列.編輯后酶切位點(diǎn)被破壞,可通過(guò)PCR 擴(kuò)增之后用酶切電泳來(lái)篩選結(jié)果[49].
(4)編輯結(jié)果分析.轉(zhuǎn)化后,可提取被轉(zhuǎn)化材料的DNA,在靶位點(diǎn)兩側(cè)設(shè)計(jì)引物,進(jìn)行PCR 擴(kuò)增初篩.如果靶序列中有酶切位點(diǎn),可以利用酶切產(chǎn)物電泳來(lái)進(jìn)行初步篩選,之后進(jìn)行測(cè)序;對(duì)于沒(méi)有酶切位點(diǎn)的靶序列,將擴(kuò)增產(chǎn)物與野生型的擴(kuò)增產(chǎn)物混合后退火,則會(huì)形成不完全互補(bǔ)的DNA 雙鏈,再用單鏈核酸內(nèi)切酶SⅠ酶切,對(duì)經(jīng)過(guò)初篩后的陽(yáng)性克隆進(jìn)行測(cè)序分析.
基因編輯結(jié)果大致有3 種情況,純合基因型、雜合基因型和雙等位突變.純合基因型最容易分析,與野生型比對(duì)即可看出是插入或者缺失.對(duì)于雜合型和雙等位突變,可以通過(guò)挑選單克隆測(cè)序進(jìn)行分析,也可以對(duì)測(cè)序結(jié)果峰圖進(jìn)行分析.劉耀光研究組開(kāi)發(fā)的平臺(tái)同樣可以用于對(duì)測(cè)序結(jié)果峰圖的分析(http://skl.scau.edu.cn/dsdecode/).
基因編輯技術(shù)的發(fā)展為基因治療和生物性狀改良帶來(lái)了新的機(jī)遇.人們有望通過(guò)基因編輯技術(shù),對(duì)患者來(lái)源的誘導(dǎo)多能干細(xì)胞(Induced pluripotent stem cells,iPSCs) 進(jìn)行編輯,進(jìn)而治療包括杜氏肌營(yíng)養(yǎng)不良癥、帕金森疾病等在內(nèi)的多種遺傳疾病以及艾滋病、乙型肝炎等傳染性疾病,但仍有脫靶效應(yīng)、新的基因?qū)胂到y(tǒng)等技術(shù)瓶頸[58-59].最近,Liang 等[60]發(fā)明了一種將CRISPR/Cas mRNA 包裹為體外轉(zhuǎn)錄產(chǎn)物(in vitro transcripts,IVTs)或核糖蛋白復(fù)合體(Ribonucleoprotein complexes,RNPs) 后再轉(zhuǎn)入植物幼胚的方法,獲得了外源DNA-free 的小麥基因敲除植株.由于該方法沒(méi)有外源DNA 進(jìn)入植物體,與以往的基因改良生物有很大區(qū)別,因而可能在食品安全立法時(shí)予以豁免.總之,基因編輯技術(shù)已經(jīng)獲得了巨大進(jìn)展,但利用其改變?nèi)祟?lèi)的生命和生活仍有許多難題需要克服[61].