李雪柔
(南京市第二十九中學 江蘇南京 210036)
基因組定點編輯技術(shù)一直是研究者致力于開發(fā)的重要技術(shù),對于遺傳育種、定向增強經(jīng)濟作物的經(jīng)濟價值、治療遺傳病等等具有重要的意義。但是早期的技術(shù)依賴于同源重組,效率很低、特異性差,使得其應用受到很大的限制。人工核酸酶的出現(xiàn)極大地提高了基因組編輯的效率,人工核酸酶經(jīng)歷了兩代技術(shù)分別是鋅指核酸酶和轉(zhuǎn)錄激活效應物樣核酸酶,其靶向DNA的特異性是由蛋白質(zhì)與DNA堿基的特異性結(jié)合實現(xiàn)的。但是在應用人工核酸酶時,需要根據(jù)DNA靶位點的序列構(gòu)建可以編碼產(chǎn)生能與靶位點特異性結(jié)合的鋅指蛋白或者轉(zhuǎn)錄激活效應物的DNA結(jié)構(gòu),由于這兩個蛋白氨基酸數(shù)量多且重復性高,給其編碼序列的構(gòu)建帶來了很大的難度。CRISPR/Cas9技術(shù)的出現(xiàn),徹底改變了研究者實現(xiàn)基因組編輯的方式,憑借其最為突出的易于構(gòu)建的優(yōu)勢迅速成為應用最為廣泛的基因組編輯工具并建立了高通量功能性篩選的方法學。本文綜述了基因組編輯的原理,三種基因組編輯工具,高通量功能性基因組學方法和在癌癥相關(guān)基因的功能性篩選方面的應用。
基因組編輯技術(shù)即在基因組水平上對DNA分子的序列進行定位與修改,從而達到定向調(diào)控基因表達包括基因上調(diào)和下調(diào)、改變遺傳密碼、完全破壞基因的表達等目標。因此,基因組編輯的工具通常由兩個部分組成,即定向模塊和功能性模塊。定向模塊是指在基因組中定位于目標編輯的DNA序列的模塊,而功能性模塊則是指在靶位點定位后發(fā)揮基因組編輯的元件。基因組編輯發(fā)生的原理是特異性地在基因組位點引入DNA雙鏈斷裂,從而引發(fā)細胞內(nèi)DNA損傷修復機制包括同源重組和非同源末端接合,基于此完成包括基因打靶、基因修復、目的基因定點插入等基因組編輯的目的。綜上,基因組編輯工具包含與基因組特異位點的DNA序列相結(jié)合的元件和在目標序列引入DNA雙鏈斷裂的功能性元件[1]。
目前,基因組編輯技術(shù)經(jīng)歷了三代系統(tǒng),分別是鋅指核酸酶ZFN、轉(zhuǎn)錄激活效應物樣核酸酶TALEN和CRISPR/Cas9系統(tǒng)。ZFN和TALEN是依靠蛋白質(zhì)與DNA特異性結(jié)合來實現(xiàn)靶位點定位的,目前兩個蛋白的功能結(jié)構(gòu)域已經(jīng)實現(xiàn)模塊化,兩個蛋白的相似之處在于與DNA堿基的特異性結(jié)合的區(qū)域具有高度的重復性。而在基因組特定位點引入雙鏈斷裂依靠的是非特異性的核酸酶FokI。之后發(fā)展起來的CRISPR/Cas9系統(tǒng)通過一段短RNA將Cas9蛋白導向靶位點實現(xiàn)定點DNA雙鏈斷裂,系統(tǒng)的構(gòu)建更加容易。
第一代基因組編輯技術(shù)ZFN也叫作鋅指蛋白核酸酶,由鋅指蛋白與具備切割DNA雙鏈的核酸酶融合而成。鋅指蛋白是可以與DNA堿基特異性結(jié)合的蛋白,最初發(fā)現(xiàn)于蛙類動物的細胞中,鋅指蛋白的重復單元可以與DNA堿基特異性結(jié)合,每一個鋅指蛋白可以特異性地識別三聯(lián)體堿基。由于三聯(lián)體堿基有64種不同的組合,因此,根據(jù)不同的DNA靶序列,需要對于不同的DNA堿基三聯(lián)體都有比較高效和特異的鋅指蛋白重復單元。這正是鋅指核酸酶目前應用的一個很大的局限性,即ZFN應用的位點普適性。
鋅指蛋白一般由3~4個鋅指結(jié)構(gòu)重復單元串聯(lián)而成,因此,可以特異性地識別9~12個DNA堿基。目前最為常用的鋅指結(jié)構(gòu)是Cys2His2鋅指,是由大約30個氨基酸包裹著一個鋅原子組成,目前研究者通常根據(jù)DNA靶位點把相應的鋅指結(jié)構(gòu)串聯(lián)起來從而識別9個或者12個堿基。與鋅指蛋白融合的可以切割DNA雙鏈的核酸酶是FokI,為了減少FokI的非特異性切割,研究者利用其二聚體才能發(fā)揮作用的特點,將FokI單體與鋅指蛋白串聯(lián)。因此,鋅指蛋白核酸酶需要成對工作,在靶位點附近針對DNA鏈設(shè)計兩條ZFN,兩條鋅指蛋白之間應為FokI留有合適的間隔區(qū)域,通常5~7個堿基為宜,合理的間隔區(qū)域?qū)τ赯FN二聚體的工作至關(guān)重要。通過研究者長期的努力,識別大多數(shù)堿基三聯(lián)體的鋅指蛋白相關(guān)數(shù)據(jù)已經(jīng)形成了公共數(shù)據(jù)庫。針對每一條DNA靶序列,研究者通??梢愿鶕?jù)與密碼子對應的關(guān)系對編碼鋅指結(jié)構(gòu)的DNA進行模塊化組裝,再導入到目標生物。目前,在從低等到高等的很多生物包括斑馬魚、果蠅、小鼠、高等哺乳動物以及植物中,ZFN技術(shù)已被廣泛的應用,對于疾病的基因治療有重要的潛在意義[1]。
第二代人工核酸酶技術(shù)為TALEN,即轉(zhuǎn)錄激活樣效應物核酸酶,由轉(zhuǎn)錄激活效應物和FokI融合而成。因此,與ZFN相同的是,TALEN也是成對工作的,只是兩對TALE之間的間隔要求更大,通常是10~15堿基。TALE首次被發(fā)現(xiàn)于一種植物致病細菌黃單胞桿菌中被發(fā)現(xiàn),該蛋白正是這種細菌導致被感染植物發(fā)病的原因。黃單胞桿菌感染植物后,細菌中的TALE蛋白會被釋放進入植物的細胞中,TALE蛋白會特異性地識別一些植物免疫相關(guān)基因的DNA序列,并憑借TALE蛋白C端的轉(zhuǎn)錄激活因子上調(diào)相應基因的表達,導致被感染植物出現(xiàn)一系列的異常。研究者發(fā)現(xiàn)了TALE蛋白的功能和作用機制后,逐步揭示了TALE蛋白與DNA特異性結(jié)合的機理。因此,與鋅指蛋白相同的是TALE也是依靠蛋白質(zhì)和DNA堿基特異性結(jié)合的,不同的是TALE蛋白與DNA的特異性結(jié)合是一對一的模式,即一個重復單元與一個DNA堿基特異性結(jié)合的。對于A、T、C和G四個堿基都有高效特異性識別的重復單元,因此根據(jù)DNA靶位點的序列將相應的重復單元串聯(lián)起來,就可以編碼獲得與靶位點識別的TALE蛋白[2]。
與ZFN相比,TALEN的DNA識別域更長,甚至可以達到40個核苷酸序列,因此它不易脫靶。同時,ZFN和TALEN面臨操作困難的限制性,即都需向細胞內(nèi)導入蛋白質(zhì),但是蛋白質(zhì)轉(zhuǎn)入細胞的方法操作難度非常大,需要向細胞導入可以表達體積龐大且重復性高的DNA,經(jīng)轉(zhuǎn)錄和翻譯后表達產(chǎn)生可以與靶位點特異性結(jié)合的蛋白質(zhì)。因此,實驗周期長,成本高,且實驗室需要有一定的基礎(chǔ)才可以使用一些已經(jīng)發(fā)表的方法,極大地限制了兩種人工核酸酶在高通量方面的應用。
CRISPR/Cas9系統(tǒng)是近年來涌現(xiàn)出來的的基因組編輯工具,該系統(tǒng)通過一段小RNA分子可以把Cas9蛋白導向DNA靶位點,并依靠Cas9的核酸內(nèi)切酶活性在靶位點引入雙鏈斷口,從而啟動細胞內(nèi)的DNA損傷修復機制完成靶基因的編輯。CRISPR/Cas系統(tǒng)在1987年被大阪大學的研究人員在細菌中的堿性磷酸酶基因附近區(qū)域被首次發(fā)現(xiàn),功能是細菌中的免疫作用,來抵御病毒和外源DNA的入侵。在以后的研究中,根據(jù)其特點被命名為CRISPR系統(tǒng),即成簇的規(guī)律間隔的短回文重復序列。
CRISPR/Cas系統(tǒng)由CRISPR序列元件和Cas家族基因組成,CRISPR序列元件由高度保守的重復序列與間隔序列排列組成,而附近的Cas基因編碼具有核酸酶活性的蛋白質(zhì),可以在定位后對DNA靶序列進行特異性的切割。細菌中的CRISPR系統(tǒng)有三個類型,不同類型的RNA加工過程和發(fā)揮核心作用的蛋白質(zhì)不同,其中II型系統(tǒng)最為簡單,發(fā)揮核心作用的蛋白質(zhì)是Cas9一個蛋白[3]。
2013年初的兩篇《科學》文章利用II型系統(tǒng)即CRISPR/Cas9系統(tǒng)在人源細胞系中實現(xiàn)了高效的多重基因組編輯,他們通過基因工程科學的方法優(yōu)化了細菌的II類CRISPR系統(tǒng),并比較了其與TALEN方法在基因組編輯方面的效率,發(fā)現(xiàn)其效率更高更穩(wěn)定。與之前的人工核酸酶相比,其另外一個明顯的優(yōu)勢就是易于構(gòu)建,只需要根據(jù)DNA靶位點序列設(shè)計一段長約20個堿基的DNA序列,并克隆進入U6啟動子轉(zhuǎn)錄表達的載體里面就可以實現(xiàn)對靶基因的編輯。隨后,研究者們繼續(xù)開發(fā)CRISPR/Cas9系統(tǒng),分別實現(xiàn)了靶基因的上調(diào)、下調(diào)、片段插入等等。該系統(tǒng)在應用時,位點的設(shè)計有一個要求,就是PAM序列:NGG(N代表A、T、C、G)。同時,在人類基因組中,平均每8bp就存在NGG序列,所以可以近似的認為靶位點序列的設(shè)計不受任何的限制[4,5]。
自從CRISPR/Cas9系統(tǒng)在高等真核生物細胞實現(xiàn)基因組編輯,就憑借其高效和易于構(gòu)建的優(yōu)勢迅速發(fā)展成為應用最為廣泛的基因組編輯工具,并被研究者通過慢病毒介導,與深度測序技術(shù)結(jié)合建立了高通量功能性篩選方法學。所謂高通量功能性篩選,就是通過基因組水平的篩選實驗鑒定與研究興趣相關(guān)的基因,實現(xiàn)基因與功能之間的對應關(guān)系,對于研究具有重要生物學功能的基因、重大疾病的特異性標記物和潛在的治療靶點具有重要的意義。
在進行基因功能性篩選時,研究者通常會設(shè)計一個sgRNA文庫,針對全基因組水平的每一個基因都設(shè)計高效和特異性的sgRNA靶向基因的編碼區(qū)域,以此利用細胞內(nèi)產(chǎn)生DNA雙鏈斷裂后的非同源末端接合的修復方式,產(chǎn)生移碼突變而發(fā)生基因敲除。當把sgRNA文庫通過慢病毒侵染的方式導入細胞后,就得到了一個細胞文庫,文庫中每個基因都有一定數(shù)量的被敲除細胞,在給文庫細胞以篩選壓力后,就會富集得到被敲除的基因是與篩選壓力功能相關(guān)的文庫細胞,最后通過深度測序分析被富集細胞的sgRNA種類和數(shù)量,即建立基因與功能之間的聯(lián)系。當基于基因敲除的篩選方法被建立之后,研究者又開發(fā)了基于CRISPR/Cas9系統(tǒng)的基因上調(diào)、基因下調(diào)和基因組大片段刪除的針對蛋白質(zhì)編碼基因和非編碼調(diào)控元件的高通量功能性篩選方法[6,7]。
癌癥是困擾人類健康和影響壽命的重大疾病,發(fā)生的機制是基因突變。癌癥之所以難以治療,是因為其病因的復雜性和不同患者之間的異質(zhì)性。隨著癌癥生物學家對于腫瘤細胞的不斷研究和探索,逐漸總結(jié)出了腫瘤細胞的十大特征分別是:具有無限的增殖信號;拒絕細胞死亡,不斷更新;擁有抑制因子(抑制因子的作用:具有可以回避增殖信號的抑制作用);擁有活化的增殖和遷移能力,即腫瘤細胞具備干細胞能力,可以隨體液到其他組織增殖分化;具有永生能力,不斷增殖;可以利用表皮生長因子,誘導新的血管生成,讓腫瘤細胞可以持續(xù)獲得增殖所需營養(yǎng)物質(zhì);免疫逃逸,抑制T細胞的免疫作用并抑制T細胞分化;可以促進抗炎癥體生成;腫瘤細胞的增殖伴隨著大量的突變,基因組極其不穩(wěn)定;可以反向調(diào)控細胞的能量和代謝,從而獲得細胞增殖的能量。對于腫瘤細胞不斷深入的理解,幫助研究者有針對性地開發(fā)全新的治療思路,有針對性地抑制腫瘤細胞。在腫瘤細胞的特征中,細胞增殖和遷移是癌癥發(fā)展的兩個重要因素[8]。
由CRISPR系統(tǒng)介導的高通量功能性篩選技術(shù)通過靶向基因的sgRNA和Cas9蛋白結(jié)合,通過混合型文庫的篩選尋找到發(fā)揮特定功能的基因。因此,我們可以利用高通量功能性篩選技術(shù)篩選出影響腫瘤細胞增殖和遷移的基因,這會給癌癥全新靶點的研究帶來新的思路。對于腫瘤細胞增殖相關(guān)的基因,通過慢病毒侵染在腫瘤細胞系建立sgRNA細胞文庫后,將細胞文庫培養(yǎng)20代以上,提取出sgRNA的整合區(qū)域進行二代測序,就可以發(fā)現(xiàn)豐度出現(xiàn)變化的sgRNA。被正向富集的sgRNA則表示對應基因被敲除后有利于腫瘤細胞的增殖,因此其靶向基因為抑癌基因;被負向富集的sgRNA則表示對應基因被敲除后不利于腫瘤細胞的增殖,因此其靶向基因為促癌基因。對于影響腫瘤細胞遷移的基因,則可以通過細胞遷移檢測報告系統(tǒng)分離出遷移能力變快和變慢的細胞,進一步推理出其靶基因?qū)τ诩毎w移的作用。這些基因的獲得,為腫瘤的治療研究提供了全新的靶點和策略。
基因組編輯技術(shù)是近年來最具影響力的方法學之一,基因組編輯工具包含可以模塊化的靶向區(qū)域和功能性區(qū)域,經(jīng)歷了人工核酸酶(包括ZFN和TALEN)以及CRISPR/Cas9系統(tǒng)三代技術(shù),極大地改變了研究者進行生命科學基礎(chǔ)研究的方法思路,為基礎(chǔ)醫(yī)學的研究提供了全新的技術(shù)手段。把基于CRISPR/Cas9系統(tǒng)的功能性基因組學方法應用于腫瘤細胞相關(guān)功能的研究之中,一定是未來重要的研究方向,能夠為腫瘤的治療提供更多的靶點。