呂雙娟,舒林娟,林啟研,李思穎,李丹寧,肖越,莫顯明
(四川大學(xué)華西醫(yī)院干細(xì)胞生物學(xué)研究室,成都610041)
基因編輯技術(shù)是研究動(dòng)物基因功能和物種進(jìn)化基因規(guī)律的有效手段,其中最方便的基因編輯技術(shù)是CRISPR/Cas9技術(shù)。CRISPR/Cas9是一種在細(xì)菌和古細(xì)菌體內(nèi)由sgRNA和Cas9蛋白組成復(fù)合體(Deltchevaetal.,2011)以抵御外源DNA的適應(yīng)性免疫防御系統(tǒng)(Horvath & Barrangou,2010;Wiedenheftetal.,2012)。CRISPR/Cas9技術(shù)在生物醫(yī)學(xué)等領(lǐng)域有著廣泛的應(yīng)用,已經(jīng)成功地在多個(gè)物種中實(shí)現(xiàn)了基因組編輯,如斑馬魚(yú)Daniorerio(Changetal.,2013;Hwangetal.,2013a,2013b;Xiaoetal.,2013;Yinetal.,2015;Brocaletal.,2016;Gasanovetal.,2021;Shaw & Mokalled,2021)。CRISPR/Cas9復(fù)合體通過(guò)堿基互補(bǔ)配對(duì)識(shí)別并與外源靶DNA的互補(bǔ)序列結(jié)合,在靶DNA的前間區(qū)序列鄰近基序(protospacer adjacent motif,PAM)區(qū)上游3 bp引入雙鏈斷裂并通過(guò)非同源末端連接或同源定向修復(fù)以實(shí)現(xiàn)基因的特定編輯(Jineketal.,2012;Congetal.,2013;Jiangetal.,2013;Malietal.,2013)。CRISPR/Cas9基因編輯系統(tǒng)依賴于sgRNA的識(shí)別序列與靶點(diǎn)序列的特異性結(jié)合??梢酝ㄟ^(guò)改變sgRNA序列來(lái)增加CRISPR/Cas9系統(tǒng)的靶效應(yīng),例如截?cái)鄐gRNA的5’端堿基(Choetal.,2014;Fuetal.,2014)或在sgRNA的5’端增加2個(gè)G(Choetal.,2014)均可以降低脫靶效應(yīng);在斑馬魚(yú)體內(nèi)針對(duì)同一基因使用2個(gè)sgRNAs造成目的基因的基因組大片段缺失(Xiaoetal.,2013;Hoshijimaetal.,2019)或者針對(duì)同一目標(biāo)位點(diǎn)使用2個(gè)互補(bǔ)的sgRNA(Gasanovetal.,2021)可顯著提高CRISPR/Cas9的突變效率。然而,由于基因組的復(fù)雜性和sgRNAs對(duì)特定堿基錯(cuò)配的忍耐性(Bolukbasietal.,2016),sgRNA的識(shí)別序列同樣可能與其他非靶DNA序列部分匹配,激活Cas9核酸內(nèi)切酶活性,導(dǎo)致脫靶效應(yīng),從而降低靶DNA的切割活性(Yannietal.,2014;Ewaetal.,2018)。因此,對(duì)sgRNA進(jìn)行特異性和高效性預(yù)測(cè)具有重要意義。
本研究分析了針對(duì)斑馬魚(yú)35個(gè)基因的157個(gè)sgRNAs的序列組成,發(fā)現(xiàn)高效的sgRNA具有序列組成偏好性,能夠最大化提高CRISPR/Cas9系統(tǒng)的切割效率。此外,對(duì)已發(fā)表的sgRNA序列特征進(jìn)行重新分析以驗(yàn)證本研究所獲得的序列特征是否具有普遍適用性,便于優(yōu)化用于CRISPR/Cas9基因編輯和遺傳篩選的sgRNA設(shè)計(jì)。
1.1.1 實(shí)驗(yàn)動(dòng)物斑馬魚(yú)品系為野生型斑馬魚(yú)AB和轉(zhuǎn)基因型斑馬魚(yú)(Ifabp:Red/elastase:GFP)。所有動(dòng)物實(shí)驗(yàn)均經(jīng)四川大學(xué)華西醫(yī)院實(shí)驗(yàn)動(dòng)物倫理委員會(huì)批準(zhǔn)。
1.1.2 實(shí)驗(yàn)試劑質(zhì)粒pMD-18T由本實(shí)驗(yàn)室保存;Cas9蛋白(GenCrispr NLS-Cas9-NLS Nuclease)購(gòu)自GenScript;體外轉(zhuǎn)錄試劑盒MEGAscript? T7 Kit購(gòu)自Thermo Fisher Scientific;T7 EndonucleaseⅠ購(gòu)自NEB。
使用CHOPCHOP(Montagueetal.,2014)和Benchling預(yù)測(cè)和選擇基因中最優(yōu)的CRISPR/Cas9靶序列。為滿足體外轉(zhuǎn)錄T7啟動(dòng)子的要求,本研究中使用的大部分靶點(diǎn)以5’-GG開(kāi)頭。然而,在某些基因上選擇5’-GG開(kāi)頭的sgRNA較難,因此將序列要求放寬為5’-GN-3’。此外,每個(gè)基因至少設(shè)計(jì)3個(gè)不同的sgRNAs。
用特異性引物(表1)以sgRNA骨架質(zhì)粒pMD-18T(含T7啟動(dòng)子、RNA支架和氨芐青霉素抗性)為模板,使用Q5高保真酶進(jìn)行PCR擴(kuò)增,得到sgRNA體外轉(zhuǎn)錄模板。PCR產(chǎn)物經(jīng)瓊脂糖凝膠電泳進(jìn)行單一條帶(125 bp)確認(rèn)后直接純化回收。
表1 sgRNA模板擴(kuò)增引物
1 μg sgRNA模板通過(guò)試劑盒進(jìn)行體外轉(zhuǎn)錄并通過(guò)LiCl沉淀法純化回收。
通過(guò)顯微注射將1 nL的sgRNA和含有核定位信號(hào)(NLS)的Cas9蛋白的混合液(終濃度為250 ng sgRNA/μL和150 ng NLS-Cas9 NLS/μL)注射到野生型斑馬魚(yú)AB胚胎單細(xì)胞期的細(xì)胞質(zhì)中。每種sgRNA注射300多枚胚胎,在檢測(cè)切割活性后,將剩余的胚胎培養(yǎng)至成年,形成F0代。
T7EⅠ核酸內(nèi)切酶特異性識(shí)別和切割異源雙鏈DNA錯(cuò)配。顯微注射24 h后,隨機(jī)收集8枚未注射的胚胎作為對(duì)照,同時(shí)隨機(jī)收集至少18枚(6枚/管)注射后的胚胎來(lái)鑒定靶點(diǎn)sgRNA的有效性。用堿裂解法提取胚胎基因組并以此為模板進(jìn)行PCR擴(kuò)增。利用T7EⅠ核酸內(nèi)切酶選擇性地消化PCR產(chǎn)物中的異源雙鏈DNA,通過(guò)比較對(duì)照組與實(shí)驗(yàn)組的瓊脂糖凝膠圖譜上條帶的數(shù)量來(lái)確定突變頻率。將非單一條帶的PCR產(chǎn)物進(jìn)行Sanger測(cè)序,確?;虻陌邢蛴行院屯蛔冃省?/p>
確認(rèn)sgRNA活性后,將剩余的胚胎或2~3個(gè)有效sgRNAs共注射的胚胎培養(yǎng)至成體,并通過(guò)剪尾鰭確定其是否發(fā)生有效突變。經(jīng)T7EⅠ核酸內(nèi)切酶檢測(cè)和Sanger測(cè)序初步篩選后,將F0代與野生型斑馬魚(yú)雜交獲得F1代。待其長(zhǎng)至1.5個(gè)月左右,對(duì)每條F1進(jìn)行剪尾鰭鑒定和Sanger測(cè)序,獲得攜帶移碼突變的F1突變體。將具有相同突變類型的F1突變個(gè)體進(jìn)行交配獲得F2代。理論上F2代應(yīng)包括純合子突變個(gè)體、雜合子突變個(gè)體和野生型突變個(gè)體。將雌雄純合子突變體F2進(jìn)行交配,獲得穩(wěn)定遺傳突變種系。
運(yùn)用ChopChop和Benchling設(shè)計(jì)并檢測(cè)了35個(gè)斑馬魚(yú)基因中的157個(gè)sgRNAs(附件)。首先利用T7EⅠ核酸內(nèi)切酶檢測(cè)和Sanger測(cè)序,檢測(cè)每個(gè)sgRNA的切割活性。結(jié)果表明,75個(gè)sgRNAs(47.8%)有效。為了獲得更準(zhǔn)確的序列特征,剔除了Tcf4基因,因?yàn)槠?9個(gè)sgRNAs的切割活性檢測(cè)結(jié)果均顯示無(wú)效。靶點(diǎn)有效率提高至54.3%(圖1),并且F1代鑒定測(cè)序顯示35個(gè)基因中有 34個(gè)(97%)均發(fā)生了可遺傳的種系突變。為了驗(yàn)證157個(gè)sgRNAs活性序列特征的有效性,從現(xiàn)有的sgRNA文庫(kù)中重新分析了959個(gè)sgRNAs。959個(gè)sgRNAs的效率顯示出類似的結(jié)果(圖2:a)。
為了更好地探索CRISPR/Cas9系統(tǒng)的sgRNA序列組成在斑馬魚(yú)中的影響,分析了本研究的 138個(gè)sgRNAs和已發(fā)表的959個(gè)sgRNAs的序列特征。首先比較所有靶點(diǎn)sgRNAs的GC含量分布(忽略PAM中NGG上的GG)。在整個(gè)靶點(diǎn)序列(20 bp)中,GC含量為50%~60%的有效靶點(diǎn)明顯高于無(wú)效靶點(diǎn)(圖3:a),同時(shí)在已發(fā)表的959個(gè)sgRNAs中也存在這一趨勢(shì),盡管GC含量為45%和65%的sgRNAs在切割方面略有優(yōu)勢(shì)(圖2:b)。對(duì)sgRNAs的12個(gè)種子序列(近PAM端1~12位堿基)進(jìn)行GC含量分析,50%~58%的GC含量在sgRNA種子區(qū)域有明顯的富集現(xiàn)象(圖3:b),而已發(fā)表的959個(gè)sgRNAs中,種子序列的GC含量PAM.前間區(qū)序列鄰近基序protospacer adjacent motif; 下同,the same below為42%~67%(圖2:c)。
sgRNA序列中核苷酸的組成可能會(huì)影響CRISPR/Cas9系統(tǒng)的靶向切割效率,故分析了所有sgRNAs序列上重要位置的核苷酸偏好性。首先,比較了有效靶點(diǎn)和無(wú)效靶點(diǎn)的前2位堿基的組成。結(jié)果顯示,與5’-GG sgRNAs相比,5’-GA sgRNAs的切割效率顯著降低(P=0.037)(圖3:c)。對(duì)已發(fā)表的959個(gè)sgRNAs的前2位堿基偏好性統(tǒng)計(jì)表明,5’-GA sgRNAs序列的切割效率也明顯較低(P=0.021)(圖2:d)。
為了評(píng)估sgRNA活性與PAM可變核苷酸之間的關(guān)系,以無(wú)活性sgRNAs作為陰性對(duì)照,比較了活性sgRNAs的PAM可變核苷酸的堿基偏好性。結(jié)果表明,AGG和CGG之間存在顯著差異(P=0.026)(圖3:d)。PAM的第一個(gè)核苷酸為C能顯著提高靶點(diǎn)的切割效率,而PAM可變核苷酸為A的sgRNAs則會(huì)明顯降低靶點(diǎn)活性。在已發(fā)表的959個(gè)sgRNAs中(圖2:e)同樣觀察到PAM可變核苷酸對(duì)C的偏好。
sgRNA的有效性同樣取決于Cas9蛋白與sgRNA的結(jié)合效率。對(duì)sgRNA真正的“種子”區(qū)域(鄰近PAM 5’端的5位堿基序列,即16~20 nt)的堿基分布進(jìn)行評(píng)估。結(jié)果顯示,除了在第17位堿基上存在明顯的偏好C而排斥T外(P=0.034),第16、18、19、20位堿基上無(wú)顯著的堿基偏好性,盡管與無(wú)效靶點(diǎn)相比,有效靶點(diǎn)在這4個(gè)位置出現(xiàn)G和C的頻率都略高(圖4:a~e)。已發(fā)表的959個(gè)sgRNAs的第17位堿基上也存在對(duì)C的偏好性(P<0.000 1)(圖2:f)。同時(shí)還觀察到,當(dāng)CRISPR/Cas9系統(tǒng)的切割位點(diǎn)堿基對(duì)(第17/18位堿基)為AC時(shí),sgRNAs具有較高的靶切割效率(圖4:f),但無(wú)顯著差異(P=0.07)。對(duì)已發(fā)表的959個(gè)sgRNAs的切割位點(diǎn)堿基偏好性的統(tǒng)計(jì)分析表明,第17/18位堿基為AC的sgRNAs比其他sgRNAs具有顯著的優(yōu)勢(shì)(P<0.05)(圖2:g)。
為了驗(yàn)證sgRNA的設(shè)計(jì)原則在其他物種中的普遍適用性,再次分析959個(gè)sgRNAs中非斑馬魚(yú)基因相關(guān)基因的607個(gè)sgRNAs的序列特征。結(jié)果顯示,607個(gè)sgRNAs的靶點(diǎn)序列和種子序列中的GC含量與之前的結(jié)果完全吻合(圖5:a,b);5’-GA sgRNAs和5’-GG sgRNAs之間仍然存在顯著性差異(P=0.049)(圖5:c);PAM可變堿基偏好C,而排斥T(P=0.001),雖然與之前的結(jié)果略有不同,但都表明在設(shè)計(jì)sgRNA時(shí),最好選擇C作為PAM的可變堿基(圖5:d);最后對(duì)第17位堿基及CRISPR/Cas9切割位點(diǎn)的堿基分布統(tǒng)計(jì)發(fā)現(xiàn),C在第17位堿基有明顯優(yōu)勢(shì)(P<0.001)(圖5:e),而且切割位點(diǎn)的堿基對(duì)為AC的sgRNAs也有明顯的優(yōu)勢(shì)(P<0.001)(圖5:f)。
本研究檢測(cè)了影響sgRNA切割效率的重要參數(shù),包括GC含量、5’端雙核苷酸組成、PAM的可變堿基組成和Cas9核酸內(nèi)切酶切割位點(diǎn)的堿基偏好性,發(fā)現(xiàn)通過(guò)優(yōu)化相關(guān)參數(shù)可以提高斑馬魚(yú)CRISPR/Cas9系統(tǒng)的基因突變效率。同時(shí)為了驗(yàn)證結(jié)果的普遍適用性,本研究分析了已發(fā)表的大量sgRNA序列,包括352個(gè)斑馬魚(yú)相關(guān)基因的sgRNAs(219個(gè)有效和133個(gè)無(wú)效)、279個(gè)人類Homosapiens相關(guān)基因的sgRNAs(133個(gè)有效和146個(gè)無(wú)效)和328個(gè)人類與小鼠Musmusculus相關(guān)基因的sgRNAs(164個(gè)有效和164個(gè)無(wú)效)(Doenchetal.,2014;Gagnonetal.,2014;Charietal.,2015;Shahetal.,2015;Varshneyetal.,2015;Shaw & Mokalled,2021)。其中,631個(gè)斑馬魚(yú)和人類相關(guān)基因的sgRNAs的靶點(diǎn)序列及靶點(diǎn)有效性直接從文獻(xiàn)中獲得,但并未提及具體的突變效率。328個(gè)人類與小鼠相關(guān)基因的sgRNAs來(lái)源于Doench等(2014)中提及的1 841個(gè)sgRNAs。為了較準(zhǔn)確得到有效靶點(diǎn)與無(wú)效靶點(diǎn)的序列特征,選擇突變效率>0.5的164個(gè)sgRNAs為有效靶點(diǎn),同時(shí)選擇相應(yīng)效率最低(突變效率<0.02)的164個(gè)sgRNAs作為無(wú)效靶點(diǎn)。
雖然現(xiàn)在有很多軟件可以幫助設(shè)計(jì)出高效的sgRNA(Charietal.,2015;Wongetal.,2015;Xuetal.,2015),但所獲得的高效率靶點(diǎn)也存在一定的缺陷,并且軟件的效率評(píng)分高低不能代表真實(shí)的切割活性。因此,在設(shè)計(jì)sgRNA時(shí),每個(gè)基因可設(shè)計(jì)3~4個(gè)sgRNAs,且必須在體內(nèi)驗(yàn)證其切割活性后,選擇高效率的sgRNA進(jìn)行下一步實(shí)驗(yàn)。雖然已有研究表明,GC含量為40%~80%的sgRNAs具有切割效率(Gagnonetal.,2014;Wangetal.,2014),但本研究發(fā)現(xiàn),GC含量為50%~60%的sgRNAs序列有更好的切割效率。堿基對(duì)錯(cuò)配的忍耐性(Hsuetal.,2013)以及5’端GG(Hwangetal.,2013a,2013b)的存在會(huì)影響sgRNA的GC含量。本研究對(duì)sgRNA種子序列(Jineketal.,2012;Shangetal.,2015)中的GC含量分布進(jìn)行分析發(fā)現(xiàn),GC含量為50%~60%的sgRNAs同樣具有高效的切割效率。Gagnon等(2014)的研究表明,與5’-GG sgRNAs相比,5’-GA sgRNAs的切割效率只存在輕微下降(P>0.05);而本研究發(fā)現(xiàn),與5’-GG sgRNAs相比,5’-GA sgRNAs的切割效率顯著降低(P=0.037)。
CRISPR/Cas9系統(tǒng)利用PAM識(shí)別靶DNA序列中潛在的靶點(diǎn),同時(shí)PAM有助于Cas9蛋白與靶DNA的結(jié)合(Sternbergetal.,2014)。CRISPR/Cas9系統(tǒng)的PAM通常為NGG。對(duì)所有sgRNAs的PAM的可變堿基“N”進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)C的頻率在有效靶點(diǎn)中占有絕對(duì)優(yōu)勢(shì),這與以前的研究結(jié)果一致(Gagnonetal.,2014);但本研究結(jié)果顯示,A大量存在于無(wú)效靶點(diǎn)中,而不是T(Doenchetal.,2014)。因此在設(shè)計(jì)sgRNA時(shí),最好選擇C作為PAM的可變堿基,同時(shí)避免T和A。CRISPR/Cas9系統(tǒng)識(shí)別靶點(diǎn)后,Cas9蛋白的2個(gè)核酸內(nèi)切酶(HNH核酸內(nèi)切酶和RuvC核酸內(nèi)切酶)分別在PAM 5’端上游3 bp和4 bp之間(第17/18位堿基)切割DNA鏈的互補(bǔ)鏈與非互補(bǔ)鏈,導(dǎo)致DNA雙鏈斷裂(Jineketal.,2012;Shenetal.,2013)。對(duì)sgRNA真正“種子”區(qū)域(Wuetal.,2014)的堿基組成以及切割位點(diǎn)的堿基組成分析發(fā)現(xiàn),C在第17位堿基有明顯優(yōu)勢(shì),而且切割位點(diǎn)為AC的sgRNAs也有明顯的優(yōu)勢(shì),但同時(shí)也應(yīng)該避免切割位點(diǎn)為AA、TT和GG的sgRNAs。
對(duì)已發(fā)表的sgRNA相關(guān)參數(shù)的分析表明,本研究?jī)?yōu)化的sgRNA設(shè)計(jì)原則具有可使用性,并且在其他物種中具有普遍適用性。這些發(fā)現(xiàn)為動(dòng)物(尤其是斑馬魚(yú))體內(nèi)設(shè)計(jì)最有效的sgRNA提供了一個(gè)可行的框架,也為發(fā)育生物學(xué)研究中的sgRNA設(shè)計(jì)提供了便利。