楊 影,謝水蓮,萬紹貴,冷小敏
(1. 贛南醫(yī)學(xué)院2021級碩士研究生;2. 贛南醫(yī)學(xué)院2020級碩士研究生;3. 贛南醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院;4. 贛南醫(yī)學(xué)院基礎(chǔ)醫(yī)學(xué)院分子病理中心,江西 贛州 341000)
高通量測序技術(shù)已廣泛應(yīng)用于遺傳性疾病和癌癥的研究,但因成本相對較高阻礙了其在基因組水平上大規(guī)模基因變異檢測的應(yīng)用[1]。為提高基因檢測效率,需提高測序深度和全面變異檢測的方法,通過針對感興趣的區(qū)域(Region of interest,ROI)或基因進行靶向富集然后再高通量測序的方法應(yīng)運而生[2]。當前高通量測序的靶向富集方法主要有兩種方式:第一是雜交捕獲法,主要利用探針雜交富集目標片段,適用于基因組目標區(qū)域的全面檢測,但依賴于成百上千個寡核苷酸探針的設(shè)計、復(fù)雜的微陣列芯片制造和較長的雜交時間[3];第二是多重PCR 擴增法,其核心是引物設(shè)計,先通過PCR擴展富集目標片段,再進行文庫構(gòu)建,適用于研究的目標區(qū)域相對較小,對于拷貝數(shù)較低的模板DNA,可產(chǎn)生足夠數(shù)量用于測序的擴增子,這種方法能明顯提高效率,節(jié)約時間,降低經(jīng)濟成本,不足之處在于存在引物互相干擾和非特異性擴增等問題[4]。這兩種方法不僅過程繁瑣、成本昂貴,還受PCR 擴增效率影響導(dǎo)致基因組的復(fù)雜區(qū)域和高GC區(qū)域會難以覆蓋。近年來,CRISPR/Cas9 靶向富集的出現(xiàn)擴大了高通量測序技術(shù)在臨床方面的應(yīng)用范圍,通過對ROI 進行Cas9 特異性靶向切割富集,提高了ROI 的覆蓋深度,顯著減少背景基因的測序數(shù)據(jù),從而達到了便于分析后續(xù)數(shù)據(jù)的目的[5]。該方法具有無PCR 擴增、保留了堿基修飾的信息、實現(xiàn)了高測序深度、低錯誤率和低成本的長讀長測序等優(yōu)點。基于Cas9 靶向富集納米孔基因測序技術(shù)通過對樣本目標區(qū)域的研究,已被應(yīng)用于獲得高覆蓋度和高質(zhì)量特定基因組區(qū)域的序列信息,利于發(fā)現(xiàn)和證明與疾病相關(guān)的候選基因和位點,在遺傳變異和全基因組測序等方面已得到廣泛應(yīng)用。本文對Cas9 靶向富集納米孔測序技術(shù)的原理和應(yīng)用進行了回顧,并重點闡述該技術(shù)在融合基因檢測中的最新進展。
CRISPR/Cas(Clustered Regularly Interspaced Short Palindromic Repeats/CRISPR-associated)是 細菌中一種應(yīng)對噬菌體和質(zhì)粒等外來DNA 的防御系統(tǒng)[6]。在某些細菌基因組中存在“規(guī)律間隔成簇短回文重復(fù)序列”(Clustered Regularly Interspaced Short Palindromic Repeats,CRISPR),這些序列被轉(zhuǎn)錄成為RNA,也被稱為導(dǎo)向RNA(guide RNA,gRNA)。gRNA 能和細菌體內(nèi)Cas 蛋白質(zhì)形成復(fù)合體,并對Cas 蛋白有導(dǎo)向作用。當復(fù)合體檢測到入侵的DNA 和gRNA 序列一致時,Cas 蛋白就能切割降解入侵的DNA,達到防御的目的[7]。CRISPR/Cas9是基于CRISPR/Cas 構(gòu)建的一種基因編輯技術(shù),在基因編輯方面具有高效、快速、簡單等特點。該系統(tǒng)是一個Cas9 核糖核蛋白(ribonucleoprotein,RNP),包含Cas9 蛋白和sgRNA(crRNA-tracrRNA 的 嵌合體)[8]。其中tracrRNA 具有莖環(huán)結(jié)構(gòu),與Cas9 蛋白結(jié)合;crRNA 引導(dǎo)Cas9定位到要編輯的DNA 序列附近。在進行基因編輯時,crRNA 先與基因組上的靶序列結(jié)合,然后RNP 識別并切割靶序列[8]。RNP 識別和剪切位點附近具有前間隔序列鄰近基序(Protospacer Adjacent Motif, PAM),它是三個緊挨著的堿基序列,最常用的是NGG(N 是任意一種核苷酸序列,G是鳥嘌呤)。RNP識別出與crRNA 互補的原間隔序列(PAM序列),然后解開DNA雙鏈,形成R-loop環(huán),使crRNA與互補鏈堿基配對,另外一條單鏈仍然保持游離的狀態(tài);接著Cas9中的HNH(His-Asn-His)活性位點剪切與crRNA互補配對的DNA單鏈,RuvC活性位點剪切非互補鏈;最終使DNA 雙鏈斷裂,形成磷酸化的切割端口[6-7,9]。
納米孔測序技術(shù)采用“邊解鏈邊測序”的方法,基于電信號的變化識別相應(yīng)的堿基序列。納米孔是該技術(shù)的核心,它是一個外表面由脂質(zhì)雙分子層且兩端分別各有一對電極的跨膜蛋白構(gòu)成的納米孔通道。雙鏈DNA 分子在馬達蛋白的作用下解螺旋并在其牽引作用下通過納米孔,不同的堿基會產(chǎn)生不同的偏轉(zhuǎn)電流,最后通過電流的變化特征實現(xiàn)對不同堿基的判定[10-11]。Cas9靶向富集納米孔基因測序技術(shù)是Cas9 和納米孔基因測序技術(shù)的新結(jié)合,該技術(shù)利用Cas9靶向切割ROI上游(5')和下游(3')的側(cè)翼序列進行納米孔測序[12]。CRISPR/Cas9 系統(tǒng)的特異性靶向切割和富集ROI 片段的主要步驟分為:⑴對樣本DNA 進行去磷酸化處理以避免后續(xù)的非目標區(qū)域連接;⑵使用Cas9 復(fù)合物對選定ROI 進行切割,露出可連接目標端;⑶對所有的3'端均進行加A尾,與此同時將測序接頭只連接在切割端上;⑷將整個文庫添加到測序芯片上進行納米孔測序(圖1)[13-15]。這樣,對應(yīng)ROI 將會得到富集,降低測序成本,加之納米孔測序技術(shù)測序片段長和快的特點,使得Cas9 靶向富集納米孔基因測序技術(shù)在基礎(chǔ)和應(yīng)用研究中發(fā)揮了巨大作用。
圖1 Cas9靶向切割富集示意圖
Cas9 靶向富集納米孔基因測序能捕獲并檢測到多個區(qū)域中未經(jīng)擴增的DNA 片段,在融合基因、結(jié)構(gòu)性變異和癌癥驅(qū)動基因的甲基化檢測等方面發(fā)揮了非常重要的作用(表1)。為了評估TP53、KRAS 和BRAF 的單核苷酸位點變異(Single-nucleotide variants,SNVs),GILPATRICK T 等[16]使用納米孔Cas9靶向測序(nanopore Cas9-targeted sequencing,nCATS)不需擴增的策略,檢測了淋巴母細胞系和乳腺細胞系,結(jié)果表明,nCATS 不僅可對目的基因DNA 片段進行富集和長讀長測序,且可用于SNVs的檢測。在檢測基因的甲基化方面,nCATS 也展現(xiàn)了非常明顯的優(yōu)勢,該團隊通過該方法評估三種乳腺細胞系中一系列靶基因發(fā)生甲基化的能力,角蛋白家族成員基因KRT19 作為乳腺癌向淋巴結(jié)微轉(zhuǎn)移的標記物,常用于循環(huán)腫瘤的檢測,KRT19的甲基化表達具有顯著差異,在非致瘤性MCF-10A 細胞系中保持高甲基化;在致瘤性MCF-7 和MDA-MB-231乳腺細胞系中為低甲基化[16]。WONGSURAWAT T等[17]利用nCATS 同時檢測4種人類膠質(zhì)母細胞瘤(GBM)細胞系和8份新鮮的人類腦瘤樣本中的脫氫酶(IDH)基因突變狀態(tài)和O6-甲基鳥嘌呤-DNA 甲基轉(zhuǎn)移酶(MGMT)啟動子的甲基化水平,nCATS 在36 小時內(nèi)準確檢測IDH1 和IDH2 突變,結(jié)果與Sanger 和Illumina 測序數(shù)據(jù)一致。檢測到的MCMT甲基化百分比與Illumina 的結(jié)果存在顯著的一致性,并與質(zhì)譜分析檢測的CpG 位點相同[17]。另外,GABRIELI T 等[18]使用Cas9 靶向染色體片段(Cas9-Assisted Targeting of Chromosome,CATCH)的方法捕獲一個200 kb 的側(cè)翼區(qū)域和調(diào)控區(qū)域大的DNA 片段進行測序,檢測出NGS 未檢測到的乳腺癌和卵巢癌基因BRCA1中存在的單核苷酸多態(tài)性(Single-nucleotide polymorphisms,SNPs)。由此可見,這些先前描述的研究表明,將nCATS 作為癌癥精準醫(yī)療的臨床工具有很大的潛力,該方法只需約3μg 的基因組DNA,可在一次實驗中靶向富集大量的位點,實現(xiàn)細胞和組織的低成本、低基因組起始量檢測目標區(qū)域的堿基修飾和基因組結(jié)構(gòu)的改變。由于融合基因的檢測在臨床診療方面具有重要的指導(dǎo)意義,我們將重點介紹Cas9 靶向富集納米孔基因測序?qū)θ诤匣虻臋z測應(yīng)用。
表1 基于Cas9靶向富集納米孔基因測序技術(shù)的應(yīng)用
染色體倒置、串聯(lián)重復(fù)、間質(zhì)缺失或易位將不同的、獨立的基因或基因片段串聯(lián)在一起形成融合基因。作為癌癥的常見驅(qū)動因素,約20%癌癥導(dǎo)致的死亡與融合基因有關(guān)。因此,融合基因可作為多種癌癥診療的標志物[22-23]。例如,CCDC6/RET 融合基因的過度表達會促進乳頭狀甲狀腺癌的發(fā)生[24];編碼酪氨酸激酶受體的基因(ALK[25]、ROS1[26]等)與其他基因的融合(EML4/ALK、CD47/ROS1 等)會激活下游細胞信號通路,引發(fā)細胞無限增殖,最終導(dǎo)致細胞癌變[27-28]。臨床上已將一些與癌癥發(fā)生發(fā)展有關(guān)的融合基因用于臨床診療參考,其中最著名的是慢性粒細胞白血?。╟hronic myelocytic leukemia,CML)中的BCR/ABL1 融合基因的發(fā)現(xiàn),臨床開發(fā)出了靶向該融合基因的小分子抑制劑甲磺酸伊馬替尼,該抑制劑在CML 患者中有顯著療效,有效延緩了CML 患者病情發(fā)展[29-30]。此外,靶向?qū)嶓w瘤中致癌基因融合治療也取得了成功,例如抑制非小細胞肺癌中的ALK和ROS1融合基因,NTRK抑制劑拉羅替尼已被FDA 批準用于NTRK1/2/3 所有類型的融合陽性實體瘤[31]。目前臨床上經(jīng)典的融合基因檢測手段包括:免疫組化(Immunohistochemistry,IHC)[32]、熒光原位雜交(Fluorescence in situ hybridization,F(xiàn)ISH)[33]、反轉(zhuǎn)錄-聚合酶鏈反應(yīng)(Reverse transcription-polymerase chain reaction,RT-PCR)[34]、第二代基因測序技術(shù)(Next-generation sequencing,NGS)等[35]。
對于融合位點和融合伴侶高度可變的融合基因、長片段的串聯(lián)重復(fù)序列等,經(jīng)典的檢測手段不能準確識別。其中IHC染色是在蛋白質(zhì)水平上對融合蛋白進行檢測,但對于小間隙缺失或倒置檢測不敏感,無法直接檢測融合基因;FISH、RT-PCR、NGS則是在核酸水平上對融合基因進行檢測,F(xiàn)ISH 雖然敏感性較好,但操作復(fù)雜、技術(shù)要求高、只針對陽性融合基因檢測,這種檢測比較浪費時間[36];RT-PCR的不足之處是只能研究一個融合基因,且只能檢測已知的融合基因[35,37]。盡管NGS常用于新的融合基
因檢測,但其測序讀長短、依賴于PCR 擴增、受GC堿基含量影響大,在復(fù)雜的融合基因檢測中仍存在很大的困難[4]。Cas9靶向富集納米孔基因測序技術(shù)通過提高測序覆蓋度和深度可發(fā)現(xiàn)腫瘤中新的融合基因,且能用于復(fù)雜結(jié)構(gòu)變異的解析和識別發(fā)現(xiàn)新的變異[16,38]。STANGL C 等[19]開發(fā)的基因富集融合 檢 測(Fusion Detection from Gene Enrichment,F(xiàn)UDGE)技術(shù)通過基因靶向富集與納米孔測序相結(jié)合,能在48 小時內(nèi)快速定位融合伴侶和斷點位置,完成融合基因的檢測。該技術(shù)不僅可檢測已知的融合基因及其斷裂點,基于其中一個伴侶基因的信息,還能檢測出尚未發(fā)現(xiàn)的融合伴侶和斷點。并且基于共有的融合片段去設(shè)計切割靶點的引物,該技術(shù)實現(xiàn)了同時檢測多個伴侶的融合基因[16]。該方法已成功應(yīng)用于AML、Ewing 肉瘤、結(jié)腸癌等癌癥中融合基因的快速識別[16]。為了鑒定新的融合基因,研究人員將該技術(shù)應(yīng)用于檢測已知融合基因的腫瘤細胞系,檢測的細胞與對應(yīng)的融合基因分別為尤文氏肉瘤(Ewing's sarcoma,ES)細胞株A4573 和CHP-100 中的EWSR1-FLI1 融合基因、滑膜肉瘤HS-SYII 細胞系中的SS18-SSX1 融合基因[39]。在對A4573、CHP-100 和HS-SYII 的檢測中,靶向切割融合基因所在的目標區(qū)域后覆蓋率分別增加到了81x(A4573)、66x(CHP-100)和11x(HS-SYII)[18]。同時,EWSR1-FIL1融合基因的不同斷點位置得到了新的鑒定。通過設(shè)計序列crRNA來跨越PAX3和PAX7的斷點區(qū)域進行測序,檢測出了新的融合基因和斷點:FOXO1-PAX3 和DRICH1-BCR[18]。FISH 可 診 斷 出KMT2A 存在融合,但無法檢測出融合伴侶。NGS 可識別包括啟動子融合在內(nèi)的所有融合基因和斷點位置,但受限于測序讀長短、樣本使用量大和周轉(zhuǎn)時間長。而FUDGE能在48小時內(nèi)檢測出MTTL6基因為融合伴侶。且可使用低通量的細胞和單個樣品進行檢測,無需PCR 擴增,從而減少了工作的流程,顯著降低了檢測成本[18]。
隨著高通量測序技術(shù)的不斷發(fā)展,納米孔測序技術(shù)發(fā)展迅速且具有讀長長、實時數(shù)據(jù)監(jiān)測、簡單便捷等特點,在基因修飾識別、表觀遺傳學(xué)研究、微生物檢測、癌癥診斷及相關(guān)醫(yī)學(xué)檢測方面,發(fā)揮著越來越重要的作用。CRISPR/Cas9 靶向富集測序技術(shù)的出現(xiàn),使單次快速讀取更長分子的堿基序列和大規(guī)模樣本的基因組目標區(qū)域測序成為現(xiàn)實。該技術(shù)有針對性地測序使研究人員能富集ROI,顯著降低測序成本和勞動力。在通過對感興趣的基因組區(qū)域獲得高覆蓋度數(shù)據(jù),該技術(shù)使研究人員可快速識別異質(zhì)樣本中的突變頻率和甲基化模式。尤其是在只知道其中一個融合伴侶的保守序列情況下,該技術(shù)可同時檢測多個融合伴侶的斷裂位點,并對相應(yīng)位點進行其結(jié)構(gòu)分析。然而,Cas9 靶向納米孔測序在檢測方法和后續(xù)的生物信息學(xué)方面仍需完善,例如:對于重復(fù)序列的測序,如何得到較短的等位基因片段且不會產(chǎn)生偏差;如何利用更少的細胞樣本進行DNA 水平的分析;對于ROI,怎樣使Cas9 切割的脫靶效率降低;如何使生物信息學(xué)工具更易于使用。隨著三代測序技術(shù)的應(yīng)用推廣和檢測方法的推陳出新,Cas9 靶向富集納米孔基因測序?qū)⒃谂R床檢測應(yīng)用方面擁有更廣闊的前景。