■文/田曉雪
H i-C 技術自2009年由美國馬薩諸塞大學醫(yī)學院教授喬布·德克爾(Job Dekker)研究團隊首次提出以來,發(fā)展得如火如荼。這把揭秘三維基因組的鑰匙將會在哪些方面助力科研、造福人類呢?
眾所周知,一顆受精卵經(jīng)過不斷增殖、分化,可以生長發(fā)育為一個由種類高達200 余種、數(shù)目以萬億計的細胞組成的復雜機體。然而,共享一套遺傳系統(tǒng)的細胞是如何發(fā)育成為形態(tài)、功能各異的組織器官的呢?作為主要的遺傳物質(zhì),脫氧核糖核酸(Deoxyribonucleic acid,DNA)的展開長度可以達到2 米,這些DNA 是如何被放置在一個直徑只有10 微米左右的細胞核中的呢?在這種極度壓縮的環(huán)境下,它們又是如何精確調(diào)控細胞功能,維持機體穩(wěn)態(tài)的呢?
長期以來,這些難題像一把“枷鎖”,嚴重阻礙了生命科學的發(fā)展進程。高通量染色質(zhì)構(gòu)象捕獲(High-throughput/resolution chromosome conformation capture,Hi-C)技術的出現(xiàn),幫助我們深入探究基因組三維結(jié)構(gòu)之謎,為基因研究提供了強大的推動力,是一把名副其實的基因鑰匙。
以我們自身為例,人類體細胞的核內(nèi)存在著彼此獨立又相互聯(lián)系的46 條染色體,它們主要由遺傳物質(zhì)DNA 和組蛋白組成。其中,DNA 一般以染色質(zhì)絲的形式存在,染色質(zhì)絲纏繞在組蛋白復合物上,形成串珠樣結(jié)構(gòu)。串珠樣的染色質(zhì)會進一步像電話線一樣纏繞折疊,形成極度壓縮而又高度有序的狀態(tài),分布在細胞核的特定位置,稱為染色質(zhì)疆域(Chromosome territories,CT)。簡單來講,染色質(zhì)疆域指的是不同染色體占據(jù)的不同空間。一直以來,我們主要通過X 射線、顯微鏡等傳統(tǒng)方式觀察染色質(zhì)和其折疊狀態(tài)。受限于分辨率低、通量小等因素,我們對其折疊的具體機制知之甚少。作為基因組密鑰,Hi-C 技術的出現(xiàn)為我們提供了新的視角。
Hi-C 技術源于染色體構(gòu)象捕獲(Chromosome conformation capture,3C)技術,以整個細胞核為研究對象,利用高通量測序技術,結(jié)合生物信息分析方法,研究全基因組范圍內(nèi)整個染色質(zhì)DNA 在空間位置上的關系,通過對染色質(zhì)內(nèi)全部DNA 相互作用模式進行捕獲,獲得高分辨率的染色質(zhì)三維結(jié)構(gòu)。實驗流程并不復雜,主要包括細胞交聯(lián)(Crosslink)、酶切(Digestion)、環(huán)化連接(Ligation)、純化建庫(Purification and Library preparation)和測序分析(Sequencing)等步驟(見圖1)。
圖1 Hi-C 實驗流程
染色質(zhì)疆域是我們對染色質(zhì)空間結(jié)構(gòu)認知的第一步,Hi-C 技術不僅可以高分辨地解析出傳統(tǒng)方法觀察不到的染色質(zhì)疆域,而且能進一步幫助我們解析出染色質(zhì)疆域內(nèi)各種亞結(jié)構(gòu)。如圖2 所示,按照基因組從大到小的順序排列,依次為A/B 染色質(zhì)區(qū)室(A/B compartments)、域(domain)和染色質(zhì)環(huán)(Chromatin loop,CL)。具體來講,放大染色質(zhì)疆域的某一空間,我們可以根據(jù)染色質(zhì)的活性將其分為A/B 區(qū)室。A 區(qū)染色質(zhì)為活躍區(qū),基因表達較為豐富,鳥嘌呤和胞嘧啶(GC)含量較高,通常高度轉(zhuǎn)錄,包含用于主動轉(zhuǎn)錄的組蛋白標記,位于細胞核的內(nèi)部;B 區(qū)是關閉的染色質(zhì),結(jié)構(gòu)緊湊,基因表達豐度和轉(zhuǎn)錄活性均較低,含有基因沉默的組蛋白標志物,位于核的外圍。在A/B 區(qū)室中,我們將比例尺進一步放大,可以發(fā)現(xiàn)互相作用相對頻繁的基因組區(qū)域,這些就是域,如拓撲相關結(jié)構(gòu)域(Topologically associated domain,TAD) 等。TAD 是一個高度自關聯(lián)的連續(xù)區(qū)域,通過明顯的邊界與相鄰區(qū)域分離開來。TAD 邊界通常具有大量的絕緣子蛋白和黏連蛋白,對結(jié)構(gòu)的維持及穩(wěn)定性具有重要作用。TAD 是一個獨立的調(diào)控單元,在哺乳動物基因組中,TAD 通常由轉(zhuǎn)錄抑制因子CTCF 分割開來。CTCF 非?;钴S,它可以和黏連蛋白復合物結(jié)合,把分布較遠的增強子(enhancer)和啟動子(promoter)等DNA 元件綁到一起,形成染色質(zhì)環(huán),作為染色質(zhì)三維結(jié)構(gòu)的基本結(jié)構(gòu)。利用Hi-C 技術,我們可以從A/B 區(qū)室、TAD 和染色質(zhì)環(huán)三個層次解析基因組的三維結(jié)構(gòu),更好地理解機體內(nèi)正在發(fā)生的生理生化過程。
科學家利用Hi-C 技術以機體發(fā)育和衰老等生理過程為模型,增進了對染色質(zhì)層級結(jié)構(gòu)的發(fā)生機制及其與基因組功能關系的理解。其中,染色質(zhì)環(huán)可以使空間上相隔較遠的DNA 調(diào)控元件,如啟動子和增強子等在物理維度上相互接近,從而調(diào)控基因轉(zhuǎn)錄、核糖核酸(Ribonucleic acid,RNA)剪接等重要的生化過程。TAD 作為更大、更保守的結(jié)構(gòu)功能單元,通過限制、引導和促進增強子-啟動子的相互作用,從而協(xié)調(diào)基因調(diào)控。此外,科學家還發(fā)現(xiàn):在機體發(fā)育早期,TAD 和A/B 區(qū)室等染色質(zhì)高級結(jié)構(gòu)存在著緩慢建立的過程;在配子發(fā)生、合子基因組激活及組織分化發(fā)育等一系列事件中,包括TAD、A/B 區(qū)室等在內(nèi)的基因組三維結(jié)構(gòu)會經(jīng)歷劇烈且特異性的消失-重建過程。
圖2 基于3C 技術的三維基因組的層次結(jié)構(gòu)
基因組三維結(jié)構(gòu)異常與表觀遺傳修飾如DNA修飾、組蛋白修飾等密切相關,在疾病的發(fā)生、發(fā)展中發(fā)揮著重要作用。Hi-C 技術幫助我們深刻認識到,許多疾病的發(fā)生、發(fā)展與基因組三維結(jié)構(gòu)的異常存在相關性。當基因組結(jié)構(gòu)發(fā)生變異,如單核苷酸突變、小片段核酸序列(50 個堿基對以下)的異常插入或缺失(Insertion-deletion,InDel)和染色體結(jié)構(gòu)變異均可導致疾病的發(fā)生、發(fā)展。例如,染色質(zhì)環(huán)的重要組成部分黏連蛋白發(fā)生突變時,會引起基因組的結(jié)構(gòu)異常,導致Cornelia de lange 綜合征(CdLS)等遺傳病的發(fā)生。WNT6/IHH/EPHA4/PAX3 等基因位點TAD 區(qū)域遭到破壞時,會引起異常的增強子-啟動子相互作用,從而使基因錯誤表達,導致先天性發(fā)育障礙。
基因組三維結(jié)構(gòu)與病毒感染密切相關。科學家應用Hi-C 技術發(fā)現(xiàn)休眠狀態(tài)下的乙型肝炎病毒(HBV)主要寄宿在19 號染色體的異染色質(zhì)附近區(qū)域,但當其活化后,則會更多地寄宿在基因組轉(zhuǎn)錄活躍區(qū)域。同樣的,對罕見的艾滋病自愈者進行Hi-C 數(shù)據(jù)分析發(fā)現(xiàn),艾滋病病毒(HIV)主要存在于19 號染色體的中心粒衛(wèi)星DNA 或KRAB-ZNF 基因位置,且多異染色體標記,與基因轉(zhuǎn)錄起始位置或開放染色質(zhì)相距較遠。
另外,基因組三維結(jié)構(gòu)在腫瘤發(fā)生、發(fā)展中也發(fā)揮著重要作用。絕緣子蛋白CTCF 的旁系同源蛋白CTCFL 在多種腫瘤中表達異常,可維持腫瘤干細胞的活性,提高腫瘤風險等級,而且嚴重影響腫瘤藥物的治療作用。Hi-C 技術與其他組學技術的聯(lián)合開發(fā)應用,為我們理解腫瘤的發(fā)生、發(fā)展提供了新的視角??茖W家應用Hi-C 技術和多組學技術發(fā)現(xiàn):相比正常細胞,乳腺癌細胞中約12%的基因組區(qū)域發(fā)生了A/B 區(qū)室的轉(zhuǎn)換;前列腺癌細胞比正常細胞具有更多的TAD 和更小的TAD 長度,并且在具有拷貝數(shù)變異的區(qū)域里發(fā)現(xiàn)了許多癌癥特異性的TAD 邊界;在轉(zhuǎn)移性胰腺癌細胞中,A/B 區(qū)室、TAD 和染色質(zhì)環(huán)都發(fā)生了顯著變化;在多發(fā)性骨髓瘤中,拷貝數(shù)變異的斷點常與TAD 邊界重合;對脊索瘤進行Hi-C、RNA 高通量測序(RNA-seq)等多組學分析發(fā)現(xiàn),碳酸酐酶2(Carbonic anhydrase II,CA2)在脊索瘤中高表達,可以作為新的治療靶點。由此可見,Hi-C 技術在疾病的診斷和治療方面發(fā)揮著獨特作用。
此外,Hi-C 技術在基因組從頭拼接、物種進化樹構(gòu)建方面也發(fā)揮了巨大作用。目前,高通量測序方法只能夠?qū)⒒蚪M組裝到重疊群/腳手架(Contig/Scaffold)水平,無法獲得染色體水平的基因組信息。Hi-C 輔助組裝技術可將Contig/Scaffold 掛載到不同的染色體上,提升基因組質(zhì)量。真核生物間Hi-C 圖譜的比較使我們對物種間差異有了進一步的認識,并有助于揭示物種進化和選擇的奧秘。
隨著Hi-C 衍生技術的開發(fā)應用,我們對細胞內(nèi)的微觀世界有了更深入的了解和認識。然而,我們還應該認識到,Hi-C 技術依然存在諸多局限性:分辨率較低、與高分辨率顯微鏡結(jié)果擬合度較低、實驗門檻較高和數(shù)據(jù)分析難度較大等。但是,我們堅信,隨著技術的更新迭代和多種組學技術的聯(lián)合開發(fā)應用,我們將會慢慢揭開三維基因組的奧秘,助力疾病研究,為人類福祉作出貢獻。