姚明澤,任廷林,潘元晴,薛曉慶,李蓉,雷雨,行曉玉
(山西大學(xué) 生物醫(yī)學(xué)研究院,山西 太原 030006)
了解生物體生命過程中細(xì)胞的發(fā)育軌跡是生物學(xué)的基本問題之一,也是發(fā)育生物學(xué)的核心。譜系示蹤是一種可以追蹤單個(gè)祖細(xì)胞的所有后代,并揭示其命運(yùn)軌跡的技術(shù)。起始的單個(gè)細(xì)胞被標(biāo)記,并傳遞給所有子細(xì)胞,形成一系列克隆。譜系示蹤能夠提供祖細(xì)胞后代的生物特征如細(xì)胞表達(dá)譜特征、分化狀態(tài)等,為細(xì)胞命運(yùn)圖譜的繪制提供了強(qiáng)有力的手段。細(xì)胞命運(yùn)圖譜的繪制起源于早期視覺上對(duì)胚胎發(fā)育過程細(xì)胞的追蹤,并將細(xì)胞映射到胚胎發(fā)育的不同階段[1],但直接觀察局限于通體透明的動(dòng)物,如線蟲等。為此科學(xué)家開發(fā)了使用染料注射、移植、病毒轉(zhuǎn)導(dǎo)或熒光蛋白標(biāo)記的遺傳重組等方法來標(biāo)記并追蹤感興趣的細(xì)胞[2]。但這些方法產(chǎn)生的細(xì)胞標(biāo)記或難以穩(wěn)定維持,或分辨率較低,很難追蹤到細(xì)胞水平。隨著基因組學(xué)的進(jìn)步以及單細(xì)胞測(cè)序技術(shù)的發(fā)展,開發(fā)了可以在分子水平對(duì)細(xì)胞身份加以區(qū)分的技術(shù),這極大促進(jìn)了譜系追蹤技術(shù)的發(fā)展[3]。在單細(xì)胞中引入獨(dú)特的條形碼,通過測(cè)序識(shí)別譜系,極大豐富了譜系信息的多樣性。
此綜述介紹了傳統(tǒng)的譜系追蹤方案分析了幾種前沿的譜系追蹤方法及其演變發(fā)展過程,并對(duì)“回溯性”的譜系追蹤以及生物信息學(xué)在譜系追蹤中的發(fā)展應(yīng)用加以概括,最后討論了譜系追蹤技術(shù)未來的發(fā)展。
命運(yùn)映射以及譜系繪制依賴于非破壞性的追蹤每個(gè)細(xì)胞在發(fā)育過程中的軌跡,前瞻性的譜系追蹤實(shí)驗(yàn)可以追溯到19世紀(jì),隨著光學(xué)顯微鏡和染料注射技術(shù)的進(jìn)步,通過直接觀察追蹤細(xì)胞的發(fā)育軌跡得以實(shí)現(xiàn)[2,4]。由于技術(shù)限制,最初的譜系追蹤集中在透明無脊椎動(dòng)物[1,5]。隨著延時(shí)攝影技術(shù)的進(jìn)一步發(fā)展,允許在發(fā)育過程中追蹤胚胎內(nèi)細(xì)胞及其后代的命運(yùn)軌跡[6]。這一方法最著名的應(yīng)用是John Sulston借助顯微鏡將線蟲從單個(gè)細(xì)胞到成體發(fā)育的整個(gè)過程記錄下來,繪制了線蟲的譜系發(fā)生樹[7]。
脊椎動(dòng)物等胚胎發(fā)育過程含有更多細(xì)胞的生物,胚胎不透明,發(fā)育過程很難直接觀察。因此,其發(fā)育過程中細(xì)胞的圖譜繪制需要借助細(xì)胞標(biāo)記方法,例如染色或放射性標(biāo)記[2,4](圖1(a))。20世紀(jì)20年代 Vogt開發(fā)和應(yīng)用了染料注射標(biāo)記細(xì)胞來觀察胚胎發(fā)育過程的技術(shù),并借此繪制蛙胚胎發(fā)育早期的命運(yùn)圖譜[8],為從環(huán)節(jié)動(dòng)物到小鼠等許多生物體發(fā)育過程中的命運(yùn)圖譜的構(gòu)建提供了寶貴經(jīng)驗(yàn)[9]。但這些方法存在在體外觀察所需時(shí)間較長、染料可擴(kuò)展性有限、光學(xué)顯微鏡分辨率低等。
重組酶的發(fā)現(xiàn)和應(yīng)用促進(jìn)了譜系追蹤技術(shù)的迅速發(fā)展,不同的重組酶系統(tǒng)能夠在特定位點(diǎn)之間介導(dǎo)基因組DNA發(fā)生可預(yù)測(cè)的倒位或缺失[10]。Cre重組酶(Cyclization Recombination Enzyme)介導(dǎo) loxP(locus of X(cross)-over in P1)位點(diǎn)重組,基于此單重組酶譜系追蹤技術(shù)在兩個(gè)loxP中間融合了熒光蛋白基因,并將Cre基因與細(xì)胞特異標(biāo)記基因串聯(lián),從而可以在特異的細(xì)胞類型中觸發(fā)熒光蛋白的表達(dá)來追蹤細(xì)胞命運(yùn)軌跡[11-13](圖 1(b))。重組熒光蛋白是可遺傳持續(xù)表達(dá),因此可通過顯微鏡讀出。在果蠅中FLP重組酶(flippase recombination enzyme)介導(dǎo)的FLP-FRT系統(tǒng)的重組被證明比Cre-loxP系統(tǒng)高效且毒性更小[14],用于標(biāo)記果蠅胚胎和卵巢中的克隆[15],但 FLP最適酶活溫度為30℃并不適用于哺乳動(dòng)物的標(biāo)記追蹤。
為了增加被追蹤的細(xì)胞群體的數(shù)量,研究人員引入多色報(bào)告系統(tǒng)的多個(gè)側(cè)翼為loxP位點(diǎn)的熒光蛋白編碼序列[16-17](圖 1(c)),在 Cre誘導(dǎo)下,loxP位點(diǎn)隨機(jī)重組,導(dǎo)致目標(biāo)細(xì)胞群中不同熒光蛋白的多色鑲嵌表達(dá)。然而光學(xué)技術(shù)有限的顏色組合,限制了這類譜系追蹤的發(fā)展。為了解決熒光基團(tuán)受限的問題,科研人員開發(fā)了稱為Polylox的遺傳DNA“條形碼”(圖1(d)),使用隨機(jī) Cre-LoxP介導(dǎo)的重組,可以產(chǎn)生達(dá)190萬個(gè)獨(dú)特的遺傳條形碼來標(biāo)記細(xì)胞,大大增加了可追蹤克隆的數(shù)量[18]。利用該技術(shù)在體內(nèi)鑒定了造血干細(xì)胞克隆,表明紅系-髓系分化獨(dú)立于普通髓系祖細(xì)胞,并證實(shí)了先前的造血干細(xì)胞譜系結(jié)構(gòu)[18]。利用分子條形碼,結(jié)合分子探針對(duì)細(xì)胞的發(fā)育譜系進(jìn)行了可視化的追蹤,通過對(duì)胚胎發(fā)育早期神經(jīng)母細(xì)胞進(jìn)行編輯,然后分析其后代,揭示了果蠅大腦發(fā)育過程中神經(jīng)母細(xì)胞的重要性[19]。
許多細(xì)胞類型不能通過單一的細(xì)胞標(biāo)記物與其他細(xì)胞系進(jìn)行區(qū)分,并且Cre會(huì)在非靶向細(xì)胞中表達(dá),這都限制了單重組酶介導(dǎo)的譜系追蹤系統(tǒng)的精確性。研究人員開發(fā)了基于重組酶的雙重組酶激活的譜系追蹤(Dual recombinase-activated lineage tracing,DeaLT)技術(shù)(圖1(e)),提高了譜系追蹤的精確性,很好地解決了這個(gè)技術(shù)難題。通過使用DeaLT允許在個(gè)體器官組織精確追蹤細(xì)胞命運(yùn)轉(zhuǎn)變,揭示了小鼠成年個(gè)體中肝和胰臟細(xì)胞的增殖及命轉(zhuǎn)變運(yùn)[20-22]。
圖1 譜系追蹤的常用方法(a~h)(a)染料注射直接追蹤細(xì)胞命運(yùn);(b)Cre重組酶報(bào)告系統(tǒng)標(biāo)記特定細(xì)胞;(c)多色報(bào)告系統(tǒng)追蹤不同細(xì)胞命運(yùn)軌跡;(d)Polylox系統(tǒng)記錄譜系信息;(e)雙重組酶介導(dǎo)的譜系追蹤策略;(f)CellTagging方法記錄譜系信息;(g)基于CRISPR/Cas9的動(dòng)態(tài)譜系追蹤策略;(h)基于體細(xì)胞突變的回溯性譜系追蹤方案Fig 1 Common methods of lineae tracing(a-h).(a)Direct tracking of cell fate via dye injection;(b)The Cre recombinase reporter system labels specific cells;(c)Multicolor reporter system tracks the fate of different cells;(d)Polylox system records lineage information;(e)Dual recombinase-mediated genetic lineage tracing strategies;(f)The Cell Tagging method records lineage information;(g)Dynamic lineage tracing based on CRISPR/Cas9;(h)Retrospective lineage tracing strategy based on somatic mutation
測(cè)序技術(shù)和遺傳學(xué)的進(jìn)步,促進(jìn)了利用DNA條形碼進(jìn)行單細(xì)胞譜系追蹤(single-cell lineage tracing,scLT)的發(fā)展。這一技術(shù)是預(yù)先將可遺傳的基因序列引入細(xì)胞,然后根據(jù)測(cè)序數(shù)據(jù)進(jìn)行追溯,確定克隆遺傳關(guān)系并構(gòu)建細(xì)胞譜系[23]。ScLT技術(shù)起源于利用逆轉(zhuǎn)錄病毒進(jìn)行的原始克隆分析[24-25]或是利用轉(zhuǎn)座子[26]將DNA序列整合到細(xì)胞中,并通過測(cè)序進(jìn)行區(qū)分。這些有區(qū)別的DNA序列通常被稱為“條形碼”,以表示每個(gè)祖先及其后代的獨(dú)特標(biāo)記。DNA條形碼通常由一段隨機(jī)的核苷酸序列組成,因此提供了可用于區(qū)分單細(xì)胞復(fù)雜性的標(biāo)記[27]。早期每個(gè)細(xì)胞都被一個(gè)獨(dú)特的DNA條形碼標(biāo)記,這意味著具有不同條形碼的細(xì)胞來自不同的祖細(xì)胞,即使它們可能具有相似性。在過去的幾年里,人工合成DNA條形碼方法被廣泛用于在各種組織中進(jìn)行譜系追蹤。在造血系統(tǒng)中,借助病毒條形碼描繪了造血干細(xì)胞和造血祖細(xì)胞是如何分化成組成血液的各種成熟細(xì)胞,揭示了長期造血干細(xì)胞是巨核細(xì)胞系的主要來源,而體內(nèi)的造血干細(xì)胞和淋巴在其祖細(xì)胞的分化是多樣的[24,26-28]。
為使用scRNA-seq技術(shù)捕捉細(xì)胞條形碼,研究人員將標(biāo)記細(xì)胞的DNA條形碼轉(zhuǎn)錄為RNA進(jìn)行測(cè)序[29-31]。這些方法通常在表達(dá)基因的3’UTR中引入條形碼,使條形碼可以與轉(zhuǎn)錄組同時(shí)捕獲。研究人員開發(fā)了“CellTagging”的條形碼標(biāo)記技術(shù)(圖1(f)),用于在連續(xù)輪次中標(biāo)記細(xì)胞,從而產(chǎn)生相對(duì)時(shí)間尺度,實(shí)現(xiàn)譜系樹構(gòu)建,并揭示了成纖維細(xì)胞誘導(dǎo)到內(nèi)胚層祖細(xì)胞過程的兩條細(xì)胞命運(yùn)重編程軌跡[29,32]。這些條形碼通過慢病毒引入細(xì)胞,適用于可獲取的體外細(xì)胞培養(yǎng)或再生系統(tǒng),在這些系統(tǒng)中可以對(duì)部分克隆提前收集,剩下的克隆繼續(xù)培養(yǎng)進(jìn)行細(xì)胞命運(yùn)區(qū)分,以此形成一個(gè)線索,將細(xì)胞早期命運(yùn)和晚期命運(yùn)聯(lián)系起來[33-34]。
利用轉(zhuǎn)基因可編輯條形碼進(jìn)行譜系追蹤的方法,研究人員使用CRISPR/Cas9使轉(zhuǎn)基因的多拷貝報(bào)告基因發(fā)生可遺傳的緩慢隨機(jī)突變生成條形碼[34](圖 1(g)),從而能夠在整個(gè)生物體中進(jìn)行譜系追蹤,識(shí)別相關(guān)細(xì)胞的譜系關(guān)系并構(gòu)建系統(tǒng)發(fā)育樹。這些方法引入了sgRNA靶向已知的轉(zhuǎn)基因條形碼,隨著時(shí)間的推移產(chǎn)生遺傳條形碼的積累,從而允許進(jìn)行譜系重建。GESTALT(genome editing of synthetic target arrays for lineage tracing)和 Scartrace首次使用Cas9產(chǎn)生的條形碼用于斑馬魚發(fā)育過程的譜系追蹤,繪制了受精卵發(fā)育早期的細(xì)胞命運(yùn)譜系樹[35-36]。這些技術(shù)產(chǎn)生的條形碼多樣性有限,并且注射的Cas9蛋白和sgRNA在細(xì)胞內(nèi)會(huì)被迅速降解,因此條形碼的多樣性以及可標(biāo)記的時(shí)間跨度有限。為了克服這些限制,Scar-Trace、scGESTALT(single cell genome editing of synthetic target arrays for lineage tracing)和LINNAEUS(lineage tracing by nuclease-activated editing of ubiquitous sequences) 被 開 發(fā) 出來[37-39]。scGESTALT通過熱休克誘導(dǎo)Cas9蛋白表達(dá),實(shí)現(xiàn)較長時(shí)間的編輯。ScarTrace通過注射Cas9基因?qū)l形碼將編輯時(shí)間從3 h延長至10 h,解決了標(biāo)記時(shí)間跨度的問題。而LINNAEUS通過將編輯位點(diǎn)分散在全基因組范圍,極大增加了條形碼的多樣性,提高了譜系追蹤的效率。
相對(duì)于斑馬魚小鼠胚胎發(fā)育緩慢,采用注射的方法只能實(shí)現(xiàn)前幾次卵裂的標(biāo)記,為了實(shí)現(xiàn)長時(shí)間的條形碼編輯,研究人員開發(fā)了基于“歸巢”基因的條形碼生成方法,通過利用歸巢向?qū)NA(homing CRISPR guide RNA,hgRNA)將CRISPR/Cas9引導(dǎo)至其自身的DNA位點(diǎn),使其序列產(chǎn)生多樣變化以充當(dāng)遺傳條形碼[40-42],并產(chǎn)生了可表達(dá)hgRNA的MARC1(mouse for actively recording cells 1)小鼠品系,它與任何誘導(dǎo)型或細(xì)胞特異性Cas9表達(dá)品系鼠雜交,即可激活基因編輯進(jìn)行譜系追蹤。但在MARC1后代中產(chǎn)生的條形碼不能通過RNA-seq檢測(cè),這限制了其應(yīng)用。另一種方法是基于CRISPR/Cas9借助PiggyBac轉(zhuǎn)座酶開發(fā)的分子記錄器,該方法實(shí)現(xiàn)了哺乳動(dòng)物原腸胚形成過程細(xì)胞命運(yùn)譜系示蹤[43],其結(jié)果證實(shí)了先前的研究結(jié)果,即原腸胚形成過程中一小部分后腸來自胚外祖細(xì)胞[44]。以上小鼠譜系追蹤研究需要每次實(shí)驗(yàn)進(jìn)行新的胚胎操作,并且大量隨機(jī)轉(zhuǎn)基因片段插入限制了對(duì)成體組織的分析。研究人員開發(fā)了CARLIN小鼠品系,將可誘導(dǎo)的Cas9與一個(gè)單一、穩(wěn)定整合的可變位點(diǎn)進(jìn)行結(jié)合,以記錄譜系數(shù)據(jù),從而解決了這些問題,揭示了造血再生的克隆動(dòng)力學(xué)[45]。
基于分子遺傳學(xué)的譜系追蹤技術(shù)需要對(duì)所追蹤的細(xì)胞基因組進(jìn)行編輯或改造,這種預(yù)見性的譜系追蹤顯然不可能在人類發(fā)育和疾病的背景下應(yīng)用[46]。因此出現(xiàn)了另外一類借助人類基因組中包含的自然發(fā)生的體細(xì)胞突變,用作譜系條形碼來跟蹤細(xì)胞的起源的技術(shù),既回溯性譜系追蹤(圖1(h))。天然體細(xì)胞中許多突變類型是永久性可遺傳的[47],因此可以作為譜系追蹤的條形碼。在核DNA中這些天然條形碼主要分為4類:CNV、SNV、長散在核元件(long interspersed nuclear element 1,LINE-1)和微衛(wèi)星重復(fù)序列。CNV是基因拷貝數(shù)變異,在多項(xiàng)研究中已被用于重建乳腺腫瘤發(fā)生、侵襲和轉(zhuǎn)移的克隆動(dòng)力學(xué)[48-49]。SNV是單核苷酸常見變異,可以通過基因組或者外顯子測(cè)序檢測(cè),已應(yīng)用于人腦、腎腫瘤等組織的細(xì)胞譜系[50-51]。LINE-1在基因組中含量豐富,并具有在細(xì)胞分裂時(shí)通過自發(fā)地“復(fù)制-粘貼”轉(zhuǎn)位到基因組中不同染色體位點(diǎn)的能力[52],因此LINE-1元件的在染色體中的位置可以用作譜系條形碼[53]。微衛(wèi)星重復(fù)序列的基因組位置是已知的,可以進(jìn)行特定序列的測(cè)定,通過此特點(diǎn)可用來構(gòu)建細(xì)胞小鼠譜系樹,研究雌性生殖系的動(dòng)態(tài)變化[54]。此外,線粒體基因(mtDNA)也存在天然突變[55],其發(fā)生頻率是核基因的10~100倍,并且線粒體基因組的尺寸小,可用來重建克隆關(guān)系[56]。
隨著分子遺傳學(xué)的發(fā)展,已有許多遺傳標(biāo)記手段用于譜系追蹤,但所有的譜系追蹤技術(shù)都需要依賴于嚴(yán)格的數(shù)據(jù)處理,借助生物信息學(xué)分析對(duì)數(shù)據(jù)進(jìn)行可視化的展示。通過數(shù)據(jù)降維可以可視化譜系追蹤分化軌跡,是早期算法之一[57]。另一類微分軌跡重構(gòu)算法是基于k-近鄰圖(k-Nearest Neighborhood Graph,k-NNG),每個(gè)細(xì)胞連接到其k個(gè)最近的細(xì)胞,從而將相似的細(xì)胞彼此關(guān)聯(lián)起來,通過這種方法構(gòu)建了人造血干細(xì)胞到原始B細(xì)胞的軌跡[58],并構(gòu)建了小鼠胸腺中T細(xì)胞發(fā)育的已知階段[59],而 StemID[60]和 Mpath[61]通過使用 k-medoid或分層聚類創(chuàng)建細(xì)胞簇達(dá)到譜系追蹤的目的。Cassiopeia是為當(dāng)前的CRISPR/Cas9 scLT方法量身定制的計(jì)算方式,可以用于構(gòu)建系統(tǒng)發(fā)育樹,而且可以結(jié)合真實(shí)數(shù)據(jù)以及仿真框架進(jìn)行算法評(píng)估[62]。目前新的算法正在不斷被開發(fā),用以更好地滿足譜系追蹤技術(shù)的需要[63]。然而生物信息學(xué)算法的開發(fā)應(yīng)用大都是基于特定的假設(shè),這可能會(huì)限制分析結(jié)果的準(zhǔn)確性,因此研究人員不斷對(duì)算法進(jìn)行優(yōu)化,以提高分析結(jié)果的可靠性[64]。
自19世紀(jì)起,譜系追蹤的工具從借助光學(xué)顯微儀器進(jìn)行簡單的觀察,發(fā)展到單細(xì)胞水平細(xì)胞譜系追蹤?;谥亟M酶的譜系追蹤技術(shù),對(duì)初始的一群細(xì)胞進(jìn)行永久性可遺傳熒光標(biāo)記,通過觀察轉(zhuǎn)基因熒光蛋白的表達(dá)對(duì)細(xì)胞群體進(jìn)行區(qū)分,這種標(biāo)記更穩(wěn)定,可以在組織水平進(jìn)行特異性區(qū)分,但是其分辨率較低,難以區(qū)分單細(xì)胞身份,并且通量較小。分子生物學(xué)特別是轉(zhuǎn)基因技術(shù)以及測(cè)序技術(shù)的發(fā)展,使引入DNA條形碼進(jìn)行細(xì)胞命運(yùn)軌跡的追蹤成為可能,但還存在一些問題,如產(chǎn)生的可用于追蹤的條形碼由于轉(zhuǎn)基因丟失或沉默限制了其發(fā)展,因此開發(fā)一種減少條形碼沉默并且可誘導(dǎo)的系統(tǒng)可能會(huì)某種程度上提高譜系追蹤效率。此外,外源條形碼測(cè)序過程的丟失造成了后期分析過程中細(xì)胞譜系信息的不對(duì)稱,因此我們期待一種可以通過scRNA-seq直接捕捉內(nèi)源條形碼生成系統(tǒng),不用在建庫測(cè)序時(shí)單獨(dú)捕捉條形碼信息,從而降低生物信息學(xué)分析的錯(cuò)誤率,進(jìn)而提高譜系追蹤的準(zhǔn)確性。而通過條形碼進(jìn)行譜系追蹤的方案都需要進(jìn)行基因操作,使用僅限于體外研究或生物模型,以基因組自身突變?yōu)榛A(chǔ)的回溯性譜系追蹤,允許對(duì)人類發(fā)育過程以及腫瘤組織進(jìn)行細(xì)胞命運(yùn)圖譜繪制,這極大擴(kuò)展了譜系追蹤技術(shù)的應(yīng)用。哺乳動(dòng)物胚胎或人體腫瘤組織是由數(shù)百萬高度異質(zhì)性的細(xì)胞組成,目前為止,還沒有對(duì)所有細(xì)胞的身份及譜系信息注釋。從第一個(gè)scRNA-seq應(yīng)用以來,現(xiàn)今已可以對(duì)多達(dá)兩百萬個(gè)細(xì)胞進(jìn)行測(cè)序,繪制小鼠胚胎發(fā)育圖譜[65],以及繪制具有時(shí)間分辨的高分辨率動(dòng)態(tài)連續(xù)命運(yùn)圖譜[66]。因此,我們期待未來幾年技術(shù)的進(jìn)步,單細(xì)胞測(cè)序和相關(guān)的分子生物學(xué)和遺傳生物學(xué)及其他交叉學(xué)科的發(fā)展,使得更精確的重建整個(gè)個(gè)體譜系成為可能。
遺傳譜系追蹤的主要限制是缺乏空間分辨率,無論何種方式進(jìn)行條形碼標(biāo)記,分析過程都不可避免的丟失空間信息。隨著MEMOIR(memory by engineered mutagenesis with optical in situ readout)的發(fā)展,在原位重建細(xì)胞譜系關(guān)系成為可能,但其局限性在于不能讀出細(xì)胞初始位置與測(cè)序時(shí)細(xì)胞位置的關(guān)系[67],這限制了我們對(duì)于細(xì)胞遷移和分化的理解。最近開發(fā)的新的空間轉(zhuǎn)錄組學(xué)方法,有可能分析完整的斑馬魚或小鼠胚胎[68]。空間譜系的建立需要更高的技術(shù)手段,如組織的固定通透技術(shù)、高親和力特異性的抗體制備技術(shù)和影像成像技術(shù)和針對(duì)圖像處理和生物學(xué)信號(hào)整合分析的軟件開發(fā)[69-70]。
綜上所述,未來細(xì)胞譜系追蹤技術(shù)將圍繞空間譜系的建立所需技術(shù)的開發(fā),以此對(duì)細(xì)胞譜系關(guān)系進(jìn)行更加精確的空間解析,從而深入理解細(xì)胞命運(yùn)的轉(zhuǎn)變。