編譯 舒愉棉
癌癥基因組研究的未來(lái)就藏身于臨床信息之中。2020年2月5日,《自然》雜志基于PCAWG成果發(fā)布的系列論文對(duì)癌癥的遺傳學(xué)原因給出了新的解釋?zhuān)@些研究結(jié)果為我們展示了人類(lèi)對(duì)癌癥理解的最新進(jìn)展,以及未來(lái)我們還有多遠(yuǎn)的路要走。
科學(xué)家如今對(duì)引發(fā)癌癥的遺傳學(xué)改變有了前所未有的了解,這些癌癥里包括鱗狀細(xì)胞癌,一種常見(jiàn)的口腔癌
全基因組泛癌分析聯(lián)盟(PCAWG,又稱(chēng)為泛癌癥全基因組分析合作項(xiàng)目)聯(lián)合了跨越四大洲的約750家合作單位,對(duì)代表38個(gè)癌種、超過(guò)2 600份樣本進(jìn)行了全基因組測(cè)序,所獲成果刊登在《自然》雜志上。
這一項(xiàng)目了不起的地方在于其所具有的廣度與復(fù)雜度。從獲取樣本到把上萬(wàn)億字節(jié)的數(shù)據(jù)交到研究者手中,同時(shí)還要保護(hù)病人的隱私,項(xiàng)目的每一步都面臨著各種挑戰(zhàn),而它的龐大規(guī)模亦是挑戰(zhàn)的來(lái)源之一。
多虧聯(lián)盟的努力以及此前的全基因組測(cè)序成果,科學(xué)家如今對(duì)引發(fā)癌癥的遺傳學(xué)改變有了前所未有的了解,對(duì)現(xiàn)有知識(shí)中的空白部分也有了更清晰的認(rèn)識(shí)。通過(guò)合作,研究組找到了在癌癥基因組中反復(fù)出現(xiàn)的705個(gè)遺傳突變,并指出這些突變可能對(duì)于腫瘤生長(zhǎng)有重要作用。在這705個(gè)突變中,有約100個(gè)突變發(fā)生在基因組蛋白質(zhì)編碼區(qū)以外。隨著對(duì)非編碼區(qū)進(jìn)行分析的計(jì)算技術(shù)水平的提高,未來(lái)將會(huì)有更多這樣的突變被人發(fā)現(xiàn)??偠灾?,論文作者發(fā)現(xiàn)了平均每個(gè)癌癥基因組含有4~5個(gè)導(dǎo)致腫瘤生長(zhǎng)的遺傳突變,但同時(shí)他們也發(fā)現(xiàn)有5%的病例不含有這些突變。
盡管癌癥基因組測(cè)序完成時(shí)間超過(guò)十年,研究人員及這一研究的資助者現(xiàn)在仍舊必須要克服接下來(lái)的挑戰(zhàn)。癌癥基因組測(cè)序研究的目標(biāo)一直都是改善癌癥患者的生活,而測(cè)序項(xiàng)目積累起來(lái)的大量數(shù)據(jù)的確有所幫助。這些數(shù)據(jù)被研究人員用于尋找新的藥物靶點(diǎn)和合成能夠用于匹配病人與最佳治療方案的腫瘤標(biāo)記物。
但是,直至今日,絕大部分的數(shù)據(jù)都在一個(gè)關(guān)鍵部分受到限制,那就是樣本捐贈(zèng)者的臨床信息通常是缺失的。癌癥基因組圖譜計(jì)劃(TCGA,是一項(xiàng)由美國(guó)國(guó)家癌癥研究所與美國(guó)國(guó)家人類(lèi)基因組研究所共同資助、2006至2018年期間開(kāi)展的大規(guī)模多癌癥全基因組測(cè)序項(xiàng)目)收集到的第一批樣本就是典型,除了樣本捐贈(zèng)者的性別、疾病診斷以及就診年齡這些信息,其他伴隨樣本而來(lái)的信息寥寥。缺失的必要信息還包括捐贈(zèng)者家族史或用藥史、接受過(guò)的治療記錄以及病人對(duì)治療出現(xiàn)的反應(yīng)記錄,如果想要將癌癥基因組測(cè)序所得信息用來(lái)幫助病人,上述的信息都至關(guān)重要。
下一代癌癥基因組測(cè)序項(xiàng)目將致力于改變這一點(diǎn),但是收集詳細(xì)的臨床信息比基因組測(cè)序更困難也更昂貴,尤其是在許多缺少統(tǒng)一醫(yī)療系統(tǒng)的國(guó)家更是如此。在那里,要獲取醫(yī)療記錄很復(fù)雜:不同的醫(yī)院分別儲(chǔ)存著不同的記錄;病人常常從一家醫(yī)療中心轉(zhuǎn)診到另一個(gè);不同醫(yī)院的記錄質(zhì)量千差萬(wàn)別。與此同時(shí),更詳細(xì)的記錄在隱私遭到侵犯時(shí)也意味著個(gè)體暴露的風(fēng)險(xiǎn)更大,因此對(duì)樣本捐贈(zèng)者保護(hù)的力度也要再次加大。
這些迫在眉睫的問(wèn)題不僅存在于癌癥研究之中,整個(gè)醫(yī)療研究都面臨著這些問(wèn)題。人們正在努力將居民健康檔案轉(zhuǎn)化為更易獲取、更易研究,同時(shí)更安全的新格式,比如美國(guó)癌癥研究協(xié)會(huì)(AACR)的一項(xiàng)國(guó)際基因組和臨床數(shù)據(jù)共享項(xiàng)目(GENIE)就對(duì)70 000份腫瘤DNA序列信息和現(xiàn)實(shí)世界的臨床數(shù)據(jù)記錄進(jìn)行了編輯,而英國(guó)的10萬(wàn)人基因組計(jì)劃也旨在將DNA序列信息與臨床信息配對(duì)以供不同使用需求。協(xié)調(diào)過(guò)眾多腫瘤測(cè)序工作的國(guó)際癌癥基因組聯(lián)盟(ICGC)也啟動(dòng)了新的階段性工作,這一次的工作重點(diǎn)將聚焦在臨床信息。
匯集大量樣本形成樣本池可以有效尋找引發(fā)癌癥的遺傳學(xué)改變,并為研究這些遺傳學(xué)改變?nèi)绾我l(fā)癌癥提供一個(gè)起跑點(diǎn)。然而,只有在這些數(shù)據(jù)能夠用于為病人量身定制治療方案時(shí),所有的付出才算是真正有了回報(bào)。而為了實(shí)現(xiàn)這一點(diǎn),研究對(duì)象的臨床背景信息是不可或缺的。
當(dāng)癌癥基因組測(cè)序項(xiàng)目首次啟動(dòng)時(shí),人們希望這一項(xiàng)目能提供引發(fā)癌癥的遺傳突變清單,并能夠揭示可以作為藥物研發(fā)基礎(chǔ)的普適性遺傳特征。這一任務(wù)的核心目標(biāo)已經(jīng)完成,但許多癌癥被證實(shí)比人們所預(yù)期的要更為復(fù)雜??瓷先ハ嗨频陌┌Y會(huì)包含相當(dāng)不同的遺傳突變組合,沒(méi)有什么癌癥與另一個(gè)癌癥是完全一樣的。
正如生物醫(yī)學(xué)研究中經(jīng)常出現(xiàn)的情況那樣,問(wèn)題的答案比最初設(shè)想的要復(fù)雜得多。不過(guò),能夠認(rèn)識(shí)到問(wèn)題的復(fù)雜性,這本身就是能力的提升,而善用這一認(rèn)知在尋求更好的治療方法的過(guò)程中將必不可少。
《自然》雜志2020年2月5日發(fā)布的6篇研究論文中,全基因組泛癌分析聯(lián)盟為讀者呈現(xiàn)了迄今為止最全面和最宏偉的癌癥基因組元分析成果。與過(guò)去主要集中精力投入癌癥基因組蛋白質(zhì)編碼區(qū)的研究不同,PCAWG聯(lián)盟這次對(duì)癌癥的全基因組進(jìn)行了分析。每一篇論文都仔細(xì)研究了癌癥遺傳學(xué)的一個(gè)重要方向,而合在一起,這些成果將會(huì)成為全面理解癌癥遺傳學(xué)復(fù)雜性的關(guān)鍵。
首篇研究論文對(duì)PCAWG數(shù)據(jù)集的廣度與深度進(jìn)行了概述。該文稱(chēng),平均每個(gè)癌癥基因組含有4~5個(gè)驅(qū)動(dòng)突變,這讓癌癥細(xì)胞具有選擇性?xún)?yōu)勢(shì)。研究中僅有5%的腫瘤樣本中未檢測(cè)出驅(qū)動(dòng)突變。與之相對(duì)的,許多癌癥樣本呈現(xiàn)出基因組災(zāi)難性事件的標(biāo)記,其中包括染色體重排(占腫瘤樣本17.8%)及染色體碎裂(22.3%),這些都會(huì)導(dǎo)致嚴(yán)重的基因組結(jié)構(gòu)性改變。
另外五篇論文則分別從不同方面對(duì)數(shù)據(jù)集進(jìn)行了更加詳細(xì)的探討。比如在第二篇論文中,萊因巴伊(Esther Reinbay)等人就試圖在非編碼DNA中鑒定出驅(qū)動(dòng)突變,這一目標(biāo)可謂是雄心勃勃,畢竟要在非編碼區(qū)中準(zhǔn)確地檢測(cè)出突變基因以及評(píng)估其重復(fù)率都要比在編碼區(qū)內(nèi)困難得多,而作者則采用了細(xì)致的模型來(lái)對(duì)非編碼區(qū)驅(qū)動(dòng)突變進(jìn)行排除和系統(tǒng)性鑒定。
他們的研究結(jié)果對(duì)之前報(bào)道的非編碼區(qū)驅(qū)動(dòng)突變——例如名為NEAT1和MALAT1的長(zhǎng)鏈非編碼RNA——提出了質(zhì)疑,同時(shí)他們也發(fā)現(xiàn)了一些新的驅(qū)動(dòng)突變。例如,該文報(bào)道了他們一個(gè)在關(guān)鍵腫瘤抑制基因TP53的非編碼區(qū)發(fā)現(xiàn)的頻發(fā)突變,以及在端粒酶基因TERT的非編碼區(qū)發(fā)現(xiàn)的一種相對(duì)高頻的基因突變,后一種突變會(huì)導(dǎo)致端粒酶過(guò)表達(dá)(端粒酶過(guò)表達(dá)會(huì)讓腫瘤細(xì)胞不受控制地分裂增殖),這一結(jié)果與之前在轉(zhuǎn)移性腫瘤上進(jìn)行的泛癌研究中發(fā)現(xiàn)的端粒酶高發(fā)突變(12%)的結(jié)果相對(duì)應(yīng)。盡管這一研究不能將其他非編碼區(qū)驅(qū)動(dòng)基因的存在排除在外,它依然決定性地顯示出這類(lèi)突變并不正常。
在第三篇和第四篇論文中,亞歷山德羅夫(Ludmil B. Alexandrov)等人及李(Yilong Li)等人則聚焦在名為突變標(biāo)簽的基因組變異上。不同的遺傳誘變過(guò)程——例如DNA修復(fù)系統(tǒng)缺陷或者是暴露于環(huán)境誘變劑——會(huì)產(chǎn)生具有典型特征的DNA變異,如果我們想要提煉已知標(biāo)簽和發(fā)現(xiàn)新標(biāo)簽,那么海量的基因組數(shù)據(jù)集是必不可少的。這一次,亞歷山德羅夫等人及李等人鑒定出了97個(gè)突變標(biāo)簽,這一研究成果令人印象深刻。這一在過(guò)去工作的基礎(chǔ)上進(jìn)行的拓展研究不僅涵蓋了傳統(tǒng)的單核苷酸標(biāo)簽,還涵蓋了涉及多核苷酸突變以及DNA短片段插入與刪除的突變標(biāo)簽。
值得注意的是,李及其同事是第一批發(fā)現(xiàn)了基因組結(jié)構(gòu)變異(SVs,即基因組大范圍的結(jié)構(gòu)重組)等可復(fù)制突變標(biāo)簽的研究團(tuán)隊(duì)之一。由于基因組結(jié)構(gòu)變異的多樣性與復(fù)雜性,該項(xiàng)工作比鑒定突變標(biāo)簽要更為錯(cuò)綜復(fù)雜。
通過(guò)一系列突變分組操作,研究人員鑒定出了16種基因組結(jié)構(gòu)變異標(biāo)簽,并由此獲得新發(fā)現(xiàn),例如他們推測(cè)出在基因片段缺失和倒位突變(即DNA片段方發(fā)生向翻轉(zhuǎn))這兩種基因組結(jié)構(gòu)變異之間可能存在聯(lián)動(dòng)機(jī)制。他們還對(duì)這16種變異標(biāo)簽在癌癥中所起作用有了進(jìn)一步了解,在一些特定的DNA修復(fù)基因里發(fā)生的突變顯示出與典型的癌癥突變標(biāo)簽存在關(guān)聯(lián)。例如,研究人員發(fā)現(xiàn)在CDK12基因上的突變與DNA串聯(lián)復(fù)制有關(guān),而DNA修復(fù)酶MBD4的截短異構(gòu)體與另一種含有CpG島(一種DNA序列)的突變標(biāo)簽會(huì)同時(shí)出現(xiàn)。放在一起,這些新發(fā)現(xiàn)的突變標(biāo)簽為理解癌癥發(fā)展的機(jī)制以及誘變劑暴露在突變過(guò)程中所起作用奠定了基礎(chǔ)。
“癌癥發(fā)展是一種進(jìn)化的過(guò)程”這一概念最開(kāi)始是在1976年被提出來(lái)的。自那兒開(kāi)始,癌癥演化就一直都以隨機(jī)突變與自然選擇作為其標(biāo)志性特征。獲得了高適應(yīng)性突變的癌癥細(xì)胞會(huì)迅速擴(kuò)散,并將成為細(xì)胞群中占主導(dǎo)地位的細(xì)胞克隆。這一現(xiàn)象被稱(chēng)為克隆清除,常發(fā)生于癌癥細(xì)胞生長(zhǎng)時(shí)反復(fù)進(jìn)行的細(xì)胞周期。癌癥演化最有效的研究方法是對(duì)腫瘤多個(gè)區(qū)域隨著時(shí)間推移進(jìn)行多次測(cè)序,不過(guò)這一過(guò)程也可以通過(guò)單次活檢來(lái)進(jìn)行重構(gòu),而這正是格爾斯頓(Moritz Gerstung)等人在第五篇論文中采用的方法。
該文作者引入了“分子時(shí)間”這一概念來(lái)區(qū)分克隆突變(指或早或晚都會(huì)在所有腫瘤細(xì)胞中出現(xiàn)的突變)與亞克隆突變(指僅出現(xiàn)在癌癥細(xì)胞的一種子細(xì)胞集里的突變)。他們對(duì)克隆突變進(jìn)行了分類(lèi),分類(lèi)的依據(jù)在于突變出現(xiàn)的時(shí)間是在細(xì)胞克隆經(jīng)歷拷貝數(shù)增益(一種基因或染色體區(qū)域拷貝數(shù)量增加的現(xiàn)象)之前還是之后,并推斷出亞克隆突變會(huì)在癌癥演化的晚期出現(xiàn)。研究人員整合了來(lái)自多種腫瘤的演化數(shù)據(jù),并由此鑒定出了諸如APC-KRASTP53突變進(jìn)程等常見(jiàn)的突變軌跡,APCKRAS-TP53突變進(jìn)程描述的正是在直腸癌中突變出現(xiàn)的典型順序。
格爾斯頓等人還發(fā)現(xiàn),在一個(gè)已知癌癥中最常出現(xiàn)的驅(qū)動(dòng)突變往往也出現(xiàn)得最早。類(lèi)似的,如果拷貝數(shù)增益在特定某類(lèi)癌癥中高頻發(fā)生,那么其發(fā)生的時(shí)間也往往是在早期。舉例來(lái)說(shuō),5號(hào)染色體的局部拷貝數(shù)增益常見(jiàn)于透明細(xì)胞型腎癌,并且常出現(xiàn)于這一癌癥演化早期。反過(guò)來(lái)說(shuō),全基因組復(fù)制在這一癌癥中出現(xiàn)得相對(duì)較晚。最終,研究人員發(fā)現(xiàn)隨著時(shí)間推移,突變標(biāo)簽在40%的腫瘤中發(fā)生了改變,這些改變反映出了環(huán)境暴露在疾病進(jìn)程中重要性的下降以及DNA修復(fù)缺陷發(fā)生頻率及其嚴(yán)重性的上升。總的來(lái)看,這些發(fā)現(xiàn)意味著驅(qū)動(dòng)突變可能發(fā)生在癌癥確診的數(shù)年之前,并會(huì)對(duì)癌癥的早期篩查和生物標(biāo)記物發(fā)展產(chǎn)生影響。
在最后一篇論文中,PCAWG轉(zhuǎn)錄組核心研究組及其合作者利用1 188份與轉(zhuǎn)錄組數(shù)據(jù)匹配的PCAWG樣本,將DNA改變和RNA改變功能性地聯(lián)系在了一起。研究組發(fā)現(xiàn)了600多個(gè)單核苷酸DNA突變與相鄰基因表達(dá)之間存在關(guān)聯(lián)。不過(guò),拷貝數(shù)變化更大的突變才是癌癥細(xì)胞基因表達(dá)發(fā)生改變的主要驅(qū)動(dòng)力。突變還與RNA轉(zhuǎn)錄物結(jié)構(gòu)的變化相關(guān),例如在一個(gè)非編碼區(qū)(內(nèi)含子)里形成了一個(gè)新的蛋白編碼區(qū)(外顯子)。
作者還鑒定出了橋式融合(即兩個(gè)基因由于第三個(gè)DNA片段介入而發(fā)生融合的現(xiàn)象)的發(fā)生頻率。盡管在被分析的1 188份樣品中有87份不含有DNA水平上的驅(qū)動(dòng)突變,最終的研究結(jié)果顯示每一份樣品中都含有RNA水平上的改變。這些研究成果展現(xiàn)出了RNA測(cè)序分析與DNA測(cè)序分析的整合運(yùn)用在癌癥研究中所具備的強(qiáng)大功能。
這六篇研究論文連同發(fā)表在其他地方的配套論文可謂是癌癥與云計(jì)算基因組學(xué)研究的里程碑。通過(guò)聚焦于推導(dǎo)論證,PCAWG聯(lián)盟成功地對(duì)十年來(lái)主要基于現(xiàn)象觀察的癌癥測(cè)序分析進(jìn)行了詳細(xì)闡釋。值得注意的是,盡管推導(dǎo)論證分析對(duì)癌癥的研究比描述性研究開(kāi)展得更深入,其研究結(jié)果所具備的不確定性也更高。
幾乎可以肯定的是,PCAWG數(shù)據(jù)集的廣泛可用性及其高質(zhì)量將會(huì)掀起生物學(xué)研究與方法學(xué)發(fā)展的浪潮,而把它與其他功能性基因組數(shù)據(jù)集整合使用(比如用于基因組三維結(jié)構(gòu)探測(cè))更是將毫無(wú)疑問(wèn)地深化人們對(duì)遺傳變異前因后果的理解。
目前研究的最大瓶頸在于缺乏與患者病情后續(xù)發(fā)展及治療手段相關(guān)的臨床數(shù)據(jù),這些數(shù)據(jù)可以讓研究人員鑒別出能夠預(yù)測(cè)臨床結(jié)果的遺傳學(xué)改變。幸運(yùn)的是,名為“國(guó)際癌癥基因組聯(lián)盟-加速基因組腫瘤學(xué)研究”(ICGC-ARGO)的項(xiàng)目目前正在進(jìn)行中,這將會(huì)為超過(guò)10萬(wàn)癌癥患者創(chuàng)造一個(gè)類(lèi)似的資源庫(kù)。
PCAWG聯(lián)盟讓成千上萬(wàn)的科學(xué)家們聯(lián)手,為實(shí)現(xiàn)共同目標(biāo)一起努力,這帶來(lái)的長(zhǎng)期影響將不止于現(xiàn)在所發(fā)表的這些研究論文,經(jīng)過(guò)這一項(xiàng)目,這個(gè)全球聯(lián)盟的成員之間所建立的合作關(guān)系以及所進(jìn)行的知識(shí)交換也將會(huì)產(chǎn)生深遠(yuǎn)的影響。