Zhifu SUN
(1 青島大學醫(yī)學部,山東 青島 266071;2 Mayo Clinic,Rochester,Minnesota,U.S.A)
通過對基因突變、基因表達以及DNA修飾等信息的分析,臨床醫(yī)生能夠對疾病進行更為精準的診斷和有效的防治。廣義上,精準醫(yī)學所應用的數(shù)據(jù)已擴展到像電子病歷、醫(yī)學影像資料和實驗室檢查結果等其他非基因組學數(shù)據(jù),并同基因組學數(shù)據(jù)一起構成了精準醫(yī)學的大數(shù)據(jù)[1]。目前臨床最常用到的基因組學數(shù)據(jù)為胚系突變數(shù)據(jù)和腫瘤的體細胞突變數(shù)據(jù),如攜帶BRAC1或BRAC2基因突變的健康人群可進行預防性乳房切除術以預防乳腺癌的發(fā)生,有EGFR突變的肺癌病人可進行酪氨酸激酶抑制劑(TKI)治療等。盡管目前基因組學數(shù)據(jù)正在迅速發(fā)展,但是由于每種腫瘤中發(fā)生變異的基因數(shù)量龐大,許多疾病相關變異的臨床意義也還不能進行明確的解釋,只是被籠統(tǒng)地歸為意義不明變異位點(VUSs),這極大地限制了基因組學信息的應用。更為復雜的是,DNA數(shù)據(jù)只是細胞內(nèi)眾多分子數(shù)據(jù)中的一種,還有DNA修飾(CpG甲基化)、組蛋白修飾、染色質開放區(qū)、基因轉錄(RNA或者miRNA表達)和蛋白質表達等多種分子數(shù)據(jù),這些數(shù)據(jù)對于精準醫(yī)學同樣重要,統(tǒng)稱為多組學數(shù)據(jù)。盡管很多數(shù)據(jù)還沒有在臨床上得到應用,但它們在解釋意義不明位點、研究用于診斷的檢測套餐、開發(fā)新的診斷和預后標記物、發(fā)現(xiàn)新治療靶點等方面有著重要作用。在大數(shù)據(jù)時代,掌握如何使用這些資源對于現(xiàn)代醫(yī)學實踐和轉化醫(yī)學研究至關重要。
人類生物學系統(tǒng)高度復雜,大量分子參與其中,且相互之間發(fā)生著多種多樣的關系,因此僅研究其中一種分子會有很大的局限性,多組學數(shù)據(jù)的應用將會很大程度上解決這一問題。近年來,多個國內(nèi)或國際大型合作項目產(chǎn)生了大量的多組學數(shù)據(jù),研究取得的數(shù)據(jù)資源已作為公開資源向公眾開放,這一舉措改變了單分子研究的局限性。使用開放數(shù)據(jù)資源進行研究的首要優(yōu)勢在于,開放數(shù)據(jù)資源通常包含上千甚至上萬個研究樣本,可以確保能夠檢測到小到中等的基因效應,而如此大的樣本量是任何一個實驗室或研究機構無法達到的。即便是單一的腫瘤病種的研究,異質性也是研究者面臨的巨大挑戰(zhàn)。多而廣的樣本譜系將幫助研究者克服這一困難,進而進行更加全面和深入的研究,如在一組腫瘤病人中發(fā)現(xiàn)一種新突變,那么這一突變將有望成為新的治療靶點。第二點優(yōu)勢是,許多開放數(shù)據(jù)庫資源來源于多組學數(shù)據(jù),包含像基因組學及表觀基因組學數(shù)據(jù)等。通過數(shù)據(jù)庫,研究者們可以對數(shù)據(jù)內(nèi)部及數(shù)據(jù)間的關系進行整合分析。數(shù)據(jù)的整合分析雖然極具挑戰(zhàn)性,但同時也會帶來高回報。開放數(shù)據(jù)資源的第三點優(yōu)勢是數(shù)據(jù)庫內(nèi)資源可即時獲取,因此可以快速生成假設并對其進行檢驗?;蚪M學數(shù)據(jù)的獲取過程花費高、時間長,但研究人員通過挖掘開放數(shù)據(jù)資源中的多組學數(shù)據(jù),在短時間內(nèi)即可得到問題的答案。第四點優(yōu)勢是,小型實驗的研究結果很可能存在潛在偏倚,因此有必要在開放數(shù)據(jù)資源中對結果進行驗證,進而證實結果的有效性和通用性。第五點,近幾年對于深層機器學習以及人工智能領域的關注日益增加,這也離不開開放的多組學數(shù)據(jù)資源的發(fā)展,因此開放數(shù)據(jù)資源不可或缺。
開放的多組學數(shù)據(jù)庫資源龐大,且數(shù)據(jù)量日漸增長。本文只能簡單介紹一些研究人員常用或者容易獲取的數(shù)據(jù)庫,尤其是對臨床實踐指導作用比較大的數(shù)據(jù)庫,主要有多組學數(shù)據(jù)庫、罕見病或遺傳性疾病相關突變數(shù)據(jù)庫、群體變異數(shù)據(jù)庫以及腫瘤體細胞突變數(shù)據(jù)庫(表1)。這些數(shù)據(jù)庫的資源并不是孤立的,而是互相關聯(lián)的,或者一個數(shù)據(jù)庫的數(shù)據(jù)來源于另外一個數(shù)據(jù)庫。如腫瘤基因圖譜(TCGA)數(shù)據(jù)庫是目前最大的腫瘤多組學數(shù)據(jù)庫,其中的突變數(shù)據(jù)是腫瘤體細胞突變圖譜(COSMIC)和腫瘤突變位點臨床解讀數(shù)據(jù)庫(CIVic)的重要組成部分。這些數(shù)據(jù)均來自于大樣本量的臨床研究并且可以作為更深層次的數(shù)據(jù)挖掘的基礎。
多組學數(shù)據(jù)龐雜,包括原始數(shù)據(jù)、初步處理數(shù)據(jù)、高級篩選數(shù)據(jù)等多種不同處理水平數(shù)據(jù)。這些數(shù)據(jù)還與特定的參考基因組的版本有關(hg37版本或hg38版本)。根據(jù)用戶的計算機及生物信息學技能以及使用目的不同,獲取和使用數(shù)據(jù)的方法也有所不同。但幾乎所有的基因組學數(shù)據(jù)都有其原始格式,這些原始數(shù)據(jù)可能來自于微陣列掃描儀或者下一代測序儀等。原始數(shù)據(jù)需要經(jīng)過預處理才能夠成為對終端用戶有用的數(shù)據(jù)。由于在數(shù)據(jù)處理過程中存在多種選擇,因此選擇不同的分析路徑可能會產(chǎn)生不同的結果。應用原始數(shù)據(jù)有助于不同來源數(shù)據(jù)的標準化或使其與內(nèi)部生成的數(shù)據(jù)具有可比性(如對外來數(shù)據(jù)與內(nèi)部產(chǎn)生的數(shù)據(jù)采用統(tǒng)一的序列匹配、采用序列比較工具來檢測序列變異或突變,或者采用統(tǒng)一工具對基因表達進行定量和標準化處理)。然而原始數(shù)據(jù)數(shù)量龐大,往往需要專業(yè)生物信息人員先進行預處理。應用原始數(shù)據(jù)另一復雜之處在于它們包含可鏈接到研究入組人員的可識別的基因組信息。因此,大多數(shù)DNA變異原始數(shù)據(jù),如單核苷酸多肽(SNP)陣列、全基因組數(shù)據(jù)或外顯子測序數(shù)據(jù)是有使用權限的,需要得到特殊批準才可以訪問和下載。如基因型和表型數(shù)據(jù)庫(dbGAP,https://www.ncbi.nlm.nih.gov/gap/)以及歐洲基因表型數(shù)據(jù)庫(EGA,https://ega-archive.org/)是最常使用的數(shù)據(jù)庫。
對于數(shù)據(jù)分析師以及有經(jīng)驗的數(shù)據(jù)分析人員來說下載預處理數(shù)據(jù)是最為靈活的選擇,比如DNA測序數(shù)據(jù)預處理產(chǎn)生的變異數(shù)據(jù)、RNA測序數(shù)據(jù)預處理產(chǎn)生的RNA表達數(shù)據(jù)、DNA甲基化數(shù)據(jù)預處理產(chǎn)生的GpG島甲基化百分比數(shù)據(jù)等,使用者可以應用這些數(shù)據(jù)進行任何他們想做的分析。理解原始數(shù)據(jù)的處理過程、處理中使用了哪種標準化方法,并且找到與之匹配的臨床數(shù)據(jù)以及樣本數(shù)據(jù)是實現(xiàn)這種靈活選擇的關鍵。這些數(shù)據(jù)均可以在相關資源網(wǎng)站上以文本文件的格式直接下載或者通過R語言或Python語言通過應用程序下載(表2)。R語言和Python語言是在生物信息學和機器學習方面最常用到的編程語言。對于沒有編程技能的實驗室人員來說,可以使用已經(jīng)開發(fā)的基于網(wǎng)絡的數(shù)據(jù)訪問工具或者可視化的分析工具對原始數(shù)據(jù)進行分析。cBioportal和GEPIA2就是最常用、最方便的兩個工具,用戶只需點擊鼠標就可進行各種分析。
多組學數(shù)據(jù)在精準醫(yī)學中的應用十分廣泛,可用于任何臨床學科及預防醫(yī)學領域。以下用一些實例來說明基因組學的數(shù)據(jù)資源以及這些資源在醫(yī)學領域中的應用。
表1 主要基因組學數(shù)據(jù)庫資源
表2 訪問開放數(shù)據(jù)庫的常用工具
據(jù)估計,從遺傳角度講,人類有超過10 000種疾病是單基因疾病,也就是說這些疾病是由于人類DNA的單個基因的單一錯誤引起的[2]。現(xiàn)已明確的與罕見遺傳病相關的突變有6 528種(于2019年11月1日檢索《人類孟德爾遺傳》數(shù)據(jù)庫(OMIM)的結果),但仍有很多突變沒有被發(fā)現(xiàn)。對于這些致病原因不明的疾病,進行外顯子或者全基因組測序是臨床上常規(guī)的處理方法。進行大范圍基因組測序通常會發(fā)現(xiàn)非常多的突變,但從中找出真正的致病突變并不容易,需要進行文獻檢索、罕見病數(shù)據(jù)庫挖掘以及將病人的突變與數(shù)據(jù)庫中報道的突變比對等一系列過程。通過基因組測序,許多疾病可以得到診斷。但如果檢測發(fā)現(xiàn)該突變以往未見報道,則意味著該病人可能患有一種新疾病或者發(fā)現(xiàn)了另一個與某種疾病相關的致病突變。但是由于目前許多臨床實驗室的數(shù)據(jù)沒有上傳,所以罕見病數(shù)據(jù)庫里數(shù)據(jù)并不集中。因此建立資源集中和數(shù)據(jù)共享的機制,將會有助于對未曾報道過的罕見病的診斷[3]。
人群風險變異是指在人群中次等位基因頻率(MAF)>1%的基因變異,它們是常見病或者復雜多基因病的主要病因,如2型糖尿病、高血壓以及一些腫瘤等疾病。這些疾病并不是由單基因突變造成的,而是多基因突變以及與環(huán)境因素共同影響導致的。在過去的幾十年里,已完成超過5 000例的全基因組關聯(lián)分析(GWAS,https://www.ebi.ac.uk/gwas)。截至2018年,在GWAS目錄中已經(jīng)報道了71 673例突變-性狀關聯(lián)分析[4-5]。用戶可以通過疾病名稱、基因突變以及單核苷酸多肽編碼(SNP ID)來進行搜索。但由于有些GWAS數(shù)據(jù)是來自于數(shù)年的多個研究,而且許多研究并沒有足夠的樣本量,因此得出的關聯(lián)關系可能不全面,從而導致GWAS搜索結果有時會差別較大。但令人高興的是,一些大型生物標本庫研究項目擁有了幾十萬甚至上百萬樣本量,并將研究所得的基因型-表型關系公之于眾。例如有史以來最大的英國生物樣本庫項目(the UK biobank project)收集了452 264份志愿者的DNA樣本,對778個性狀和3 000萬個基因組變異的關聯(lián)性進行了研究。只需搜索疾病名稱、基因名稱、基因組變異或者位點等信息就可以在英國生物標本庫項目(GeneATLAS,http://geneatlas.roslin.ed.ac.uk)上獲取相應數(shù)據(jù)[6]。
但是GWAS結果在預測人群風險變異的應用中尚存在許多問題。①只有極少數(shù)有關聯(lián)的變異或突變可以應用于臨床,絕大多數(shù)關聯(lián)沒有發(fā)現(xiàn)臨床應用價值。②GWAS研究中的大多數(shù)變異關聯(lián)性是通過SNP陣列技術得到的,但是其所用SNP大部分是標簽SNP,并不是與疾病或者性狀相關的致病SNP。隨著越來越多的GWAS研究方法轉向外顯子測序或者全基因組測序,這個問題可能會被解決;然而新平臺同樣會產(chǎn)生海量的SNP或者變異數(shù)據(jù),從中尋找有意義的變異如“大海撈針”一般困難。超過95%的變異來自于基因組的非編碼區(qū),如何解釋這些變異也是一項非常困難的工作。現(xiàn)在已經(jīng)開發(fā)了一些軟件工具對這些變異進行解釋并同時進行數(shù)據(jù)優(yōu)化。GWAVA是利用DNA元素百科全書計劃(ENCODE)和GENCODE計劃的非編碼元素以及全基因組序列特性,如通過進化保守性以及GC含量,預測非編碼區(qū)變異對基因功能的影響[7];結合注釋依賴消耗評分系統(tǒng)(CADD)是另一個更全面的工具,其通過將自然選擇中保存的變體與給定變異進行對比來進行評分。這個評分系統(tǒng)評價人類基因組中DNA變異和插入/缺失突變的有害程度[8]。盡管這些工具非常有用,但是GWAS結果應用于臨床還有很長的路要走。
應用基因組學信息指導腫瘤治療是精準醫(yī)學的核心,這一理念已被廣泛認可并成功應用于臨床。腫瘤的發(fā)生伴隨著各種基因組畸變,產(chǎn)生腫瘤特異性靶向分子,在這些腫瘤治療中,腫瘤標志成為其診療的主要靶點,此外腫瘤發(fā)生、發(fā)展、生長、轉移過程中的眾多靶點、信號傳導通路以及異常的細胞周期、腫瘤微環(huán)境都是靶向藥物的潛在治療靶點。目前為止基因組學信息的臨床應用仍僅局限于腫瘤DNA檢測,如DNA突變、易位、插入/缺失或者腫瘤突變負荷(TMB)等的檢測。腫瘤DNA檢測常用于特定的基因和突變來增加選定序列的基因檢測覆蓋率,以避免許多可以解讀的突變的漏檢。其中很多檢測的靶點是從TCGA這樣的大型基因圖譜計劃中獲得的。分析不同類型腫瘤的突變分布有助于鑒別出攜帶同種突變的其他腫瘤,攜帶同種突變的腫瘤患者可能會受益于相同的靶向治療方案。
目前對于檢測到的腫瘤突變?nèi)绾谓庾x以及臨床應用的適應證還缺乏統(tǒng)一的標準。每個機構都有自己的測序平臺及生物信息分析團隊,對變異的解釋也不盡相同。為了解決這一問題,專家們共同創(chuàng)建了腫瘤突變數(shù)據(jù)庫(CIViC,https://civicdb.org/home)來幫助研究人員解讀檢測到的基因突變與腫瘤發(fā)生發(fā)展的相關性,以及對病人診斷、治療、預后評估方面的應用價值[9]。
盡管精準醫(yī)學強調(diào)的是個體化的醫(yī)療,但是知識的獲取以及有意義突變的解讀仍需要對大規(guī)模的人群數(shù)據(jù)進行分析,這就使得組學大數(shù)據(jù)顯得尤為重要[10]。
目前,對于基因變異以及變異對臨床的影響還知之甚少,有很多的問題仍需進一步探索,因此基因組學大數(shù)據(jù)對開發(fā)診斷/預后標志物和發(fā)現(xiàn)新治療靶點極為重要。開放數(shù)據(jù)庫為我們提供了實現(xiàn)這些目標的資源。
利用數(shù)據(jù)庫中的多組學數(shù)據(jù)在一系列腫瘤中進行單基因分析經(jīng)常會出現(xiàn)這種問題:實驗中發(fā)現(xiàn)了一個在某特定腫瘤中可能有臨床意義的突變,但無法確定該突變在大數(shù)據(jù)中或者其他腫瘤中的臨床意義如何。值得慶幸的是,現(xiàn)有的大型數(shù)據(jù)庫以及一些在線資源可以很容易地解決這些問題。使用者無需掌握編程技巧,僅需一些基本的數(shù)據(jù)分析知識就可以利用這些開放資源進行數(shù)據(jù)分析,如通過檢測發(fā)現(xiàn),EGFR突變的肺癌病人可以使用酪氨酸激酶抑制劑進行治療,那么攜帶EGFR突變的其他腫瘤病人會從酪氨酸激酶抑制劑靶向治療中獲益么?如果不能獲益,是否可以找到其他的基因組變異來進行靶向治療?通過對TCGA中11 000多種腫瘤進行cBioportal和GEPIA搜索,發(fā)現(xiàn)EGFR突變在其他腫瘤中是非常常見的,但突變功能域卻各有不同,在腦腫瘤和其他器官的鱗狀細胞癌中,EGFR擴增或表達增加提示病人預后差,這就需要使用不同的治療策略來降低致癌基因表達。
腫瘤能否早期診斷決定著腫瘤病人的生存期長短以及能否制定合理治療方案。大多數(shù)腫瘤還沒有早期篩查手段,但一些腫瘤,如胰腺癌、卵巢癌和肺癌,如果不能早期診斷,后果將會是致命的。近幾年來,以液體活檢、無創(chuàng)血漿游離細胞、循環(huán)腫瘤細胞為基礎的腫瘤檢測技術已經(jīng)取得了長足進展。幾乎所有的基因學和表觀基因學信息都可以作為這些檢測的靶點,目前最常用的方法是體細胞突變的檢測。研究發(fā)現(xiàn),某些腫瘤攜帶許多特異性的突變,檢測到一個基因突變或多個基因突變組合可以輔助這些腫瘤的確診[11-13]。由于游離DNA中腫瘤DNA比例很低,通常選擇感興趣的基因區(qū)域(突變)進行測序來達到超高覆蓋率,以避免目標基因突變的漏檢。大型基因組數(shù)據(jù)庫在幫助選擇臨床進行檢測的突變位點上有重要作用。除此之外,突變檢測還可用于治療方案選擇、治療效果評估以及疾病預后評估等方面[14-15]。但由于腫瘤病人血液中腫瘤DNA量微,而且突變頻率很低,這些檢測方法的靈敏度仍需進一步提高。與基因突變不同的是腫瘤中廣泛存在著DNA甲基化現(xiàn)象,常常是腫瘤特異性的表現(xiàn)[16]。因此檢測DNA甲基化能夠更好進地行腫瘤早期檢測和分類[17-18]。尋找最有價值的通用的標記物以及腫瘤特異性標記物(或基因區(qū)域)通常需要大型泛癌或者組織基因組學數(shù)據(jù)。到目前為止,已有多項研究是通過TCGA數(shù)據(jù)資源發(fā)現(xiàn)腫瘤DNA甲基化標記物[19-23]。另外由于健康人群血漿中游離DNA片段的長度分布非常規(guī)律,而同源序列的循環(huán)腫瘤細胞DNA片段長度雜亂無章,所以血漿中游離DNA片段的長度及其分布模式,也可以提示病人是否患有腫瘤以及腫瘤的原發(fā)灶部位[24]。來自于細胞游離DNA中的microRNA或者RNA等其他表觀基因組學數(shù)據(jù)也正逐步應用到臨床試驗中來[25]。從基因組學大數(shù)據(jù)中挖掘信息并應用于臨床實踐的潛力是無限的。
開放組學數(shù)據(jù)資源正在持續(xù)增長,不可能在文中一一列舉,本文篩選出一些較為重要的數(shù)據(jù)庫,并對其用法和獲取數(shù)據(jù)方法進行簡短的介紹。了解并正確如何使用這些資源將會極大地促進科學研究和臨床實踐的發(fā)展,這些開放資源會對項目申請、數(shù)據(jù)解讀等給予很大的幫助。除此之外對于很多沒有編程能力的研究者來說,利用在線的工具進行數(shù)據(jù)分析和數(shù)據(jù)挖掘會更加便捷和簡單。高效使用這些數(shù)據(jù)首先要了解數(shù)據(jù)來源、處理方法并且學會解釋這些數(shù)據(jù)的結果。隨著時間的進展、資料不斷完善,這些資源會變得越來越有條理,越來越容易獲得。大數(shù)據(jù)正在轉變傳統(tǒng)醫(yī)療模式和生物醫(yī)學研究方法,多組學大數(shù)據(jù)在其中起到重要作用。與電子病歷、影像學資料、病理學圖片等其他大數(shù)據(jù)以及精準醫(yī)療設備一樣,大數(shù)據(jù)分析也正在逐步豐富精準醫(yī)學研究的內(nèi)涵。