鄭帥,田國祥,韓迪迪,李承倬,許豐碩,呂軍2,
目前,在醫(yī)學研究領(lǐng)域不同數(shù)據(jù)庫的廣泛建立為研究者提供了多種類,多維度,多交叉的跨學科優(yōu)質(zhì)數(shù)據(jù)資源,毫不夸張地說公共數(shù)據(jù)庫的建立改善了許多醫(yī)學研究者缺乏研究數(shù)據(jù)的困境。但由于多種原因限制,諸如癌癥基因組圖譜(TCGA)和國際癌癥基因組協(xié)會(ICGC)等大規(guī)模癌癥基因組學項目正在從多種不同的技術(shù)平臺中產(chǎn)生大量的癌癥基因組學數(shù)據(jù),這使其數(shù)據(jù)集成,探索和分析執(zhí)行難度越來越大,尤其是對于沒有計算背景的科學家來言[1]。cBioPortal是紀念斯隆·凱特琳癌癥中心(MSKCC)開發(fā)的,專門用于解決大型癌癥基因組計劃所帶來的獨特數(shù)據(jù)集成問題,并使大型癌癥基因組計劃所產(chǎn)生的原始數(shù)據(jù)更容易、更直接地供整個癌癥研究社區(qū)使用[2]。cBioPortal數(shù)據(jù)庫是一個包含了癌癥基因數(shù)據(jù)和臨床數(shù)據(jù)的國際公共數(shù)據(jù)庫,該數(shù)據(jù)庫無需研究者注冊登錄,可直接進入數(shù)據(jù)庫訪問及下載。它是一種開放獲取的開源資源,可用于多個癌癥基因組學數(shù)據(jù)集的交互式探索及臨床相關(guān)研究。
2.1 數(shù)據(jù)查詢 在瀏覽器中打開cBioPortal官網(wǎng)(http://cbioportal.org)如圖1所示,左邊藍色部分是包括了33項研究種類,基本包含了人體各個部位。在藍色框內(nèi)選取研究腫瘤類型后,在右邊彈出的頁面中選取具體項目進行信息查詢,根據(jù)不同的研究癌種,它分為多種亞型。我們以尤文氏肉瘤為例進行數(shù)據(jù)挖掘,首先點擊選中圖1左邊的Bone,隨之會彈出一個包含了多種亞型的小界面,在彈出界面中點擊Ewing Sarcoma相關(guān)的各個項目前的小框,同時還可以看到各個項目尾部會標注該項目的樣本量。
圖1 數(shù)據(jù)庫訪問首頁
如果想要查詢尤文氏肉瘤基因?qū)W方面的數(shù)據(jù),點擊Query By Gene。如圖2所示,Selected studies項顯示的是我們所選擇的研究項目(尤文氏肉瘤、小兒尤文氏肉瘤),點擊Modify可重新選定研究項目。Select molecular profiles項是指選擇分子概要文件,一般情況都會勾選Mutation,選擇突變基因?qū)ζ溲芯糠治?。Select Patiant/Case Set項是用來篩選病例和樣本量,點擊右方下拉箭頭圖標,可以展開選擇,分別是All(全部數(shù)據(jù)),Cases with mutations data(變異數(shù)據(jù)),User-defined Case List(用戶自定義),可以篩選出符合自己要求的樣本(如果用戶自定義列表,可在下拉列表中選擇后,才可以輸入樣本ID,并用空格鍵分隔)。
圖2 研究類型選擇界面
Enter Genes項是用來刷選基因集,點擊右側(cè)下拉箭頭后可選擇備選基因組,也可自行輸入,當輸入的基因有誤或不符合時是無法提交獲取數(shù)據(jù),只有全部所選基因正確時All gene symbols are valid才會自動變綠,點擊Submit Query可以進行搜索。查詢結(jié)果如圖3所示,OncoPrint是所有患者基因組數(shù)據(jù),通過一個簡明扼要的OncoPrint圖進行展示,每個基因用行來表示,樣本或患者用列表示,符號和顏色編碼用來總結(jié)不同的基因組的改變,包括突變,拷貝數(shù)變化和mRNA表達。OncoPrints可用于可視化分析基因的和一組病例途徑改變,從圖形上分析一些有用的趨勢。如果我們想要在此圖上添加更多的數(shù)據(jù)信息,點擊Add Clinical Tracks添加癌癥類型、每例患者的樣本數(shù)、變異系數(shù)、性別、診斷年齡、腫瘤原發(fā)部位等29種項目??赏ㄟ^Sort、Mutations、View調(diào)節(jié)圖表的表達形式,點擊Download可下載為PDF、PNG或SVG形式對圖表保存。在上標部分可選擇查看基因改變類型的比例、共同表達的分析情況、基因是否突變與患者的生存相關(guān)性等。
圖3 基因改變類型的界面
在上標Cancer Types Summary部分是癌癥類型摘要,主要描述每個研究的基因變更頻率指標。Mutation Exclusivity項是描述基因表達互斥的表現(xiàn),癌癥中的生物學進程或路徑常通過多種不同的基因或者不同的機制進行調(diào)節(jié)。cBioPortal中的Mutual Exclusivity可發(fā)現(xiàn)既往不知道的一些癌癥發(fā)病機制,這些機制可能在腫瘤形成和癌癥的進展中起到重要作用。在Mutual Exclusivity標簽中,和特定腫瘤相關(guān)的基因傾向于相互排斥,如果存在基因排斥,也就是說這個腫瘤可能只有一種基因問題。相反是基因共生,一種腫瘤如果有多個基因同時存在,那這幾個基因可能共生,其都在腫瘤的發(fā)生和發(fā)展中起到作用,這個腫瘤也很可能并非單一基因問題。如圖4所示,基因兩兩配對,圖表顯示兩基因之間共同表達或互斥單一表達,同時也給出了P值,當我們利用此數(shù)據(jù)時得考慮是否因樣本量低而引起得P值較高,導致失去統(tǒng)計學意義。
圖4 基因之間相互表達界面
在上標Plots部分cBioPortal提供了離散基因和連續(xù)基因的可視化分析,如mRNA或蛋白豐度或DNA甲基化。在查詢時指定每個基因,cBioPortal會生成不同的散點圖。我們可以對圖表的橫縱坐標進行調(diào)換,在Data Type選項中可選擇基因突變和臨床屬性,當選擇基因類型時在選項中可選擇基因突變和突變野生型,當選擇臨床屬性時可以選擇癌種、診斷年齡、性別、發(fā)病部位等多種臨床指標,根據(jù)篩選的各項指標,樣本量也隨之改變。我們以生存狀態(tài)和診斷年齡為研究因素來探索信息,生成的散點圖如圖5所示。
圖5 散點圖界面
圖6 基因非同義突變界面
Mutation選項卡提供有關(guān)每個查詢基因中識別出的所有非同義突變的詳細信息,既是圖形摘要,也是可自定義的表格,如圖6所示。圖形摘要顯示了在規(guī)范基因同工型編碼的Pfam蛋白結(jié)構(gòu)域中所有突變的位置和頻率。所有的DNA突變都被標準化為標準的RefSeq亞型(使用Oncotator,http://www.broadinstitute.org/oncotator/)。當DNA突變僅影響非規(guī)范同工型時,該突變不包括在圖形摘要中。數(shù)據(jù)庫門戶的未來版本將在單獨的表中提供此信息[1]。圖形摘要下方是所有非同義突變的表格。如果可以使用該表,可對其進行排序和過濾,可用數(shù)據(jù)包括每個樣品的病例ID、氨基酸變化、突變類型COSMIC(癌癥體細胞突變目錄)中此位置的突變數(shù)等多種數(shù)據(jù)。
cBioPortal還提供對門戶中包含的每個癌癥研究的摘要信息的訪問。可用數(shù)據(jù)包括有關(guān)患者的各種臨床詳細信息(診斷時的生存時間和年齡),有關(guān)腫瘤的詳細信息(組織學、分期、等級)以及基因組數(shù)據(jù)的摘要(非同義突變數(shù)和基因組改變的部分),循環(huán)突變的基因,以及有關(guān)循環(huán)CNA的詳細信息。臨床數(shù)據(jù)以圖形和表格形式顯示,突變的基因和CNA數(shù)據(jù)列于表中。在臨床和基因組數(shù)據(jù)的背景下,現(xiàn)在可輕松地在cBioPortal中探索和分析CPTAC數(shù)據(jù)。通過將CPTAC數(shù)據(jù)集成到cBioPortal中,可以克服TCGA蛋白質(zhì)組學陣列數(shù)據(jù)的局限性[3]。
當我們需要查詢一些直觀圖表類數(shù)據(jù)時,選好研究類型后在圖1界面下方點擊Explore Selected Studies,查詢結(jié)果如圖7所示,cBioPortal對基因數(shù)據(jù)和臨床數(shù)據(jù)都進行了可視化處理,包含了不同基因類型的占比,生存分析曲線、性別、年齡、患者生存狀況比例,鼠標箭頭點在相應的圖標上就會顯示更詳細的數(shù)據(jù)信息。
圖7 可視化數(shù)據(jù)界面
2.2 數(shù)據(jù)下載 當我們需要將數(shù)據(jù)下載到本地時,在圖1頁面的左上方點擊Date Sets,結(jié)果如圖8所示,這里包含了該數(shù)據(jù)庫的所有數(shù)據(jù),在頁面左上角搜索相關(guān)數(shù)據(jù)名稱查找到所需的數(shù)據(jù)包,點擊所對應的箭頭向下符號進行下載。
下載后我們得到的是一個壓縮包,根據(jù)電腦不同的系統(tǒng)配置可能需多次解壓,解壓后如圖9所示,根據(jù)研究所需對各類數(shù)據(jù)獲取,打開復制文本,粘貼在EXCEL后即可形成我們常見的表格形式。
如若我們只需臨床數(shù)據(jù)時,可在圖7左上角點擊Clinical Date,以乳腺癌為例,查詢到的臨床各類指標數(shù)據(jù)如圖10所示,點擊上方下載符號就可將臨床數(shù)據(jù)下載到本地。
圖8 數(shù)據(jù)包儲存界面
圖9 數(shù)據(jù)包解壓后界面
圖10 臨床數(shù)據(jù)查詢結(jié)果界面
cBioPortal是一種開放獲取的開源資源,可用于多個癌癥基因組學數(shù)據(jù)集的交互式探索。它的數(shù)據(jù)來源于多個數(shù)據(jù)平臺,包括TCGA、ICGC、GDAC、IGV、UCSC、Oncomine等數(shù)據(jù)庫,cBioPortal研究的基因類型是極其豐富的,包含了體細胞突變,DNA拷貝數(shù)改變,mRNA和microRNA表達,DNA甲基化,蛋白豐度及磷蛋白豐度等多種形式。研究人員得到了大量的有關(guān)癌癥基因組的資料,但是這些資料對于研究人員來說,如何整合、探索和分析,是一個比較困難的事情。cBioPortal進行了跨基因,樣本和數(shù)據(jù)類型的可視化和分析,從而有助于探索多維癌癥基因組學數(shù)據(jù)。用戶可以查看癌癥研究中各個樣本的基因改變模式,比較多個癌癥研究中的基因改變頻率,或總結(jié)單個腫瘤樣本中所有相關(guān)的基因組改變。該數(shù)據(jù)庫還支持生物途徑探索,生存分析,基因組改變之間的互斥性分析,選擇性數(shù)據(jù)下載[1]。相比SEER,HRS等數(shù)據(jù)庫獲取數(shù)據(jù)[4,5]cBioPortal數(shù)據(jù)庫顯著降低了復雜基因組數(shù)據(jù)與癌癥研究人員間的獲取障礙,促進快速、直觀、高質(zhì)量地獲取大規(guī)模癌癥基因組學項目的分子譜和臨床預后相關(guān)性,并使研究人員能夠?qū)⑦@些豐富的數(shù)據(jù)集轉(zhuǎn)化為生物學見解和臨床應用。