王德強(qiáng)
生物信息學(xué)(bioinformatics)是一門新興的交叉學(xué)科,是生物學(xué)、數(shù)學(xué)、計(jì)算機(jī)學(xué)及信息學(xué)等學(xué)科的有機(jī)結(jié)合,通過對(duì)生物信息進(jìn)行獲取、加工、存儲(chǔ)、分析和解釋,從而揭示大量而復(fù)雜的生物數(shù)據(jù)所包含的生物學(xué)意義。近年來,隨著高通量測(cè)序技術(shù)的發(fā)展和推廣應(yīng)用,生物信息學(xué)獲得了迅猛的發(fā)展。在腫瘤領(lǐng)域,生物信息學(xué)奠定了精準(zhǔn)治療的基礎(chǔ),但是腫瘤的高度復(fù)雜性和異質(zhì)性也給生物信息學(xué)帶來了巨大的挑戰(zhàn)。本文將著重概述生物信息學(xué)在腫瘤精準(zhǔn)治療中的現(xiàn)狀和發(fā)展前景,以期推動(dòng)腫瘤精準(zhǔn)治療的發(fā)展。
癌癥基因組圖譜(the cancer genome atlas,TCGA)計(jì)劃基于基因組、轉(zhuǎn)錄組、蛋白組及甲基化等數(shù)據(jù),對(duì)泛癌種進(jìn)行了分子分型和深入的分子刻畫,揭示了腫瘤異質(zhì)性[1]。TCGA推動(dòng)生物信息學(xué)研究走向繁榮。與之類似的包括國(guó)際癌癥基因組聯(lián)合會(huì)(the international cancer genome consortium,ICGC)和全基因組泛癌分析(the Pan-Cancer analysis of whole genomes,PCAWG)聯(lián)合會(huì)的研究[2-3]。但治療和臨床轉(zhuǎn)歸的數(shù)據(jù)在這些研究中缺失較多。
為了更好地研究腫瘤異質(zhì)性與臨床結(jié)局的關(guān)系,追蹤治療中的腫瘤進(jìn)化(the TRAcking cancer evolution through therapy,TRACERx)研究應(yīng)運(yùn)而生,主要對(duì)非小細(xì)胞肺癌(non-small-cell lung cancer,NSCLC)、惡性黑色素瘤、前列腺及腎癌開展了伴隨治療的多組學(xué)分析[4]。此外,晚期癌癥環(huán)境生后評(píng)價(jià)(the posthumous evaluation of advanced cancer environment,PEACE)對(duì)多轉(zhuǎn)移部位進(jìn)行取樣研究(NCT03004755)、膠質(zhì)瘤縱向分析聯(lián)盟(the glioma longitudinal analysis consortium,GLASS)對(duì)治療中的膠質(zhì)瘤進(jìn)行不同時(shí)間點(diǎn)的取樣研究,均提高了我們對(duì)腫瘤進(jìn)化的認(rèn)識(shí)[5]。
單細(xì)胞測(cè)序(single-cell RNA-seq,scRNA-seq)技術(shù)使得同時(shí)對(duì)腫瘤和腫瘤微環(huán)境(tumor microenvironment,TME)中的組成細(xì)胞進(jìn)行分子刻畫成為現(xiàn)實(shí)。人類腫瘤圖譜網(wǎng)絡(luò)(the human tumour atlas network,HTAN)便針對(duì)多種腫瘤類型,構(gòu)建了轉(zhuǎn)錄組和TME景觀的單細(xì)胞三維圖譜,加深了我們對(duì)腫瘤內(nèi)部異質(zhì)性(intra-tumor heterogeneity,ITH)的認(rèn)識(shí)[6]。
上述研究均有利于腫瘤預(yù)防、診斷和治療的更精準(zhǔn)化,但相關(guān)認(rèn)識(shí)的臨床轉(zhuǎn)化仍需要進(jìn)一步發(fā)展。
利用下一代測(cè)序(next-generation sequencing,NGS)檢測(cè)腫瘤DNA的改變,從而協(xié)助腫瘤診斷和治療的技術(shù)已廣泛應(yīng)用于臨床。當(dāng)前主要的技術(shù)包括靶向測(cè)序(針對(duì)特定基因集,或稱panel測(cè)序)、全外顯子測(cè)序(whole-exome sequencing,WES)及全基因組測(cè)序(whole-genome sequencing,WGS)。生物信息學(xué)的主要作用是識(shí)別可用藥的DNA改變。
基因組分析的關(guān)鍵是變異的識(shí)別(variant calling),生物信息學(xué)流程可參考基因組分析工具包(genome analysis toolkit,GATK)最佳實(shí)踐[7]。單核苷酸變異(single nucleotide variants,SNVs)是最常見的DNA改變,其次是少于50個(gè)堿基對(duì)(base pairs,BPs)的插入或缺失(insertions or deletions,indels),這些變異可以歸納為短變異(short variants)。生物信息學(xué)分析的重點(diǎn)是變異的注釋,獲取其生物學(xué)意義和臨床相關(guān)性。一系列的生物信息學(xué)工具可供使用,例如ClinVar、癌癥體細(xì)胞突變目錄(the catalogue of somatic mutations in cancer,COSMIC)及癌癥基因組解釋器(the cancer genome interpreter,CGI)等。除了體細(xì)胞變異,胚系變異(germinal variants)也對(duì)藥物療效和毒性有重要影響,相關(guān)的生物信息學(xué)工具包括DrugBank、PharmGKB及PharmCAT等。
基因變異分析既往主要應(yīng)用于靶向或化療藥物的選擇,其局限性包括:①大多數(shù)基因變異的生物學(xué)意義并不明確,也缺乏相應(yīng)的治療藥物;②針對(duì)特定基因變異的新型靶向藥物在全球的可及性較差,常常限于少數(shù)發(fā)達(dá)國(guó)家或地區(qū),或者相關(guān)臨床試驗(yàn)限于少數(shù)中心城市且信息難獲?。虎刍谔囟ɑ蛲蛔兊闹委熜Ч匀挥邢?;④靶點(diǎn)突變以外的共突變對(duì)治療影響較大,卻仍然缺乏基礎(chǔ)研究和應(yīng)對(duì)的策略;⑤檢測(cè)panel、質(zhì)量和分析能力等因素的制約。
最近,基因變異分析也開始在新興的免疫治療領(lǐng)域發(fā)揮作用。一些生物信息學(xué)研究發(fā)現(xiàn)特定基因突變影響免疫檢查點(diǎn)抑制劑(immune checkpoint inhibitors,ICIs)的有效性[8-9]。把體細(xì)胞基因突變的總數(shù)計(jì)算為腫瘤突變負(fù)荷(tumor mutation burden,TMB),發(fā)現(xiàn)與一些腫瘤的ICIs療效有關(guān)[10]。但是,TMB仍缺乏標(biāo)準(zhǔn)的檢測(cè)和計(jì)算方法,且高和低TMB的分界即使在同一腫瘤類型中也存在爭(zhēng)議。同時(shí),最近一項(xiàng)研究發(fā)現(xiàn)TMB在某些腫瘤類型中與ICIs療效無關(guān)甚至負(fù)相關(guān)[11]。
腫瘤中也可發(fā)生大片段(≥50 BPs)的基因改變,屬于結(jié)構(gòu)變異(structural variations,SVs),例如基因拷貝數(shù)變異(copy number variations,CNVs)、基因重排和融合等。目前檢測(cè)SVs較優(yōu)的技術(shù)包括WGS、納米孔測(cè)序(nanopore-based sequencers)及長(zhǎng)讀測(cè)序(long read sequencing)等,也有相應(yīng)的生物信息學(xué)分析工具如WisecondorX等。盡管HER2擴(kuò)增、EML4-ALK及BCR-ABL1融合等SVs已有對(duì)應(yīng)的靶向治療藥物,更多SVs的生物學(xué)意義和靶向治療仍有待研究。
此外,突變標(biāo)簽?zāi)軌蚪沂灸[瘤發(fā)展相關(guān)基因突變過程的類型,可用于分析單堿基替換、雙堿基替換、indels、CNVs和基因重排等多種變異。突變標(biāo)簽的生物信息學(xué)工具包括COSMIC、SignatureAnalyzer及HRDetect等。研究發(fā)現(xiàn),DNA損傷修復(fù)缺陷相關(guān)的突變標(biāo)簽可用于化療和免疫治療效果的預(yù)測(cè)[12-13]。而且,BRCA1、BRCA2及同源重組(homologous recombination,HR)缺陷相關(guān)的突變標(biāo)簽與腺苷二磷酸核糖聚合酶(poly ADP-ribose polymerase,PARP)抑制劑的療效有關(guān)[14]。但一些突變標(biāo)簽的臨床意義仍有待闡明。
轉(zhuǎn)錄組主要涉及基因表達(dá)。從RNA測(cè)序(RNA sequencing,RNA-seq)獲得的原始序列到特定格式的基因表達(dá)值需要一系列的生物信息學(xué)工具。其中,去除低質(zhì)量讀數(shù)和樣本間正?;荣|(zhì)控非常重要。轉(zhuǎn)錄組的一項(xiàng)重要應(yīng)用是差異表達(dá)基因(differentially-expressed genes,DEGs)分析,用于研究不同分組間(例如有效和無效組)的基因表達(dá)異質(zhì)性,經(jīng)典的生物信息學(xué)工具包括DESeq2、edgeR及l(fā)imma等?;贒EGs,可以開展功能富集分析,進(jìn)一步揭示DEGs相關(guān)的生物學(xué)意義。功能富集分析主要包括3種方式:①過表征分析(over-representation analysis,ORA),以DAVID、PANTHER及WebGestalt等為代表;②功能分類評(píng)分(functional class scoring,F(xiàn)CS),以基因集富集分析(gene set enrichment analysis,GSEA)、基因集變異分析(gene set variation analysis,GSVA)及Camera等為代表;③通路拓?fù)?pathway topology)分析,以PathNet為代表。通過功能富集分析定位到特定信號(hào)通路或基因功能,可以提示可能有效的干預(yù)方法,有利于進(jìn)一步研究的開展。
轉(zhuǎn)錄組分析與蛋白-蛋白交互作用(protein-protein interaction,PPI)分析及加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted correlation network analysis,WGCNA)等結(jié)合,有利于定位影響表征的關(guān)鍵基因,促進(jìn)了新治療靶點(diǎn)或療效標(biāo)志物的發(fā)現(xiàn)。與某種腫瘤藥物敏感性相關(guān)的轉(zhuǎn)錄組圖譜可以用于藥物的選擇,相關(guān)的生物信息學(xué)工具包括癌癥藥物敏感性基因組學(xué)(genomics of drug sensitivity in cancer,GDSC)、癌癥治療反應(yīng)門戶(cancer therapeutics response portal,CTRP)及癌癥細(xì)胞系百科全書(the cancer cell line encyclopedia,CCLE)等。在這些工具中,輸入基因名就能查詢數(shù)千種腫瘤細(xì)胞系中該基因與各種藥物敏感性的關(guān)系?;谵D(zhuǎn)錄組的聚類和降維等方法可以產(chǎn)生與藥物敏感性相關(guān)的基因列表或稱基因表達(dá)標(biāo)簽(gene expression signatures)。生物信息學(xué)工具如DrugVsDisease等可以用于預(yù)測(cè)ICIs的治療反應(yīng)[15-17]。
基于轉(zhuǎn)錄組的藥物選擇仍在探索中,主要的局限性包括:①基因表達(dá)是動(dòng)態(tài)變化的,藥物應(yīng)激是主要的驅(qū)動(dòng)力;②基因表達(dá)的調(diào)控網(wǎng)絡(luò)龐大而復(fù)雜,影響因素眾多;③樣本質(zhì)量極易影響RNA-seq;④仍然缺乏基于人體的廣泛臨床試驗(yàn)和循證依據(jù)。
一些生物信息學(xué)工具提供了基于多組學(xué)特征篩選新靶點(diǎn)和選擇藥物的方法。PANOPLY和MOAlmanac整合基因組和轉(zhuǎn)錄組數(shù)據(jù)用于靶點(diǎn)和藥物的選擇。癌癥藥物基因圖譜(the cancer druggable gene atlas,TCDGA)整合的數(shù)據(jù)包括短變異、基因融合、CNVs及基因表達(dá)等。DrugComboExplorer還納入了甲基化數(shù)據(jù),并可預(yù)測(cè)可能有效的藥物組合。多組學(xué)因果導(dǎo)向搜索(causal oriented search of multi-omics space,COSMOS)還納入了磷酸化蛋白質(zhì)組學(xué)和代謝組學(xué)數(shù)據(jù)。DeepDRK則基于多組學(xué)數(shù)據(jù),使用機(jī)器學(xué)習(xí)方法預(yù)測(cè)腫瘤細(xì)胞系和患者的藥物敏感性。在免疫治療方面,基因組和轉(zhuǎn)錄組數(shù)據(jù)可用于預(yù)測(cè)腫瘤新抗原,從而促進(jìn)個(gè)體化疫苗的設(shè)計(jì),使用相關(guān)工具如pVACtools。多組學(xué)工具的局限性在于技術(shù)門檻高、費(fèi)用高及耗時(shí)長(zhǎng)等,目前也仍然處于臨床前研究階段。
腫瘤細(xì)胞由主克隆和若干亞克隆組成,體現(xiàn)了ITH。存在于所有腫瘤細(xì)胞的突變?yōu)榭寺⊥蛔?,否則為亞克隆突變。攜帶某些突變的亞克隆天然對(duì)藥物抵抗,同時(shí)抗腫瘤治療施加的進(jìn)化壓力導(dǎo)致新的突變出現(xiàn)和克隆選擇,是耐藥的關(guān)鍵原因。因此,克隆分析有助于克服腫瘤耐藥和研發(fā)新的治療。相關(guān)的生物信息學(xué)工具包括FastClone、MOBSTER、PyClone-Ⅵ、PhyloWGS及SciClone等。PanDrugs則可用于預(yù)測(cè)對(duì)克隆和亞克隆均可能有效的藥物,有助于踐行克隆治療,即對(duì)所有腫瘤克隆均有效的理想治療。但是,克隆分析目前仍受限于測(cè)序范圍、深度、腫瘤純度及分析方法等。
大體(bulk)RNA-seq檢測(cè)的是腫瘤中各種細(xì)胞基因表達(dá)的平均值,而scRNA-seq反映了各細(xì)胞亞群基因表達(dá)的異質(zhì)性。scRNA-seq分析主要有3個(gè)步驟:原始數(shù)據(jù)處理、正?;途垲?,以及對(duì)結(jié)果的功能解釋。其中,功能解釋主要涉及各細(xì)胞亞群的生物學(xué)定義。生物信息學(xué)工具如edgeR和limma等同樣可以對(duì)單細(xì)胞數(shù)據(jù)進(jìn)行DEGs分析。VISION和UCell可以針對(duì)單細(xì)胞或細(xì)胞亞群進(jìn)行EGFR評(píng)分。腫瘤細(xì)胞和TME之間的配體-受體交互作用對(duì)于理解ITH至關(guān)重要,相關(guān)的工具包括CellPhoneDB和NicheNet等。軌跡推斷和基因表達(dá)的動(dòng)態(tài)分析可以幫助我們理解選定亞群的“現(xiàn)在”和“未來”。剪接mRNA轉(zhuǎn)錄體現(xiàn)了細(xì)胞現(xiàn)狀,而未剪接mRNA可預(yù)測(cè)細(xì)胞進(jìn)一步轉(zhuǎn)錄的方向和速度,有助于我們理解細(xì)胞轉(zhuǎn)化過程,相關(guān)的工具包括Slingshot、velocyto和scVelo等?;谶@些功能解釋,我們可以針對(duì)不同腫瘤細(xì)胞亞群預(yù)測(cè)可能有效的治療藥物,相關(guān)工具包括DEGAS和Beyondcell等。
腫瘤的復(fù)雜性體現(xiàn)為多層面的綜合的異質(zhì)性,如患者間、腫瘤內(nèi)和多組學(xué)的異質(zhì)性等,且隨著腫瘤發(fā)展而變化,給腫瘤治療帶來巨大的困難。高通量測(cè)序技術(shù)的發(fā)展使得我們能夠深入理解腫瘤異質(zhì)性,而生物信息學(xué)則是其中的關(guān)鍵工具。生物信息學(xué)已潛移默化的應(yīng)用于臨床,例如對(duì)NGS數(shù)據(jù)的分析和解讀,并最終以基因檢測(cè)報(bào)告的形式呈現(xiàn)于臨床醫(yī)生面前。腫瘤的精準(zhǔn)治療實(shí)際上以生物信息學(xué)為基礎(chǔ),并基于生物信息學(xué)的發(fā)展而不斷進(jìn)步。但是,我國(guó)大部分臨床醫(yī)生對(duì)生物信息學(xué)仍缺乏了解,更遑論應(yīng)用。一種不良趨勢(shì)也廣泛存在,即將生物信息學(xué)僅僅當(dāng)作發(fā)表論文的捷徑,忽視了數(shù)據(jù)庫的建立、基礎(chǔ)理論、方法學(xué)和臨床應(yīng)用的研究。一些研究者也輕視生物信息學(xué),沒有意識(shí)到生物信息學(xué)對(duì)基礎(chǔ)和臨床研究的巨大推動(dòng)作用。總之,蓬勃發(fā)展中的生物信息學(xué)對(duì)于腫瘤的研究和治療均至關(guān)重要,應(yīng)該得到廣大臨床醫(yī)生和研究者的高度重視。