馬 婷 黃 海 郝 沛
(1上海大學(xué)生命科學(xué)學(xué)院發(fā)育神經(jīng)生物學(xué)實(shí)驗(yàn)室 上海 200444; 2中國(guó)科學(xué)院上海巴斯德研究所病原大數(shù)據(jù)實(shí)驗(yàn)室 上海 200031)
肝細(xì)胞癌(hepatocellular carcinoma,HCC)是原發(fā)性肝癌中最主要的組織學(xué)亞型[1]。纖維板層肝細(xì)胞癌(fibrolamellar-HCC,FL-HCC)是HCC的一種特殊類型,常見(jiàn)于青年群體,通常不伴隨肝硬化和乙型肝炎病毒(hepatitis B virus,HBV)感染[2-3]。已知HBV感染后會(huì)增加HCC的發(fā)病率[4]。
RNA編輯是指通過(guò)轉(zhuǎn)錄后修飾引起轉(zhuǎn)錄RNA序列改變,致使RNA攜帶信息改變的生物學(xué)現(xiàn)象[5]。脊椎動(dòng)物中最常見(jiàn)的RNA編輯類型是腺嘌呤(adenine,A)轉(zhuǎn)變?yōu)榇吸S嘌呤(inosine,I),即A-to-I RNA編輯。A-to-I RNA編輯發(fā)生在具有雙鏈特征的RNA區(qū)域。底物RNA在腺苷酸脫氨酶(adenosine deaminases acting on RNA,ADAR)催化下將A水解脫氨基轉(zhuǎn)化為I,后續(xù)翻譯過(guò)程中被識(shí)別為鳥(niǎo)嘌呤(guanine,G)[6]。在病毒感染期間,不同的病毒與宿主組合后,ADAR可能發(fā)揮促病毒或抗病毒作用[7-8]。目前對(duì)HCC患者RNA編輯的研究主要集中在癌組織和正常組織間的編輯活性變化[9-10],而HBV感染對(duì)HCC患者A-to-I RNA編輯事件的影響尚無(wú)研究報(bào)道。
我們從數(shù)據(jù)庫(kù)下載了HBV陰性和陽(yáng)性患者的轉(zhuǎn)錄組數(shù)據(jù)[11-12],采用SPRINT軟件[13]鑒定A-to-I RNA編輯事件,比較正常組織和癌組織中HBV陰性、HBV陽(yáng)性樣本組的ADAR1表達(dá)值及共有RNA編輯位點(diǎn)(RNA editing site,RES)的編輯水平差異情況。本研究首次分析了HBV感染的HCC患者A-to-I RNA編輯的變化情況,對(duì)深入研究HBV感染對(duì)HCC發(fā)生發(fā)展的分子作用機(jī)制有一定的意義。
材料轉(zhuǎn)錄組數(shù)據(jù)來(lái)自美國(guó)國(guó)家生物技術(shù)信息中心(National Center of B-iotechnology Information,NCBI)的GEO數(shù)據(jù)庫(kù),數(shù)據(jù)集編碼為GSE63018和GSE77509。為區(qū)分兩套數(shù)據(jù),分別用FL-HCC和HCC來(lái)表示。FL-HCC數(shù)據(jù)集為2*50的雙端非特異性測(cè)序數(shù)據(jù),測(cè)序數(shù)據(jù)來(lái)自FL-HCC患者,由于該類HCC的特殊性,8位患者均為HBV陰性。HCC數(shù)據(jù)集則為2*100的雙端非特異性測(cè)序數(shù)據(jù),包含19位HBV陽(yáng)性患者和1位HBV陰性患者。每位患者均有配對(duì)的正常和癌癥肝組織的測(cè)序數(shù)據(jù)。
A-to-I RESs的鑒定和注釋采用SPRINT 0.7.16軟件鑒定RNA編輯事件。將匹配到參考基因組的讀段(reads)和未匹配、處理后二次匹配的讀段分為兩條檢測(cè)途徑進(jìn)行位點(diǎn)尋找,因此該法能找出數(shù)目更多的位點(diǎn)用于后續(xù)分析。在SPRINT中使用Burrows-Wheeler algorithm (BWA)算法[14]進(jìn)行比對(duì)。人類參考基因組和基因組注釋信息版本為hg19。采用Annovar軟件對(duì)得到的位點(diǎn)進(jìn)行注釋[15]。
基因差異分析使用Trim_galore v0.4.3(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)去除測(cè)序質(zhì)量低于20的讀段,得到清潔數(shù)據(jù)。采用“-fastqc”參數(shù)對(duì)清潔數(shù)據(jù)進(jìn)行測(cè)序質(zhì)量評(píng)估。采用Hisat2 v2.0.5[16]比對(duì)到人類參考基因組得到SAM文件。用Samtools v1.5[17]的“samtools view”和“samtools sort”命令將SAM文件轉(zhuǎn)化為BAM文件并進(jìn)行排序。使用Picard v1.127軟件(https://broadinstitute.github.io/picard/)去除樣本制備過(guò)程中產(chǎn)生的PCR重復(fù)序列。HTSeq-0.6.1[18]用于計(jì)算基因比對(duì)到每個(gè)基因的讀段數(shù)。使用轉(zhuǎn)錄組表達(dá)定量值CPM(counts per million)來(lái)實(shí)現(xiàn)基因表達(dá)值的標(biāo)準(zhǔn)化,即原始讀段數(shù)÷總讀段數(shù)*1 000 000。
標(biāo)準(zhǔn)化編輯水平計(jì)算編輯水平定義為每個(gè)發(fā)生A-to-I RNA編輯的讀段數(shù)與比對(duì)到該位點(diǎn)的所有讀段數(shù)的比值。為更好比較不同患者的編輯水平變化,我們選出正常組織和癌組織共有的RES。將共有RES最高的值作為標(biāo)準(zhǔn),其他RES與之相除,得到標(biāo)準(zhǔn)化編輯水平[19]。
GO富集分析使用R包c(diǎn)lusterProfiler軟件[20]對(duì)每個(gè)患者正常組織和癌癥肝組織的RES所在基因分別進(jìn)行GO富集分析。找出在HBV陰性和HBV陽(yáng)性樣本組中均出現(xiàn)的GO富集通路,其中校正后P<0.05的通路為顯著富集通路。
圖形展示和統(tǒng)計(jì)學(xué)方法使用R開(kāi)源包ggplot2和GraphPad prism8.0.1繪制圖片。本研究在R環(huán)境下進(jìn)行統(tǒng)計(jì)學(xué)分析,相關(guān)性檢驗(yàn)使用Kruskal-Wallis檢驗(yàn),P值閾值設(shè)置為0.1。
兩套數(shù)據(jù)集A-to-I RESs概況我們檢測(cè)了FL-HCC和HCC數(shù)據(jù)集中56個(gè)樣本的RNA編輯事件,分別找出299 528和122 265 509個(gè)RES(表1)。為驗(yàn)證RES的可靠性,將每個(gè)樣本的檢測(cè)位點(diǎn)與目前主要的RES數(shù)據(jù)庫(kù)DARNED(http://darned.ucc.ie/)、RADAR(http://rnaedit.com/)、REDIportal(http://srv00.recas.ba.infn.it/py_script/REDIdb/)以及3個(gè)數(shù)據(jù)庫(kù)的并集進(jìn)行比較(表1)。結(jié)果發(fā)現(xiàn),FL-HCC數(shù)據(jù)集與數(shù)據(jù)庫(kù)的平均交集為76.04%,而HCC數(shù)據(jù)集與數(shù)據(jù)庫(kù)的平均交集僅為52.47%。這是由于數(shù)據(jù)庫(kù)中的位點(diǎn)主要是匹配到參考基因組的讀段所找出的RES,而SPRINT還包含未匹配到基因組而進(jìn)行二次匹配的讀段所找出的RESs。所以兩套數(shù)據(jù)集與數(shù)據(jù)庫(kù)的交集并不高,這說(shuō)明相對(duì)于以往的RES鑒定方法[21-22],本研究可檢測(cè)出更多的RES來(lái)進(jìn)行后續(xù)分析。
為進(jìn)一步驗(yàn)證檢測(cè)位點(diǎn)的準(zhǔn)確性,我們分析了兩套數(shù)據(jù)集RES的位點(diǎn)分類特征(圖1)。將RES分為Alu區(qū)、重復(fù)非Alu (repetitive non Alu,REP-NON-Alu)區(qū)和非重復(fù)(non repetitive,NON-REP)區(qū),FL-HCC和HCC數(shù)據(jù)集分別有超過(guò)72%和82%的位點(diǎn)位于Alu區(qū),兩套數(shù)據(jù)集RES的分布特征具有一致性。這說(shuō)明由于Alu區(qū)的序列具有相似特征,其在基因和基因間易形成雙鏈RNA,是ADAR酶的理想底物。因此,大部分位點(diǎn)發(fā)生在基因組的Alu區(qū)域,該現(xiàn)象與已有研究結(jié)果一致[23]。大部分位點(diǎn)分布在內(nèi)含子和基因間區(qū)域,其次是3’-UTR和非編碼RNA(non coding RNA,ncRNA)區(qū)域,外顯子和5’-UTR區(qū)域分布最少。這些分布特性都表明我們所鑒定出的位點(diǎn)具有可信度。
FL-HCC:RNA-seq data collected from GSE63018;HCC:RNA-seq data collected from GSE77509.SPRINT:Number of RESs identified by SPRINT.
ADAR酶表達(dá)水平的變化HCC組織中ADAR1表達(dá)量升高與RNA編輯水平上調(diào)有明顯相關(guān)性[9],但HBV感染后HCC樣本ADAR1的表達(dá)變化與RNA編輯水平之間的關(guān)系尚不清楚。我們將兩套數(shù)據(jù)集的樣本按照不同組織來(lái)源和HBV感染情況,分為HBV陰性正常組織(HBV-N)、HBV陰性癌組織(HBV-T)、HBV陽(yáng)性正常組織(HBV+N)和HBV陽(yáng)性癌組織(HBV+T)等4個(gè)樣本群體。考慮到兩套數(shù)據(jù)集的批次效應(yīng),我們使用標(biāo)準(zhǔn)化的基因表達(dá)值來(lái)觀察在不同組織和HBV感染情況下ADAR1的表達(dá)變化。在比較HBV-N和HBV+N、HBV-T和HBV+T群體后,我們發(fā)現(xiàn)在正常和癌組織中HBV感染均引起ADAR1的表達(dá)上調(diào)。在HBV陰性群體中,ADAR1在正常組織和癌組織之間無(wú)明顯差異。在HBV陽(yáng)性群體中,RNA編輯酶的整體活性更高,且癌組織的ADAR1表達(dá)水平相對(duì)于正常組織有明顯上升(圖2A)。這都說(shuō)明HBV感染促進(jìn)ADAR1表達(dá),該現(xiàn)象在癌組織中更顯著。此外,我們還觀察到不同樣本群體中ADAR2和ADAR1的表達(dá)趨勢(shì)并不一致(圖2B)。在HBV陰性群體中ADAR2在癌組織中的表達(dá)水平相對(duì)于正常組織更高,而HBV陽(yáng)性群體中則相反。在不同組織中,HBV感染后ADAR2的表達(dá)水平更低??傮w上,ADAR2的表達(dá)值明顯低于ADAR1的表達(dá)值,這表明在催化編輯反應(yīng)中ADAR1發(fā)揮主要作用,ADAR2的作用有待進(jìn)一步分析研究。
Distribution (A) and genomic distribution (B) of RESs in FL-HCC data set;distribution (C) and genomic distribution (D) of RESs in HCC data set.
圖1 FL-HCC和HCC數(shù)據(jù)集中A-to-I RESs分布情況
Fig 1 The distribution of A-to-I RESs in FL-HCC and HCC data sets
HBV-N:HBV negative and normal tissue;HBV-T:HBV negative and tumor tissue;HBV+N:HBV positive and normal tissue;HBV+T:HBV positive and tumor tissue.CPM:Count-per-million.
圖2 不同HBV感染狀態(tài)下正常組織和癌組織中ADAR1(A)和ADAR2(B)的表達(dá)水平
Fig 2 The expression levels of ADAR1 (A) and ADAR2 (B) in normal and tumor tissues in response to HBV infection
A-to-I RESs編輯水平的變化由于ADAR1在催化A-to-I RNA編輯反應(yīng)中起主要作用,進(jìn)一步分析ADAR1的上調(diào)是否導(dǎo)致編輯水平的顯著變化。我們?nèi)〕雒课换颊哒=M織和癌組織共有的A-to-I RESs后,計(jì)算出這些位點(diǎn)的標(biāo)準(zhǔn)化編輯水平。根據(jù)共有RESs的編輯水平計(jì)算出均值,比較不同感染狀況和不同組織來(lái)源樣本群體的RESs編輯水平變化(圖3)。不同感染狀態(tài)下樣本的編輯水平在0.30~0.45,多集中在低于0.5的區(qū)域中。雖然HBV感染時(shí)ADAR1在兩類組織中均顯著上升,但僅在癌組織中發(fā)現(xiàn)編輯水平上升(P<0.1)。在HBV陽(yáng)性群體中,癌組織的編輯水平相對(duì)于正常組織有所提升(P<0.1),但在HBV陰性群體中則沒(méi)有類似現(xiàn)象。這說(shuō)明ADAR1表達(dá)變化對(duì)癌癥樣本和HBV感染樣本的RESs作用更為明顯。
A-to-I RESs所在基因的GO富集情況分析RESs所在基因的GO富集情況,找出在HBV陰性和陽(yáng)性樣本中均出現(xiàn)的GO富集通路(表2):HBV陰性樣本的編輯基因顯著富集在細(xì)胞氨基酸代謝過(guò)程通路(P<0.05);HBV陽(yáng)性樣本的編輯基因則富集在蛋白質(zhì)絲氨酸/蘇氨酸激酶活性、轉(zhuǎn)錄后調(diào)控基因表達(dá)及去磷酸化相關(guān)信號(hào)通路(P<0.05)。這些通路與細(xì)胞增殖、基因調(diào)控過(guò)程相關(guān)。這說(shuō)明HBV感染使細(xì)胞增殖并調(diào)控基因表達(dá)相關(guān)的編輯基因活性發(fā)生改變,這可能對(duì)HCC的發(fā)生造成影響。
HBV-N:HBV negative and normal tissue;HBV-T:HBV negative and tumor tissue;HBV+N:HBV positive and normal tissue;HBV+T:HBV positive and tumor tissue.
圖3 在不同HBV感染狀態(tài)下正常和癌癥組織中RESs的編輯水平變化
Fig 3 The editing level of RESs in normal and tumor tissuesin response to HBV infection
表2 不同HBV感染狀態(tài)下RESs所在基因的GO富集通路Tab 2 The GO enrichment pathway of genes with RESs in response to HBV infection
HBV-:HBV negative;HBV+:HBV positive.(1)AjustedP.
HCC是一種異質(zhì)性腫瘤,在遺傳信息和表觀遺傳層面表現(xiàn)出復(fù)雜多樣的變化。在癌組織中,異常的轉(zhuǎn)錄后修飾(如RNA編輯),可能導(dǎo)致腫瘤轉(zhuǎn)錄組的多樣性[23]。RNA編輯在病毒感染過(guò)程中同樣起著重要作用[7]。目前對(duì)HCC患者RNA編輯的研究多為癌組織相對(duì)于正常組織的RNA編輯事件變化,對(duì)HBV感染后患者RNA編輯的變化研究較少。
我們使用SPRINT軟件來(lái)檢測(cè)編輯位點(diǎn),相對(duì)于以往的位點(diǎn)鑒定方法[21],該法能發(fā)現(xiàn)更多RES,有利于后續(xù)位點(diǎn)的統(tǒng)計(jì)分析。通過(guò)分析每位患者RES的數(shù)目和分布特征,發(fā)現(xiàn)兩套數(shù)據(jù)集的RES數(shù)目有明顯差異,數(shù)據(jù)測(cè)序深度大的樣本能檢測(cè)到更多的RES,這與數(shù)據(jù)本身測(cè)序深度和讀數(shù)長(zhǎng)度有關(guān),因而從位點(diǎn)數(shù)量分析HBV感染對(duì)患者RNA編輯的影響并不合適。通過(guò)分析位點(diǎn)在基因組上的分布,發(fā)現(xiàn)不同數(shù)據(jù)集的樣本分布趨勢(shì)具有較強(qiáng)的一致性,RES大部分落在內(nèi)含子區(qū)域和基因間區(qū)域。這與以往研究結(jié)果一致[9]。不同HBV感染狀態(tài)下,正常組織和癌組織中ADAR1表達(dá)水平均顯著上升。HBV感染后,癌組織中ADAR1表達(dá)上調(diào),同時(shí)其共同RES的編輯水平也會(huì)隨之升高,而在未感染HBV群體中則沒(méi)有類似發(fā)現(xiàn)。這說(shuō)明HBV感染極可能通過(guò)上調(diào)ADAR1表達(dá),對(duì)編輯基因的表達(dá)活性產(chǎn)生影響。HBV感染樣本的編輯基因顯著富集在基因調(diào)控和細(xì)胞增殖相關(guān)通路,說(shuō)明編輯基因的活性改變可能影響了細(xì)胞的正常生長(zhǎng),進(jìn)而影響HCC的發(fā)生。這提示在治療HBV感染患者的過(guò)程中抑制ADAR1的表達(dá)對(duì)預(yù)防HCC的發(fā)生可能會(huì)起到作用。
本研究收集的數(shù)據(jù)來(lái)自FL-HCC和HCC兩套公開(kāi)數(shù)據(jù)集??紤]到不同數(shù)據(jù)集對(duì)后續(xù)分析的影響,分別對(duì)兩套數(shù)據(jù)集在基因組上的分布進(jìn)行了分析,發(fā)現(xiàn)它們?cè)诨蚬δ軈^(qū)的分布是一致的。這在一定程度上表明樣本組織來(lái)源的不同對(duì)RESs分布影響不大??紤]到批次影響,我們?cè)诜治龌虮磉_(dá)水平時(shí)采用標(biāo)準(zhǔn)化基因表達(dá)值CPM來(lái)衡量ADAR表達(dá)水平。在分析RESs的編輯水平時(shí),將正常組織作為背景,選取腫瘤和正常組織共有的RESs來(lái)分析,這在一定程度上能夠去除由于樣本的組織類型差異所造成的編輯水平變化。由于患者年齡、性別和病毒感染等因素也可能對(duì)分析造成一定的影響,因此我們?cè)谶x取數(shù)據(jù)時(shí)盡量選擇范圍一致的樣本。由于公共數(shù)據(jù)庫(kù)的數(shù)據(jù)有限且未感染HBV的臨床樣本不易獲取,本研究收集到的不同HBV感染情況的患者樣本數(shù)目并不一致。更多未感染HBV的HCC患者樣本有助于校正分析過(guò)程中的偏差。
總之,本研究利用轉(zhuǎn)錄組數(shù)據(jù)描述HBV陽(yáng)性和陰性HCC樣本A-to-I RNA編輯事件的區(qū)別,發(fā)現(xiàn)HBV感染上調(diào)ADAR1的表達(dá),從而改變宿主編輯事件的活性,這對(duì)HCC的發(fā)生發(fā)展可能有促進(jìn)作用,也為進(jìn)一步探索宿主RNA編輯對(duì)HBV感染的響應(yīng)機(jī)制提供了線索。