曾杰,楊秋怡,張志鵬,范培芝,張超杰,廖雯
(1.湖南師范大學(xué)附屬第一醫(yī)院/湖南省人民醫(yī)院乳甲外科,湖南長沙410005;2.中南大學(xué)湘雅醫(yī)院老年外科,湖南長沙410008)
甲狀腺癌是最常見的內(nèi)分泌系統(tǒng)的惡性腫瘤,其發(fā)病率在過去10年間持續(xù)攀升[1]。它的平均年增長率約為6.6%,在2000—2009年美國所有癌癥中增長速度最高[2]。在過去幾十年里,甲狀腺癌在許多國家達到了3 倍的增長率[3-4]。最新的全球癌癥統(tǒng)計資料顯示,2018年全球甲狀腺癌的新發(fā)病例為567 000 例,在發(fā)病率中排名第九,占所有癌癥新發(fā)病例的5.1%,且女性發(fā)病率是男性的3 倍多[5]。值得慶幸的是,其病死率較低,約占所有癌癥死亡病例的0.4%~0.5%[5]。甲狀腺癌起源于濾泡上皮細胞或濾泡旁C 細胞,其中濾泡上皮來源的甲狀腺癌可分為四種病理類型:乳頭狀癌(80%~85%)、濾泡狀癌(10%~15%)、低分化癌(<2%)和未分化癌(<2%),乳頭狀癌和濾泡狀癌合稱為高分化甲狀腺癌,占全部甲狀腺癌的絕大多數(shù)[6]。盡管通過手術(shù)、甲狀腺激素和放射性碘治療后,高分化甲狀腺癌的預(yù)后較好,但仍有一部分患者因復(fù)發(fā)或轉(zhuǎn)移而死亡[6-7]。此外,甲狀腺細針穿刺細胞學(xué)檢查是甲狀腺癌術(shù)前診斷最可靠的檢查手段,但該檢查結(jié)果中仍然有10%~40%具有不確定性[8-9]。而且,單純依靠細針穿刺細胞學(xué)檢查診斷甲狀腺微小乳頭狀癌也有較高的假陰性率[10]。有研究[11]報道,細針穿刺細胞學(xué)檢查聯(lián)合生物標(biāo)志物檢測可提高甲狀腺癌的診斷準(zhǔn)確率。因此,發(fā)現(xiàn)和探索新的生物標(biāo)志物或治療靶點可能有助于改善甲狀腺癌患者的診斷和治療效果。
本研究從癌癥RNA 測序關(guān)系(Cancer RNA-seq Nexus,CRN)數(shù)據(jù)庫下載甲狀腺癌的蛋白編碼基因RNA-seq 數(shù)據(jù)[12],總計564 例樣本,其中癌旁正常組織59 例,甲狀腺癌組織505 例,后者又再分為I 期283 例、II 期53 例、III 期112 例,IVA 期46 例、IVC 期6 例和MI 期5 例。
由于CRN 數(shù)據(jù)庫是從癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫下載的甲狀腺癌的蛋白編碼基因RNA-seq 數(shù)據(jù),并對這些數(shù)據(jù)進行了注釋、標(biāo)準(zhǔn)化及差異表達分析,將P<0.01 作為統(tǒng)計學(xué)差異指標(biāo)。因此,我們可以直接使用從CRN 數(shù)據(jù)庫中篩選出來的蛋白編碼基因進行后續(xù)研究。為了保證數(shù)據(jù)的可靠性,取甲狀腺癌各臨床分期中差異表達蛋白編碼基因的交集進行研究,通過omicshare(http://www.omicshare.com)云平臺繪制Venn 圖[13]。
DAVID(https://david.ncifcrf.gov)數(shù)據(jù)庫為研究人員提供了一套全面的功能注釋工具,以理解大量基因背后的生物學(xué)意義[14]。通過DAVID 數(shù)據(jù)庫對上述得到的差異表達蛋白編碼基因進行功能富集分析,分析內(nèi)容包括基因本體論(gene ontology,GO)的生物學(xué)過程(biological process,BP)、細胞成分 (cellular component, CC)、 分子功能(molecular function,MF)以及京都基因和基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG) 的信號通路。分析結(jié)果使用R 語言的ggplot2 包呈現(xiàn)出來,P<0.05 認為有統(tǒng)計學(xué)差異。
STRING(https://www.string-db.org/)是一個分析已知或預(yù)測蛋白質(zhì)之間相互作用的數(shù)據(jù)庫[15]。通過STRING 數(shù)據(jù)庫對上述篩選到的差異表達蛋白編碼基因之間的相互作用網(wǎng)絡(luò)進行預(yù)測和可視化,將有實驗證實且互作分?jǐn)?shù)>0.4 的蛋白編碼基因篩選出來,并在Cytoscape 軟件中重建互作網(wǎng)絡(luò)。使用Cytoscape 軟件中cytoHubba 插件篩選核心基因,使用ClueGO 插件對核心基因進行功能預(yù)測[16-18]。
UALCAN (http://ualcan.path.uab.edu) 數(shù)據(jù)庫為用戶提供了簡易獲取腫瘤OMICS 數(shù)據(jù)(包括TCGA、MET500 和CPTAC 數(shù)據(jù)資源)的途徑,允許用戶對感興趣的基因進行生物信息學(xué)驗證,并可以對基因的表達水平進行圖像展示[19]。本研究通過UALCAN 數(shù)據(jù)庫驗證核心基因在甲狀腺癌中的表達水平,P<0.05 認為有統(tǒng)計學(xué)意義。
GEPIA (http://gepia.cancer-pku.cn) 是一個新開發(fā)的用于分析TCGA 和GTEx 項目收錄的癌癥RNAseq 數(shù)據(jù)的網(wǎng)站,它可為用戶提供惡性腫瘤的差異表達分析、生存分析、相似基因檢測、相關(guān)性分析和降維分析[20]。本研究基于GEPIA 數(shù)據(jù)庫分析核心基因?qū)谞钕侔┗颊呱鏍顟B(tài)的影響,P<0.05 認為差異有統(tǒng)計學(xué)意義。
通過比較各臨床分期甲狀腺癌與癌旁正常組織中蛋白編碼基因的表達水平,得到各臨床分期中差異表達的蛋白編碼基因,再取各臨床分期中差異表達蛋白編碼基因的交集進行后續(xù)研究。最終,本研究共篩選得到913 個差異表達的蛋白編碼基因(圖1)。
圖1 甲狀腺癌各臨床分期中差異表達蛋白編碼基因的Venn圖(不同顏色花瓣中的數(shù)字代表各臨床分期中差異表達蛋白編碼基因的數(shù)目,圖片中央白色區(qū)域中的數(shù)字為各臨床分期中差異表達蛋白編碼基因的交集)Figure 1 Venn diagram of the differentially expressed protein-coding genes in thyroid cancer of different clinical stages(the number in petals with different colors representing the number of the differentially expressed protein-coding genes of different clinical stages,and the number in the central region in white color representing the overlap of the differentially expressed protein-coding genes of different clinical stages)
借助于DAVID 數(shù)據(jù)庫,本研究對上述得到的913 個差異表達的蛋白編碼基因進行功能富集分析,每個項目分析后的前10 個結(jié)果以氣泡圖的形式展現(xiàn)出來(圖2)。結(jié)果顯示,上述得到的差異表達蛋白編碼基因可能參與了調(diào)控小分子GTP 酶介導(dǎo)的信號轉(zhuǎn)導(dǎo)(GO-BP)、Z 膜(GO-CC)、結(jié)合肌動蛋白(GO-MF)和細胞色素P450 介導(dǎo)的藥物代謝(KEGG pathway)。
圖2 差異表達蛋白編碼基因的功能富集分析(左側(cè)的Y 軸顯示功能富集分析結(jié)果;下方的X 軸表示參與BP、CC、MF 和KEGG的基因所占的百分比;氣泡大小表示參與BP、CC、MF和KEGG的基因數(shù)目,氣泡越大表示參與的基因越多;氣泡顏色代表P 值的大小,顏色由紅至藍代表P 值越大)A-D:分別顯示了這些差異表達基因可能參與的前10 個BP、CC、MF和KEGG結(jié)果Figure 2 Enrichment analysis of the differentially expressed protein-coding genes(the left Y axis showing the results of enrichment analysis,the inferior X axis showing the percentages of genes involved in BP,CC,MF and KEGG,the bigger of the bubble,the larger number of genes involved;the color of the bubble standing for the level of the P-value,and the level increasing from the red color to blue color)A-D:The results of BP,CC,MF and KEGG of the top ten differentially expressed genes
通過Cytoscape 軟件重建差異表達蛋白編碼基因之間的互作網(wǎng)絡(luò), 使用Cytoscape 軟件中cytoHubba 插件計算每個節(jié)點的得分,將得分最高的前10 個基因定義為核心基因,分別為TP53、ESR1、 FOS、 SYP、 PPARG、 ACTB、 GRIA1、NRXN1、HDAC3 和KIT(圖3),其中TP53 得分最高,為62;使用ClueGO 插件對核心基因參與的生物學(xué)過程進行功能預(yù)測,P<0.05 認為差異有統(tǒng)計學(xué)意義,結(jié)果顯示核心基因TP53、ESR1、PPARG可能參與了基因沉默的負性調(diào)控,TP53、FOS 可能參與了RNA 聚合酶II 對pri-miRNA 的轉(zhuǎn)錄過程(圖4)。
圖3 差異表達蛋白編碼基因的相互作用網(wǎng)絡(luò)圖(圖中的節(jié)點代表每個差異表達的蛋白編碼基因,黃邊粉紅色節(jié)點代表核心基因)Figure 3 Interaction networks of the differentially expressed protein-coding genes(each node indicating a differentially expressed protein-coding gene,and the nodes in pink color with yellow border indicating the hub genes)
從CRN 數(shù)據(jù)庫中下載的數(shù)據(jù)顯示,與癌旁正常組織相比,10 個核心基因在甲狀腺癌組織中均呈低表達。本研究再通過UALCAN 數(shù)據(jù)庫驗證這10 個核心基因在甲狀腺癌組織中的表達水平,結(jié)果顯示除了TP53 在甲狀腺癌組織中呈高表達外,其余核心基因均在甲狀腺癌組織中表達下調(diào),差異有統(tǒng)計學(xué)意義(圖5),與從CRN 數(shù)據(jù)庫中下載的數(shù)據(jù)資料保持一致。
圖5 基于UALCAN數(shù)據(jù)庫驗證核心基因在甲狀腺癌組織與癌旁正常組織中的表達水平(藍色箱型圖代表癌旁正常組織,紅色箱型圖代表甲狀腺癌組織)Figure 5 Verification of the hub genes in thyroid tissue and normal adjacent tissue based on the UALCAN database(the blue box diagram representing the normal paracancer tissue and the red box diagram representing the thyroid cancer tissne)
基于GEPIA 數(shù)據(jù)庫中甲狀腺癌的生存數(shù)據(jù),本研究對這10 個核心基因進行了生存分析,以基因表達的均值作為截斷值分為高表達組和低表達組,分析這10 個核心基因?qū)谞钕侔┗颊邿o病生存期及總生存期的影響(部分基因因為樣本量太小無法進行生存分析),結(jié)果顯示與KIT 低表達組相比,KIT 高表達組患者的無病生存期明顯延長(P=0.012),但對總體生存期無影響(P=0.85),這可能與甲狀腺癌患者的整體預(yù)后較好有關(guān)(圖6)。
圖6 核心基因的生存曲線(紅色曲線代表高表達組,藍色曲線代表低表達組)Figure 6 survival curves of the hub genes(the red curve representing the high-expression group and the blue curve representing the low-expression group)
本研究基于公共數(shù)據(jù)庫通過生物信息學(xué)方法篩選出KIT 基因作為甲狀腺癌的核心基因,CRN 數(shù)據(jù)庫和UALCAN 數(shù)據(jù)庫證實了KIT 在甲狀腺癌組織中呈低表達,GEPIA 數(shù)據(jù)庫中甲狀腺癌的生存資料顯示KIT 的高表達與甲狀腺癌患者的無病生存期明顯相關(guān),推測KIT 基因可作為甲狀腺癌的預(yù)后風(fēng)險基因或治療靶點。
KIT,也稱為c-KIT,編碼酪氨酸激酶受體(CD117),后者是III 型酪氨酸激酶受體家族成員之一。KIT 可通過絲裂原活化蛋白激酶(MAPK)、磷脂酰肌醇3-激酶(PI3K),Janus 激酶(JAK)/信號轉(zhuǎn)導(dǎo)和轉(zhuǎn)錄活化因子(STAT),SRC 家族激酶(SFK)和磷脂酶Cγ 等多條下游信號通路參與細胞增殖、凋亡、化學(xué)趨向和黏附[21-22]。此外,KIT 是一種誘變有效的原癌基因,以干細胞因子(SCF)為配體,通過破壞細胞生長調(diào)控導(dǎo)致腫瘤的發(fā)生[23]。KIT 在人類腫瘤中的確切作用仍不明了,但目前從文獻來看,差異主要取決于腫瘤類型。如KIT 在小細胞肺癌、白血病、結(jié)腸癌和成神經(jīng)細胞瘤中高表達或突變[24-27];而在乳腺癌和黑色素瘤中表達缺失[28-29]。關(guān)于KIT 在甲狀腺癌中的研究較少。
Mazzanti 等[30]在2004年通過基因芯片技術(shù)在數(shù)千個基因中篩選出KIT 基因,發(fā)現(xiàn)與甲狀腺良性結(jié)節(jié)相比,KIT 在甲狀腺癌組織中是表達下調(diào)最明顯的蛋白編碼基因之一。近來,有研究進一步證實了KIT 在甲狀腺正常組織和甲狀腺癌組織中的表達,發(fā)現(xiàn)與甲狀腺正常組織相比,KIT 在甲狀腺癌中表達下調(diào)[31-32],與本研究結(jié)果相一致。Tomei 和Franceschi 等[11,33]根據(jù)研究結(jié)果推測KIT 與其配體的結(jié)合可以調(diào)控甲狀腺濾泡上皮的分化和生長,KIT表達的缺失可能會導(dǎo)致甲狀腺結(jié)節(jié)向惡性轉(zhuǎn)化,并認為KIT 可作為甲狀腺細針穿刺細胞學(xué)診斷的分子標(biāo)志物。更有一些研究報道了引起KIT 在甲狀腺癌中表達下調(diào)的作用機制,包括特異性microRNA(miR-146b、miR-221 和miR-222) 的表達失調(diào)、啟動子高甲基化以及l(fā)ncRNA 的競爭性內(nèi)源性學(xué)說[7,29,34]。目前,甲狀腺細針穿刺細胞學(xué)檢查仍然是術(shù)前評估甲狀腺結(jié)節(jié)良惡性的最可靠、經(jīng)濟、安全的檢查手段,有助于減少不必要的外科手術(shù)[35-37]。眾所周知,BRAF V600E 是甲狀腺乳頭狀癌中廣泛應(yīng)用的分子標(biāo)志物之一,檢測BRAF V600E 有無突變可使術(shù)前檢查準(zhǔn)確率提高20%~30%[38]。但依然有部分患者的診斷具有不確定性,原因可能是該部分患者中不存在BRAF V600E 突變,提示識別甲狀腺癌中其他的分子標(biāo)志物具有重要意義[11]。Tomei 等[11]研究發(fā)現(xiàn)在甲狀腺細針穿刺細胞學(xué)樣本中聯(lián)合檢測BRAF V600E 突變和KIT表達,可使診斷準(zhǔn)確率提高15%。Panebianco 等[35]研究報道了在甲狀腺細針穿刺細胞學(xué)樣本中聯(lián)合檢測4 種分子標(biāo)志物(KIT、TC1、miR-222、miR-146b)比單純檢測BRAF V600E 突變更有助于惡性結(jié)節(jié)的診斷,推薦用于臨床上無法診斷甲狀腺結(jié)節(jié)良/惡性的病例中。由此可見,KIT 不僅可作為甲狀腺癌的預(yù)后風(fēng)險基因,檢測其蛋白表達還有助于甲狀腺結(jié)節(jié)的術(shù)前診斷。
綜合本研究結(jié)果及文獻資料,KIT 基因可被用于甲狀腺癌診斷的分子標(biāo)志物、治療靶點及預(yù)后風(fēng)險評估。