陳立材 成 雨
1 濱州醫(yī)學(xué)院第二臨床醫(yī)學(xué)院 山東 煙臺(tái) 264003;2 濱州醫(yī)學(xué)院煙臺(tái)附屬醫(yī)院 山東 煙臺(tái) 264100
胰腺癌是一種進(jìn)展迅速,惡性程度極高的消化道腫瘤,早期診斷困難,5年生存率極低,其中90%以上為胰腺導(dǎo)管腺癌(pancreatic ductal adrenocarcinoma,PDAC)[1-2]。隨著近年來(lái)PDAC的發(fā)病率的上升,研究其發(fā)生發(fā)展的機(jī)制,尋找潛在治療靶點(diǎn),開(kāi)發(fā)新型的治療手段顯得尤為重要;而針對(duì)全基因組的芯片及測(cè)序技術(shù)的成熟為探索腫瘤標(biāo)志物提供了技術(shù)支持與數(shù)據(jù)支撐。本研究基于腫瘤基因組圖譜(the cancer genome atlas,TCGA)數(shù)據(jù)庫(kù),采用加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(weighted gene co-expression network analysis,WGCNA)法[3],探索胰腺癌特異表達(dá)的關(guān)鍵基因及表達(dá)網(wǎng)絡(luò),為進(jìn)一步發(fā)現(xiàn)胰腺癌的生物標(biāo)志物,確立新的診斷及治療靶點(diǎn)提供思路。
1.1 數(shù)據(jù)的獲取與差異表達(dá)基因的確定 在TCGA數(shù)據(jù)庫(kù)(https://portal.gdc.cancer.gov/)下載并處理胰腺癌數(shù)據(jù)庫(kù)的mRNA表達(dá)RNA seq數(shù)據(jù),同時(shí)下載臨床資料數(shù)據(jù)(Clinical)。本研究從TCGA數(shù)據(jù)庫(kù)中下載了182例轉(zhuǎn)錄組數(shù)據(jù),其中178例胰腺癌患者,4例健康對(duì)照組。對(duì)TCGA數(shù)據(jù)庫(kù)的基因矩陣信息進(jìn)行了預(yù)處理,并轉(zhuǎn)化為基因名。在R語(yǔ)言環(huán)境下運(yùn)行l(wèi)imma包,將logFC>1,矯正后的P<0.05確定為差異表達(dá)的基因(differently expressed genes,DEGs),進(jìn)行后續(xù)的共表達(dá)網(wǎng)絡(luò)的構(gòu)建。
1.2 WGCNA構(gòu)建基因模塊流程 基于DEGs,用R語(yǔ)言的WGCNA法構(gòu)建胰腺癌權(quán)重共表達(dá)網(wǎng)絡(luò)[3]。首先根據(jù)R2>0.9,根據(jù)真實(shí)生物網(wǎng)絡(luò)狀態(tài)的無(wú)尺度網(wǎng)絡(luò)確定加權(quán)系數(shù)β(軟閾值),在確定鄰接函數(shù)參數(shù)β后,構(gòu)建不同分支和顏色表達(dá)的不同基因模塊的分層聚類樹(shù)最后,根據(jù)基因間Pearson相關(guān)系數(shù)將相關(guān)矩陣轉(zhuǎn)換為鄰接矩陣,進(jìn)一步轉(zhuǎn)化為拓?fù)渲丿B矩陣(topological overlap matrix,TOM)。在下一步分析中,基因表達(dá)模塊被歸類為不同的模塊(Module)
1.3 模塊與臨床特征關(guān)聯(lián)分析 將模塊相關(guān)的網(wǎng)絡(luò)矩陣(module eigengene,ME)與臨床性狀的Pearson相關(guān)系數(shù)進(jìn)行計(jì)算。P<0.05確定為顯著差異。定義顯著性P值的以10為底的對(duì)數(shù)為基因顯著性(gene significance,GS),再將每一個(gè)模塊顯著(module significance,MS)定義為模塊中所包含基因的GS的平均值。通過(guò)分析MS與GS,取相關(guān)系數(shù)最高的模塊用于后續(xù)分析。
1.4 蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò)分析及核心基因的確定 通過(guò)在線分析網(wǎng)站 STRING[4](http://www.string-db.org/)得到DEGs 的蛋白質(zhì)相互作用網(wǎng)絡(luò),以 TSV格式導(dǎo)出,所得源文件導(dǎo)入到Cytoscape[5](http://www.cytoscape.org/, version 3.2.0)軟件中,使用Cytoscape將基因信息進(jìn)行可視構(gòu)建,并生成相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu)圖,之后用插件cytoHubba 進(jìn)行核心基因分析, 同時(shí)采用 MCC 算法, 選取排名前10位的基因?yàn)楹诵幕颉?/p>
2.1 胰腺癌組織和正常組織的DEGs 通過(guò)對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化及預(yù)處理,共有14 869個(gè)基因,通過(guò)設(shè)定的閾值(logFC>1,P<0.05,F(xiàn)C: Fold Change)篩選之后,得到106個(gè)差異表達(dá)的基因,其中表達(dá)上調(diào)的基因70個(gè),表達(dá)下調(diào)的基因36個(gè),見(jiàn)圖1。
A.熱圖;B.火山圖。
2.2 WGCNA分析
2.2.1 網(wǎng)絡(luò)構(gòu)建及模塊識(shí)別 為了盡量滿足無(wú)尺度網(wǎng)絡(luò)分布前提條件,需要探索鄰接矩陣權(quán)重參數(shù)β取值。通過(guò)設(shè)置網(wǎng)絡(luò)構(gòu)建參數(shù)選擇范圍,計(jì)算無(wú)尺度分布拓?fù)渚仃嚒S?jì)算相應(yīng)的模型選擇統(tǒng)計(jì)量繪制圖形,見(jiàn)圖2,圖中的橫軸代表權(quán)重參數(shù)power,縱軸代表對(duì)應(yīng)的網(wǎng)絡(luò)中l(wèi)og(k)與log(p(k))相關(guān)系數(shù)的平方。相關(guān)系數(shù)的平方取值越高說(shuō)明該網(wǎng)絡(luò)越逼近無(wú)網(wǎng)絡(luò)尺度的分布。最上面的樹(shù)形圖表示基于TOM的系統(tǒng)聚類,Dynamic tree cut表示網(wǎng)絡(luò)模塊前后合并模塊。本研究選取相關(guān)系數(shù)平方值首次達(dá)到0.9時(shí)的power的取值。根據(jù)TOM進(jìn)行層次聚類得到基因的系統(tǒng)聚類樹(shù)。
A.鄰接矩陣權(quán)重參數(shù)power選擇圖,紅色線表示相關(guān)系數(shù)的平方值達(dá)到0.9的標(biāo)準(zhǔn)線;B.基于TOM的基因系統(tǒng)聚類樹(shù)的識(shí)別結(jié)果,圖中不同的顏色代表不同多基因模塊。
2.2.2 關(guān)鍵模塊的確定 對(duì)各個(gè)模塊和樣本臨床信息進(jìn)行關(guān)聯(lián)分析,從模塊和性狀熱圖中可以發(fā)現(xiàn)紫色(MEpurple)模塊與胰腺癌相關(guān)程度最高,見(jiàn)圖3A。計(jì)算紫色模塊中基因GS和MM相關(guān)系數(shù)(cor=0.58)進(jìn)一步驗(yàn)證此結(jié)果的可信度,見(jiàn)圖3B。
A.熱圖;B.關(guān)鍵模塊。
2.3 PPI蛋白網(wǎng)絡(luò)分析及核心基因確定 通過(guò)在線分析網(wǎng)站 STRING,對(duì)關(guān)鍵模塊中DEGs進(jìn)行分析,得到PPI蛋白網(wǎng)絡(luò)相互作用圖,見(jiàn)圖4,進(jìn)一步使用Cytoscape將基因信息進(jìn)行可視化及網(wǎng)絡(luò)構(gòu)建,并用插件cytoHubba 進(jìn)行核心基因分析, 確定排名前10位的基因?yàn)楹诵幕?,分別為PKP3,EPCAM,RAB25,CBLC,AP1M2,PRP15L,B3GNT3,ESRP1,AGR2,ARHGEF16,見(jiàn)圖5。
圖4 PPI蛋白網(wǎng)絡(luò)構(gòu)建
圖5 Top10核心基因確定
隨著發(fā)病率的不斷增加,胰腺癌逐漸成為世界范圍內(nèi)最致命的惡性腫瘤之一[6-7]。雖然胰腺癌在治療方面取得了一定的進(jìn)展,但是由于其缺乏典型的臨床表現(xiàn)及特異性的腫瘤標(biāo)志物,并常伴有血管神經(jīng)浸潤(rùn)及早期遠(yuǎn)處轉(zhuǎn)移,其預(yù)后往往不佳[8]。目前探索胰腺癌發(fā)生發(fā)展機(jī)制,構(gòu)建關(guān)鍵基因表達(dá)網(wǎng)絡(luò)從而發(fā)現(xiàn)其早期生物標(biāo)志物已成為研究熱點(diǎn)。近年來(lái),基因芯片及測(cè)序技術(shù)的進(jìn)步,為腫瘤疾病的深入研究提供了可能性?;谶@些技術(shù),癌癥基因組研究項(xiàng)目將人類全部癌癥的基因組變異圖譜進(jìn)行繪制,收錄于TCGA數(shù)據(jù)庫(kù)。目前,TCGA數(shù)據(jù)庫(kù)已收錄30多種癌癥數(shù)據(jù)及臨床信息,總計(jì)超過(guò)一萬(wàn)例患者的基因組序列,供科研人員免費(fèi)下載使用[9]。本研究基于TCGA數(shù)據(jù)庫(kù),共下載了182例患者的轉(zhuǎn)錄組基因信息,其中包括178例胰腺癌患者,4例對(duì)照組。經(jīng)過(guò)數(shù)據(jù)的預(yù)處理,共發(fā)現(xiàn)106個(gè)差異表達(dá)的基因,其中表達(dá)上調(diào)的基因70個(gè),下調(diào)的基因36個(gè)。
WGCNA算法是一種構(gòu)建基因共表達(dá)網(wǎng)絡(luò)的經(jīng)典算法。WGCNA基于高通量mRNA表達(dá)芯片數(shù)據(jù),假定基因網(wǎng)絡(luò)服從無(wú)尺度網(wǎng)絡(luò),通過(guò)定義共表達(dá)矩陣和鄰接函數(shù),并將其轉(zhuǎn)換為拓?fù)渚仃嚕瑥亩R(shí)別與疾病關(guān)聯(lián)的基因集合模塊,從生物功能整體考慮基因功能及其聯(lián)系,彌補(bǔ)了傳統(tǒng)方法的缺陷。通過(guò)將臨床信息與模塊相關(guān)聯(lián),還可進(jìn)一步獲得與臨床特征相關(guān)的基因,有助于基于疾病模型的臨床特征構(gòu)建相關(guān)基因的表達(dá)網(wǎng)絡(luò)[3, 10]。目前有很多研究運(yùn)用了WGCNA算法對(duì)腫瘤疾病的基因表達(dá)譜進(jìn)行分析,并取得了有意義的進(jìn)展[10-13]。本研究中,運(yùn)用WGCNA算法,我們發(fā)現(xiàn)可以發(fā)現(xiàn)紫色(MEpurple)模塊與胰腺癌相關(guān)程度最高(cor=0.58)。通過(guò)PPI網(wǎng)絡(luò)分析,并將結(jié)果導(dǎo)入Cytoscape軟件中進(jìn)行基因可視化,確定排名前10位的核心基因?yàn)榇_定排名靠前10的基因?yàn)楹诵幕颍謩e為PKP3,EPCAM,RAB25,CBLC,AP1M2,PRP15L,B3GNT3,ESRP1,AGR2,ARHGEF16。這10個(gè)基因可能是胰腺癌的發(fā)生發(fā)展的關(guān)鍵基因。
PKP3是橋粒斑菲素蛋白家族中的一員[14],一般位于所有含有橋粒的復(fù)層上皮以及單層上皮組織,可以與FXR1、PABPC1等RNA結(jié)合蛋白緊密結(jié)合,并且在細(xì)胞受到氧化應(yīng)激等外源性刺激時(shí)出現(xiàn)應(yīng)激顆粒,提示PKP3與RNA代謝、基因轉(zhuǎn)錄后調(diào)節(jié)密切相關(guān),并且參與腫瘤的調(diào)控[15-16]。EPCAM是一種跨膜糖蛋白, 參與多種細(xì)胞活動(dòng)包括增殖、遷移、分化等。另外,EPCAM也可介導(dǎo)細(xì)胞粘附,參與細(xì)胞內(nèi)信號(hào)轉(zhuǎn)到等。其表達(dá)與腫瘤的惡性程度相關(guān)[17-18]。在本研究中,PKP3和EPCAM是與胰腺癌相關(guān)度最高的基因,可能是影響胰腺癌生存和預(yù)后的關(guān)鍵基因,也可能作為胰腺癌診斷和治療的潛在靶點(diǎn),需要?jiǎng)游锛芭R床試驗(yàn)進(jìn)行進(jìn)一步的驗(yàn)證。