国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林算法的宮頸癌淋巴結(jié)轉(zhuǎn)移相關(guān)基因的生物信息學篩選

2016-07-24 17:29范淑英李春曉王婷周春霞錢海利王海娟詹啟敏
中國生化藥物雜志 2016年4期
關(guān)鍵詞:排序宮頸癌測序

范淑英,李春曉,王婷,周春霞,錢海利,王海娟Δ,詹啟敏

(1.河北省唐山市開灤總醫(yī)院 婦產(chǎn)科,河北 唐山 063000;2.國家癌癥中心/中國醫(yī)學科學院北京協(xié)和醫(yī)學院腫瘤醫(yī)院 分子腫瘤學國家重點實驗室,北京 100021)

基于隨機森林算法的宮頸癌淋巴結(jié)轉(zhuǎn)移相關(guān)基因的生物信息學篩選

范淑英1,李春曉2,王婷2,周春霞2,錢海利2,王海娟2Δ,詹啟敏2

(1.河北省唐山市開灤總醫(yī)院 婦產(chǎn)科,河北 唐山 063000;2.國家癌癥中心/中國醫(yī)學科學院北京協(xié)和醫(yī)學院腫瘤醫(yī)院 分子腫瘤學國家重點實驗室,北京 100021)

目的 分析與淋巴結(jié)轉(zhuǎn)移最相關(guān)的基因集和基因集中的關(guān)鍵節(jié)點性基因,為宮頸癌淋巴結(jié)轉(zhuǎn)移預(yù)測潛在干預(yù)靶點。 方法 利用TCGA宮頸癌患者轉(zhuǎn)錄組數(shù)據(jù)集,使用隨機森林算法對淋巴結(jié)轉(zhuǎn)移最相關(guān)基因進行分析和排名,使用STRING和Cytospace對這些相關(guān)基因進行互作網(wǎng)絡(luò)分析,篩選對其他基因具有最廣泛相互作用的基因節(jié)點,使用DAVID對這些基因在整體上進行功能識別。 結(jié)果 獲得淋巴結(jié)轉(zhuǎn)移相關(guān)基因重要性排序(2784個),并獲得其中的關(guān)鍵節(jié)點基因(前13位分別為EGFR,NOTCH1,RHOA),這些基因均與淋巴結(jié)轉(zhuǎn)移顯著相關(guān)(P<0.05)。與淋巴結(jié)轉(zhuǎn)移最相關(guān)的基因主要聚集在趨化因子信號通路、MAPK通路、細胞間相互作用、黏著連接、細胞骨架調(diào)控、wnt通路等。對這些有意義的宮頸癌轉(zhuǎn)移相關(guān)基因集在統(tǒng)計學上進行了驗證,獲得的關(guān)鍵節(jié)點基因如EGFR,NOTCH1,RHOA在臨床水平均已發(fā)現(xiàn)與宮頸癌淋巴結(jié)轉(zhuǎn)移顯著相關(guān)。結(jié)論 隨機森林算法是一個有效的方法,采用此方法獲得的宮頸癌轉(zhuǎn)移相關(guān)的基因集有很大比例與淋巴結(jié)轉(zhuǎn)移顯著相關(guān)。

隨機森林算法;宮頸癌; 淋巴結(jié)轉(zhuǎn)移; 生物信息學

淋巴結(jié)轉(zhuǎn)移是宮頸癌的主要轉(zhuǎn)移途徑,淋巴結(jié)轉(zhuǎn)移與宮頸癌預(yù)后關(guān)聯(lián)密切,淋巴結(jié)轉(zhuǎn)移導致總宮頸癌患者生存率下降40%左右[1-3]。但目前對宮頸癌淋巴結(jié)轉(zhuǎn)移的分子機制仍不明確。以往的研究在樣本量和檢測統(tǒng)一性、檢測拓展性上大都有一定的不足,尤其是研究結(jié)果分散、難于統(tǒng)一和標準化、多集中于個別基因而非系統(tǒng)化的機制研究。TCGA(The Cancer Genome Atlas)是由美國政府發(fā)起的癌癥和腫瘤基因圖譜計劃,目前該數(shù)據(jù)庫具有針對來自 34 種癌癥的約1萬例樣本的基因組、轉(zhuǎn)錄組、表觀組測序及蛋白質(zhì)芯片檢測數(shù)據(jù),在保證生物學檢測的統(tǒng)一性基礎(chǔ)上兼具有完善的臨床資料,為采取大規(guī)模的數(shù)據(jù)分析提供了質(zhì)量可靠的數(shù)據(jù)來源和平臺。隨著近些年癌癥大數(shù)據(jù)的迅速擴充,模式識別和機器學習方法得到了越來越廣泛的關(guān)注,如人工神經(jīng)網(wǎng)絡(luò),線性判別等。其中,隨機森林算法(random forests algoritm)是一種數(shù)據(jù)組合分類和回歸算法,其特別適用于對基因數(shù)目數(shù)千甚至上萬的轉(zhuǎn)錄組數(shù)據(jù)進行重要基因變量的篩選,具有優(yōu)越的分類性能[4]。本研究旨在采用 TCGA 數(shù)據(jù)庫 CSEC(Cervical squamous cell carcinoma and endocervical adenocarcinoma)數(shù)據(jù)集的轉(zhuǎn)錄組測序數(shù)據(jù)集中304例宮頸癌樣本的完整臨床資料及轉(zhuǎn)錄組測序數(shù)據(jù),以隨機森林算法對該組數(shù)據(jù)進行淋巴結(jié)轉(zhuǎn)移相關(guān)基因的篩選,并利用STRING平臺和Cytospace軟件對篩選出的基因進行功能網(wǎng)絡(luò)分析,篩選得到的宮頸癌淋巴結(jié)轉(zhuǎn)移相關(guān)基因和這些基因中的重要節(jié)點將對后續(xù)宮頸癌淋巴結(jié)轉(zhuǎn)移機制研究以及相關(guān)的潛在分子干預(yù)藥物篩選提供理論指導。

1 資料與方法

1.1 一般資料 提取TCGA-CESC轉(zhuǎn)錄組和臨床資料數(shù)據(jù)集。TCGA宮頸癌數(shù)據(jù)集具有轉(zhuǎn)錄組測序樣本304例,其中有淋巴結(jié)轉(zhuǎn)移N分期結(jié)果的共有198例,N0為136例,N1為62例。

1.2 方法 隨機森林算法分析:利用隨機森林分類器對目前已知的轉(zhuǎn)移相關(guān)基因進行針對淋巴結(jié)轉(zhuǎn)移的分類重要性排序?;蚣癁間enecards平臺取得的目前已知的全部可能與轉(zhuǎn)移相關(guān)的基因(n=2784)。隨機森林決策樹個數(shù)ntree=500。分析過程通過R語言編程實現(xiàn)。

信號通路分析:利用DAVID平臺對隨機森林算法獲得的淋巴結(jié)轉(zhuǎn)移分類按重要性排序,取基因集的前200位基因進行KEGG pathway分析。

基因互作網(wǎng)絡(luò)分析:利用STRING 10平臺[5]對隨機森林算法獲得的淋巴結(jié)轉(zhuǎn)移分類按重要性排序,取基因集的前200位基因進行基因互作網(wǎng)絡(luò)構(gòu)建,利用Cytospace 3.3.0軟件[6]對該基因互作網(wǎng)絡(luò)進行拓撲學特性分析,篩選出連接度最高的基因。

流程圖如下:

圖1 研究流程圖Fig.1 Research flow

1.3 統(tǒng)計學方法 利用SPSS 19.0統(tǒng)計軟件,樣本差異分析采用Kruskal Wallis 檢驗,以P<0.05為差異有統(tǒng)計學意義。

2 結(jié)果

2.1 宮頸癌淋巴結(jié)轉(zhuǎn)移相關(guān)基因的篩選 將采用隨機森林算法分析獲得的2784個可能和轉(zhuǎn)移相關(guān)的基因按其在淋巴結(jié)轉(zhuǎn)移分級中的重要性排序。對該排序中的前10位基因以N分期為分組變量進行差異分析,結(jié)果顯示前10位基因中有8個在N分期中轉(zhuǎn)錄水平存在顯著差異表達。見表1。

表1 隨機森林算法分析淋巴結(jié)轉(zhuǎn)移相關(guān)基因前十位

2.2 宮頸癌淋巴結(jié)轉(zhuǎn)移相關(guān)基因的功能 將隨機森林算法分析排序的前200位基因進行信號通路聚類分析,結(jié)果顯示這些基因聚集在趨化因子信號通路、MAPK通路、細胞間相互作用、黏著連接、細胞骨架調(diào)控、wnt通路等。聚類的前10位信號通路見圖2。

圖2 KEGG信號通路聚類結(jié)果前10組Fig.2 Top 10 of KEGG pathway signal clusters

2.3 宮頸癌淋巴結(jié)轉(zhuǎn)移相關(guān)的關(guān)鍵功能基因篩選及鑒定 將隨機森林算法分析排序的前200位基因進行相互作用網(wǎng)絡(luò)構(gòu)建。利用Cytospace對該互作網(wǎng)絡(luò)進行分析的結(jié)果顯示,具有最高連接度的前3位基因分別是:EGFR(46)、NOTCH1(33)、RHOA(30),括號內(nèi)為連接度值(連接度值的高低直接反映出該基因在基因相互作用中的影響范圍廣泛程度)。連接度值高的基因為基因相互作用網(wǎng)絡(luò)中的關(guān)鍵節(jié)點,見圖3。對EGFR、NOTCH1、RHOA 3個基因進行針對淋巴結(jié)轉(zhuǎn)移分級的差異分析,結(jié)果顯示,這3個基因均在淋巴結(jié)轉(zhuǎn)移分級中呈現(xiàn)顯著差異表達,其中EGFR、NOTCH1與淋巴結(jié)轉(zhuǎn)移分級正相關(guān)(P=0.027;P=0.001),RHOA與淋巴結(jié)轉(zhuǎn)移分級負相關(guān)(P=0.01),見圖4。與之前生物信息學分析結(jié)果一致。

圖3 Cytospace基因互作網(wǎng)絡(luò)圖黃色標記為具有最高連接度的前3位基因Fig.3 Interactive regulatory gene network in CytospaceThe three genes in yellow have highest connectivity value

圖4 EGFR/NOTCH1/RHOA 3個基因在淋巴結(jié)轉(zhuǎn)移分期中的差異表達情況Fig.4 Differential expression of EGFR/NOTCH1/RHOA three genes in lymph node metastasis

3 討論

尋找可靠的腫瘤轉(zhuǎn)移標志物是腫瘤診治、治療、預(yù)后判斷以及藥物研發(fā)中的一個重要方向。在同時具有臨床轉(zhuǎn)移分期資料和腫瘤全轉(zhuǎn)錄組測序數(shù)據(jù)的較大規(guī)模樣本量的公信數(shù)據(jù)集中可能存在少數(shù)具有確切腫瘤轉(zhuǎn)移標志能力的基因。本文選用的TCGA即是這樣一個具有公信力的權(quán)威數(shù)據(jù)集,具有目前最龐大的宮頸癌多水平測序數(shù)據(jù)及臨床資料,體系平行統(tǒng)一,這就使從這一數(shù)據(jù)集分析獲得的結(jié)果具有相當?shù)目煽啃浴1敬畏治霾捎玫碾S機森林算法具有以下優(yōu)點:可處理多種類型的資料、可以處理大量變量、評估變量的重要性、分類準確度高、過程快速等。采用該方法發(fā)現(xiàn)排在前10位的基因在淋巴結(jié)轉(zhuǎn)移分級中有8個具有非常顯著的差異表達。隨后對排序的前200位基因進行相互作用網(wǎng)絡(luò)構(gòu)建,獲得了具有最高連接度的前3位基因:EGFR、NOTCH1、RHOA。

淋巴結(jié)轉(zhuǎn)移相關(guān)基因重要性排序得到的基因和經(jīng)過基因互作網(wǎng)絡(luò)分析得到的基因在后續(xù)的實驗驗證中將是具有互補作用的。經(jīng)過互作網(wǎng)絡(luò)分析篩選出的關(guān)鍵功能基因具有相當廣泛的相互作用網(wǎng)絡(luò),在細胞的生物學進程中具有關(guān)鍵節(jié)點的作用,其可以作為細胞各類表型驗證的實驗前導向和實驗驗證指標。在本分析中,經(jīng)過基因互作網(wǎng)絡(luò)分析得到的EGFR、NOTCH1、RHOA在宮頸癌轉(zhuǎn)移中的功能已有報道。EGFR已在多種腫瘤組織中證實其表達與腫瘤惡化、浸潤轉(zhuǎn)移等過程相關(guān)。有研究顯示EGFR在宮頸癌組織中高表達與淋巴結(jié)轉(zhuǎn)移顯著相關(guān)[7],此外也有研究表明EGFR高表達聯(lián)合Beclin1低表達與淋巴結(jié)轉(zhuǎn)移顯著相關(guān)[8]。Notch1現(xiàn)已被證明在調(diào)控腫瘤生長、侵襲轉(zhuǎn)移、血管生成等方面具有重要作用[9-11]。有研究表明Notch1過表達與宮頸癌淋巴結(jié)轉(zhuǎn)移顯著相關(guān)[12]。RHOA目前已被大量研究證明與細胞增殖、粘附、凋亡、侵襲轉(zhuǎn)移和細胞極性等表型有關(guān)[13-15]。有報道表明在某些類型的腫瘤中RHOA過表達與轉(zhuǎn)移相關(guān)[16-21],與本次分析RHOA在淋巴結(jié)轉(zhuǎn)移組織中低表達相悖,一方面這可能與RHOA作為GTPase,其活性主要與酶激活有關(guān),另一方面在宮頸癌中還沒有針對RHOA表達量與轉(zhuǎn)移關(guān)系的確切文獻報道,需要進一步通過具體實驗證實。

本文采用隨機森林算法,根據(jù)淋巴結(jié)轉(zhuǎn)移相關(guān)重要性排序得到的排在前面的基因相對于關(guān)鍵功能基因并不都具有廣泛的細胞內(nèi)互作網(wǎng)絡(luò),但這些基因卻具有與淋巴結(jié)轉(zhuǎn)移更敏感的指示屬性,其可以作為產(chǎn)生各類細胞表型的具體機制的驗證靶點。在本次分析得到的前10位基因中,少部分已經(jīng)有比較明確的與腫瘤進展有關(guān)的作用,如NOL3(Nucleolar Protein 3)與抗凋亡和血管重構(gòu)有關(guān),RBBP7參與多種組蛋白去乙酰化復(fù)合體和染色質(zhì)裝配復(fù)合體,目前已證明與細胞增殖和分化有關(guān),CD44作為一個細胞表面標志物已經(jīng)被廣泛用于腫瘤干細胞篩選,其與腫瘤的多項生物學過程如細胞間相互作用、細胞粘附、轉(zhuǎn)移等表型的調(diào)控有關(guān)等,其他多數(shù)基因在腫瘤發(fā)生進展中的功能目前尚不明確,這為今后研究指出了方向。在腫瘤表型形成過程中,需要大量基因形成工作網(wǎng)絡(luò)完成表型調(diào)控,將這些基因與關(guān)鍵節(jié)點基因互補使用將大大提高生物學實驗驗證的效率,這也正是本研究的意義所在。

綜上所述,本分析篩選出的“明星基因”,目前已經(jīng)確認有些與宮頸癌淋巴結(jié)轉(zhuǎn)移有關(guān),這些指標將作為后續(xù)實驗表型驗證的基本指標。本分析所篩選出的宮頸癌淋巴結(jié)轉(zhuǎn)移相關(guān)基因目前多未見與宮頸癌淋巴結(jié)轉(zhuǎn)移相關(guān)報道,這將是后續(xù)實驗分析的靶點。同時,本類研究還需要不斷追蹤大數(shù)據(jù)庫樣本和綜合利用前沿分析方法以提高分析可靠性和準確性。

[1] Alvarez RD,Potter ME,Soong SJ,et al.Rationale for using pathologic tumor dimensions and nodal status to subclassify surgically treated stage IB cervical cancer patients[J].Gynecol Oncol,1991,43(2):108-112.

[2] Averette HE,Nguyen HN,Donato DM,et al.Radical hysterectomy for invasive cervical cancer.A 25-year prospective experience with the Miami technique[J].Cancer,1993,71(4 Suppl):1422-1437.

[3] Delgado G,Bundy B,Zaino R,et al.Prospective surgical-pathological study of disease-free interval in patients with stage IB squamous cell carcinoma of the cervix:a Gynecologic Oncology Group study[J].Gynecol Oncol,1990,38(3):352-357.

[4] Breiman L.Random forests[J].Machine Learning,2001,4(50):5-32.

[5] Szklarczyk D,Franceschini A,Wyder S,et al.STRING v10:protein-protein interaction networks,integrated over the tree of life[J].Nucleic Acids Res,2015,(Database issue):D447-452.

[6] Shannon P,Markiel A,Ozier O,et al.Cytoscape:a software environment for integrated models of biomolecular interaction networks[J].Genome Res,2003,13(11):2498-2504.

[7] Bumrungthai S,Munjal K,Nandekar S,et al.Epidermal growth factor receptor pathway mutation and expression profiles in cervical squamous cell carcinoma:therapeutic implications[J].J Transl Med, 2015,25(13):244.

[8] Hu YF,Lei X,Zhang HY,et al.Expressions and clinical significance of autophagy-related markers Beclin1,LC3,and EGFR in human cervical squamous cell carcinoma[J].Onco Targets Ther, 2015(8):2243-2249.

[9] Palomero T,Lim WK,Odom DT,et al. NOTCH1 directly regulates cMYC and activates a feedforwardloop transcriptional network promoting leukemic cell growth[J].Proc Natl Acad Sci USA, 2006,103(48):18261-18266.

[10] Kunnumakkara AB,Anand P,Aggarwal BB.Curcumin inhibits proliferation,invasion,angiogenesis and metastasis of different cancers through interaction with multiple cell signaling proteins[J].Cancer Lett,2008,269(2):199-225.

[11] Liu C,Li Z,Bi L,et al.NOTCH1 signaling promotes chemoresistance via regulating ABCC1 expression in prostate cancer stem cells[J].Mol Cell Biochem, 2014,393(1-2):265-270.

[12] Yousif NG,Sadiq AM,Yousif MG,et al.Notch1 ligand signaling pathway activated in cervical cancer:poor prognosis with high-level JAG1/Notch1[J].Arch Gynecol Obstet,2015,292(4):899-904.

[13] Tas PW,Gambaryan S,Roewer N.Volatile anesthetics affect the morphology of rat glioma C6 cells via RhoA,ERK,and Akt activation[J].J Cell Biochem,2007,102(2):368-376.

[14] Struckhoff AP,Rana MK,Worthylake RA.RhoA can lead the way in tumor cell invasion and metastasis[J].Front Biosci (Landmark Ed), 2011(16):1915-1926.

[15] Liu M,Lang N,Chen X,et al.MiR-185 targets RhoA and Cdc42 expression and inhibits the proliferation potential of human colorectal cells[J].Cancer Lett,2011,301(2):151-160.

[16] Fritz G,Just I,Kaina B.Rho GTPases are over-expressed in human tumors[J].Int J Cancer,1999,81(5):682-687.

[17] Fritz G,Brachetti C,Bahlmann F,et al.Rho GTPases in human breast tumours:expression and mutation analyses and correlation with clinical parameters[J].Br J Cancer,2002,87(6):635-644.

[18] Pan Y,Bi F,Liu N,et al.Expression of seven main Rho family members in gastric carcinoma[J].Biochem Biophys Res Commun,2004,315(3):686-691.

[19] Abraham MT,Kuriakose MA,Sacks PG,et al.Motility-related proteins as markers for head and neck squamous cell cancer[J].Laryngoscope,2001,111(7):1285-1289.

[20] Kamai T,Tsujii T,Arai K,et al.Significant association of Rho/ROCK pathway with invasion and metastasis of bladder cancer[J].Clin Cancer Res,2003,9(7):2632-2641.

[21] Kamai T,Yamanishi T,Shirataki H,et al.Overexpression of RhoA,Rac1,and Cdc42 GTPases is associated with progression in testicular cancer[J].Clin Cancer Res,2004,10(14):4799-4805.

(編校:吳茜)

Random Forests algoritm-based bioinformatic screening of functional genes involved in lymph metastasis of cervical cancer

FAN Shu-ying1, LI Chun-xiao2, WANG Ting2, ZHOU Chun-xia2,QIAN Hai-li2, WANG Hai-juan2Δ, ZHAN Qi-min2

(1. Department of Gynecology and Obstetrics, Kailuan General Hospital, Tangshan 063000, China;2. National Cancer Center/State Key Laboratory of Molecular Oncology, Cancer Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100021, China)

ObjectiveTo screen the genes most relevant to lymph node metastasis of cervical cancer and identify the genes at the key knots of the regulatory network to provide the potential targets for cervical cancer intervention. MethodsThe transcriptional profiling database of TCGA was used,and random forests algorithm was adopted to rank the genes related to lymph node metastasis extracted from GeneCards database. STRING and Cytospace tolls were used to build the interactive regulatory network and identify the most weighted genes localized in the central of the network. DAVID platform was used to perform a functional annotation for the whole geneset. ResultsWe ranked 2784 genes in respect to their potential contributions to lymph node metastasis of cervical cancer and identified the genes at the key knob. The genes related to cancer metastasis were enriched to cytokines pathway, MAPK pathway,wntpathway, intercellular interaction, adhesive conjunction, cellular skeleton regulation, etc. Some of the identified key genes, like EGFR, NOTCH1, RHOA, etc. have been verified to be closely related cervical cancer metastasis in the basic and clinical research. ConclusionRandom forests algorithm is useful, taking advantages of TCGA database, in enriching the genes playing significant role in cervical cancer metastasis. A majority of the genes in the analyzed geneset were indicated to be significantly correlated with lymph node metastasis.

random forests algoritm; cervical cancer; lymph node metastasis; bioinformatics

科技部“973”項目(2015CB553904);國家自然科學基金 (81372159;81372158)

范淑英,女,本科,副主任醫(yī)師,研究方向:婦科腫瘤,E-mail:jingtuxingzhe@126.com;王海娟,通信作者,女,博士,副研究員,研究方向:腫瘤生物治療基礎(chǔ)研究,E-mail:hlj-whj@163.com。

R737.33

A

10.3969/j.issn.1005-1678.2016.04.02

猜你喜歡
排序宮頸癌測序
硫利達嗪抗宮頸癌的潛在作用機制
中老年女性的宮頸癌預(yù)防
作者簡介
宮頸癌護理及心理護理在宮頸癌治療中的作用及應(yīng)用
預(yù)防宮頸癌,篩查怎么做
外顯子組測序助力產(chǎn)前診斷胎兒骨骼發(fā)育不良
恐怖排序
中草藥DNA條形碼高通量基因測序一體機驗收會在京召開
基因測序技術(shù)研究進展
節(jié)日排序
通化市| 新闻| 拉孜县| 紫阳县| 阿巴嘎旗| 凤冈县| 建阳市| 弥渡县| 安福县| 呈贡县| 锡林浩特市| 贺兰县| 新津县| 永年县| 尉氏县| 搜索| 城市| 绿春县| 洛浦县| 宜兰县| 渭源县| 瑞丽市| 顺昌县| 桃园县| 宣汉县| 民县| 萝北县| 元氏县| 星子县| 闸北区| 万州区| 河曲县| 武胜县| 石家庄市| 长乐市| 诏安县| 吉安县| 即墨市| 常熟市| 寿阳县| 甘德县|