国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生物學(xué)通路的癌癥分類研究

2019-03-11 07:29:31張巧生李杰
關(guān)鍵詞:癌癥分類

張巧生 李杰

摘要:盡管基因標(biāo)志物已廣泛成功應(yīng)用,但是仍存在很多問題。其一是在疾病的發(fā)展和治療反應(yīng)中識(shí)別出的很多基因標(biāo)志物缺乏合理的生物學(xué)功能解釋,其二是針對(duì)癌癥這種異質(zhì)性疾病,基因標(biāo)志物的可重復(fù)性是一大挑戰(zhàn)?;诖?,本文提出了一個(gè)以生物學(xué)通路為特征的分類方法。實(shí)驗(yàn)結(jié)果表明該方法在分類性能上優(yōu)于基于以基因?yàn)樘卣鞯姆诸愃惴ā?/p>

關(guān)鍵詞:生物學(xué)通路;分類;癌癥

0引言

隨著用于全基因組表達(dá)譜分析的高通量技術(shù)的出現(xiàn),研究人員提出了許多方法來發(fā)現(xiàn)癌癥相關(guān)驅(qū)動(dòng)基因作為指導(dǎo)癌癥診斷和預(yù)后的生物標(biāo)志物。然而,對(duì)于癌癥這種高度異質(zhì)性疾病,這些基因特征往往是不具有可重復(fù)性的。此外,諸如噪聲、測(cè)量誤差和大量的基因假說等等因素也會(huì)阻礙實(shí)驗(yàn)結(jié)果的可重復(fù)性。同時(shí),發(fā)現(xiàn)的這些癌癥相關(guān)驅(qū)動(dòng)基因列表與疾病進(jìn)展或治療反應(yīng)相關(guān)的生物學(xué)過程往往很難建立聯(lián)系,生物學(xué)意義不清晰。隨著研究的深入,人們?cè)絹碓秸J(rèn)識(shí)到基于通路的分析可以克服上述缺陷。通過將基因水平數(shù)據(jù)折疊成緊湊、功能性的通路水平數(shù)據(jù),不但可以壓縮特征,還可以減少過擬合,提高概括性,同時(shí)保持生物可解釋性。

1算法描述

本文提出了一種基于生物學(xué)通路的癌癥分類方法。首先通過Pathifier算法把基因水平數(shù)據(jù)轉(zhuǎn)換成通路水平數(shù)據(jù),然后基于相關(guān)特征選擇(correlation feature selection.CFS)進(jìn)行特征選擇,最后基于選擇后的特征使用SVM分類模型在測(cè)試集上進(jìn)行分類效果評(píng)價(jià)。為了驗(yàn)證本文方法的有效性,文中方法與基于基因生物學(xué)標(biāo)記的癌癥分類方法進(jìn)行了比較分析。

1.1Pathifier算法

Pathifier算法通過單個(gè)癌癥樣本下通路對(duì)所有控制樣本下通路中值的偏離程度來計(jì)算單個(gè)癌癥樣本下的通路分?jǐn)?shù)。下面詳細(xì)描述Pathifier算法原理。

假設(shè)給定通路基因列表K(|K|≥3)?;虮磉_(dá)數(shù)據(jù)根據(jù)通路基因列表構(gòu)建|K|維空間,每個(gè)基因代表一個(gè)維度,空間中的每個(gè)點(diǎn)代表一個(gè)樣本。所有的樣本點(diǎn)構(gòu)成|K|維空間中的點(diǎn)云,設(shè)樣本點(diǎn)個(gè)數(shù)為n。然后根據(jù)Hastie and Stuetzle算法在點(diǎn)云中尋找主曲線f(λ),其中λ為主曲線的點(diǎn),如圖1A所示,不同顏色的點(diǎn)代表不同表型下的樣本。假設(shè)x為空間中的點(diǎn),其對(duì)應(yīng)的λ由公式(1)求得。

找到主曲線f(λ)后,樣本X投影到曲線,f(λ)上最近的點(diǎn)就代表該樣本在主曲線上位置,如圖1B所示。由部分正常(Normal)樣本形成的質(zhì)心為主曲線的起始點(diǎn),如圖1A所示。則每個(gè)樣本下的通路分?jǐn)?shù)就等于該樣本在主曲線上的位置沿曲線到起始點(diǎn)的距離,

基于Pathifier算法,基因水平數(shù)據(jù)就可以轉(zhuǎn)換成通路水平數(shù)據(jù)。

1.2特征選擇

通過把基因表達(dá)值轉(zhuǎn)換為通路水平得分,基因表達(dá)矩陣轉(zhuǎn)化為通路得分矩陣。為了優(yōu)化預(yù)測(cè)模型,本文采用一種基于關(guān)聯(lián)的特征選擇(Correlationbased Feature Selection.CFS)方法。CFS是一種過濾型(Filter)特征選擇算法,其啟發(fā)式的篩選與表型高度相關(guān)且彼此不相關(guān)的特征子集作為預(yù)測(cè)特征。不相關(guān)的特征被忽略,因?yàn)槠渑c表型具有很低的相關(guān)性。冗余特征應(yīng)被剔除,因?yàn)槠渑c一個(gè)或多個(gè)剩余特征高度相關(guān)。

1.3算法評(píng)價(jià)

本文選用SVM算法構(gòu)建分類模型。數(shù)據(jù)集根據(jù)表型分層隨機(jī)抽樣分成3部分,三分之二用于特征選擇和訓(xùn)練,三分之一用于測(cè)試。評(píng)價(jià)指標(biāo)為評(píng)價(jià)分類性能的常用指標(biāo),分別為準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)、F值(F-score)、ROC曲線下面積(AUC)。

其中,TP(Trile Positive)即真陽性,是指屬于類別C被分類成類別C的樣本個(gè)數(shù)、TN(TrueNegative)即真陰性,是指非類別C而被分成非類別C的樣本個(gè)數(shù);FP(False Positive)即假陽性,是指非類別C被分成類別C的樣本個(gè)數(shù):FN(FalseNegative)即假陰性,是指屬于類別C而被分成非類別C的樣本個(gè)數(shù),

2數(shù)據(jù)集

實(shí)驗(yàn)中的驗(yàn)證數(shù)據(jù)集(ID=GSE25066)下載自GEO。GSE25066數(shù)據(jù)集共包含488個(gè)樣本,其中病理完全緩解(pathologic conplete response.PCR)樣本99個(gè),殘留病灶(residual disease.RD)樣本389個(gè)。這個(gè)數(shù)據(jù)集是乳腺癌關(guān)于新輔助化療(neoadiuvantchemotherapy.NAC)效果的數(shù)據(jù)集。PCR樣本通過新輔助化療達(dá)到病理完全緩解的患者,RD樣本是對(duì)新輔助化療不敏感的患者。研究表明通過新輔助化療達(dá)到PCR的患者,無病生存(disease freesurvival.DFS)以及總生存(overall survival.OS)均得到顯著的提高。

實(shí)驗(yàn)中通路數(shù)據(jù)來自KEGG(Kvot0Encyclopedia0f Genes and Genomes)通路數(shù)據(jù)庫(PA7HWAYdatabase)。1995年,日本京都大學(xué)生物信息學(xué)中心的Kanehisa實(shí)驗(yàn)室人工構(gòu)建了KEGG數(shù)據(jù)庫,是基于使用一種可計(jì)算的形式捕捉和組織實(shí)驗(yàn)得到的知識(shí)而形成的系統(tǒng)功能知識(shí)庫。KEGG通路基因集下載自ConsensusPathDB網(wǎng)站(http://consensuspathdb.org/)。經(jīng)過篩選,選出281個(gè)Homo sapiens(hsa)通路作為本文實(shí)驗(yàn)用通路數(shù)據(jù)。

3實(shí)驗(yàn)結(jié)果與結(jié)論分析

Pathifier算法在基因表達(dá)矩陣轉(zhuǎn)化為通路得分矩陣時(shí),由于有3個(gè)通路包含的基因個(gè)數(shù)少于3個(gè),所以實(shí)際應(yīng)用中只有278個(gè)通路成功轉(zhuǎn)化?;虮磉_(dá)數(shù)據(jù)中,PCR樣本往往比RD少很多,存在著類別不平衡現(xiàn)象。為了消除類別不平衡對(duì)基分類器的影響,在類別多的RD樣本中隨機(jī)抽取PCR樣本個(gè)數(shù)的RD樣本來平衡數(shù)據(jù)集,即從RD樣本中隨機(jī)抽取99個(gè)樣本。通過CFS算法最終篩選出32個(gè)特征用于訓(xùn)練模型,最后在測(cè)試集上評(píng)估算法性能。為了驗(yàn)證方法的有效性,本文所提方法與文獻(xiàn)[7]中基于基因特征方法進(jìn)行了比較分析,實(shí)驗(yàn)結(jié)果如圖2、圖3所示。本文基于通路(pathway)方法的準(zhǔn)確率、召回率、精確率、F值和AUC分別為65.15%,78.78%,61.90%,69.33%,69.74%。由圖2、圖3可以看出,本文方法整體性能要優(yōu)于基于基因的方法。

4結(jié)束語

針對(duì)以基因?yàn)樘卣鞣诸愃惴ǖ奶卣鞑豢芍貜?fù)性和相關(guān)特征的生物學(xué)意義不明確,本文提出了一個(gè)以通路為組學(xué)特征,結(jié)合相關(guān)特征選擇(CFS)和分類算法預(yù)測(cè)乳腺癌用藥反應(yīng)的方法。實(shí)驗(yàn)結(jié)果表明,本文方法的分類性能優(yōu)于基于基因?yàn)樘卣鞯姆诸愃惴?,而且生物學(xué)通路的生物學(xué)意義明確,為在功能機(jī)制上深入了解癌癥致病機(jī)理提供了新的途徑。

猜你喜歡
癌癥分類
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
留意10種癌癥的蛛絲馬跡
分類討論求坐標(biāo)
癌癥“偏愛”那些人?
海峽姐妹(2018年7期)2018-07-27 02:30:36
對(duì)癌癥要恩威并施
特別健康(2018年4期)2018-07-03 00:38:08
不如擁抱癌癥
特別健康(2018年2期)2018-06-29 06:13:42
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
癌癥可以預(yù)防?
健康管理(2015年4期)2015-11-20 23:22:29
洛阳市| 林口县| 黑河市| 张家界市| 拜泉县| 和顺县| 和平区| 根河市| 嘉禾县| 江山市| 东城区| 延寿县| 阳西县| 石棉县| 乾安县| 万州区| 响水县| 石城县| 新乡市| 来凤县| 登封市| 禄劝| 利辛县| 萍乡市| 凌源市| 鄯善县| 商洛市| 莱州市| 长宁区| 麻江县| 克什克腾旗| 通化县| 介休市| 凤台县| 巴南区| 和静县| 康平县| 永春县| 武冈市| 新昌县| 连城县|