国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機器學(xué)習(xí)算法的前列腺癌診斷模型研究

2016-02-07 03:24曹文哲應(yīng)俊張亞慧馬海洋陳廣飛周丹
中國醫(yī)療設(shè)備 2016年4期
關(guān)鍵詞:游離前列腺癌前列腺

曹文哲,應(yīng)俊,張亞慧,馬海洋,陳廣飛,周丹

中國人民解放軍總醫(yī)院 a.生物醫(yī)學(xué)工程研究室;b.骨科;c.醫(yī)務(wù)部,北京100853

基于機器學(xué)習(xí)算法的前列腺癌診斷模型研究

曹文哲a,應(yīng)俊a,張亞慧a,馬海洋b,陳廣飛a,周丹c

中國人民解放軍總醫(yī)院 a.生物醫(yī)學(xué)工程研究室;b.骨科;c.醫(yī)務(wù)部,北京100853

目的 基于機器學(xué)習(xí)的3種算法建立診斷預(yù)測模型,比較3種模型對前列腺癌的診斷價值。方法 選擇2008~2014年在中國人民解放軍總醫(yī)院進行前列腺穿刺活檢的患者956例(其中前列腺癌463例,前列腺增生493例),采用Logistic回歸分析,篩選出預(yù)測因子(年齡、游離之前列腺特異抗原、游離之前列腺特異抗原百分比、前列腺體積和前列腺特異性抗原密度)。應(yīng)用基于機器學(xué)習(xí)的BP神經(jīng)網(wǎng)絡(luò)、Logistic回歸和隨機森林算法構(gòu)建診斷預(yù)測模型,比較3種模型對前列腺癌的預(yù)測準(zhǔn)確性。結(jié)果Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)和隨機森林模型對前列腺癌的診斷能力比任一單項指標(biāo)都高,3種模型的靈敏度分別為77.5%、77.4%、76.2%,特異度分別為74.8%、76.8%、76.9%,精確度分別為76%、77%、77%,受試者工作特征曲線下面積(AUC)分別為0.831、0.832、0.833,3種模型對前列腺癌的診斷能力沒有顯著性差異。結(jié)論上述結(jié)果驗證了3種模型均具有較高的診斷有效性,可將模型納入泌尿決策,協(xié)助臨床醫(yī)生對前列腺癌患者進行診斷和治療,并減少不必要的活檢。

前列腺癌;前列腺增生;診斷模型;Logistic回歸;BP神經(jīng)網(wǎng)絡(luò);隨機森林

前列腺癌(Prostate Cancer,PC)是男性人群中最常見的非皮膚癌,是男性癌癥死亡的第二大來源[1]。在美國,前列腺癌的發(fā)病率居所有男性惡性腫瘤的第1位,在中國前列腺癌的發(fā)病率近年來呈持續(xù)快速增長趨勢[2]。早期診斷、早期治療是提高前列腺癌患者生存率和降低病死率的關(guān)鍵,但在前列腺癌的診斷和治療過程中存在過度診斷和過度治療的難題。前列腺特異性抗原(Prostate Specifc Antigen,PSA)及其衍生物在臨床上廣泛應(yīng)用于前列腺癌的早期篩查,但是許多非前列腺癌因素會影響血清PSA濃度,從而導(dǎo)致漏診或不必要的活檢。某些情況下,PSA或衍生物并不能有效區(qū)分前列腺癌和前列腺增生(Benign Prostate Hyperplasia,BPH),這與嚴(yán)重的炎癥可能會影響PSA在血液中的水平有關(guān)[3]。

一項Meta分析[4]顯示,建立優(yōu)化模型能夠提高診斷前列腺癌的精確度,為了突破單一指標(biāo)診斷模式的局限性,研究人員開發(fā)了許多前列腺癌預(yù)測模型,來協(xié)助臨床醫(yī)生準(zhǔn)確的診斷和治療該疾病,如Partin列線圖[5]、Kattan和Stephenson列線圖[6-8]、D’Amico風(fēng)險分類器[9]、卡普拉評分[10]和其他方法[11-13]。近10年來,很多研究人員構(gòu)建了非線性形式的預(yù)測模型,有些模型能夠較好地預(yù)測前列腺癌,但并不能幫助臨床醫(yī)生有效區(qū)分前列腺癌和前列腺增生[14]。分類器是當(dāng)前研究的熱點,因為它能準(zhǔn)確預(yù)測前列腺癌并可以自我解釋,目前有4種預(yù)測模型應(yīng)用比較廣泛:列線圖[15]、決策樹[16]、Logistic回歸和貝葉斯網(wǎng)絡(luò)[17]。

本研究采用基于機器學(xué)習(xí)理論的Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)和隨機森林算法,在訓(xùn)練集中利用篩選出的預(yù)測因子構(gòu)建前列腺癌的診斷模型,在測試集中利用靈敏度、特異度、精確度、ROC曲線下的面積(Area Under Curve,AUC)評價3種模型的優(yōu)劣。

1 材料和方法

1.1 研究人群

選取中國人民解放軍總醫(yī)院病理科2008~2014年經(jīng)病理檢查診斷為前列腺癌和前列腺增生的患者956例,其中前列腺增生患者493例,前列腺癌患者463例。所有研究對象資料完整,指標(biāo)變量包括年齡、總PSA濃度(Total Prostate Specifc Antigen,tPSA)、 游 離PSA濃 度(Free Prostate Specifc Antigen,fPSA),游離PSA百分比(fPSA/tPSA)、前列腺體積、PSA密度(Prostate Specifc Antigen Density,PSAD),本研究中的前列腺體積由改進公式進行計算[18],即前列腺體積=左右徑(cm)×前后徑(cm) ×上下徑(cm)×0.52。所有研究對象在進行PSA檢查前均無前列腺癌病史和前列腺手術(shù)史,服用5α-還原酶抑制劑等藥物的患者可能會影響血清PSA的水平而被排除在外。

1.2 預(yù)測變量和Logistic回歸分析

應(yīng)用流行病學(xué)研究設(shè)計,將數(shù)據(jù)集中全部前列腺癌患者作為病例組,全部前列腺增生患者作為對照組,從數(shù)據(jù)集中隨機抽取3/4的數(shù)據(jù)作為訓(xùn)練集,剩余1/4數(shù)據(jù)作為測試集,隨機分組后訓(xùn)練集有766例患者數(shù)據(jù)用于模型構(gòu)建。研究納入以下指標(biāo):年齡、血清總PSA、游離PSA、游離PSA百分比、前列腺體積及PSA密度,分析前列腺癌患者和前列腺增生患者兩組間各指標(biāo)的差異性,檢驗水平α=0.05。用Logistic回歸分析篩選前列腺癌的獨立預(yù)測因子并構(gòu)建診斷預(yù)測模型,自變量篩選采用以似然比檢驗為依據(jù)的前向步進法(Forward: LR),納入標(biāo)準(zhǔn)為P<0.05,剔除標(biāo)準(zhǔn)為P>0.1,統(tǒng)計軟件為SPSS 21.0。在訓(xùn)練集中利用篩選出的變量構(gòu)建Logistic回歸模型,在測試集中利用Logistic回歸模型對前列腺癌的診斷性能進行評估。

1.3 BP人工神經(jīng)網(wǎng)絡(luò)

反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò),是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP神經(jīng)網(wǎng)絡(luò)模型拓撲結(jié)構(gòu)包括輸入層(Input layer)、隱含層(Hide Layer)和輸出層(Output Layer)。當(dāng)實際輸出與期望輸出不符時,進入誤差的反向傳播階段。誤差通過輸出層,按誤差梯度下降的方式修正各層權(quán)值,向隱含層、輸入層逐層反傳。此過程一直進行到網(wǎng)絡(luò)輸出的誤差減少到可以接受的程度,或者預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止。作為一個非線性的人工智能系統(tǒng),它可以尋找變量之間的復(fù)雜相互關(guān)系,識別及建模輸入變量和輸出直接非線性關(guān)系等[19],典型BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型,見圖1。

圖1 典型BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型

柯氏定理指出,任何連續(xù)函數(shù)都可以通過利用三層BP神經(jīng)網(wǎng)絡(luò)準(zhǔn)確地實現(xiàn)。本文采用一個三層神經(jīng)網(wǎng)絡(luò),其輸出層有1個神經(jīng)元表示前列腺癌的可能性。輸入層的5個神經(jīng)元表示由多因素Logistic回歸分析得到的5個獨立預(yù)測因子。困難在于隱藏的神經(jīng)元數(shù)目的選擇。首先,基于經(jīng)驗公式確定其大致范圍,然后在訓(xùn)練集中根據(jù)10倍交叉驗證的方法確定最優(yōu)節(jié)點的數(shù)量[20],建模之前,所有輸入變量需進行標(biāo)準(zhǔn)化以達到改善訓(xùn)練集性能的目的。

1.4 隨機森林模型

隨機森林由Leo Breiman提出[21],被廣泛地應(yīng)用于分類研究。在隨機森林構(gòu)建過程中,自助樣本集從原始的訓(xùn)練樣本集中隨機選取,用于每一個樹分類器的形成,每一棵樹所應(yīng)用的變量是從所有變量中隨機選取,每次抽樣生成的袋外數(shù)據(jù)(Out of Band,OOB)被用來預(yù)測分類的正確率,對每次預(yù)測結(jié)果進行匯總得到錯誤率的OOB估計,然后評估組合分類器判別的正確率[22]。隨機森林中最重要的參數(shù)是每個節(jié)點處隨機抽取的變量數(shù),本文通過逐漸增加變量個數(shù)的方法進行優(yōu)化。隨機森林中另外兩個重要的參數(shù)是構(gòu)建分類樹的個數(shù)和葉節(jié)點的大小[23]。兩次隨機過程使得隨機森林具有較穩(wěn)定的錯誤率,同時應(yīng)用袋外數(shù)據(jù)來衡量分類器的性能。

變量重要性評分用于評價變量對于結(jié)局發(fā)生的影響,變量的重要性評分越高,則表明該變量越有能力對結(jié)局變量進行分類,袋外數(shù)據(jù)作為測試樣本可以用來評估各個變量在分類中的重要性[24],本研究根據(jù)精確度平均減少值和節(jié)點不純度減少平均值分別畫出各變量的重要性評分。

表1 前列腺癌與前列腺增生兩組間各指標(biāo)比較(±s)

表1 前列腺癌與前列腺增生兩組間各指標(biāo)比較(±s)

組別 年齡(歲)血清總PSA(ng/mL) 游離PSA(ng/mL) 游離PSA百分比 前列腺體積(cm3)PSA密度[ng/(mL·cm3)]前列腺癌 72.0±8.8 24.2±21.2 2.7±3.0 0.13±0.08 45.9±34.1 0.68±0.83前列腺增生67.0±9.7 12.4±12.4 1.7±1.3 0.18±0.14 69.0±50.5 0.23±0.47Z值 7.18 10.8 5.82 11.44 8.75 16.38P<0.05 <0.05 <0.05 <0.05 <0.05 <0.05

2 結(jié)果

2.1 Logistic回歸模型結(jié)果

將前列腺癌組(463例)的年齡、血清總PSA、游離PSA、游離PSA百分比、前列腺體積及PSA密度與前列腺增生組(493例)做Wilcoxon秩和檢驗,兩組各項指標(biāo)均值均具有統(tǒng)計學(xué)差異(P<0.05),見表1。其中前列腺癌組的年齡、血清總PSA、游離PSA及PSA密度均值比前列腺增生組高,前列腺癌組的游離PSA百分比、前列腺體積比前列腺增生組低。

在訓(xùn)練集(其中前列腺癌患者368例,前列腺增生患者398例)中利用單因素Logistic回歸分析,可知每個變量都有顯著性意義。在訓(xùn)練集中對納入研究的6個指標(biāo)利用多因素Logistic回歸進行分析,經(jīng)變量篩選后得到的主要指標(biāo)有年齡、游離PSA、游離PSA百分比、前列腺體積及PSA密度,見表2。

表2 在訓(xùn)練集上的Logistic分析結(jié)果

年齡(OR:1.086,95%CI:1.06~1.11)是前列腺癌的危險因素,游離PSA、PSA密度每提高一個水平,患前列腺癌的風(fēng)險分別提高1.446倍、2.858倍,前列腺癌的游離PSA百分比水平較低,是前列腺增生患者的0.001倍。年齡、游離PSA、游離PSA百分比、前列腺體積及PSA密度之間的交互關(guān)聯(lián)作用,見圖2,方框中圓影的大小代表了兩指標(biāo)的交互關(guān)聯(lián)程度。

圖2 各指標(biāo)之間的交互關(guān)聯(lián)作用

利用篩選出的年齡、游離PSA、游離PSA百分比、前列腺體積及PSA密度在訓(xùn)練集上構(gòu)建Logistic回歸模型,利用測試集對模型進行評估,新建模型和年齡、游離PSA、游離PSA百分比、前列腺體積及PSA密度的ROC曲線,見圖3。由圖3可知,Logistic回歸模型比各單一指標(biāo)診斷前列腺癌的水平都要高,PSA密度的診斷水平次之。

圖3 Logistic回歸模型和各指標(biāo)的ROC曲線

2.2 BP神經(jīng)網(wǎng)絡(luò)模型結(jié)果

應(yīng)用BP神經(jīng)網(wǎng)絡(luò)方法對前列腺癌與前列腺增生進行分類預(yù)測,算法通過R軟件實現(xiàn)。將完整數(shù)據(jù)集隨機地分成兩部分,其中3/4為訓(xùn)練樣本,1/4為測試樣本。研究采用三層BP神經(jīng)網(wǎng)絡(luò),輸入層有5個節(jié)點,輸入?yún)?shù)包括年齡、游離PSA、游離PSA百分比、前列腺體積及PSA密度。根據(jù)優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)得到隱含層神經(jīng)元的最佳數(shù)目為9,即隱含層有9個節(jié)點。模型評價采用錯誤率(Error Rate)、靈敏度(Sensitivity)、特異度(Specifcity)和AUC四種指標(biāo),其中靈敏度和特異度是按照概率0.5為判別閾值預(yù)測分類的評價結(jié)果,AUC則是綜合評價的結(jié)果。

訓(xùn)練集中5個指標(biāo)組合建立的BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測前列腺癌的結(jié)果,見表3。由表3可知,模型在訓(xùn)練集中的特異度為82.5%、靈敏度為78.9%,在測試集中的特異度為76.8%、靈敏度為77.4%,模型的精確度為77%。在ROC分析中,BP神經(jīng)網(wǎng)絡(luò)模型ROC曲線下面積AUC=0.832(圖4),由上述結(jié)論可知,BP神經(jīng)網(wǎng)絡(luò)模型能夠較好的診斷預(yù)測前列腺癌。

表3 Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)與隨機森林模型結(jié)果比較

圖4 BP神經(jīng)網(wǎng)絡(luò)模型和各指標(biāo)的ROC曲線

2.3 隨機森林模型結(jié)果

應(yīng)用隨機森林方法對前列腺癌與前列腺增生進行分類預(yù)測,算法通過R軟件實現(xiàn)。根據(jù)患者的年齡、游離PSA、游離PSA百分比、前列腺體積、PSA密度及實驗室檢查信息建立隨機森林預(yù)測模型,對前列腺癌與前列腺增生進行分類評價研究。

為了準(zhǔn)確地評價隨機森林分類模型的效果,隨機地將樣本分成兩部分,其中3/4為訓(xùn)練樣本,1/4為測試樣本,按此方法隨機組成100個訓(xùn)練集和100個測試集,利用訓(xùn)練集建立預(yù)測模型,然后利用測試集對模型進行效果評價。在訓(xùn)練集中對于決策樹節(jié)點分支選擇的變量個數(shù),我們采用逐一增加變量的方法進行建模以尋找最優(yōu)模型,當(dāng)決策樹節(jié)點所選變量數(shù)為2時,模型的誤判率均值是最低的。在確定決策樹節(jié)點最優(yōu)變量個數(shù)后,進一步確定隨機森林模型中決策樹數(shù)量,當(dāng)決策樹數(shù)量大概達到500時,模型誤差趨于穩(wěn)定,達到最優(yōu)模型(圖5),對模型中的二元響應(yīng)變量賦值,1代表前列腺癌,0表示前列腺增生。

圖5 模型誤差與決策樹數(shù)量關(guān)系圖

在測試集中利用優(yōu)化的隨機森林模型給出每個變量的重要性評分,結(jié)果見圖6。圖6給出了兩種測算方式下的自變量重要程度對比,其中橫坐標(biāo)是變量重要性評分,縱坐標(biāo)給出了模型中的各個變量,坐標(biāo)軸中從上往下排列的各個變量評分逐漸減小,評分越大表示對應(yīng)的變量對模型的分類影響越大。由圖6可以看出,前列腺癌患者的PSA密度、前列腺體積兩個指標(biāo)得分較高,另外檢查指標(biāo)游離PSA、游離PSA百分比也對分類起一定的作用。除此以外,年齡對模型分類有一定貢獻。與上述兩種模型中前列腺體積無診斷價值相比,隨機森林模型中前列腺體積指標(biāo)重要性評分較高,這可能與前列腺體積與其他指標(biāo)的交互關(guān)聯(lián)有關(guān)。

圖6 隨機森林變量重要性評分

2.4 3種模型結(jié)果的比較

表3中給出了Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)與隨機森林模型4項評價指標(biāo)的結(jié)果,由表中可以看出隨機森林模型的特異度和ROC曲線下面積略高于Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)模型,但其靈敏度比Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)模型略低。3種模型的精確度相當(dāng),在檢驗水平α=0.05下對3種模型作差異性檢驗,結(jié)果P>0.05。由此可見3種模型的綜合診斷效果沒有顯著性差異。與此同時,3種模型ROC曲線下面積AUC都較高,并且比任何一項單一指標(biāo)對前列腺癌的診斷更有效,證實了3種模型在前列腺癌診斷預(yù)測中具有較大的潛力。

3 討論

在當(dāng)前的研究中,Logistic回歸、BP神經(jīng)網(wǎng)絡(luò)與隨機森林模型可以用來評價前列腺癌的患病概率,并進行危險分層。利用診斷模型結(jié)合臨床、實驗室、病理、經(jīng)直腸前列腺超聲檢查結(jié)果,可以幫助泌尿科醫(yī)生更高效地診斷前列腺癌。國外研究人員將人工神經(jīng)網(wǎng)絡(luò)原理同前列腺癌診治中的其他指標(biāo)相結(jié)合,應(yīng)用于提高前列腺癌的診斷效率,取得了很好的效果[25]。

本研究中3個模型的優(yōu)勢在于模型對血清PSA值范圍沒有限制,其區(qū)間(0.09~98.23 ng/mL)涵蓋了整個數(shù)據(jù)集,并在訓(xùn)練集和測試集中進行了評估和測試,因此在臨床使用中十分簡便,提高了診斷效率與診斷準(zhǔn)確率,在不同程度上減少了不必要的穿刺。利用Logistic回歸分析篩選納入指標(biāo)時血清總PSA被排除在外,這可能與患者年齡、地區(qū)、不同患者不同病史及藥物影響有關(guān)[26-29]。

先前的研究表明[30],游離PSA百分比和PSA密度在前列腺癌的診斷預(yù)測中具有較高的價值。本研究中PSA密度診斷能力中等以上,游離PSA百分比診斷能力低。大量國內(nèi)外文獻[31-32]報道,前列腺癌患者PSA密度明顯高于前列腺增生患者,也有研究[33]表明:在前列腺癌的早期診斷中,PSA密度的敏感度、特異度及準(zhǔn)確度明顯提高,其作用優(yōu)于總PSA,而游離PSA百分比的作用不及PSA密度,這與本文研究結(jié)果一致。對于PSA密度的診斷閾值,目前爭議較大。相關(guān)研究[34-35]表明,前列腺癌患者的平均前列腺體積比前列腺增生患者大,本研究佐證了這一點。在Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)模型中前列腺體積的診斷能力最差,而在隨機森林中前列腺體積的重要性評分僅次于PSA密度,這與前列腺體積和其他指標(biāo)的交互有關(guān),所以同時考慮多重因素的交互影響并加以避免更加合理。

由于前列腺癌的患病人群比較大,本研究模型的外推性還需更多的數(shù)據(jù)進行驗證。因此,本研究中的3個模型更適合于前列腺癌風(fēng)險系數(shù)較高的人群以及可能的前列腺穿刺活檢患者[36]。在前列腺癌的診斷預(yù)測研究中,Porter等[37]采用了廣泛使用的6種預(yù)測模型,其中包括人工神經(jīng)網(wǎng)絡(luò)和Logistic回歸模型,發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)模型的診斷作用似乎與Logistic回歸相同,這與本研究沒有顯著性差異的結(jié)果一致。

值得注意的是,研究結(jié)果當(dāng)中存在抽樣誤差,由于血清總PSA區(qū)間范圍和樣本大小存在差異,盡管3種模型在數(shù)據(jù)集內(nèi)部進行了測試評估,但還需要其他獨立數(shù)據(jù)集的驗證才能推廣到更多人群。隨著診療技術(shù)的發(fā)展,越來越多的檢測指標(biāo)供臨床醫(yī)生參考,但并不是指標(biāo)越多,診斷效果越好,相反,不好的指標(biāo)會誤導(dǎo)臨床醫(yī)生的診斷,從而降低診斷的準(zhǔn)確性。通過ROC曲線,可提煉出與疾病有相關(guān)性的指標(biāo),建立優(yōu)化組合模型,提高前列腺癌的診斷效能,減少不必要的活檢對醫(yī)療系統(tǒng)和前列腺癌患者產(chǎn)生的影響,減少醫(yī)療成本和患者活檢的痛苦以及可能出現(xiàn)的并發(fā)癥。

[1]Siegel R,Naishadham D,Jemal A.Cancer statistics,2013[J].CA Cancer J Clin,2013,63(1):11-30.

[2]韓蘇軍,張思維,陳萬青,等.中國前列腺癌發(fā)病現(xiàn)狀和流行趨勢分析[J].臨床腫瘤學(xué)雜志,2013,18(4):330-334.

[3]Yuksel S,Dizman T,Yildizdan G,et al.Application of soft sets to diagnose the prostate cancer risk[J].J Inequal Appl,2013,(1):229.

[4]Louie KS,Seigneurin A,Cathcart P,et al.Do prostate cancer risk models improve the predictive accuracy of PSA screening?A meta-analysis[J].Ann Oncol,2015,26(5):1031-1032.

[5]Huang Y,Isharwal S,Haese A,et al.Prediction of patient-specifc risk and percentile cohort risk of pathological stage outcome using continuous prostate-specifc antigen measurement,clinical stage and biopsy Gleason score[J].BJU Int,2011,107(10):1562-1569.

[6]Smaletz O,Scher HI,Small EJ,et al.Nomogram for overall survival of patients with progressive metastatic prostate cancer after castration[J].J Clin Oncol,2002,20(19):3972-3982.

[7]Stephenson AJ,Scardino PT,Eastham JA,et al.Postoperative nomogram predicting the 10-year probability of prostate cancer recurrence after radical prostatectomy[J].J Clin Oncol,2005,23(28):7005-7012.

[8]Stephenson AJ,Scardino PT,Eastham JA,et al.Preoperative nomogram predicting the 10-year probability of prostate cancer recurrence after radical prostatectomy[J].J Natl Cancer Inst,2006,98(10):715-717.

[9]D’Amico AV,Whittington R,Malkowicz SB,et al.Biochemical outcome after radical prostatectomy or external beam radiation therapy for patients with clinically localized prostate carcinoma in the prostate specifc antigen era[J].Cancer,2002,95(2):281-286.

[10]Cooperberg MR,Pasta DJ,Elkin EP,et al.The University of California,San Francisco cancer of the prostate risk assessment score:a straightforward and reliable preoperative predictor of disease recurrence after radical prostatectomy[J].J Urol,2005,173(6):1938-1942.

[11]Haese A,Chaudhari M,Miller MC,et al.Quantitative biopsy pathology for the prediction of pathologically organ-confned prostate carcinoma:a multiinstitutional validation study[J].Cancer,2003,97(4):969-978.

[12]Veltri RW,Chaudhari M,Miller MC,et al.Comparison of logistic regression and neural net modeling for prediction of prostate cancer pathologic stage[J].Clin Chem,2002,48(10):1828-1834.

[13]Veltri RW,Miller MC,Partin AW,et al.Prediction of prostate carcinoma stage by quantitative biopsy pathology[J].Cancer,2001,91(12):2322-2328.

[14]Bermejo P,Vivo A,Tárraga PJ,et al.Development of Interpretable Predictive Models for BPH and Prostate Cancer[J].Clin Med Insights Oncol,2015,9:15-24.

[15]Shariat SF,Karakiewicz PI,Suardi N,et al.Comparison of nomograms with other methods for predicting outcomes in prostate cancer:a critical analysis of the literature[J].Clin Cancer Res,2008,14(14):4400-4407.

[16]Chun FK,Karakiewicz PI,Briganti A,et al.A critical appraisal of logistic regression-based nomograms,artificial neural networks,classification and regression-tree models,lookup tables and risk-group stratification models for prostate cancer[J].BJU Int,2007,99(4):794-800.

[17]Lacave C,Luque M,Díez FJ.Explanation of Bayesian networks and influence diagrams in Elvira[J].IEEE Trans Syst Man Cybern B Cybern,2007,37(4):952-965.

[18]Terris MK,Stamey TA.Determination of prostate volume by transrectal ultrasound[J].J Urol,1991,145(5):984-987.

[19]Lawrentchuk N,Lockwood G,Davies P,et al.Predicting prostate biopsy outcome:artificial neural networks and polychotomous regression are equivalent models[J].Int Urol Nephrol,2011,43(1):23-30.

[20]Subasi A.Automatic recognition of alertness level from EEG by using neural network and wavelet coefficients[J].Expert Syst Appl,2005,28(4):701-711.

[21]Svetnik V,Liaw A,Tong C,et al.Random forest:a classifcation and regression tool for compound classification and QSAR modeling[J].J Chem Inf Comput Sci,2003,43(6):1947-1958.

[22]Wolpert DH,Macready WG.An Efficient Method to Estimate Bagging’s Generalization Error[J].Mach Learn,1999,35(1):41-55.

[23]Ishwaran BH,Kogalur UB,Blackstone EH,et al.Random Survival Forests1[J].Ann Appl Stat,2008,2(3):841-860.

[24]Díaz-Uriarte R,Alvarez de Andrés S.Gene selection and classifcation of microarray data using random forest[J].BMC Bioinformatics,2006,7:3.

[25]Panebianco V,Sciarra A,Marcantonio A,et al.Conventional imaging and multiparametric magnetic resonance (MRI,MRS,DWI,MRP)in the diagnosis of prostate cancer[J].Q J Nul Med Mol Imaging,2012,56(4):331-342.

[26]Ng CF,Chiu PK,Lam NY,et al.The Prostate Health Index in predicting initial prostate biopsy outcomes in Asian men with prostate-specifc antigen levels of 4-10 ng/mL[J].Int Urol Nephrol,2014,46(4):711-717.

[27]Lee AG,Choi YH,Cho SY,et al.A prospective study of reducing unnecessary prostate biopsy in patients with high serum prostate-specifc antigen with consideration of prostatic infammation[J].Korean J Urol,2012,53(1):50-53.

[28]Romero Otero J,Garcia Gomez B,Campos Juanatey F,et al.Prostate cancer biomarkers:an update[J].Urol Oncol,2014,32(3):252-260.

[29]Pourmand G,Ramezani R,Sabahgoulian B,et al.Preventing Unnecessary Invasive Cancer-Diagnostic Tests:Changing the Cut-off Points[J].Iran J Public Health,2012,41(2):47-52.

[30]Catalona WJ,Southwick PC,Slawin KM,et al.Comparison of percent free PSA,PSA density and age-specific PSA cutoffs for prostate cancer detection and staging[J].Urology,2000,56(2):255-260.

[31]Lee SE,Chung JS,Han BK,et al.Relationship of prostatespecific antigen and prostate volume in Korean men with biopsy-proven benign prostatic hyperplasia[J].Urology,2008,71(3):395-398.

[32]Azuma K,Numata K,Hashine K,et al.Utility of prostate specific antigen doubling time in repeat biopsy for prostate cancer[J].Nihon Hinyokika Gakkai Zasshi,2006,97(1):42-47.

[33]Moreira DM,Gerber L,Thomas JA,et al.Association of prostate-specific antigen doubling time and cancer in men undergoing repeat prostate biopsy[J].Int J Urol,2012,19(8):741-747.

[34]Bermejo P,Vivo A,Tárraga PJ,et al.Development of Interpretable Predictive Models for BPH and Prostate Cancer[J].Clin Med Insights Oncol,2015,25(9):15-24.

[35]王春霞,潘小杰,范桂紅,等.四種影像學(xué)檢查在診斷前列腺癌中的應(yīng)用評價[J].中國醫(yī)療設(shè)備,2014,29(5):170-172,160.

[36]Karakiewicz PI,Benayoun S,Kattan MW,et al.Development and validation of a nomogram predicting the outcome of prostate biopsy based on patient age,digital rectal examination and serum prostate specifc antigen[J].J Urol,2005,173(6):1930-1934.

[37]Porter CR,Crawford ED.Combining artificial neural networks and transrectal ultrasound in the diagnosis of prostate cancer[J].Oncology(Williston Park),2003,17(10):1395-1399.

Diagnostic Model Research of Prostate Cancer Based on Machine Learning Algorithm

Objective To establish diagnostic prediction models based on three machine learning algorithms and compare the value of the three models in the diagnosis of prostate cancer (PC).Methods The research selected the clinical data of 956 patients (including 463 cases of prostate cancer and 493 cases of benign prostatic hyperplasia) with prostate biopsy in the General Hospital of PLA during 2008~2014.Predictors were screened by Logistic regression which included age,free prostate-specifc antigen (fPSA),the percentage of free prostate-specifc antigen (free PSA/total PSA),prostate volume,and PSA density (PSAD).The paper further compared the diagnostic accuracy of three models in the prediction of prostate cancer by using BP neural network,Logistic regression (LR),and random forest algorithm based on machine learning.Results The diagnostic capability of Logistic regression,BP neural networks,and random forest model for prostate cancer was higher than any a single indicator.Retrospectively,the sensitivity of the three models were 77.5%,77.4%,and 76.2% ;the specifcity was 74.8%,76.8%,and 76.9%;the accuracy was 76%,77%,and 77%.The area under the ROC curve (AUC) was 0.831 for LR model,0.832 for BP neural networks model,and 0.833 for the random forest model respectively,which indicated that there were no statistically signifcant difference existing in the three modes in terms of diagnostic effectiveness.Conclusion The above results verifed the high diagnostic validity of these three models,which all could be incorporated into urologic decision making to assist clinicians carry out diagnosis and treatment so as to reduce the unnecessary biopsies.

prostate cancer;benign prostate hyperplasia;diagnostic model;Logistic regression;BP neural networks;random forest

CAO Wen-zhea,YING Juna,ZHANG Ya-huia,MA Hai-yangb,CHEN Guang-feia,ZHOU Danc
a.Department of Biomedical Engineering;b.Department of Orthopedics;c.Department of Medical Management,General Hospital of PLA,Beijing 100853,China

TN957.51

A

10.3969/j.issn.1674-1633.2016.04.006

1674-1633(2016)04-0030-06

2016-01-22

國家自然科學(xué)基金(61501518)。

周丹,教授,博士生導(dǎo)師。

通訊作者郵箱:zd99@vip.sohu.com

猜你喜歡
游離前列腺癌前列腺
游離股前外側(cè)穿支皮瓣修復(fù)足踝部軟組織缺損
治療前列腺增生的藥和治療禿發(fā)的藥竟是一種藥
前列腺良惡性腫瘤應(yīng)用DCE-MRI鑒別診斷的作用分析
莫須有、蜿蜒、夜游離
陶珊珊作品
MTA1和XIAP的表達與前列腺癌轉(zhuǎn)移及預(yù)后的關(guān)系
前列腺癌,這些蛛絲馬跡要重視
治療前列腺增生的藥和治療禿發(fā)的藥竟是一種藥
與前列腺肥大共處
前列腺癌治療與繼發(fā)性糖代謝紊亂的相關(guān)性