国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的前列腺腫瘤患者分類預(yù)測研究

2024-10-31 00:00:00李佳林侯利明黃俊
現(xiàn)代信息科技 2024年17期

摘 要:針對臨床中不能實時高效篩查前列腺患者并進(jìn)行分類的難題,構(gòu)建了基于BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林(RF)算法、徑向基函數(shù)(RBF)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的4種機(jī)器學(xué)習(xí)模型,以快速鑒別不同類型的前列腺患者。利用參數(shù)和交叉驗證不斷優(yōu)化模型,同時采用準(zhǔn)確率、精確率、召回率和兩者的調(diào)和平均值4個指標(biāo)來評價模型性能。結(jié)果發(fā)現(xiàn),BP神經(jīng)網(wǎng)絡(luò)、RF算法、RBF和CNN的準(zhǔn)確率分別為0.930、0.965、0.877、0.982,說明4種方法都能較好地完成對前列腺患者的分類預(yù)測,其中CNN分類預(yù)測效果最好,可以為前列腺癌的早期臨床篩查提供參考。

關(guān)鍵詞:前列腺增生;前列腺腺癌;機(jī)器學(xué)習(xí);分類預(yù)測;混淆矩陣

中圖分類號:TP183 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2024)17-0073-05

0 引 言

前列腺癌是僅次于肺癌的全球第二大惡性腫瘤[1],在男性泌尿生殖系統(tǒng)中,前列腺癌的發(fā)病率占男性實體惡性腫瘤的第2位,死亡率居第5位[2],預(yù)計到2040年,將會新增229.4萬例病例。隨著我國人民生活方式的改變和人均壽命的延長,前列腺癌發(fā)病率逐年呈上升趨勢[3],尤其是經(jīng)濟(jì)發(fā)達(dá)的城市,如北京、上海和廣州等[4]。自2012年起,中國的前列腺癌位列男性惡性腫瘤第6位[5-6]。

前列腺癌的篩查有利于實現(xiàn)臨床的早期發(fā)現(xiàn)、診斷和治療,如何快速鑒別前列腺增生和前列腺癌成為臨床診斷的難題[6-7]。王逸飛等人采用XGBoost算法,對前列腺增生和前列腺癌患者的分類預(yù)測模型進(jìn)行了構(gòu)建,通過precision、F1-score等指標(biāo)發(fā)現(xiàn),該模型能夠有效地對兩者進(jìn)行區(qū)分[8]。林中飛等提出了融合個體學(xué)習(xí)器和Stacking分類模型,分類預(yù)測了前列腺癌患者,提高了模型的準(zhǔn)確率和泛化能力[9]。

由于前列腺腫瘤預(yù)警數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),采用機(jī)器學(xué)習(xí)算法能夠快速對該類數(shù)據(jù)進(jìn)行分析和計算。因此本文根據(jù)前列腺疾病的特征指標(biāo),擬采用BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林(RF)算法、徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)來預(yù)測患者的前列腺疾病的類型,從而改善前列腺腫瘤患者的預(yù)后。

1 數(shù)據(jù)與方法

1.1 數(shù)據(jù)采集

本文研究的數(shù)據(jù)來源于國家人口健康科學(xué)數(shù)據(jù)中心平臺上提供的“前列腺腫瘤預(yù)警數(shù)據(jù)集”,該數(shù)據(jù)集共有200病例,包括129例前列腺增生患者、46例前列腺癌患者和25例同時患有列腺增生和前列腺癌的患者。

1.2 數(shù)據(jù)預(yù)處理

對于缺少值比率大于90%的病例樣本直接刪除,剩余197個樣本(127個前列腺增生樣本、45個前列腺癌樣本和25個同時患有列腺增生和前列腺癌的樣本)。在此基礎(chǔ)上,對于完整度小于70%的載脂蛋白AⅡ、載脂蛋白C2等8個指標(biāo)特征也刪除,篩選后,保留24個指標(biāo)。為了提高篩選后樣本的置信度,對24個指標(biāo)采用多重插補(bǔ)法[10-11],選取克隆巴赫(Alpha)系數(shù)最高的數(shù)據(jù)作為研究對象。

從樣本中可以發(fā)現(xiàn),不同特征指標(biāo)存在不同的數(shù)值量級,為了加速指標(biāo)的權(quán)重參數(shù)收斂,需要將不同的指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,本文采用min-max歸一化方法,將指標(biāo)數(shù)值歸一化至[0,1]。

1.3 指標(biāo)選取

為了增加前列腺患者分類預(yù)測模型的準(zhǔn)確性和可靠性,利用與前列腺患者分類預(yù)測指標(biāo)的顯著相關(guān)性建立分類預(yù)測模型。在SPSS軟件中,進(jìn)行前列腺患者分類預(yù)測指標(biāo)的皮爾遜(Pearson)相關(guān)性分析,結(jié)果如圖1所示。分類預(yù)測模型指標(biāo)呈現(xiàn)不同程度的顯著相關(guān)。所以在特征權(quán)重排序[12,14]中,選取對模型貢獻(xiàn)度較高的12個指標(biāo),分別是:游離PSA/總PSA、總PSA、無機(jī)磷(P)、游離PSA、堿性磷酸酶(ALP)、肌酸激酶的同工酶(CK-MB)、肌酸激酶(CK)、載脂蛋白A1(ApoA1)、載脂蛋白B(ApoB)、球蛋白(A1b)、低密度脂蛋白膽固醇(LDL-C)、高密度脂蛋白膽固醇(HDL-C)。

1.4 實驗方法

本次實驗在MATLAB_R2021b環(huán)境下進(jìn)行訓(xùn)練和測試。首先,將預(yù)處理的數(shù)據(jù)進(jìn)行隨機(jī)分配為訓(xùn)練集和測試集,比例為7:3。其次,根據(jù)數(shù)據(jù)樣本數(shù)量和指標(biāo)維度,構(gòu)建4類分類預(yù)測模型,分別是:采用BP神經(jīng)網(wǎng)絡(luò)、基于隨機(jī)森林(RF)算法、徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)。通過固定隨機(jī)種子,調(diào)整模型的結(jié)構(gòu)及超參數(shù)(其余為默認(rèn)值),調(diào)參表如表1所示;同時采用5折交叉驗證優(yōu)化以上4種機(jī)器學(xué)習(xí)算法的參數(shù),從而穩(wěn)固模型并完成模型的訓(xùn)練。最后利用測試集的混淆矩陣,計算出4種模型的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和兩者的調(diào)和(加權(quán))平均值(F1_score)4個指標(biāo),完成模型的性能評價。

1.5 評價方法

為了有效地評價分類預(yù)測模型的性能,本次實驗通過混淆矩陣,計算出每個模型的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和兩者的調(diào)和(加權(quán))平均值(F1_score),從而得到模型的評價指標(biāo)。各個評價指標(biāo)的計算公式分別如下:

Accuracy=(TP+TN)/(TP+TN+FP+FN)(1)

Precision=TP/(TP+FP) (2)

Recall=TP/(TP+FN) (3)

F1_score=2×Precision×Recall/(Precision+Recall)(4)

其中,TP表示正確預(yù)測為正樣本的個數(shù),F(xiàn)P表示錯誤預(yù)測為正樣本的個數(shù),TN表示正確預(yù)測為負(fù)樣本的個數(shù),F(xiàn)N表示錯誤預(yù)測為負(fù)樣本的個數(shù);Accuracy表示所有正確預(yù)測(正負(fù))樣本占總的比重;Precision表示所有正樣本當(dāng)中,預(yù)測為正樣本的比率,也稱為查準(zhǔn)率;Recall表示所有樣本中,被檢測出正樣本的比率,也稱為查全率;F1_score表示評價模型的綜合性能指標(biāo),兼顧精確率和召回率的均衡得分。

2 實驗結(jié)果及分析

通過固定隨機(jī)種子,調(diào)整模型參數(shù)和優(yōu)化模型性能,得到4種模型的訓(xùn)練集和測試集混淆矩陣,計算得到Accuracy、Precision、Recall和F1_score4個指標(biāo),如表2所示(其中l(wèi)abel_1表示前列腺增生患者、label_2表示前列腺癌患、label_3表示同時患有前列腺增生患者和前列腺癌患者)。

首先,通過實驗結(jié)果,可以發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)、基于隨機(jī)森林算法、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)4種機(jī)器學(xué)習(xí)都能較好地對前列腺疾病患者類別進(jìn)行區(qū)分,其測試集準(zhǔn)確率和混淆矩陣依次如圖2至圖9所示。在訓(xùn)練集中,隨機(jī)森林算法、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率、精確率、召回率和F1得分達(dá)到了100%,具有很好的學(xué)習(xí)能力,而BP神經(jīng)網(wǎng)絡(luò)對于前列腺癌數(shù)據(jù)特征學(xué)習(xí)能力次之。

其次,在測試集中,通過4類模型指標(biāo)得分對比發(fā)現(xiàn),基于CNN分類模型的Accuracy、Precision、Recall和F1_score最高,分別是:0.982、0.990、0.982、0.986,且該模型對前列腺增生患者、前列腺癌患者和同時患有前列腺增生患者和前列腺癌患者的F1得分分別為0.985、0.973和1.000,對第三類的分類能力甚至達(dá)到了100%。可見該模型能夠很好學(xué)習(xí)和提取前列腺癌數(shù)據(jù)的特征,具有很好的穩(wěn)定性。

最后,基于隨機(jī)森林算法的前列腺癌患者分類模型中,其測試集的準(zhǔn)確率和F1得分分別達(dá)到了96.5%和97.3%,說明該模型對前列腺腫瘤數(shù)據(jù)也具較好的學(xué)習(xí)能力。而在基于徑向基函數(shù)設(shè)計的前列腺癌患者分類模型中,雖然訓(xùn)練集具有不錯的提取特征能力,但在測試集中,其準(zhǔn)確率和F1得分只有87.7%和79.8%,對前列腺癌患者的分類預(yù)測精確率和召回率都只有60%,其穩(wěn)定性相比其他3個模型最差。綜上所述,4種模型的分類預(yù)測能力依次是:卷積神經(jīng)網(wǎng)絡(luò)(CNN)>隨機(jī)森林(RF)>BP神經(jīng)網(wǎng)絡(luò)>徑向基函數(shù)(RBF)。

3 結(jié) 論

本文選用前列腺腫瘤預(yù)警數(shù)據(jù)集作為研究對象,對數(shù)據(jù)集的缺失值和指標(biāo)進(jìn)行預(yù)處理,并隨機(jī)劃分為7:3的訓(xùn)練集和測試集。采用BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林(RF)算法、徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)4種機(jī)器學(xué)習(xí)算法構(gòu)建了前列腺疾病患者的分類預(yù)測模型;通過不斷優(yōu)化模型參數(shù),從而得到訓(xùn)練集和測試集的混淆矩陣,從測試集混淆矩陣計算得到的準(zhǔn)確率、精確率、召回率和兩者的調(diào)和平均值4個指標(biāo)來看,卷積神經(jīng)網(wǎng)絡(luò)的分類效果優(yōu)于其他模型,其測試集的準(zhǔn)確率、精確率、召回率和F1得分分別是:0.982、0.990、0.982、0.986,基于4種機(jī)器學(xué)習(xí)設(shè)計的分類預(yù)測模型為臨床前列腺癌患者的篩查提供了參考價值,提高臨床工作者的工作效率。由于采集的數(shù)據(jù)來源是國家人口健康科學(xué)數(shù)據(jù)中心平臺上提供的有限數(shù)據(jù)集“前列腺腫瘤預(yù)警數(shù)據(jù)集”,致模型的泛化能力有限;后期將會在醫(yī)院臨床電子病歷采集數(shù)據(jù),進(jìn)一步更新和鞏固模型的泛化能力,從而探索不同的優(yōu)化算法模塊對模型的貢獻(xiàn)程度。

參考文獻(xiàn):

[1] SIEGEL R L,MILLER K D,JEMAL A. Cancer Statistics, 2019 [J].CA: A Cancer Journal for Clinicians,2019,69(1):7-34.

[2] 梁權(quán)耀,曹嘉正.前列腺癌基因甲基化的研究現(xiàn)狀 [J].河南外科學(xué)雜志,2023,29(2):174-176.

[3] 韓蘇軍,張思維,陳萬青.中國前列腺癌發(fā)病現(xiàn)狀和流行趨勢分析 [J].臨床腫瘤學(xué)雜志,2013,18(4):330-334.

[4] 葉定偉,朱耀.中國前列腺癌的流行病學(xué)概述和啟示 [J].中華外科雜志,2015,53(4):249-252.

[5] CHEN W Q,ZHENG R S,BAADE P D,et al. Cancer statistics in China, 2015 [J] CA: A Cancer Journal for Clinicians,2016,66(2):115-132.

[6] 中國抗癌協(xié)會泌尿男生殖系統(tǒng)腫瘤專業(yè)委員會前列腺癌學(xué)組.前列腺癌篩查中國專家共識:2021年版 [J].中國癌癥雜志,2021,31(5):435-440.

[7] 郭應(yīng)祿.前列腺增生及前列腺癌 [M].北京:人民衛(wèi)生出版社,1998.

[8] 王逸飛,吳歡,薛萬國,等.前列腺癌與前列腺增生的分類預(yù)測及癌癥風(fēng)險因素分析 [J].解放軍醫(yī)學(xué)院學(xué)報,2021,42(3):277-281+305.

[9] 林中飛,王南芳,李小紅.基于機(jī)器學(xué)習(xí)的前列腺癌患者分類研究 [J].應(yīng)用數(shù)學(xué)進(jìn)展,2021,10(10):3261-3268.

[10] 董世杰.三種線性回歸多重插補(bǔ)法的模擬比較 [D].天津:天津財經(jīng)大學(xué),2017.

[11] 張海洋,宋偉,王慕文,等.游離PSA/總PSA(f/t)指導(dǎo)前列腺穿刺的意義 [C]//中國中西醫(yī)結(jié)合學(xué)會泌尿外科專業(yè)委員會第十四次全國學(xué)術(shù)會議暨2016年廣東省中西醫(yī)結(jié)合學(xué)會泌尿外科專業(yè)委員會學(xué)術(shù)年會論文集.廣州:[出版者不詳],2016:795-796.

DOI:10.19850/j.cnki.2096-4706.2024.17.014

作者簡介:李佳林(1987—),男,漢族,四川內(nèi)江人,講師,博士在讀,研究方向:智能計算和深度學(xué)習(xí);侯利明(1987—),男,漢族,河南新鄉(xiāng)人,副教授,博士,研究方向:深度學(xué)習(xí);黃?。?980—),男,漢族,四川自貢人,副主任醫(yī)師,碩士,研究方向:泌尿外科。

收稿日期:2024-02-19

基金項目:自貢市哲學(xué)社會科學(xué)重點(diǎn)研究基地運(yùn)動與健康創(chuàng)新研究中心(YDJKY23-08)

Research on Classification Prediction for Prostate Neoplasm Patients Based on Machine Learning

LI Jialin1, HOU Liming2, HUANG Jun3

(1.Sichuan Vocational College of Health and Rehabilitation, Zigong 643000, China;

2.Xinxiang Medical University, Xinxiang 453003, China; 3.Zigong First People's Hospital, Zigong 643000, China)

Abstract: In view of the clinical difficulties of not being able to screen prostate patients efficiently and carry out classification in real time, four Machine Learning models based on BP Neural Network, Random Forest (RF) Algorithm, Radial Basis Function (RBF), and Convolutional Neural Network (CNN) are constructed to identify different types of prostate patients quickly. The models are continuously optimized using parameters and Cross-Validation, and the performance of the models is evaluated using four indicators of accuracy, precision, recall, and the harmonic mean of the two. The accuracy of the BP Neural Network, RF Algorithm, RBF and CNN is 0.930, 0.965, 0.877 and 0.982, respectively, indicating that the four methods can all perform classification prediction of prostate patients well. Among them, CNN has the best classification prediction effect and can provide a reference for the early clinical screening of prostate cancer.

Keywords: hyperplasia of prostate; prostate adenocarcinoma; Machine Learning; classification prediction; Confusion Matrix

博野县| 江陵县| 仪陇县| 博白县| 望奎县| 长治市| 江永县| 沧州市| 乳山市| 会宁县| 黎川县| 东源县| 神池县| 绥棱县| 兴安县| 蒙自县| 岳池县| 桂东县| 泗水县| 岳阳市| 安陆市| 兰考县| 正镶白旗| 通化县| 嘉善县| 专栏| 湟源县| 永川市| 军事| 龙山县| 荃湾区| 临湘市| 南郑县| 赤城县| 屏南县| 曲麻莱县| 腾冲县| 斗六市| 廊坊市| 出国| 山丹县|