国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

前列腺癌3種早期診斷預(yù)測(cè)模型效能比較

2023-08-04 03:49:04李姝婷駱仕俐李遠(yuǎn)盛許望東張俊輝
關(guān)鍵詞:載脂蛋白肌酸激酶前列腺癌

李 翔 ,李姝婷 ,陳 容 ,駱仕俐 ,張 溪 ,李遠(yuǎn)盛 ,許望東,張俊輝

西南醫(yī)科大學(xué):1.公共衛(wèi)生學(xué)院;2.科技處(瀘州 646000)

前列腺癌(prostate cancer)是指發(fā)生在前列腺的上皮性惡性腫瘤,是最常見的男性泌尿生殖系統(tǒng)惡性腫瘤之一,占男性惡性腫瘤病死率的第2位[1-2]。據(jù)《全球癌癥統(tǒng)計(jì)報(bào)告》數(shù)據(jù)顯示[3]2020 年中國(guó)前列腺癌標(biāo)化發(fā)病率為10.2/10萬(wàn),標(biāo)化死亡率為4.6/10萬(wàn)。目前,中國(guó)前列腺癌的總體發(fā)病率和死亡率低于世界水平,但前列腺癌的發(fā)病率和死亡率仍在不斷升高[4],癌癥順位前移,其疾病負(fù)擔(dān)有向年輕人群轉(zhuǎn)移的趨勢(shì)[5]。前列腺癌患者在發(fā)病早期往往缺乏典型的臨床表現(xiàn)。早期診斷指標(biāo)主要是前列腺特異性抗原(prostate special antigen,PSA),該指標(biāo)具有器官特異性而非腫瘤特異性,在前列腺增生、前列腺炎和其他前列腺良性疾病中都可能會(huì)升高[6],導(dǎo)致前列腺癌過(guò)度診斷和過(guò)度治療的風(fēng)險(xiǎn)很高[7]。因此,本研究首先采用單因素Logistic 回歸初步篩選了前列腺癌的預(yù)測(cè)因子,并據(jù)此建立了Logistic 回歸、Lagrangian 支持向量機(jī)(Lagrangian Support Vector Machine,LSVM)和隨機(jī)森林模型三種前列腺癌早期診斷預(yù)測(cè)模型,再采用ROC 曲線對(duì)其預(yù)測(cè)效能進(jìn)行比較,以探討三種模型在前列腺癌早期診斷中的應(yīng)用價(jià)值,為前列腺癌早期診斷提供理論支持。

1 資料與方法

1.1 數(shù)據(jù)來(lái)源

數(shù)據(jù)來(lái)源于臨床醫(yī)學(xué)科學(xué)數(shù)據(jù)中心(301 醫(yī)院)的《前列腺腫瘤預(yù)警數(shù)據(jù)集》[8]。數(shù)據(jù)集包含基本信息表、診斷表、檢查信息表、病理信息表、PSA信息表、生化檢查表、導(dǎo)尿信息表、血常規(guī)信息表、放療信息表、手術(shù)情況表、性腺激素表、藥物信息表、膀胱鏡信息表等。包括患者編號(hào)、檢查結(jié)果標(biāo)簽、年齡、身高、體重、骨鈣素、載脂蛋白A2、快速微量尿白蛋白/肌酐測(cè)定、磷脂、血清血白蛋白、α1 球蛋白、α2 球蛋白、β1 球蛋白、β2 球蛋白、γ 球蛋白、游離PSA、總PSA、鈉、腦利鈉肽前體、尿鈉、鈣、尿鈣等共46項(xiàng)信息。

1.2 數(shù)據(jù)清洗

將該數(shù)據(jù)中前列腺癌預(yù)測(cè)的結(jié)果變量重新定義為有無(wú)前列腺癌(1=有,0=無(wú))。把前列腺增生、前列腺癌、同時(shí)有前列腺增生和前列腺癌三類重新賦值為兩類,其中前列腺增生歸為無(wú)前列腺癌(0=無(wú)),前列腺癌和同時(shí)有前列腺癌和前列腺增生歸為有前列腺癌(1=有)。由于原始數(shù)據(jù)中含有文字的數(shù)據(jù)不能導(dǎo)入SPSS 25.0,會(huì)導(dǎo)致數(shù)據(jù)的缺失,因此將數(shù)據(jù)中含有的文字刪除,再對(duì)數(shù)據(jù)進(jìn)行核實(shí)補(bǔ)充。將每個(gè)變量由小到大排序,根據(jù)邏輯關(guān)系判斷各變量的極大值和極小值是否為異常值,結(jié)果發(fā)現(xiàn)有個(gè)別異常值存在。由于存在少量數(shù)據(jù)缺失和個(gè)別異常值,快速微量尿白蛋白/肌酐測(cè)定、骨鈣素、腦利鈉肽前體、α1球蛋白、α2球蛋白、β1球蛋白、β2球蛋白、γ球蛋白、尿酸、尿鈉、尿鈣、尿氯化物、尿磷、尿肌酐、肌鈣蛋白T等19項(xiàng)變量被去除,剩余25 項(xiàng)變量。對(duì)信息清洗整理后分析得到數(shù)據(jù)庫(kù)共有2 987例個(gè)案,其中前列腺癌個(gè)案222例,占7.4%;無(wú)前列腺癌個(gè)案2 765 例,占92.6%??紤]到樣本含量較大,數(shù)據(jù)有少量缺失對(duì)模型比較結(jié)果影響有限,因此本文未作數(shù)據(jù)填補(bǔ)。

1.3 納入和排除標(biāo)準(zhǔn)

本文研究對(duì)象的納入標(biāo)準(zhǔn)為:①各項(xiàng)指標(biāo)齊全;②診斷信息明確。排除標(biāo)準(zhǔn)為:①重復(fù)個(gè)案;②變量缺失過(guò)多。根據(jù)上訴納入排除標(biāo)準(zhǔn)刪除個(gè)案324 例,最終確定2 663 例研究對(duì)象,其中患前列腺癌個(gè)案數(shù)220例,對(duì)照組為未患前列腺癌個(gè)案數(shù)2 443例。

1.4 變量定義

變量賦值參考《前列腺癌篩查專家共識(shí)》[9]和《中國(guó)成人血脂異常防治指南》[10]。

1.5 統(tǒng)計(jì)學(xué)分析

將整理好的2 663例研究對(duì)象按7:3的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集,其中用來(lái)訓(xùn)練模型的訓(xùn)練集一共1 864例,用來(lái)測(cè)試模型的測(cè)試集一共799例。

采用SPSS 25.0 及SPSS Modeler client 進(jìn)行數(shù)據(jù)整理及分析,基于訓(xùn)練集數(shù)據(jù)采用單因素Logistic 回歸篩選前列腺癌的關(guān)聯(lián)因素,并據(jù)此建立多因素Logistic 回歸分析、LSVM模型和隨機(jī)森林模型三個(gè)前列腺癌早期診斷預(yù)測(cè)模型,用驗(yàn)證集數(shù)據(jù)驗(yàn)證三個(gè)模型的預(yù)測(cè)準(zhǔn)確性并用ROC 曲線下面積(area under curve,AUC)對(duì)三種模型的預(yù)測(cè)性能進(jìn)行比較[11]。

1.5.1 LSVM 模型介紹 支持向量機(jī)(SVM)是一類有監(jiān)督學(xué)習(xí)的廣義線性分類器,是由VAPNIK 等提出的一種機(jī)器學(xué)習(xí)算法,能較好地解決小樣本、高維數(shù)、非線性和局部極小點(diǎn)等實(shí)際問(wèn)題[12]。SVM包括Proximal支持向量機(jī)(簡(jiǎn)稱PSVM)和LSVM等,LSVM的精度優(yōu)于其他模型,其分類效果在臨床實(shí)踐中也得到了廣泛驗(yàn)證。

1.5.2 隨機(jī)森林模型 隨機(jī)森林算法是一種包含多個(gè)決策樹的集成學(xué)習(xí)方法,以決策樹為基學(xué)習(xí)器,運(yùn)用Bagging 的方法進(jìn)行集成,能顯著提高基學(xué)習(xí)器的性能,具有算法精度高、能處理大規(guī)模數(shù)據(jù)和減少過(guò)擬合等優(yōu)點(diǎn),在特征選擇和高維數(shù)據(jù)分析等領(lǐng)域已得到許多關(guān)注[13]。

2 結(jié)果

2.1 單因素Logistic回歸分析

將訓(xùn)練集中的變量逐個(gè)納入單因素Logistic 回歸模型,結(jié)果顯示血清白蛋白、乳酸脫氫酶、堿性磷酸酶、鈉、肌酸激酶等無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。年齡、磷脂、游離PSA、總PSA、鈣、血清尿酸、載脂蛋白A1、載脂蛋白B、載脂蛋白C3 等指標(biāo)有統(tǒng)計(jì)學(xué)意義(P <0.05),可以作為預(yù)測(cè)模型的備選指標(biāo)進(jìn)一步分析,見表1。

2.2 三種前列腺癌預(yù)測(cè)模型的建立

2.2.1 多因素非條件Logistic 回歸分析 有序多分類的似然比結(jié)果見表2,可見載脂蛋白C3 的有序多分類變量似然比結(jié)果差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05),應(yīng)以分組線性變量形式納入模型,其余變量以啞變量形式納入模型,自變量賦值表見表1。將訓(xùn)練集中單因素分析后有統(tǒng)計(jì)學(xué)意義的變量納入多因素非條件Logistic 回歸經(jīng)逐步向后回歸(納入標(biāo)準(zhǔn)為P <0.05,排除標(biāo)準(zhǔn)為P>0.1)篩除變量后,篩選出的主要影響因素為:年齡、肌酸激酶同工酶、游離PSA、總PSA,各影響因素P值及OR值見表3。

2.2.2 LSVM模型 利用訓(xùn)練集中單因素Logistic 回歸篩選出的有統(tǒng)計(jì)學(xué)意義的變量建立LSVM 模型。結(jié)果顯示,總PSA、年齡、載脂蛋白A1、磷脂、載脂蛋白B、甘油三酯、血清尿酸、游離PSA、肌酸激酶同工酶、載脂蛋白E為主要的影響因素。變量重要性排序見圖1。

圖1 LSVM模型預(yù)測(cè)變量重要性排序Figure 1 Importance diagram of LSVM predictive variables

2.2.3 隨機(jī)森林模型 利用訓(xùn)練集中單因素Logistic 回歸篩選出的有統(tǒng)計(jì)學(xué)意義的變量建立隨機(jī)森林模型。結(jié)果顯示,以變量重要性為順序包括:載脂蛋白C3、磷脂、游離PSA、載脂蛋白B、載脂蛋白E、鈣、血清尿酸、載脂蛋白A1、載脂蛋白C2、肌酸激酶同工酶。變量重要性排序如圖2。

圖2 隨機(jī)森林模型預(yù)測(cè)變量重要性排序Figure 2 Importance of variables predicted by random forest plot

2.3 三種模型的預(yù)測(cè)效果比較

將建立好的三種模型用于測(cè)試集中做預(yù)測(cè),結(jié)果顯示,多因素非條件Logistic回歸、LSVM 和隨機(jī)森林的ROC曲線下面積(AUC)分別為:0.895(0.876,0.913)、0.918(0.902,0.934)、0.724(0.688,0.760),詳見表4。LSVM 模型預(yù)測(cè)效果最好(AUC >0.9),而Logistic 回歸模型和隨機(jī)森林模型的AUC 在0.7~0.9 之間,擬合效果雖不如LSVM但效果仍可接受。預(yù)測(cè)結(jié)果的ROC曲線見圖3。

圖3 三種模型的ROC曲線比較Figure 3 Comparison of ROC curves of the three models

表4 三種模型的ROC曲線下面積(AUC)比較Table 4 Comparison of area under ROC curve(AUC)among the three models

3 討論

本研究采用單因素Logistic 回歸初步篩選了前列腺癌的預(yù)測(cè)因子,并據(jù)此建立了Logistic回歸、LSVM和隨機(jī)森林三種前列腺癌早期診斷預(yù)測(cè)模型。其中,LSVM模型的AUC最高,提示如果用LSVM來(lái)建立前列腺癌早期診斷預(yù)測(cè)模型準(zhǔn)確性可能會(huì)更高。三種模型篩選出的變量不全相同,隨機(jī)森林預(yù)測(cè)效果欠佳,因此可將Logistic回歸模型和LSVM兩種方法的結(jié)果相互印證補(bǔ)充,結(jié)合專業(yè)知識(shí)確定前列腺癌的重要預(yù)測(cè)因子。Logistic回歸模型和LSVM模型共同篩選出的預(yù)測(cè)因子為總PSA、游離PSA、年齡、肌酸激酶同工酶,這四個(gè)變量可作為前列腺癌的預(yù)測(cè)因子也在相關(guān)研究中得到過(guò)驗(yàn)證[14]。

PSA和年齡是公認(rèn)的前列腺癌預(yù)測(cè)模型的重要預(yù)測(cè)因子,我們的研究也顯示,PSA和年齡可能是預(yù)測(cè)模型最重要的兩個(gè)預(yù)測(cè)因子。1994 年以來(lái),PSA 廣泛應(yīng)用于前列腺癌的早期診斷、篩查、預(yù)后隨訪等方面,也是美國(guó)食品和藥物管理局(FDA)批準(zhǔn)的第一個(gè)腫瘤生物標(biāo)志物[15-17]。年齡增大是前列腺癌最重要的不可控因素,隨著年齡的增加,患前列腺癌的可能性也隨之增加,年齡升高也常常伴隨前列腺癌病理Gleason評(píng)分以及臨床分期的明顯升高[18-19]。因此老年人應(yīng)作為前列腺癌的重點(diǎn)關(guān)注人群,在診斷時(shí)提高警惕。

本研究結(jié)果提示肌酸激酶同工酶CK-MB 是前列腺癌的重要預(yù)測(cè)因子。丁慧等[20]研究發(fā)現(xiàn),前列腺癌患者CK 和CK-MB 含量較正常組均顯著升高,其原因可能是由于人體免疫系統(tǒng)對(duì)于腫瘤組織和細(xì)胞的攻擊從而導(dǎo)致其破裂釋放出一定CK 及CK-MB 含量,因此一部分惡性腫瘤患者會(huì)出現(xiàn)血清CK及CK-MB含量升高的體征。

本研究也發(fā)現(xiàn)了一些具有爭(zhēng)議性的預(yù)測(cè)因子,如載脂蛋白E、載脂蛋白C2、載脂蛋白C3 等。在既往的研究中,LIU 等[21]認(rèn)為E4 基因及其等位基因與前列腺癌的發(fā)病和預(yù)后無(wú)關(guān),但FARUK 等[22]的一項(xiàng)研究表明,載脂蛋白E影響前列腺癌發(fā)生和高Gleason 評(píng)分的出現(xiàn),其可能是一個(gè)區(qū)分前列腺癌的生物標(biāo)志物,我們的研究也支持了這一觀點(diǎn)。

目前國(guó)外已有較多基于臨床數(shù)據(jù)建立的前列腺癌早期診斷預(yù)測(cè)模型,如目前最常使用的兩種風(fēng)險(xiǎn)預(yù)測(cè)模型為:前列腺癌預(yù)防試驗(yàn)風(fēng)險(xiǎn)計(jì)算器(PCPT-RC)模型、歐洲前列腺癌風(fēng)險(xiǎn)計(jì)算器篩查隨機(jī)研究(ERSPCRC)模型;此外TOMLINS 等[23]基于Logistic 回歸模型,利用血清PSA、PSAD 以及PCA3 等預(yù)測(cè)因子建立了前列腺評(píng)分系統(tǒng)。國(guó)內(nèi)關(guān)于前列腺癌早期診斷預(yù)測(cè)模型的研究較少,且這些模型并未納入如磷脂、載體蛋白等較易獲得的生化檢查指標(biāo);而目前已有研究[24]表明這些生化檢查指標(biāo)可能能夠提高前列腺癌早期診斷的特異度和靈敏度。因此本研究在常規(guī)前列腺癌診斷預(yù)測(cè)因子的基礎(chǔ)上,加入了這些容易獲得的生化檢測(cè)指標(biāo)作為備選預(yù)測(cè)因子。研究結(jié)果顯示,納入了生化檢查指標(biāo)的LSVM模型與LEE等[25]建立的SVM前列腺癌診斷模型相比,擁有更高的AUC值。

本研究的不足之處:首先,由于國(guó)家臨床醫(yī)學(xué)科學(xué)數(shù)據(jù)中心(301 醫(yī)院)提供的《前列腺癌數(shù)據(jù)集》有部分?jǐn)?shù)據(jù)缺失,可能會(huì)對(duì)結(jié)果有一定的影響。另外,我們建立的前列腺癌預(yù)測(cè)模型只利用了測(cè)試集進(jìn)行內(nèi)部數(shù)據(jù)驗(yàn)證,是否可以外推至其他數(shù)據(jù)集還有待進(jìn)一步驗(yàn)證。

4 結(jié)論

本研究利用國(guó)家臨床醫(yī)學(xué)科學(xué)數(shù)據(jù)中心(301 醫(yī)院)的《前列腺腫瘤數(shù)據(jù)集》,篩選出年齡、PSA、肌酸激酶同工酶等前列腺癌早期診斷預(yù)測(cè)因子,并在此基礎(chǔ)上構(gòu)建了基于PSA 聯(lián)合指標(biāo)的多因素Logistic 回歸模型、隨機(jī)森林模型和LSVM 前列腺癌早期診斷預(yù)測(cè)模型。研究結(jié)果顯示,LSVM 模型預(yù)測(cè)效果最好,多因素Logistic 回歸模型預(yù)測(cè)效果尚可,隨機(jī)森林模型的預(yù)測(cè)效果不佳。

猜你喜歡
載脂蛋白肌酸激酶前列腺癌
大負(fù)荷訓(xùn)練導(dǎo)致肌酸激酶異常升高對(duì)心功能影響的研究
氨磺必利致精神分裂癥患者肌酸激酶增高1例體會(huì)
前列腺癌復(fù)發(fā)和轉(zhuǎn)移的治療
關(guān)注前列腺癌
認(rèn)識(shí)前列腺癌
前列腺癌,這些蛛絲馬跡要重視
糖尿病患者載脂蛋白A1與載脂蛋白B比值與冠狀動(dòng)脈病變關(guān)系研究
多囊卵巢綜合征載脂蛋白B/載脂蛋白A1比值的研究進(jìn)展
窒息新生兒血清磷酸肌酸激酶同工酶與肌鈣蛋白I的變化及其臨床意義
24小時(shí)內(nèi)血清肌酸激酶穩(wěn)定性變化的研究
措美县| 扶绥县| 乐亭县| 榆社县| 沧源| 江门市| 齐齐哈尔市| 南昌县| 曲沃县| 巴中市| 佛教| 柳河县| 通山县| 三穗县| 奎屯市| 浙江省| 淅川县| 高州市| 龙山县| 潜山县| 汶上县| 图们市| 曲周县| 昌都县| 肥城市| 墨玉县| 石门县| 望都县| 贡嘎县| 上蔡县| 嫩江县| 丽江市| 涟水县| 永登县| 夏津县| 乌苏市| 嫩江县| 宜阳县| 邵阳市| 湖南省| 唐河县|