国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向非平衡數(shù)據(jù)的癌癥患者生存預測分析

2021-12-20 12:35:54苗立志白瑞思蒙劉成良翟月昊
計算機工程 2021年12期
關鍵詞:分類器癌癥數(shù)量

苗立志,白瑞思蒙,劉成良,翟月昊

(1.南京郵電大學 地理與生物信息學院,南京 210023;2.南京郵電大學江蘇省智慧健康大數(shù)據(jù)分析與位置服務工程實驗室,南京 210023;3.南京郵電大學 通信與信息工程學院,南京 210003)

0 概述

隨著常見疾病的攻克和人均壽命的提高,癌癥逐漸成為威脅人類健康的主要因素。國際癌癥研究機構的分析報告顯示,2018 年全球癌癥新增病例1 810 萬例,死亡病例960 萬人[1]。傳統(tǒng)醫(yī)療主要基于癌癥病理類型、患者既往病史等對患者的生存時間進行評估和預測,機器學習技術的發(fā)展[2],使其能作為輔助手段被引入到癌癥診斷[3]和生存預測[4]中。目前,癌癥診斷和治療技術已能有效降低患者的死亡率、延長患者的存活時間[5]。由于癌癥確診后患者在5 年內幸存人數(shù)將累計達到4 380 萬,因此在收集到的現(xiàn)有數(shù)據(jù)集中,存活患者數(shù)量將遠大于非存活患者數(shù)量。癌癥患者原始數(shù)據(jù)集通常是非平衡的,且傳統(tǒng)算法在對非平衡數(shù)據(jù)集預測分析時,分類器為確保算法模型整體性能,部分少數(shù)類樣本會被誤判[6]。但在實際分類中,少數(shù)類樣本會攜帶更多的信息量且更重要,誤判代價非常昂貴,所以面向非平衡數(shù)據(jù)的處理逐漸成為機器學習應用研究的重要組成部分[7-8]。

當前對非平衡數(shù)據(jù)問題主要從數(shù)據(jù)和算法[9]2 個層面進行研究。在算法層面,通常在不改變原始數(shù)據(jù)樣本的基礎上尋找特定的算法以適用于非平衡數(shù)據(jù)集,如集成算法[10]和代價敏感算法[11]等。MAHDIYAH 等[12]提出改進的極限學習機(Extreme Learning Machine,ELM)算法,通過集成數(shù)據(jù)克服數(shù)據(jù)非平衡問題,可有效改進非平衡數(shù)據(jù)分類效果。在數(shù)據(jù)層面,通過過采樣、欠采樣[13]等技術,將非平衡數(shù)據(jù)集采樣成為平衡數(shù)據(jù)集。文獻[14]提出過采樣算法中最經(jīng)典的SMOTE 算法,通過在少數(shù)類樣本之間進行線性插值來增加少數(shù)類樣本數(shù)量。文獻[15]在SMOTE 算法的基礎上提出Borderline-SMOTE 算法,該算法將原始SMOTE 算法和邊界信息相結合,只利用邊界位置的樣本信息產(chǎn)生新樣本,減少噪聲樣本和冗余樣本的生成。

針對醫(yī)療領域存在的樣本數(shù)據(jù)集非平衡問題,國內外研究人員進行了深入研究[16-17]。如WANG 等[18]提出一種基于SMOTE 和粒子群優(yōu)化算法的混合采樣算法,評估乳腺癌患者5 年的生存率,結果表明在搜索算法和分類器中使用SMOTE 算法可以有效提高對非平衡醫(yī)療數(shù)據(jù)集的分類效果。KUO 等[19]提出一種基于信息?;姆诸愃惴ㄌ幚磲t(yī)療領域中非平衡數(shù)據(jù)集,該算法通過自動聚類算法生產(chǎn)一組信息?;?,在預測前列腺癌患者的存活率時表現(xiàn)優(yōu)異。WANG 等[20]為了解決非平衡癌癥數(shù)據(jù)中過擬合問題,提出一種基于自步學習的自適應非平衡采樣算法,通過欠采樣算法減少數(shù)據(jù)集中的噪聲樣本,并選擇優(yōu)質多數(shù)類和少數(shù)類樣本合成新的平衡子集。相較于其他常見非平衡算法,其平均正確率提高了16%,但該算法在合成新平衡的數(shù)據(jù)子集同時,會主動丟失一部分樣本信息。非平衡的數(shù)據(jù)集中存在大量噪聲樣本、冗余樣本等異常樣本[21-22],以美國國立癌癥研究院SEER[23]數(shù)據(jù)庫中獲取的2015 年乳腺癌患者樣本數(shù)據(jù)為例,該數(shù)據(jù)集中有超過12%的樣本是噪聲樣本。

本文提出一種基于RENN和SMOTE 算法的綜合采樣算法RENN-SMOTE-SVM,通過RENN 算法減少多數(shù)類樣本集中噪聲樣本的數(shù)量,并使用SMOTE算法增加少數(shù)類樣本的數(shù)量,從而使樣本集比例達到平衡。在SEER 庫中乳腺癌患者數(shù)據(jù)集上對非平衡的癌癥患者進行生存預測分析,并與SVM 算法、Tomeklinks-SVM 算法、RU-SVM等算法相比較,以分析所提算法的預測效果。

1 RENN-SMOTE-SVM 算法

1.1 RENN 算法

為解決癌癥數(shù)據(jù)集中非平衡現(xiàn)象及噪聲樣本問題,RENN 作為一種欠采樣算法,基于最近鄰規(guī)則減少多數(shù)類噪聲樣本數(shù)量,提高模型對整體樣本的識別能力。RENN 算法是在ENN[24]算法基礎上的整體優(yōu)化,ENN 算法的基本思想是、如果1 個多數(shù)類樣本的3 個最鄰近樣本中有2 個或多個與之異類,那么就將該樣本視為噪聲樣本并刪除。但ENN 的不足之處在于多數(shù)類樣本附近的樣本絕大部分與之同類,所以可以刪除的噪聲樣本數(shù)量有限。RENN 算法在ENN 算法的基礎上進行多次循環(huán)刪除噪聲樣本過程,以刪除更多的噪聲樣本,減少噪聲樣本對分類器的判決影響。

1.2 SMOTE 算法

在非平衡的癌癥數(shù)據(jù)集中,多數(shù)類樣本在數(shù)據(jù)集中占比很高,僅依靠欠采樣算法刪除部分噪聲樣本,難以完全平衡數(shù)據(jù)集。因此,需要采用過采樣算法使樣本比例達到平衡,增加模型的泛化能力和對少數(shù)樣本的識別能力。在過采樣算法中,本文選取了SMOTE 算法,通過在少數(shù)類樣本之間插值產(chǎn)生新的人工合成少數(shù)類樣本以平衡數(shù)據(jù)集。插值方法如式(1)所示:

其中:X表示少數(shù)類樣本;rand(0,1)表示區(qū)間(0,1)中的一個隨機數(shù);yi表示距離數(shù)據(jù)樣本X的n個最近鄰樣本中的第i個,在本文實驗中n取5。SMOTE 算法通過以上過程增加少數(shù)類樣本數(shù)目,使整體數(shù)據(jù)集趨于平衡。

1.3 RENN-SMOTE-SVM 算法

通過RENN 算法刪除多數(shù)類樣本中的噪聲樣本,減少噪聲樣本對結果的干擾。另一方面通過SMOTE算法增加少數(shù)類樣本的數(shù)量,以平衡數(shù)據(jù)集。在得到新的平衡癌癥數(shù)據(jù)集以后,通過SVM 分類器對癌癥患者的生存情況進行預測分析,在面對非平衡數(shù)據(jù)集時,SVM 有更好的超平面用于區(qū)分樣本,獲取更佳的泛化能力[25]。本文提出的RENN-SMOTE-SVM 算法處理流程如圖1 所示。

圖1 RENN-SMOTE-SVM 算法流程Fig.1 Procedure of RENN-SMOTE-SVM algorithm

RENN-SMOTE-SVM 算法步驟如下:

1)輸入原始非平衡數(shù)據(jù)集S,并對原始非平衡數(shù)據(jù)集S進行數(shù)據(jù)預處理。

2)設置目標非均衡尺度ao=1,ao用于限制輸出數(shù)據(jù)集So的非均衡度。同時根據(jù)患者目前生存狀態(tài),將原始數(shù)據(jù)集S分為兩類,其中存活患者樣本數(shù)量相對較多,設為多數(shù)類樣本集Smaj,死亡患者樣本數(shù)量相對較少,設為少數(shù)類樣本集Smin。

3)對多數(shù)類樣本集Smaj使用RENN 算法,刪除其噪聲樣本,得到Somaj。

4)比較Somaj和Smin的數(shù)目大小,如果Somaj大于Smin則進行步驟5,否則進行步驟6;

5)對少數(shù)類樣本集Smin使用SMOTE 算法,增加其樣本數(shù)量,得到Somin。

6)合并Somaj和Somin得到平衡數(shù)據(jù)集So。

7)計算非均衡a尺度;a=Somaj/Somin,判斷a是否等于ao,如果兩者不相等則返回步驟2,否則進行步驟8。

8)輸出So,并基于平衡數(shù)據(jù)集So應用SVM 算法對患者生存進行預測分析,得到預測結果。

2 乳腺癌患者生存預測分析

2.1 模型構建

本文以乳腺癌患者數(shù)據(jù)為例,研究面向非平衡數(shù)據(jù)集的癌癥患者生存預測分析,實驗數(shù)據(jù)來自于SEER 數(shù)據(jù)庫,該數(shù)據(jù)庫是美國最權威的癌癥統(tǒng)計數(shù)據(jù)庫,記錄了美國部分州縣上百萬名惡性腫瘤患者的發(fā)病率、死亡率、患病情況等信息。本次實驗獲取了2015 年SEER 數(shù)據(jù)庫中11 298 條有效的乳腺癌患者數(shù)據(jù),數(shù)據(jù)集分為兩類:多數(shù)類存活患者樣本數(shù)量10 646;少數(shù)類非存活患者樣本數(shù)量652。常見的11 個癌癥主要屬性如表1 所示。其中,Vital status 屬性表示患者一年后的存活狀態(tài),用以分類樣本。

表1 實驗數(shù)據(jù)屬性Table 1 Experimental data attributes

訓練SVM 分類器中的主要參數(shù)設置:SVM 的內核類型Kernel 為rbf;正類和反類的樣本權重比class_weight 為balanced;目標函數(shù)的懲罰系數(shù)C為1;數(shù)據(jù)映射到新的特征空間后的分布gamma 為1;其余未提及的參數(shù)在本文實驗中選用默認值。

2.2 評價指標

針對非平衡數(shù)據(jù)集的評價指標[26],本文采用基于混淆矩陣的評價指標衡量分類器性能,具體指標包括正確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1-score 值和G-mean 值。以二分類混淆矩陣為例,如表2 所示。

表2 混淆矩陣Table 2 Confusion matrix

正確率的計算公式如式(2)所示:

精確率的計算公式如式(3)所示:

召回率的計算公式如式(4)所示:

F1-score 是基于精確率和召回率的調和平均數(shù),考察兩者之間的折中,其計算公式如式(5)所示:

G-mean 代表少數(shù)類和多數(shù)類樣本的整體分類準確程度,體現(xiàn)了模型對非平衡數(shù)據(jù)集的識別性能,其計算公式如式(6)所示:

2.3 生存預測結果分析

在本文實驗數(shù)據(jù)集中,原始多數(shù)類樣本數(shù)量為10 646,通過RENN 算法刪除1 339 個噪聲樣本后,剩余9 307 個多數(shù)類可用樣本,其中噪聲樣本占比12.578%。為驗證RENN-SMOTE-SVM 算法對非平衡乳腺癌數(shù)據(jù)集生存預測準確程度,將本文算法與SVM算法、欠采樣算法Tomeklinks-SVM、RU-SVM、過采樣算法SMOTE-SVM 和ADASYN-SVM 這5 種常用算法進行對比。對所有實驗結果使用10 次交叉驗證后取平均值,其中每次數(shù)據(jù)集中訓練集樣本數(shù)量占90%,測試集樣本數(shù)量占10%。實驗結果如表3~表5 所示,表中加粗數(shù)字表示該組數(shù)據(jù)的最大值。

表3 少數(shù)類樣本的一年生存預測結果Table 3 One-year survival prediction results of minority samples

表4 多數(shù)類樣本的一年生存預測結果Table 4 One-year survival prediction results of most samples

表5 非平衡數(shù)據(jù)集的一年生存預測結果Table 5 One-year survival prediction results of the unbalanced set

由表3 少數(shù)類樣本的生存預測結果可知,通過在數(shù)據(jù)層面處理以后,其他算法結果均比SVM 算法表現(xiàn)更好,說明通過數(shù)據(jù)層面的處理能夠增加模型對少數(shù)類樣本的識別能力。同時,F(xiàn)1-score 值作為代表模型對當前樣本整體預測結果好壞的重要參數(shù),表明RENN-SMOTE-SVM 算法非常有效地提高了少數(shù)類樣本的決策邊界和預測能力。

由表4 多數(shù)類樣本的生存預測結果可知,RENN-SMOTE-SVM 算法對多數(shù)類樣本的生存預測表現(xiàn)優(yōu)異,在3 個指標中均取得了最優(yōu)值。同時,由于RENN 算法去除了一些噪聲和冗余樣本,在多數(shù)類樣本的預測結果中,該算法相較于增加少數(shù)類數(shù)量的過采樣SMOTE-SVM 算法和ADASYN-SVM 算法表現(xiàn)更加突出。

由表5 非平衡數(shù)據(jù)集的生存預測結果可知,RENN-SMOTE-SVM算法的正確率、F1-score 和G-mean 分別為0.883、0.904 和0.779,該算法在3 個指標下都取得了最高值。其中G-mean 是最重要的評價指標,它代表了分類器對非平衡樣本集的整體預測準確程度,而各類欠采樣和過采樣算法相較于SVM 算法均有效地提高了G-mean 值,其中RENNSMOTE-SVM 算法提升最多。這表明RENNSMOTE-SVM 算法相較于其他算法而言,能夠有效地提高對非平衡乳腺癌數(shù)據(jù)的生存預測,其預測結果更好。

3 結束語

針對癌癥數(shù)據(jù)集中存在非平衡數(shù)據(jù)和噪聲樣本的問題,本文提出一種混合采樣RENN-SMOTESVM 算法。利用RENN 算法刪除多數(shù)類樣本集中的噪聲樣本,并通過SMOTE 算法增加少數(shù)類樣本的數(shù)量,從而獲得均衡數(shù)據(jù)集。對SEER 庫中乳腺癌患者進行一年后生存結果預測分析,實驗結果表明,RENN-SMOTE-SVM 算法相較于其他常用的采樣算法在多指標的平均水平上表現(xiàn)更優(yōu),可用于對非平衡癌癥患者的生存預測分析。由于本文在對癌癥患者進行生存預測分析時,采用的數(shù)據(jù)集均為二分類數(shù)據(jù)集,下一步將研究該算法在多分類數(shù)據(jù)集中的表現(xiàn),從而拓寬該算法的應用范圍。

猜你喜歡
分類器癌癥數(shù)量
留意10種癌癥的蛛絲馬跡
統(tǒng)一數(shù)量再比較
癌癥“偏愛”那些人?
海峽姐妹(2018年7期)2018-07-27 02:30:36
對癌癥要恩威并施
特別健康(2018年4期)2018-07-03 00:38:08
不如擁抱癌癥
特別健康(2018年2期)2018-06-29 06:13:42
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
頭發(fā)的數(shù)量
我國博物館數(shù)量達4510家
尤溪县| 赫章县| 绥芬河市| 湟中县| 枞阳县| 阳东县| 罗山县| 霍州市| 云林县| 浪卡子县| 通许县| 论坛| 滕州市| 建水县| 高尔夫| 咸阳市| 和静县| 塔城市| 石林| 工布江达县| 专栏| 毕节市| 陆河县| 桐城市| 邯郸市| 清新县| 拜泉县| 清水河县| 泸州市| 安康市| 金平| 吴江市| 玛纳斯县| 玉树县| 大田县| 平江县| 正蓝旗| 古交市| 泰宁县| 讷河市| 迁安市|