馮 欣,張 航,辛瑞昊
(1.吉林化工學院 理學院,吉林 吉林 132022;2.吉林化工學院 信息與控制工程學院,吉林 吉林 132022)
乳腺癌[1](Breast cancer)是一種新發(fā)數(shù)高的一種疾病,已然成為一種噩夢。因此,研究乳腺癌發(fā)病機理,降低乳腺癌死亡率,提高乳腺癌預后效果迫在眉睫,這也是現(xiàn)在醫(yī)療領域所面臨的一個巨大挑戰(zhàn)。
在目前研究中,已經(jīng)有很多學者針對乳腺癌分類提出自己的模型去展開研究。王冬[2]等人針對乳腺癌分類診斷提出了一種基于人工魚群優(yōu)化的隨機森林模型,其最終準確率能達到97.48%。章飛[3]等人針對女性乳房造影圖片的特征提取數(shù)據(jù)集進行分類診斷,使用多種機器學習算法建立分類模型對比。Lahoura[4]等人針對乳腺癌分類診斷問題提出一種基于云計算的無監(jiān)督極限學習機(ELM)乳腺癌遠程診斷系統(tǒng),診斷準確率達到98.68%。Wang[5]等人將ELM與卷積神經(jīng)網(wǎng)絡(CNN)相結(jié)合針對乳腺癌分類問題進行檢測,其實驗結(jié)果效果良好。因此對乳腺癌的分類研究已然成為現(xiàn)在的一個研究趨勢。
本研究利用乳腺癌公開數(shù)據(jù)集,針對不平衡數(shù)據(jù)采用隨機過采樣算法,特征選擇采用了Least absolute shrinkage and selection operator(Lasso)回歸算法[6]與序列前向選擇算法。最后使用多種分類器的準確率對本研究提出的算法進行一定的評估,同時對最優(yōu)臨床特征進行可視化分析,本研究將為乳腺癌的診斷研究提供一定的參考。
Lasso回歸[7-9]是一種壓縮估計,該模型因為懲罰項而更加精練,它的另一個優(yōu)勢在于子集收縮的同時保留了回歸系數(shù)的壓縮。在考慮一般線性問題的時候,線性函數(shù)矩陣優(yōu)化目標為
(1)
其中β表示估計參數(shù)向量;y表示觀測向量;X表示變量矩陣值;觀測值是由變量值計算得到的。
Lasso的優(yōu)化目標為
(2)
Lasso回歸是在線性回歸的基礎之上添加了正則化得到的,見公式(2)。由于Lasso回歸能夠?qū)⒁恍┗貧w系數(shù)歸零,這樣可以有效地解決各特征之間的多重共線性困擾,這將成為本研究中特征選擇的一個新方法。
序列前向選擇[10-11](SFS,Sequential Forward Selection)是一種搜索策略算法。主要思想為從空集Y0開始,每次選擇一個特征x加入最新的特征子集Y中,可以保障特征函數(shù)最優(yōu)。其算法步驟如下:
1.建立空的特征子集Y0={?};
3.更新目前最優(yōu)特征子集:Yk+1=Yk+x+,k=k+1;
4.轉(zhuǎn)到第2步。
機器學習中的預測結(jié)果一般分為如下幾種結(jié)果,見表1。其中True Positive(TP):把正樣本預測為正。True Negative(TN):把負樣本預測為負。False Positive(FP):把負樣本預測為正。False Negative(FN):把正樣本預測為負。本研究的評價指標準確率[12-13](ACC),它的求解公式為
表1 分類預測結(jié)果
(3)
通過上述評價指標來評判模型是否合理,以及模型結(jié)果是否符合預期結(jié)果。
本研究實驗流程見圖1。首先對原始數(shù)據(jù)集進行標準差標準化處理方法,針對平衡數(shù)據(jù)集采用的隨機過采樣[14]方法。接下來是特征選擇這塊,使用Lasso回歸算法做初步的特征選擇,使用五倍交叉驗證取五次回歸系數(shù)不為0交集特征做接下來的實驗。接下來使用基于隨機森林(RF)的序列前向選擇算法,經(jīng)過分類器取最優(yōu)ACC結(jié)果。最終將得到的最優(yōu)臨床特征進行多方面的可視化分析,具體情況見下述章節(jié)。
圖1 實驗流程圖
本研究使用威斯康星州的乳腺癌公開數(shù)據(jù)集[2]進行實驗,該數(shù)據(jù)集有357例輕度患者,212例重度患者。數(shù)據(jù)集中含有32個屬性,其中含有30個特征。數(shù)據(jù)集根據(jù)平均值、標準誤差以及最值將細胞核分為三組,數(shù)據(jù)集特征介紹見表2。
表2 數(shù)據(jù)集特征介紹
利用第2節(jié)中所述算法對乳腺癌診斷分類進行測試。首先利用標準差標準化處理完數(shù)據(jù)集之后,使用隨機過采樣算法進行數(shù)據(jù)集的平衡,平衡后的樣本個數(shù)見表3。接下來運用Lasso特征選擇算法,運用五倍交叉驗證取回歸系數(shù)不為0的特征的交集,特征由原始30個變成8個,進行接下來的實驗。
表3 數(shù)據(jù)預處理:隨機過采樣算法平衡數(shù)據(jù)集
第二步特征選擇算法使用了SFS算法,此算法結(jié)合隨機森林分類器對其進行最優(yōu)特征子集評估,本研究從8個特征依次往下遞減,去尋找最優(yōu)特征子集區(qū)間。為了保證實驗的穩(wěn)定性,在進行分類診斷準確率評估的時候結(jié)合了十倍交叉驗證,其評價結(jié)果見表4。表4中出現(xiàn)的分類器依次為:支持向量機(Support Vector Machine,SVM[15])、K鄰近法[16](K-Nearest Neighbor,KNN)、決策樹(Decision Tree,DT)、樸素貝葉斯(Naive Bayes,NB)、隨機森林(Random forest,RF)、線性判別分析(Linear Discriminant Analysis,LDA)、自適應提升算法(Adaptive Boosting,AdaBoost)和極限梯度提升算法(Extreme Gradient Boosting,XBG)。根據(jù)表4得到最優(yōu)特征子集以及最適用模型的分類器,最優(yōu)特征子集將用于下一步分析。由表4可知,最優(yōu)特征子集的特征個數(shù)為6個的時候最好,并且最優(yōu)的是隨機森林分類器。最優(yōu)6個特征為:平均半徑(radius mean)、平均周長(perimeter mean)、平均區(qū)域(area mean)、區(qū)域(area se)、最差周長(perimeter worst)和最差對稱性(symmetry worst)。接下來探究了6個特征對乳腺癌輕度患者與重度患者的顯著差異性,見3.3節(jié)。
表4 UCI乳腺癌二分類實驗結(jié)果
本研究針對實驗最優(yōu)特征子集進行單個特征分析,為了證實特征對于區(qū)分不同程度的患者樣本的效性,從最優(yōu)的6個臨床特征的數(shù)據(jù)分布情況(箱線圖)、對應的student-t檢驗[17](Student's t test,T-test)的p-value[18]值以及主成分分析[19-20](Principal Component Analysis,PCA)后的降維圖等不同角度來進行驗證。見圖2,本研究通過箱線圖將最優(yōu)的6個臨床特征進行數(shù)據(jù)集的分布顯示,通過不同顏色表明不同程度的患者類型,其中黑色表示重度患者,白色表示輕度患者,從圖2中可見,單個特征的數(shù)據(jù)集在區(qū)分二分類問題上有一定的區(qū)分度。圖3是介紹了每個特征的p-value值,一般p-value值小于0.05可以證明該特征在不同分類上具有顯著差異性。由于本實驗中得到的p-value值太小,為了能可視化出來,使用了“-log10(p-value)”函數(shù)(此函數(shù)為單調(diào)遞減函數(shù))進行了變化,同時使用“-log10(0.05)”進行對比(此函數(shù)為p-value=0.5),最終結(jié)果對比見圖3,可視化圖形很好地展示6個特征的單獨p-value值均小于0.05,為顯著差性特征。PCA降維一般用于提取數(shù)據(jù)的主要特征分量,在維度壓縮的同時盡可能保留更多的變量。
圖2 特征箱線圖分布情況
圖3 特征T-test的p_value比較
本研究將針對上述6個特征進行降維分析,進一步通過可視化驗證最優(yōu)特征區(qū)分重度與輕度患者的優(yōu)越性。側(cè)重于三維可視化,所以特征也是壓縮到3個。如圖4所示,三維坐標分別表示壓縮后的三個特征值,能夠很好地看見不同類別的樣本經(jīng)過PCA降維分析之后比較容易辨別。此處可視化展示將從另外的角度說明最優(yōu)特征子集對于數(shù)據(jù)集的分類效果比較好。
圖4 PCA降維的3D圖
為了證實本研究提出算法的優(yōu)越性,繼而針對SEER(The Surveillance,Epidemiology,and End Results)[21]數(shù)據(jù)庫(https://seer.cancer.gov/)中乳腺癌數(shù)據(jù)集進行了進一步驗證。本研究選擇了最近的時間年份(2015年)診斷數(shù)據(jù)進行實驗探究,根據(jù)臨床常用字段加上意義取舍。最終保留下來17 636個樣本,其中2 623個死亡樣本,15 013個存活樣本數(shù)據(jù),特征為:種族(Race recode)、性別(Sex)、原發(fā)灶部位(Primary Site)、組織學類型(Histologic Type ICD-O-3)、雙側(cè)/單側(cè)(Laterality)、腫瘤大小(CS tumor size)、腫瘤進入程度(CS extension)、淋巴結(jié)情況(CS lymph nodes)、轉(zhuǎn)移部位(CS mets at dx)、生存時間月份(Survival months)和是否有多原發(fā)癌(First malignant primary indicator)11個特征。經(jīng)過對原始數(shù)據(jù)集的數(shù)據(jù)進行標準差標準化與隨機過采樣的數(shù)據(jù)預處理階段,接下來運用Lasso特征選擇算法,運用五倍交叉驗證取回歸系數(shù)不為0的特征的交集,特征由原始11個變成10個,進行SFS算法,特征從10個依次遞減,至于找到最優(yōu)特征子集。結(jié)合分類器最終得到以下評價結(jié)果見表5,根據(jù)表格中內(nèi)容可知,最優(yōu)特征子集的特征個數(shù)為6個的時候最好,并且最優(yōu)的是隨機森林分類器。如圖5所示為了使實驗結(jié)果更好地展示出來,橫坐標表示最優(yōu)特征組合個數(shù),縱坐標表示該子集下的分類準確度,結(jié)合不同分類器找到最優(yōu)結(jié)果是隨機森林分類器,準確度達到97.24%,為臨床醫(yī)療診斷提供了理論支持。根據(jù)上述實驗最終得到的6個特征為:Race recode、Primary Site、Laterality、CS tumor size、Survival months和First malignant primary indicator。上述特征組成的子集對區(qū)分乳腺癌的生存與死亡分類有顯著差異性。
number圖5 不同分類器二分類準確度
表5 SRRE乳腺癌二分類實驗結(jié)果
本研究針對威斯康星州的乳腺癌數(shù)據(jù)集,平衡數(shù)據(jù)后,提出Lasso回歸與SFS相結(jié)合算法進行特征選擇步驟,從而減少對冗余臨床特征的研究,結(jié)合8種分類器進行模型最終評價,為乳腺癌分類診斷提供新的探究思路。通過數(shù)據(jù)可視化展示出最優(yōu)特征子集的乳腺癌分類效果圖,為醫(yī)療大數(shù)據(jù)行業(yè)的臨床研究提供了理論支撐。為了驗證本研究算法的優(yōu)越性,利用SEER數(shù)據(jù)庫中的乳腺癌數(shù)據(jù)集進行驗證,通過本文的算法的驗證,從最初的11個特征篩選到最后的6個特征,實驗結(jié)果表明乳腺癌的分類準確率達到97.24%。本研究提出的方法模型在威斯康星州的乳腺癌公開數(shù)據(jù)集和SEER數(shù)據(jù)庫乳腺癌數(shù)據(jù)集中體現(xiàn)比較好,但未在其他疾病的數(shù)據(jù)集中探究,這將成為未來的研究重點。