摘" 要: 為了更好地通過人體肥胖的相關(guān)指數(shù)預(yù)測乳腺癌的存在,以抵抗素、葡萄糖、年齡和身體質(zhì)量指數(shù)作為數(shù)據(jù)特征構(gòu)造預(yù)測模型,通過研究支持向量機(SVM)的參數(shù)對模型的性能影響,提出一種基于自適應(yīng)機制策略改進的鯨魚算法,即參數(shù)自適應(yīng)鯨魚優(yōu)化算法(PAWOA)用來尋找最優(yōu)參數(shù)。采用Tent映射對種群位置初始化,引入自適應(yīng)參數(shù)[p*]代替隨機閾值加速收斂速度,針對給定的目標(biāo)函數(shù)對每個搜索個體進行求解,計算適應(yīng)度后找到全局最優(yōu)解,增強種群的全局尋優(yōu)性能。實驗結(jié)果表明,優(yōu)化后的模型精確度提升12.44%,召回率提升13.57%,[F1]評分提升13.14%??梢?,該預(yù)測模型擁有更好的效果可以用于輔助判斷乳腺癌。
關(guān)鍵詞: 鯨魚優(yōu)化算法; 支持向量機; 自適應(yīng)參數(shù); 數(shù)據(jù)預(yù)處理; 乳腺癌細胞分類; Tent映射
中圖分類號: TN911?34; TP391" " " " " " " " 文獻標(biāo)識碼: A" " " " " " " " " " " " "文章編號: 1004?373X(2024)11?0156?05
Improved whale optimization algorithm to optimize support vector
machine for breast cancer prediction
GAO Tao, YUAN Decheng
(College of Information Engineering, Shenyang University of Chemical Technology, Shenyang 110142, China)
Abstract: In order to better validate the associations between the presence of breast cancer and correlation index of obesity, a prediction model is constructed based on data features such as resistin, glucose, age and BMI (body mass index). By studying the influence of parameters of support vector machine (SVM) on the performance of the model, an improved whale optimization algorithm (IWOA) based on adaptive mechanism strategy, namely parameter adaptive whale optimization algorithm (PAWOA), is proposed to find out the optimal parameters for the SVM. The population positions are initialized with the Tent mapping. An adaptive parameter [p*] is introduced to replace the random threshold value in order to accelerate the convergence speed. Each search individual is solved with respect to the given objective function, and the global optimum solution is found out after calculating the fitness, so as to improve the global optimization performance of the population. The experimental results show that the precision of the optimized model is improved by 12.44%, its recall rate is improved by 13.57%, and its [F1] score is improved by 13.14%. It can be seen that the prediction model has a better effect and can be used to assist in diagnosing the breast cancer.
Keywords: WOA; SVM; adaptive parameter; data preprocessing; breast cancer cell classification; Tent mapping
0" 引" 言
在醫(yī)學(xué)上,乳腺癌診斷的常見方法有影像學(xué)檢查和病理檢查[1?3]。隨著機器學(xué)習(xí)的發(fā)展,不少研究人員都將機器學(xué)習(xí)技術(shù)應(yīng)用在乳腺癌檢測等方面。文獻[4]將TCGA數(shù)據(jù)庫中4種組學(xué)數(shù)據(jù)進行融合,提高隨機森林的預(yù)測性能。文獻[5]采用人工魚群算法優(yōu)化隨機森林實現(xiàn)對乳腺癌細胞的精確分類。文獻[6]提出免疫分類算法研究算法分類準(zhǔn)確率與屬性缺失樣本間的聯(lián)系。但上述研究中所用數(shù)據(jù)均忽視了與乳腺癌相關(guān)的病理特征。文獻[7]在證實乳腺癌的存在與人體肥胖有關(guān)后,認為常規(guī)會診和血液分析收集的人體測量數(shù)據(jù)和參數(shù)可以組成更加高效的數(shù)據(jù)集。最終,在收集的數(shù)據(jù)中篩選出抵抗素、葡萄糖、年齡和身體質(zhì)量指數(shù)作為特征建立穩(wěn)定的預(yù)測模型輔助醫(yī)護人員進行乳腺癌診斷。略有不足的是,文獻[7]的研究并未將數(shù)據(jù)劃分為測試集和訓(xùn)練集,所生成模型是基于相同數(shù)據(jù)上的評估,并不一定是未來數(shù)據(jù)性能的良好指標(biāo)。另外,所選擇的分類器,85%的分類精度也有待提升[7]。
對此,本文提出參數(shù)自適應(yīng)鯨魚優(yōu)化算法(Parameter Adaptive Whale?optimization Algorithm, PAWOA)對支持向量機的參數(shù)進行全局尋優(yōu),構(gòu)造出一種更加合適的分類模型。不僅實現(xiàn)對分類精度的提升,也可以對測試集數(shù)據(jù)進行精確預(yù)測,從而更廣泛地應(yīng)用于通過人體肥胖指標(biāo)判斷乳腺癌。
1" 鯨魚優(yōu)化算法
1.1" 標(biāo)準(zhǔn)鯨魚優(yōu)化算法
鯨魚優(yōu)化算法是經(jīng)典的智能優(yōu)化算法[8],鯨魚在圍捕過程中需要不斷調(diào)整自身位置,如式(1)所示:
[D=CX*(t)-XX(t+1)=X*(t)-AD]" (1)
式中:[t]表示目前的迭代次數(shù);[X*(t)]表示目前適應(yīng)度最好的鯨魚位置;[X(t)]表示目前迭代位置次數(shù)中鯨魚的位置;[A]和[C]表示系數(shù)。[A]和[C]由式(2)得出:
[A=2ar1-aC=2r2a=2-2tTmax]" (2)
式中:[r1]和[r2]是隨機數(shù),范圍為[0,1];[a]的值從2到0下降;[t]為目前的迭代次數(shù),[Tmax]表示未初始設(shè)置的最大迭代次數(shù)。之后鯨魚通過螺旋運動不斷更新自己的位置,數(shù)學(xué)模型如式(3)所示:
[X(t+1)=X*(t)+Deblcos(2πl(wèi))]" (3)
式中:[D=X*(t)-X(t)]表示最優(yōu)位置與第[i]只鯨魚間的距離;[b]表示螺旋常數(shù);[l]是范圍為[-1,1]的隨機數(shù)。假設(shè)式(1)或式(3)的使用概率都是50%,則有如下數(shù)學(xué)模型:
[X(t+1)=X*(t)-AD," " " " " plt;0.5X*(t)+Deblcos(2πl(wèi))," " " " " p≥0.5]" (4)
式中[p]是[0,1]范圍的隨機數(shù)。
在隨機搜捕過程中,為了確定位置,鯨魚會將搜索獵物的范圍設(shè)定在一個隨機范圍中。當(dāng)[A]gt;1時,鯨魚在全局范圍內(nèi)隨機搜索獵物,如式(5)所示:
[D=CXrand-X(t)X(t+1)=Xrand-AD]" (5)
式中[D]和[Xrand]表示鯨魚群中任意鯨魚的位置。
1.2" 基于Tent混沌映射優(yōu)化鯨魚算法
Tent映射產(chǎn)生混沌序列對鯨魚種群進行初始化[9],為了初始解就可以在解空間中更加均勻,良好的初始種群對算法收斂速度和精度都有幫助[9]。
[zi+1=2zi," " "0≤z≤0.52(1-zi)," " "0.5lt;zi≤1] (6)
式中:[zi]表示第[i]次映射的函數(shù)值,[i]表示映射次數(shù),設(shè)定初始值[z0],按照式(6)生成下一個個體,直至滿足要求。然后引入自適應(yīng)權(quán)重,目的在于使鯨魚在包圍獵物的過程中不斷螺旋運動更新位置,隨著迭代次數(shù)的增加,權(quán)值[w]會線性遞減。在初期,算法權(quán)重系數(shù)較大時,算法更加注重全局搜索能力,但隨著迭代次數(shù)的增加,同時權(quán)重系數(shù)不斷減小,算法搜索范圍就會趨向于某一區(qū)域,這樣就避免陷入局部最優(yōu),實現(xiàn)求解精度的提升。鯨魚位置的更新公式如式(7)所示:
[X(t+1)=wX?(t)-AD," " " plt;0.5Deblcos(2πl(wèi))+wX?(t),nbsp; " "p≥0.5] (7)
[w(t)=e-tmax_iterk] (8)
式中:[t]表示當(dāng)前迭代次數(shù);max_iter表示最大迭代次數(shù);[k]表示調(diào)節(jié)系數(shù),目的在于調(diào)節(jié)權(quán)重大小。
1.3" 自適應(yīng)閾值[p*]
在標(biāo)準(zhǔn)的鯨魚優(yōu)化算法中,一般設(shè)定概率閾值為0.5,用于協(xié)調(diào)螺旋和包圍過程的同步,以隨機選擇兩種運動方式[13]。然而,這種方式可能導(dǎo)致收斂速度過慢,尤其是隨著迭代次數(shù)逐漸增加。因此,為了改善收斂速度,本文引入自適應(yīng)參數(shù)[p*]代替原先的概率閾值,[p*]會隨著迭代次數(shù)的改變而改變,取值范圍為[0,1]。這樣在不同時期,鯨魚都有較大的概率找到當(dāng)前合適的捕食策略,從而協(xié)調(diào)算法的局部開發(fā)能力和全局尋優(yōu)能力,進而提高算法收斂速度,自適應(yīng)參數(shù)[p*]的表達式如式(9)所示:
[p*=1-11+λ?λ?tλmax_iter+μ?tμmax_iter] (9)
式中:[t]表示當(dāng)前迭代次數(shù);max_iter表示最大迭代次數(shù);[λ]、[μ]為控制參數(shù),實驗中取值為:[λ]=0.5,[μ]=0.2。鯨魚狩獵公式改寫后,如式(10)所示:
[X(t+1)=wX?(t)-AD," " " plt;p*Deblcos(2πl(wèi))+wX?(t)," " " p≥p*] (10)
改進鯨魚優(yōu)化算法主要步驟如下:
1) 初始化鯨魚群的基礎(chǔ)參數(shù)、種群規(guī)模[n]、對數(shù)螺線形狀參數(shù)[b]、最大迭代次數(shù)max_iter和問題維數(shù)[D];
2) Tent混沌映射對鯨魚位置進行初始化;
3) 求解目標(biāo)函數(shù),計算所有搜索個體的適應(yīng)度,找到當(dāng)前最優(yōu)解;
4) 若[plt;p*]且[A]lt;1,則按式(3)進行更新;
5) 若[plt;p*]且[A][≥]1,按WOA對應(yīng)公式進行螺旋運動對獵物進行更新;
6) 若[p≥p*],按式(4)進行全局搜索;
7) 更新位置后,計算所有個體的適應(yīng)度值,比較之前的最佳搜索位置,若優(yōu)于[X*],則替換[X*];
8) 若迭代到最大迭代次數(shù)則中止迭代,若迭代次數(shù)不滿足最大迭代次數(shù),則繼續(xù)執(zhí)行步驟4),最后輸出最優(yōu)解和適應(yīng)度值。
2" 支持向量機分類模型的建立
2.1" SVM預(yù)測原理
SVM(Support Vector Machine)是最常見的處理非線性問題的監(jiān)督學(xué)習(xí)算法,SVM通過使用核函數(shù)映射將非線性問題轉(zhuǎn)化為線性可分的分類問題,并通過帶有拉格朗日函數(shù)的方法解決最優(yōu)化問題。引入拉格朗日乘子約束數(shù)據(jù)點到超平面的距離,如式(11)所示:
[min12i=1nj=1n(a?i-ai)(a?j-aj)K(xi,xj)+εi=1n(a?i+ai)-i=1nyi(a?i-ai)s.t." " i=1n(ai-a?i)=0" " " " " " " " " " " " " " " " " " " " " " 0≤ai,a?i≤cn" " " " " " " " " " " " " " " " " " " " ] (11)
式中:[ai]和[a?i]為拉格朗日乘子,通過構(gòu)建帶有拉格朗日乘子的優(yōu)化問題,將原始問題轉(zhuǎn)變?yōu)閷窭嗜粘俗拥那蠼?。面對樣本輸入和輸出間的復(fù)雜非線性慣性,參數(shù)選取少、計算效率高的高斯徑向基核函數(shù)可以良好解決這類問題[10]。采用效果更好的徑向基公式(見式(12))為核函數(shù),利用式(11)的極小化問題解出最優(yōu)分類函數(shù)(見式(13))。
[K(xi,xj)=exp-x-y22σ2]" (12)
[f(x)=i=1n(ai-a?i)K(xi,x)+b]" (13)
2.2" 改進鯨魚算法優(yōu)化支持向量機
PAWOA算法優(yōu)化SVM模型構(gòu)建如圖1所示。
2.3" 參數(shù)優(yōu)化和評價標(biāo)準(zhǔn)
懲罰函數(shù)[C]和RBF核系數(shù)[g]對SVM的分類性能有著顯著性影響[10]。其中,懲罰系數(shù)[C]用于控制分類錯誤的懲罰程度,使決策邊界更加平滑;核系數(shù)[g]用于將原始特征空間映射到高維特征空間,決定訓(xùn)練樣本數(shù)據(jù)的范圍和分布特性,[g]值的合理取舍可以在過擬合和欠擬合間找到平衡。分類結(jié)束后,使用準(zhǔn)確率、Recall和[F1]評分作為評價指標(biāo),衡量模型的準(zhǔn)確性和精度[5]。
1) 準(zhǔn)確率:正確分類個數(shù)與總分類數(shù)的比值。
[Accuracy=ncorrectntotal]" (14)
2) Recall:也稱為召回率,表示預(yù)測結(jié)果中預(yù)測為正類占實際正類的比例。
[Recall=TPTP+FP] (15)
3) [F1]評分:Recall與準(zhǔn)確率的加權(quán)計算結(jié)果。
[F1=2×Accuracy×RecallAccuracy+Recall] (16)
3" 數(shù)據(jù)處理
原始數(shù)據(jù)集來自于葡萄牙科英布拉大學(xué)醫(yī)學(xué)院生物統(tǒng)計和醫(yī)學(xué)信息實驗室的公開數(shù)據(jù)集[7]。已知每個乳腺癌細胞共有9類特征,具體見表1,需要對正常細胞和乳腺癌細胞進行分類。
實驗中選擇抵抗素、葡萄糖、年齡和身體質(zhì)量指數(shù)作為特征用于構(gòu)造乳腺癌預(yù)測模型[7]。由于原始數(shù)據(jù)中存在缺失值、異常值、重復(fù)值等現(xiàn)象,需要對數(shù)據(jù)進行預(yù)處理,清理這些錯誤數(shù)據(jù),提高數(shù)據(jù)準(zhǔn)確性和完整性。另外,不同的數(shù)據(jù)分析算法和模型對數(shù)據(jù)的要求不同,數(shù)據(jù)預(yù)處理可以將原始數(shù)據(jù)轉(zhuǎn)換為適合特定算法或模型的形式,從而提高模型的分類準(zhǔn)確性和可解釋性。
3.1" 數(shù)據(jù)均衡化
由于數(shù)據(jù)集中的正常乳腺細胞和乳腺癌細胞的數(shù)據(jù)不平衡,分類算法往往更加偏向于多數(shù)類,忽視較少類別,導(dǎo)致模型對少類樣本的識別率降低。因此,需要對數(shù)據(jù)均衡化處理。為了解決數(shù)據(jù)不均衡可能產(chǎn)生的相對誤差,實驗引入隨機欠采樣[11]對數(shù)據(jù)集進行均衡化處理。隨機欠采樣在多類樣本中隨機抽取樣本,抽取數(shù)量與少類樣本數(shù)一致,將抽取樣本與少類樣本構(gòu)建新的數(shù)據(jù)集。
3.2" 數(shù)據(jù)歸一化
由于乳腺癌細胞特征在數(shù)據(jù)集中存在不同的度量單位和數(shù)量級,而且不同特征間存在較大差異。如果直接對原始數(shù)據(jù)進行分類處理,模型可能會更加關(guān)注較大指標(biāo)而忽視其他特征,導(dǎo)致結(jié)果出現(xiàn)相對誤差。因此,為了確保模型分類結(jié)果的有效性和可靠性,消除不同量綱數(shù)據(jù)對結(jié)果的影響,用式(17)對乳腺癌細胞的各個特征數(shù)據(jù)進行歸一化[12]處理。
[x=x-xminxmax-xmin] (17)
式中:[x]為數(shù)據(jù)值;[xmin]和[xmax]分別為各個特征最大值和最小值。
4" 實驗仿真與結(jié)論
4.1" 數(shù)據(jù)預(yù)處理
原始數(shù)據(jù)中乳腺癌細胞的數(shù)據(jù)遠多于正常乳腺細胞的數(shù)據(jù),導(dǎo)致分類模型在判斷的時候更加傾向于多類樣本。故而需要對多類樣本進行隨機欠采樣,讓兩類細胞的特征數(shù)據(jù)保持一致。之后,再對新的數(shù)據(jù)集進行歸一化處理,直接調(diào)用Python中的MaxScaler( )函數(shù)分別執(zhí)行即可。然后,劃分為訓(xùn)練集和測試集,其中訓(xùn)練集占80%,測試集為20%,具體數(shù)量分布見表2。
對數(shù)據(jù)集中的不同特征進行分析,以BMI、葡萄糖為例,對比預(yù)處理前后特征的分布,如圖2、圖3所示。由圖可知,在預(yù)處理之前,數(shù)據(jù)集的數(shù)值通常集中在一個較小的范圍內(nèi)。通過預(yù)處理,不僅可以消除特征之間的量綱差異也使得各個特征的分布更為分散。保證模型可以均衡地考慮所有類型數(shù)據(jù),提升了模型的分類可靠性。
4.2" 仿真實例
對PAWOA算法的參數(shù)設(shè)置如表3所示。
對現(xiàn)有數(shù)據(jù)預(yù)處理后,設(shè)定好初始參數(shù),劃分好數(shù)據(jù)集。將數(shù)據(jù)輸入優(yōu)化好的模型中,模型的分類精度隨著迭代次數(shù)而改變,結(jié)果如圖4所示。
由圖4可知,當(dāng)?shù)螖?shù)在15次后,模型的分類精度趨于穩(wěn)定。模型的分類精度最高達到95.24%。此時,對應(yīng)的支持向量機的懲罰系數(shù)[C]和核系數(shù)[g]分別為:0.376和0.545。為了更好地說明PAWOA優(yōu)化支持向量機具有優(yōu)越性,實驗選擇該算法與邏輯回歸、隨機森林和支持向量機進行對比,探究不同算法的分類性能。從準(zhǔn)確率、召回率和[F1]值進行評估,比較結(jié)果如表4所示。
作為檢驗算法分類性能的重要指標(biāo),準(zhǔn)確率越高,則分類算法效果越好。由表4可知:支持向量機的準(zhǔn)確率為82.86%,而隨機森林和邏輯回歸的分類準(zhǔn)確率分別為77.14%和86.67%;而本文提出的PAWOA算法優(yōu)化支持向量機對乳腺癌的識別準(zhǔn)確率達到了95.24%。另外,本文所提的優(yōu)化算法模型在召回率和[F1]值上相較其他算法也得到了提升。
5" 結(jié)" 論
本文通過改進鯨魚算法優(yōu)化支持向量機實現(xiàn)對乳腺癌的預(yù)測,得到以下結(jié)論:
1) 模型對測試集中數(shù)據(jù)表現(xiàn)出高準(zhǔn)確率的分類性能,證明該模型可以用于對新數(shù)據(jù)的屬性判斷。
2) 該模型可以將針對肥胖相關(guān)的指標(biāo)用于預(yù)測乳腺癌的存在。
注:本文通訊作者為高濤。
參考文獻
[1] 蘇愛江,羅揚,毛愛琴.超聲引導(dǎo)下穿刺活檢對早期乳腺癌的診斷價值[J].實用癌癥雜志,2018,33(3):377?379.
[2] BRAY F, FERLAY J, SOERJOMATARAM I, et al. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries [J]. CA: A cancer journal for clinicians, 2018, 68(6): 394?424.
[3] 何欣穎,吳黎明,鄭耿哲,等.基于Inception?ResNet?v2的乳腺癌輔助診斷方法[J].自動化與信息工程,2020,41(1):16?21.
[4] 齊惠穎,江雨荷.基于多組學(xué)數(shù)據(jù)融合構(gòu)建乳腺癌生存預(yù)測模型[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(8):88?93.
[5] 王冬,曲媛,劉玉航,等.基于優(yōu)化隨機森林算法的乳腺癌分類診斷[J].計算機工程與設(shè)計,2022,43(3):706?712.
[6] 鄧澤林,譚冠政,葉吉祥,等.一種用于乳腺癌診斷的免疫分類算法[J].中南大學(xué)學(xué)報(自然科學(xué)版),2010,41(4):1485?1490.
[7] PATRíCIO M, PEREIRA J, CRISóSTOMO J, et al. Using resistin, glucose, age and BMI to predict the presence of breast cancer [J]. BMC cancer, 2018, 18(1): 29.
[8] 楊炳媛,袁杰,郭園園.一種自適應(yīng)鯨魚快速優(yōu)化算法[J].計算機工程與科學(xué),2023,45(1):145?153.
[9] 馬曉寧,李笑含.基于Tent混沌映射的可復(fù)制的鯨魚算法[J].計算機仿真,2022,39(8):363?368.
[10] 李杰,靳孟宇,馬士豪.改進粒子群算法優(yōu)化支持向量機的短期負荷預(yù)測[J].測控技術(shù),2021,40(4):76?79.
[11] 肖衡,李莉莉.基于隨機欠采樣算法的信用風(fēng)險研究[J].青島大學(xué)學(xué)報(自然科學(xué)版),2022,35(4):126?130.
[12] 羅玉彬,牛冉雯.樣本數(shù)據(jù)歸一化對GPS高程轉(zhuǎn)化結(jié)果的影響分析[J].測繪通報,2013(8):33?35.
[13] 顏妍.基于改進鯨魚優(yōu)化算法的供水管網(wǎng)優(yōu)化研究[D].濟南:濟南大學(xué),2023.
作者簡介:高" 濤(1995—),男,安徽合肥人,研究生,CCF學(xué)生會員(P5782G),研究方向為機器學(xué)習(xí)。
袁德成(1960—),男,內(nèi)蒙古阿拉善左旗人,工學(xué)博士,二級教授,博士生導(dǎo)師,主要研究領(lǐng)域為建模仿真、預(yù)測控制、實時優(yōu)化、數(shù)據(jù)驅(qū)動的控制設(shè)計等。