国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于標(biāo)準(zhǔn)數(shù)據(jù)集的分類器融合學(xué)習(xí)模型

2020-06-30 10:15吳疆劉歡董婷
微型電腦應(yīng)用 2020年4期
關(guān)鍵詞:支持向量機(jī)

吳疆 劉歡 董婷

摘 要:?判別式分類器通過生成不同復(fù)雜度的指示函數(shù)去調(diào)節(jié)算法與所解決問題的適應(yīng)性,能有效地避免過擬合現(xiàn)象。分類器融合方法就是應(yīng)用單個分類器對特定樣本預(yù)報的特異性來提高模型的整體預(yù)測精度,應(yīng)用支持向量機(jī)(SVM)對乳腺癌數(shù)據(jù)進(jìn)行建模,通過選取不同的模型參數(shù)(徑向基核函數(shù)參數(shù)gamma和正則化約束參數(shù)cost)構(gòu)建9個單分類器,通過投票策略在單分類器上構(gòu)建融合分類器,融合模型對乳腺癌數(shù)據(jù)的預(yù)測精度為98.59%,相比單分類模型對此數(shù)據(jù)集的預(yù)測精度97.72%有明顯的競爭力,試驗結(jié)果表明融合模型能有效提升分類器的泛化能力。

關(guān)鍵詞:?支持向量機(jī); 交叉驗證; 分類器融合

中圖分類號: TP 391? ? ? 文獻(xiàn)標(biāo)志碼: A

Classifier Fusion Learning Model Based on Standard Dataset

WU Jiang, LIU Huan, DONG Ting

(School of Information of Engineering, Yulin University, Yulin, Shanxi? 719000, China)

Abstract:

The discriminant classifier generates indicators with different complexitres that adjusts flexibility between method and problems, which can efficiently avoid the over-learning. Fusion method is to improve the prediction accuracy by summarizing the specificities of individual classifiers. The purpose of the study is to predict breast cancer with support vector machine (SVM). Nine individual classifiers are trained by selecting different parameters (gamma of radial basis function, cost of regularization parameter), on which the fusion classifier is construct by using voting strategy. 98.59% prediction accuracy is obtained, it is very promising compared with 97.72% obtained by optimal individual classifier. The experimental results indicate that the ensemble model can enhance the prediction accuracy.

Key words:

support vector machine; cross validation; classifier fusion

0 引言

融合方法(Ensemble methods)能有效提高個體分類器預(yù)測精度,通過組合單個分類器或者不同的輸出特征來提高分類器的預(yù)測精度,其核心內(nèi)容是將多個單分類器的輸出結(jié)果通過某種決策給出最終的融合結(jié)果,期望融合多個分類器對樣本預(yù)測的特異性來提高對樣本的整體預(yù)測性能,得到比單個分類器更好的泛化能力。融合分類器主要有以下幾種方式:(1)單分類器輸出的對待測樣本的類別決策(預(yù)測結(jié)果),然后通過某種決策,如投票策略來確定最終的融合結(jié)果,這個方式也叫做決策層融合;(2)將每個單分類器對待測樣本的決策輸出(樣本類別或決策實值)構(gòu)建新的訓(xùn)練集訓(xùn)練二級決策模型,這種方法也叫做度量層融合。

分類器融合方法在很多領(lǐng)域的應(yīng)用取得巨大成功,應(yīng)用玉米葉部病害識別[1]、手語識別 [2]、多分類器融合提取土壤養(yǎng)分特征波[3]、基于多分類器融合的衛(wèi)星圖像艦船目標(biāo)識別[4]及結(jié)合時序方法與環(huán)境變量的煤礦生產(chǎn)過程控制[5]等。

實驗通過投票策略構(gòu)建支持向量機(jī)[6-7]融合分類器對乳腺癌數(shù)據(jù)進(jìn)行預(yù)測,期望融合方法能有效提高單分類器的預(yù)測準(zhǔn)確率。

1 方法和數(shù)據(jù)

1.1 數(shù)據(jù)來源

試驗所用數(shù)據(jù)威斯康星乳腺癌數(shù)據(jù)庫(Wisconsin Breast Cancer Database),如圖1所示。

來源于機(jī)器學(xué)習(xí)標(biāo)準(zhǔn)數(shù)據(jù)庫(UCI Repository of Machine Learning Databases),共有569條數(shù)據(jù),其中有212條數(shù)據(jù)來源于惡性的乳腺細(xì)胞的測試數(shù)據(jù),占整體數(shù)據(jù)的37.26%;剩余的357條均來源于良性的乳腺細(xì)胞的測試數(shù)據(jù),占到整體乳腺癌數(shù)據(jù)的62.74%。其中每一條數(shù)據(jù)都具有30個特征,原始數(shù)據(jù)中第一列表示數(shù)據(jù)的Id號,第二列是數(shù)據(jù)類別,表示數(shù)據(jù)的屬性是良性還是惡性,M代表惡性乳腺細(xì)胞,B代表良性乳腺細(xì)胞。剩余的數(shù)據(jù)項為乳腺癌數(shù)據(jù)的30個診斷特征,對乳腺癌數(shù)據(jù)30個屬性的統(tǒng)計結(jié)果,如表1所示。

1.2 模型評價參數(shù)

靈敏度(Sensitivity)、特異性(Specificity)、準(zhǔn)確度(Accuracy)用來評價模型的預(yù)報性能和泛化能力。其中TP代表將正樣本預(yù)測為正樣本的個數(shù),TN代表將負(fù)樣本模型預(yù)測為負(fù)樣本的個數(shù),F(xiàn)N代表將正樣本模型預(yù)測為負(fù)樣本的個數(shù),F(xiàn)P代表將負(fù)樣本模型預(yù)測為正樣本的個數(shù)。靈敏度評價模型對正樣本預(yù)測的準(zhǔn)確度,特異性表達(dá)模型是對負(fù)樣本的預(yù)測精度,準(zhǔn)確度評價模型對樣本數(shù)據(jù)的整體預(yù)報能力,三個評價參數(shù)的聯(lián)合應(yīng)用就可以評價模型對樣本數(shù)據(jù)預(yù)報的穩(wěn)定性,如式(1)—(3)。

2 試驗結(jié)果與討論

2.1 支持向量機(jī)算法用于乳腺癌數(shù)據(jù)建模

本實驗數(shù)據(jù)集共兩類樣本569條數(shù)據(jù),屬于小樣本學(xué)習(xí)問題,將良性乳腺細(xì)胞定義為正樣本,惡性乳腺細(xì)胞定義為負(fù)樣本訓(xùn)練SVM分類器。選用徑向基核函數(shù),8-fold交叉驗證和Grid方法用來挑選最優(yōu)分類器參數(shù)gamma, cost。

首先將數(shù)據(jù)集平分為8個子集(7個子集樣本數(shù)為71,一個子集樣本數(shù)為72)。然后依次選取其中7個子集作為訓(xùn)練集,剩余的一個子集作為預(yù)測集構(gòu)建8個最優(yōu)分類器,分類模型對乳腺癌數(shù)據(jù)的預(yù)測結(jié)果。如表2所示。

2.2 融合分類器算法用于乳腺癌數(shù)據(jù)建模

分類器融合方法通過一定的融合決策組合個體分類器對樣本預(yù)測的特異性來提高整體分類性能,大量的研究結(jié)果表明分類器融合方法能有效提高分類器的預(yù)測精度,融合模型如何組合個體分類器對特定樣本預(yù)測的特異性來提高模型對樣本數(shù)據(jù)的預(yù)測精度,如圖2所示。

通過選取不同的參數(shù)g, c訓(xùn)練9個支持向量機(jī)單分類器(選取訓(xùn)練奇數(shù)個單分類器可以避免融合模型投票策略出現(xiàn)沖突現(xiàn)象),假設(shè)乳腺癌樣本x, SVM(j,x)表示第j個分類器對樣本x的預(yù)測結(jié)果,二分類問題中預(yù)測結(jié)果用于乳腺癌數(shù)據(jù)預(yù)測流程將所有個體分類器對乳腺癌樣本x的預(yù)測結(jié)果進(jìn)行統(tǒng)計分析,半單分類器的預(yù)測結(jié)果半數(shù)以上是融合模型對樣本的最終預(yù)測結(jié)果,則融合分類器對乳腺癌樣本x的預(yù)測結(jié)果C(x)運(yùn)用投票規(guī)則可以表示為公式(5)所示。

在公式(5)中,a用來控制投票機(jī)制的松弛度,當(dāng)a取值為1時,要求所有個體分類器對樣本x的預(yù)測結(jié)果一致,在本實驗中,選取a=0.5,也就是說融合模型對樣本x的預(yù)測結(jié)果以半數(shù)以上單分類器對樣本x的預(yù)測結(jié)果為準(zhǔn)。融合SVM分類器對乳腺癌數(shù)據(jù)的預(yù)測結(jié)果,如表3所示。

運(yùn)用多數(shù)投票法對個體分類器的特定樣本的預(yù)測特異性進(jìn)行融合,能獲得更好的預(yù)測準(zhǔn)確度,與二分類SVM在相同數(shù)據(jù)集上所得到的預(yù)測結(jié)果相比,能夠得到比之前更好的預(yù)報能力,降低對正負(fù)樣本預(yù)測偏置,融合分類器具有更好的置信度和穩(wěn)定性。融合模型與最優(yōu)SVM單分類器對乳腺癌數(shù)據(jù)的預(yù)測結(jié)果,如表4所示。

運(yùn)用多數(shù)投票法構(gòu)建融合模型對乳腺癌數(shù)據(jù)的預(yù)測結(jié)果可以看出,靈敏度相較于單分類器提高了0.22%,特異性提高了0.72%,準(zhǔn)確度提高了0.87%。融合模型對數(shù)據(jù)集的預(yù)測精度提高不大是因為單分類模型本身具有很好的泛化能力,在這個基礎(chǔ)上仍然能提高預(yù)測準(zhǔn)確率說明這種融合算法能有效提升單分類器的預(yù)報精度,獲得更加平衡穩(wěn)定的模型。

3 總結(jié)

SVM融合分類器方法用乳腺癌數(shù)據(jù)建模,實驗結(jié)果表明分類器融合方法能有效提高模型的預(yù)測性能。在實驗過程中發(fā)現(xiàn)選擇不同的單分類器構(gòu)建融合分類器,導(dǎo)致具有不同泛化能力的融合模型。如何選擇合適的單分類器來融合是構(gòu)造出具有更好泛化能力融合分類器的關(guān)鍵環(huán)節(jié),在后續(xù)工作中將重點研究一種主動的方法來挑選具有顯著預(yù)測特異性的單分類器,從而構(gòu)建性能更優(yōu)異的融合分類器。

參考文獻(xiàn)

[1] 許良鳳,徐小兵,胡敏,等.基于多分類器融合的玉米葉部病害識別[J]. 農(nóng)業(yè)工程學(xué)報,2015(14):194-201.

[2] 林亞飛,曾曉勤. 融合SURF與sEMG特征的手語識別研究[J]. 微型電腦應(yīng)用, 2019,35(4):55-57

[3] 李雪瑩,范萍萍, 劉巖, 等. 多分類器融合提取土壤養(yǎng)分特征波長[J]. 光譜學(xué)與光譜分析, 2019, 39(9):2862-2867.

[4] 張曉,王莉莉. 基于多分類器融合的衛(wèi)星圖像艦船目標(biāo)識別[J]. 通信技術(shù),2019, 52(9):2143-2148.

[5] Feng Z, Zhu S, Wu J, et al. Theory and Method of Time-varying Computational Experiments for the Fully Mechanized Mining Process in an Artificial System Environment[J]. IEEE Access, 2019, 7(6): 168162-168174.

[6] 吳迪,焦東升,張筱,等. 基于SVM 的鋼坯號自動識別算法[J]. 微型電腦應(yīng)用, 2011, 27(10): 49-51.

[7] 曹納. 基于支持向量機(jī)的企業(yè)財務(wù)風(fēng)險預(yù)警系統(tǒng)設(shè)計[J]. 微型電腦應(yīng)用,2018,34(8):73-77.

(收稿日期: 2019.07.28)

猜你喜歡
支持向量機(jī)
基于支持向量回歸機(jī)的電能質(zhì)量評估
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
數(shù)據(jù)挖掘技術(shù)在電廠經(jīng)濟(jì)性分析系統(tǒng)中的應(yīng)用Q
基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報模型
基于SVM的煙草銷售量預(yù)測
動態(tài)場景中的視覺目標(biāo)識別方法分析
論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
管理類研究生支持向量機(jī)預(yù)測決策實驗教學(xué)研究
灵石县| 南昌市| 南漳县| 临泽县| 光山县| 灵石县| 界首市| 什邡市| 安徽省| 南投县| 康保县| 二连浩特市| 台南市| 平湖市| 淮阳县| 松阳县| 黄浦区| 宜阳县| 郓城县| 永丰县| 伊春市| 敖汉旗| 屏东县| 玉林市| 栖霞市| 乌兰察布市| 红桥区| 五指山市| 塔河县| 固原市| 靖安县| 镇原县| 长丰县| 万山特区| 肇州县| 沅陵县| 峨眉山市| 乐清市| 温州市| 涞源县| 宝坻区|