基于統(tǒng)計(jì)學(xué)習(xí)方法的模型構(gòu)建與數(shù)據(jù)分析

2021-09-06 08:55姚瑞，唐泉

喀什大學(xué)學(xué)報 2021年3期

姚瑞，唐泉

（新疆師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院，烏魯木齊 830017）

統(tǒng)計(jì)學(xué)習(xí)，也稱為統(tǒng)計(jì)機(jī)器學(xué)習(xí)，在計(jì)算機(jī)及其應(yīng)用領(lǐng)域中具有重要意義.統(tǒng)計(jì)學(xué)習(xí)[1]的主要方法是基于數(shù)據(jù)建立統(tǒng)計(jì)模型來預(yù)測和分析數(shù)據(jù)，由監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)組成,包括k近鄰法、樸素貝葉斯方法、支持向量機(jī)等方法.半監(jiān)督學(xué)習(xí)是一種同時兼顧標(biāo)簽樣本和無標(biāo)簽樣本的學(xué)習(xí)方法，利用標(biāo)記樣本的優(yōu)點(diǎn)來精確描述單個樣本，同時使用大量無標(biāo)記數(shù)據(jù)來進(jìn)一步提高分類器的性能[2].半監(jiān)督支持向量機(jī)（S3VM）最初應(yīng)用于文本分類[3]，主要有梯度下降法（Gradient descent）[4]、確定性退火方法（Deterministic annealing）[5]和半正定規(guī)劃方法（Semi-definite programming）[6]等研究方法.模糊支持向量機(jī)在傳統(tǒng)支持向量機(jī)基礎(chǔ)上提出，分類精度和回歸精度更高，查翔等[7]提出了一種基于多區(qū)域劃分的模糊支持向量機(jī)方法；譚萍等[8]結(jié)合模糊C-均值與FSVM 提出了一種多級的模糊支持向量機(jī)對說話人進(jìn)行語音識別；Muscat R 等[9]提出了分層模糊支持向量機(jī)模型.本文討論支持向量機(jī)模型，對支持向量機(jī)模型的基本思想、發(fā)展完善及應(yīng)用情況進(jìn)行概述，并深入探討一種通過識別誤分類點(diǎn)來構(gòu)造半監(jiān)督的模糊支持向量機(jī)模型及算法實(shí)現(xiàn).

1 模糊支持向量機(jī)

1.1 線性可分的模糊支持向量機(jī)

對于模糊訓(xùn)練集

模糊約束規(guī)劃為：

其中，λ(0 ≤λ≤1)為置信區(qū)間.

其對偶問題為：

Step4：計(jì)算ω*和b*，如式（4）；

Step5：構(gòu)造最優(yōu)分類超平面(ω*·x)+b*=0，得到最優(yōu)分類函數(shù)式（5）.

2.2 非線性可分的模糊支持向量機(jī)

對于模糊非線性問題，引入變換

則對應(yīng)的模糊非線性訓(xùn)練集變換為：

其中，Xi=Φ(xi) (i=1，···，l).在置信水平λ(0 ≤λ≤1)下，模糊分類問題轉(zhuǎn)化為：

其中，C＞0為懲罰參數(shù)；ξi=(ξ1，…，ξl)T為松弛變量.

該二次規(guī)劃存在最優(yōu)解，通過取適當(dāng)?shù)暮撕瘮?shù)，使得K(xi，xj)=Φ(xi)·Φ(xj).可求得二次規(guī)劃式的對偶問題為：

最優(yōu)分類超平面為(ω*·x)+b*=0，令g(x)=(ω*·x)+b*，最優(yōu)分類函數(shù)為:

模糊支持向量機(jī)的算法：

Step1:構(gòu)造隸屬度函數(shù)，確定隸屬度

Step2：給定模糊非線性可分的訓(xùn)練集

Step3：求解線性規(guī)劃式（8）得到最優(yōu)解

Step4:求解（10），計(jì)算b*；

Step5:構(gòu)造最優(yōu)分類超平面(ω*·x)+b*=0，得到最優(yōu)分類函數(shù)式（11）.

2 一種半監(jiān)督模糊支持向量機(jī)的模型

2.1 半監(jiān)督支持向量機(jī)模型

由于可疑的誤標(biāo)記點(diǎn)仍包含有用信息，如特征位置信息，在數(shù)據(jù)分類中仍起重要作用，為充分利用可疑的誤標(biāo)記點(diǎn)，下文使用位置信息的方法獲得最佳分離.

對于集合S中任一點(diǎn)，保留位置信息xi，刪除標(biāo)簽yi.令Xl=S表示所有標(biāo)簽訓(xùn)練點(diǎn)數(shù)據(jù)集，Xu={1，…，n} 是無標(biāo)簽訓(xùn)練點(diǎn)的數(shù)據(jù)集.假設(shè)令yi表示標(biāo)簽向量，軟間隔的半監(jiān)督二次曲面支持向量機(jī)(SSQSSVM)模型:

2.2 分支與界定算法

令α≥0n為拉格朗日對偶變量，則問題（12）的拉格朗日函數(shù)可寫為：

對于一個給定的yu，任意向量α(yu) 使D(α(yu)，yu)≤maxαD(α，yu).

SVM 最優(yōu)值為下界，所有葉節(jié)點(diǎn)中目標(biāo)函數(shù)的最優(yōu)值為上界.

2.3 半監(jiān)督模糊支持向量機(jī)算法

輸入：訓(xùn)練數(shù)據(jù)集(xi，yi) (i=1，…，n)；ε.

Step1：用CL-stability 算法檢測訓(xùn)練集中可疑的錯誤標(biāo)記點(diǎn)并刪除標(biāo)簽.獲得數(shù)據(jù)集Xl和Xuχu.設(shè)k=1，U=+∞.將原始問題重新定義為（12）.

Step3:找到具有最小下界L的節(jié)點(diǎn).如果U-L＜ε，則在該節(jié)點(diǎn)獲得返回值uˉ，算法停止并進(jìn)行Step4；否則，遵循深度優(yōu)先策略到達(dá)下一個節(jié)點(diǎn).給無標(biāo)記的點(diǎn)si分配標(biāo)簽yi，用分支相應(yīng)的si及標(biāo)簽-yi探索相反的分支.返回Step2.

Step4:通過分解（14）中的uˉ得到原始空間中的分離二次曲面.

3 算法的MATLAB實(shí)現(xiàn)

3.1 MATLAB中的SVM算例

圖1 和圖2 是人工數(shù)據(jù)集分類結(jié)果，準(zhǔn)確率達(dá)到100%.

圖1 線性可分支持向量機(jī)

圖2 線性不可分支持向量機(jī)

圖3 使用Iris 數(shù)據(jù)集，在實(shí)驗(yàn)精度0.80的閾值下，選取數(shù)據(jù)中前兩個特征值，進(jìn)行實(shí)驗(yàn).

圖3 Iris數(shù)據(jù)集實(shí)驗(yàn)

3.2 實(shí)例分析

本節(jié)將支持向量機(jī)應(yīng)用到國有企業(yè)管理者的考評系統(tǒng)中，將企業(yè)管理者的表現(xiàn)分為優(yōu)、良、中、差四個等級，由于支持向量機(jī)是二分類模型，所以需要將多個支持向量機(jī)以子分類器的形式加以組合.

表1將14家國有控股企業(yè)的管理者作為樣本,數(shù)據(jù)來源于毛惠媛對東北地區(qū)企業(yè)家管理創(chuàng)新機(jī)制的研究[10],用支持向量機(jī)對企業(yè)管理者的績效進(jìn)行考核等級的分類處理.

表1 國有企業(yè)管理者評價指標(biāo)得分表

由表1 可以看出,對企業(yè)管理者的考評打分的量綱是不同的,為了消除這一偏差,我們先對所有數(shù)據(jù)進(jìn)行歸一化處理,得到如表2中數(shù)據(jù).

表2 國有企業(yè)管理者評價指標(biāo)得分歸一化處理結(jié)果

在給出的14 位企業(yè)管理者的數(shù)據(jù)中,首先選定1～12 號企業(yè)管理者的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),13 號與14 號企業(yè)管理者為測試數(shù)據(jù)集.1—3 號企業(yè)管理者的分類為優(yōu);4—6 號企業(yè)管理者的分類為良,7—9 號企業(yè)管理者的分類為中,10—12 號企業(yè)管理者的分類為差.

將上述分類數(shù)據(jù)兩兩組合構(gòu)造子分類器,既構(gòu)造優(yōu)-良、優(yōu)-中、優(yōu)-差、良-中、良-差、中-差六個分類器,對進(jìn)行數(shù)據(jù)訓(xùn)練.由于上述訓(xùn)練數(shù)據(jù)集可能存在誤分類數(shù)據(jù),于是可以構(gòu)造模糊支持向量機(jī),將測試集分別帶入6 個子分類器中,出現(xiàn)頻數(shù)最多的分類結(jié)果認(rèn)定為對企業(yè)管理者績效的分類最終結(jié)果.訓(xùn)練得到六個子分類器的分類閾值分別為:-0.0244;-0.0082;-0.0214;0.5579;-0.2947;0.479.(詳見表3)

表3 測試集分類結(jié)果

從表3知，13號企業(yè)管理者的績效考核分類結(jié)果為“差”，14 號企業(yè)管理者的績效考核分類結(jié)果為“中”.

4 總結(jié)

本文提出的半監(jiān)督模糊支持向量機(jī)方法有效地縮短了計(jì)算時間，該算法比基準(zhǔn)SDP 松弛方法更高效.另外，本文將SVM 方法應(yīng)用于企業(yè)管理者的表現(xiàn)等級評定系統(tǒng)這一實(shí)際問題，得到較好的分類結(jié)果.但該方法處理大規(guī)模的數(shù)據(jù)集（n＞＞1000）方面受限制.后續(xù)，我們將考慮如何解決此問題.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡