国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)學(xué)習(xí)方法的模型構(gòu)建與數(shù)據(jù)分析

2021-09-06 08:55瑞,唐
喀什大學(xué)學(xué)報 2021年3期
關(guān)鍵詞:企業(yè)管理者分類器向量

姚 瑞,唐 泉

(新疆師范大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,烏魯木齊 830017)

統(tǒng)計(jì)學(xué)習(xí),也稱為統(tǒng)計(jì)機(jī)器學(xué)習(xí),在計(jì)算機(jī)及其應(yīng)用領(lǐng)域中具有重要意義.統(tǒng)計(jì)學(xué)習(xí)[1]的主要方法是基于數(shù)據(jù)建立統(tǒng)計(jì)模型來預(yù)測和分析數(shù)據(jù),由監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)組成,包括k近鄰法、樸素貝葉斯方法、支持向量機(jī)等方法.半監(jiān)督學(xué)習(xí)是一種同時兼顧標(biāo)簽樣本和無標(biāo)簽樣本的學(xué)習(xí)方法,利用標(biāo)記樣本的優(yōu)點(diǎn)來精確描述單個樣本,同時使用大量無標(biāo)記數(shù)據(jù)來進(jìn)一步提高分類器的性能[2].半監(jiān)督支持向量機(jī)(S3VM)最初應(yīng)用于文本分類[3],主要有梯度下降法(Gradient descent)[4]、確定性退火方法(Deterministic annealing)[5]和半正定規(guī)劃方法(Semi-definite programming)[6]等研究方法.模糊支持向量機(jī)在傳統(tǒng)支持向量機(jī)基礎(chǔ)上提出,分類精度和回歸精度更高,查翔等[7]提出了一種基于多區(qū)域劃分的模糊支持向量機(jī)方法;譚萍等[8]結(jié)合模糊C-均值與FSVM 提出了一種多級的模糊支持向量機(jī)對說話人進(jìn)行語音識別;Muscat R 等[9]提出了分層模糊支持向量機(jī)模型.本文討論支持向量機(jī)模型,對支持向量機(jī)模型的基本思想、發(fā)展完善及應(yīng)用情況進(jìn)行概述,并深入探討一種通過識別誤分類點(diǎn)來構(gòu)造半監(jiān)督的模糊支持向量機(jī)模型及算法實(shí)現(xiàn).

1 模糊支持向量機(jī)

1.1 線性可分的模糊支持向量機(jī)

對于模糊訓(xùn)練集

模糊約束規(guī)劃為:

其中,λ(0 ≤λ≤1)為置信區(qū)間.

其對偶問題為:

Step4:計(jì)算ω*和b*,如式(4);

Step5:構(gòu)造最優(yōu)分類超平面(ω*·x)+b*=0,得到最優(yōu)分類函數(shù)式(5).

2.2 非線性可分的模糊支持向量機(jī)

對于模糊非線性問題,引入變換

則對應(yīng)的模糊非線性訓(xùn)練集變換為:

其中,Xi=Φ(xi) (i=1,···,l).在置信水平λ(0 ≤λ≤1)下,模糊分類問題轉(zhuǎn)化為:

其中,C>0為懲罰參數(shù);ξi=(ξ1,…,ξl)T為松弛變量.

該二次規(guī)劃存在最優(yōu)解,通過取適當(dāng)?shù)暮撕瘮?shù),使得K(xi,xj)=Φ(xi)·Φ(xj).可求得二次規(guī)劃式的對偶問題為:

最優(yōu)分類超平面為(ω*·x)+b*=0,令g(x)=(ω*·x)+b*,最優(yōu)分類函數(shù)為:

模糊支持向量機(jī)的算法:

Step1:構(gòu)造隸屬度函數(shù),確定隸屬度

Step2:給定模糊非線性可分的訓(xùn)練集

Step3:求解線性規(guī)劃式(8)得到最優(yōu)解

Step4:求解(10),計(jì)算b*;

Step5:構(gòu)造最優(yōu)分類超平面(ω*·x)+b*=0,得到最優(yōu)分類函數(shù)式(11).

2 一種半監(jiān)督模糊支持向量機(jī)的模型

2.1 半監(jiān)督支持向量機(jī)模型

由于可疑的誤標(biāo)記點(diǎn)仍包含有用信息,如特征位置信息,在數(shù)據(jù)分類中仍起重要作用,為充分利用可疑的誤標(biāo)記點(diǎn),下文使用位置信息的方法獲得最佳分離.

對于集合S中任一點(diǎn),保留位置信息xi,刪除標(biāo)簽yi.令Xl=S表示所有標(biāo)簽訓(xùn)練點(diǎn)數(shù)據(jù)集,Xu={1,…,n} 是無標(biāo)簽訓(xùn)練點(diǎn)的數(shù)據(jù)集.假設(shè)令yi表示標(biāo)簽向量,軟間隔的半監(jiān)督二次曲面支持向量機(jī)(SSQSSVM)模型:

2.2 分支與界定算法

令α≥0n為拉格朗日對偶變量,則問題(12)的拉格朗日函數(shù)可寫為:

對于一個給定的yu,任意向量α(yu) 使D(α(yu),yu)≤maxαD(α,yu).

SVM 最優(yōu)值為下界,所有葉節(jié)點(diǎn)中目標(biāo)函數(shù)的最優(yōu)值為上界.

2.3 半監(jiān)督模糊支持向量機(jī)算法

輸入:訓(xùn)練數(shù)據(jù)集(xi,yi) (i=1,…,n);ε.

Step1:用CL-stability 算法檢測訓(xùn)練集中可疑的錯誤標(biāo)記點(diǎn)并刪除標(biāo)簽.獲得數(shù)據(jù)集Xl和Xuχu.設(shè)k=1,U=+∞.將原始問題重新定義為(12).

Step3:找到具有最小下界L的節(jié)點(diǎn).如果U-L<ε,則在該節(jié)點(diǎn)獲得返回值uˉ,算法停止并進(jìn)行Step4;否則,遵循深度優(yōu)先策略到達(dá)下一個節(jié)點(diǎn).給無標(biāo)記的點(diǎn)si分配標(biāo)簽yi,用分支相應(yīng)的si及標(biāo)簽-yi探索相反的分支.返回Step2.

Step4:通過分解(14)中的uˉ得到原始空間中的分離二次曲面.

3 算法的MATLAB實(shí)現(xiàn)

3.1 MATLAB中的SVM算例

圖1 和圖2 是人工數(shù)據(jù)集分類結(jié)果,準(zhǔn)確率達(dá)到100%.

圖1 線性可分支持向量機(jī)

圖2 線性不可分支持向量機(jī)

圖3 使用Iris 數(shù)據(jù)集,在實(shí)驗(yàn)精度0.80的閾值下,選取數(shù)據(jù)中前兩個特征值,進(jìn)行實(shí)驗(yàn).

圖3 Iris數(shù)據(jù)集實(shí)驗(yàn)

3.2 實(shí)例分析

本節(jié)將支持向量機(jī)應(yīng)用到國有企業(yè)管理者的考評系統(tǒng)中,將企業(yè)管理者的表現(xiàn)分為優(yōu)、良、中、差四個等級,由于支持向量機(jī)是二分類模型,所以需要將多個支持向量機(jī)以子分類器的形式加以組合.

表1將14家國有控股企業(yè)的管理者作為樣本,數(shù)據(jù)來源于毛惠媛對東北地區(qū)企業(yè)家管理創(chuàng)新機(jī)制的研究[10],用支持向量機(jī)對企業(yè)管理者的績效進(jìn)行考核等級的分類處理.

表1 國有企業(yè)管理者評價指標(biāo)得分表

由表1 可以看出,對企業(yè)管理者的考評打分的量綱是不同的,為了消除這一偏差,我們先對所有數(shù)據(jù)進(jìn)行歸一化處理,得到如表2中數(shù)據(jù).

表2 國有企業(yè)管理者評價指標(biāo)得分歸一化處理結(jié)果

在給出的14 位企業(yè)管理者的數(shù)據(jù)中,首先選定1~12 號企業(yè)管理者的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),13 號與14 號企業(yè)管理者為測試數(shù)據(jù)集.1—3 號企業(yè)管理者的分類為優(yōu);4—6 號企業(yè)管理者的分類為良,7—9 號企業(yè)管理者的分類為中,10—12 號企業(yè)管理者的分類為差.

將上述分類數(shù)據(jù)兩兩組合構(gòu)造子分類器,既構(gòu)造優(yōu)-良、優(yōu)-中、優(yōu)-差、良-中、良-差、中-差六個分類器,對進(jìn)行數(shù)據(jù)訓(xùn)練.由于上述訓(xùn)練數(shù)據(jù)集可能存在誤分類數(shù)據(jù),于是可以構(gòu)造模糊支持向量機(jī),將測試集分別帶入6 個子分類器中,出現(xiàn)頻數(shù)最多的分類結(jié)果認(rèn)定為對企業(yè)管理者績效的分類最終結(jié)果.訓(xùn)練得到六個子分類器的分類閾值分別為:-0.0244;-0.0082;-0.0214;0.5579;-0.2947;0.479.(詳見表3)

表3 測試集分類結(jié)果

從表3知,13號企業(yè)管理者的績效考核分類結(jié)果為“差”,14 號企業(yè)管理者的績效考核分類結(jié)果為“中”.

4 總結(jié)

本文提出的半監(jiān)督模糊支持向量機(jī)方法有效地縮短了計(jì)算時間,該算法比基準(zhǔn)SDP 松弛方法更高效.另外,本文將SVM 方法應(yīng)用于企業(yè)管理者的表現(xiàn)等級評定系統(tǒng)這一實(shí)際問題,得到較好的分類結(jié)果.但該方法處理大規(guī)模的數(shù)據(jù)集(n>>1000)方面受限制.后續(xù),我們將考慮如何解決此問題.

猜你喜歡
企業(yè)管理者分類器向量
企業(yè)管理者縱論品牌建設(shè)
向量的分解
學(xué)貫中西(6):闡述ML分類器的工作流程
聚焦“向量與三角”創(chuàng)新題
基于樸素Bayes組合的簡易集成分類器①
基于特征選擇的SVM選擇性集成學(xué)習(xí)方法
中國企業(yè)管理者心理健康調(diào)查研究
基于差異性測度的遙感自適應(yīng)分類器選擇
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
江达县| 北宁市| 镇康县| 德令哈市| 萨嘎县| 永平县| 云梦县| 同德县| 平乐县| 新巴尔虎右旗| 昔阳县| 台中市| 信阳市| 西昌市| 措勤县| 邢台市| 桦甸市| 光泽县| 霸州市| 深州市| 区。| 华容县| 商河县| 界首市| 岢岚县| 阿克苏市| 临澧县| 甘孜| 芜湖县| 台南市| 凤阳县| 长宁县| 翼城县| 东平县| 江油市| 镶黄旗| 庐江县| 万州区| 尉犁县| 离岛区| 旬阳县|