国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向不平衡數(shù)據(jù)的分類算法①

2019-08-22 02:30:46蔣宗禮史倩月
關(guān)鍵詞:編碼器分類器預(yù)處理

蔣宗禮, 史倩月

(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

不平衡數(shù)據(jù)指在數(shù)據(jù)集中一類或多類的樣本數(shù)量遠(yuǎn)遠(yuǎn)超過其他類的樣本數(shù)量,疾病診斷[1]、情感識別[2]、故障診斷[3]等常見數(shù)據(jù)都是不平衡數(shù)據(jù).通常,令多數(shù)類樣本為負(fù)類,少數(shù)類樣本為正類. 傳統(tǒng)分類算法使用不平衡數(shù)據(jù)時(shí)的分類結(jié)果往往偏向多數(shù)類樣本,性能較差,提高不平衡數(shù)據(jù)的分類精度成為當(dāng)前的研究熱點(diǎn).

針對上述問題,Chawla等人[4]提出SMOTE (Synthetic Minority Oversampling Technique),該算法在少數(shù)類樣本與其鄰近點(diǎn)間通過乘以0到1的隨機(jī)數(shù)線性插入樣本. Han H等人[5]提出Borderline-SMOTE方法,將樣本數(shù)據(jù)點(diǎn)分為安全點(diǎn)、邊界點(diǎn)和噪音點(diǎn),在分類邊界通過SMOTE方法生成數(shù)據(jù). Barua等人[6]提出MWMOTE,根據(jù)少數(shù)類樣本距離和密度因素賦予對應(yīng)信息權(quán)重,使用聚類方法生成簇并用SMOTE合成少數(shù)類樣本.以上方法多數(shù)在邊界生成數(shù)據(jù),容易造成模糊邊界的問題,并且多以歐幾里得距離計(jì)算樣本的分布,難以接近真實(shí)的數(shù)據(jù)分布,可能會產(chǎn)生噪聲而誤分.

變分自編碼器(Variational Auto Encoder,VAE)[7]是由Kingma DP和Welling M在2014年提出的生成模型,是深度學(xué)習(xí)方法中的一種無監(jiān)督模型. 作為熱門的生成模型之一,已有許多學(xué)者對其進(jìn)行研究,文獻(xiàn)[8]提出基于變分自編碼器進(jìn)行異常檢測,文獻(xiàn)[9]使用變分自編碼器提取語言特征,文獻(xiàn)[10]提出了一種基于變分貝葉斯自編碼器的局部放電數(shù)據(jù)匹配方法.

現(xiàn)有的過采樣預(yù)處理方法主要通過計(jì)算歐幾里得距離、密度等影響因素來學(xué)習(xí)數(shù)據(jù)間的分布. 然而,隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)以大容量、高維度、不平衡的趨勢遞增,只根據(jù)簡單的衡量因素生成的樣本無法全面代表大量的高維樣本數(shù)據(jù). VAE已廣泛應(yīng)用于計(jì)算機(jī)視覺、圖像處理、自然語言處理等領(lǐng)域. 但其發(fā)展時(shí)間較短,還需突破更多的領(lǐng)域,本文對其做了探索,結(jié)合過采樣來解決不平衡數(shù)據(jù)引起分類誤差問題.

不平衡數(shù)據(jù)分類問題廣泛影響著現(xiàn)實(shí)生活. 例如,醫(yī)療診斷領(lǐng)域的基因表達(dá)樣本,其特征展現(xiàn)出高緯度的特點(diǎn),決定疾病的特征占其中的極少數(shù),同時(shí),疾病的樣本數(shù)量遠(yuǎn)遠(yuǎn)小于其他的樣本數(shù)量,呈現(xiàn)出高度的高維不平衡性使數(shù)據(jù)分類時(shí)忽略極少數(shù)的癌變基因.在銀行信用卡欺詐檢測中,欺詐交易占數(shù)據(jù)的極少數(shù)使分類容易誤分欺詐交易數(shù)據(jù),而對欺詐數(shù)據(jù)的誤分類造成的代價(jià)往往更嚴(yán)重. 網(wǎng)絡(luò)入侵、情感分類、語音識別等領(lǐng)域都存在明顯的數(shù)據(jù)不平衡特性. 為驗(yàn)證本文提出模型可以有效改善原始不平衡數(shù)據(jù)對分類產(chǎn)生的偏斜影響,使用UCI數(shù)據(jù)庫四個(gè)常用的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果證明使用變分自編碼器數(shù)據(jù)預(yù)處理相比其它過采樣算法提高了算法的F_measure和G_mean,具有重要的現(xiàn)實(shí)意義.

1 相關(guān)工作

1.1 不平衡數(shù)據(jù)處理常用方法

不平衡數(shù)據(jù)訓(xùn)練時(shí)多數(shù)類樣本信息占主導(dǎo)地位,導(dǎo)致分類結(jié)果偏向多數(shù)類樣本,主要有數(shù)據(jù)層面和算法層面的解決辦法[11].

數(shù)據(jù)層面通過重新分布數(shù)據(jù)以減小不平衡度,包括欠采樣,過采樣和混合采樣. 欠采樣即去除多數(shù)類樣本,如隨機(jī)欠采樣、Tomek Links,欠采樣方法雖然可以使數(shù)據(jù)達(dá)到平衡狀態(tài),但是在減少樣本的同時(shí)也減少了對分類有重要影響的樣本信息,會影響分類結(jié)果.過采樣即增加少數(shù)類樣本,如隨機(jī)過采樣、SMOTE、Borderline-SMOTE,但其容易導(dǎo)致分類過擬合,且存在模糊邊界等問題. 混合采樣結(jié)合欠采樣和過采樣方法,如SMOTE+Tomek Link算法[12],該算法首先使用SMOTE生成數(shù)據(jù),然后利用Tomek Link方法清理噪聲數(shù)據(jù).

算法層面典型的解決方法有代價(jià)敏感算法[13]和集成學(xué)習(xí)方法[14]. 代價(jià)敏感方法對不同的類賦予不同的錯(cuò)分代價(jià)以降低少數(shù)類樣本的錯(cuò)分率,集成學(xué)習(xí)方法集合多個(gè)弱分類器并賦予不同的權(quán)重來提高分類性能.算法層面的解決方法主要針對某一類數(shù)據(jù)集改進(jìn),難以擴(kuò)展.

1.2 自動編碼器

自動編碼器(Auto-Encoder)由Rumelhart在1986年提出,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示. 其中,輸入層到隱藏層的映射表示為編碼器,隱藏層映射到輸出層構(gòu)成解碼器.

圖1 自動編碼器網(wǎng)絡(luò)結(jié)構(gòu)圖

編碼過程:

解碼過程:

其中,w,w′為權(quán)重矩陣,b,b′為偏置項(xiàng). s(x)為激活函數(shù),通常取線性函數(shù)或者Sigmoid函數(shù).

自動編碼器首先對輸入向量x編碼得到編碼結(jié)果z,然后對z解碼得到重構(gòu)向量x′. 其學(xué)習(xí)過程是無監(jiān)督的,目標(biāo)是使輸出數(shù)據(jù)盡可能重現(xiàn)輸入數(shù)據(jù),即最小化重構(gòu)誤差.

自動編碼器是一種數(shù)據(jù)壓縮算法,編碼階段將高維數(shù)據(jù)映射成低維數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的特征提取,解碼階段則與編碼階段相反,從而實(shí)現(xiàn)對輸入數(shù)據(jù)的復(fù)現(xiàn)[15].

2 改進(jìn)的不平衡數(shù)據(jù)分類模型

深度學(xué)習(xí)通過對輸入數(shù)據(jù)進(jìn)行多層特征變換可學(xué)習(xí)到更復(fù)雜的數(shù)據(jù)特征,變分自編碼器由神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練樣本的分布,可以生成與訓(xùn)練樣本近似的數(shù)據(jù),本文結(jié)合變分自編碼器解決傳統(tǒng)過采樣技術(shù)的過擬合問題.

2.1 變分自編碼器

變分自編碼器基于變分下界和貝葉斯理論,目標(biāo)是最大化邊緣似然函數(shù)的變分下界,其模型圖如圖2所示.

圖2 變分自編碼器的圖模型

其中,z為隱變量,x是希望生成的目標(biāo)數(shù)據(jù). 虛線表示后驗(yàn)分布pθ(x|z)的近似分布qφ(z|x),實(shí)線表示生成模型pθ(x|z)pθ(z),φ,θ是在訓(xùn)練過程中共同學(xué)習(xí)的網(wǎng)絡(luò)層參數(shù)[16].

變分自編碼器目標(biāo)函數(shù)的推導(dǎo)過程如下:

假設(shè)X={x(1),···,x(N)}是獨(dú)立同分布的數(shù)據(jù)集,x(i)由條件分布pθ(x|z)生成,z服從先驗(yàn)分布pθ(z),數(shù)據(jù)集x的對數(shù)似然函數(shù)可寫為式(4)

x(i)的邊緣似然函數(shù)為

為求解對數(shù)似然函數(shù),引入后驗(yàn)概率pθ(z|x)和pθ(z|x)的近似后驗(yàn)概率qφ(z|x). 使用KL散度(Kullback-Leibler Divergence,KLD)衡量與的距離:

代入貝葉斯公式,并進(jìn)一步化簡,式(6)可得出如下公式:

由于KL散度非負(fù),存在不等式(9):

由此得到目標(biāo)函數(shù)的變分下界:

其中,j為σ(i)的第j個(gè)元素,μ(i),σ(i)由編碼器計(jì)算得出.

式(12)從N(μ,σ2)采樣z后計(jì)算logpθ(x(i)|z(i))的平均值,該過程不可微. 變分自編碼器通過參數(shù)重構(gòu)化解決式(12)無法梯度下降求解的問題,參數(shù)重構(gòu)引入了噪聲隨機(jī)變量ε~N(0,1),令z=μ(i)+σ(i)?ε(i),將采樣步驟與模型參數(shù)分離.

轉(zhuǎn)換后的目標(biāo)函數(shù)L(θ,φ;x(i))如式(13)所示:

2.2 融合變分自編碼器的不平衡數(shù)據(jù)處理

利用過采樣和變分自編碼器的優(yōu)點(diǎn),本文提出融合變分自編碼器的過采樣預(yù)處理技術(shù),首先使用變分自編碼器學(xué)習(xí)少數(shù)類樣本的分布特征,然后利用自編碼器的生成器生成相似數(shù)據(jù)以降低原始數(shù)據(jù)的不平衡度,最后將平衡后的數(shù)據(jù)作為輸入數(shù)據(jù)訓(xùn)練邏輯回歸分類器. 整體分為以下3個(gè)階段:

第一階段:變分自編碼器學(xué)習(xí)少數(shù)類樣本分布特征.

變分自編碼器的結(jié)構(gòu)與自編碼器相似,編碼器Q將輸入數(shù)據(jù)經(jīng)過多層非線性特征轉(zhuǎn)換映射為高斯分布,解碼器P將由高斯分布采樣的隱變量重構(gòu)為輸入數(shù)據(jù).

變分自編碼器的結(jié)構(gòu)圖如圖3所示.

圖3 變分自編碼器結(jié)構(gòu)圖

本文令編碼器Q和解碼器P為含有一個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò).

其編碼器和解碼器的模型如圖4所示.

圖4 變分自編碼器的編碼器和解碼器模型圖

編碼器:

解碼器:

其中,W1,W2,W3,W4,W5為變分自編碼器的連接權(quán)值矩陣,h1,h2,h3,h4,h5為自編碼器的偏置向量.

對構(gòu)建的變分自編碼器,采用隨機(jī)梯度下降算法最小化重構(gòu)誤差進(jìn)而不斷調(diào)整自編碼器網(wǎng)絡(luò)的參數(shù)W,b,第l層的Wl,bl更新公式如下:

第二階段:采樣隱變量并輸入到生成器中生成指定數(shù)量的樣本.

由于變分自編碼器假設(shè)先驗(yàn)分布為高斯分布并進(jìn)行了參數(shù)重構(gòu)化,因此只需要從標(biāo)準(zhǔn)正態(tài)分布中采樣隱變量,將其輸入到第一階段訓(xùn)練的生成器中就可以生成相似樣本. 生成樣本的數(shù)量對分類結(jié)果有至關(guān)重要的作用,目前還沒有統(tǒng)一的方法決定樣本采樣量,本文通過觀察不平衡率與分類結(jié)果折線圖找到最優(yōu)采樣量.

第三階段:將生成數(shù)據(jù)與原始數(shù)據(jù)結(jié)合作為輸入數(shù)據(jù)訓(xùn)練邏輯回歸分類器.

整體模型結(jié)構(gòu)如圖5所示.

融合變分自編碼器的不平衡數(shù)據(jù)處理訓(xùn)練算法如下:

算法1. 融合變分自編碼器的不平衡數(shù)據(jù)分類算法1) 將樣本數(shù)據(jù)集分為訓(xùn)練集和測試集.Xminμ,σ 2) 訓(xùn)練集的少數(shù)類樣本作為輸入數(shù)據(jù)輸入到變分自編碼器中,根據(jù)公式(15)(16)計(jì)算.N(0,1)εz=μ+σ·ε 3) 從采樣,根據(jù)公式計(jì)算隱變量z.4) 隱變量z輸入到解碼層,根據(jù)公式(19)計(jì)算輸出y.L(W,b;X)5) 根據(jù)公式(13)計(jì)算損失函數(shù),根據(jù)公式(20)-公式(23)更新參數(shù). 若算法不收斂,重復(fù)步驟2)-步驟5); 若收斂,停止訓(xùn)練.6) 通過變分自編碼器的生成器生成N個(gè)數(shù)據(jù).7) 生成樣本數(shù)據(jù)和原訓(xùn)練集數(shù)據(jù)結(jié)合,輸入到邏輯回歸分類器中訓(xùn)練.8) 測試集作為輸入數(shù)據(jù),輸入到訓(xùn)練好的分類器中計(jì)算評估分?jǐn)?shù).

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)集描述

本次實(shí)驗(yàn)所用數(shù)據(jù)集為UCI 4個(gè)常用的數(shù)據(jù)集[17,18],具體描述如表1所示.

圖5 不平衡數(shù)據(jù)分類結(jié)構(gòu)圖

表1 數(shù)據(jù)集信息

其中,bank指UCI Bank Marketing銀行營銷數(shù)據(jù)集,該數(shù)據(jù)集通過客戶信息以及對客戶的電話聯(lián)系判斷客戶是否將認(rèn)購定期存款. credit指UIC default of credit card clients數(shù)據(jù)集,該數(shù)據(jù)集目的是預(yù)測用戶是否會違約拖欠付款. Abalone7是UCI abalone數(shù)據(jù)集,該數(shù)據(jù)集通過物理量法預(yù)測鮑的年齡,本文令年齡7歲為正類,其它年齡為負(fù)類. yeast1是UCI Yeast數(shù)據(jù)集,其目標(biāo)是預(yù)測蛋白質(zhì)的細(xì)胞定位點(diǎn),本文令類AUC為正類,其它類為負(fù)類.

3.2 評價(jià)指標(biāo)

傳統(tǒng)方法使用準(zhǔn)確率(正確分類樣本個(gè)數(shù)/總樣本個(gè)數(shù))評估分類結(jié)果,該評估指標(biāo)可以準(zhǔn)確評價(jià)平衡數(shù)據(jù)集的分類,但是衡量不平衡數(shù)據(jù)集時(shí)忽略了少數(shù)類樣本的分類精度[19]. 例如,樣本數(shù)據(jù)集中少數(shù)類樣本占比為10%,多數(shù)類樣本占比為90%,若把所有樣本分類為多數(shù)類樣本,準(zhǔn)確率為90%,但是少數(shù)類樣本分類精度為0.

根據(jù)混淆矩陣(如表2所示),有以下評價(jià)指標(biāo):

查準(zhǔn)率(precision)表示被正確分類的正類樣本占所有預(yù)測為正類樣本的數(shù)據(jù)比例. 查全率(recall)表示被正確分類的正類樣本占所有正類樣本的比例.F_Measure綜合考慮了precision和recall,是兩個(gè)衡量指標(biāo)的調(diào)和平均,可以評價(jià)分類器的整體性能,當(dāng)兩者都較大時(shí),F(xiàn)_Measure才會較大. G_mean是少數(shù)類樣本分類精度和多數(shù)類樣本分類精度的幾何平均值,可評價(jià)分類器對于每一類的分類性能. F_Measure和G_mean更適合評價(jià)不平衡數(shù)據(jù)的分類性能,本文選擇F_Measure,G_mean和準(zhǔn)確率accuracy作為評價(jià)指標(biāo).

表2 混淆矩陣

3.3 數(shù)據(jù)采樣量對分類的影響

為驗(yàn)證VAE數(shù)據(jù)預(yù)處理解決不平衡數(shù)據(jù)問題的有效性,實(shí)驗(yàn)對比了不進(jìn)行數(shù)據(jù)預(yù)處理以及使用SMOTE、Borderline-SMOTE、ADASYN過采樣方法后的分類性能. 實(shí)驗(yàn)均采用十次五折交叉驗(yàn)證的平均值作為實(shí)驗(yàn)結(jié)果.

不平衡率對分類器的性能起至關(guān)重要的作用,圖6展示了不斷增加少數(shù)類樣本后不平衡率對應(yīng)的F_Measure值,圖7展示了不斷增加少數(shù)類樣本后不平衡率對應(yīng)的G_mean值.

通過圖6和圖7看出,不同數(shù)據(jù)集對應(yīng)的最優(yōu)采樣率不同. 經(jīng)過對比發(fā)現(xiàn)Bank采樣后不平衡率到達(dá)0.4最優(yōu),Credit采樣后不平衡率到達(dá)0.65最優(yōu),Abalone7采樣后不平衡率到達(dá)0.6最優(yōu),Yeast1采樣后不平衡率到達(dá)1.1最優(yōu). 雖然Bank數(shù)據(jù)集和Abalone數(shù)據(jù)集使用VAE預(yù)處理的G_mean值略低于其它預(yù)處理方法的G_mean值,但是經(jīng)過VAE預(yù)處理的F_Measure值幾乎都高于其他預(yù)處理方法的F_Measure值,可以看出VAE預(yù)處理具有更好的分類性能.

圖6 4個(gè)數(shù)據(jù)集采樣后不平衡率對應(yīng)的F_Measure值

3.4 實(shí)驗(yàn)結(jié)果

表3分別列出了4個(gè)數(shù)據(jù)集使用不同預(yù)處理方法在最優(yōu)采樣率下的F_measure,G_mean和準(zhǔn)確率.LR表示直接對不平衡數(shù)據(jù)使用邏輯回歸分類器分類.

由表3可知,數(shù)據(jù)集使用變分自編碼器數(shù)據(jù)預(yù)處理對比其它預(yù)處理方法有明顯提高. Bank數(shù)據(jù)集使用VAE預(yù)處理對比直接進(jìn)行分類提高了25.6%,對比使用SMOTE方法提高了0.16%,對比使用Borderline-SMOTE提高了2.30%,對比使用ADASYN提高了0.00%.credit數(shù)據(jù)集使用VAE預(yù)處理對比直接進(jìn)行分類提高了49.1%,對比使用SMOTE方法提高了2.57%,對比使用Borderline-SMOTE提高了3.18%,對比使用ADASYN提高了3.39%. Abalone7數(shù)據(jù)集使用VAE預(yù)處理對比直接進(jìn)行分類提高了387倍,對比使用SMOTE方法提高了4.30%,對比使用Borderline-SMOTE提高了4.86%,對比使用ADASYN提高了3.19%. Yeast1數(shù)據(jù)集使用VAE預(yù)處理對比直接進(jìn)行分類提高了76.9%,對比使用SMOTE方法提高了2.07%,對比使用Borderline-SMOTE提高了3.14%,對比使用ADASYN提高了2.25%. 對于4個(gè)數(shù)據(jù)集F_Measure平均值,變分自編碼器使用VAE預(yù)處理對比不進(jìn)行數(shù)據(jù)預(yù)處理提高80.3%,對比SMOTE方法提高2.12%,對比Borderline-SMOTE方法提高3.31%,對比ADASYN方法提高2.12%.

數(shù)據(jù)集使用變分自編碼器數(shù)據(jù)預(yù)處理整體提高了G_mean值. 對于Bank數(shù)據(jù)集和Abalone7數(shù)據(jù)集,本文方法略低于其它數(shù)據(jù)預(yù)處理方法,但是在Credit數(shù)據(jù)集上實(shí)驗(yàn),本文方法對比不進(jìn)行預(yù)處理提高了38.1%,對比SMOTE方法提高了2.03%,對比Borderline-SMOTE提高了1.71%,對比ADASYN方法提高了2.5%.在Yeast1數(shù)據(jù)集上實(shí)驗(yàn),本文方法對比不進(jìn)行數(shù)據(jù)預(yù)處理提高了51.7%,對比SMOTE方法提高了1.13%,對比Borderline-SMOTE提高了3.03%,對比ADASYN方法提高了2.30%. 對于4個(gè)數(shù)據(jù)集F_Measure平均值,變分自編碼器使用VAE預(yù)處理對比不進(jìn)行數(shù)據(jù)預(yù)處理提高了86.9%,對比SMOTE方法提高了0.41%,對比Borderline-SMOTE方法提高了0.97%,對比ADASYN方法提高了0.41%.

圖7 4個(gè)數(shù)據(jù)集采樣后不平衡率對應(yīng)的G_mean值

表3 數(shù)據(jù)集使用不同方法的F_Measure,G_mean,accuracy

數(shù)據(jù)集使用變分自編碼器數(shù)據(jù)預(yù)處理對比其它預(yù)處理方法整體上提高了分類準(zhǔn)確率. Bank數(shù)據(jù)集使用VAE預(yù)處理對比直接進(jìn)行分類降低了0.55%,對比使用SMOTE方法提高了0.33%,對比使用Borderline-SMOTE提高了1.12%,對比使用ADASYN提高了0.22%. Credit數(shù)據(jù)集使用VAE預(yù)處理對比使用SMOTE方法降低了1.11%,對比使用Borderline-SMOTE降低了0.62%,對比使用ADASYN降低了0.37%. Abalone7數(shù)據(jù)集使用VAE預(yù)處理對比使用SMOTE方法提高了1.13倍,對比使用Borderline-SMOTE提高了1.15倍,對比使用ADASYN提高了17.9%. Yeast1數(shù)據(jù)集使用VAE預(yù)處理對比使用SMOTE方法提高了4.63%,對比使用Borderline-SMOTE提高了9.04%,對比使用ADASYN提高了8.40%. 對于4個(gè)數(shù)據(jù)的accuracy平均值,變分自編碼器預(yù)處理對比SMOTE方法提高11.3%,對比Borderline-SMOTE方法提高18.2%,對比ADASYN方法提高2.42%.

3.5 實(shí)驗(yàn)結(jié)果分析

由表3可以看出,直接使用邏輯回歸分類器對不平衡數(shù)據(jù)分類的F_Measure和G_mean值很低,分析其原因,是由于邏輯回歸算法平等的看待每一類樣本,而少數(shù)類樣本提供給分類器的有效信息極少,分類器將大部分樣本預(yù)測為多數(shù)類樣本以保證較高的準(zhǔn)確率,導(dǎo)致少數(shù)類樣本的準(zhǔn)確率嚴(yán)重降低. 為解決此問題,本文在樣本輸入到分類器之前進(jìn)行過采樣處理均衡正負(fù)類樣本提高少數(shù)類樣本精度.

相較于SMOTE、Borderline-SMOTE、ADASYN算法,本文提出的算法其準(zhǔn)確率、F_Measure和G_mean更高. 可見,相比僅通過歐幾里得距離及其改進(jìn)算法衡量數(shù)據(jù)間的分布情況,本文通過含有多個(gè)神經(jīng)元的隱含層線性學(xué)習(xí)并使用激活函數(shù)非線性變換,學(xué)習(xí)樣本的不同特征分布,以此學(xué)習(xí)到的分布更接近真實(shí)數(shù)據(jù)分布. 另外,借助變分自編碼器的思想,使采樣的數(shù)據(jù)通過解碼器生成的少數(shù)類樣本更符合原始數(shù)據(jù)的特征.

變分自編碼器充分考慮了少數(shù)類樣本不同層次的特征,可以生成更廣泛的少數(shù)類樣本,從而有效提高了分類器的泛化能力. 因此,本文提出方法訓(xùn)練的分類器預(yù)測測試樣本時(shí),準(zhǔn)確率、F_Measure和G_mean都較高.

綜上所述,使用變分自編碼器均衡不平衡數(shù)據(jù)集改善了原始數(shù)據(jù)集中多數(shù)類樣本占主導(dǎo)作用使少數(shù)類樣本準(zhǔn)確率降低的問題,其生成的樣本增加了分類時(shí)少數(shù)類樣本的有效信息并提高了少數(shù)類樣本的分類識別率,具有更高的分類精確度.同時(shí),變分自編碼器通過神經(jīng)網(wǎng)絡(luò)多次非線性特征轉(zhuǎn)換學(xué)習(xí)到的數(shù)據(jù)分布特征更接近真實(shí)數(shù)據(jù),改善了傳統(tǒng)過采樣技術(shù)產(chǎn)生無效的“人造樣本”影響少數(shù)類樣本分布導(dǎo)致模糊正負(fù)類邊界的問題. 融入變分自編碼器的過采樣技術(shù)在提高少數(shù)類樣本精確度的同時(shí)兼顧了多數(shù)類樣本準(zhǔn)確率.

4 結(jié)論

本文結(jié)合變分自編碼器和過采樣技術(shù)解決數(shù)據(jù)不平衡導(dǎo)致傳統(tǒng)分類器分類性能較差的問題,該方法通過變分自編碼器學(xué)習(xí)少數(shù)類樣本的分布,使用其生成器生成相似的數(shù)據(jù)以均衡數(shù)據(jù)集. 實(shí)驗(yàn)結(jié)果表明變分自編碼器生成的樣本更接近真實(shí)數(shù)據(jù),融合變分自編碼器的數(shù)據(jù)預(yù)處理技術(shù)保證了較高準(zhǔn)確率的同時(shí)提高了少數(shù)類樣本的精確度,改善了不平衡數(shù)據(jù)的分類偏斜問題和傳統(tǒng)過采樣的過擬合問題.

猜你喜歡
編碼器分類器預(yù)處理
基于FPGA的同步機(jī)軸角編碼器
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
基于PRBS檢測的8B/IOB編碼器設(shè)計(jì)
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
淺談PLC在預(yù)處理生產(chǎn)線自動化改造中的應(yīng)用
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
絡(luò)合萃取法預(yù)處理H酸廢水
基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
崇左市| 上蔡县| 确山县| 福海县| 图木舒克市| 彭阳县| 彩票| 远安县| 虎林市| 安龙县| 淮南市| 蕲春县| 吉林省| 新安县| 苍溪县| 静宁县| 淮阳县| 安塞县| 定西市| 金沙县| 外汇| 时尚| 西宁市| 安塞县| 姚安县| 焦作市| 汤原县| 城固县| 开平市| 柳河县| 夏河县| 虹口区| 桑日县| 全椒县| 会东县| 油尖旺区| 搜索| 鸡西市| 万州区| 资中县| 海丰县|