国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

不平衡數(shù)據(jù)集文本多分類深度學習算法

2021-09-16 02:28:00王德志梁俊艷
計算機工程與設(shè)計 2021年9期
關(guān)鍵詞:數(shù)據(jù)量聚類向量

王德志,梁俊艷

(1.華北科技學院 計算機學院,河北 廊坊 065201;2.華北科技學院 圖書館,河北 廊坊 065201)

0 引 言

在自然語言處理中,文本分類研究中主要分為二分類和多分類問題[1,2]。訓練數(shù)據(jù)集的平衡性對深度學習算法的性能有重要的影響。文本多分類的訓練數(shù)據(jù)集多是不平衡數(shù)據(jù)集。所謂不平衡數(shù)據(jù)集就是在同一個數(shù)據(jù)集中的某類數(shù)據(jù)的樣本數(shù)量遠遠大于或者小于其它樣本的數(shù)量。而少數(shù)類樣本被錯誤分類的代價要比多數(shù)類樣本錯誤分類造成的損失更大。文獻[3]提出在卷積神經(jīng)網(wǎng)絡(luò)訓練過程中基于標簽權(quán)重修改損失函數(shù)結(jié)果,強化少數(shù)類樣本對模型參數(shù)的影響。文獻[4]提出基于詞向量遷移的預(yù)訓練任務(wù)選擇方法,區(qū)分小類別樣本,提升小類別分類準確度。文獻[5]提出基于層次聚類的不平衡數(shù)據(jù)加權(quán)方法,根據(jù)密度因子確定采樣頻率,提升小樣本權(quán)重。文獻[6]提出基于差分孿生卷積神經(jīng)網(wǎng)絡(luò)的超平面特征圖,利用樣本與不同超平面的距離進行不平衡數(shù)據(jù)集分類的算法。目前研究中主要側(cè)重于文本的二分類問題或者是通用性的低維特征向量的不平衡數(shù)據(jù)集的分類問題[7-10]。而基于高維度詞向量的文本不平衡數(shù)據(jù)集多分類問題面臨巨大的挑戰(zhàn)。本文基于高維度向量聚類方法,提出一種混合式不平衡文本數(shù)據(jù)集采樣方法,在保障大樣本數(shù)據(jù)分類準確度的基礎(chǔ)上,提升小樣本數(shù)據(jù)分類的準確率,并通過實驗驗證了該方法的分類效果和準確率。

1 基于詞向量的文本多分類特點

1.1 詞向量的高維特性

在文本多分類處理中,首先需要對文本中各個詞進行向量化表示,經(jīng)典的方法有TF-IDF、skip-gram和CBOW等方法。文本數(shù)據(jù)集的詞向量處理可以采用自定義模型訓練方式或者采用經(jīng)典的詞向量模型,例如Word2vec、GloVe和FastText等[11]。但是,無論采用哪一種方式,當文本訓練樣本數(shù)據(jù)非常多時,訓練所涉及到的基本詞匯量也會不斷增多。尤其是對非規(guī)范文本處理時(例如微博文本),會遇到大量新生詞匯。為了更準確表示文本之間的關(guān)系,就需要對文本中的詞進行高維度向量化,每個維度代表一個文本特征,只有詞的向量維度達到一定規(guī)模時,才能夠提供特征具有區(qū)分度的文本分類訓練樣本數(shù)據(jù)。谷歌公司基于大量通用新聞材料訓練了具有300維的Word2vec詞向量模型。Facebook基于通用的維基新聞材料訓練了具有300維的FastText模型。這些高維度模型為文本多分類提供了堅實的詞向量基礎(chǔ)。

1.2 數(shù)據(jù)集不平衡性

高維度詞向量模型只是為分詞向量化提供了支撐,但是在文本多分類中,還需要大量的訓練樣本數(shù)據(jù)。由于目前文本多分類大量使用有監(jiān)督學習方法,因此需要對訓練數(shù)據(jù)進行樣本標注。而大量的文本數(shù)據(jù)進行多分類標注是一個困難的事情,要想獲得完全平衡的已標注文本分類訓練數(shù)據(jù)基本是不可能的。而且隨著分類數(shù)據(jù)的增多,也對訓練數(shù)據(jù)集的平衡性提出了挑戰(zhàn)。在實際文本多分類研究中,大量使用不平衡的訓練數(shù)據(jù)集。其中,小樣本數(shù)量標注數(shù)據(jù)的預(yù)測準確性,在特定應(yīng)用領(lǐng)域中有重要作用。例如,在電子郵件中分類出具有詐騙性質(zhì)的郵件,相對于普通郵件和廣告垃圾郵件就屬于小樣本數(shù)量標注數(shù)據(jù)。數(shù)據(jù)集的不平衡性已經(jīng)成為多數(shù)文本多分類的基本屬性。

2 文本多分類混合式均分聚類采樣算法(HCSA)

2.1 總體架構(gòu)

為解決文本多分類訓練數(shù)據(jù)集不平衡問題,可以采用欠采樣(下采樣)或過采樣(上采樣)方式進行數(shù)據(jù)集的預(yù)處理。其中欠采樣以小樣本數(shù)量為標準,對大樣本數(shù)據(jù)進行減量提取,使大樣本數(shù)量與小樣本數(shù)量具有相同的規(guī)模,數(shù)據(jù)集總量減少。而過采樣正好與之相反,以大樣本數(shù)量為標準,對小樣本數(shù)據(jù)進行復(fù)制增量,使小樣本數(shù)量與大樣本數(shù)量具有相同規(guī)模,數(shù)據(jù)集總量增加。但在文本多分類數(shù)據(jù)集中,由于分類標簽是多個,如果僅基于最小樣本和最大樣本進行處理,都會導致數(shù)據(jù)集的不合理性,影響最終深度學習模型的訓練結(jié)果。因此,本文提出一種基于聚類的均分混合式采樣算法(HCSA)。其主要步驟如下:

(1)計算樣本數(shù)據(jù)量均線

如式(1)所示,計算出所有不同分類樣本數(shù)量的算數(shù)平均數(shù),以此作為樣本數(shù)據(jù)量均線。其中N表示分類標簽數(shù)量,Xi表示每個分類中樣本的總數(shù)量

(1)

(2)進行樣本分區(qū)

以Lavg均線為基準,對每個分類樣本進行分區(qū)。如式(2)所示,其中樣本大于均線的為上區(qū)zup,樣本數(shù)量小于均線的為下區(qū)zdn,并計算出與均線的差值di

di=Xi-Lavg

(2)

(3)進行混合采樣

對上區(qū)zup樣本數(shù)據(jù)采用基于K-means聚類的欠采樣方法,每個分類樣本減少di個數(shù)據(jù),實現(xiàn)每類樣本數(shù)據(jù)量為Lavg。對于下區(qū)zdn樣本數(shù)據(jù)采用基于K-means聚類的過采樣方法,每個分類樣本增加di個數(shù)據(jù),實現(xiàn)每類樣本數(shù)據(jù)量為Lavg。最終形成的新樣本數(shù)據(jù)集樣本數(shù)量為N×Lavg,從而實現(xiàn)不同分類樣本數(shù)據(jù)量的均衡性。

通過上述步驟實現(xiàn)了多分類樣本的均衡性,其關(guān)鍵步驟是上分區(qū)和下分區(qū)的不同采樣方法。本文提出基于K-means聚類采樣方法,對聚類小樣本數(shù)據(jù)進行等比例擴充,對聚類大樣本數(shù)據(jù)進行等比例縮減,從而保證各聚類樣本數(shù)據(jù)特征的均衡性,為后續(xù)深度模型訓練提供保障。

2.2 基于K-means聚類的過采樣均線下數(shù)據(jù)

在不平衡數(shù)據(jù)集中,均線下數(shù)據(jù)屬于小樣本數(shù)據(jù),需要增加數(shù)據(jù)樣本數(shù)量。本算法采用基于K-means聚類的方法,對每類樣本數(shù)據(jù)進行聚類,根據(jù)同類樣本中聚類的分布情況,進行樣本增加。聚類簇內(nèi)數(shù)據(jù)越多,說明數(shù)據(jù)特征向量相似,增加的數(shù)據(jù)相對就少;聚類數(shù)據(jù)越少說明樣本特征比較特殊,就增加相對多一些。

2.2.1 文本向量距離計算

在傳統(tǒng)的K-means算法中多采用歐式距離進行空間中節(jié)點距離計算,但是在文本多分類中,要通過文本詞向量空間距離來體現(xiàn)文本的相似度,因此采用歐式距離不適合。本算法采用文本余弦距離來計算多維空間中節(jié)點的距離,如式(3)所示

(3)

式中:x和y是多維詞向量空間中的兩個節(jié)點;向量空間維度n維;xi和yi表示兩個向量在第i維空間的值。從公式中可以看出,對于兩個文本向量,如果文本越相似,則Dis(x,y)越小,距離越近。當兩個文本完全一致時,距離為0。當兩個文本完全不相同時,距離最大值為1,即Dis(x,y)∈[0,1]。

2.2.2 基于輪廓系數(shù)的K-means聚類

在K-means聚類中K值代表聚類簇的數(shù)量。由于聚類屬于無監(jiān)督學習,因此無法提前確定最佳的K值。K值的大小直接影響到最終聚類的效果。因此,本算數(shù)采用動態(tài)調(diào)整的基于輪廓系統(tǒng)的K值選取與數(shù)據(jù)聚類,其步驟如下。

(1)K值與平均輪廓系統(tǒng)數(shù)S初始化

在有M個節(jié)點的向量空間中,聚類的簇數(shù)量K∈[1,M],即聚類的極端可能性是所有節(jié)點都在一個聚類中,或者每個節(jié)點獨立一個簇,與其它任何節(jié)點無關(guān)。因此K值初始化為2,從最小可能聚類簇數(shù)開始。平均輪廓系數(shù)S由于還沒有計算,因此取最小值-1,方便后面比較。隨機選取兩個節(jié)點作為初始聚類簇的質(zhì)心節(jié)點。

(2)所有節(jié)點聚類

基于當前K簇,首先,每個節(jié)點i計算其與所屬簇質(zhì)心的距離,然后選取距離最小的簇為其所在簇。在計算完所有節(jié)點后,如式(4)所示,計算本簇中所有節(jié)點與質(zhì)心的平均距離,然后選取到質(zhì)心距離與平均距離最接近的節(jié)點作為新的質(zhì)心。最后計算新質(zhì)心與舊質(zhì)心的距離,如果小于一定的值,結(jié)束聚類,否則開始新一輪以新質(zhì)心為核心的聚類

hk_new=

(4)

(3)計算每個節(jié)點的凝聚度

在聚類結(jié)束后,為了利用輪廓系數(shù)動態(tài)優(yōu)化選取K值,首先計算每個節(jié)點xi的凝聚度。所謂節(jié)點的凝聚度就是此節(jié)點xi與同簇的其它節(jié)點的平均距離,其計算如式(5)所示。ci為節(jié)點i所在的簇

(5)

(4)計算機每個節(jié)點的分離度

所謂分離度是節(jié)點xi與其最近簇cm中所有節(jié)點的平均距離,如式(6)所示。而最近簇cm的計算如式(7)所示,就是用xi到某個簇所有節(jié)點平均距離作為衡量該點到該簇的距離后,選擇最小平均距離的簇作為最近簇cm

(6)

(7)

(5)計算平均輪廓系數(shù)

凝聚度代表了簇內(nèi)的密度程度,分離度代表了簇間的距離。理論上凝聚度越小,簇間距離越遠,聚類效果越好,因此,基于式(8)計算所有節(jié)點平均輪廓系數(shù)S。公式中Si表示節(jié)點i的輪廓系數(shù),S表示平均輪廓系數(shù),它是所有節(jié)點輪廓系數(shù)之和的算數(shù)平均數(shù),其取值范圍為S∈[-1,1]。S的值越大代表聚類效果越好

(8)

(6)動態(tài)調(diào)整K值

增加K值,重復(fù)上述步驟(2)到步驟(5),計算出新一輪迭代中的輪廓系數(shù)。當?shù)鶱次后,選取平均輪廓系數(shù)最大值的K作為聚類簇數(shù),并以此時的聚類結(jié)果為最終結(jié)果。

2.2.3 均線下數(shù)據(jù)過采樣

在對數(shù)據(jù)集的每類數(shù)據(jù)進行完聚類后,如式(2)所示,Lavg均線下的分類數(shù)據(jù)集需要增加|di|個數(shù)據(jù),從而達到均線數(shù)據(jù)量。第i類數(shù)據(jù)集增加數(shù)據(jù)量如式(9)所示

(9)

Ni,j表示數(shù)據(jù)集中第i類數(shù)據(jù)中聚類后第j簇需要增加的數(shù)據(jù)量。Xi表示第i類數(shù)據(jù)集的總量,Mi,j表示第i類數(shù)據(jù)集中聚類后第j簇的數(shù)據(jù)量,Ki表示第i類數(shù)據(jù)集聚類的簇數(shù)量。從公式中可以看出,在聚類后,聚類簇中數(shù)據(jù)量越多在本類數(shù)據(jù)中增加的數(shù)據(jù)量就越少。不同類別數(shù)據(jù)之間,距離均線Lavg越遠,整體的增加數(shù)據(jù)量越多。在同一簇中數(shù)據(jù)的增加方法,采用隨機復(fù)制法。其過程就是,首先對簇中Mi,j個數(shù)據(jù)進行編號,其編號范圍為[1,Mi,j],然后在此數(shù)據(jù)范圍內(nèi)進行隨機抽簽。如果Ni,j≤Mi,j,則隨機抽簽Ni,j個不重復(fù)數(shù)據(jù)復(fù)制。如果Ni,j>Mi,j,隨機抽簽Ni,j個可重復(fù)數(shù)據(jù)復(fù)制。

2.3 基于K-means聚類的欠采樣均線上數(shù)據(jù)

在不平衡數(shù)據(jù)集中,均線上數(shù)據(jù)屬于大樣本數(shù)據(jù),為了防止分類模型過擬合與提升訓練速度,需要減少數(shù)據(jù)樣本數(shù)量。與小樣本數(shù)據(jù)處理方式類似,大樣本數(shù)據(jù)也采用基于輪廓系數(shù)的K-means動態(tài)聚類方法,對每類樣本數(shù)據(jù)進行聚類,根據(jù)同類樣本中聚類的分布情況,進行樣本減少。聚類簇內(nèi)數(shù)據(jù)越多,說明數(shù)據(jù)特征向量相似,減少的數(shù)據(jù)相對就多;聚類數(shù)據(jù)越少說明樣本特征比較特殊,就減少相對少一些。其第i類數(shù)據(jù)集減少數(shù)據(jù)量如式(10)所示

(10)

Qi,j表示數(shù)據(jù)集中第i類數(shù)據(jù)中聚類后第j簇需要減少的數(shù)據(jù)量,|di|表示Lavg均線上的第i類數(shù)據(jù)集需要減少的數(shù)據(jù)個數(shù)。在同一簇中數(shù)據(jù)的選取方法,采用隨機選擇法,就是在Mi,j個數(shù)中隨機選取|Xi-Qi,j|個數(shù)。

3 文本多分類卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是機器學習中的經(jīng)典神經(jīng)網(wǎng)絡(luò)模型,在多個領(lǐng)域中都得到成功的應(yīng)用。針對自然語言分析,CNN一般采用一維模型結(jié)構(gòu),可以修改為并行的文本分類卷積神經(jīng)網(wǎng)絡(luò)TextCNN,其模型結(jié)構(gòu)如圖1所示??梢杂卸鄠€并行的卷積層對輸入的文本進行處理,最大池化層可以采用步長為3、4和5的方案進行數(shù)據(jù)處理,目的是提取不同單詞間隔的文本特征信息,最后通過平鋪層進行特征信息的匯總。為了保障模型的運行效率,本文根據(jù)詞向量高維度特性,設(shè)計的TextCNN模型采用具有3個并行卷積層的一維卷積模型結(jié)構(gòu),如圖2所示。模型中卷積層輸入維度為(50,300)結(jié)構(gòu),輸出為(50,256)。卷積層激活函數(shù)采用“relu”函數(shù),輸出層激活函數(shù)采用“softmax”函數(shù),優(yōu)化器采用“adam”,損失函數(shù)采用“catego-rical_crossentropy”。

圖1 TextCNN網(wǎng)絡(luò)模型結(jié)構(gòu)

圖2 TextCNN模型參數(shù)

4 不均衡微博災(zāi)害數(shù)據(jù)集

文本多分類算法一般都是針對特定文本數(shù)據(jù)集進行優(yōu)化。本算法的優(yōu)化主要針對微博災(zāi)害數(shù)據(jù)集。此數(shù)據(jù)集來自于CrisisNLP網(wǎng)站(https://crisisnlp.qcri.org)。其提供了2013年至2015年的2萬1千多條災(zāi)害相關(guān)的微博數(shù)據(jù),并人工對這些數(shù)據(jù)進行了多分類標注。其標注樣本數(shù)據(jù)情況見表1。標注包含受傷、死亡、失蹤、查找、人員安置、疏散等9類信息。其中最大分類樣本數(shù)量約是最小樣本分類數(shù)量的13倍,5種分類在數(shù)據(jù)集均線下,4種分類在數(shù)據(jù)集均線上,屬于典型的不平衡文本數(shù)據(jù)集。在數(shù)據(jù)集預(yù)處理方面,由于在微博文章中要求內(nèi)容不能超過140個單詞,因此在文本向量化前需要先進行關(guān)鍵詞提取,為了保證提取的關(guān)鍵詞能夠代表文章的目標分類,經(jīng)統(tǒng)計分析最終選取文章平均詞語量50作為參數(shù),即詞頻統(tǒng)計前50的單詞作為文章的關(guān)鍵詞。

表1 微博災(zāi)害數(shù)據(jù)集標定情況

5 實驗數(shù)據(jù)分析

5.1 實驗條件

本實驗基于個人工作站,其軟硬件配置見表2。本實驗基于Word2vec模型對微博災(zāi)害數(shù)據(jù)集進行分詞向量化,每條文本維度為(50,300)。其中,50代表此文本中的關(guān)鍵詞,如果關(guān)鍵詞個數(shù)不足50,補零進行處理。300代表每個詞的維度,即詞特征向量空間為300維。實驗中共使用21 125條微博數(shù)據(jù),其中90%用來進行模型訓練,10%用來模型測試。TextCNN模型數(shù)據(jù)輸出維度為(9,1),表示分類為9個。

表2 實驗配置條件

5.2 評價指標

機器學習算法的評價指標通常采用準確率(Acc)、精確率(P)、召回率(R)和F1值。在文本多分類中,準確率、召回率和F1值可以采用算術(shù)平均(Pm、Rm和F1m)和加權(quán)平均(Pw、Rw和F1w)計算兩種方法,其計算如式(11)、式(12)所示

(11)

(12)

其中,Pi為每個分類的精確率,即“本類正確預(yù)測的數(shù)量/所有預(yù)測為本類的數(shù)量”;Ri為召回率,即“本類正確預(yù)測的數(shù)量/所有本類的數(shù)量”;F1i是“2*(Pi*Ri)/(Pi+Ri)”。αi為不同分類樣本占總樣本的比例,N為分類總數(shù)。

5.3 實驗結(jié)果分析

為驗證本算法性能,進行了4種方法進行實驗數(shù)據(jù)對比。第一種是常規(guī)方法,未對數(shù)據(jù)集進行欠采樣或過采樣;第二種是隨機欠采樣方式,以最小分類數(shù)據(jù)集數(shù)據(jù)量為標準,其它分類數(shù)據(jù)集進行隨機欠采樣;第三種是隨機過采樣方式,以最大分類數(shù)據(jù)集數(shù)據(jù)量為標準,其它分類數(shù)據(jù)集進行隨機復(fù)制過采樣;第四種是本文提出的HCSA采樣方法。4種方法實驗結(jié)果的混淆矩陣,如圖3所示。

圖3 預(yù)測結(jié)果混淆矩陣

基于各方法的混淆矩陣計算出對應(yīng)各分類數(shù)據(jù)集的評價指標值見表3。從表中數(shù)據(jù)可以看出,分類5為最小數(shù)據(jù)集,在F1值中HCSA算法值最大,小樣本的預(yù)測精確率和召回率都有提升。分類7為最大數(shù)據(jù)集,在F1值中HCSA算法值最大,精確率和召回率性能都沒有下降。

表3 各方法評價指標值

圖4和圖5展示了各方法的算數(shù)平均值和加權(quán)平均值指標數(shù)據(jù)。從圖中可以看出,HCSA算法的準確率和F1值最高,過采樣與常規(guī)方法性能相近,欠采樣方法指標值最低。欠采樣由于隨機丟棄了訓練樣本數(shù)據(jù),導致性能下降嚴重。而過采樣雖然增加了訓練數(shù)據(jù),但是由于是隨機復(fù)制,沒能保證一定增加文本向量空間中小特征向量。另一方面,過采樣由于存在大量的復(fù)制數(shù)據(jù),導致TextCNN模型在訓練中出現(xiàn)了過擬合現(xiàn)象。說明,雖然增加了訓練數(shù)據(jù)數(shù)量,但是如果增加的不合理,會導致模型過擬合,不能提升模型的預(yù)測性能。而在HCSA算法中,由于進行了聚類,對小樣本中小特征向量提高了復(fù)制的比例,因此能夠提升小特征的預(yù)測準確率。對大樣本數(shù)據(jù),為了防止過擬合,進行了訓練數(shù)據(jù)集拋棄。但是沒有導致指標值像欠采樣一樣下降非常多,這是由于在數(shù)據(jù)拋棄時,是基于聚類結(jié)果,聚類的數(shù)據(jù)越多,拋棄的比例就增多。這樣最終保證各類特征在數(shù)據(jù)集中分布平衡。

圖4 算數(shù)平均指標值

圖5 加權(quán)平均指標值

上面的實驗結(jié)果可以看出,通過在HCSA算法中引入動態(tài)聚類方法,能夠進一步基于文本的高維特征對數(shù)據(jù)集進行區(qū)分,為欠采樣和過采樣提供基礎(chǔ),最終實現(xiàn)文本訓練數(shù)據(jù)集中數(shù)據(jù)在高維向量空間中特征向量的平衡分布,為提高文本多分類性能提供支持。

6 結(jié)束語

本文在文本不平衡數(shù)據(jù)集的多分類算法中,引入基于輪廓系數(shù)的動態(tài)K-means聚類方法對不平衡數(shù)據(jù)集進行聚類,并利用聚類簇采用混合式采樣方式,實現(xiàn)文本數(shù)據(jù)集的平衡分布。以微博災(zāi)害數(shù)據(jù)集為例,驗證了HCSA算法在TextCNN模型上的性能。通過實驗驗證此算法相對常規(guī)方法、過采樣和欠采樣方法在準確率和F1值等方面都有性能提升。下一步工作可以針對文本高維空間的聚類方法進行優(yōu)化,提升算法的執(zhí)行速度,進一步提升高維度文本向量的聚類效果,提高基于文本不平衡數(shù)據(jù)集的多分類準確性。

猜你喜歡
數(shù)據(jù)量聚類向量
向量的分解
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
聚焦“向量與三角”創(chuàng)新題
高刷新率不容易顯示器需求與接口標準帶寬
寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
電子制作(2019年13期)2020-01-14 03:15:18
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
向量垂直在解析幾何中的應(yīng)用
基于改進的遺傳算法的模糊聚類算法
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
中山市| 商都县| 亳州市| 垦利县| 兰溪市| 科技| 巴青县| 容城县| 高清| 琼结县| 临夏县| 万宁市| 合肥市| 寿光市| 三台县| 永城市| 麻城市| 龙陵县| 汝城县| 安陆市| 乌拉特中旗| 磐石市| 通道| 永寿县| 长垣县| 滦南县| 松滋市| 长治县| 定陶县| 合水县| 东安县| 白玉县| 长春市| 武陟县| 佛山市| 雷山县| 呼伦贝尔市| 綦江县| 巴中市| 淅川县| 东台市|