国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于TF-IDF的樸素貝葉斯算法改進(jìn)

2020-04-15 02:58許甜華吳明禮
關(guān)鍵詞:詞頻貝葉斯文檔

許甜華,吳明禮

(北方工業(yè)大學(xué) 信息學(xué)院,北京 100144)

0 引 言

隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)信息量急劇增加,其中文本信息是海量網(wǎng)絡(luò)數(shù)據(jù)中的一大主體,但海量文本數(shù)據(jù)混亂存儲,極大影響了信息獲取的效率。如何快速準(zhǔn)確地獲取自己想要的信息便成為了一個重要問題。而現(xiàn)今廣泛應(yīng)用的分類技術(shù)可以幫助人們快速地篩選信息,并且從海量數(shù)據(jù)中提取信息進(jìn)而構(gòu)造高效的分類器,是數(shù)據(jù)挖掘領(lǐng)域中一個熱門的研究方向。其中文本分類的過程一般分為以下步驟:數(shù)據(jù)預(yù)處理、數(shù)據(jù)特征提取、構(gòu)建分類器、進(jìn)行分類。

現(xiàn)今數(shù)據(jù)挖掘領(lǐng)域有多種分類算法,比如決策樹、支持向量機(jī)、貝葉斯分類器和神經(jīng)網(wǎng)絡(luò)等。其中貝葉斯分類器通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,然后選擇多種分類中的最大后驗概率作為該對象所屬分類的分類器。其計算過程簡單快速,在多分類問題上計算復(fù)雜度比較均衡,且在多分布獨立的假設(shè)下,分類器效果很好,所需樣本少。貝葉斯分類器以其上述優(yōu)點在文本分類、垃圾文本過濾、情感判別、多分類實時預(yù)測、推薦系統(tǒng)等領(lǐng)域中被廣泛應(yīng)用。在貝葉斯分類器中,樸素貝葉斯分類假定各個特征相互獨立,互不干擾,能夠處理多分類任務(wù),適合增量式訓(xùn)練,尤其在數(shù)據(jù)量超過一定程度時,可以進(jìn)行批次訓(xùn)練,所以在垃圾郵件過濾,文檔分類中效果很好。

但是樸素貝葉斯網(wǎng)絡(luò)在進(jìn)行特征計算以及分類的過程中,默認(rèn)所有特征的權(quán)重是一致的,這樣的前提忽略了各文本特征的特性。而實際上,不同特征項在分類過程中起到的作用是不一樣的,將特征的權(quán)重視為一致,會在一定程度上降低分類的準(zhǔn)確率。比如:當(dāng)一篇文章中多次出現(xiàn)了“霧霾”一詞,便可認(rèn)為文章主題和天氣相關(guān)的概率是很大的,而當(dāng)文章中只提到一次“霧霾”時,幾乎是不能確定該文章主題和天氣相關(guān)的。因此在使用樸素貝葉斯網(wǎng)絡(luò)時,多與其他的特征加權(quán)算法共同使用,進(jìn)行特征加權(quán)計算,以得到更好的分類效果。目前文本分類中常用的特征權(quán)重算法TF-IDF(term frequency-inverse document frequency)是一種基于詞頻的特征權(quán)重算法[1],通過計算詞頻和逆文本頻率來計算特征權(quán)重,在兼顧效率的同時也能得到較滿意的效果。但是該算法沒有體現(xiàn)特征詞在文檔類間和類內(nèi)的分布信息。文獻(xiàn)[2]中加入特征類間比重信息,使其對文檔分布不敏感,從而對文檔集有更好的適應(yīng)性;文獻(xiàn)[3]通過計算特征詞間的相似度,選擇最大相似度作為特征權(quán)重,提高分類效果;文獻(xiàn)[4]提出新詞發(fā)現(xiàn)特征權(quán)重算法,改進(jìn)TF-IDF對網(wǎng)絡(luò)新詞的識別能力,優(yōu)化文本分類效果;文獻(xiàn)[5]通過改進(jìn)特征選擇算法和特征加權(quán)算法,增加位置選擇信息來提高文本分類效果;文獻(xiàn)[6-9]均對TF-IDF權(quán)重進(jìn)行了類間改進(jìn)優(yōu)化。

雖然這些文獻(xiàn)對權(quán)重進(jìn)行了改進(jìn),但均未兼顧文檔詞頻的分布位置和算法在正負(fù)樣本不均衡的傾斜數(shù)據(jù)集上的不同。鑒于傳統(tǒng)TF-IDF算法的不足,文中提出一種基于TF-IDF的樸素貝葉斯改進(jìn)算法TF-IDF-DL樸素貝葉斯算法。相對于以上各種改進(jìn)方法,文中擬打算從特征詞詞頻及其位置與類別之間的關(guān)系出發(fā),對詞頻進(jìn)行去中心化處理并引入特征詞位置影響因子,以達(dá)到分類算法對不同的文檔有更強(qiáng)的分類適應(yīng)性,并能夠在分類結(jié)果的準(zhǔn)確率、召回率和F1值方面有所提高的目的。

1 相關(guān)研究

1.1 樸素貝葉斯算法

樸素貝葉斯算法假設(shè)各條件特征相互獨立[10],計算文本中某些特征出現(xiàn)的情況下,該文本屬于某分類的概率,最后通過對比各個分類概率的大小,找出最高概率值,從而得出當(dāng)前文本所屬分類。樸素貝葉斯的分類公式為:

(1)

其中,P(Cn)代表所要分類的文本屬于類別Cn的概率,P(Xm|Cn)代表類別Cn中包含特征項Xm的概率。在樸素貝葉斯中,要求各特征獨立,且將特征權(quán)重看作是一致的。但在實際應(yīng)用中,各特征的權(quán)重是不一致的,為了讓算法更加準(zhǔn)確,使用特征加權(quán)算法進(jìn)行特征權(quán)重的計算,從而提高分類性能[11]。

1.2 特征項頻率TF

TF(term frequency)是特征詞在文檔中出現(xiàn)的詞頻,其表達(dá)式為:

(2)

其中,分子ni,j表示該詞在文件中的出現(xiàn)次數(shù),分母為文件中所有字詞出現(xiàn)的次數(shù)總和。但是由于文檔長度不一,為了防止同一詞語在較長文檔中出現(xiàn)的頻率比在較短文檔中出現(xiàn)的頻率高的現(xiàn)象,一般會對詞頻進(jìn)行正規(guī)化處理的改進(jìn)。

1.3 逆向文件頻率IDF

詞頻計算,在傳統(tǒng)計算中是將所有特征詞的權(quán)重看作是相同的。而特征詞的權(quán)重在實際應(yīng)用中并不一致,所以在文本分類中要提升主要特征項的作用,降低次要特征項的作用。

IDF(inverse document frequency)可以計算出給定詞的重要性。某一特定詞的IDF,由文件總數(shù)目除以包含該詞語文件的數(shù)目進(jìn)行表示[6]。如果一個特征項在一個文本中出現(xiàn)的頻率較高,而在其他文本中出現(xiàn)的頻率較低,那么說明此特征項能夠很好地區(qū)分此類文本和其他文本。公式如下:

(3)

但在計算過程中,會出現(xiàn)某一詞并未在某一文本中出現(xiàn)的情況。為了防止出現(xiàn)這種分母為零的現(xiàn)象,最常用的方法是使用拉普拉斯平滑對上述公式進(jìn)行處理,進(jìn)行平滑處理后的公式為:

(4)

最后,TF-IDF傳統(tǒng)計算公式為TF*IDF,即:

(5)

其中,wdt為計算出的特征項t在文本d中的權(quán)重,tfdt為特征詞在文本d中出現(xiàn)的頻率,N為文本語料庫中文本的總數(shù),nt為文本語料庫中包含特征項t的文本數(shù)。

2 TF-IDF的改進(jìn)

2.1 去中心化詞頻因子

在TF-IDF的計算過程中,將特征詞詞頻作為特征詞權(quán)重大小的判斷依據(jù),以特征詞出現(xiàn)的次數(shù),以及特征詞文檔比例來進(jìn)行權(quán)重計算。但是各個特征詞表達(dá)的意義并不相同,某些特征詞出現(xiàn)頻率較少,屬于日常用詞,對于文本分類的貢獻(xiàn)并不大,但是在權(quán)重計算中被賦予較高的權(quán)重;某些特征詞屬于生僻詞,能夠代表某一類文本,出現(xiàn)次數(shù)較少,但是在權(quán)重計算中被賦予較低的權(quán)重。

針對以上不足,文中采用去中心化特征詞頻因子對特征詞出現(xiàn)的次數(shù)進(jìn)行去中心化處理。在計算特征詞頻時,根據(jù)特征詞出現(xiàn)的相對次數(shù)對權(quán)重進(jìn)行增加或者減少的處理,在這兩個方面進(jìn)行改進(jìn)后對結(jié)果再進(jìn)行正值化處理,最終去中心化特征詞頻因子(decentralization term frequency)公式如下:

DTFd,t=eNd,t-Nt

(6)

將DTF添加到TF-IDF中,即分子變?yōu)椋?/p>

(7)

若一個詞在此文檔中出現(xiàn)的頻率低于該特征詞出現(xiàn)的平均頻率,那么DTF值小于1,則最終權(quán)重降低;反之則權(quán)重增加。通過去中心化處理,可以降低常用詞和生僻詞在詞頻上的差異性。

2.2 特征詞位置信息

在文檔中,大多數(shù)文章都會在開始和結(jié)束包含文章的主題,所以從分類角度來看,文章的開始和結(jié)束部分的信息較為重要,應(yīng)該給予更高的權(quán)重[12],所以文中將特征詞所在位置增加為權(quán)重計算的一個因子[13]。

將文檔中所有特征詞第一次出現(xiàn)的位置排列成一個序列,以文章總詞數(shù)為總長度,以1為單元刻度,取序列最中間的位置為原始坐標(biāo),計算其他詞距離原始坐標(biāo)的距離,距離越遠(yuǎn),給予權(quán)重越大,說明該詞對分類的影響越大。定義位置影響因子(location factor)如下:

(8)

其中,ε為要增加的權(quán)重值倍數(shù),δ的范圍在(0,D/2)之間,其中D為序列總長度。

將去中心化詞頻因子和特征詞位置信息加入到傳統(tǒng)的TF-IDF公式中,最終改進(jìn)的TF-IDF公式(TF-IDF-DL)如下:

wdt=TF*IDF*DIF*LF

(9)

最后將該公式與樸素貝葉斯算法相結(jié)合[14],改進(jìn)后的樸素貝葉斯公式為:

(10)

3 實驗與分析

3.1 數(shù)據(jù)處理

該實驗采用搜狗實驗室的搜狗新聞精簡數(shù)據(jù)集(SogouCS,2012版http://www.sogou.com/labs/resource/cs.php),共698 M,128個新聞文檔,完整新聞條數(shù)共429 818條,數(shù)據(jù)樣式如下所示:

從上述樣式的標(biāo)簽得出此條信息的新聞類別為sports類,以此方式進(jìn)行所有文檔新聞類別的提取,并提取對應(yīng)的標(biāo)簽中的新聞內(nèi)容信息。

同時,還需對得到的數(shù)據(jù)集進(jìn)行進(jìn)一步的處理。首先,將常用的停用詞(的,并不,而且等)進(jìn)行過濾,其次將新聞內(nèi)容短于50字符的新聞視為垃圾新聞并進(jìn)行剔除。最終數(shù)據(jù)集將分為12類,該實驗選擇其中5類進(jìn)行分析,分別為:women,entertainment,travel,health,sports。為保證數(shù)據(jù)均勻分布,各類新聞各取5 000條作為訓(xùn)練集,取1 000條作為測試集,如表1所示。

表1 數(shù)據(jù)集

3.2 實驗步驟

文中分別采用傳統(tǒng)的TF-IDF算法、文獻(xiàn)[2]中的TF-IDF-dist算法以及TF-IDF-DL算法進(jìn)行特征權(quán)重計算并將其應(yīng)用于樸素貝葉斯分類器中進(jìn)行文本分類,對比實驗結(jié)果并進(jìn)行分析,具體實驗步驟如下:

(1)輸入文檔轉(zhuǎn)化為特征詞后的詞頻向量;

(2)進(jìn)行文本的特征詞提取,并使用卡方檢驗(CHI-Squre)方法計算特征值的卡方,并按照卡方值從大到小進(jìn)行排序,選取Top N的特征詞;

(3)分別使用TF-IDF算法,TF-IDF-dist算法及TF-IDF-DL算法計算各特征詞的權(quán)重值;

(4)將各個特征詞的權(quán)重值加入到樸素貝葉斯算法中,計算得出文檔屬于各分類的概率,選擇分類概率中的最大值作為最終類別,輸出對應(yīng)分類信息;

(5)對比分析實驗結(jié)果。

3.3 實驗評估指標(biāo)

文中使用準(zhǔn)確率、召回率、F1值三個指標(biāo)來評估算法效果。

(1)分類準(zhǔn)確率precision。

對于類別Ci的分類準(zhǔn)確率定義為:分類結(jié)果中正確分類為Ci的樣本數(shù)占分類結(jié)果中所有分為Ci類別的樣本數(shù)(包含正確結(jié)果和錯誤結(jié)果)的比例。

(11)

(2)召回率recall。

對于類別Ci的召回率定義為:分類結(jié)果中正確分類為Ci的樣本數(shù)占實際情形中分類為Ci的比例。

(12)

(3)F1值

F1值其實是準(zhǔn)確率和召回率的調(diào)和平均值,它的最大值是1,最小值是0。

(13)

3.4 實驗結(jié)果分析

在文本分類中少量的特征詞不能對文本進(jìn)行準(zhǔn)確的分類預(yù)測,但特征詞數(shù)量過大也會對實驗有一定的消極影響。因此需要在分類前,找出最合適的特征詞數(shù)量,由于特征詞個數(shù)對所有權(quán)重值算法均適用,所以選擇以TF-IDF算法為基準(zhǔn)進(jìn)行分類實驗。由圖1可得,隨著特征詞數(shù)量增加,precision值逐漸提高,但當(dāng)特征詞數(shù)量過大時,文本分類時間將會大幅增加。針對選取的數(shù)據(jù)集,在選擇特征詞數(shù)量為125左右時,precision增加速度開始減緩,且特征詞數(shù)量在160左右時,分類時間開始變長。為了兼顧準(zhǔn)確率和效率,該實驗選取中間值143作為分類的特征詞數(shù)量。

圖1 特征詞個數(shù)對precision和時間的影響

在采用TF-IDF-DL算法計算貝葉斯特征權(quán)重時,需要計算出位置信息的影響因子:ε和δ。當(dāng)δ值一定時,在初始范圍內(nèi)分類的準(zhǔn)確率隨詞頻位置影響度的增加而提高,但當(dāng)詞頻位置影響力度達(dá)到一定程度時,會超出該詞頻實際的作用效果,從而夸大其影響力,對分類效果產(chǎn)生負(fù)面影響,因此詞頻位置信息的影響度會存在一個準(zhǔn)確率峰值,當(dāng)ε值小于這個峰值時,分類準(zhǔn)確率會隨著ε值的增大而提高,當(dāng)ε值大于該峰值時,準(zhǔn)確率會隨之下降。同理,當(dāng)ε值一定時,對分類影響大的詞頻會分布在近首尾處,但是與中心位置坐標(biāo)距離太小和太大都會對準(zhǔn)確率造成一定的不良影響,因此最優(yōu)的δ值也存在一個準(zhǔn)確率峰值。通過圖2(多個不同的δ值進(jìn)行測試取得準(zhǔn)確率的平均值)和圖3(多個不同的ε值進(jìn)行測試取得準(zhǔn)確率的平均值)可知,對于該數(shù)據(jù)集的ε和δ的最優(yōu)取值分別為1.5和D/6。

圖2 不同ε對precision值的影響

圖3 不同ε對precision值的影響

在對上述未知參數(shù)進(jìn)行最優(yōu)值求解后,進(jìn)行TD-IDF,TD-IDF-dist以及TF-IDF-DL的權(quán)重值求解,并分別將求解權(quán)重值應(yīng)用到貝葉斯文本分類中,得出相應(yīng)的樸素貝葉斯分類器。并對選取的五種數(shù)據(jù)類別進(jìn)行測試,記錄每個類別對應(yīng)測試結(jié)果的precision、recall、F1值[15],如圖4~圖6所示。

圖4 在不同新聞種類下不同算法對P的影響

圖5 在不同新聞種類下不同算法對R的影響

圖6 在不同新聞種類下不同算法對F1的影響

通過結(jié)果可以看出,在特征詞詞頻差異不明顯且特征詞位置沒有明顯規(guī)律的women類別上,應(yīng)用TF-IDF-DL算法的樸素貝葉斯分類準(zhǔn)確率沒有特別明顯的提高。

在特征詞詞頻差異性和特征詞位置規(guī)律性明顯的類別上,基于TF-IDF-DL的貝葉斯文本分類表現(xiàn)出明顯的優(yōu)勢。以travel類別為例(travel類別文本中近首尾處多出現(xiàn)“游客”、“景點”等詞匯),應(yīng)用傳統(tǒng)TF-IDF和TF-IDF-dist算法的樸素貝葉斯分類效果表現(xiàn)都不是很好,而應(yīng)用TF-IDF-DL算法進(jìn)行貝葉斯分類時在travel分類上表現(xiàn)依然良好。在研究以TF-IDF-dist計算權(quán)重的分類結(jié)果后,發(fā)現(xiàn)平均有近10%的travel新聞被分類到entertainment類別中,有3.46%的travel新聞被分類到health中。統(tǒng)計分類錯誤的新聞特征詞發(fā)現(xiàn),其中明顯為entertainment分類的特征詞占統(tǒng)計特征詞的31.67%,明顯為health分類的特征詞占統(tǒng)計特征詞的9.82%。這是由于TF-IDF-dist算法僅僅考慮了特征詞在類內(nèi)和類間的分布關(guān)系,卻忽略了特征詞在詞頻上的差異性和特征詞位置信息規(guī)律這兩個因素。而TF-IDF-DL算法在去除了此類文章中entertainment和health類別所屬特征詞的中心詞頻,且加入了特征詞頻的位置信息影響因子。

通過實驗對比,基于TF-IDF-DL的貝葉斯算法在分類準(zhǔn)確率、召回率和F1值這三方面最高可比基于TF-IDF-dis的貝葉斯分類提高8.6%、11.7%和7.4%。說明文中提出的基于TF-IDF-DL的貝葉斯分類算法在特征詞詞頻有差異、特征詞位置信息有規(guī)律的數(shù)據(jù)集上分類效果較好,是一種良好的分類算法。

4 結(jié)束語

通過研究詞頻出現(xiàn)規(guī)律以及文檔中特征詞的出現(xiàn)位置,提出加入去中心化詞頻因子和特征詞距離因子來改進(jìn)TF-IDF算法,并將改進(jìn)后的TF-IDF-DL算法應(yīng)用到樸素貝葉斯算法中。該算法能夠解決在文本分類過程中存在特征屬性權(quán)重一致及考慮指標(biāo)單一的問題。通過使用搜狗實驗室新聞數(shù)據(jù)作為數(shù)據(jù)集進(jìn)行實驗驗證,并對實驗結(jié)果進(jìn)行分析。結(jié)果表明,該算法能夠較好地提高分類性能,并對于不易區(qū)分的類別也能達(dá)到良好的分類效果,與國內(nèi)最新研究的TF-IDF-dis相比,在分類準(zhǔn)確率、召回率和F1值這三方面最高可比其高8.6%、11.7%和7.4%。但是該算法也存在一定的局限性,對于特征詞詞頻差異小且詞頻位置不規(guī)律的數(shù)據(jù)分類效果沒有明顯提高,還需進(jìn)一步完善。

猜你喜歡
詞頻貝葉斯文檔
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個文檔
輕松編輯PDF文檔
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
貝葉斯網(wǎng)絡(luò)概述
貝葉斯公式的應(yīng)用和推廣
Word文檔 高效分合有高招
詞頻,一部隱秘的歷史
漢語音節(jié)累積詞頻對同音字聽覺詞匯表征的激活作用*
泌阳县| 平阳县| 石棉县| 错那县| 含山县| 深州市| 揭阳市| 崇义县| 青铜峡市| 桐乡市| 中宁县| 喀喇沁旗| 石首市| 独山县| 新绛县| 浦东新区| 绥棱县| 出国| 镇坪县| 东乡族自治县| 禹州市| 扬州市| 莫力| 会泽县| 河南省| 宁阳县| 娄烦县| 武威市| 普陀区| 梅州市| 沁水县| 常德市| 文化| 黄山市| 清丰县| 冷水江市| 子洲县| 芒康县| 尼木县| 山阳县| 芦山县|