基于樸素貝葉斯分類模型的文本特征選擇研究

2014-02-25 11:09:43潘光強周軍何洋

電腦知識與技術(shù) 2014年1期

潘光強　周軍　何洋

摘要：該文主要對文本自動分類的特征選擇方法進行了討論，分析了幾種常見方法存在的缺陷，指出影響出文本特征選擇的兩個重要因素——特征項在類別內(nèi)的文檔頻率和在類別間的分布差異，并以這兩個因素為影響因子分別對TF-IDF和IG方法進行了改進。另外還介紹了樸素貝葉斯分類模型，并基于此模型對改進的特征選擇方法的分類效果進行評估。實驗結(jié)果表明，改進后的方法能夠強化特征項在特定類別中的影響力，提高文本分類效果。

關(guān)鍵詞：文本分類；特征選擇

中圖分類號：TP311 文獻標識碼：A 文章編號：1009-3044（2014）01-0133-05

1 概述

文本特征選擇（Text Feature Selection）是文本自動分類過程（圖1）中的重要環(huán)節(jié)。文本自動分類（Automatic Text Categorization）是指運用計算機技術(shù)，在預(yù)先定義的分類體系下，根據(jù)待分類文檔內(nèi)容，將其歸屬為一個或多個類別的處理過程。文本自動分類技術(shù)的研究始于20世紀50年代[2]，至今出現(xiàn)了基于不同理論的多種分類模型[3]，在這些模型中，用向量空間模型（VSM）來表示文檔[5]，比如，用T表示文檔包含的詞匯集合，用每個詞及其在文本中的權(quán)重作為特征項，則可將一篇文檔表示為向量d=（t1，t2，…tm）（ti∈T，1≤i≤m），然后根據(jù)文檔向量和類別向量計算出相似度，從而確定文檔所屬類別。文本特征選擇是從高維文本特征集合中篩選出一部分特征組成一個低維的向量空間的過程。那么為什么要進行特征選擇，是不是維數(shù)越高分類效果就越好呢？事實并非如此。一篇文檔往往包含數(shù)百乃至成千上萬個詞條，對于語料訓(xùn)練集來說，詞條數(shù)目更是達到百萬級甚至更多。高維的特征，不僅增加了機器學習的負擔，提高分類的計算復(fù)雜度，而且，過高的特征維數(shù)反而有可能降低分類的準確性[6]，形成“高維災(zāi)難”。這是因為在整個特征集合中，有很多詞在各個類別的文檔中出現(xiàn)的頻率差別不明顯甚至幾乎一樣，類別區(qū)分能力很弱。還有一些詞只在極少數(shù)的文檔中出現(xiàn)，也不能作為類別劃分的參考。文本特征選擇目標就是去除這些對區(qū)分類別沒有作用的特征項。對文本進行降維處理，不僅可以提高分類的效果，而且能夠有效降低分類過程的計算復(fù)雜度，大大節(jié)省了時間成本。從圖1可以看出，特征選擇是產(chǎn)生文本特征向量的前提，直接影響模型訓(xùn)練的質(zhì)量和分類的效果。該文將分析目前特征選擇方法存在的問題，討論影響特征選擇的因素，提出改進方法，并用樸素貝葉斯模型對其分類效果進行評估。

2 相關(guān)研究

2.1 特征選擇方法

對于不同的分類算法，應(yīng)采用不同的特征選擇方法以達到較為理想的分類效果。用于文本分類的特征統(tǒng)計量有：特征頻率（Term Frequency，簡稱TF）、文檔頻率（Document Frequency，DF）、信息增益、χ2統(tǒng)計量、互信息等等。下面介紹幾種常用的特征選擇方法，并討論這些方法存在的缺陷。

2.1.1 TF、DF和TF-IDF

TF是特征t在文檔集中出現(xiàn)的頻率，計算方法是tf=t出現(xiàn)的次數(shù)÷文檔集中總詞數(shù)（含重復(fù)）。DF是包含特征t的文檔的頻率，計算方法是df=包含t的文檔數(shù)÷總文檔數(shù)。因為在不同類別的文檔中相同特征項出現(xiàn)的頻率是有差異的，如果t在某類別中出現(xiàn)的頻率較高，那么其在這個類別中的DF一般也高，因此t可以作為文本的類別特征。但是，單純使用TF或DF還不足以區(qū)分不同特征對文本類別的貢獻，因為有可能相同特征在所有類別中出現(xiàn)的頻率都很高，或者不同特征在某個類別中出現(xiàn)的頻率相同卻在另一個類別中出現(xiàn)的頻率相差甚遠，這兩種情況都不能正確反應(yīng)特征對文檔類別的影響，因此有一種方法將TF與逆文檔頻率（Inverse Document Frequency，IDF）結(jié)合起來，稱為TF-IDF方法，計算公式為

式中idf的計算方法為idf=log [Nn]，N代表訓(xùn)練集文檔總數(shù)，n代表出現(xiàn)特征t的文檔數(shù)。idf反應(yīng)的是特征項在訓(xùn)練集文檔中的分布情況，它能夠弱化在各類別中共同高頻特征項的作用，同時強化只在少數(shù)類別中出現(xiàn)的相對低頻的特征項的重要度。

2.1.2 信息增益（Information Gain，IG）

文本特征的信息增益是指一個特征所攜帶的分類信息量，常見公式為

其中，n是類別數(shù)，p（ci）是第i類出現(xiàn)的概率，若每類平均出現(xiàn)，則p（ci）=[1n]。

p（t）=包含詞語t的文檔數(shù)÷總文檔數(shù)，p（t）=1-p（[t]）。

[p（ci|t）]即[t]出現(xiàn)時，[ci]出現(xiàn)的概率，等于類[ci]中包含t的文檔數(shù)除以訓(xùn)練集中出現(xiàn)[t]的文檔總數(shù)。

[p（ci|t）]即[t]不出現(xiàn)但屬于[ci]的概率，等于類[ci]中不包含t的文檔數(shù)除以訓(xùn)練集中未出現(xiàn)[t]的文檔總數(shù)。

2.1.3 χ2統(tǒng)計量（CHI-square statistic）

在文本分類中，χ2統(tǒng)計量表達的是特征項與類別之間的相關(guān)性，計算特征t與類別c的χ2統(tǒng)計量公式為

（3）

[N]表示訓(xùn)練集中文本總數(shù)；A表示包含詞條[t]且屬于類別c的文本數(shù)目；B為包含詞條[t]且不屬于類別c的文本數(shù)目；[C]等于屬于類別c但是不包含詞條[t]的文本數(shù)目；[D]等于不屬于類別c且不包含詞條[t]的文檔數(shù)目。由此可以看出，[N]固定不變，[A+C]為屬于該類別的文本數(shù)目，[B+D]為不屬于該類別的文本數(shù)目，所以式（3）可以簡化為：

[χ2 （t，c）=（AD-BC）2（A+B）（C+D）] （4）

特征[t]與類別[c]相互獨立時，[χ2 （t，c）=0]。[χ2 （t，c）]的值越大，特征[t]與類別[c]越相關(guān)。

以上三種常用的特征選擇方法在文本分類中都取得了不錯的效果，但仍然在不同方面均存在缺陷，需要加以改進。TF-IDF方法只考慮了詞頻和文檔頻數(shù)對特征重要性的影響，而忽略了特征項在類別間的分布差異的影響。比如，某特征項指定類別中頻繁出現(xiàn)，而在其它類別中幾乎不出現(xiàn)，那么它應(yīng)當作為特征項。但這種情況下它的TF和DF會很高，導(dǎo)致在整個文本集中的IDF相對低，從而降低此特征的權(quán)重；IG方法在整個分類體系中進行特征選擇，無法體現(xiàn)特征對某個類別的影響，而類別間的文檔分布往往是不均勻的，用IG方法對文檔空間小的類別不夠“公平”；統(tǒng)計量方法提高了在指定類別詞頻較小而在其它類別詞頻較大的詞的權(quán)重，例如式（4）中A很小B很大時，計算的結(jié)果較大，很可能被選擇為文本特征，但事實上對分類貢獻非常小，應(yīng)該過濾掉。另外[χ2]統(tǒng)計量方法還降低了某些低詞頻但IDF較高的特征權(quán)重，由于這類特征詞頻較低，其權(quán)重也不會太大，一般忽略其對分類的影響。

2.2 樸素貝葉斯分類算法

貝葉斯分類算法是一種利用概率統(tǒng)計知識進行分類的算法。比如，假設(shè)類別集合[Ci=（C1，C2，...，Cn）]，訓(xùn)練集D共有m個屬性，即每個文檔都可以表示為[d=（t1，t2，...，tm）]，可將文本分類問題描述為計算給定文本所屬類別的后驗概率問題。根據(jù)貝葉斯公式，給定文本[dx]屬于類別[Ci]（1≤i≤n）的概率可以由式（5）計算。

其中，[P（Ci）]為類別先驗概率。用T表示訓(xùn)練樣本特征詞的集合，若將文檔表示為向量，即[dx=（tx1，tx2，...，txm）]，則[P（dx|Ci）=P（tx1，tx2，...，txm|Ci）]，txj∈T，1≤j≤n。樸素貝葉斯文本文類算法基于文本特征之間條件無關(guān)的假設(shè)，即假設(shè)文檔中的詞條之間相互獨立不存在依賴關(guān)系，那么，

由于待分類文檔對于每個類別的先驗概率[P（dx）]相同，故可省去，從而可得樸素貝葉斯分類模型

根據(jù)類別的先驗概率[P（Ci）]和條件概率[P（txj|Ci）]表示方法不同，樸素貝葉斯方法有兩種常用模型，一種是伯努利模型（BNB），[P（Ci ）=類別文檔數(shù)÷訓(xùn)練集文檔總數(shù)，P（txj |Ci）=類別中txj 的文檔數(shù)÷類別包含文檔總數(shù)]；另一種是多項式模型（MNB），[P（Ci ）=類別中詞條數(shù)目（含重復(fù)）÷訓(xùn)練集總詞條數(shù)（含重復(fù)）， P（txj |Ci）=類別中txj 出現(xiàn)的次數(shù)÷類別詞條總數(shù)]。

3 方法改進

2.1節(jié)指出了常用特征選擇方法存在的缺陷，為克服這些缺陷，人們嘗試對各種方法添加權(quán)重因子，以增加特征項的類別影響力。例如文獻[10]在TF-IDF基礎(chǔ)上，加上特征項在各個類別間的平均偏差平方[Dk]和類別內(nèi)平均偏差平方[Dik]，構(gòu)建了如下選擇模型：

[W（tik）=tf（tik）*idf（tk）*Dk*（1-Dik）] （7）

[W（tik）]表示類[Ci]中第k個特征的權(quán)重。這個模型對每個類別分別進行特征選擇，同時考慮了特征在類別間和類別內(nèi)的分布情況，基本上克服了上面所說的缺陷。但[Dk]只能從整體上反應(yīng)特征項的分布情況，反應(yīng)的是特征項對于整個類別空間的重要性，不能體現(xiàn)特征項在指定類別與其它類別中分布的差異，無法反應(yīng)特征項對于指定類別的貢獻，因此，我們將[idf（tk）]改為第k個特征在各類別中的文檔頻率與[df（tik）]的差的平方和，即[Eik=j=1n（df（tjk）-df（tik））2 ] ，可以彌補上述缺陷。這里我們將[Eik]稱為特征[tik]的類別因子。同時為了降低復(fù)雜度，可以用特征在類內(nèi)的文檔頻率[df（tik）]代替[（1-Dik）]，如式（8）所示。

[W（tik）=tf（tik）*df（tik）*Dk×j=1n（df（tjk）-df（tik））2 ] （8）

由于統(tǒng)計量方法只考慮了特征項在類別內(nèi)的重要性，忽略了它在類別間的分布情況。因此，我們也可以在式（4）加入特征項的類別因子行修正，并且將A、B、C、D表示為特征項的文檔頻率，即：

[χ2 （t，c）=（df（t，c）*df（t，c）-df（t，c）*df（t，c））2（df（t，c）+df（t，c））（df（t，c）+df（t，c）） ×j=1n（df（tc）-df（tj））2 ] （9）

4 實驗

4.1實驗環(huán)境和數(shù)據(jù)

我們利用開源的數(shù)據(jù)挖掘工具weka[8]并對其進行二次開發(fā)，用于文本的預(yù)算理、模型訓(xùn)練和分類實現(xiàn)，從網(wǎng)上下載搜狗實驗室文本分類語料并對其進行調(diào)整（見表1），作為實驗數(shù)據(jù)集，其中80%用于分類模型訓(xùn)練，20%作為測試集。

4.2實驗及分析

首先，我們從表1中按30%的比例取出部分訓(xùn)練和測試數(shù)據(jù)對樸素貝葉斯分類方法的兩種模型分類效果進行比較，表2是在不同維數(shù)下三種特征選擇方法分類效果的比較。

（a）TF-IDF方法改進前后分類效果對比

（b）CHI方法改進前后分類效果對比

由圖2可以看出，[χ2]統(tǒng)計量方法分類效果略好于TF-IDF方法，改進后的特征選擇方法與原方法相比，分類效果有了明顯提高，且在維數(shù)較低時提高幅度更大。觀察圖3我們發(fā)現(xiàn)兩種方法經(jīng)加入修正因子改進之后，在每個類別上的分類效果均有不同程度的提高，特別是IT、健康、教育、文化等訓(xùn)練集文檔較少的類別提高幅度更加明顯。因此，從本實驗我們得出如下結(jié)論。

1）分類別進行特征選擇，同時突出特征項在類別內(nèi)的分布的影響，并加入類別因子，能夠有效解決由于類別間文本長短差異以及文本數(shù)量分布不平衡導(dǎo)致分類不準確的問題。

2）由于一些特征項大量集中在某些特定類別，IDF值可能會降低這些特征項對這些類別的重要性，用特征項的類別因子能夠較好地增加其在特定類別中的權(quán)重。

3）在[χ2]統(tǒng)計量方法中用類別因子對特征權(quán)值進行修正，過濾掉類別中[χ2]統(tǒng)計量較大而極少出現(xiàn)的特征項，能夠使分類效果得到明顯提升。

5 結(jié)束語

本文討論了常用特征選擇方法的缺陷，提出了改進方法，并通過實驗證明，特征項在指定類別中的分布情況和在類別間的差異是影響文本特征選擇的重要因素，突出特征項的分布及其類別因子對其權(quán)值的影響，能夠明顯改善特征選擇的質(zhì)量，從而提高文本分類效果。但在實驗中我們發(fā)現(xiàn)，改進后的方法由于增加了影響因子，提高了計算的復(fù)雜度，降低了分類性能，下步我們將對每個步驟具體的實現(xiàn)算法進行優(yōu)化，并運用分布式計算系統(tǒng)提升分類性能。

參考文獻：

[1] Yang Yiming，Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[C].Nashville：Morgan Kaufmann，1997.

[2] 李丹.基于相互貝葉斯方法的中文文本分類研究[D].保定：河北大學，2011.

[3] 薛永大.網(wǎng)頁分類技術(shù)研究綜述[J].電腦知識與技術(shù)，2012，8（25）：5958-5961.

[4] 陳濤，謝陽群.文本分類中的特征降維方法綜述[J].情報學報.2005.12，24（6）：690-695.

[5] 張運良，張全.基于句類向量空間模型的自動文本分類研究[J].計算機工程，2007，33（22）：45-47.

[6] 蘇金樹，張博鋒.基于機器學習的文本分類技術(shù)研究進展[J].軟件學報，2006（17）：1848-1859.

[7] McCALLUM A，NIGAM K.A comparison of event models for Naive Bayes text classification[M].Proceedings of AAAI-98 Workshop on learning for Text Categorization，1998.

[8] http：//www.cs.waikato.ac.nz/ml/index.html[OL].2013-11-30.

[9] Hwee Tou Ng，Wei Boon Goh，and Kok Leong Low.Feature selection，perceptron learning，and a usability case study for text categorization[C].In：Proceedings of the 20th ACM International Conference on Research and Development in Information Retrieval（SIGIR-97），1997.67-73.

[10] 彭時名.中文文本分類中特征提取算法研究[D].重慶：重慶大學，2006.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于樸素貝葉斯分類模型的文本特征選擇研究