摘要:Web文本分類在網(wǎng)絡信息過濾、信息推薦等方面有廣泛的應用。介紹了Web文本分類的基本理論與方法,結合貝葉斯分類算法,對文本分類語料庫的數(shù)據(jù)進行具體的分類實驗并進行分析討論,取得了一定的效果。
關鍵詞:數(shù)據(jù)挖掘;樸素貝葉斯;文本分類
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)30-0220-02
Web Text Classification and its Application Based on Na?ve Bayesian
BAO Xiao-bing
(Chizhou College Department of Mathematics and Computer Science,Chizhou 247000,China)
Abstract:Web text classification has been widely used in network information filtering, information recommendation and so on.Introduces the basic theory and method of Web text classification,The data of the text classification corpus are classified and analyzed with Bayesian classification algorithm,Achieved a certain effect.
Keywords:Data mining; Na?ve Bayesian;Text classification
隨著計算機以及互聯(lián)網(wǎng)技術的快速發(fā)展,對于擁有海量數(shù)據(jù)的網(wǎng)絡世界,蘊含著巨大潛在價值的知識,人們迫切需要從這些海量的數(shù)據(jù)中獲取有用的知識和信息,希望能對這些海量的數(shù)據(jù)進行自動分類、組織和管理。而這些知識有很多是以Web文本的形式存在的,如何自動、準確、高效地進行Web文本分類是文本挖掘的重要的研究內(nèi)容之一。
信息檢索被認為是Web文本挖掘的前身,但是位于Internet上的信息,一方面規(guī)模巨大,并且缺乏結構化,對于這些非結構化或半結構化的復雜的Web數(shù)據(jù),在做文本分類之前,還需要對獲取的文本進行特征提取和表示,然后再使用文本分類技術進行快速、自動的分類。
本文主要分析和討論了基于樸素貝葉斯(Na?ve Bayesian)方法的Web文本分類的相關理論,并使用中文自然語言理解平臺[1]上的文本分類語料庫,進行具體的實驗分析。
1 Web文本分類方法
1.1 Web文本分類概述
文本分類是在預定義的分類體系下,根據(jù)文本的特征,將給定文本歸類的過程,而文本的特征涉及對文本的理解,因此涉及眾多的學科領域。Sebastiani用下面的數(shù)學模型描述文本分類。
定義函數(shù)[Φ:D×C→{T,F(xiàn)}],其中[D={d1,d1,…,dD}]表示待分類的文本文檔,[C={c1,c1,…,cC}]為預定義分類體系下的指標集。設[T]和[F]值表示為二元組[
1.2 Web文本表示
Web文本和其他文本類似,由文字、詞語和標點符號組成,要使用計算機來表示文本,首先需要選擇一種好的表示方式,并且要求該表示方法能盡可能準確地反映文本的主題、內(nèi)容和結構等。
當前比較常見的表示方法是由G.Salton等人于60年代末提出的向量空間模型(VSM)。在VSM中,用由特征二元組組成的特征向量表示文本[dj],記為[dj=(t1,ω1j),(t2,ω2j),…,(ts,ωsj)],其中[(tk,ωkj),1≤k≤s]表示特征[tk]的二元組,[ωkj]表示文本[dj]中特征[tk]的權重,[s]為特征集合的大小。那么對文本的比較、分類等操作就可以轉換成特征向量組間的操作,使問題變得簡單且易于實現(xiàn)。
1.3 Web文本特征選擇及特征權重計算方法
使用VSM模型對Web文本進行文本表示,得到的特征向量維數(shù)一般會非常高,為提高性能,需要對特征向量進行特征選擇以降維,那么面臨的問題是,應該選擇哪些特征,以及應該賦予這些特征多大的權重,以希望經(jīng)約簡的特征向量更好地體現(xiàn)文本的內(nèi)容、主題等?當前比較常見的方法有:信息增益(IG)、卡方、文檔頻度(DF)、互信息(MI)、特征強度(TS)等。本文主要使用文檔頻度的方法進行討論,該方法是最基本且最簡單的一種方法,統(tǒng)計在多個文檔中出現(xiàn)特征[tk]的次數(shù),次數(shù)越多的特征被認為越關鍵,故被保留。
文本特征權重的計算方法常見的有布爾權值、絕對詞頻(TF)、倒排文檔頻度(IDF)、TF.IDF權值、熵權值等,本文使用絕對詞頻[tfij]衡量文本特征權重。
對于Web文本,在文本表示之前,需要對文本進行分詞。分詞之后的文本詞表中包含很多對文本特征表示無意義的詞,還需要對其進行約簡,去除虛詞、數(shù)量詞等不能體現(xiàn)文本特征的詞。而對于重復出現(xiàn)的詞,會有兩種情況:一種是通用的名詞、動詞,不具特征性,應去掉;第二種是恰好能反映文本的特征的詞,應該保留,并且統(tǒng)計記錄其頻數(shù),用VSM模型進行表示。然后再使用文本特征選擇及特征權重計算方法對建立的VSM模型進行優(yōu)化,得到結構化的數(shù)據(jù),為下一步分類做好準備。
2 貝葉斯分類算法基本理論
貝葉斯分類算法是基于統(tǒng)計學的方法,可以預測類成員關系的可能性。實踐表明貝葉斯分類算法有非常高的準確率并且計算速度較快。貝葉斯分類算法基于概率論中的著名的貝葉斯定理[2]。
定理1設樣本空間[S],[n]個互斥事件成為[S]的一個劃分:[S=A1,A2,…,An],[AiAj=0,i≠j],[X]是[S]中任意一個事件,則有:
[P(AiX)=P(XAi)P(Ai)P(X)]
設[D]是訓練元組集(包含類標號),其中的元組用[n]維向量[X=x1,x2,…,xn]表示,屬性集記為[DA=A1,A2,…,An]。設有[J]個類[C1,C2,…,CJ],根據(jù)貝葉斯定理,分類算法將預測給定元組[X]屬于的類。分別計算后驗概率[P(CiX)],找到最大值,其中先驗概率[P(Ci)]通過學習訓練元組得到,考慮到[P(X|Ci)]的計算是復雜并且開銷非常大的,故做了類條件獨立的樸素假設,即是
該分類算法被稱為樸素貝葉斯分類[3](NBC)。
2.1 Web文本分類數(shù)據(jù)的預處理
為實驗的方便,使用中文自然語言理解平臺[1]由復旦大學提供的文本分類語料庫,包含有財經(jīng)、科技、教育、電腦、房產(chǎn)、人才、汽車、體育、衛(wèi)生、娛樂10個類別共951個文本。對所有的951個文本的每個文本分詞,分別生成相應的文本詞表,如圖2所示。
然后進行去詞約簡,去除虛詞、數(shù)量詞等不能體現(xiàn)特征的詞,去除那些不具有特征性但卻重復出現(xiàn)的通用的名詞、動詞,記錄反映文本特征的詞及詞頻,每個文本可以表示成一條VSM模型元組,最終所有的文本處理完成后生成一個矩陣,稱為詞頻矩陣,最后一列加上類屬性,本實驗詞頻矩陣是[951×13353],如表1所示。再進行降維處理,最終的詞頻矩陣部分如表2所示。
3 應用實驗
3.1 Web文本分類
為使用貝葉斯算法對文本分類,首先對詞頻矩陣進行離散化處理,離散化規(guī)則如表3所示。
最后,對表2的詞頻矩陣[D951×252]進行數(shù)據(jù)離散化處理的結果如表4所示。
實驗的硬件平臺:Pentium E2160 1.8GHz處理器,1G內(nèi)存;開發(fā)環(huán)境:Visual Studio 2005,使用盤古分詞[4]的C#開源代碼。使用樸素貝葉斯算法進行學習、分類,實驗結果如表5所示。
實驗表明,對非訓練數(shù)據(jù)的分類準確性不高,這說明該數(shù)據(jù)集的高稀疏性會使所構建的分類器的泛化能力還不夠好,還有待提高。
4 結論
針對來自網(wǎng)絡的Web本文,使用基于樸素貝葉斯的分類算法對其進行自動分類,本文做了如下工作:1)概述了Web文本分類的相關方法以及貝葉斯分類理論;2)通過具體的實驗,給出了Web文本分類的詳細過程,包括分詞、約簡、降維、訓練、分類等,實驗結果較好;3)針對高維稀疏數(shù)據(jù)的非訓練數(shù)據(jù)分類效果還不夠理想,還有待進一步研究。
參考文獻:
[1] 中文自然語言理解平臺[DB/OL].http://www.nlp.org.cn/
[2] 李賢平.概率論基礎[M].北京:高等教育出版社,1997.
[3] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術[M].范明,孟小峰譯.北京:機械工業(yè)出版社,2007:201-206.
[4] 盤古分詞開源代碼[CP/OL].http://pangusegment.codeplex.com。
[5] 鄭慶華,劉均,田鋒,等.web知識挖掘:理論、方法與應用[M].2010:3-5.
[6] 包小兵,翟素蘭,程蘭蘭.基于信息熵加權的局部離群點檢測算法[J].計算機技術與發(fā)展,2012(7).
[7] 邵昌昇,樓巍,嚴利民.高維數(shù)據(jù)中的相似性度量算法的改進[J].計算機技術與發(fā)展,2011,21(2).