熊魏
摘 要
人類歷史的發(fā)展已經(jīng)進入到網(wǎng)絡時代?,F(xiàn)在社會信息的發(fā)布量和使用量隨著網(wǎng)絡的發(fā)展突飛猛進,這么大的信息量,我們不可能全部的接受。此時,對有用信息快速、精確的掌握就顯得尤為重要。方法是隨著困難一起產(chǎn)生的,為了解決這個問題,文本自動分類系統(tǒng)就產(chǎn)生了,它的工作原理是對文本的內(nèi)容在指定的分類體系下進行自動區(qū)分類別的過程。目前在所有分類算法中,有一種新興的機器學習算法,即Boosting算法,這種算法經(jīng)過科學驗證后,其效果是非常理想的,且本身有著其它分類算法無可比擬的優(yōu)點。
【關(guān)鍵詞】boosting算法 新聞 文本分類 研究
所謂文本分類(簡稱TC),是一種定性文本內(nèi)容類別的過程,其具體做法是在確定好的文本類別的前提下,對指定的文本內(nèi)容進行判別歸類。隨著網(wǎng)絡技術(shù)的發(fā)展,從上世紀90年代開始,傳統(tǒng)的文本分類法(知識工程分類法)慢慢的被以計算機學習為基礎(chǔ)的自動文本分類法所取代,成為21世紀初進行文本分類的主導技術(shù)。這種新的文本分類方法包括最近鄰分類、回歸模型、決策樹、推導規(guī)則、貝葉斯分類、神經(jīng)網(wǎng)絡、支持向量機以及相關(guān)反饋等內(nèi)容。另外,近幾年比較流行的一種分類方法是組合分類器方法。
1 新聞文本預處理
所謂boosting算法,就是是通過機器學習方法構(gòu)建自動文本分類器,根據(jù)文本訓練集的類集C的特征進行學習,使用歸納過程進行分類的一種算法。以計算機學習為基礎(chǔ)的自動文本分類法在對文本進行分類時需要一定的形式,稱之為特征向量。由于文本內(nèi)容都是以自然語言來進行表示的,計算機難以對其語義進行理解,為此需要對指定的新聞文本做一下預處理,其具體做法如下:
1.1 對指定新聞文本進行分詞
文本包括西文文本和中文文本兩種形式,對這兩種文本進行分詞的方法是不一樣的,西文文本分詞所采用的方法是用空格作為分隔符放在單詞之間;中文文本(包括新聞文本)的分詞方法按照依據(jù)的基礎(chǔ)不同有很多種,例如以字符串匹配為基礎(chǔ)的分詞方法,以理解為基礎(chǔ)的分詞方法和以統(tǒng)計詞頻為基礎(chǔ)的分詞方法等。其中適合本系統(tǒng)的中文文本分詞方法是以統(tǒng)計詞頻為基礎(chǔ)的分詞方法。分詞完畢后,將會得到一本文本表征詞典,此詞典是由文檔中的詞組成的表。
1.2 對指定新聞文本進行粗降維
為了提高文本分類器的訓練和分類效率,必須對指定文本在轉(zhuǎn)化特征向量之前進行粗降維。所謂的粗降維,就是刪除掉指定文本中的停用詞(對分類沒有意義且反復出現(xiàn)在文本中的詞)和低頻詞(使用頻率極低的詞)等,并合并數(shù)字和人名,從而使表征詞典的規(guī)??s小,避免掉分類時給分類器帶來噪音。
1.3 文本表示
我們通常把用向量形式表示文本表征詞典的方法稱之為文本表示。在進行信息處理時,文本表示采用的方法是向量空間模型。
2 boosting算法下新聞文本的分類
在boosting算法下,新聞文本的分類設計主要由兩大系統(tǒng)架構(gòu)組成。
2.1 自動分類系統(tǒng)的設計
該系統(tǒng)主要的主要任務是對新聞文本進行自動的分類,即通過對文本進行掃描,實現(xiàn)新聞文本的粗降維;同時,通過自動分類的預處理新聞文本,分類完畢后,進行相應的文本輸出。該系統(tǒng)雖屬于計算機的前臺系統(tǒng),但此系統(tǒng)還可以根據(jù)計算機后臺系統(tǒng)傳遞出的分類器號形成新的分類器。
2.2 訓練學習子系統(tǒng)的設計
此系統(tǒng)的設計主要是為了通過訓練語料庫而形成新的分類器。即對語料庫進行更新時,該系統(tǒng)會使語料庫的訓練重新開始,已達到信號能傳遞至自動分類系統(tǒng),從而更新分類器的效果。與自動分類系統(tǒng)相對,此系統(tǒng)隸屬于計算機的后臺運行系統(tǒng)。
3 基于boosting算法的新聞文本分類設計的構(gòu)成模塊
基于boosting算法的新聞文本分類設計的構(gòu)成模塊包括文本預處理、人工分類、文本分詞、文本降維和分類器訓練五部分。其每個模塊有著特定的作用:文本預處理的主要作用是指對文本進行中英文識別,以及轉(zhuǎn)換文本的格式;人工分類的主要作用是指由專家對文本標上類別標簽予以分類;文本分詞的主要作用是指通過對經(jīng)過預處理的新聞文本進行高精度的分詞,以滿足后續(xù)算法的需要,并提高后續(xù)的分類速度;文本降維的主要作用是通過刪除停用詞和低頻詞等對文本分類貢獻小的詞匯,且避免過匹配問題,來提高程序的效率和運行速度;分類器的主要作用是指對指定的新聞文本的語料進行預處理、分詞和降維訓練后,得到分類器,并將成功的信號傳遞到前臺系統(tǒng)。
4 基于boosting算法的新聞文本分類試驗數(shù)據(jù)及比較結(jié)果
本文算法同常用的分類算法在準確率、查全率以及F測試上的表現(xiàn)如表1所示。
由表1可以看出,在基于boosting算法下新聞文本分類系統(tǒng)的設計是否合理,需要通過準確率、查全率以及F測試值這三個指標來來進行驗證。通過反復的測試與試驗,其大致實驗過程如下:首先,根據(jù)試驗所需,從相關(guān)計算機數(shù)據(jù)庫中抽取并下載600篇新聞文本,以人工分類的方式將這些文本主要分為3類。同時應注意,語料庫有大小之分,為此我們又將這些新聞文本通過交叉驗證的方式,對“熟”語料進行了平均分配,分為10份,并將其中的9份作為訓練集和封閉測試集,1份作為開放測試集。然后按照此方法,將每一份都作為康芳測試集,進行一次分類操作,共計10次。最后,對這10次得到的結(jié)果記性平均值的計算,與其他的新聞文本的分類方法所得結(jié)果進行相應數(shù)據(jù)的比較。結(jié)果顯示,即使在訓練語料庫規(guī)模較小的情況下,新聞文本的分類通過boosting算法依舊可以達到預期的效果進度。
綜上所述,時代在進步,科技在發(fā)展,人們每天接觸的新聞信息量是越來遠大。我們需要對這些新聞信息進行分門別類,去粗取精。為了實現(xiàn)快速、準確掌握必要新聞信息的目的,我們設計了一個基于boosting算法的新聞文本分類的實驗,經(jīng)過實驗結(jié)果數(shù)據(jù)的對比,證明了基于boosting算法的新聞文本分類的方法是可取的,其效果是良好的,可以滿足人們的需求。
參考文獻
[1]肖江,張亞非.Boosting算法在文本自動分類中的應用[J].解放軍理工大學學報自然科學版,2003,4(02):25-28.
[2]董樂紅,耿國華,周明全.基于Boosting算法的文本自動分類器設計[J].計算機應用,2007,27(02):384-386.
[3]張文生,于廷照.Boosting算法理論與應用研究[J].中國科學技術(shù)大學學報,2016(03):222-230.
[4]趙春蘭.一種單一編碼多分類 boosting 優(yōu)化算法[J].計算機與現(xiàn)代化,2015(08):121-126.
[5]李詒靖,郭海湘,李亞楠,等.一種基于Boosting的集成學習算法在不均衡數(shù)據(jù)中的分類[J].系統(tǒng)工程理論與實踐,2016(01):189-199.
[6]羅軍,況夯.基于Boosting算法集成遺傳模糊分類器的文本分類[J].計算機應用,2016,28(09):2386-2388.
[7]肖江,張亞非.Boosting算法在文本自動分類中的應用[J].解放軍理工大學學報自然科學版,2016,4(02):25-28.
[8]劉川,廖士中.矩優(yōu)化Boosting算法[J].模式識別與人工智能,2015,28(12):1067-1073.
[9]DONG Lehong,GENG Guohua,ZHOU Mingquan,等.Design of auto text categorization classifier based on Boosting algorithm基于Boosting算法的文本自動分類器設計[J].計算機應用,2017,27(02):384-386.