国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本分類中基于改進特征選擇方法的研究*

2016-08-10 05:33胡改蝶樊孝仁崔藝馨
計算機與數字工程 2016年7期
關鍵詞:文本分類特征選擇效率

胡改蝶 樊孝仁 崔藝馨

(太原工業(yè)學院網絡與信息中心 太原 030008)

?

文本分類中基于改進特征選擇方法的研究*

胡改蝶樊孝仁崔藝馨

(太原工業(yè)學院網絡與信息中心太原030008)

摘要文本分類不僅可以提高分類的效率,而且可使人們更快地找到想要獲取的信息。在特征選擇方法的基礎上,分析了卡方統(tǒng)計法的缺點,對其提出了一種改進的方法,同時采用支持向量機分類的算法和詞頻-逆向文件頻率權重函數對其進行了驗證。通過實驗得出此方法可以在很大程度上提高文本分類精確度,使分類的效果更好。

關鍵詞效率; 文本分類; 特征選擇; 卡方統(tǒng)計法

Class NumberTP311

1引言

網絡發(fā)展到現今,幾乎所有的知識、信息和新聞等都可以從網絡中得到,但如何將網絡中的內容更好地進行分類,更加方便人們進行查找,便成了一個熱門話題。文本分類是屬于機器學習中的一個重要應用。文本分類就是將海量的且雜亂無章的文檔集通過計算機將其分別歸到不同的類別中,就像映射進程一樣,即將一個新文檔映射到現有的類別中去,這種映射有兩種,一種是一對一,另一種是一對多[1]。從模式分類的角度來看,常見的文本分類方法有基于統(tǒng)計方法、基于連接方法和基于規(guī)則方法[2]。文本分類大致步驟是:第一步是預處理;第二步是從上一步的語料庫中提取相應的特征,即特征提??;第三步是特征選擇;最后,重新對一個新文檔集進行分類[3]。

2特征選擇概述

所有的分類都要依賴于文本訓練樣例的特征詞規(guī)模,特征詞的規(guī)模達到數萬個是再正常不過的,甚至可以達到億級,因而做出決策模型的時間就很長,并且如此大的維數非常容易造成維度災難。降低維數的輸入而不影響分類準確率的方法有特征選擇與特征抽取[4]。

特征選擇也稱特征子集或屬性選擇,即從特征子集中找到最佳子集作為特征詞,因為最佳子集所含的維數最少,對分類準確率的貢獻就最大。特征選擇的目標是根據一個選擇標準在原始特征集中選擇一個子集,去掉不相關的特征,達到減少特征的個數,而且剩下的正相關的特征使模型得到了簡化,使分類效果與準確度大大提高[5~6]。特征選擇在文本分類中的方法比較多,有文檔頻率DF、信息增益IG、期望交叉熵ECE、卡方統(tǒng)計方法CHI、互信息MI、GSS Coefficient等[7]。

3卡方特征選擇統(tǒng)計法與改進

卡方特征選擇統(tǒng)計法從標準考慮角度來看,有距離、相關性和平衡度三種度量標準。其中,相關性度量標準在一定程度上能有效地去掉不相關的特征[8]。特征t在類別c中的CHI特征選擇方法如式(1)所示,公式計算所得到的結果越大,說明此特征與類別之間的相關性越大,分類的結果也就越好。

(1)

本文從相關性度量標準和平衡度度量標準來進行相應的研究,前者主要是在文檔中找到與特征相關比較大的詞,從而進行特征選擇[9];后者主要是在文檔中找到與特征平衡度較高的詞作為特征詞,從而進行特征選擇。但一些相關性不大的詞和平衡度不太高的詞卻沒有考慮在內。為了有效地解決這些問題,CHI特征選擇方法進行了改進,改進后的式(2)。

(2)

其中:總文檔數為n,類別為c,類別c中含有特征t的文檔概率η=1.0*tfi/n,類別c的文檔概率ξ=1.0*c/n。

4實驗與結果分析

4.1語料庫及實驗環(huán)境

本實驗的訓練與測試語料庫均由復旦大學信息與技術系國際數據庫中心自然語言處理小組整理所得,從中抽取了八個類別,分別是計算機、交通、軍事、環(huán)境、政治、體育、醫(yī)藥和經濟。其中訓練文本集有1569個,測試文本集有779個,文本集共2348個文本集。采用環(huán)境是Windows7專業(yè)版,Intel(R) Xeon(R) CPU E5504@2.00GHz處理器,2.00G內存,32位操作系統(tǒng),Visual C++6.0開發(fā)語言。

4.2分類算法、權重及評價標準

文本分類算法有K-近鄰算法、支持向量機(SVM)算法、決策樹算法和樸素貝葉斯算法等,本實驗采用SVM分類算法,這種算法是在類別中找到一個決策邊界,只關心靠近邊界的實例,落在內部的實例將其丟掉,可以從高維度的特征空間中學習到較好的分類超平面[10]。文本分類特征權重方法有布爾函數、平均根函數、TF-IDF函數和對數函數等,本文特征權重選擇TF(IDF函數,它的理論是若一詞在文檔中出現的頻率TF高,同時在其他文檔中出現的次數比較少,那么這個詞就有很好的區(qū)分類別的能力,因而它是信息搜索中最常用的方法,在分類中廣泛應用[11]。實驗過程中特征選擇方法選用CHI,特征維數選擇500。文本分類的評價標準有查全率(R,Recall)、查準率(P,Precision)、漏報率、準確率、宏平均、微平均、ROC曲線、代價因子和F-測度(F)等,本實驗用到的評價標準是查全率(R)、查準率(P)和F-測度(F)[12]。

4.3結果分析

傳統(tǒng)的CHI與改進后的CHI的查全率和查準率實驗比較結果如表1所示,F-測度實驗比較結果如表2所示。從表1和表2中可以看出,改進后CHI方法的查全率R、查準率P和F-測度的評價標準值都比傳統(tǒng)CHI高,雖然某些值高出的并不明顯,但整體來說,改進后的實驗結果要好些。

表1 查全率和查準率實驗結果比較

表2 F-測度實驗比較結果

由于F-測度是由查全率與查準率得出的,在一定程度上F-測度結果是二者的綜合,所以本實驗給出了F-測度的比較曲線圖,如圖1所示。從圖1中可以更加直觀地看到,改進后的方法比傳統(tǒng)的方法的F-測度的分類效果明顯要好得多。

圖1 F-測度比較曲線圖

5結語

文本分類中的一個必不可少的、關鍵且重要的一步是特征選擇方法,CHI統(tǒng)計法是特征選擇方法中比較好的一種。本文將文本分類中CHI統(tǒng)計法進行了闡述與分析,并提出了一種改進的CHI方法,通過大量實驗,進一步說明改進的方法是適用的、可行的、高效的。

參 考 文 獻

[1] 王雷.文本分類相關技術研究[D].上海:復旦大學,2006.WANG Lei. Research On the Related Technology of Text Classification[D]. Shanghai: Fudan University,2006.

[2] 祝曉魯,白振興,賈海燕.自動文本分類技術研究[J].現代電子技術,2007(3):121-124.

ZHU Xiaolu, BAI Zhenxing, JIA Haiyan. A Survey of Algorithm of Text Categorization[J]. Modern Electronics Technique,2007(3):121-124.

[3] 陳艷秋,熊耀華.新型快速中文文本分類器的設計與實現[J].計算機工程與應用,2009,45(22):53-55.

CHEN Yanqiu, XIONG Yaohua. Design and implementation of new Chinese text classier[J]. Computer Engineering and Applications,2009,45(22):53-55.

[4] Ethem Alpaydin.機器學習導論[M].范明,昝紅英,牛常勇,譯.北京:機械工業(yè)出版社,2009:65-69.

Ethem Alpaydin. Machine learning[M]. FAN Ming, ZAN Hongying, NIU Changyong, et al. Beijing: China Machine Press,2009:65-68.

[5] 范小麗,劉曉霞.文本分類中互信息特征選擇方法的研究[J].計算機工程與應用,2010,46(34):123-125.FAN Xiaoli, LIU Xiaoxia. Study on mutual information-based feature selection in text categorization[J]. Computer Engineering and Applications,2010,46(34):123-125.

[6] M. Dash, H. Liu. Feature Selection for Classification. Intelligent Data Analysis,2010,1:131-156.

[7] 張玉芳,王勇,劉明,等.新的文本分類特征選擇方法的研究[J].計算機工程與應用,2013,49(5):132-135.

ZHANG Yufang, WANG Yong, LIU Ming, et al. New feature selection approach for text categorization[J]. Computer Engineering and Applications,2013,49(5):132-135.

[8] 范小麗.文本分類中特征選擇方法的研究與應用[D].西安:西北大學,2011.

FAN Xiaoli. Research and Application of Feature Selection Method in Text Categorization[D]. Xi’an: Northwest University,2011.

[9] 胡改蝶,馬建芬.文本分類中一種特征選擇方法的改進[J].計算機與現代化,2011(5):20-21.

HU Gaidie, MA Jianfen. Improvement of Feature Selection Method in Text Classification[J]. Computer And Modernization,2011(5):20-21.

[10] Nello Cristianini, John Shawe-Taylaor.李國正,王猛,曾華軍,譯.支持向量機導論[M].北京:電子工業(yè)出版社,2004:8-15.

Nello Cristianini, John Shawe-Taylaor. Li Guozheng, Wang Meng, Ze Huajun. Introduction to Support Vector Machine[M]. Beijing: Publishing House of Electronics Industry,2004:8-15.

[11] 宋惟然.中文文本分類中特征選擇和權重計算方法的研究[D].北京:北京工業(yè)大學,2013.

SONG Weiran. Researchon Feature Selection and Weighting Method for Chinese text Classification[D]. Beijing: Beijing University of Technology,2013.

[12] 郭亞維,劉曉霞.文本分類中信息增益特征選擇方法的研究[J].計算機工程與應用,2012(27):119-122.

GUO Yawei, LIU Xiaoxia. Study on information gain-based feature selection in Chinese text categorization[J]. Computer Engineering and Applications,2012,48(27):119-122.

收稿日期:2016年1月4日,修回日期:2016年2月26日

作者簡介:胡改蝶,女,碩士,助理工程師,研究方向:自然語言處理,文本分類,機器學習,計算機網絡。樊孝仁,男,副教授,研究方向:信息與計算技術。崔藝馨,女,碩士,助理工程師,研究方向:計算機網絡,數據挖掘。

中圖分類號TP311

DOI:10.3969/j.issn.1672-9722.2016.07.022

Text Categorization Based on Improved Feature Selection in Text Categorization

HU GaidieFAN XiaorenCUI Yixin

(Network and Information Center, Taiyuan Institute of Technology, Taiyuan030008)

AbstractText categorization not only can improve the efficiency of categorization, but also can make people quickly find the information they want. On the basis of the feature selection method, this paper analyzes Chi-square (CHI) statistical method shortcomings, and proposes a Chi-square statistical method. At the same time, the Support Vector Machine (SVM) classification’s algorithm and Term Frequency-Inverse Document Frequency (TF-IDF) weight function are used on the validation. The experiment shows that this method can largely improve to the text categorization accuracy, the classification effect is greatly improved, make better classification.

Key Wordsefficiency, text categorization, feature selection, Chi-square statistical method

猜你喜歡
文本分類特征選擇效率
提升朗讀教學效率的幾點思考
Kmeans 應用與特征選擇
基于組合分類算法的源代碼注釋質量評估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
文本分類算法在山東女子學院檔案管理的應用
聯(lián)合互信息水下目標特征選擇算法
基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
跟蹤導練(一)2
“錢”、“事”脫節(jié)效率低