田冬陽
摘要:目前模糊支持向量機(jī)使用的隸屬度很大程度上依賴于先驗(yàn)知識(shí)、后驗(yàn)概率和多個(gè)自由參數(shù),應(yīng)用面不廣、計(jì)算復(fù)雜、較難執(zhí)行性能調(diào)優(yōu)。為獨(dú)立于學(xué)科領(lǐng)域知識(shí),讓模糊支持向量機(jī)利用樣本集構(gòu)造出性能更優(yōu)的分類器,引入了一種更具魯棒性的隸屬度計(jì)算方法:R-FSVM,該算法使用重構(gòu)誤差計(jì)算每個(gè)文檔相對(duì)于歸屬類別的隸屬度。最后構(gòu)造了文本分類實(shí)驗(yàn)系統(tǒng),實(shí)驗(yàn)結(jié)果表明改進(jìn)算法在準(zhǔn)確率、召回率、F1值上具有更好的性能。
關(guān)鍵詞:隸屬度;模糊支持向量機(jī);魯棒性;重構(gòu)誤差;文本分類;
中圖分類號(hào):TP181文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)15-3674-05
A Kind of Text Classification Algorithm Based on Robust Fuzzy Support Vector Machines
TIAN Dong-yang
(Wulumuqi Central Sub-branch of the Peoples Bank of China,Wulumuqi 830002,China)
Abstract:The fuzzy support vector machines using membership is more dependent on prior knowledge, posteriori probability and some free parameters. It makes application is not wide, computational complexity. In order to be more independent of subject area knowledge, fuzzy support vector machine use the sample sets to construct better performance of the classifier. It introduces a kind of more robust calcu? lation method of the membership(R-FSVM), using the reconstruction error to calculate membership of Each document. Finally, it con? struct a text classification experiment, the experimental results show that the improved algorithm has better performance in accuracy, recall rate, the F1 value.
Key words:membership; fuzzy support vector machines; robustness; reconstruction error; text classification
分類器是文本分類系統(tǒng)核心部分,目前廣泛使用的是支持向量機(jī)(SVM)模型。但SVM存在的主要問題是假設(shè)訓(xùn)練集中的所有文檔具有同樣的權(quán)重,這將導(dǎo)致訓(xùn)練集中的噪音數(shù)據(jù)對(duì)分類結(jié)果產(chǎn)生較大影響。為解決該問題,一些學(xué)者提出了模糊支持向量機(jī)(FSVM)模型,試圖減小噪音樣本的影響。但現(xiàn)有的FSVM模型中,多數(shù)需要先驗(yàn)領(lǐng)域知識(shí)或含有太多自由參數(shù),需要人為干預(yù)優(yōu)化。針對(duì)以上問題,做了如下工作:
1)為FSVM引入更具魯棒性的隸屬度計(jì)算方法。這種隸屬度計(jì)算方法通過重構(gòu)誤差衡量單個(gè)文檔對(duì)預(yù)設(shè)類別的隸屬度,并且通過網(wǎng)格搜索法獲取其中一個(gè)自由變量。引入這種計(jì)算方法,隸屬度函數(shù)將不再依賴先驗(yàn)領(lǐng)域知識(shí)、后驗(yàn)概率以及人為干預(yù)。從而使得分類器模型更具魯棒性:能夠有效降低干擾數(shù)據(jù)對(duì)模型訓(xùn)練的影響;獨(dú)立于學(xué)科領(lǐng)域的分類器模型能夠很容易地改造并應(yīng)用于其他領(lǐng)域。
2)使用R-FSVM分類器模型構(gòu)建文本分類算法實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,R-FSVM相對(duì)于SVM、FSVM-F、I-FSVM,在查準(zhǔn)率、召回率、F1值上有了提升,實(shí)驗(yàn)取得了較好的預(yù)期目標(biāo)。