国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進的文本特征選取算法研究

2019-05-17 02:52:06朱世玲
計算機技術與發(fā)展 2019年5期
關鍵詞:特征詞互信息類別

朱世玲,鄭 彥

(南京郵電大學 計算機軟件學院,江蘇 南京 210023)

0 引 言

隨著計算機信息技術的快速發(fā)展,網(wǎng)絡上各種各樣的文本數(shù)據(jù)極速增長。對這些文本數(shù)據(jù)的快速處理成為了重要的研究課題,文本分類也因此得到了快速發(fā)展。文本分類是在給定一些特定的文本類別下,根據(jù)文本的內(nèi)容將文本自動劃分到一個或多個類別中[1-2]。在文本分類時,通常需要將文本信息用向量空間模型或詞頻矩陣來表示[3]。如果直接用文本向量來表示,則向量空間維數(shù)會很大,而且會包含很多無用的屬性,所以需要對文本數(shù)據(jù)進行預處理,去除無關屬性,降低文本向量空間的維數(shù)以及排除一些無關信息對分類的干擾。預處理通常包括去除停用詞、特征選取等方法[4],而特征選取是文本分類預處理中的重要一步,也是一直以來很多學者研究的重點問題[5-7]。目前,文本分類中常用的特征選取算法有文檔頻率(document frequency,DF)、卡方統(tǒng)計量(CHI-square statistic,CHI)、信息增益(information gain,IG)、互信息(mutual information,MI)[8]等。文檔頻率就是設置一個閾值,只要在訓練集中包含該詞的文本數(shù)大于這個閾值就選取作為特征詞。在文本分類特征選取中,互信息衡量的是一個特征和類別之間的相關程度,互信息值越大,所包含的類別信息就越多,對分類影響就越大。近年來很多學者都對互信息進行了改進[9-12]。在此基礎上,文中分別討論了文檔頻率和互信息在進行特征選取時的缺點,提出了一種混合文檔頻率和互信息的改進算法,并通過實驗對其有效性進行驗證。

1 傳統(tǒng)的特征選取算法

1.1 傳統(tǒng)的文檔頻率算法

文檔頻率算法是文本分類中最簡單、復雜度最低的特征選取算法。它是指在訓練集中包含某個詞條的文本數(shù)。將得到的每個詞條的DF值和預先設定的閾值進行比較,如果大于這個閾值,就表示這個詞條屬于高頻詞對文本分類有價值,就保留作為特征詞,如果小于這個閾值,就認為該詞條屬于低頻詞對分類沒有貢獻并刪除。這種方法簡單,計算快速,能夠勝任大規(guī)模的文本分類任務。

1.2 傳統(tǒng)的互信息算法

在文本分類特征選取中,互信息衡量的是特征和類別之間的統(tǒng)計關聯(lián)程度。它的理論基礎是如果類別c中包含特征t的文檔數(shù)占類別文檔數(shù)的比重高,而包含特征t占文檔集總數(shù)的比重低,則表明特征t與類別具有強相關性,不是相互獨立關系,其互信息值大[13]。特征與類別之間的互信息計算公式如下:

(1)

其中,P(t,c)表示在類別c中文本包含特征t的概率;P(c)表示屬于類別c的文本占訓練集文本的概率;P(t)表示在訓練集中文本包含特征t的概率。當特征t和類別c相互獨立時,P(t|c)=P(t)P(c)的值就等于0。P(t|c)值越大,P(t)值越小,互信息值就越大,特征與類別之間的關聯(lián)性就越強,特征就具有更多的分類信息。

特征t對于整個類別的互信息主要有兩種計算方式,分別是互信息的最大值和各類互信息的平均值。兩種計算公式如下:

采用平均值:

(2)

采用最大值:

MI(t)=maxMI(t,ci)

(3)

2 改進的特征選取算法

2.1 傳統(tǒng)文檔頻率方法的不足與改進

文檔頻率算法雖然簡單直白,復雜度低,但是缺點也很明顯,即沒有確切的理論基礎,通常被認為是一種經(jīng)驗方法。而且考慮特征詞和類別之間的關系,有的詞條小于預先設定的閾值,被認為低頻詞而刪除,但卻在某個類別中集中出現(xiàn),能夠很好地反映該類別特征。有的詞條雖然大于預先設定的閾值,但卻在每個類別中均勻出現(xiàn),這樣的特征詞對分類就沒有價值[14]。基于這個缺點,文中為特征詞的文檔頻率加入類別間的方差權重,選擇詞條在每個類別中文檔頻率方差比較大的詞條。這樣可以降低在每個類別中均等出現(xiàn)詞的作用。

改進后的文檔頻率公式如下:

DF(t)=β×logDF

(4)

其中,DF(t)表示改進后的特征t的文檔頻率;β表示特征t在各個類別中的文檔頻率的方差權重;DF表示特征t的文檔頻率。

β的計算公式為:

(5)

其中,m表示類別總數(shù);dfj(t)表示特征t在類別j中的文檔數(shù)。

2.2 傳統(tǒng)互信息方法的不足與改進

根據(jù)式1可知,當兩個特征的P(t|c)相同時,P(t)越小的特征的互信息值反而越大,所以會偏向選擇低頻詞[15]。而且對于特征t和類別c,當互信息值大于零時,P(t|c)越大或P(t)越小時,互信息的值就越大,絕對值越大;當互信息值小于零時,P(t|c)越大或P(t)越小時,互信息的值越小,絕對值反而越大。換句話說,當P(t|c)和P(t)越接近時,特征t和類別c的相關聯(lián)度就越小,互信息的絕對值越小,反之,互信息的絕對值就越大。所以,互信息值的絕對值越大的特征越能反映特征和類別之間的關聯(lián)程度。改進后的互信息公式如下:

(6)

其中互信息的值采用平均值。

2.3 改進的混合算法

文中提出了混合DF和MI的特征選取算法,并對DF和MI各自的不足進行了分析和改進。針對DF方法偏向選擇高頻詞和MI方法偏向選擇低頻詞,考慮將兩種方法進行混合來削弱它們的不足,使在特征選取時選擇的特征詞既不偏向低頻詞也不偏向高頻詞,也避免選取在類別中均等出現(xiàn)的特征詞?;旌螪F和MI的特征選取公式如下:

(7)

3 實 驗

3.1 數(shù)據(jù)集及開發(fā)工具

實驗數(shù)據(jù)集采用搜狗數(shù)據(jù)集,總共9個類別,分別為財經(jīng)、IT、健康、體育、旅游、教育、招聘、文化、軍事。每個類別300篇文章,共2 700篇文章,其中每個類別的200篇文章用于訓練,100篇文章用于測試分類結果。為了驗證該算法的有效性,將傳統(tǒng)的DF方法和傳統(tǒng)的MI方法與提出的混合DFMI方法進行比較。分類器選擇實現(xiàn)簡單,分類效果良好的樸素貝葉斯,用Java語言實現(xiàn),開發(fā)工具為Eclipse。

3.2 分類效果評估

一篇文本的分類情況可以分為四種:真正例(true position)、假正例(false position)、真反例(true negative)、假反例(false negative),如表1所示。

表1 文本分類結果

評價算法好壞的度量指標采用精度(precision,又稱查準率)、召回率(recall,又稱查全率)、F1度量。

精度(P)可以看作精確性的度量,即標記為正類的元組實際為正類所占的百分比,公式如下:

(8)

召回率(R)是完全性度量,即正元組標記為正的百分比,公式如下:

(9)

F1度量是把精度和召回率組合到一起的度量方法,公式如下:

(10)

3.3 實驗結果及分析

在Eclipse上用Java語言實現(xiàn)樸素貝葉斯分類,來驗證不同特征選取方法對分類結果的影響。先利用中科大ICTCLAS分詞系統(tǒng)對所有文本進行分詞,根據(jù)分詞后的結果,再選取名詞性和既有名詞性和動詞性的詞語,得到預處理后的特征集合。使用不同特征選取方法進行特征選取,特征詞都是1 000個。將所有文本向量化,最后利用樸素貝葉斯分類器對文本進行分類,實驗結果如表2所示。

表2 DF、MI、DFMI方法在精度、召回率和F1上的比較 %

從表中可以看出,改進的混合DFMI方法明顯比MI方法好很多,無論在精度、召回率還是F1度量上都明顯提高,和DF相比也均有提升,從而驗證了混合DFMI方法的有效性。

4 結束語

MI方法簡單,應用廣泛,但傾向選擇低頻詞,忽略了互信息絕對值較大的特征也具有較好的類別區(qū)別能力,因此通過對互信息取絕對值后再取平均值排序進行特征選擇。DF方法雖然簡單直白,但有的特征雖然出現(xiàn)的頻率很好,但在類別中均等出現(xiàn)這樣的特征也沒有區(qū)別能力,所以考慮加入文檔頻率類別方差。基于兩種改進后的方法,提出一種混合的DFMI特征選取算法。實驗結果表明,該算法在精度、召回率和F1度量上均有所提高。

現(xiàn)有的特征選取算法都是從不同的角度進行特征選取,都有各自的優(yōu)缺點,因此將不同的特征選取算法進行混合,使之從多個角度進行考慮,兼顧多個方面,是一個值得研究的方向。

猜你喜歡
特征詞互信息類別
基于改進TFIDF算法的郵件分類技術
產(chǎn)品評論文本中特征詞提取及其關聯(lián)模型構建與應用
基于互信息的貝葉斯網(wǎng)絡結構學習
聯(lián)合互信息水下目標特征選擇算法
服務類別
新校長(2016年8期)2016-01-10 06:43:59
面向文本分類的特征詞選取方法研究與改進
改進的互信息最小化非線性盲源分離算法
電測與儀表(2015年9期)2015-04-09 11:59:22
基于增量式互信息的圖像快速匹配方法
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
临沭县| 邯郸县| 宝山区| 深泽县| 潜江市| 靖宇县| 绥化市| 滨州市| 探索| 伊川县| 达尔| 诸暨市| 繁峙县| 大渡口区| 虎林市| 瓮安县| 阿克苏市| 安陆市| 汶川县| 张掖市| 孝义市| 南昌市| 黄平县| 五指山市| 凤凰县| 荆州市| 郧西县| 乌兰察布市| 云梦县| 西贡区| 楚雄市| 天等县| 抚顺县| 竹山县| 桃园县| 左云县| 石城县| 溧阳市| 宿迁市| 永清县| 台安县|