国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本分類(lèi)中TF IDF權(quán)重計(jì)算方法改進(jìn)

2018-02-12 12:24隗中杰
軟件導(dǎo)刊 2018年12期
關(guān)鍵詞:文本分類(lèi)分布密度

隗中杰

摘要:TF?IDF是文本分類(lèi)中計(jì)算特征權(quán)重的經(jīng)典方法,但其本身并未考慮特征詞在文檔集合中的分布情況,從而導(dǎo)致類(lèi)別區(qū)分度不大。通過(guò)計(jì)算特征詞類(lèi)內(nèi)密度與特征詞在樣本中均勻分布時(shí)整體平均密度的比值對(duì)IDF函數(shù)進(jìn)行改進(jìn)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的TF?IDF考慮了特征詞內(nèi)分布與在整體文檔集中的分布,提升了對(duì)類(lèi)別的區(qū)分能力,有效改善了文本分類(lèi)效果。

關(guān)鍵詞:文本分類(lèi);密度;TF?IDF;特征權(quán)重;分布

Improvement of TF?IDF Weight Calculation Method in Text Classification

WEI Zhong?jie

(Information Technology and Network Security, People's Public Security University of China,Beijing 100038,China)

Abstract:TF?IDF is a classical method for calculating feature weight calculation in text classification, but it does not consider the distribution of feature words in the document collection itself, which results in less classification. In this paper, the IDF function is improved by calculating the ratio of the intra?class density of the feature words to the overall average density of the feature words evenly distributed in the sample. Experiments show that the improved TF?IDF considers the intra?class distribution of feature words and the distribution of the overall document set, which improves the ability to distinguish categories and effectively improves the text classification effect.

Key Words:text classification; density; TF?IDF; feature weight; distribution

0?引言

隨著信息技術(shù)的發(fā)展與大數(shù)據(jù)時(shí)代的到來(lái),每天都會(huì)產(chǎn)生海量數(shù)據(jù),信息量呈幾何級(jí)數(shù)增長(zhǎng),而文本數(shù)據(jù)在其中占據(jù)著非常重要的部分。因此,如何對(duì)相關(guān)數(shù)據(jù)進(jìn)行有效處理以便于人們加以利用,文本分類(lèi)是至關(guān)重要的。文本分類(lèi)是指將未分類(lèi)的文檔,通過(guò)分析文檔內(nèi)容將其歸類(lèi)為已知的某一個(gè)或某幾個(gè)類(lèi)別[1]。文本分類(lèi)通常需要經(jīng)過(guò)文本預(yù)處理、特征選擇、文本向量化、分類(lèi)4個(gè)步驟。本文將對(duì)經(jīng)典方法TF?IDF進(jìn)行改進(jìn),并通過(guò)實(shí)驗(yàn)證明改進(jìn)TF?IDF算法的有效性與可行性。

1?國(guó)內(nèi)外研究現(xiàn)狀

TF?IDF是使用最為廣泛的文本特征權(quán)重計(jì)算方法[2],對(duì)其進(jìn)行改進(jìn)更是文本分類(lèi)與聚類(lèi)領(lǐng)域的研究重點(diǎn)。在國(guó)外,F(xiàn)orman[3]通過(guò)統(tǒng)計(jì)比較類(lèi)分布的顯著性,對(duì)IDF進(jìn)行二元正態(tài)分割;Lan等[4]提出TF?RF算法,用相關(guān)性頻率替代IDF。在國(guó)內(nèi),張玉芳等[5]將IDF計(jì)算改為IDF=log?N(t?j,c?i)N(t?j,c?i)+N(c?j,C?i),其中N(t?j,Ci)為類(lèi)C?i中包含特征詞t?j的個(gè)數(shù),N(t?j,C?i)為非類(lèi)C?i包含特征t?j?的個(gè)數(shù)。該方法將類(lèi)內(nèi)與類(lèi)間特征簡(jiǎn)潔地體現(xiàn)在對(duì)IDF的改進(jìn)中,從而一定程度上改善了傳統(tǒng)TF?IDF的缺陷;申劍博[6]通過(guò)調(diào)和類(lèi)內(nèi)均勻分布與類(lèi)間比重,提出TF?DFI?DFO算法;覃世安[7]利用文檔中詞出現(xiàn)的概率替代詞頻,對(duì)IDF進(jìn)行了優(yōu)化;趙小華[8]通過(guò)CHI統(tǒng)計(jì)值對(duì)TF?IDF進(jìn)行修正,提出TF?IDF?CHI算法,之后路永和等[9]將CHI值取自然對(duì)數(shù),以改善其權(quán)重影響過(guò)大的問(wèn)題,并提出TW?TF?IDF算法;馬瑩等[10]考慮特征詞之間的近義關(guān)系,結(jié)合語(yǔ)義相似度改進(jìn)詞頻信息,從而改進(jìn)了TF?IDF算法。此外,還有一些學(xué)者利用文檔長(zhǎng)度與特征詞長(zhǎng)度等信息對(duì)傳統(tǒng)方法進(jìn)行改進(jìn)[11?12]。本文通過(guò)特征詞類(lèi)內(nèi)聚集程度與文檔集中的平均密度改進(jìn)TF?IDF方法,既考慮到特征詞的類(lèi)內(nèi)分布,又考慮到特征項(xiàng)在整體文檔集中的分布,從而有效解決了傳統(tǒng)TF?IDF算法類(lèi)別區(qū)分能力較低的問(wèn)題,提高了文本分類(lèi)精度。

2?文本分類(lèi)步驟

2.1?文本預(yù)處理

文本預(yù)處理主要步驟為分詞[13]與去停用詞。分詞即利用分詞算法將文本切分成字、詞、短語(yǔ)的過(guò)程,分詞精度對(duì)后續(xù)應(yīng)用模塊影響很大,是語(yǔ)言處理最核心的任務(wù)。中文分詞任務(wù)是在詞與詞之間添加間隔符,并盡可能保證分詞準(zhǔn)確性。分詞后的語(yǔ)料中包含大量無(wú)意義詞,例如人稱(chēng)代詞、介詞、副詞等,這些詞稱(chēng)為停用詞,對(duì)文本分類(lèi)并無(wú)實(shí)質(zhì)性幫助,反而會(huì)使特征空間過(guò)大,影響分類(lèi)速度與精度。因此,在文本分類(lèi)時(shí),應(yīng)將停用詞從特征集中去掉,以提高文本分類(lèi)效率。

2.2?特征選擇

特征選擇[14]是指從一組特征中依據(jù)某個(gè)評(píng)估函數(shù)挑選出一些最具代表性的特征。特征選擇主要方法[15]包括文檔頻率(DF,Document Frequency)、信息增益(IG,Information Gain)、互信息(MI,Mutual Information)、χ?2統(tǒng)計(jì)量(CHI,Chi-square)、期望交叉熵(ECE,Expected Cross Entropy)等。其中χ?2統(tǒng)計(jì)量經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證有著較好效果,因此本文在后續(xù)實(shí)驗(yàn)中通過(guò)?χ?2統(tǒng)計(jì)量進(jìn)行特征選擇。χ?2?統(tǒng)計(jì)方法是度量詞條與文檔類(lèi)別之間相關(guān)程度的統(tǒng)計(jì)測(cè)試方法,其基本思想是通過(guò)觀察實(shí)際值與理論值之間偏差確定理論正確性,計(jì)算方程如下:

其中,N表示整個(gè)語(yǔ)料文檔總數(shù),t為詞條,c為類(lèi)別。A表示類(lèi)別c中包含詞條t的文檔數(shù),B表示非類(lèi)別c中包含詞條t的文檔數(shù),C表示類(lèi)別c中不包含詞條t的數(shù)量,D表示非類(lèi)別c中不包含詞條t的文檔數(shù)。

2.3?文本向量化

向量空間模型VSM[16]是應(yīng)用最廣泛的文本表示模型,通過(guò)特征權(quán)重反映特征詞對(duì)文檔貢獻(xiàn)大小、對(duì)該文本內(nèi)容標(biāo)識(shí)能力及區(qū)分其它文本的能力,TF?IDF則是計(jì)算特征權(quán)重的方法之一。

2.4?文本分類(lèi)

文本分類(lèi)算法是指通過(guò)已知類(lèi)別樣本得到分類(lèi)器,再通過(guò)分類(lèi)器對(duì)未知類(lèi)別樣本進(jìn)行自動(dòng)分類(lèi)。常見(jiàn)文本分類(lèi)方法有KNN算法[17]、支持向量機(jī)(SVM)算法[18]、樸素貝葉斯算法、決策樹(shù)算法等。已有研究結(jié)果表明,SVM算法分類(lèi)效果較好[19?21],因此本文選取SVM算法進(jìn)行分類(lèi)器訓(xùn)練。

3?TF?IDF算法改進(jìn)

3.1?傳統(tǒng)TF?IDF算法

TF?IDF是應(yīng)用最廣泛的權(quán)值計(jì)算方法。TF指詞頻(Term Frequency),代表一個(gè)詞或詞組在文檔中出現(xiàn)的頻率,IDF指逆文檔頻率(Inverse Document?Frequence),反映詞語(yǔ)在整個(gè)文檔集中的重要性,其思想為整個(gè)文檔集合中包含某個(gè)詞或詞組的文檔數(shù)越多,代表該詞或詞組對(duì)文本貢獻(xiàn)越低。TF與IDF常用公式如式(2)、式(3)所示。

其中?N(t?i,d)表示特征詞條t?i在文檔d中出現(xiàn)次數(shù),S表示文檔d總詞條數(shù)。

其中N表示總文檔數(shù),N(t?i)表示文檔集中包含詞條的文檔數(shù)。

上式中,N(t?i)=N(t?i,C?j )+N(t?i,C?j),其中N(t?i,C?j )為特征詞t?i在類(lèi)C?j中的文檔個(gè)數(shù),N(t?i,C?j )為非類(lèi)C?j中包含特征詞t?i的文檔個(gè)數(shù),當(dāng)N(t?i,C?j )增加時(shí),N(t?i)?也隨之增加,IDF值則會(huì)減少,最終權(quán)重值也會(huì)減少,意味著該特征詞不能很好地將該類(lèi)文檔與其它類(lèi)別文檔加以區(qū)分,類(lèi)別區(qū)分能力較弱。但是根據(jù)實(shí)際文本分類(lèi)進(jìn)行判斷,如果某一詞項(xiàng)在某一類(lèi)中出現(xiàn)次數(shù)越多,越能代表該類(lèi)文檔,特征權(quán)重也越高,且區(qū)別于其它類(lèi)別的能力越強(qiáng)。因此,傳統(tǒng)IDF不能很好地反映特征詞分布情況,權(quán)值大小僅是由整個(gè)語(yǔ)料中包含特征項(xiàng)的文檔個(gè)數(shù)決定的,導(dǎo)致傳統(tǒng)TF?IDF的類(lèi)別區(qū)分能力不足。

3.2?TF?IDF改進(jìn)

現(xiàn)有某一語(yǔ)料,其類(lèi)別集合為S={C?1,C?2,C?3,…,C?n},n為類(lèi)別數(shù)目,特征詞集合為T(mén)={t?1,t?2,t_3,…,t?j },j為特征詞數(shù)目。本文提出的改進(jìn)算法思想是:首先,假設(shè)特征詞t在整個(gè)語(yǔ)料中均勻分布,可求得特征詞t的分布密度ρ?t;其次,求出特征詞t對(duì)于類(lèi)C?i的分布密度ρ?ti;最后,通過(guò)計(jì)算ρ?ti與ρ?t之間比值,便可得到類(lèi)C?i中特征詞t的聚集程度c。c值越大,說(shuō)明特征詞t在類(lèi)C?i中聚集程度越高,反之亦然?;谝陨纤枷?,?對(duì)IDF進(jìn)行以下改進(jìn):

其中,?N(t?j,C?i)表示類(lèi)C?i中包含特征詞t?j的文本數(shù)目,N(t?j,C?i)表示類(lèi)C?i中不包含特征詞t?j的數(shù)目,N(t?j,C?i)表示非類(lèi)C?i中包含特征t?j的數(shù)目,N?為訓(xùn)練集中的文檔總數(shù)。調(diào)整后的IDF′考慮到詞條加入的類(lèi)別信息,從而克服了傳統(tǒng)TF?IDF存在的問(wèn)題。

將公式進(jìn)行如下驗(yàn)證:類(lèi)C?i中出現(xiàn)特征詞t?j的文檔數(shù)N(t?j,C?i)與特征詞t?j對(duì)于類(lèi)C?i的特征權(quán)重應(yīng)呈正相關(guān)。N(t?j,C?i )+N(t?j ,C?i) = N(C?i)與N都是一個(gè)常數(shù)。因此,上述公式可簡(jiǎn)化為求N(t?j,C?i)與N(t?j,C?i)N(t?j,C?i)+N(t?j,C?i)的相關(guān)性。

其中,N(t?j,C?i)增加時(shí),N(t?j,C?i)N(t?j,C?i)+N(t?j,C?i)的值也隨之增加,所以?xún)烧哒嚓P(guān)。因此,N(t?j,C?i)與特征權(quán)重呈正相關(guān),即特征詞在某類(lèi)中出現(xiàn)頻率越高,其相應(yīng)特征權(quán)重越大。同理可證明,N(t?j,C?i)與特征權(quán)重負(fù)相關(guān),即非類(lèi)C?i中包含特征詞t?j的文檔越多,則特征詞t?j對(duì)于類(lèi)C?i的?權(quán)重越小,符合對(duì)傳統(tǒng)TF?IDF改進(jìn)的要求,因此可用于特征權(quán)重計(jì)算。

4?實(shí)驗(yàn)結(jié)果及分析

4.1?實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)集

本文文本分類(lèi)算法通過(guò)python語(yǔ)言加以實(shí)現(xiàn),并在Windows10環(huán)境下進(jìn)行測(cè)試,內(nèi)存為8G。實(shí)驗(yàn)數(shù)據(jù)來(lái)自搜狗實(shí)驗(yàn)室搜集的9個(gè)類(lèi)別新聞?wù)Z料,包括財(cái)經(jīng)、互聯(lián)網(wǎng)、健康、教育、軍事、旅游、體育、文化、招聘。本文在每類(lèi)中隨機(jī)挑選1 000篇文章進(jìn)行訓(xùn)練與測(cè)試,訓(xùn)練集與測(cè)試集比例為4∶1。

4.2?評(píng)價(jià)指標(biāo)

本文采取準(zhǔn)確率?P、召回率R、F1值及宏平均F1值對(duì)分類(lèi)效果進(jìn)行評(píng)估。分類(lèi)結(jié)果有以下4種情況:①屬于類(lèi)C的樣本被正確分類(lèi)到類(lèi)C的數(shù)目,記為T(mén)P;②不屬于類(lèi)C的樣本被分類(lèi)到類(lèi)C的數(shù)目,記為FN;③屬于類(lèi)C的樣本被錯(cuò)誤分類(lèi)到其它類(lèi),記為T(mén)N;④不屬于類(lèi)C且被正確分到其它類(lèi),記為FP。

準(zhǔn)確率即為預(yù)測(cè)該類(lèi)樣本準(zhǔn)確性,計(jì)算公式如下:

召回率即為預(yù)測(cè)正確的類(lèi)別樣本對(duì)于樣本集中該類(lèi)別樣本的覆蓋程度,公式為:

F1值用來(lái)調(diào)和準(zhǔn)確率和召回率,計(jì)算公式如下:

宏平均F1值可用來(lái)評(píng)價(jià)整個(gè)分類(lèi)器分類(lèi)效果的優(yōu)劣,其值為各類(lèi)F1值的算術(shù)平均值。

4.3?實(shí)驗(yàn)結(jié)果

本文實(shí)驗(yàn)首先對(duì)文檔集合進(jìn)行預(yù)處理,并使用統(tǒng)計(jì)量進(jìn)行特征選擇,取每個(gè)類(lèi)別值排名前100的關(guān)鍵詞組成特征集合。兩種算法通過(guò)SVM進(jìn)行分類(lèi),實(shí)驗(yàn)結(jié)果如圖1與表2所示。

從表2與圖1可以看出,改進(jìn)TF?IDF相比于傳統(tǒng)TF?IDF,分類(lèi)效果有著顯著提升。由圖1可以看出,各個(gè)類(lèi)別的?F1?值均有所提升,其中“文化”一類(lèi)提升最為明顯,提升了6.18%,并且宏平均?F1?值由84.50%提升到87.16%。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的TF?IDF方法對(duì)于提高文本分類(lèi)效果是可行的。

5?結(jié)語(yǔ)

針對(duì)傳統(tǒng)TF?IDF不能體現(xiàn)特征詞分布情況以及類(lèi)別區(qū)分能力不足的缺點(diǎn),本文通過(guò)特征詞類(lèi)內(nèi)密度與特征詞均勻分布時(shí)的密度之比(聚集程度)對(duì)IDF進(jìn)行改進(jìn)。實(shí)驗(yàn)結(jié)果證明,改進(jìn)的TF?IDF算法分類(lèi)效果優(yōu)于傳統(tǒng)TF?IDF算法。文本分類(lèi)中,特征詞提取也是其中的關(guān)鍵一環(huán),因此在接下來(lái)研究中,將會(huì)對(duì)特征詞選擇與提取進(jìn)行改進(jìn),以進(jìn)一步提升文本分類(lèi)效果。

參考文獻(xiàn):

[1]?SEBASTIANI F. Machine learning in automated text categorization[J]. ACM Computing Surveys (CSUR), 2002, 34(1):1?47.

[2]?施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計(jì)算機(jī)應(yīng)用,2009,29(S1):167?170,180.

[3]?FORMAN G. BNS feature scaling: an improved representation over TF?IDF for SVM text classification[C].Proceedings of the 17th ACM Conference on Information and Knowledge Management. USA, California: ACM, 2008:263?270.

[4]?LAN M,TAN C L,LOW H B,et al.A comprehensive comparative study on term weighting schemes for text categorization with support vector machines[C].Special Interest Tracks and Posters of the 14th International Conference on World Wide Web,ACM,2005: 1032?1033.

[5]?張玉芳,彭時(shí)名,呂佳.基于文本分類(lèi)TF?IDF方法的改進(jìn)與應(yīng)用[J].計(jì)算機(jī)工程,2006(19):76?78.

[6]?申劍博.改進(jìn)的TF?IDF中文本特征詞加權(quán)算法研究[J].軟件導(dǎo)刊,2015,14(4):67?69.

[7]?覃世安,李法運(yùn).文本分類(lèi)中TF?IDF方法的改進(jìn)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2013(10):27?30.

[8]?趙小華.KNN文本分類(lèi)中特征詞權(quán)重算法的研究[D].太原:太原理工大學(xué),2010.

[9]?路永和,李焰鋒.改進(jìn)TF?IDF算法的文本特征項(xiàng)權(quán)值計(jì)算方法[J].圖書(shū)情報(bào)工作,2013,57(3):90?95.

[10]?馬瑩,趙輝,李萬(wàn)龍,等. 結(jié)合改進(jìn)的CHI統(tǒng)計(jì)方法的TF?IDF算法優(yōu)化[J]. 計(jì)算機(jī)應(yīng)用研究,2019 (9):1?6.

[11]?賀科達(dá),朱錚濤,程昱.基于改進(jìn)TF?IDF算法的文本分類(lèi)方法研究[J].廣東工業(yè)大學(xué)學(xué)報(bào),2016,33(5):49?53.

[12]?楊彬,韓慶文,雷敏,等.基于改進(jìn)的TF?IDF權(quán)重的短文本分類(lèi)算法[J].重慶理工大學(xué)學(xué)報(bào),2016,30(12):108?113.

[13]?梁喜濤,顧磊.中文分詞與詞性標(biāo)注研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(2):175?180.

[14]?毛勇,周曉波,夏錚,等.特征選擇算法研究綜述[J].模式識(shí)別與人工智能,2007,20(2):211?218.

[15]?陳晨. 文本分類(lèi)中基于k?means的特征選擇算法研究[D].西安:西安電子科技大學(xué),2014.

[16]?SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications of the Acm, 1974, 18(11):613?620.

[17]?COVER T, HART P E. Nearest neighbor pattern classification[J]. Information Theory, IEEE Transactions on, 1967,13(1):21?27.

[18]?丁世飛,齊丙娟,譚紅艷.支持向量機(jī)理論與算法研究綜述[J].電子科技大學(xué)學(xué)報(bào),2011,40(1):2?10.

[19]?劉懷亮,張治國(guó),馬志輝,等.基于SVM與KNN的中文文本分類(lèi)比較實(shí)證研究[J].情報(bào)理論與實(shí)踐,2008,31(6):941?944.

[20]?馬建斌,李瀅,滕桂法,等.KNN和SVM算法在中文文本自動(dòng)分類(lèi)技術(shù)上的比較研究[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2008(3):120?123.

[21]?盧葦,彭雅.幾種常用文本分類(lèi)算法性能比較與分析[J].湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2007(6):67?69.

猜你喜歡
文本分類(lèi)分布密度
基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
28例醫(yī)療糾紛起訴案件特點(diǎn)分析
广河县| 萨嘎县| 涟水县| 汝南县| 双辽市| 三台县| 确山县| 北川| 云浮市| 红桥区| 保靖县| 邯郸县| 崇义县| 广州市| 水富县| 南川市| 凤庆县| 景东| 油尖旺区| 抚宁县| 鸡泽县| 沙湾县| 子长县| 山丹县| 灵川县| 齐齐哈尔市| 新建县| 黎城县| 洛扎县| 霍林郭勒市| 江孜县| 通化县| 自贡市| 门源| 德阳市| 北京市| 常德市| 安顺市| 四川省| 改则县| 和平县|