国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本特征提取方法研究綜述

2018-06-21 11:46徐冠華趙景秀楊紅亞劉爽
軟件導(dǎo)刊 2018年5期
關(guān)鍵詞:特征詞特征選擇特征提取

徐冠華 趙景秀 楊紅亞 劉爽

摘 要:特征提取是文本挖掘、信息檢索、自然語言處理(NLP)、文本情感分析、網(wǎng)絡(luò)輿情分析等領(lǐng)域的研究熱點(diǎn)。特征提取作為文本挖掘系統(tǒng)的主要因素,文本特征提取性能是文本分類結(jié)果的重要性度量。從兩方面對(duì)特征選擇算法進(jìn)行總結(jié),分析國內(nèi)外對(duì)常用特征提取算法的改進(jìn)和創(chuàng)新,最后針對(duì)影響特征提取的因素,指出在實(shí)際應(yīng)用中應(yīng)考慮的問題。

關(guān)鍵詞:特征提取;距離測度;信息測度

DOI:10.11907/rjdk.172617

中圖分類號(hào):TP-0

文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)005-0013-06

Abstract:Feature extraction is the research focus of text mining, information retrieval, Natural Language Processing (NLP), text sentiment analysis, network public opinion analysis, etc. Feature extraction is the main factor of text mining system, and the performance of text feature extraction is the important measurement of text categorization results. This paper summarizes two kinds of feature selection algorithms, and analyzes the improvement and innovation of common feature extraction algorithms at home and abroad. Finally, it points out issues which should be taken into account in practical application influenced by feature extraction.

Key Words:feature extraction; distance measure; information measure

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展,以及計(jì)算機(jī)和信息技術(shù)的不斷更新?lián)Q代,網(wǎng)絡(luò)上存儲(chǔ)的信息越來越豐富。文本作為信息的有效表現(xiàn)形式,數(shù)量也增長迅速。近年來,隨著云計(jì)算和大數(shù)據(jù)的興起,使得海量的文本信息得到有效的組織和管理。如何高效、準(zhǔn)確地獲取有效信息成為文本挖掘、信息檢索、網(wǎng)絡(luò)輿情分析等工作的主要目的。

網(wǎng)絡(luò)文本信息有別于傳統(tǒng)文本信息,具有多樣性、復(fù)雜性、冗余性、不規(guī)范性等特點(diǎn)。因此,對(duì)文本高維度的復(fù)雜特征空間進(jìn)行特征降維成為文本分類的主要關(guān)鍵點(diǎn)。特征提取[1]的目的是對(duì)初始高維特征進(jìn)行有效降維,從高維特征空間中選擇出一個(gè)最優(yōu)特征子集。根據(jù)最優(yōu)特征子集的產(chǎn)生過程劃分歸納特征提取方法,可將特征提取方法分為兩大類:Filter過濾式和Wrapper封裝式[2]。

特征提取作為文本分類的關(guān)鍵技術(shù),通過特征提取的特征子集優(yōu)劣將直接對(duì)文本分類效果產(chǎn)生影響。從特征空間中選擇出能夠有效表示整體信息的特征,作為文本分類模型的輸入源。將提取出的特征選擇合適的分類器和分類方法(SVM、NB[3])進(jìn)行分類,輸出分類結(jié)果,完成文本分類過程。

本文分析當(dāng)前主流的一些文本特征提取算法,對(duì)近年國內(nèi)外特征提取方法的研究進(jìn)行總結(jié)和歸納,并指出將來在面對(duì)更多海量信息時(shí),文本特征提取研究方法應(yīng)考慮的因素。

1 相關(guān)工作

文本信息在經(jīng)過文本預(yù)處理和文本表示之后,仍然屬于高維度和高稀疏的向量矩陣,因而給計(jì)算機(jī)的計(jì)算量和學(xué)習(xí)訓(xùn)練過程增加了負(fù)擔(dān),并且分類效果很差。為進(jìn)一步實(shí)現(xiàn)降維,需要對(duì)文本特征進(jìn)行特征選擇。特征選擇的研究最早開始于20世紀(jì)60年代[4],特征選擇的關(guān)鍵是在包含所有特征子集的解空間里尋找最優(yōu)特征子集,在時(shí)間代價(jià)最小的前提下,選出最具代表性的特征組合。文本表示是特征提取的前一步,數(shù)據(jù)集大部分維度高達(dá)幾十萬,不可能一步處理完成。文本表示將文本向量化,加上權(quán)重分配能夠?qū)Ω呔S特征空間進(jìn)行降維。文本表示模型主要包括:布爾模型、VSM向量空間模型[5]、概率模型[6],以及一些權(quán)重計(jì)算,包括布爾權(quán)重、詞頻權(quán)重、TF-IDF、TFC、LTC[7]、熵權(quán)重[8]。

特征抽取與特征提取都屬于文本降維技術(shù),其中特征抽取是從高維向量投影到低維空間的過程。目前主要有潛在語義索引(LSI)、主成分分析(PCA)、線性判別分析(LDA)等,將高維特征空間進(jìn)行尺度映射變換,根據(jù)主題模型和語義空間進(jìn)行維度縮減,但這些降維是完全不夠的。特征提取有別于特征抽取,特征提取可實(shí)現(xiàn)文本向量空間從高維映射到低維的有效降維,且效果明顯,并將代表類別的特征項(xiàng)篩選出來。

特征提取的具體過程可概括為:①對(duì)原數(shù)據(jù)集進(jìn)行分詞、去停用詞等預(yù)處理,得到一個(gè)初始特征集T;②特征集合T進(jìn)行權(quán)重分配,并按權(quán)重值降序排列得到特征集T1;③根據(jù)對(duì)應(yīng)評(píng)估函數(shù),選取得到一個(gè)最能代表文本類別信息的最優(yōu)特征子集T2。

按啟發(fā)式搜索策略產(chǎn)生的特征子集,根據(jù)特征子集形成過程是否依賴于數(shù)據(jù)集內(nèi)部數(shù)據(jù)本身的特點(diǎn)可分為兩大類:Filter過濾式和Wrapper封裝式。Filter過濾式根據(jù)數(shù)據(jù)集內(nèi)部數(shù)據(jù)信息的特點(diǎn)進(jìn)行特征選擇。Filter過濾式特征選擇方法選擇出與目標(biāo)類別相關(guān)度最大的特征,以聚類為工具,利用不同類間特征的差異性定義不同區(qū)分度作為特征可分的依據(jù)。將選擇出來的特征進(jìn)行排名,得到特征子集;Wrapper封裝式是根據(jù)訓(xùn)練學(xué)習(xí),訓(xùn)練出相應(yīng)評(píng)價(jià)標(biāo)準(zhǔn),按照選擇準(zhǔn)則進(jìn)行特征選擇,利用評(píng)價(jià)準(zhǔn)則衡量特征的停止條件,得到特征子集。因此,其具有分類精度高、效率低等特點(diǎn)。

2 常用特征提取方法

2.1 Wrapper封裝式特征選擇算法

Wrapper方法在進(jìn)行特征提取時(shí)依賴于具體的有監(jiān)督式機(jī)器學(xué)習(xí)技術(shù)。在特征選擇過程中運(yùn)用選擇的特征子集訓(xùn)練學(xué)習(xí),根據(jù)訓(xùn)練出的特征集產(chǎn)生對(duì)應(yīng)的特征子集,并利用測試集上的學(xué)習(xí)結(jié)果評(píng)判所產(chǎn)生特征子集的優(yōu)劣,相當(dāng)于一個(gè)監(jiān)督學(xué)習(xí)的過程。由于要先由訓(xùn)練集訓(xùn)練出模型,所以該方法效率低于Filter方法,在處理樣本數(shù)據(jù)集較小的文檔時(shí)效果較好。

Wrapper封裝式方法的基本過程概括如下:①先對(duì)訓(xùn)練集、測試集進(jìn)行預(yù)處理,得到初始特征子集T;②訓(xùn)練集在學(xué)習(xí)器上進(jìn)行實(shí)驗(yàn)。訓(xùn)練集樣本數(shù)據(jù)根據(jù)評(píng)判準(zhǔn)則訓(xùn)練學(xué)習(xí),構(gòu)造出模型(如決策樹、SVM、樸素貝葉斯、模擬退火算法[9]、粗糙集、人工神經(jīng)網(wǎng)絡(luò)等);③測試集在學(xué)習(xí)器上進(jìn)行實(shí)驗(yàn)。根據(jù)訓(xùn)練集構(gòu)造出的模型,判斷性能優(yōu)劣。

2.1.1 遺傳算法

遺傳算法于1969年提出,是一種借助于自然界生物遺傳和自然選擇的隨機(jī)搜索方法,可模擬自然界中的繁殖、交叉和變異現(xiàn)象。遺傳算法在每次迭代中都會(huì)保留與一組候選解,并按照一定指標(biāo)從群體中選擇出特征項(xiàng),利用遺傳算子對(duì)特征項(xiàng)進(jìn)行組合,產(chǎn)生一組新的候選解。重復(fù)上述過程,直到滿足收斂指標(biāo)結(jié)束。

遺傳算法的主要組成部分包括:①編碼機(jī)制。目前主要采用二進(jìn)制編碼,將特征向量空間的參數(shù)表示成由字符集{0,1}組成的染色體串;②適應(yīng)度函數(shù)。其中適應(yīng)度比例法是最常用的,個(gè)體選擇的概率與適應(yīng)度成正比。選擇優(yōu)良個(gè)體,淘汰劣質(zhì)個(gè)體;③遺傳算子。包括選擇、交叉和變異算子。選擇算子:選擇出符合閾值的特征;交叉算子:產(chǎn)生新的個(gè)體,擴(kuò)大搜索空間;變異算子:產(chǎn)生新的基因,增加種群多樣性;④控制參數(shù)。包括種群規(guī)模、交叉率、變異率。

文獻(xiàn)[10]通過分析遺傳算法,針對(duì)特征提取特性[10],提出新的適應(yīng)度函數(shù)和交叉規(guī)則,以及基于遺傳算法的特征提取方法,運(yùn)用到動(dòng)態(tài)獲取K值的KNN算法中。

2.1.2 SVM支持向量機(jī)算法

支持向量機(jī)是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的分類算法,尤其對(duì)小樣本數(shù)據(jù)集具有良好的適應(yīng)性。在處理二維空間樣本點(diǎn)時(shí),尋找一個(gè)函數(shù)將平面中的不同樣本點(diǎn)正確分割成兩類。處理高維度非線性問題時(shí),尋找一個(gè)合適的函數(shù),利用核函數(shù)構(gòu)造一個(gè)最優(yōu)超平面,將原始特征空間的非線性問題映射到高維空間,轉(zhuǎn)化成線性問題求解,使向量能準(zhǔn)確分割成兩組,且不同類的樣本點(diǎn)之間間隔最大。SVM是目前文本分類效果最好的機(jī)器學(xué)習(xí)算法,廣泛應(yīng)用于文本分類、人臉識(shí)別、指紋識(shí)別等領(lǐng)域。

Chen等[11]利用SVM分類算法對(duì)文本情感進(jìn)行識(shí)別和分類,將SVM運(yùn)用在情感極性分析上,并對(duì)語料集在單機(jī)和Spark平臺(tái)上的分類結(jié)果進(jìn)行分析。

以上Wrapper方法都是直接通過分類器的分類性能判斷特征有效性,但在實(shí)際應(yīng)用中更多的是將Wrapper方法與隨機(jī)搜索策略方法相結(jié)合。文獻(xiàn)[12]提出一種新的特征選擇算法——基于粒子群優(yōu)化(PSO)的特征選擇方法,使用徑向函數(shù)(RBF)為分類器,其算法性能優(yōu)于文檔頻率、TF-IDF和CHI統(tǒng)計(jì)。Wrapper方法在特征選擇過程中,需要花費(fèi)時(shí)間在分類器的訓(xùn)練和驗(yàn)證上,效率不高,因此實(shí)際應(yīng)用較少。與Filter方法相比,F(xiàn)ilter方法計(jì)算開銷低,Wrapper分類性能高,但效率低。在文本分類領(lǐng)域,面臨海量文本信息時(shí),F(xiàn)ilter方法使用更多。

2.2 Filter過濾式特征選擇算法

Filter過濾式方法是一種高效率的特征選擇算法,具有相對(duì)獨(dú)立性,不依賴于訓(xùn)練集。根據(jù)特定的評(píng)估函數(shù),選擇出最能代表文本類別的特征集合。特征集合是初始特征空間的一個(gè)子集,根據(jù)評(píng)估函數(shù)不同,可將Filter過濾式特征選擇算法分為以下4類:距離測度、信息測度、一致性測度、相關(guān)性測度。本文主要介紹距離測度和信息測度兩類特征選擇算法。

2.2.1 基于距離測度的特征聚類選擇算法

距離測度是依據(jù)特征項(xiàng)間的距離度量樣本之間相似度的一種方式,通過計(jì)算分布在不同區(qū)域特征項(xiàng)間的距離表示相似性。特征項(xiàng)之間距離越小則越相似,距離越大則相似性越小,可劃分性越強(qiáng)。根據(jù)距離計(jì)算文本相似度的方法很多,包括歐氏距離、曼哈頓距離、閔可夫斯基距離、余弦相似度、S階Minkowski測度等。

聚類分析是對(duì)各個(gè)對(duì)象的內(nèi)部特征進(jìn)行分析,將性質(zhì)相近的劃分在一組,性質(zhì)差別較大劃在另一組。特征聚類是文本檢索領(lǐng)域的重要研究方向之一,它根據(jù)某種特定的相似性度量,將特征空間劃分成若干簇的子集。分組之后,組內(nèi)數(shù)據(jù)的相似性最大,組與組之間相似性較小,從而實(shí)現(xiàn)對(duì)特征的聚類。聚類算法[12]描述如下:①先計(jì)算特征詞之間的相似度及權(quán)值,按順序排列;②對(duì)特征進(jìn)行聚類,在每個(gè)簇中隨機(jī)選擇一個(gè)特征作為簇中心;③將特征項(xiàng)與簇中心進(jìn)行相似性比較,如果特征相似性大,則更新簇中心,否則不替換;④保留每個(gè)簇的簇中心,將其它特征項(xiàng)刪除,直到所有特征項(xiàng)對(duì)比結(jié)束。

聚類方法常用的有分層聚類和K均值聚類方法。分層聚類方法是將每維度特征項(xiàng)合成一類,通過計(jì)算向量相似度,計(jì)算出相似度最大的兩類進(jìn)行合并,直到滿足某個(gè)閾值條件,則聚類停止;K均值聚類方法需要事先指定K的值,確定最后的聚類個(gè)數(shù),才能對(duì)特征進(jìn)行聚類。文獻(xiàn)[14]是基于Fisher準(zhǔn)則和特征聚類的特征選擇方法,選用分層聚類,去除冗余信息;文獻(xiàn)[15]介紹了無監(jiān)督的特征選擇算法,當(dāng)特征子集都滿足一定的評(píng)價(jià)函數(shù)或規(guī)則時(shí),類內(nèi)離散度和類間距離常用來判斷聚類的有效性準(zhǔn)則。其中類內(nèi)平均離散度Si=1|Ci|∑x∈ci‖X-Zi‖,Zi表示Ci類的類中心,|Ci|表示屬于Ci類的樣本數(shù),類間距離dij=‖Zi-Zj‖表示兩個(gè)類中心的類間距離;文獻(xiàn)[16]通過對(duì)類間距離和類內(nèi)距離的計(jì)算,提出一種基于鄰域距離的聚類特征選擇方法,從而提高效率。

在此基礎(chǔ)上,文獻(xiàn)[13]分析了特征選擇評(píng)價(jià)函數(shù)中未考慮特征詞關(guān)聯(lián)性,以及特征項(xiàng)之間存在冗余的特點(diǎn),提出一種基于聚類的特征選擇算法。通過計(jì)算相似度對(duì)特征進(jìn)行聚類,從中去除排名靠后且相關(guān)性不大的類別,然后結(jié)合信息增益方法選擇分類能力強(qiáng)的特征;文獻(xiàn)[16]分析原有聚類選擇算法,提出一種新的基于聚類的特征選擇方法—FSFC。

2.2.2 基于信息測度的特征選擇算法

作為目前最常用的特征選擇算法,信息測度是依據(jù)特征項(xiàng)之間所含信息量的多少衡量特征項(xiàng)重要性的方法。特征選擇將特征的重要程度量化之后再進(jìn)行篩選,如何量化特征詞的重要程度將是特征選擇方法之間的差別。在特征選擇時(shí),特征項(xiàng)所含信息越多,作為最終特征子集特征項(xiàng)的概率越大。將信息量的多少與概率結(jié)合是信息測度的關(guān)鍵思想。

以信息測度為基礎(chǔ)的特征選擇算法很多,以下對(duì)目前比較常用的特征選擇算法進(jìn)行分析:

(1)文檔頻率(Document Frequency,DF)。DF表示訓(xùn)練文檔中含有某特征項(xiàng)的文檔出現(xiàn)的數(shù)目,是最簡單的評(píng)估函數(shù)。

DF方法的具體步驟可概括為:①首先設(shè)定好文檔頻率閾值(假設(shè)噪聲詞或稀有詞匯特征可以忽略);②計(jì)算每個(gè)特征詞的文檔頻率值M,與設(shè)定好的閾值作比較;③如果M大于或者小于閾值范圍,則刪除該特征詞,否則將其保留;④若計(jì)算出的M值過大,代表該特征詞類別區(qū)分度較?。蝗糁颠^小,代表該特征詞不具備類別性,刪除該特征詞。

該方法的優(yōu)點(diǎn)是算法簡單、復(fù)雜性低,在實(shí)際應(yīng)用中效果較好,可適用于大規(guī)模數(shù)據(jù)集。缺點(diǎn)是將低于閾值的詞從原始空間向量中移除,雖然能夠有效降低特征空間維數(shù),但同時(shí)也會(huì)過濾掉一些文檔頻率較小的特征詞(如專用詞),這些特征詞可能含有重要的類別信息,從而影響分類判斷。

Fan等[17]在原有DF文檔頻率基礎(chǔ)上,結(jié)合特征詞的熵權(quán)重,加權(quán)排序后得到新的特征集合,不僅考慮了特征詞的詞頻,還考慮到了信息熵的權(quán)重。改進(jìn)后的具體步驟可概括為:①計(jì)算每個(gè)特征詞的文檔頻率P(也即詞頻)、信息熵值W,并對(duì)初始特征值列表設(shè)置初始值0;②遍歷文本數(shù)據(jù)集C,生成初始特征列表wordlist;③二次遍歷文本集和特征列表,生成矩陣并規(guī)范化,對(duì)wordlist每個(gè)特征詞加入文檔頻率P與W值;④若特征詞新的權(quán)值w與P在閾值外,則刪除該特征詞,否則保留;⑤依據(jù)最新排序輸出特征詞。

(2)文檔頻率-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)。TF-IDF由Salton提出,該方法充分考慮了文檔的頻率TF和逆頻率IDF。TF-IDF在特征權(quán)重函數(shù)計(jì)算中取得了較好效果,將特征權(quán)重計(jì)算應(yīng)用于特征提取,是目前較常用的特征提取方法,在文本分類領(lǐng)域得到廣泛應(yīng)用。TF-IDF的主要思想為:某個(gè)詞或短語在一篇文章中出現(xiàn)頻率高,但在其它類中很少出現(xiàn),則認(rèn)為該詞或短語對(duì)本篇文章很重要,說明該詞具有很好的分類能力[18]。TF表示某個(gè)詞或短語在某篇文章中出現(xiàn)的頻率,即詞頻;IDF表示包含某個(gè)詞或短語文檔數(shù)目的倒數(shù),即逆文件頻率。在數(shù)據(jù)集中,若包含特征詞的文本數(shù)目越少,表示該特征詞具有較高的IDF值。IDF值越高,文本特征詞的類別區(qū)分能力越強(qiáng)。計(jì)算公式如下:

文獻(xiàn)[20]針對(duì)傳統(tǒng)TFIDF中容易忽略特征詞在某一類中經(jīng)常出現(xiàn),而在其它類別很少出現(xiàn)的情況,結(jié)合特征項(xiàng)之間的關(guān)系,提出基于TFIDF的改進(jìn)策略,結(jié)合距離向量的計(jì)算改進(jìn)傳統(tǒng)TFIDF算法,得到了很好的分類效果。

(3)信息增益(Information Gain,IG)。IG是一種基于信息熵的評(píng)估方法[21],定義了特征詞在文本中出現(xiàn)與不出現(xiàn)的信息熵之差。計(jì)算公式如下:

公式(3)是信息熵公式,公式(4)是信息增益公式。IG考慮特征T出現(xiàn)和不出現(xiàn)兩種情況。某個(gè)特征詞的信息增益值越大,代表此信息越重要,對(duì)分類貢獻(xiàn)越大[22-23]。p(ci)表示ci類文本在數(shù)據(jù)集中出現(xiàn)的比例,即ci類文本數(shù)除以總文本數(shù)的概率;P(t)表示數(shù)據(jù)集中包含特征詞T的文本概率,表示含有特征詞T的文本數(shù)除以總文本數(shù)目的值;P()表示數(shù)據(jù)集中不包含特征詞T的文本概率;p(cit)表示特征詞T在ci類文檔中出現(xiàn)的條件概率;p(ci)表示特征詞T不出現(xiàn)在ci類文檔中的條件概率;m為文檔類別數(shù)目。

IG傾向于在某一類別中經(jīng)常出現(xiàn)而在其它類別出現(xiàn)頻率低的特征。Wang等[24]針對(duì)信息增益方法對(duì)特征詞在類中詞頻和類間分布不均的情況,引入衡量特征詞頻分布的因子;針對(duì)信息增益在面對(duì)非平衡數(shù)據(jù)時(shí)更傾向于負(fù)相關(guān)特征的問題,加入比例因子降低該特征影響;Ren等[25]提出一種基于信息增益特征關(guān)聯(lián)樹的特征選擇算法(UDsIG),通過刪除弱相關(guān)和不相關(guān)特征對(duì)類內(nèi)特征進(jìn)行處理,引入類內(nèi)加權(quán)離散度的信息增益公式,優(yōu)化特征子集。Ds=pm1-pm∑mi=1pi(tfi(t)-tf(t))2tf(t),Ds是加權(quán)離散式,tfi(t)表示特征t在第i類中出現(xiàn)的概率,m是類別總數(shù),tf(t)是t在各類中出現(xiàn)概率的平均值,pm表示含文檔數(shù)目最多的類別比重。改進(jìn)后的公式為:

Guo等[26]分析傳統(tǒng)信息增益在指定類別中很少出現(xiàn),而在其它類別中卻經(jīng)常出現(xiàn)的特征,該特征常被選擇出來作為特征子集,對(duì)分類結(jié)果產(chǎn)生很大干擾。基于該現(xiàn)象,通過引入特征分布差異因子、類內(nèi)和類間加權(quán)因子,優(yōu)化特征選擇算法,在樸素貝葉斯和支持向量機(jī)兩種分類方法中驗(yàn)證實(shí)驗(yàn)結(jié)果。

Shi等[27]針對(duì)傳統(tǒng)信息增益IG對(duì)特征項(xiàng)頻數(shù)考慮的不足,提出一種基于詞頻的信息增益算法,分別從特征項(xiàng)的類內(nèi)頻數(shù)、類內(nèi)位置、類間分布對(duì)IG參數(shù)進(jìn)行修正,以提高分類精度;文獻(xiàn)[28]提出一種基于粗糙集的多元信息增益模型(IG-RS),先用信息增益進(jìn)行排名,然后用領(lǐng)域粗糙集評(píng)價(jià)逼近值,并提出一種粗糙集模型實(shí)現(xiàn)特征提取。

(4)開方校驗(yàn)(Chi-squared,CHI統(tǒng)計(jì))。開方校驗(yàn)中特征詞與文本類別之間服從χ2分布。χ2統(tǒng)計(jì)量可以度量特征和類之間獨(dú)立性。如果特征T與類之間相互獨(dú)立,則特征T的χ2值為0[29]。其值越高,特征詞與類別之間獨(dú)立性越小。計(jì)算公式如下:

其中A表示特征T與類別ci文檔同時(shí)出現(xiàn)的次數(shù),B表示特征T出現(xiàn)而ci類文檔不出現(xiàn)的次數(shù),C表示ci類文檔出現(xiàn)而特征T不出現(xiàn)的次數(shù),D表示ci類文檔與特征T都不出現(xiàn)的概率,N為文檔總數(shù)。

CHI統(tǒng)計(jì)偏向于在本類別和其它類別文本中出現(xiàn)頻率高的特征詞,在實(shí)際應(yīng)用中也具有較高可靠性,閾值不會(huì)隨訓(xùn)練集的改變而改變。缺點(diǎn)在于本類中出現(xiàn)頻率低而在其它類中出現(xiàn)頻率高的特征,分類效果不明顯。文獻(xiàn)[30]針對(duì)χ2統(tǒng)計(jì)對(duì)低詞頻權(quán)重分配過低、在本類很少出現(xiàn)但在其它類經(jīng)常出現(xiàn)的特征詞給予過高權(quán)重的問題,對(duì)χ2統(tǒng)計(jì)進(jìn)行改進(jìn),引入文檔內(nèi)頻度概念。特征t在文本dik中出現(xiàn)的頻度記為tfik,在類別ci內(nèi)出現(xiàn)的頻度記為α,α=∑ik=1tfik。同時(shí),引入類內(nèi)正確度,定義一個(gè)調(diào)節(jié)函數(shù)β=AA+B(0≤β≤1),表示特征詞在指定類的比例。當(dāng)β接近0時(shí),表示在整個(gè)語料庫出現(xiàn)頻繁,而在指定類內(nèi)出現(xiàn)較少;當(dāng)β數(shù)值接近1時(shí),在指定類內(nèi)出現(xiàn)頻繁。β′=M2β-1為了更好地計(jì)算β對(duì)整個(gè)χ2統(tǒng)計(jì)的影響值,將β映射到β′。改進(jìn)后的公式表示為:

實(shí)驗(yàn)結(jié)果驗(yàn)證改進(jìn)后的開方校驗(yàn)分類準(zhǔn)確率更高。Li等[31]分析了文檔頻率(IDF)和卡方統(tǒng)計(jì)量的特點(diǎn),將IDF加入到卡方統(tǒng)計(jì)量中:

其中,D表示文本總數(shù),Dt表示含特征t的文本數(shù),log以2為底。對(duì)卡方統(tǒng)計(jì)量方法進(jìn)行改進(jìn),充分改善了其忽略低頻詞和易選高頻無效詞的缺點(diǎn)。將改進(jìn)后的算法與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,表現(xiàn)出較好的分類效果。

Liu等[32]分析了CHI特征項(xiàng)頻數(shù)信息的不足,分別從特征項(xiàng)的類內(nèi)、類間分布和類內(nèi)不同文本的分布角度,改進(jìn)CHI(或者χ2)模型,使特征項(xiàng)頻數(shù)得到有效利用;Yue等[33]在原有的CHI選擇方法上引入3個(gè)參數(shù),使類內(nèi)特征詞分布均勻,以提高文本分類效果;Liang等[34]分析CHI在特征選擇時(shí),先計(jì)算單詞對(duì)每個(gè)類別的卡方值,再由類別求最大值的單詞相對(duì)于整個(gè)訓(xùn)練集合的卡方值,而忽略了單詞和類別間的相關(guān)性。因此,提出一種基于類別的卡方特征選擇方法,對(duì)每個(gè)類別挑選特征詞,不同類別文檔可能包含相同特征詞,以提高分類器的總體效果;文獻(xiàn)[35]提出類內(nèi)頻率和類內(nèi)方差兩個(gè)指標(biāo),對(duì)傳統(tǒng)算法進(jìn)行改進(jìn)。定義一個(gè)類頻率的相關(guān)度量,F(xiàn)I(t,cj)=ctfj(t)nj,其中ctfj(t)表示特征t在cj類中的概率,nj表示cj類包含的所有文檔個(gè)數(shù),解決了數(shù)據(jù)集不平衡的特點(diǎn)。為更好地表示平衡和非平衡的數(shù)據(jù)分布,定義了一個(gè)指數(shù)分布函數(shù)。首先定義一個(gè)分布函數(shù),即特征t和文檔d符合特征分布F(t,d)=TFd(t)d+Vd,d表示文檔d中的所有特征,Vd是d中具有分類特點(diǎn)的特征。公式綜合考慮了文本檔長度和特征詞,得到類別方差V(t,cj)=1ni∑t∈cj(F(t,d)-F(t,cj))2,其中F(t,cj)=1nj∑d∈cjF(t,d),nj表示cj類包含的所有文檔個(gè)數(shù)。改進(jìn)后的CHI統(tǒng)計(jì)稱為NewCHI,NewCHI(t,cj)=log(1+FI(t,cj))×χ2(t,cj)V(t,cj)+α,公式包含了類內(nèi)頻率和類內(nèi)方差,其中α為極小正數(shù),使分母為整數(shù),本文α設(shè)為0.01。實(shí)驗(yàn)分別用樸素貝葉斯和支持向量機(jī)分類算法驗(yàn)證其可行性。

Zeng等[36]將CHI統(tǒng)計(jì)運(yùn)用在中文文本人物的社會(huì)關(guān)系和分類的標(biāo)注粗糙問題,標(biāo)注了8類主要人物的社會(huì)關(guān)系。同時(shí),提出一種基于動(dòng)詞和名詞抽取與CHI統(tǒng)計(jì)相結(jié)合的特征選擇方法,運(yùn)用TF-IDF權(quán)重計(jì)算方式,選用SVM分類器對(duì)結(jié)果采用K-折交叉驗(yàn)證的方法,驗(yàn)證其有效性。

Forman等[37]對(duì)12種特征選擇算法進(jìn)行對(duì)比分析,并結(jié)合文本分類實(shí)例,從準(zhǔn)確率、召回率和F值評(píng)價(jià)指標(biāo)方面,主要針對(duì)特征選擇度量方法的挖掘,提出一種新的特征選擇算法度量標(biāo)準(zhǔn)“Bi-Normal Separation”,也稱為BNS。

2.3 Filter與Wrapper組合式特征選擇算法

組合式特征選擇算法是將Filter過濾式和Wrapper封裝式方法相結(jié)合。組合式的主要思想是:首先用Filter模型初步選擇特征,去除一些不相關(guān)的冗余特征,得到初步的特征子集,從而有效降低特征空間的維度;再用Wrapper模型在初步特征子集上進(jìn)一步提取特征,得到最優(yōu)特征子集。

文獻(xiàn)[38]提出一種基于經(jīng)驗(yàn)競爭算法的兩階段特征選擇算法-IGICA,第一階段用信息增益對(duì)特征項(xiàng)進(jìn)行排名,第二階段將ICA加入到特征選擇中。對(duì)實(shí)驗(yàn)數(shù)據(jù)集分析結(jié)果表明,提出的方法具有良好的分類能力,明顯優(yōu)于其它算法[38]。

Meng等[39]提出一個(gè)兩階段的特征選擇算法,針對(duì)傳統(tǒng)向量空間模型沒有考慮到詞語間語義關(guān)系的問題,首先運(yùn)用潛在語義索引,然后結(jié)合新組建的詞間語義空間,提高算法效率;文獻(xiàn)[40]選用潛在語義索引(LSI)和遺傳算法(GA)進(jìn)行文本特征提取。在VSM(向量空間模型)中利用LSI,對(duì)特征向量進(jìn)行降維,然后結(jié)合奇異值分解[40],進(jìn)一步利用遺傳算法將維度降到最低,以充分發(fā)揮二者優(yōu)勢,提高文本分類效率。

近些年基于混合改進(jìn)的特征選擇方法越來越多。Wang等[41]研究出一種新的文檔頻率和詞頻頻率組合的特征選擇方法(DTFS),以提高郵件分類性能。首先利用現(xiàn)有的最佳文檔頻率(ODFFS)特征選擇方法與閾值選擇最佳特征,其次利用最優(yōu)詞頻率(OTFFS)與閾值選擇最佳特征。組合ODFFS和OTFFS的功能,提出啟發(fā)式搜索策略,利用模糊支持向量機(jī)(FSVM)和樸素貝葉斯(NB)分類器對(duì)語料進(jìn)行分類;Li等[42]針對(duì)信息增益、文本證據(jù)權(quán)、CHI統(tǒng)計(jì)算法中冗余信息干擾的局部性,提出一種新的特征選擇算法CWFS——競爭優(yōu)勝者特征選擇算法,解決了傳統(tǒng)算法耗時(shí)長、分類性能差的問題。

3 總結(jié)與展望

本文分析了文本分類領(lǐng)域的主要特征選擇算法及其改進(jìn)方法,對(duì)每種方法的優(yōu)劣進(jìn)行了探討。分別從距離測度和信息測度兩方面進(jìn)行歸納總結(jié),分析得到對(duì)特征選擇算法的主要改進(jìn)方面,包括詞頻、類內(nèi)特征頻度、類內(nèi)離散度等因子。另一種是在此基礎(chǔ)上加入對(duì)獨(dú)立特征詞詞間關(guān)系的影響,提取出最有效的特征,優(yōu)化分類效果。特征選擇未來應(yīng)充分考慮特征詞的詞性、詞間關(guān)系、詞位置分布等因素,將特征提取與分類方法相結(jié)合,使其在文本挖掘中得到廣泛應(yīng)用。從語句語義、標(biāo)點(diǎn)符號(hào)、數(shù)字、修飾詞等方面對(duì)特征選擇算法作進(jìn)一步改善,也將是特征提取算法的一個(gè)改進(jìn)方向。

參考文獻(xiàn):

[1] 劉慶和,梁正友.一種基于信息增益的特征優(yōu)化選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(12):130-132.

[2] 蔣盛益,鄭琪,張倩生.基于聚類的特征選擇方法[J].電子學(xué)報(bào),2008,36(b12):157-160.

[3] 崔建明,劉建明,廖周宇.基于SVM算法的文本分類技術(shù)研究[J].計(jì)算機(jī)仿真,2013,30(2):299-302.

[4] LEWIS P I. The characteristic selection problem in recognition systems[J]. Information Theory Ire Transactions on,1962,8(2):171-178.

[5] 邱燁.文本特征選擇在網(wǎng)絡(luò)信息過濾系統(tǒng)中的應(yīng)用研究[D].濟(jì)南:山東師范大學(xué),2010.

[6] BIGI B. Using kullback-leibler distance for text categorization[C].Advances in Information Retrieval, European Conference on Ir Research. DBLP,2016:305-319.

[7] Nigam K. Using maximum entropy for text classification[C]. IJCAI-99 Workshop on Machine Learning for Information filtering,1999:61-67.

[8] 余俊英.文本分類中特征選擇方法的研究[D].南昌:江西師范大學(xué),2007.

[9] 朱顥東,鐘勇.使用優(yōu)化模擬退火算法的文本特征選擇[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(4):8-11.

[10] 劉亞南.KNN文本分類中基于遺傳算法的特征提取技術(shù)研究[D].北京:中國石油大學(xué),2011.

[11] 陳培文,傅秀芬.采用SVM方法的文本情感極性分類研究[J].廣東工業(yè)大學(xué)學(xué)報(bào),2014(3):95-101.

[12] ZAHRAN B M, KANAAN G. Text feature selection using particle swarm optimization algorithm[J]. World Applied Sciences Journal,2009.

[13] 張文良,黃亞樓,倪維健.一種基于聚類的文本特征選擇方法[J].計(jì)算機(jī)應(yīng)用,2007,27(1):205-206.

[14] 王颯,鄭鏈.基于Fisher準(zhǔn)則和特征聚類的特征選擇[J].計(jì)算機(jī)應(yīng)用,2007,27(11):2812-2813.

[15] LEWIS P I. The characteristic selection problem in recognition systems[J]. Information Theory Ire Transactions on,1962,8(2):171-178.

[16] 王連喜,蔣盛益.一種基于特征聚類的特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2015(5):1305-1308.

[17] 樊東輝,王治和,陳建華,等.基于DF算法改進(jìn)的文本聚類特征選擇算法[J].蘭州文理學(xué)院學(xué)報(bào):自然科學(xué)版,2012,26(1):51-54.

[18] 張?jiān)烬g.單文檔關(guān)鍵詞自動(dòng)提取方法述評(píng)[J].Scientific Journal of Information Engineering,2013(3):1-7.

[19] 許陽,劉功申,孟魁.基于句中詞語間關(guān)系的文本向量化算法[J].信息安全與通信保密,2014(4):84-88.

[20] QU S, WANG S, ZOU Y. Improvement of text feature selection method based on TFIDF[M].Improvement of Text Feature Selection Method based on TFIDF,2008:79-81.

[21] 周雪芹,劉建舟,邵雄凱,等.中文文本分類中特征提取的方法[J].湖北工業(yè)大學(xué)學(xué)報(bào),2010,25(2):60-62.

[22] DONOHO D L.De-noising by soft-thresholding[J].IEEE Trans Inform Theory,1995,41(3):613-627.

[23] HU Y, LOIZOU P C.Speech enhancement based on wavelet thresh-olding the multitaper spectrum[J].IEEE Trans on Speech and Audio Processing,2004,12(1):59-67.

[24] 王勇.中文文本分類特征選擇和特征加權(quán)方法研究[D].重慶:重慶大學(xué),2012.

[25] 任永功,楊雪,楊榮杰,等.基于信息增益特征關(guān)聯(lián)樹的文本特征選擇算法[J].計(jì)算機(jī)科學(xué),2013,40(10):252-256.

[26] 郭頌,馬飛.文本分類中信息增益特征選擇算法的改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(8):139-142.

[27] 石慧,賈代平,苗培.基于詞頻信息的改進(jìn)信息增益文本特征選擇算法[J].計(jì)算機(jī)應(yīng)用,2014,34(11):3279-3282.

[28] PATIL L H, ATIQUE M. A novel feature selection and attribute reduction based on hybrid IG-RS approach[M].Emerging ICT for Bridging the Future - Proceedings of the 49th Annual Convention of the Computer Society of India CSI Volume 2. Springer International Publishing,2015:543-551.

[29] CHISTOPHER D MANNING, PRABHAKER RAGHAVAN, HINRICH SCHUTZEMANNING C D, RAGHAVAN P, SCHUTZE H. An introduction to information retrieval[M]. Cambridge: Cambridge University Press,2008:272-275.

[30] 肖婷,唐雁.改進(jìn)的X2統(tǒng)計(jì)文本特征選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(14):136-137.

[31] 李帥,陳笑蓉,LISHUAI,等.改進(jìn)卡方統(tǒng)計(jì)量的BPNN短文本分類方法[J].貴州大學(xué)學(xué)報(bào):自然版,2015,32(6):83-87.

[32] 劉海峰,蘇展,劉守生.一種基于詞頻信息的改進(jìn)CHI文本特征選擇[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(22):110-114.

[33] 邱云飛,王威,劉大有,等.基于方差的CHI特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(4):1304-1306.

[34] 梁伍七,李斌,許磊.基于類別的CHI特征選擇方法[J].安徽廣播電視大學(xué)學(xué)報(bào),2015(3):124-128.

[35] ZHANG P J, GAN S C. An improved feature selection algorithm utilizing the within category variance[C]. International Conference on Electrical, Automation and Mechanical Engineering.2015.

[36] 曾輝,唐佳麗,熊李艷,等.基于動(dòng)詞名詞和CHI特征選擇的中文人物社會(huì)關(guān)系抽取[J].計(jì)算機(jī)應(yīng)用研究,2017,34(6):1631-1635.

[37] FORMAN G. An extensive empirical study of feature selection metrics for text classification[J]. Journal of Machine Learning Research,2003,3(2):1289-1305.

[38] MOJAVERIYAN M, EBRAHIMPOUR-KOMLEH H, MOUSAVIRAD S J. IGICA: a hybrid feature selection approach in text categorization[J]. International Journal of Intelligent Systems Technologies & Applications,2016,8(3):42-47.

[39] MENG J, LIN H, YU Y. A two-stage feature selection method for text categorization[C].Seventh International Conference on Fuzzy Systems and Knowledge Discovery,2010:1492-1496.

[40] 郝占剛,王正歐.基于潛在語義索引和遺傳算法的文本特征提取方法[J].情報(bào)科學(xué),2006,24(1):104-107.

[41] WANG Y, LIU Y, FENG L, et al. Novel feature selection method based on harmony search for email classification[J]. Knowledge-Based Systems,2014,73(1):311-323.

[42] LI C, WANG X. A feature selection method based on competition winners mechanism[C].International Power, Electronics and Materials Engineering Conference,2015.

(責(zé)任編輯:黃 健)

猜你喜歡
特征詞特征選擇特征提取
基于Daubechies(dbN)的飛行器音頻特征提取
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
Bagging RCSP腦電特征提取算法
Kmeans 應(yīng)用與特征選擇
聯(lián)合互信息水下目標(biāo)特征選擇算法
面向文本分類的特征詞選取方法研究與改進(jìn)
基于MED和循環(huán)域解調(diào)的多故障特征提取
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
基于二元搭配詞的微博情感特征選擇
陈巴尔虎旗| 石狮市| 宾阳县| 海南省| 兴义市| 马边| 手游| 什邡市| 上虞市| 河西区| 洪湖市| 二连浩特市| 平罗县| 云梦县| 浪卡子县| 邢台县| 江门市| 桂东县| 西和县| 札达县| 咸阳市| 敦煌市| 东港市| 阿荣旗| 尚义县| 砚山县| 宜城市| 建平县| 旬阳县| 闽侯县| 建水县| 福州市| 白玉县| 万安县| 噶尔县| 磐石市| 固始县| 乡城县| 时尚| 洛扎县| 三亚市|