錢慎一, 朱艷玲, 朱顥東
(鄭州輕工業(yè)學(xué)院 計算機(jī)與通信工程學(xué)院, 鄭州 450002)
?
基于K-Means和Apriori算法的多層特征提取方法
錢慎一, 朱艷玲, 朱顥東*
(鄭州輕工業(yè)學(xué)院 計算機(jī)與通信工程學(xué)院, 鄭州 450002)
根據(jù)科技文獻(xiàn)的結(jié)構(gòu)特點(diǎn),論文提出了一種四層挖掘模式,并結(jié)合K-means算法和Apriori算法,構(gòu)建一個新的特征詞提取方法——MultiLM-FE方法.該方法首先依據(jù)科技文獻(xiàn)的結(jié)構(gòu)將其分為4個層次,然后通過K-means聚類對前3層逐層實(shí)現(xiàn)特征詞提取,最后再使用Aprori算法找出第4層的最大頻繁項(xiàng)集,并作為第4層的特征詞集合.該方法能夠解決K-means算法不能自動確定最佳聚類初始點(diǎn)的問題,減少了聚類過程中信息損耗,這使得該方法能夠在文獻(xiàn)語料庫中更加準(zhǔn)確地找到特征詞,較之以前的方法有很大提升,尤其是在科技文獻(xiàn)方面更為適用.實(shí)驗(yàn)結(jié)果表明,該方法是可行有效的.
科技文獻(xiàn); 特征提?。籏-means算法; Apriori算法
隨著文獻(xiàn)檢索能力的提高,越來越多的用戶習(xí)慣于從中國知網(wǎng)和數(shù)字圖書館進(jìn)行快速檢索,獲取所需文獻(xiàn)資料.但是在知識更新不斷加快的今天,新主題、新事物、新學(xué)科大量涌現(xiàn),信息種類和數(shù)量激增,這使得科技文獻(xiàn)的數(shù)量每年近似指數(shù)的速度增長.如此海量的科技文獻(xiàn),往往需要消耗讀者大量的時間.如何對其進(jìn)行高效組織,滿足廣大讀者的需求,已經(jīng)成為該領(lǐng)域的一個研究熱點(diǎn).目前,諸多檢索機(jī)構(gòu)已將文獻(xiàn)資料進(jìn)行分類處理,例如,在中國知網(wǎng)中輸入檢索詞“綠色網(wǎng)絡(luò)”,能夠檢索到74 050條數(shù)據(jù)記錄,其中,在宏觀經(jīng)濟(jì)管理與可持續(xù)發(fā)展學(xué)科領(lǐng)域有10 227條數(shù)據(jù)記錄,在工業(yè)經(jīng)濟(jì)領(lǐng)域有8 402條記錄,在建筑科學(xué)與工程領(lǐng)域有8 080條記錄,在農(nóng)業(yè)經(jīng)濟(jì)領(lǐng)域有7 217條記錄,在計算機(jī)軟件及計算機(jī)應(yīng)用領(lǐng)域有2 419條記錄等等.但是,目前文獻(xiàn)的學(xué)科領(lǐng)域分類不夠精準(zhǔn),導(dǎo)致可能漏掉一些用戶所需的文獻(xiàn)資料,這無疑是對傳統(tǒng)檢索方式的一種極大挑戰(zhàn).
科技文獻(xiàn)主要以文本的形式存在,對科技文獻(xiàn)進(jìn)行分類即是對文本進(jìn)行分類處理.特征選擇是實(shí)現(xiàn)文本高效分類的前提,是文本自動分類的一個重要環(huán)節(jié),特征選擇算法的性能將直接影響分類系統(tǒng)的最終效果.
目前,通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統(tǒng)計方法得到的特征項(xiàng)來表示文本向量,那么這個向量的維度將會非常的大.這種未經(jīng)處理的文本矢量不僅會給后續(xù)工作帶來巨大的計算開銷,導(dǎo)致整個處理過程的效率非常低下,而且還會損害分類、聚類算法的精確性,以致使所得到的結(jié)果很難令人滿意.因此,需要對文本向量做進(jìn)一步凈化處理,在保證原文含義的基礎(chǔ)之上,找出對文本特征類別最具有代表性的文本特征.目前關(guān)于特征詞的基本方法主要由以下幾種:互信息(Mutual Information))[1],信息增益方法(Information Gain)[2],χ-2統(tǒng)計量方法[3],期望交叉熵(Expected Cross Entropy)[3],文檔頻次方法(Document Frequency)[3].以上幾種方法,在英文特征提取方面都有各自的優(yōu)勢,但是由于中文和英文在語言表達(dá)形式上、句法分析和語義分析等方面都有較大差異,因此,將其用于中文文本分類并沒有很高的效率.
本文針對中文的科技文獻(xiàn)進(jìn)行分類,科技文獻(xiàn)主要以文本的形式存在,由標(biāo)題、摘要,關(guān)鍵字,正文等組成,其中最能代表文章主題的是標(biāo)題和關(guān)鍵字,其次是摘要部分,再次是正文的引言和總結(jié)部分,最后是正文的其他部分,為了更加精準(zhǔn)的提取特征詞,本文組建四層挖掘模式,逐層對科技文獻(xiàn)進(jìn)行特征提取.因此,本文提出一種結(jié)合K-means算法和Apriori算法的多層挖掘特征提取方法—— MultiLM-FE方法,來對科技文獻(xiàn)進(jìn)行分類處理.
1.1 K-means算法
K-means算法是一種基于樣本間相似性度量的間接聚類方法,也被稱為K-平均或K-均值算法.算法的主要思想是通過迭代的過程把數(shù)據(jù)集劃分為不同的類別,使得評價聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu).算法描述:首先要確定K值.第二,使用歐氏距離計算數(shù)據(jù)樣本之間的距離.歐式距離公式如下:
(1)
式中,d(xi,xj)表示xi和xj之間的相似度,該值越小,說明樣本xi和xj越相似.xi=(xi1,xi2,…,xid),其中xi1,xi2,…,xid為xi的具體取值,xj=(xj1,xj2,…,xjd),其中xj1,xj2,…,xjd為xj的具體取值.第三,對各個數(shù)據(jù)對象按照其到聚類中心距離進(jìn)行聚類,最后更新聚類中心點(diǎn),這個過程不斷重復(fù)直到滿足某個準(zhǔn)則函數(shù)且中心的的改變小于某個特定的值才停止.
1.2 關(guān)聯(lián)規(guī)則與Apriori算法
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)項(xiàng)之間存在的潛在關(guān)系的規(guī)則,其形式化描述如下:設(shè)A=(A1,A2,…,Am)為數(shù)據(jù)項(xiàng)的集合,D為數(shù)據(jù)庫事務(wù)的集合,其中每個事務(wù)C都是數(shù)據(jù)項(xiàng)的集合,即C?A.關(guān)聯(lián)規(guī)則是形如W≥Z的蘊(yùn)涵式,其中W和Z是項(xiàng)目集,且W?A,Z?A,W∪Z=?.定義支持度為D中包含W∪Z的事務(wù)占全部事務(wù)的百分比,記作supprot(W?Z)=P(W∪Z);置信度為D中包含W∪Z的事務(wù)數(shù)與包含X的事務(wù)數(shù)的比值,記作confidence(W?Z)=P(W|Z).多個項(xiàng)組成的集合成為項(xiàng)集.包含k個項(xiàng)的項(xiàng)集稱為k-項(xiàng)集.若某個項(xiàng)集的支持度不小于設(shè)定的最小支持度閾值min_sup.則稱這個項(xiàng)集為頻繁項(xiàng)集.所有的頻繁k-項(xiàng)集組成的集合成為最大頻繁項(xiàng)集.
Apriori算法是一種逐層迭代挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測兩個階段來尋找數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系.首先找出頻繁1-項(xiàng)集的集合.通過頻繁1-項(xiàng)集來尋找頻繁2-項(xiàng)集,…,通過k-1項(xiàng)集尋找K項(xiàng)集合,直至找到最大頻繁項(xiàng)集合.Apriori算法使用如下性質(zhì)來找到K維最大頻繁項(xiàng)集:
性質(zhì)1XK是K維頻繁項(xiàng)集,若所有K-1維頻繁項(xiàng)集集合Xk-1中包含XK的K-1維子項(xiàng)集的個數(shù)小于K,那么Xk不可能為K維最大頻繁項(xiàng)集.
K的值每增加1就需要掃描一次數(shù)據(jù)庫,為了提高頻繁項(xiàng)集的搜索效率,Apriori算法使用下述性質(zhì)用于壓縮搜索空間:
性質(zhì)2若k維數(shù)據(jù)項(xiàng)集Xk中有一k-1維子集不是頻繁項(xiàng)集,那么X不是頻繁項(xiàng)集.
科技文獻(xiàn)一般結(jié)構(gòu)規(guī)范,特征清晰,易于對其進(jìn)行線性化處理,從而進(jìn)行聚類分析.本文根據(jù)科技文獻(xiàn)的結(jié)構(gòu)特點(diǎn)提出一種4層挖掘模式,并將K-means聚類分析方法應(yīng)用于該模式的前3層,將Apriori方法應(yīng)用于第4層,從而實(shí)現(xiàn)逐層特征提取.特征提取流程如圖1所示.
圖1 科技文獻(xiàn)特征提取流程圖Fig.1 Feature extraction flow chart of scientific literatures
這種方法的基本思想是,首先將挖掘過程分為4層:標(biāo)題與關(guān)鍵字、摘要、文獻(xiàn)引言與總結(jié)部分、正文的其他部分.逐層定位中心點(diǎn),這就使得簇的數(shù)目K不必由用戶事先指定.然后將第1層的 K個一級特征詞作為第2層的初始中心點(diǎn),使用歐氏距離公式計算第2層數(shù)據(jù)對象之間的距離,根據(jù)其與中心點(diǎn)的距離分配給最近的一個簇,其次計算每個簇的平均值,并用該平均值代表相應(yīng)的簇.再次根據(jù)每個對象與各個簇中心的距離,分配給最近的簇.中心點(diǎn)若有改變,重新計算數(shù)據(jù)對象之間的距離,并計算每個簇的平均值,這個過程不斷重復(fù)直到滿足某個準(zhǔn)則函數(shù)且中心的改變小于某個特定的值才停止.最后在每個簇中選擇一個或多個代表詞作為二級特征詞,并且指定這些二級特征詞作為第3層的初始中心點(diǎn).步驟相同,待算法收斂時得到三級特征詞.正文部分屬于四層挖掘模式中的第4層,采用Apriori算法對正文部分進(jìn)頻繁項(xiàng)集的挖掘.將提取出的頻繁項(xiàng)集和三級特征詞進(jìn)行比較,消除重復(fù)詞,最終得出特征詞集.
2.1 科技文獻(xiàn)標(biāo)題和關(guān)鍵字中一級特征詞的提取
對科技文獻(xiàn)標(biāo)題、關(guān)鍵字用漢語分詞系統(tǒng)進(jìn)行切分,經(jīng)去停用詞處理,得出一級特征詞,作為第2層正文的引言和總結(jié)部分聚類算法的中心點(diǎn).例如文獻(xiàn)標(biāo)題為:基于潛在語義分析的微博主題挖掘模型研究,關(guān)鍵字為:微博;短文本;主題挖掘;LDA模型;增量聚類,得到的切分效果如圖2所示.
圖2 漢語自動分詞系統(tǒng)Fig.2 Chinese auto-segmentation system
2.2 科技文獻(xiàn)摘要中二級特征詞的提取
對文獻(xiàn)的摘要部分用上文提到的漢語分詞系統(tǒng)進(jìn)行分詞處理,經(jīng)過去停用詞處理得到得到文獻(xiàn)語料庫(一).特征提取過程如下:
Step1:依據(jù)一級特征詞的個數(shù)確定K-means算法的K值;
Step2:使用歐氏距離計算數(shù)據(jù)樣本之間的距離Li;
Step3:對各個數(shù)據(jù)對象按照其到聚類中心距離進(jìn)行聚類;
Step4:計算每個簇的平均值,并用該平均值代表相應(yīng)的簇;
Step5:根據(jù)每個對象與各個簇中心的距離,分配給最近的簇.中心點(diǎn)若有改變,重新計算數(shù)據(jù)對象之間的距離,這個過程不斷重復(fù)直到滿足某個準(zhǔn)則函數(shù)且中心點(diǎn)的改變小于某個特定的;
Step6:輸出結(jié)果簇.
此時只需對每個簇選擇一個或多個代表詞作為二級特征詞,同時作為下一層聚類的初始中心點(diǎn).
2.3 科技文獻(xiàn)引言和總結(jié)中三級級特征詞的提取
引言主要介紹該文獻(xiàn)主題的應(yīng)用背景,目前所取得的一些成果,所處的一個階段及存在的不足之處,段尾是對該文獻(xiàn)的總結(jié)和展望.提取過程同二級特征詞提取的方法相似,用單詞切分器對段首和段尾文本進(jìn)行切分,切分出的單詞經(jīng)過去停用詞處理后,形成文獻(xiàn)語料庫(二).
2.4 科技文獻(xiàn)正文的其他部分獲取四級特征詞
用相同的方法對正文部分?jǐn)?shù)據(jù)處理得到文獻(xiàn)語料庫(三),由于科技文獻(xiàn)的正文部分?jǐn)?shù)據(jù)量較大,特征詞的密度相對較小.適合采用挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的方法進(jìn)行頻繁項(xiàng)的抽取.
Step1:掃描文獻(xiàn)語料庫(三)中主題為“數(shù)據(jù)信息,產(chǎn)生頻繁的1-項(xiàng)集;
Stept2:由頻繁1-項(xiàng)集經(jīng)過兩兩結(jié)合生成頻繁的2-項(xiàng)集;
Step3:通過頻繁(k-1)-項(xiàng)集產(chǎn)生k-項(xiàng)集候選集.
如果在兩個頻繁的(k-1)-項(xiàng)集只有最后一個元素不同,其他都相同,那么這兩個(k-1)-項(xiàng)集項(xiàng)集可以“連接”為一個k-項(xiàng)集.如果不能連接,將其舍棄;
Step4:從候選集中剔除非頻繁項(xiàng)集.
如果候選集中某個k-項(xiàng)集的子項(xiàng)集不在頻繁的(k-1)-項(xiàng)集中,將其刪除;
Step5:掃描文獻(xiàn)語料庫(三),計算候選項(xiàng)集的支持度,將其與最小支持度比較,從而得到k維頻繁項(xiàng)集.直至生成最大項(xiàng)集,否則轉(zhuǎn)向(3);
Step6:將挖掘出的頻繁項(xiàng)經(jīng)過頻率過濾和名詞剪枝,得到評價對象集,作為四級特征詞.
將提取出的頻繁項(xiàng)集和三級特征詞進(jìn)行比較,消除重復(fù)詞,最終得出特征詞集.
在知網(wǎng)上搜集1 320篇屬于計算機(jī)行業(yè)的科技文獻(xiàn),作為實(shí)驗(yàn)數(shù)據(jù)的訓(xùn)練集,其中80篇主題為“離散化”的文獻(xiàn),220篇主題為“綠色網(wǎng)絡(luò)”的文獻(xiàn),360篇主題為“特征詞選擇”的文獻(xiàn),其余660篇作為測試集,測試集的文獻(xiàn)數(shù)量訓(xùn)練集數(shù)量相一致.本文選擇一篇題目為“文本分類中連續(xù)屬性離散化方法的研究”的文獻(xiàn)作為特征詞挖掘的實(shí)驗(yàn)樣例,進(jìn)行MultiLM-FE方法中提出的四層挖掘模式的前三層的聚類分析實(shí)驗(yàn).
3.1 從文獻(xiàn)標(biāo)題和關(guān)鍵字中獲取一級特征詞
文獻(xiàn)的標(biāo)題為:“文本分類中連續(xù)屬性離散化方法的研究”,關(guān)鍵字為:機(jī)器學(xué)習(xí);文本分類;信息增益;連續(xù)屬性離散化;Boosting算法.采用中國科學(xué)院計算技術(shù)研究所的切分器切分,結(jié)果為:文本/n分類/v中/f連續(xù)/a屬性/n離散/v化/v方法/n的/u研究/v機(jī)器/n學(xué)習(xí)/v;/w文本/n分類/v;/w信息/n增益/v;/w連續(xù)/a屬性/n離散/v化/v Boosting/n 算法/n.經(jīng)停用詞處理之后得出一級特征詞.如表1所示.
表1 一級特征詞
3.2 從摘要中獲取二級特征詞
首先對摘要進(jìn)行分詞切分:針對/p_機(jī)器/n_學(xué)習(xí)/v_領(lǐng)域/n_的/u_一些/m_分類/v_算法/n_不能/v_處理/v_連續(xù)/a_屬性/n_的/u問題/n ……將/d_問題/n_轉(zhuǎn)換/v_成二/m_值/a_表示/v_方式/n_,/w_以/p_使得/v_這些/r_分類/v_算法/n_適用/v_于/p_連續(xù)/a_屬性/n_值/v_./w,由于數(shù)據(jù)使用不同的尺度度量,在使用歐氏距離之前先進(jìn)行歸一化處理,屬性值歸一化定義為:
(2)
其中,ai是指某個對象的屬性i,vi是屬性i的真實(shí)值,最大屬性值maxvi和最小屬性值minvi是從訓(xùn)練集實(shí)例中獲得的.選擇表1中的13個一級特征詞作為此步聚類的初始中心點(diǎn),即K-means算法中K=13.算法收斂時得到13個結(jié)果簇,不同的結(jié)果簇會有不同的屬性詞,同時屬性詞的個數(shù)也不同.在個數(shù)較少的簇選擇一個詞作為此簇的代表,在個數(shù)較多的簇中可以選擇2個及2個以上的代表詞,目的是為了保證選出的代表詞能夠很好地反映出第二層即引言部分的特征屬性,將這些代表詞作為二級特征詞.結(jié)果如表2所示.
表2 二級特征詞
3.3 從文獻(xiàn)引言和總結(jié)部分獲取三級特征詞
使用分詞器對科技文獻(xiàn)的引言和總結(jié)部分進(jìn)行單詞切分處理,然后經(jīng)去除停用詞處理和聚類對象的歸一化處理,再用Multi-Tap-FE算法進(jìn)行聚類分析,初始中心點(diǎn)為表3的36個二級特征詞,即K-means算法中K=36,進(jìn)行迭代計算,直至算法收斂,得到184個三級特征詞如表3所示.
表3 三級特征詞
對80篇關(guān)于“離散化”文獻(xiàn)均采用以上的方法對其進(jìn)行特征提取.其中一級特征詞有948個,消除重復(fù)詞后有386個(以下均為消除停用詞后的數(shù)量).二級特征詞有1 954個,三級特征詞有7 285個.220篇關(guān)于“綠色網(wǎng)絡(luò)”的文獻(xiàn)的一級特征詞有1 023個,二級特征詞有4 563個,三級特征詞有18 956個,360篇關(guān)于“特征詞選擇”的文獻(xiàn)中一級特征詞有1 320個,二級特征詞有6 451,三級特征詞有10 034個.
3.4 從文獻(xiàn)正文中獲取頻繁項(xiàng)集獲得四級特征詞
本文采用C#語言,Visual Studio 2010開發(fā)環(huán)境編寫程序,分別對660篇訓(xùn)練集的部分正文信息進(jìn)行提取,將提取的信息進(jìn)行分詞處理和去除停用詞處理,為了減少數(shù)據(jù)量剔除詞頻小于3的詞,按主題分類存入數(shù)據(jù)庫,形成評價語料庫,將660篇文獻(xiàn)當(dāng)做是660個事務(wù),用Apriori算法挖掘頻繁項(xiàng)集,本文以80篇主題為“離散化”的科技文獻(xiàn)作為Apriori算法的實(shí)驗(yàn)數(shù)據(jù).文獻(xiàn)語料庫如表4所示,設(shè)最小支持度為40%,用Java語言實(shí)現(xiàn)Apriori算法,A_Algorithm類實(shí)現(xiàn)頻繁項(xiàng)集和頻繁關(guān)聯(lián)規(guī)則的挖掘過程,A_SubsetCombination類用于計算某頻繁項(xiàng)集的真子集.
表4 文獻(xiàn)語料庫
80篇主題為“離散化”的文獻(xiàn),經(jīng)過Apriori算法處理,最終得到39 450維最大頻繁項(xiàng)集52組,將52組數(shù)據(jù)全部組合得到39 608個特征詞.
4.1 對660篇測試集進(jìn)行特征詞選擇
實(shí)驗(yàn)結(jié)果如表5所示.
表5 本文特征詞提取方法特征詞提取結(jié)果
4.2 MultiLM-FE方法與IACA方法[1]比較
2012年復(fù)旦大學(xué)的劉海燕提出一種基于條件互信息的特征選擇改進(jìn)算法(IACA方法).該算法采用K-means 的基本思想聚類特征,并從中選出類相關(guān)度最大的特征,從而去除不相關(guān)和冗余特征.該算法比較適合處理高維數(shù)據(jù)集,能夠較好地降維,并且達(dá)到不錯的效果.在此,本文所提出的方法MultiLM-FE方法與之在查全率、查準(zhǔn)率和F值3方面做比較, F-score值為:
對文獻(xiàn)特征詞挖掘結(jié)果對比,如表6所示.
表6 各特征詞提取方法實(shí)驗(yàn)對比結(jié)果
通過以上的比較,可以看出本文所提出MultiLM-FE方法的查全率、查準(zhǔn)率都優(yōu)于普通的K-means與Apriori方法,在特征詞選擇算法的研究中有一定的有效性,表明Multi-Tap-FE方法在科技文獻(xiàn)抽取特征詞方面有著較好性能.
本文提出的Multi-Tap-FE方法,解決了K-means聚類算法不能自動確定最佳聚類初始點(diǎn)的問題,減少了聚類過程中信息損耗,能夠在文獻(xiàn)語料庫中更加準(zhǔn)確的找到特征詞,較之以前的方法有很大提升,但該方法也受到一定因素的影響,如k-means算法對孤立點(diǎn)數(shù)據(jù)很敏感,孤立點(diǎn)會使聚類中心偏離從而影響聚類結(jié)果;Apriori算法在每次計算項(xiàng)集的支持度時,都對文獻(xiàn)語料庫中的所有數(shù)據(jù)進(jìn)行掃描比較,若是一個大型的文獻(xiàn)語料庫,這種掃描比較會使得計算機(jī)系統(tǒng)的I/O開銷大大增加.而這種代價是隨著文獻(xiàn)語料庫記錄的增加呈現(xiàn)出幾何級數(shù)的增加.這些都是我們今后做研究應(yīng)該考慮的方向.
[1] 劉海燕, 王 超, 牛軍鈺. 基于條件互信息的特征選擇改進(jìn)算法[J]. 計算機(jī)工程, 2012, 14(38): 36-42.
[2] 毛國君, 段麗娟, 王 實(shí),等. 數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社, 2007.
[3] 劉海峰, 蘇 展, 劉守生. 一種基于詞頻信息的改進(jìn)CHI文本特征選擇[J]. 計算機(jī)工程與應(yīng)用, 2013, 49(22): 110-114.
[4] Yang C C, Tobun D N. Analyzing and visualizing Web opinion development and social interactions with density-based clustering[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part A :Systems and Humans, 2011, 41(6): 1144-1155.
[5] Dernoncourt D.Analysis of feature selection stability on high dimension and small sample data[J]. Computational Statistics and Data Analysis, 2014, 71(6): 681-693.
[6] Sina T. An unsupervised feature selection algorithm based on ant colony optimization[J]. Engineering Applications of Artificial intelligence, 2014, 32(1): 112-123.
[7] Salwani A. An exponential Monte-carlo algorithm for feature selection problems[J]. Computers and Industrial Engineering, 2014, 67(1): 160-167.
[8] Wu X. Online feature selection with streaming features[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(5): 1178-1192.
[9] Han J, Kamber M. Data Mining: Concepts and Techniques[M]. 北京: 機(jī)械工程出版社,2001.
[10] 朱顥東, 吳懷廣. 基于論域劃分的無監(jiān)督文本特征選擇方法[J]. 科學(xué)技術(shù)與工程, 2013, 13(7): 1836-1839.
[11] 郭亞維, 劉曉霞. 文本分類中信息增益特征選擇方法的研究[J]. 計算機(jī)工程與應(yīng)用, 2012, 48(27): 119-127.
[12] 周麗紅, 劉 勘. 基于關(guān)聯(lián)規(guī)則的科技文獻(xiàn)分類研究[J]. 圖書情報工作, 2012, 56(4): 12-16.
Multi-level feature extraction method based onK-means and Apriori
QIAN Shenyi, ZHU Yanling, ZHU Haodong
(School of Computer and Communication Engineering, Zhengzhou University of Light Industry, Zhengzhou 450002)
This article proposed a four-mining model based on the structural characteristics of scientific literature, and combinedK-means algorithm and Apriori algorithm to construct an new feature extraction method-MultiLM-FE Method. Firstly, scientific literature was divided into four layers according to its structure. And then, it selected features progressively for the former three layers byK-means clustering. Finally, it found out the maximum frequent itemsets of fourth layer by Aprori algorithm to act as a collection of features fourth layer. This method can solve the problem that theK-means clustering algorithm can’t determine the most appropriate clustering starting point automatically, and reduces the loss of information in the clustering process, so it is possible to find features more accurately in the literature corpus. Experimental results showed that this method was feasible and effective and had greatly improved especially in terms of the scientific literature when compared with the previous method.
scientificl iterature; feature extraction;K-means; Apriori
2014-11-24.
國家自然科學(xué)基金項(xiàng)目(61201447); 河南省科技攻關(guān)項(xiàng)目(122102210024、122300410287); 河南省高等學(xué)校青年骨干教師資助計劃項(xiàng)目(2014GGJS-084); 河南省教育廳科學(xué)技術(shù)研究重點(diǎn)項(xiàng)目(13A520367); 鄭州市科技計劃項(xiàng)目(121PPTG362-12,131PPTGG411-8); 鄭州輕工業(yè)學(xué)院校級青年骨干教師培養(yǎng)對象資助計劃項(xiàng)目(XGGJS02).
1000-1190(2015)03-0357-06
TP311
A
*通訊聯(lián)系人. E-mail: zhuhaodong80@163.com.