巴志超 朱世偉 于俊鳳 魏墨濟(jì)
〔摘 要〕針對(duì)圖書(shū)、期刊論文等數(shù)字文獻(xiàn)文本特征較少而導(dǎo)致特征向量語(yǔ)義表達(dá)不夠準(zhǔn)確、分類(lèi)效果差的問(wèn)題,本文提出一種基于特征語(yǔ)義擴(kuò)展的數(shù)字文獻(xiàn)分類(lèi)方法。該方法首先利用TF-IDF方法獲取對(duì)數(shù)字文獻(xiàn)文本表示能力較強(qiáng)、具有較高TF-IDF值的核心特征詞;其次分別借助知網(wǎng)(Hownet)語(yǔ)義詞典以及開(kāi)放知識(shí)庫(kù)維基百科(Wikipedia)對(duì)核心特征詞集進(jìn)行語(yǔ)義概念的擴(kuò)展,以構(gòu)建維度較低、語(yǔ)義豐富的概念向量空間;最后采用MaxEnt、SVM等多種算法構(gòu)造分類(lèi)器實(shí)現(xiàn)對(duì)數(shù)字文獻(xiàn)的自動(dòng)分類(lèi)。實(shí)驗(yàn)結(jié)果表明:相比傳統(tǒng)基于特征選擇的短文本分類(lèi)方法,該方法能有效地實(shí)現(xiàn)對(duì)短文本特征的語(yǔ)義擴(kuò)展,提高數(shù)字文獻(xiàn)分類(lèi)的分類(lèi)性能。
〔關(guān)鍵詞〕數(shù)字文獻(xiàn);短文本分類(lèi);特征選擇;語(yǔ)義擴(kuò)展;分類(lèi)性能
DOI:10.3969/j.issn.1008-0821.2015.09.013
〔中圖分類(lèi)號(hào)〕G2507 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2015)09-0070-05
〔Abstract〕Aiming at the problems of inaccurate concept expression of text vector and poor classification effect which is caused by sparse feature keywords in digital documents of books and journal articles etc,the paper proposed a classification method based on the features of semantic extension.Firstly,this method adopted TF-IDF method to filter keywords that have higher ability of digital text representation and TF-IDF value than other common features.Secondly,to build the low dimensionality and semantic conceptual vector space,it extended semantic concept of core features collections based on the Hownet semantic dictionary and knowledge base of Wikipedia.Finally,it realized digital document automatic classification by applying MaxEnt and SVM algorithms.The result showed that the proposed method can more effectively expend short text on semantics and improve the classification performance of digital document compared with traditional short text classification method based on characteristic selection.
〔Key words〕digital document;short text classification;features selection;semantic extension;classification performance
數(shù)字圖書(shū)館的主要業(yè)務(wù)數(shù)據(jù)是館藏的各種類(lèi)型的文獻(xiàn)資源,即使在大數(shù)據(jù)環(huán)境下,其核心業(yè)務(wù)仍然是針對(duì)這些種類(lèi)眾多的文獻(xiàn)進(jìn)行組織和安排,使各種類(lèi)型的文獻(xiàn)能夠在數(shù)字圖書(shū)館中統(tǒng)一實(shí)現(xiàn)分類(lèi)與檢索。然而,針對(duì)數(shù)字文獻(xiàn)的分類(lèi)標(biāo)引工作長(zhǎng)期以來(lái)都是由編目人員手工去完成,既費(fèi)時(shí)又費(fèi)力。且由于信息的模糊性以及數(shù)字文獻(xiàn)種類(lèi)、數(shù)量的劇增,僅靠提高編目人員的業(yè)務(wù)素質(zhì)來(lái)保證文獻(xiàn)分類(lèi)標(biāo)引的準(zhǔn)確性是不現(xiàn)實(shí)的,有必要將信息自動(dòng)化技術(shù)引入圖書(shū)編目、數(shù)字文獻(xiàn)元數(shù)據(jù)的分類(lèi)或主題標(biāo)引之中。利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)數(shù)字文獻(xiàn)的自動(dòng)分類(lèi)已成為數(shù)字圖書(shū)館建設(shè)中亟待解決的關(guān)鍵問(wèn)題之一[1]。
自動(dòng)分類(lèi)技術(shù)是指在給定的分類(lèi)體系情況下,根據(jù)文本內(nèi)容自動(dòng)判定到相應(yīng)預(yù)定義類(lèi)別的過(guò)程[2]。目前主要采用向量空間模型進(jìn)行文本信息結(jié)構(gòu)化的表示,然而基于該模型下由于數(shù)字文獻(xiàn)文本特征缺失會(huì)導(dǎo)致向量空間的高維和稀疏,且包含大量無(wú)效、冗余的特征,從而降低數(shù)字文獻(xiàn)分類(lèi)的精度。另外,基于該詞頻向量的表示方法忽略了文本中特征詞的含義以及詞項(xiàng)間潛在語(yǔ)義關(guān)系,如同義詞、冗余和蘊(yùn)涵等信息。面對(duì)短文本數(shù)據(jù)集特征缺失帶來(lái)的問(wèn)題,相關(guān)學(xué)者提出借助外部詞典/知識(shí)庫(kù)進(jìn)行特征擴(kuò)展的方法,以彌補(bǔ)短文本特征不足的缺陷,提高最終的分類(lèi)性能。如Phan[3]等人通過(guò)外部網(wǎng)絡(luò)數(shù)據(jù)源擴(kuò)展短文本的詞條信息來(lái)解決詞特征的稀疏性問(wèn)題;Ferragina[4]等人借助ODP(Open Directory Project)、WebKB等手工標(biāo)注的知識(shí)庫(kù)計(jì)算查詢(xún)?cè)~、網(wǎng)頁(yè)片段等短文本的相似度;Wang[5]等人通過(guò)將文檔詞向量中的每個(gè)詞匹配到維基百科概念,利用上層概念、關(guān)聯(lián)等實(shí)現(xiàn)向量語(yǔ)義相關(guān)性擴(kuò)充;Milne[6]等人根據(jù)維基百科中文檔鏈接關(guān)系對(duì)某概念進(jìn)行語(yǔ)義擴(kuò)展,并提供給檢索引擎實(shí)現(xiàn)檢索關(guān)鍵詞的語(yǔ)義擴(kuò)展。范云杰[7]等人提出基于維基百科的鏈接結(jié)構(gòu)和類(lèi)別體系進(jìn)行概念的關(guān)聯(lián)度計(jì)算對(duì)社區(qū)問(wèn)答數(shù)據(jù)集進(jìn)行分類(lèi);翟延冬[8]等人綜合考慮文本的概念、句法等信息,提出一種基于WordNet的短文本語(yǔ)義相似度計(jì)算方法;王盛[9]等人利用“知網(wǎng)”詞典中的上下位關(guān)系擴(kuò)展文本的特征向量來(lái)實(shí)現(xiàn)短文本的分類(lèi)。實(shí)驗(yàn)結(jié)果表明通過(guò)引入外部詞典/知識(shí)庫(kù)來(lái)對(duì)特征向量的語(yǔ)義擴(kuò)展,一定程度上能有效解決特征的缺失問(wèn)題,提高短文本的分類(lèi)性能。為此,本文提出在TF-IDF模型的基礎(chǔ)上,采用“知網(wǎng)”語(yǔ)義詞典以及維基百科知識(shí)庫(kù)對(duì)數(shù)據(jù)文獻(xiàn)的文本特征進(jìn)行語(yǔ)義擴(kuò)展,以提高數(shù)據(jù)文獻(xiàn)分類(lèi)的分類(lèi)效果。endprint
1 核心特征詞選擇
對(duì)于數(shù)字文獻(xiàn)等類(lèi)似的短文本,一旦出現(xiàn)誤差或者噪聲特征,其產(chǎn)生的負(fù)面影響比長(zhǎng)文本分類(lèi)更加明顯。因此,需要先對(duì)數(shù)據(jù)文獻(xiàn)文本集進(jìn)行分詞、停用詞過(guò)濾以及詞性標(biāo)注等預(yù)處理,以消除無(wú)意義詞對(duì)數(shù)字文獻(xiàn)文本有效信息的噪聲干擾。通過(guò)文本預(yù)處理后需對(duì)文本中的每個(gè)特征詞進(jìn)行TF-IDF的計(jì)算,并將文本中各特征詞的TF-IDF值表示為向量,來(lái)進(jìn)行文本的相似度計(jì)算。然而該向量維度較高且極度稀疏,另外,不同詞性的特征詞對(duì)文本的貢獻(xiàn)程度不同,因此本文只選取TF-IDF值大于λ閾值(λ為百分比)的名詞和動(dòng)詞特征詞作為核心特征詞,以此核心特征詞向量作為文本的特征表示,TF-IDF值通過(guò)公式(1)獲得。
qTFIDF(w)=log(tf(w,d))·logNdf(t)+001〖〗∑Vt=1log(tf(w,d))·logNdf(w)+0012
(1)
式中V表示總特征詞數(shù)、N表示總文本數(shù)、tf(w,d)表示特征詞w在文本d中的詞頻、df(w)表示特征詞w在文本d中的逆向文本頻率。根據(jù)信息論,IDF的值表示一個(gè)特定條件下特征詞概率分布的交叉熵,TF則是用來(lái)增加特征詞的權(quán)重,以便更好地描述文本中特征詞的信息特征[10]。通過(guò)TF-IDF模型可從每一篇文本中挑選出相對(duì)重要的特征詞來(lái)表示文本,這樣既保證不影響文本的特征提取,同時(shí)又最大可能的減少文本特征向量表示的維度,提高特征詞對(duì)文本的表示能力。
2 數(shù)字文獻(xiàn)文本特征語(yǔ)義擴(kuò)展
獲取核心特征詞后,分別借助知網(wǎng)(Hownet)語(yǔ)義詞典以及開(kāi)放知識(shí)庫(kù)維基百科(Wikipedia)對(duì)核心特征詞集進(jìn)行語(yǔ)義概念的擴(kuò)展,通過(guò)概念作為向量空間模型的特征粒度。基于傳統(tǒng)詞頻向量作為文本表示時(shí),忽略文本中特征詞的含義,且假定特征詞之間線性無(wú)關(guān)。而在文本中特征詞之間普遍存在同義詞、冗余、蘊(yùn)涵等語(yǔ)義關(guān)系,這些語(yǔ)義關(guān)系無(wú)法保證向量空間特征詞線性無(wú)關(guān)的假設(shè)。而且在同一概念有多種表達(dá)形式的情況下,將文本特征表示為簡(jiǎn)單的詞頻向量,會(huì)丟失很多有價(jià)值的語(yǔ)義信息。通過(guò)將特征詞映射到概念層面,將具有同義詞、近義詞等語(yǔ)義關(guān)系的多個(gè)特征詞映射到同一概念,一定程度上可以消除這種相關(guān)性,最大限度地確保特征詞之間線性無(wú)關(guān),同時(shí)還可以避免核心特征詞因采用分散的特征詞進(jìn)行表示時(shí)而削弱其對(duì)文本表示的能力。
21 基于知網(wǎng)的特征語(yǔ)義擴(kuò)展
知網(wǎng)是一個(gè)以漢語(yǔ)和英語(yǔ)詞語(yǔ)所代表的概念作為描述對(duì)象,以揭示概念之間以及概念所具有的屬性之間的基本內(nèi)容的常識(shí)知識(shí)庫(kù)[11]。通過(guò)知網(wǎng)詞典將文本中的關(guān)鍵詞映射到概念空間時(shí)對(duì)應(yīng)的是一個(gè)多對(duì)多的關(guān)系,一個(gè)詞語(yǔ)往往具有多個(gè)含義,對(duì)應(yīng)于多個(gè)“義原”。不同含義在不同的語(yǔ)境中表達(dá)的意思可能相差甚遠(yuǎn),如針對(duì)特征詞“專(zhuān)業(yè)”有一項(xiàng)描述是:DEF=aValue|屬性值,attachment|歸屬,#occupation|職位,formal|正式;另一項(xiàng)描述為DEF=affairs|事務(wù),education|教育。因此在基于知網(wǎng)進(jìn)行擴(kuò)展時(shí)需要明確特征詞在數(shù)字文獻(xiàn)文本中的具體含義,即進(jìn)行詞義消歧才能保證語(yǔ)義擴(kuò)展的有效性[12]。引入的信息要和數(shù)字文獻(xiàn)文本的內(nèi)容相關(guān),否則就會(huì)成為噪聲,降低數(shù)字文獻(xiàn)文本的分類(lèi)性能。對(duì)于詞義消歧方法本文首先借助特征詞的詞性進(jìn)行詞義判斷,然后再根據(jù)知網(wǎng)中提供的概念間的關(guān)系進(jìn)行詞義消歧。具體消歧方法如下:
(1)根據(jù)特征詞的詞性判定詞的概念。讀入關(guān)鍵詞w,根據(jù)關(guān)鍵詞w的詞性p查詢(xún)知網(wǎng)概念詞典,詞典中有此關(guān)鍵詞,則獲取該詞詞性為p的義原。若義原的個(gè)數(shù)為1,則按詞性標(biāo)注即可確定其詞義,排歧結(jié)束,否則轉(zhuǎn)向(2)。
(2)根據(jù)知網(wǎng)詞典中的概念關(guān)系量化特征詞與上下文詞匯詞義間的關(guān)系進(jìn)行詞義消歧。特征詞w的詞義可根據(jù)該詞所在句子中的上下文語(yǔ)境來(lái)確定,因此可通過(guò)考察特征詞w與所在句子中其他特征詞之間的語(yǔ)義相關(guān)度來(lái)確定。
特征詞與上下文詞匯之間的語(yǔ)義相關(guān)度實(shí)質(zhì)是考察它們?cè)贒EF中義原的關(guān)聯(lián)程度。對(duì)于特征詞w,假定有n個(gè)義原(S1,S2,…,Sn),而該特征詞所在句子中其他的特征詞w1,w2,…,wj,共有m個(gè)義原(S11,S12,…,Sjm),則w和wj的相似度Sim(w,wj)為
Sim(w,wj)=maxi=1,2,…,n,k=1,2,…,mSim(Si,Sjk)
(2)
對(duì)于義原的相似度Sim(Si,Sjk)計(jì)算方法依據(jù)知網(wǎng)概念詞典中義原的層次結(jié)構(gòu)(上下位關(guān)系)來(lái)計(jì)算。本文主要基于節(jié)點(diǎn)之間的路徑長(zhǎng)度來(lái)計(jì)算相似度。假設(shè)義原Si和Sjk在知網(wǎng)層次體系中的路徑距離為d,可得到這兩個(gè)義原之間的語(yǔ)義距離:
Sim(Si,Sjk)=αdis tan ce(Si,Sjk)+α
(3)
其中d是Si和Sjk在義原層次體系中的路徑長(zhǎng)度,是一個(gè)正整數(shù)。α是一個(gè)可調(diào)節(jié)的參數(shù)。另外,由于《知網(wǎng)》定義的所有義原并不是在一棵樹(shù)上,本文統(tǒng)一規(guī)定:不在同一棵樹(shù)上的兩個(gè)義原之間的相似度取較小值δ(參數(shù)),存在對(duì)義或者反義關(guān)系,相似度降為原來(lái)的n分之一[13]。
22 基于維基百科的特征語(yǔ)義擴(kuò)展
維基百科是目前最大的多語(yǔ)種、開(kāi)放式的在線百科全書(shū),采用群體在線合作編輯的Wiki機(jī)制,相比專(zhuān)家編撰的語(yǔ)義詞典,具有質(zhì)量高、覆蓋廣、實(shí)時(shí)演化和半結(jié)構(gòu)化維基百科[14]。維基百科中每一個(gè)概念都有一篇相應(yīng)的文章來(lái)描述。本文結(jié)合維基百科的語(yǔ)義信息:概念解釋頁(yè)面中所包含的各類(lèi)鏈接、類(lèi)別間的體系結(jié)構(gòu)、重定向、消歧頁(yè)面來(lái)獲取核心特征詞的相關(guān)維基百科概念,來(lái)實(shí)現(xiàn)對(duì)特征的語(yǔ)義擴(kuò)展。本文主要采用鏈接結(jié)構(gòu)和分類(lèi)體系分別計(jì)算概念間的鏈接距離和類(lèi)別距離,來(lái)量化概念間的語(yǔ)義關(guān)聯(lián)度。
計(jì)算概念間鏈接距離的方法本文采用Milne[15]等人提出的WLM(Wikipedia Link-based Measure)算法。在維基百科的鏈接結(jié)構(gòu)中,對(duì)于某個(gè)概念的一篇描述文章而言,不僅存在鏈入鏈接,也有這篇文章包含的其它概念的鏈接,即為鏈出鏈接。WLM算法對(duì)這兩種鏈接分別計(jì)算相關(guān)性后再綜合。對(duì)于鏈入這篇文章的鏈接(鏈入鏈接),WLM算法采用修改的Google Distance的方法,其是基于維基百科的鏈接而不是Google的檢索結(jié)果,其計(jì)算公式如下:endprint
Dlink(w,Ci)=log(maxA,B))-log(A∩B)log(W)-log(min(A,B))
(6)
其中,A和B分別是維基百科中所有含有鏈接鏈向特征詞w和概念Ci的頁(yè)面的集合,W是維基百科所有解釋頁(yè)面的集合。由于單個(gè)概念的鏈接數(shù)量遠(yuǎn)遠(yuǎn)小于維基百科頁(yè)面的總數(shù)量,所以Dlink的值一般在0~1之間。對(duì)于維基百科中包含的鏈接(鏈出鏈接),WLM算法采用向量空間模型來(lái)進(jìn)行計(jì)算。假如文章s中包含鏈接t,那么s→t的權(quán)值的計(jì)算如下:
w(s-t)=logWT, s∈T
0
(7)
其中,W是維基百科中所有文章的集合,T是所有包含鏈接t的所有文章的集合。
在維基百科的類(lèi)別體系中,一個(gè)分類(lèi)節(jié)點(diǎn)可以包含多個(gè)上層分類(lèi)節(jié)點(diǎn)和下層分類(lèi)節(jié)點(diǎn),因此兩節(jié)點(diǎn)之間可以找到多條路徑。本文借鑒文獻(xiàn)[16]提出的深度加權(quán)路徑法來(lái)計(jì)算特征詞w和概念Ci的類(lèi)別距離。首先在分類(lèi)圖中定位其類(lèi)別節(jié)點(diǎn)并進(jìn)行廣度優(yōu)先遍歷,直到找到特征詞w和概念Ci的最近公共節(jié)點(diǎn),遍歷路徑長(zhǎng)度分別記為len(w)、len(Ci)。根據(jù)該路徑長(zhǎng)度信息,可構(gòu)建兩者的最短路徑距離,其計(jì)算公式如下:
Dsl(w,Ci)=1len(w)+len(Ci)·log(len(w)+len(Ci))
(8)
基于最短路徑方法沒(méi)有考慮類(lèi)別的深度信息,在維基百科中,概念的深度能反映當(dāng)前概念信息內(nèi)容的豐富程度。為此在考察特征詞w和概念Ci的類(lèi)別深度信息及其最近公共節(jié)點(diǎn)類(lèi)別的深度信息的基礎(chǔ)上,得到基于類(lèi)別體系下特征詞w和概念Ci的路徑距離,計(jì)算公式如下:
Dcat(w,Ci)=Dsl(w,Ci)·2×depth(pub)depth(w)+depth(Ci)
(9)
其中depth(pub)表示最近公共節(jié)點(diǎn)的深度,depth(w)、depth(Ci)分別表示特征詞w和概念Ci的類(lèi)別深度信息。兩節(jié)點(diǎn)的最短路徑越小,節(jié)點(diǎn)的距離越近,這兩者的相關(guān)程度也就越高。最后對(duì)特征詞w與其某個(gè)相關(guān)的概念Ci之間的概念距離表示為鏈接距離Dlink和類(lèi)別距離Dcat的線性組合,計(jì)算公式如下:
D(wa,Ci)=αDlink(wa,Ci)+(1-α)Dcat(wa,Ci)
(10)
其中α(0≤α≤1)為一調(diào)節(jié)參數(shù)。經(jīng)過(guò)相關(guān)概念的抽取以及語(yǔ)義關(guān)系的量化,可以將特征詞w構(gòu)建形如w((C1,D1),(C2,D2),…,(Cn,Dn))相關(guān)概念集合的形式,從而實(shí)現(xiàn)對(duì)特征詞的語(yǔ)義擴(kuò)展。其中Ci是與w具有雙向鏈接關(guān)系的相關(guān)概念,Di是概念集合中第i個(gè)相關(guān)概念與特征詞w的相關(guān)度。
3 實(shí) 驗(yàn)
31 實(shí)驗(yàn)設(shè)置
本文采用以圖書(shū)和電子期刊數(shù)據(jù)庫(kù)中的期刊等信息管理領(lǐng)域的真實(shí)文獻(xiàn)數(shù)據(jù)作為實(shí)驗(yàn)材料,由筆者取自某大學(xué)圖書(shū)館的館藏目錄OPAC以及選自《中國(guó)知網(wǎng)》的電子期刊數(shù)據(jù)庫(kù),分別選取分類(lèi)在《中圖法》體系下的計(jì)算機(jī)、軍事和體育3個(gè)類(lèi)別中的部分圖書(shū)和部分期刊文獻(xiàn)進(jìn)行實(shí)驗(yàn)。
圖書(shū)文獻(xiàn)中的每一條文本信息主要取其書(shū)名、摘要、關(guān)鍵字作為分類(lèi)實(shí)驗(yàn)材料,文本平均長(zhǎng)度在60字左右。期刊文獻(xiàn)主要取標(biāo)題、摘要、關(guān)鍵詞作為一個(gè)文本,每個(gè)文本平均長(zhǎng)度約為130字。每個(gè)類(lèi)隨機(jī)抽取200篇作為訓(xùn)練集,100篇作為測(cè)試集,且保證訓(xùn)練集和測(cè)試集之間無(wú)重復(fù)文本。為消除實(shí)驗(yàn)結(jié)果的偶然性,實(shí)驗(yàn)中對(duì)同一類(lèi)別的訓(xùn)練集和測(cè)試集進(jìn)行隨機(jī)抽取調(diào)換,進(jìn)行10次相互獨(dú)立的訓(xùn)練和分類(lèi),最后取平均值作為實(shí)驗(yàn)結(jié)果。
對(duì)分類(lèi)性能的評(píng)估,本文基于通用的分準(zhǔn)率、分全率以及綜合指標(biāo)F1值來(lái)描述,由于本研究需要分類(lèi)過(guò)程的各環(huán)節(jié)透明化,以減少中間過(guò)程的不可控因素,因而選取KNN、Nave Bayes、MaxEnt以及SVM幾種算法構(gòu)造分類(lèi)器對(duì)數(shù)字文獻(xiàn)進(jìn)行分類(lèi)。
32 實(shí)驗(yàn)結(jié)果與分析
首先針對(duì)圖書(shū)、期刊文獻(xiàn)數(shù)據(jù)集進(jìn)行分詞、過(guò)濾和詞性標(biāo)注等預(yù)處理。本文主要采用中科院的ICTCLAS分詞系統(tǒng)進(jìn)行分詞和標(biāo)注,該系統(tǒng)可進(jìn)行中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別、同時(shí)支持用戶(hù)詞典等,分詞正確率高達(dá)9845%,能夠保證較好的分詞效果。在獲取名詞、動(dòng)詞等特征詞后,采用TF-IDF計(jì)算模型來(lái)統(tǒng)計(jì)特征詞在數(shù)字文獻(xiàn)文本中的信息,選取TF-IDF值大于λ閾值的名詞和動(dòng)詞特征詞作為核心特征詞,以此核心特征詞向量作為文本的特征表示。
為確定最優(yōu)分類(lèi)性能時(shí)λ的取值,本文采用不同分類(lèi)算法在不同的Top特征詞百分比的情況下針對(duì)圖書(shū)、期刊文獻(xiàn)進(jìn)行分類(lèi)實(shí)驗(yàn)。圖1、圖2顯示不同比例的Top特征詞下分類(lèi)性能的實(shí)驗(yàn)結(jié)果(圖中4種分類(lèi)算法在圖書(shū)文獻(xiàn)材料上分別命名為B-KNN、B-NB、B-ME、B-SVM,在期刊文獻(xiàn)材料上命名為J-KNN、J-NB、J-ME、J-SVM)。從圖中可以看出,當(dāng)λ=06,即取數(shù)字文獻(xiàn)文本中60%的特征詞時(shí)能夠取得最好的分類(lèi)效果。低于這個(gè)比例,當(dāng)選取的特征詞數(shù)較少時(shí),會(huì)導(dǎo)致無(wú)法有效地提取文本特征信息而使得分類(lèi)效果較差,當(dāng)超過(guò)這個(gè)比例時(shí),由于選取的特征詞數(shù)過(guò)多會(huì)引入噪聲,不相關(guān)的特征詞對(duì)文本的表示能力較差從而會(huì)降低數(shù)字文獻(xiàn)文本的分類(lèi)性能。
在獲取核心特征詞后,分別借助知網(wǎng)語(yǔ)義詞典以及開(kāi)放知識(shí)庫(kù)維基百科對(duì)核心特征詞集進(jìn)行語(yǔ)義概念的擴(kuò)展。表1顯示借助知網(wǎng)、維基百科擴(kuò)展后的特征詞集采用4種算法針對(duì)圖書(shū)、期刊文獻(xiàn)各類(lèi)別上的分類(lèi)效果。從表中可
以看出各分類(lèi)算法在不同類(lèi)別上基于維基百科知識(shí)庫(kù)要好于基于知網(wǎng)詞典的語(yǔ)義擴(kuò)展分類(lèi)效果。這是由于類(lèi)似知網(wǎng)、WordNet等語(yǔ)義詞典是由人工構(gòu)建,在大小和規(guī)模上有一定的限制,很難覆蓋到足夠豐富的概念以及各種語(yǔ)義關(guān)聯(lián)關(guān)系,而維基百科質(zhì)量高、覆蓋廣的優(yōu)勢(shì)可以更有效地?cái)U(kuò)展文本的特征,從而獲得更好的分類(lèi)效果?;谡Z(yǔ)義擴(kuò)展后4種分類(lèi)算法在圖書(shū)、期刊文獻(xiàn)上的分類(lèi)性能相差不大,Nave Bayes算法的分類(lèi)性能相對(duì)較差一些。Nave Bayes算法假設(shè)特征詞之間是相互獨(dú)立的,忽略特征詞之間的語(yǔ)義關(guān)聯(lián)關(guān)系。而4種分類(lèi)算法在期刊文獻(xiàn)上的分類(lèi)效果要好于在圖書(shū)文獻(xiàn)上的分類(lèi)效果。從所采用的分類(lèi)實(shí)驗(yàn)材料上來(lái)看,期刊文獻(xiàn)相對(duì)于圖書(shū)文獻(xiàn)材料文本長(zhǎng)度較長(zhǎng),類(lèi)別間相對(duì)更加明確、清晰,在專(zhuān)業(yè)性質(zhì)及文本表述上區(qū)別明顯,從而在各類(lèi)別上表現(xiàn)出相對(duì)較好的分類(lèi)性能,而基于知網(wǎng)和維基百科語(yǔ)義擴(kuò)展方法在3個(gè)類(lèi)別上表現(xiàn)出的分類(lèi)效果相差不大。endprint
為進(jìn)一步驗(yàn)證基于語(yǔ)義擴(kuò)展方法的有效性,本文將傳統(tǒng)的信息增益(IG)、互信息(MI)、卡方統(tǒng)計(jì)(CHI)以及類(lèi)別區(qū)分詞(CDW)作為Baseline方法與提出的方法進(jìn)行對(duì)比分析。限于篇幅,圖3只顯示采用各種方法下基于SVM分類(lèi)算法在期刊文獻(xiàn)3個(gè)類(lèi)別上的平均分類(lèi)效果。(圖中各方法在期刊文獻(xiàn)語(yǔ)料上分別命名為J-IG、J-MI、J-CHI、J-CDW,基于知網(wǎng)和維基百科語(yǔ)義擴(kuò)展方法分別命名為J-Hownet、J-Wiki)。另外,實(shí)驗(yàn)中Top特征詞百分比λ=06,SVM分類(lèi)器采用十折交叉驗(yàn)證尋找最優(yōu)參數(shù),通過(guò)迭代獲得最優(yōu)懲罰因子:C=128,RBF核參數(shù)g=195×10-3。從圖中可以看出,基于知網(wǎng)詞典進(jìn)行語(yǔ)義擴(kuò)展的分類(lèi)效果和基于傳統(tǒng)的信息增益(IG)、互信息(MI)方法的分類(lèi)效果相差并不大,說(shuō)明單純只依靠知網(wǎng)詞典對(duì)數(shù)字文獻(xiàn)文本進(jìn)行特征的語(yǔ)義擴(kuò)展,相對(duì)于傳統(tǒng)的方法并不能非常顯著的提高最終的分類(lèi)性能,這與知網(wǎng)詞典的大小和規(guī)模有限相關(guān),使得很難有效地?cái)U(kuò)展數(shù)字文獻(xiàn)文本的特征。而基于卡方統(tǒng)計(jì)(CHI)以及類(lèi)別區(qū)分詞方法(CDW)的分類(lèi)效果在期刊文獻(xiàn)材料上的分類(lèi)效果最差?;诰S基百科進(jìn)行語(yǔ)義擴(kuò)展的分類(lèi)效果相對(duì)于其他方法分類(lèi)效果要好一些。
為進(jìn)一步確定基于知網(wǎng)語(yǔ)義詞典對(duì)數(shù)字文獻(xiàn)進(jìn)行擴(kuò)展的有效性,本文將基于維基百科以及基于知網(wǎng)詞典擴(kuò)展方法相結(jié)合,對(duì)核心特征詞采用維基百科和知網(wǎng)詞典網(wǎng)同時(shí)進(jìn)行語(yǔ)義擴(kuò)展。表2顯示采用該方法針對(duì)圖書(shū)、期刊文獻(xiàn)3個(gè)類(lèi)別上的分類(lèi)效果。(針對(duì)圖書(shū)、期刊文獻(xiàn)采用知網(wǎng)、維基百科相結(jié)合方法以下簡(jiǎn)稱(chēng)為B-HWiki、J-HWiki)。從表2中可以看出,采用知網(wǎng)詞典和維基百科相結(jié)合的方法進(jìn)行擴(kuò)展相比于只采用基于知網(wǎng)和維基百科方法的分類(lèi)效果都有所提高。針對(duì)圖書(shū)文獻(xiàn)語(yǔ)料上進(jìn)行分類(lèi),采用B-HWiki方法比B-Hownet和B-Wiki方法分別平均提高469%、104%,針對(duì)期刊文獻(xiàn)語(yǔ)料進(jìn)行分類(lèi),采用J-HWiki方法比J-Hownet和J-Wiki方法分別平均提高了481%和122%。從提升的幅度可以說(shuō)明借助知網(wǎng)詞典和維基百科對(duì)數(shù)字文獻(xiàn)進(jìn)行語(yǔ)義擴(kuò)展方法,使得數(shù)字文獻(xiàn)最終的分類(lèi)性能都有所提高,而借助維基百科方法要比借助知網(wǎng)詞典方法更加有效。
4 結(jié) 語(yǔ)
本文提出在TF-IDF計(jì)算模型的基礎(chǔ)上通過(guò)知網(wǎng)詞典和維基百科知識(shí)庫(kù)對(duì)文本特征進(jìn)行語(yǔ)義擴(kuò)展,并應(yīng)用于數(shù)字文獻(xiàn)的自動(dòng)分類(lèi)中。實(shí)驗(yàn)表明相比于傳統(tǒng)的特征選擇方法,借助外部詞典/知識(shí)庫(kù)進(jìn)行文本特征的擴(kuò)展,能有效彌補(bǔ)短文本特征的缺失,改善數(shù)字文獻(xiàn)最終的分類(lèi)性能。兩種擴(kuò)展方法不同程度地提高了數(shù)字文獻(xiàn)的分類(lèi)效果,通過(guò)將兩種擴(kuò)展方法相結(jié)合對(duì)核心特征詞進(jìn)行擴(kuò)展,比單獨(dú)只采用一種擴(kuò)展方法分類(lèi)性能又有所提高。
下一步研究工作主要從數(shù)字文獻(xiàn)的文本結(jié)構(gòu)信息、知網(wǎng)詞匯描述的完備性以及維基百科的體系結(jié)構(gòu)入手,對(duì)文本的特征選擇、概念映射層次選擇、概念排歧等方面進(jìn)行改進(jìn),進(jìn)一步探究數(shù)字文獻(xiàn)詞義消歧和特征擴(kuò)展的方法,以待提高數(shù)字文獻(xiàn)最終的分類(lèi)性能。
參考文獻(xiàn)
[1]王昊,嚴(yán)明,蘇新寧.基于機(jī)器學(xué)習(xí)的中文書(shū)目自動(dòng)分類(lèi)研究[J].中國(guó)圖書(shū)館學(xué)報(bào),2010,36(11):28-39.
[2]程傳鵬.中文網(wǎng)頁(yè)分類(lèi)的研究與實(shí)現(xiàn)[J].中原工學(xué)院學(xué)報(bào),2007,18(1):61-64.
[3]Phan X H,Nguyen L M,Susumu H.Learn-ning to classify short and sparse text & web with hidden topics from large-scale data collections[C]∥International Confere-nce on World Wide Web,2008:91-100.
[4]Ferragina P,Gulli A.A personalized search engine based on web-snippet hierarchical clustering[C]∥International Conference on the World Wide Web,2005:801-810.
[5]Wang P,Domeniconi C.Building semantic Kernels for text classification using wikipedia[C]∥ACM SIGKDD Internation-nalConference on Knowledge discovery and data mining,2008:713-721.
[6]Milne D,Witten L H,David M N.A knowledge-based search engine powered by wikipedia[C]∥In Proceedings of the sixteenth ACM Conference on Information and Knowledge Management(CIKM),2007:445-454.
[7]范云杰,劉懷亮,左曉飛,等.社區(qū)問(wèn)答中基于維基百科的問(wèn)題分類(lèi)方法[J].情報(bào)科學(xué),2014,32(10):56-60.
[8]翟延冬,王康平,張東娜,等.一種基于WordNet的短文本語(yǔ)義相似度算法[J].電子學(xué)報(bào),2012,(3):617-620.
[9]王盛,樊興華,陳現(xiàn)麟.利用上下位關(guān)系的中文短文本分類(lèi)[J].計(jì)算機(jī)應(yīng)用,2010,30(3):603-606.
[10]黃承慧,印鑒,侯.一種結(jié)合詞項(xiàng)語(yǔ)義信息和TF-IDF方法的文本相似度量方法[J].計(jì)算機(jī)學(xué)報(bào),2011,21(5):856-864.
[11]董振東,董強(qiáng).知網(wǎng)(Hownet Knowledge Database)[EB/OL].http:∥www.keenage.com/,2014-12-25.
[12]吳志峰,田學(xué)東.人名、機(jī)構(gòu)名在基于概念的文本分類(lèi)中的應(yīng)用研究[J].河北大學(xué)學(xué)報(bào):自然科學(xué)版,2004,24(6):657-661.
[13]李峰,李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99-105.
[14]張海粟,馬大明,鄧智龍.基于維基百科的語(yǔ)義知識(shí)庫(kù)及其構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用研究,2011,28(8):2807-2811.
[15]David Milne,Lan HWitten.An effective,low-cost measure of semantic relatedness obtained from Wikipedia links[C]∥The Workshop on Wikipedia and Artificial Intelligence at AAAI,Chicago,2008:25-30.
[16]諶志群,高飛,曾智軍.基于中文維基百科的詞語(yǔ)相關(guān)度計(jì)算[J].情報(bào)學(xué)報(bào),2012,31(12):1265-1270.
(本文責(zé)任編輯:郭沫含)endprint