張弛,張貫虹,周艷玲
(合肥學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系,安徽 合肥,230601)
隨著互聯(lián)網(wǎng)的普及和使用,互聯(lián)網(wǎng)中文本數(shù)據(jù)的產(chǎn)生正在以指數(shù)級(jí)的速度在增長,如何有效的管理和維護(hù)好這些文本數(shù)據(jù),能夠?qū)崟r(shí)、高效的從這些海量文本數(shù)據(jù)中挖掘?qū)ι鐣?huì)生產(chǎn)、生活有價(jià)值的信息,已經(jīng)成為文本聚類、信息檢索、問答系統(tǒng)等諸多研究領(lǐng)域知識(shí)管理者和研究者所要亟待解決的問題。
文本相似度計(jì)算是文本數(shù)據(jù)挖掘中需要解決的關(guān)鍵問題之一。傳統(tǒng)的文本相似度計(jì)算方法是基于統(tǒng)計(jì)特征的TF-IDF算法[1-3],該方法是將文本表示為一個(gè)空間向量的形式,向量中每個(gè)元素值為特征詞頻(term frequency,TF)和逆文本頻率(inverse document frequency,IDF)的乘積,這樣就可以通過計(jì)算向量之間的差異來衡量文本之間的相似性。這種方法的優(yōu)點(diǎn)簡單,并且可以排除文本中低區(qū)分度詞和高頻詞的干擾。但是這種方法也忽略了特征詞本身一般都具備豐富的語義,而且詞之間的語義關(guān)系、詞的頻率和詞的上下文結(jié)構(gòu)信息等都將影響著對(duì)文本相似度計(jì)算結(jié)果的準(zhǔn)確性[4-6]。
近年來,隨著復(fù)雜網(wǎng)絡(luò)科學(xué)研究的發(fā)展,在自然語言處理研究領(lǐng)域中也發(fā)現(xiàn)了小世界特性[7],為國內(nèi)外學(xué)者研究文本的相似度計(jì)算提供了新的思路。文獻(xiàn)[8-10]等基于語義知識(shí)庫的方法,將特征詞映射成概念或義項(xiàng),通過概念或義項(xiàng)的語義相似性、相關(guān)度和語義距離等來間接計(jì)算特征詞之間的相似度,并通構(gòu)建加權(quán)文本復(fù)雜網(wǎng)絡(luò),使用復(fù)雜網(wǎng)絡(luò)的物理結(jié)構(gòu)特征如節(jié)點(diǎn)度、介數(shù)、聚集系數(shù)等,進(jìn)行關(guān)鍵詞的提取研究。文獻(xiàn)[11-12]根據(jù)特征詞之間的語義關(guān)系構(gòu)建文本復(fù)雜網(wǎng)絡(luò),然后利用復(fù)雜網(wǎng)絡(luò)社區(qū)的結(jié)構(gòu)特性,使用社區(qū)挖掘算法來進(jìn)行特征選擇。文獻(xiàn)[13-14]引入相似性和相關(guān)性對(duì)詞語語義關(guān)系進(jìn)行復(fù)雜網(wǎng)絡(luò)構(gòu)建,通過調(diào)節(jié)各個(gè)參數(shù)的分配權(quán)重進(jìn)行特征項(xiàng)選擇。雖然這些研究已經(jīng)取得較好的成果,但它們都未考慮節(jié)點(diǎn)對(duì)全局網(wǎng)絡(luò)的影響,忽略了在文本復(fù)雜網(wǎng)絡(luò)中特征詞的位置、共現(xiàn)頻率、全局統(tǒng)計(jì)信息等因素的重要性,導(dǎo)致文本網(wǎng)絡(luò)構(gòu)建中邊權(quán)重計(jì)算方法不科學(xué),結(jié)果不準(zhǔn)確,使得最終計(jì)算結(jié)果存在較大偏差。
鑒于特征詞本身具備的豐富語義特征,文章在綜合考慮了特征詞間的語義相似性、統(tǒng)計(jì)TF-IDF值以及共現(xiàn)頻率等因素的基礎(chǔ)上,提出了一種基于《知網(wǎng)(HowNet)》語義知識(shí)詞典的改進(jìn)文本加權(quán)語義網(wǎng)絡(luò)構(gòu)建和相似度計(jì)算方法。該方法首先對(duì)文本進(jìn)行分詞、去停用詞操作,以特征詞為節(jié)點(diǎn),以特征詞的TF-IDF值作為節(jié)點(diǎn)的初始權(quán)重,以特征詞窗口共現(xiàn)與窗口滑動(dòng)原理建立邊,基于《知網(wǎng)(HowNet)》語義詞典將特征詞映射為詞典中的概念,考慮到特征詞在文本中的共現(xiàn)系數(shù),融合共現(xiàn)系數(shù)和概念間語義距離計(jì)算特征詞之間邊的權(quán)重,充分利用了文本的結(jié)構(gòu)信息和全局統(tǒng)計(jì)信息。最后使用EMD距離公式計(jì)算向量化文本之間的相似度,在標(biāo)準(zhǔn)數(shù)據(jù)集上對(duì)文本進(jìn)行分類實(shí)驗(yàn),驗(yàn)證了文中所構(gòu)建的算法相較于傳統(tǒng)算法,在聚類結(jié)果上得到了進(jìn)一步的提升。
復(fù)雜網(wǎng)絡(luò)是指在結(jié)構(gòu)、節(jié)點(diǎn)類型和連接形式等方面復(fù)雜的網(wǎng)絡(luò),該類網(wǎng)絡(luò)具有明顯小世界、無標(biāo)度等特征[15]。在復(fù)雜網(wǎng)絡(luò)中不同的統(tǒng)計(jì)量能夠反映不同的物理含義,對(duì)復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)涞姆治?,能夠剖析系統(tǒng)演化的過程和內(nèi)部存在的機(jī)制,文中主要使用如下的復(fù)雜網(wǎng)絡(luò)物理統(tǒng)計(jì)特征量對(duì)節(jié)點(diǎn)的重要性進(jìn)行評(píng)估。
1)節(jié)點(diǎn)加權(quán)度
根據(jù)邊權(quán)值是否存復(fù)雜網(wǎng)絡(luò)在可分為無權(quán)網(wǎng)絡(luò)和加權(quán)網(wǎng)絡(luò),節(jié)點(diǎn)的度是在無權(quán)網(wǎng)絡(luò)的基礎(chǔ)上定義的,是指與節(jié)點(diǎn)相連邊的數(shù)量,反應(yīng)了節(jié)點(diǎn)與其他鄰接節(jié)點(diǎn)的連接情況。在加權(quán)網(wǎng)絡(luò)中節(jié)點(diǎn)的加權(quán)度需是指與節(jié)點(diǎn)相連的節(jié)點(diǎn)之間邊權(quán)值之和,節(jié)點(diǎn)的加權(quán)度可定量的表示為
(1)
其中:ωij表示加權(quán)復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)i和j之間邊的權(quán)值,節(jié)點(diǎn)加權(quán)度綜合考慮了在加權(quán)復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)與相鄰節(jié)點(diǎn)之間邊的數(shù)量和權(quán)重,體現(xiàn)了節(jié)點(diǎn)在網(wǎng)絡(luò)中的局部重要性信息。
2)節(jié)點(diǎn)加權(quán)聚集系數(shù)
聚集系數(shù)是定義在節(jié)點(diǎn)三點(diǎn)組基礎(chǔ)上,對(duì)于任意一個(gè)節(jié)點(diǎn),聚集系數(shù)反映了在復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)聚集情況,即節(jié)點(diǎn)的鄰接節(jié)點(diǎn)之間有邊的數(shù)量與它們可能存在邊的數(shù)量的比值,可定量的表示為
(2)
其中:ki表示節(jié)點(diǎn)i的加權(quán)度;WKi為節(jié)點(diǎn)i的加權(quán)聚集系數(shù),值為節(jié)點(diǎn)i的相鄰節(jié)點(diǎn)之間邊的權(quán)值之和,體現(xiàn)了復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)間的連接強(qiáng)度和密度,體現(xiàn)了節(jié)點(diǎn)在加權(quán)復(fù)雜網(wǎng)絡(luò)中的局部重要性信息。
3)節(jié)點(diǎn)介數(shù)
節(jié)點(diǎn)介數(shù)定義為在加權(quán)復(fù)雜網(wǎng)絡(luò)中,任意兩個(gè)節(jié)點(diǎn)之間經(jīng)過特定節(jié)點(diǎn)的最短路徑數(shù)量占所有最短路徑數(shù)量的比例。節(jié)點(diǎn)介數(shù)反映了節(jié)點(diǎn)在網(wǎng)絡(luò)連通中起到的作用,節(jié)點(diǎn)介數(shù)可定量表示為
(3)
其中:njk表示節(jié)點(diǎn)j和k之間的最短路徑數(shù)量;njk(i)表示在節(jié)點(diǎn)j和k之間存在的最短路徑中經(jīng)過節(jié)點(diǎn) i的路徑數(shù)量。從公式(3)的定義可以看出,節(jié)點(diǎn)介數(shù)體現(xiàn)了節(jié)點(diǎn)在加權(quán)復(fù)雜網(wǎng)絡(luò)中的全局重要性信息,
語義網(wǎng)是一個(gè)語義網(wǎng)絡(luò)系統(tǒng),它系統(tǒng)的描述了現(xiàn)實(shí)中詞匯與詞匯之間的各種語義關(guān)系[16]。因?yàn)樵~匯之間一般都具有豐富的語義關(guān)系,傳統(tǒng)的直接計(jì)算文本特征詞之間的語義關(guān)系是很困難的。目前,常用兩種方法對(duì)特征詞進(jìn)行語義關(guān)系的計(jì)算,一種是基于大規(guī)模語料庫的方法[17],一種是基于世界知識(shí)的方法[18],考慮到前者需要大量的語料作為訓(xùn)練集,使用中經(jīng)常受到語料庫規(guī)模的影響。文中選擇了使用基于世界知識(shí)的《知網(wǎng)(HowNet)》語義詞典進(jìn)行語義復(fù)雜網(wǎng)絡(luò)的構(gòu)建,這種方法相對(duì)前者更加簡單、有效。借助《知網(wǎng)(HowNet)》語義知識(shí)詞典,將特征詞轉(zhuǎn)化為知識(shí)詞典中的概念,這樣每個(gè)特征詞都將對(duì)應(yīng)于《知網(wǎng)(HowNet)》知識(shí)庫中的特定的概念。這樣就可以使用概念之間的距離來間接度量特征詞之間的語義聯(lián)系,能夠區(qū)別出不同文本特征詞之間的語義相似性和差異性。借鑒文獻(xiàn)[14]在概念層面上對(duì)距離的計(jì)算,文中對(duì)概念間距離的計(jì)算也使用語義距離、語義重合度、層次關(guān)系三個(gè)因素,利用概念間語義距離作為對(duì)應(yīng)特征詞之間關(guān)系強(qiáng)弱的衡量標(biāo)準(zhǔn)。如圖1所示為基于《知網(wǎng)(HowNet)》語義詞典的概念距離計(jì)算案例。
圖1 語義詞典中概念的距離計(jì)算案例Fig.1 A case of concept distance computation in semantic dictionary
語義距離:表示為在《知網(wǎng)(HowNet)》語義詞典中兩個(gè)概念之間的最短路徑長度,文中用D(Si,Sj)表示兩個(gè)概念Si和Sj之間的語義距離,值越小表示兩個(gè)概念所對(duì)應(yīng)特征詞的間關(guān)系就越相近,以圖1中節(jié)點(diǎn)S8和S4為例,D(S8,S4)=3。
語義重合度:表示為兩個(gè)概念所擁有的共同父節(jié)點(diǎn)與祖先節(jié)點(diǎn)的數(shù)量,擁有的共同父節(jié)點(diǎn)數(shù)量越多,說明概念間關(guān)系越相近。使用C(Si,Sj)表示概念Si和Sj之間的語義重合度。以圖1中節(jié)點(diǎn)S7和S4、S7和S8為例,C(S4,S8)=2,C(S7,S8)=3。
層次深度:用Hi和Hj表示兩個(gè)概念Si和Sj的所在語義樹中的層次深度,隨著兩個(gè)概念間的層次深度差增加,所對(duì)應(yīng)詞匯之間的的相似性就越小。
文中綜合考慮詞匯的共現(xiàn)頻率權(quán)重、語義距離、語義重合度和層次深度這四個(gè)方面的因素作為語義復(fù)雜網(wǎng)絡(luò)中邊的權(quán)重。
共現(xiàn)頻率是指兩個(gè)特征詞在同一個(gè)窗口中共現(xiàn)的次數(shù),共現(xiàn)次數(shù)越多,說明在該文本中這兩個(gè)詞匯之間的聯(lián)系也就越緊密,共現(xiàn)系數(shù)的計(jì)算如公式(4)所示。
(4)
其中:fij表示在文本中窗口跨度為2時(shí)特征詞i和j在同一個(gè)窗口中共現(xiàn)的次數(shù);fij(k)表示特征詞i和j在第k篇文檔中共現(xiàn)的次數(shù)。綜上所述,文中對(duì)文獻(xiàn)[12]提出的特征詞相似度計(jì)算方法進(jìn)行了改進(jìn),融合特征詞共現(xiàn)系數(shù),提出了在語義文本網(wǎng)絡(luò)中特征詞間的語義相似度計(jì)算如公式(5)所示。
(5)
加權(quán)語義復(fù)雜網(wǎng)絡(luò)可以表示為G=(N,E,W,M)。其中N表示特征詞節(jié)點(diǎn)的集合,N={n1,n2,…,nk},ni表示文本復(fù)雜網(wǎng)絡(luò)中標(biāo)號(hào)為i的特征詞節(jié)點(diǎn),k表示節(jié)點(diǎn)集合N中元素的個(gè)數(shù),Si表示第i個(gè)特征詞在語義詞典中對(duì)應(yīng)的概念。E表示文本復(fù)雜網(wǎng)絡(luò)中邊的集合,E={eij=(ni,nj)|ni,nj∈N},根據(jù)語言復(fù)雜網(wǎng)絡(luò)的小世界特征,定義兩個(gè)原始特征詞若共現(xiàn)在一個(gè)長度大小為2的窗口中,則這兩個(gè)特征詞之間就存在一條邊[5]。W表示邊的權(quán)重集合,W={w11,w12,…,wij,…},wij表示特征詞節(jié)點(diǎn)i和j之間邊的權(quán)重,表示為特征詞間聯(lián)系的緊密程度。M為特征詞節(jié)點(diǎn)的權(quán)重,Mi表示第i個(gè)特征詞節(jié)點(diǎn)的權(quán)重。加權(quán)語義網(wǎng)的具體構(gòu)建步驟如下:
1)對(duì)文本進(jìn)行分詞和去停用詞后,統(tǒng)計(jì)特征詞的TF-IDF值,作為特征詞節(jié)點(diǎn)的初始權(quán)重。
2)按照標(biāo)點(diǎn)符號(hào)對(duì)文本進(jìn)行句子識(shí)別,在句子中定義窗口大小為2,構(gòu)建特征詞節(jié)點(diǎn)間的邊。
3)使用語義詞典對(duì)特征詞進(jìn)行概念映射,以特征詞的TF-IDF值作為特征詞節(jié)點(diǎn)的權(quán)重,以文中3.1節(jié)介紹的文本特征詞間語義相似度計(jì)算方法作為邊權(quán)值。
在文本復(fù)雜網(wǎng)絡(luò)中,特征節(jié)點(diǎn)的重要性評(píng)估往往需要綜合考慮各種指標(biāo),鑒于此,文中改進(jìn)了文獻(xiàn)[9]提出的特征節(jié)點(diǎn)重要性評(píng)估函數(shù),在復(fù)雜網(wǎng)絡(luò)特征基礎(chǔ)上,又考慮了特征詞的統(tǒng)計(jì)量,對(duì)特征節(jié)點(diǎn)的權(quán)重評(píng)估函數(shù)進(jìn)行了改進(jìn),改進(jìn)后的文本特征詞權(quán)重計(jì)算如公式(6)所示。
CFi=(β1WDi+β2WCi+β3PCi)·TIFi
(6)
其中:CFi為文本中第i個(gè)特征詞的綜合特征權(quán)重指數(shù),對(duì)WDi、WCi、PCi進(jìn)行歸一化處理;TIFi表示特征詞的TF×IDF值;βi(1≤i≤3)為可調(diào)節(jié)參數(shù),代表各個(gè)部分的權(quán)重,且β1+β2+β3=1。
傳統(tǒng)文本相似度計(jì)算方法通常經(jīng)過分詞、去停用詞后,將特征詞以向量形式進(jìn)行表征,然后以余弦相似度或者歐式距離公式進(jìn)行衡量相似度。但是這種衡量的方法會(huì)帶來一定的語義損失,造成計(jì)算的結(jié)果存在偏差。文中引入搬土距離(earth mover’s distance,EMD)[19]來對(duì)文本的相似度進(jìn)行衡量,以減少計(jì)算中存在的語義信息缺失。
該方法是為了解決貨物運(yùn)輸問題而提出的,該方法假設(shè)某種物資有m個(gè)產(chǎn)地分別為{A1,A2,…,Am},產(chǎn)量分別為{a1,a2,…,am},n個(gè)目的地分別為{B1,B2,…,Bm},需求量為{b1,b2,…,bn}。假設(shè)從產(chǎn)地i生產(chǎn)的物資運(yùn)輸?shù)侥康牡豭的運(yùn)輸成本為cij,運(yùn)輸量為xij。目標(biāo)是最小化Cost(A,B),使最終的運(yùn)輸成本最小化。
(7)
借鑒該模型思想,可以把測(cè)試集中的文本特征詞當(dāng)做物資產(chǎn)地,詞的權(quán)重作為運(yùn)輸量,訓(xùn)練集中文本特征詞作為目的地,詞的權(quán)重作為需求量,特征詞間的相似度作為運(yùn)輸成本,那么將測(cè)試集中一個(gè)文本全部特征詞映射到訓(xùn)練集中任意一個(gè)文本,所經(jīng)距離總和的最小值作為文本之間的語義相似度。
(8)
相應(yīng)的約束條件為
(9)
(10)
其中:Tij≥0表示文本D中的特征詞wi流向文本D′中特征詞wj的數(shù)值。其中c(wi,wj)為兩個(gè)特征詞wi和wj的語義相似度,dwi=CFi,dwj=CFj為特征詞wi和wj在各自文本中的權(quán)重評(píng)估函數(shù)值。
使用文中所提出的文本復(fù)雜網(wǎng)絡(luò)構(gòu)建和特征詞權(quán)重計(jì)算方法,對(duì)文本的特征詞進(jìn)行特征權(quán)重計(jì)算,提高文本相似度計(jì)算結(jié)果的精度,算法描述如下:
輸入:帶有類標(biāo)簽的訓(xùn)練文本集 D1 和測(cè)試文本集 D2。
輸出:帶有類標(biāo)簽的測(cè)試文本集 D2。
1)對(duì)訓(xùn)練集D1和測(cè)試集D2分別進(jìn)行分詞和去停用詞操作,得到初始訓(xùn)練集和測(cè)試集特征詞集合。
2)按照3.2節(jié)介紹的方法分別對(duì)訓(xùn)練集D1中和D2進(jìn)行加權(quán)語義網(wǎng)絡(luò)構(gòu)建。
3)對(duì)訓(xùn)練集D1中每篇文檔的特征詞,基于構(gòu)建的加權(quán)語義網(wǎng)絡(luò)計(jì)算綜合特征指數(shù)CFi,并選取CFi排名靠前的m個(gè)特征詞作為該文檔的特征集,形成訓(xùn)練集數(shù)據(jù)詞典。
4)對(duì)測(cè)試集中的每篇文檔,按照步驟3的方法計(jì)算待分類的測(cè)試集數(shù)據(jù)字典。
5)根據(jù)步驟(4)得到的待分類測(cè)試集數(shù)據(jù)字典的每個(gè)文檔特征集,使用公式(8)計(jì)算其與訓(xùn)練數(shù)據(jù)字典中的每一個(gè)文檔的相似度,選取訓(xùn)練集中相似度最大的標(biāo)簽作為該文本的標(biāo)簽。
6)對(duì)測(cè)試集 D2中的每個(gè)文檔特征向量,循環(huán)重復(fù)步驟(5),直到測(cè)試集中的每篇文檔都確定一個(gè)類別標(biāo)簽為止。
文中實(shí)驗(yàn)環(huán)境使用的是64位win7操作系統(tǒng),CPU是Intel(R)Core(TM)i5-7200U@2.50GHz 2.60GHz,內(nèi)存為8G,開發(fā)工具為jupyter notebook下的Python3.7,分詞軟件使用北大最新開源分詞工具pkuseg-python,實(shí)驗(yàn)數(shù)據(jù)選取復(fù)旦大學(xué)李榮陸課題組提供的中文新聞?wù)Z料作為測(cè)試數(shù)據(jù)集,從中選取農(nóng)業(yè)、政治、經(jīng)濟(jì)、體育和環(huán)境五個(gè)類別,每個(gè)類別中各隨機(jī)選取800篇。選取哈爾濱工業(yè)大學(xué)的中文停用詞表,包含767個(gè)停用詞,并使用《知網(wǎng)(HowNet)》計(jì)算中文特征詞之間的相似度。
文中設(shè)置了兩組實(shí)驗(yàn),第一組為三種算法在同一個(gè)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),驗(yàn)證不同文本表示對(duì)相似度計(jì)算結(jié)果的影響;第二組實(shí)驗(yàn)使用三種不同的距離度量方法,分析不同距離度量對(duì)聚類結(jié)果的影響。
F1值是對(duì)分類結(jié)果的綜合評(píng)價(jià)指標(biāo),F(xiàn)1值綜合考慮了查全率(precision,P)和查準(zhǔn)率(recall,R),是兩者的加權(quán)平均,其值越大表明分類的效果就越好,定義如公式(11)、(12)所示。
(11)
(12)
其中:a表示被正確分類的文檔數(shù)量;b表示被判定為屬于某個(gè)類別實(shí)際卻不屬于該類別的文檔數(shù)量;c表示被判定不屬于某個(gè)類別實(shí)際卻屬于該類別的文檔數(shù)量。
3.3.1 不同文本表示的相似度計(jì)算結(jié)果
為了驗(yàn)證本算法的可行性,第一組實(shí)驗(yàn)使用三種算法進(jìn)行對(duì)比實(shí)驗(yàn),分別是文中所提出的基于加權(quán)語義的方法、文獻(xiàn)[12]提出的基于復(fù)雜網(wǎng)絡(luò)特性的方法和文獻(xiàn)[1]提出的基于向量空間模型的方法,三種方法分別標(biāo)記為:N-EMD-1、N-NET-2、N-VSM-3。實(shí)驗(yàn)中公式βi采用文獻(xiàn)[8]的取值,即β1為0.4、β2為0.3、β3為0.3,特征維數(shù)取值為1 200,實(shí)驗(yàn)時(shí)采用 5 折交叉驗(yàn)證法,取這五次的F1平均值作為最終的分類結(jié)果。三種實(shí)驗(yàn)的文本聚類結(jié)果在各類別中的F1值和平均值如表1所示。
表1 三種算法的實(shí)驗(yàn)F1值結(jié)果對(duì)比
Table 1 The experimental result comparison of F1 values in three algorithms
類別實(shí)驗(yàn)F1值/%N-EMD-1N-NET-2N-VSM-3農(nóng)業(yè) 88.8387.6585.66政治 84.7783.4281.78經(jīng)濟(jì) 86.5484.1082.12體育 86.8985.7082.23環(huán)境 87.6383.7283.64平均值86.9284.9283.09
將實(shí)驗(yàn)結(jié)果的F1平均值繪制成柱狀圖,如圖2所示。
圖2 三種算法的結(jié)果對(duì)比Fig.2 The experimental result comparison of F1 values in three algorithms
從表1和圖2可以看出,三種實(shí)驗(yàn)的結(jié)果呈現(xiàn)遞減趨勢(shì),原因是實(shí)驗(yàn)N-VSM-3是基于傳統(tǒng)統(tǒng)計(jì)的方法,該方法只考慮了詞語出現(xiàn)頻率信息,未考慮到詞語之間的語義信息和結(jié)構(gòu)信息;實(shí)驗(yàn)N-NET-2雖然是基于加權(quán)語義復(fù)雜網(wǎng)絡(luò)的方法,但是該算法未充分考慮詞語之間的語義信息,以及特征詞的共現(xiàn)因素,并且需要調(diào)節(jié)的參數(shù)較多,增加了算法的時(shí)間復(fù)雜度。文中提出的N-EMD-1算法,綜合考慮了詞頻、詞共現(xiàn)頻率特征,并且使用了EMD距離計(jì)算方法,保證了文本之間詞語的是映射到語義最相近的詞語,避免了實(shí)驗(yàn)N-NET-2綜合權(quán)值相加取均值造成的結(jié)果偏差,最大程度保證了語義的集中,實(shí)驗(yàn)結(jié)果表明文中所提方法相較傳統(tǒng)方法得到了一定的改進(jìn)。
3.3.2 不同距離度量對(duì)文本相似度計(jì)算的影響
文章設(shè)置了第二組實(shí)驗(yàn),以驗(yàn)證不同相似度度量公式對(duì)文本聚類最終結(jié)果的影響,分別是EMD距離公式、余弦相似度和歐式距離三種距離度量方法進(jìn)行實(shí)驗(yàn)對(duì)比,觀察它們對(duì)文本聚類結(jié)果的影響,三種距離度量分別記為N-EMD、N-Cos和N-ED。特征詞向量采用全部特征詞,向量元素值為對(duì)應(yīng)特征詞在文本中的綜合特征指數(shù),數(shù)據(jù)使用第一組實(shí)驗(yàn)選擇的五個(gè)類別的文本,評(píng)價(jià)指標(biāo)為公式(11)和公式(12)中的查全率、查準(zhǔn)率和F1值三個(gè)指標(biāo),實(shí)驗(yàn)結(jié)果見表2。
表2 不同距離度量的F1值結(jié)果對(duì)比
Table 2 The result comparison of F1 values of different distance metric
方法P/%R/%F1/%N-EMD84.3889.0286.64N-ED78.6576.2677.44N-Cos72.8164.6968.51
從表2的測(cè)評(píng)結(jié)果可以看出,文中使用的EMD距離方法比其他兩種相似度度量方法要好,這是因?yàn)镋MD距離方法在計(jì)算相似度時(shí)充分考慮了詞語之間的相似性,而不是特征詞語之間相似度的簡單疊加,在一定程度上保留了文本的結(jié)構(gòu)信息,縮小了文本間的語義差異性,提高了聚類結(jié)果。
文章提出了一種改進(jìn)的加權(quán)語義復(fù)雜網(wǎng)絡(luò)文本相似度計(jì)算方法,首先利用文本的統(tǒng)計(jì)信息,融合特征詞的共現(xiàn)頻率和語義距離特性,構(gòu)建加權(quán)語義復(fù)雜網(wǎng)絡(luò);其次基于該語義網(wǎng)絡(luò),結(jié)合復(fù)雜網(wǎng)絡(luò)的相關(guān)特性計(jì)算文本的特征詞綜合指數(shù);再次根據(jù)綜合特征指數(shù)值的大小,對(duì)特征項(xiàng)向量進(jìn)行選降維處理,使用EMD距離公式對(duì)文本進(jìn)行相似度計(jì)算;最后通過對(duì)不同算法和不同距離度量公式的實(shí)驗(yàn)結(jié)果對(duì)比分析,驗(yàn)證了文中所提出的方法能夠充分利用文本網(wǎng)絡(luò)中特征詞節(jié)點(diǎn)間的語義信息、結(jié)構(gòu)信息和統(tǒng)計(jì)信息,提高相似度計(jì)算結(jié)果的準(zhǔn)確性。但是鑒于文本相似度計(jì)算的復(fù)雜性,本研究還有一定的局限性,例如特征詞詞性、詞語以及詞語與句子的關(guān)系等因素,還都有待于進(jìn)一步的研究。