国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多模型加權(quán)融合的文本相似度計(jì)算

2021-11-20 03:23:30田紅鵬
關(guān)鍵詞:特征詞語(yǔ)義權(quán)重

田紅鵬,馬 博,馮 健

(西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710600)

0 引 言

在文本相似度計(jì)算領(lǐng)域中,其主要是扮演著自然語(yǔ)言處理的一種基礎(chǔ)性工具的角色。目前,這種計(jì)算方式在很多領(lǐng)域中都能夠看到其身影,比如在處理對(duì)話以及數(shù)據(jù)采集問(wèn)題上均會(huì)使用[1]。Islam等[2]提出了一種基于語(yǔ)料庫(kù)的語(yǔ)義相似度測(cè)量和最長(zhǎng)序列匹配算法來(lái)測(cè)量文本的語(yǔ)義相似度,可以在文本表示等領(lǐng)域?qū)W⒂谟?jì)算兩個(gè)句子或兩個(gè)短段落之間的相似度。李曉等基于Word2Vec模型的基礎(chǔ)上,把句子進(jìn)行了簡(jiǎn)化處理,并形成向量空間中的向量運(yùn)算,然后根據(jù)矩陣之間的關(guān)聯(lián)度對(duì)句子語(yǔ)義中的相似度進(jìn)行了檢驗(yàn)和論證[3]。其所使用的設(shè)置方式,對(duì)于強(qiáng)化相似度結(jié)構(gòu)的精準(zhǔn)性起到了顯著作用。Magooda等[4]提出了一個(gè)基于TF-IDF和語(yǔ)言模型相結(jié)合的方式將計(jì)算出的相似度根據(jù)新的加權(quán)總和對(duì)檢索到的文檔進(jìn)行重新排序。有效克服了模糊理解文章的語(yǔ)義和上下文的問(wèn)題。Kusne等[5]提出文本距離算法,將文本距離分解為詞間的稀疏矩陣,基于文本向量空間距離進(jìn)行求解。Tashu等[6]為了解決語(yǔ)義和上下文的問(wèn)題,提出了使用詞移距離算法的成對(duì)語(yǔ)義相似性評(píng)估。該方法依靠神經(jīng)詞嵌入來(lái)衡量詞之間的相似度。Pontes等[7]證明了局部上下文對(duì)于獲取句子中單詞的信息和改進(jìn)句子分析效果顯著。其系統(tǒng)地分析、識(shí)別并保存了句子各部分和整個(gè)句子中的相關(guān)信息,通過(guò)局部上下文降低均方誤差并增加相關(guān)性分析來(lái)改進(jìn)句子相似性的預(yù)測(cè),同時(shí)也提出了語(yǔ)料庫(kù)的重要性。Yang等[8]基于淺層句法結(jié)構(gòu)化特征的基礎(chǔ)之上進(jìn)行求解,雖然依賴樹(shù)能有效解釋關(guān)聯(lián)關(guān)系,但無(wú)法適用于句子深層語(yǔ)義的解釋。Ozbal等[9]使用樹(shù)核函數(shù)根據(jù)輸入數(shù)據(jù)的結(jié)構(gòu)化表示生成不同維度的特征信息,對(duì)多種富含語(yǔ)義特征的句法信息進(jìn)行求解,實(shí)驗(yàn)發(fā)現(xiàn)淺層語(yǔ)義特征與語(yǔ)義特征可以很好結(jié)合。

現(xiàn)存大多數(shù)研究?jī)H考慮單一的文本特征或僅針對(duì)語(yǔ)義特征進(jìn)行模型融合,本文不僅考慮文本語(yǔ)義、詞序、主題關(guān)聯(lián)性等相關(guān)語(yǔ)義問(wèn)題,同時(shí)還結(jié)合了文本結(jié)構(gòu)信息等表現(xiàn)形式展開(kāi)分析。在此前提下,結(jié)合基于分層池化句向量的方法計(jì)算文本相似度,進(jìn)而實(shí)現(xiàn)了不同形式在求解方面的融合,綜合考慮句子語(yǔ)義和文本結(jié)構(gòu)信息并使計(jì)算結(jié)果更優(yōu)且合理。

1 相關(guān)工作

1.1 TF-IDF權(quán)重(TIi)

此權(quán)重通過(guò)兩部分實(shí)現(xiàn),其一是TF詞頻,特征詞在特定一段范圍之內(nèi)出現(xiàn)的次數(shù)出現(xiàn)次數(shù)越多,詞頻量化值越大,出現(xiàn)次數(shù)越少值越小。通過(guò)這一數(shù)值的計(jì)算,能夠進(jìn)一步得出與總長(zhǎng)度的整體比值。特征詞總量共計(jì)為N,其中某詞條的浮現(xiàn)次數(shù)為n,詞頻TFik即

(1)

其二逆文檔頻率即包含特征詞條的文檔數(shù),如式(2)所示。M為全量文本,包含詞條的文本置為m,包含特征詞的文檔越少IDF最終越大

(2)

其中,α為經(jīng)驗(yàn)系數(shù),通常情況下,該數(shù)值等于0.01。TF-IDF權(quán)重表示為

TIik=TFik*IDFik

(3)

1.2 詞句位置權(quán)重(Pi)

美國(guó)P.E.Baxendale的調(diào)查結(jié)果顯示:在文本中的重點(diǎn)思想實(shí)際上大部分是出現(xiàn)在第一句當(dāng)中,而這種現(xiàn)象占了整體的85%,另外7%是出現(xiàn)在段落末尾。因此在對(duì)其比例進(jìn)行計(jì)算的時(shí)候,還需要對(duì)其位置因素多加考量,要根據(jù)其不同位置來(lái)對(duì)關(guān)鍵詞分析權(quán)重。當(dāng)關(guān)鍵詞或者核心內(nèi)容都聚集在第一句或者最后一句的時(shí)候,其關(guān)鍵詞會(huì)比其它位置的權(quán)重占比高很多。接下來(lái)對(duì)其加權(quán)函數(shù)進(jìn)一步展示

(4)

其中,e1和e2為支持個(gè)性化設(shè)置,其中將e1值調(diào)整為0.2,e2值調(diào)整成0.1。x代表的時(shí)不同位置下的具體比例,且按照0-1的順序自然排序。其中一個(gè)i的詞句位置權(quán)重為Pi。

1.3 詞性權(quán)重(Si)

此處對(duì)我們當(dāng)前使用的漢語(yǔ)言詞義與特征展開(kāi)研究[10],需要根據(jù)關(guān)鍵詞的含義、句法關(guān)系等來(lái)對(duì)其權(quán)重展開(kāi)針對(duì)性計(jì)算[11]。對(duì)所有詞語(yǔ)的詞性特征進(jìn)行歸納[12],并總結(jié)為7種,每一種詞性分別所占的比例體現(xiàn)在表1中。

表1 中文文本詞性分布占比

通過(guò)梳理表1數(shù)據(jù)我們不難發(fā)現(xiàn),在這些不同性質(zhì)的代表詞性當(dāng)中,在解釋詞匯內(nèi)容方面,最具解釋能力的詞性就是動(dòng)詞、名詞、形容詞和副詞。剩余3種詞性的詞語(yǔ)幾乎不具備完整的詞匯信息,因此會(huì)被看作數(shù)據(jù)噪音被處理掉。通過(guò)前4類詞語(yǔ)的運(yùn)用,一方面,能讓其解釋能力更佳,另一方面,還能進(jìn)一步簡(jiǎn)化不必要的計(jì)算流程,進(jìn)而使計(jì)算結(jié)果更為精準(zhǔn)與快速。同理,得出了表2中不同詞性下所對(duì)應(yīng)的占比。

表2 詞性權(quán)重系數(shù)

在表2所示的數(shù)據(jù)當(dāng)中,Si代表的是不同詞性i下的不同占比,可以發(fā)現(xiàn),除了一類與二類詞性之外,其它詞性權(quán)重都置為零。

2 多模型加權(quán)融合算法設(shè)計(jì)

在此研究的過(guò)程中,首先充分考慮了詞語(yǔ)出現(xiàn)頻率的問(wèn)題,構(gòu)建多特征權(quán)重的量化信息,兼容TF-IDF、語(yǔ)句、詞性。在多特征融合的前提下,對(duì)不同特征詞進(jìn)行了再次計(jì)算,基于其自然降序排序原則下,對(duì)特征詞進(jìn)行排序,其中選取前n個(gè)作為文本關(guān)鍵特征詞。最終,在Word2Vec詞向量模型中,通過(guò)計(jì)算特征詞數(shù)值,得出了最終的向量形式,進(jìn)而計(jì)算出比較精確的相似度數(shù)值。

通過(guò)結(jié)合實(shí)現(xiàn)的池化操作使用SIF模型,將不同詞序和結(jié)構(gòu)信息的表達(dá)類型分層分組,去除向量之間的空間距離后,可以計(jì)算出單位向量模型與分層求和的相似度結(jié)果。

為了更好強(qiáng)化算法的特征,并保證最終數(shù)值的準(zhǔn)確性,將上述兩種單模型線性加權(quán)計(jì)算,得到融合的計(jì)算算法(algorithm for calculating the similarity of multi-model fusion,MuMoSim)。計(jì)算如下

MuMoSim=x×MuSim+y×IIGSim

(5)

其中,MuSim為前者多特征融合度量計(jì)算結(jié)果,IIGSim為后者分層池化度量計(jì)算結(jié)果。該計(jì)算方法的流程如圖1所示。

圖1 多模型融合文本相似度計(jì)算算法

2.1 基于多特征融合的詞移距離算法

大多數(shù)基于關(guān)鍵詞的相似度計(jì)算方法單一統(tǒng)計(jì)句子的關(guān)鍵詞,為綜合考慮關(guān)鍵特征對(duì)文本相似度結(jié)果的影響,本文采取將詞頻TF-IDF權(quán)重(TIi)、詞性(Si)、詞句位置(Pi)3個(gè)特征相結(jié)合,共同計(jì)算句子相似度。詞語(yǔ)i在文本D中的多特征融合權(quán)重計(jì)算公式如式(6)所示

MFWi=α×TIi+β×Si+γ×Pi

(6)

式中:α、β、γ分別代表的是詞頻、詞性和詞句位置3個(gè)不同要素的相似度權(quán)重系數(shù),0≤α≤1,0≤β≤1,0≤γ≤1,同時(shí)要滿足α+β+γ=1。

本文采用層次分析法計(jì)算各特征項(xiàng)α、β、γ的權(quán)重,針對(duì)不同數(shù)據(jù)集設(shè)計(jì)不同權(quán)重系數(shù)取值。層次分析法針對(duì)本文特征元素進(jìn)行定性和定量分析。具體步驟如下:

(1)建立層次結(jié)構(gòu)模型

特征融合后的結(jié)果作為目標(biāo)層,詞頻、詞性、詞句位置相似度作為準(zhǔn)則層。

(2)構(gòu)造判斷(成對(duì)比較)矩陣

根據(jù)重要程度對(duì)比,得出準(zhǔn)則層各個(gè)準(zhǔn)則的比重。標(biāo)度量化值1-9代表重要程度由低到高,兩兩比較減少干擾因素,最終生成判斷矩陣。

判斷矩陣元素標(biāo)度方法

(7)

(3)層次排序及其一致性檢驗(yàn)

計(jì)算一致性指標(biāo)CI

(8)

式中:λmax為從判斷矩陣得出最大特征值,n為特征向量的維度。

平均隨機(jī)一致性指標(biāo)RI標(biāo)準(zhǔn)值見(jiàn)表3,本文為三階矩陣,RI對(duì)應(yīng)表格中為0.52。計(jì)算一致性比例CR

表3 隨機(jī)一致性指標(biāo)

(9)

通常情況下,若CR<0.1,假設(shè)判斷矩陣已通過(guò)最一致性測(cè)試,否則不符合一致性。對(duì)函數(shù)向量進(jìn)行歸一化后,將生成權(quán)重向量為α、β、γ的取值。

根據(jù)組建的多特征融合權(quán)重,可以得出富含信息的特征,其中包含大量的文本信息。在多特征融合的詞移距離算法中,使用內(nèi)置多特征權(quán)重之間轉(zhuǎn)移詞的代價(jià)計(jì)算來(lái)代替算法中對(duì)兩個(gè)文本中兩個(gè)詞轉(zhuǎn)移代價(jià)的計(jì)算。假定ki和kj分別為兩篇數(shù)據(jù)文本囊括的關(guān)鍵詞。計(jì)算轉(zhuǎn)移代價(jià)

(10)

構(gòu)建轉(zhuǎn)移矩陣Tki,kj以保證文本D中所有關(guān)鍵詞ki完全轉(zhuǎn)移到文本D′中,結(jié)合原始算法的矩陣定義,需要添加以下約束

∑kjTki,kj=MFWki|D

(11)

∑kiTki,kj=MFWkj|D′

(12)

式(11)定義的約束指定從關(guān)鍵項(xiàng)ki轉(zhuǎn)移的總成本必須等于關(guān)鍵特征的權(quán)重系數(shù),式(12)定義的約束規(guī)定轉(zhuǎn)移到關(guān)鍵項(xiàng)kj的總成本必須等于此特征項(xiàng)的組合權(quán)重因子。因此計(jì)算文本轉(zhuǎn)移的總代價(jià)公式如下

(13)

本小節(jié)提出的距離優(yōu)化目標(biāo),就是使上述總代價(jià)Ic最小。因此文檔D與文本D′之間的歐氏距離如式(14)所示

(14)

為了確保最終相似度計(jì)算結(jié)果加權(quán)過(guò)程不受其它因素干擾,此處本文將計(jì)算出來(lái)的相似度進(jìn)行處理,使結(jié)果位于0~1范圍內(nèi)。經(jīng)過(guò)運(yùn)算,我們可以得到文檔之間的相似度如式(15)所示

(15)

2.2 分層池化IIG-SIF句向量的相似度計(jì)算

(1)改進(jìn)信息增益計(jì)算方法

對(duì)于平滑逆頻句向量模型只考慮通用數(shù)據(jù)集上的詞頻信息來(lái)計(jì)算詞權(quán)重,為了使特征詞能夠在更大程度上影響計(jì)算任務(wù),必須要綜合性的考慮增強(qiáng)各種因素,其中包括考慮特征詞對(duì)不同文本的影響。所以此處添加了類內(nèi)詞頻因子β和類內(nèi)、類間判別因子δ。將兩個(gè)影響因子看作新的元素進(jìn)行數(shù)據(jù)篩選,計(jì)算公式如下所示

IIG(T)=IG(T)×β×δ

(16)

此處假設(shè)語(yǔ)料中各類型文本集合為Ci,i∈[2,n]。β表示語(yǔ)料集合中某特征詞在集合中出現(xiàn)次數(shù)與語(yǔ)料當(dāng)中詞總量的比值,這樣能夠更大程度客觀表述特征詞和類別之間的相關(guān)性。類別Ci中單詞w的類內(nèi)詞頻公式如下

(17)

其中,m表示集合中詞總量,Nij表示某特征詞匯在集合中出現(xiàn)次數(shù)。類內(nèi)詞頻因子越大,說(shuō)明特征詞匯與本類的相關(guān)程度越高,此詞語(yǔ)對(duì)于這個(gè)集合的語(yǔ)料更具有代表性。

δ刻畫的是對(duì)于不同的語(yǔ)料集合進(jìn)行篩選。如果一個(gè)詞只在一個(gè)類別中頻繁出現(xiàn),而在其它類別中不太可能出現(xiàn),則說(shuō)明該詞在類別之間具有較高的區(qū)分度和較高的屬性對(duì)比度。此處區(qū)分度計(jì)算如下

(18)

(19)

簡(jiǎn)言之,類別之間的分離程度越大,類別內(nèi)部的劃分程度越小,文本的區(qū)分程度就越大,特征詞w對(duì)類別Ci的貢獻(xiàn)就越大,并且能夠更好地表示類別中包含的信息。特征詞區(qū)分度定義如下

(20)

(2)基于特征貢獻(xiàn)度因子的選詞方法

原SIF模型具有領(lǐng)域自適應(yīng)的優(yōu)勢(shì),在不同語(yǔ)料庫(kù)中使用仍然能保證優(yōu)秀的性能,但當(dāng)具體到各語(yǔ)料庫(kù)中的集合時(shí),不同詞對(duì)任務(wù)的貢獻(xiàn)不同及其權(quán)重的問(wèn)題不考慮修正。此處在第一小節(jié)的基礎(chǔ)上,增加針對(duì)文本任務(wù)的特征貢獻(xiàn)度因子,其表示如式(21)所示

TCF(w)=IIG(T)Weight(w)

(21)

其中,Weight(w) 表示原模型中對(duì)特征詞的設(shè)定。

生成句向量需要根據(jù)數(shù)據(jù)集中不同類別特征詞的分布,采用改進(jìn)的信息增益特征選擇方法提取出任務(wù)貢獻(xiàn)因子。需要將任務(wù)貢獻(xiàn)度低的數(shù)據(jù)項(xiàng)剔除,需要將任務(wù)貢獻(xiàn)度低的數(shù)據(jù)項(xiàng)剔除后再展開(kāi)計(jì)算,這是實(shí)現(xiàn)運(yùn)算結(jié)果準(zhǔn)確性的基礎(chǔ)。模型算法過(guò)程如下算法1。首先對(duì)各個(gè)特征詞的出現(xiàn)頻率進(jìn)行了求解,其次對(duì)增益算法進(jìn)一步升級(jí)增強(qiáng)后,對(duì)任務(wù)貢獻(xiàn)因子求解,隨后根據(jù)任務(wù)貢獻(xiàn)度因子值大小進(jìn)行降序排序,修正特征詞表,最終將詞向量加權(quán)平均得到句向量。

算法1: 分層池化的IIG-SIF句向量模型

輸入: 詞向量集合vw; 句子集合S; 語(yǔ)料庫(kù)p(w); 分類訓(xùn)練集Ci

輸出: 句向量集合vs

(1)forallsentencesinSdo

(3)endfor

(4) Create matrix X whose columns arevs

(5) Create first singular vectoruby X

(6) Create word order vectordby X

(7)forallsentencesinSdo

(8)vs←vs-uuTvs

(9)vs.append(d)

(10)endfor

分層池化的IIG-SIF計(jì)算相似度過(guò)程如下:

(1)數(shù)據(jù)預(yù)處理。將標(biāo)準(zhǔn)化、去停篩選后的文本數(shù)據(jù)集合定義為S′1、S′2。

(2)句向量生成。采用改進(jìn)的特征貢獻(xiàn)度因子生成模型句向量Sv1和Sv2。

(3)相似度計(jì)算。利用向量Sv1和Sv2之間的余弦距離計(jì)算文本之間的相似度,即

(22)

3 實(shí)驗(yàn)設(shè)計(jì)與分析

3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

具體實(shí)驗(yàn)環(huán)境見(jiàn)表4。

表4 實(shí)驗(yàn)環(huán)境

為了凸顯本文方法的有效性,實(shí)驗(yàn)在數(shù)據(jù)集選取時(shí)引入中文和英文的句子對(duì)、短文本集合等4種數(shù)據(jù)集,以驗(yàn)證在不同語(yǔ)言、不同粒度下的實(shí)際表現(xiàn)情況。具體的數(shù)據(jù)體現(xiàn)見(jiàn)表5。

表5 Quora數(shù)據(jù)集示例

數(shù)據(jù)集Ⅰ如表5所示,其源自Quora數(shù)據(jù)集。其中囊括了39萬(wàn)余英文句子,由Question1、Question2及Is_duplicate 這3部分組成,在此數(shù)據(jù)集中語(yǔ)義標(biāo)注為人工標(biāo)注,若語(yǔ)境結(jié)果表述的含義相同或相似則Is_duplicate置為1,反之為0。

數(shù)據(jù)集Ⅱ選擇了20余類英文的熱點(diǎn)話題,其中包括財(cái)經(jīng)、歷史、體育、科技等。將話題文本總量較少的文本類型剔除后,剩余6組共計(jì)3000條數(shù)據(jù)以供使用,其中3組文本類別相似,其余3組不相似以供對(duì)比。

數(shù)據(jù)集Ⅲ選擇STS中文文本語(yǔ)義相似度語(yǔ)料庫(kù),見(jiàn)表6。數(shù)據(jù)集的評(píng)分區(qū)間為[0,5],即0為語(yǔ)義相反或毫不相關(guān),5為相似度極高。該數(shù)據(jù)集分為兩組數(shù)據(jù),其中包含27 490個(gè)句子對(duì),其各個(gè)相似度評(píng)分的數(shù)據(jù)量分布不均,大部分為相似度極高數(shù)據(jù)集,因此,需要篩選數(shù)據(jù),最終本文剩余8000個(gè)句子對(duì)展開(kāi)實(shí)驗(yàn)分析,盡量保證各個(gè)相似度評(píng)分下的數(shù)據(jù)量大小一致。

表6 ChineseSTS數(shù)據(jù)集示例

數(shù)據(jù)集Ⅳ選取自復(fù)旦大學(xué)的中文文本分類數(shù)據(jù)集。下載的原始數(shù)據(jù)編碼格式是gb18030,因此需要將數(shù)據(jù)格式轉(zhuǎn)為utf-8編碼格式后使用。train.zip訓(xùn)練集共9804篇文檔,test.zip測(cè)試集共9832篇文檔,都分為20個(gè)類別。其中無(wú)用數(shù)據(jù)需篩選,部分類別的文檔數(shù)量較少,無(wú)法使用。本文選擇計(jì)算機(jī)、環(huán)境等7類數(shù)據(jù)量充足的數(shù)據(jù)以供使用。

3.2 實(shí)驗(yàn)設(shè)計(jì)

在實(shí)驗(yàn)過(guò)程中首先做預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行刪除和過(guò)濾等處理。與此同時(shí),本文使用了相同的區(qū)間值,即[0,1],在對(duì)相關(guān)數(shù)據(jù)進(jìn)行觀察和研究之后,對(duì)評(píng)分較低的語(yǔ)句進(jìn)行了二次標(biāo)注,即統(tǒng)一標(biāo)上1,而評(píng)分結(jié)果為2或0時(shí)置為0。

接下來(lái),本文使用jieba工具包對(duì)采集到的數(shù)據(jù)進(jìn)行分詞,并對(duì)特征詞的TF-IDF系數(shù)予以求解,然后對(duì)所有詞匯按照其不同特征值進(jìn)行細(xì)分,最終歸結(jié)為4類,并分別進(jìn)行標(biāo)注。而在此之前,要先對(duì)短文本數(shù)據(jù)進(jìn)行篩選,并對(duì)其中不同詞語(yǔ)的位置予以定位,進(jìn)而得出不同詞性的權(quán)重。另外,對(duì)于句子對(duì)比而言,應(yīng)將初始權(quán)重均勻設(shè)置為1。這種做法,一方面能夠降低文本長(zhǎng)度對(duì)結(jié)算結(jié)果造成的影響,另一方面也能夠最大限度提升計(jì)算過(guò)程的便利性。至此將數(shù)據(jù)代入式(6)計(jì)算出融合后的權(quán)重系數(shù)大小。

第三步結(jié)合現(xiàn)有資料,利用已有流行庫(kù)來(lái)對(duì)Word2Vec詞向量進(jìn)行數(shù)據(jù)集訓(xùn)練。其中選用模型Skip-gram模型(sg=1)。設(shè)定其基本參數(shù),結(jié)合實(shí)際情況將窗口大小設(shè)為5,向量維度300,初始默認(rèn)學(xué)習(xí)率設(shè)置為0.001。并且使用一些初始化后隨機(jī)的向量來(lái)表示不在語(yǔ)料庫(kù)中的詞語(yǔ)。

最后進(jìn)行分層池化相關(guān)操作。先對(duì)各個(gè)特征詞的出現(xiàn)頻率進(jìn)行了求解,再將增益算法增強(qiáng)后對(duì)任務(wù)貢獻(xiàn)因子求解。模型依然按照原始模型當(dāng)中參數(shù)進(jìn)行設(shè)置。模型系數(shù)a設(shè)置為0.0001。

3.3 實(shí)驗(yàn)結(jié)果與分析

(1)實(shí)驗(yàn)1:選取特征詞最佳占比

在實(shí)驗(yàn)過(guò)程中,選擇使用多特征融合模式下適用的詞移距離算法時(shí),在選取詞語(yǔ)這一過(guò)程中,不同選取比例會(huì)影響文本相似度計(jì)算的結(jié)果。選取的比例過(guò)小,就會(huì)導(dǎo)致模型可能會(huì)忽視一些文本信息,影響算法的計(jì)算結(jié)果;但如果選取的比例過(guò)大,而這些信息中包含了一些與模型不兼容的信息,模型涉及的冗余信息過(guò)多,這導(dǎo)致算法效果不佳、精準(zhǔn)度無(wú)法得到保證。

聚類被廣泛應(yīng)用在信息挖掘模型中,因?yàn)檫@種模式不僅不需要事先訓(xùn)練,同時(shí)還能夠免去標(biāo)注、分類等復(fù)雜環(huán)節(jié)。所以在從此實(shí)驗(yàn)過(guò)程中,本文重點(diǎn)采用了當(dāng)下聚類效果出眾的K-means、DBSCAN算法中來(lái)確定特征詞占比。鑒于數(shù)據(jù)集Ⅱ在聚類算法中也經(jīng)常使用,也得到了大部分研究者的認(rèn)可?;诖耍疚膶⒃谶@一數(shù)據(jù)集的前提下,選擇歸一化互信息指標(biāo)(normalized mutual information,NMI)來(lái)評(píng)測(cè)聚類結(jié)果好壞。當(dāng)NMI值越大,說(shuō)明聚類的效果越好,即說(shuō)明該算法包含的文本信息越多。在圖2中,不同比例特征項(xiàng)對(duì)聚類結(jié)果的差異十分明顯。

圖2 文本特征詞對(duì)聚類的影響

由圖2可知,如果選取60%的文本特征詞,聚類的效果是最好的。若是選取的比例小于60%,就會(huì)出現(xiàn)模型包含的文本信息量不足,造成算法的效果不理想,若是選取的比例大于60%,就會(huì)造成文本的冗余,削弱文本與文本之間的獨(dú)立性,造成算法的效果不準(zhǔn)確。

(2)實(shí)驗(yàn)2:針對(duì)加權(quán)因子進(jìn)行取值。

該實(shí)驗(yàn)的數(shù)據(jù)集選自數(shù)據(jù)集Ⅳ中的部分內(nèi)容,結(jié)果見(jiàn)表7。

表7 不同x和y取值下的實(shí)驗(yàn)結(jié)果

由表7可知,通過(guò)增加多特征融合和詞移距離算法的權(quán)重,就能夠進(jìn)一步提升召回率,因此這種做法能夠最大限度保證數(shù)據(jù)運(yùn)算的準(zhǔn)確性和文本特征的多元性。通過(guò)實(shí)驗(yàn)結(jié)果可知,當(dāng)x選取0.6,y選取0.4的時(shí)候,召回率最高,最終本文確定x和y的取值分別為0.6和0.4。

(3)實(shí)驗(yàn)3:融合方法的對(duì)照實(shí)驗(yàn)

為了驗(yàn)證本文算法的有效性,選擇了準(zhǔn)確率、召回率和F1值作為評(píng)價(jià)指標(biāo),通過(guò)將本文算法(MuMoSim)與未融合多特征的詞移距離算法(MuSim)、基于分層池化IIG-SIF句向量算法(IIGSim)、傳統(tǒng)的詞移距離算法(WMDSim)和基于SIF句向量算法(SIFSim)進(jìn)行對(duì)比來(lái)進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果見(jiàn)表8。

表8 融合方法對(duì)照實(shí)驗(yàn)結(jié)果數(shù)據(jù)

由表8可以看出,在這4種數(shù)據(jù)集下,本文算法(MuMoSim)在3個(gè)評(píng)價(jià)指標(biāo)上都獲得了比較高的數(shù)值,評(píng)價(jià)指標(biāo)取得的值越高,說(shuō)明算法的效果越好。這是因?yàn)楸疚乃惴軌驅(qū)崿F(xiàn)詞義、語(yǔ)義等多種信息的有效采集和處理。而在這一前提下提出的多特征融合權(quán)重,結(jié)合數(shù)據(jù)特征能夠更為精準(zhǔn)解釋詞語(yǔ)轉(zhuǎn)移距離。結(jié)合分層池化相關(guān)內(nèi)容,根據(jù)數(shù)據(jù)集中不同類別特征詞的分布,采用改進(jìn)的信息增益特征選擇方法提出任務(wù)貢獻(xiàn)因子,計(jì)算出句向量大小。由于本文算法還提前設(shè)置了最佳的文本特征詞的占比,這從一定程度上提高了算法運(yùn)行的效率。

(4)實(shí)驗(yàn)4:不同文本相似度算法的對(duì)比實(shí)驗(yàn)。

將本文算法與文獻(xiàn)[13,14]相關(guān)融合算法做對(duì)照實(shí)驗(yàn),以F1值為評(píng)價(jià)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果見(jiàn)表9。

表9 4種數(shù)據(jù)集下3類相似度算法F1值/%

由表9可知,文獻(xiàn)[13]的算法雖結(jié)合反義與否定兩種信息,但其語(yǔ)義詞典不完善,明顯在不同的數(shù)據(jù)集有不同的影響,在英文新聞數(shù)據(jù)處理方面效果起伏較大。文獻(xiàn)[14]的相似度計(jì)算算法雖然獲取了句子的詞形特征、詞序特征、句長(zhǎng)特征,但在語(yǔ)義相似度處理方面存在不足,影響相似度結(jié)果。而本文在此次研究中,提出MuMoSim的算法,既考慮了最佳的文本特征占比,還設(shè)置了最佳權(quán)重,讓最終結(jié)論更為精準(zhǔn)。由實(shí)驗(yàn)結(jié)果可知,本文算法在4種數(shù)據(jù)集中在F1值下的表現(xiàn)都要優(yōu)于其它兩種方法,更具有競(jìng)爭(zhēng)性。

4 結(jié)束語(yǔ)

首先,本文在傳統(tǒng)詞移距離算法的基礎(chǔ)上加入了特征融合機(jī)制,融合多特征來(lái)解決權(quán)重單一對(duì)詞移距離算法的影響。其次,引入分層池化IIG-SIF句向量模型,在一定程度上增強(qiáng)文本結(jié)構(gòu)信息和詞匯排序問(wèn)題。最后,通過(guò)對(duì)前兩種方法進(jìn)行加權(quán)融合,得到最終算方法。實(shí)驗(yàn)結(jié)果表明,本文的算法與之前基線模型進(jìn)行相比,在評(píng)價(jià)指標(biāo)F1值上有了明顯的提升,得到了較好的文本相似度計(jì)算結(jié)果。

在后續(xù)的研究過(guò)程中將繼續(xù)對(duì)本文的方法加以改進(jìn),例如引入外部知識(shí)來(lái)彌補(bǔ)中文數(shù)據(jù)庫(kù)效果差的弊端,增強(qiáng)中文的語(yǔ)義信息,提高文本相似度的計(jì)算結(jié)果。

猜你喜歡
特征詞語(yǔ)義權(quán)重
權(quán)重常思“浮名輕”
語(yǔ)言與語(yǔ)義
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
面向文本分類的特征詞選取方法研究與改進(jìn)
認(rèn)知范疇模糊與語(yǔ)義模糊
層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
河南科技(2014年15期)2014-02-27 14:12:51
江门市| 隆林| 资源县| 钦州市| 长汀县| 洪湖市| 中牟县| 镇宁| 连城县| 万荣县| 安塞县| 祁门县| 来凤县| 于田县| 铁力市| 西昌市| 格尔木市| 呼玛县| 进贤县| 肥西县| 济南市| 利辛县| 敖汉旗| 彰化县| 永仁县| 三明市| 且末县| 美姑县| 和顺县| 思茅市| 浏阳市| 关岭| 桐乡市| 昭平县| 肇源县| 剑川县| 大同市| 泰来县| 包头市| 宁晋县| 柏乡县|