代曉麗,劉世峰,宮大慶
(1.北京交通大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100044;2.北京信通傳媒有限責(zé)任公司,北京 100078)
互聯(lián)網(wǎng)的發(fā)展給網(wǎng)絡(luò)平臺(tái)帶來(lái)了海量的數(shù)據(jù),其中文本數(shù)據(jù)是主要的數(shù)據(jù)形式,如何處理網(wǎng)絡(luò)中的大量文本數(shù)據(jù)是一個(gè)急需解決且復(fù)雜的問(wèn)題。文本相似度檢測(cè)是文本處理領(lǐng)域的一個(gè)關(guān)鍵技術(shù),通過(guò)文本間的對(duì)比計(jì)算兩篇或多篇文本間的相似程度,在信息檢索[1]、文本分類(lèi)[2]、機(jī)器翻譯[3]、自動(dòng)問(wèn)答[4]等自然語(yǔ)言處理(NLP,natural language processing)領(lǐng)域的任務(wù)中具有廣泛應(yīng)用。
由于文本格式、類(lèi)型繁多,很難對(duì)文本的各種特征進(jìn)行捕捉,使設(shè)計(jì)一個(gè)準(zhǔn)確性較高的文本相似度檢測(cè)方案面臨一定的挑戰(zhàn)?;诮y(tǒng)計(jì)和基于語(yǔ)義的文本相似度檢測(cè)方法是學(xué)者們研究的熱點(diǎn)[5]。
基于統(tǒng)計(jì)的文本相似度檢測(cè)方法主要是基于字符匹配和基于詞頻特征的相似比較,基于字符匹配的方法將文本分解為字的集合,以字符間的變化程度作為相似度結(jié)果,最長(zhǎng)公共子串(LCS,longest common substring)[6]、編輯距離[7]、Jaccard 系數(shù)[8]、Dice 系數(shù)[9]等是較常用的方法;基于詞頻特征的方法以 TF-IDF(term frequency-inverse document frequency)方法為主,該方法將文本分解為詞語(yǔ)的集合,以詞頻作為向量,通過(guò)計(jì)算向量距離得到文本相似度,如歐氏距離、曼哈頓距離、余弦距離[10]等。這些方法僅衡量了文本表面的相似度,而沒(méi)有考慮文本的語(yǔ)義相似度,使得到的結(jié)果缺乏一定的準(zhǔn)確性。
針對(duì)語(yǔ)義缺失的問(wèn)題,出現(xiàn)了基于語(yǔ)義的方法,該方法通過(guò)引入外部知識(shí)來(lái)使文本具有語(yǔ)義信息[11],其中基于詞典和基于向量空間模型(VSM,vector space model)是較常見(jiàn)的方法?;谠~典的方法利用通用詞典構(gòu)建詞語(yǔ)的概念語(yǔ)義樹(shù),兩詞語(yǔ)在樹(shù)中的距離即為它們之間的相似度[12];基于向量空間模型的方法利用外部語(yǔ)料庫(kù)來(lái)構(gòu)建具有語(yǔ)義的詞向量,通過(guò)度量詞語(yǔ)的重要性提取特征詞來(lái)表示文本,然后將特征詞向量綜合表示為文本向量,最后以文本向量間的距離作為相似度結(jié)果[13]。在基于向量空間模型的方法中,對(duì)于特征詞提取,多數(shù)方法只依據(jù)詞語(yǔ)的詞頻信息,沒(méi)有考慮文本的結(jié)構(gòu)信息;同時(shí),文本向量表示沒(méi)有考慮詞語(yǔ)間的語(yǔ)義關(guān)聯(lián)性,導(dǎo)致相似度檢測(cè)結(jié)果的準(zhǔn)確率較低。
為了解決上述問(wèn)題,本文提出了面向文本的相似度檢測(cè)方案,基于文檔結(jié)構(gòu)特征將詞語(yǔ)位置權(quán)重與詞頻權(quán)重作為特征詞提取的依據(jù),并將詞語(yǔ)間的語(yǔ)義關(guān)系融入相似度計(jì)算的過(guò)程,在提升特征詞提取精度的同時(shí)提高相似度計(jì)算的準(zhǔn)確性。本文的主要貢獻(xiàn)如下。
1) 針對(duì)特征詞提取階段詞語(yǔ)位置加權(quán)方法主觀性較強(qiáng)導(dǎo)致提取結(jié)果缺少代表性的情況,提出了基于層次分析法(AHP,analytic hierarchy process)的詞語(yǔ)位置加權(quán)方法,利用成對(duì)比較法基于文本結(jié)構(gòu)設(shè)置詞語(yǔ)位置權(quán)重,提高了特征詞提取結(jié)果的精確度。
2) 針對(duì)相似度計(jì)算階段的文本向量表示法未考慮詞語(yǔ)間語(yǔ)義關(guān)系導(dǎo)致計(jì)算結(jié)果不夠準(zhǔn)確的情況,提出了基于Pearson 相關(guān)系數(shù)和廣義Dice 系數(shù)的相似度計(jì)算方法,利用相關(guān)系數(shù)衡量詞語(yǔ)間語(yǔ)義關(guān)系,改進(jìn)廣義Dice 系數(shù)公式,提高了相似度計(jì)算結(jié)果的準(zhǔn)確性。
3) 對(duì)本文提出的面向文本的相似度檢測(cè)方案與經(jīng)典方法、未做出改進(jìn)的原始方法在準(zhǔn)確率、精確率、召回率、F1 值方面進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果顯示,本文方案有效提高了相似度計(jì)算的準(zhǔn)確率。
關(guān)鍵詞提取是從文本中提取出最能代表該文本信息的詞語(yǔ),文本相似度的計(jì)算與關(guān)鍵詞的提取有著密切的關(guān)系,關(guān)鍵詞提取的準(zhǔn)確率間接地影響相似度計(jì)算結(jié)果。最常用的關(guān)鍵詞提取技術(shù)有TF-IDF[14]、線性判別分析(LDA,linear discriminant analysis)[15]、圖模型[16],許多學(xué)者在此基礎(chǔ)上做出了改進(jìn)。傳統(tǒng)的TF-IDF 算法只在處理不同類(lèi)文本時(shí)效果較好,文獻(xiàn)[17]在TF-IDF 算法的基礎(chǔ)上提出TF-IWF(term frequency-inverse word frequency),將逆文檔頻率改為逆詞語(yǔ)頻率并設(shè)置詞語(yǔ)位置權(quán)重,能夠更好地處理語(yǔ)料庫(kù)中同類(lèi)型文本較多的情況以及利用詞語(yǔ)位置信息,但文中詞語(yǔ)位置權(quán)重為作者的主觀設(shè)置,缺少客觀性。LDA 利用詞語(yǔ)的概率分布推測(cè)文檔的主題概率,文獻(xiàn)[18]結(jié)合TF-IDF和LDA 算法,利用LDA 提取的主題構(gòu)建關(guān)鍵詞詞典,基于該詞典采用TF-IDF 算法從文章的摘要中提取最終的關(guān)鍵詞用于文章分類(lèi),提高了文本分類(lèi)的精度,但關(guān)鍵詞之間沒(méi)有語(yǔ)義關(guān)聯(lián)。文獻(xiàn)[19]提出了基于LDA 和圖模型的關(guān)鍵詞挖掘方法,采用兩級(jí)語(yǔ)義關(guān)聯(lián)模型,將主題之間的語(yǔ)義關(guān)系與主題下詞語(yǔ)之間的語(yǔ)義關(guān)系聯(lián)系起來(lái),并根據(jù)組合作用提取關(guān)鍵詞,該方法提高了從文本中提取關(guān)鍵詞的準(zhǔn)確性,但計(jì)算的復(fù)雜度較高。
針對(duì)文本相似度計(jì)算,現(xiàn)有方法從降低復(fù)雜度和提高準(zhǔn)確率方面進(jìn)行研究。文獻(xiàn)[20]利用哈希將文本轉(zhuǎn)化為數(shù)字指紋,使用Jaccard 系數(shù)來(lái)度量指紋間的相似值,適用于檢測(cè)字符級(jí)改變的文本。文獻(xiàn)[21]提出了基于VSM 的相似度計(jì)算方法,利用特征項(xiàng)權(quán)重加權(quán)TF-IDF,提高了相似度計(jì)算的精度。文獻(xiàn)[22]使用VSM 和TF-IDF 加權(quán)模式以及哈希特征提取技術(shù)提高了大規(guī)模文本相似度計(jì)算的速度。這些方法生成的都是高維稀疏的向量且不包含文本語(yǔ)義。文獻(xiàn)[23]提出了基于雙向空間模型的相似度計(jì)算,分別利用維基百科的數(shù)據(jù)鏈接和構(gòu)建依賴(lài)樹(shù)來(lái)計(jì)算詞語(yǔ)相似度和文本結(jié)構(gòu)相似度,雙向結(jié)合得到文本相似。文獻(xiàn)[24]提出了一種基于TF-IDF 和LDA 的混合模型來(lái)計(jì)算文本相似度,能夠利用文本本身包含的語(yǔ)義信息并反映文本關(guān)鍵詞的權(quán)重,但LDA 包含的文本語(yǔ)義較稀疏。文獻(xiàn)[25]提出了一種結(jié)合HowNet 語(yǔ)義知識(shí)詞典和VSM 的文本相似度計(jì)算方法,在詞匯層面使用HowNet 計(jì)算相似度避免了語(yǔ)義信息丟失,在文本層面使用VSM 計(jì)算相似度保證了表達(dá)信息的完整性,但是HowNet 等已構(gòu)建好的通用詞典較少,更新慢、具有獨(dú)立性,跨領(lǐng)域或新領(lǐng)域的應(yīng)用效果較差。文獻(xiàn)[26]結(jié)合Word2vec 詞向量轉(zhuǎn)換技術(shù),利用其語(yǔ)義分析能力構(gòu)建優(yōu)化的LDA 模型,最后使用余弦相似度來(lái)計(jì)算文本相似度,充分表達(dá)了文本語(yǔ)義,理想地實(shí)現(xiàn)了對(duì)重復(fù)文本的語(yǔ)義分析,但其訓(xùn)練語(yǔ)料需要經(jīng)過(guò)Word2vec 模型轉(zhuǎn)換為詞向量,再將向量作為輸入訓(xùn)練LDA 模型,導(dǎo)致模型訓(xùn)練成本較高。
本節(jié)介紹了文本相似度檢測(cè)框架以及各個(gè)步驟的具體方法,并分析了流程中存在的問(wèn)題。
圖1 是本文結(jié)合基于向量空間模型和基于分布式表示方法[13,27-31]提出的文本相似度檢測(cè)框架,利用分布式詞向量將文本映射到向量空間中,以此計(jì)算文本在向量空間上的相似度。該框架是一種較通用的相似度計(jì)算流程,研究者常在其中的一個(gè)或多個(gè)步驟中進(jìn)行研究改進(jìn),以提高檢測(cè)性能。本文所使用的具體方法和步驟如下。
圖1 文本相似度檢測(cè)框架
①數(shù)據(jù)提取。用戶(hù)將待測(cè)文本數(shù)據(jù)輸入系統(tǒng),系統(tǒng)從數(shù)據(jù)庫(kù)中提取相應(yīng)的文本集數(shù)據(jù)。
② 數(shù)據(jù)預(yù)處理。合并提取文本內(nèi)容并對(duì)其分詞、去停用詞。首先使用分詞工具將文本內(nèi)容分割為詞語(yǔ)集,由于詞語(yǔ)集中會(huì)存在對(duì)文本表達(dá)無(wú)語(yǔ)義影響但會(huì)影響特征詞提取結(jié)果的詞語(yǔ)和符號(hào),因此,使用停用詞表,將這些詞語(yǔ)和符號(hào)從詞語(yǔ)集中刪除。
③特征詞提取。數(shù)據(jù)預(yù)處理結(jié)束后,接下來(lái)要從2 個(gè)方面計(jì)算每個(gè)詞語(yǔ)的總權(quán)重并作為特征詞提取的依據(jù)。首先,使用TF-IWF[17]算法計(jì)算詞語(yǔ)的頻率權(quán)重,如式(1)所示。
其中,Ni為詞語(yǔ)i在單文本中的數(shù)量,N為單文本詞語(yǔ)總數(shù),P為語(yǔ)料庫(kù)的詞語(yǔ)總數(shù),Pi為詞語(yǔ)i在語(yǔ)料庫(kù)中的數(shù)量。這種方法能夠有效降低文本集中文本數(shù)量少、同類(lèi)型文本多等情況對(duì)詞語(yǔ)權(quán)重的影響。其次,根據(jù)文本的結(jié)構(gòu)特征設(shè)置詞語(yǔ)的位置權(quán)重,表示為Wloc(i),對(duì)出現(xiàn)在文本標(biāo)題、關(guān)鍵詞、摘要中的詞語(yǔ)分別賦予權(quán)值3、2、1。最后,將詞頻權(quán)重和詞位置權(quán)重加權(quán)和得到詞語(yǔ)總權(quán)重,由大到小排序,提取一定比例的詞語(yǔ)構(gòu)成特征詞集代表文本。詞語(yǔ)i總權(quán)重計(jì)算式為
④ 詞向量生成。詞向量生成是將詞語(yǔ)轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別、可計(jì)算的過(guò)程。Word2vec 是一種詞向量生成工具,由Mikolov 等[32]于2013 年開(kāi)發(fā),作為深度學(xué)習(xí)模型中的一種分布式表達(dá)。Word2vec有CBOW(continuous bag-of-words)和Skip-gram(continuous skip-gram)2 種訓(xùn)練模式,CBOW 使用詞語(yǔ)的上下文來(lái)預(yù)測(cè)詞語(yǔ)本身,而Skip-gram 則使用當(dāng)前詞來(lái)預(yù)測(cè)上下文詞語(yǔ)。Word2vec 模型能夠從大規(guī)模未經(jīng)標(biāo)注的語(yǔ)料中訓(xùn)練得到具有語(yǔ)義、低維、稠密的詞向量,可以較好地應(yīng)用于文本相似度中的詞語(yǔ)表示。
⑤ 文本相似度計(jì)算。通過(guò)Word2vec 模型得到特征詞向量,利用式(3)的2 種方式將其轉(zhuǎn)換為文本向量,前者為疊加所有特征詞向量,后者取疊加后詞向量的平均值。然后使用廣義Dice 系數(shù)[33]計(jì)算2 個(gè)文本向量的相似度表示為最終的文本相似度,如式(4)所示。
其中,kx表示詞語(yǔ)x的詞向量;di和dj分別表示通過(guò)式(3)得到的文本i和文本j的向量;sim(di,dj)表示文本i和j的相似值,相似值越接近1 表示兩篇文本越相似。
⑥ 輸出結(jié)果。依據(jù)文本間相似值和給定閾值t判斷該文本是否相似,并將結(jié)果返回給用戶(hù)。
文本相似度檢測(cè)框架中存在以下2 個(gè)方面的問(wèn)題。
1) 提取的特征詞缺乏代表性。在提取特征詞階段,對(duì)詞位置權(quán)重的設(shè)置僅按照文本結(jié)構(gòu)簡(jiǎn)單的設(shè)為具有差異的數(shù)值,存在較強(qiáng)的主觀性且沒(méi)有合理依據(jù),從而影響詞語(yǔ)的總權(quán)重,使提取到的特征詞不能更準(zhǔn)確地表達(dá)文本,因此需要設(shè)計(jì)合理的詞位置權(quán)重計(jì)算方法。
2) 相似度計(jì)算結(jié)果不夠準(zhǔn)確。在計(jì)算文本相似度階段,對(duì)特征詞向量進(jìn)行疊加或加權(quán)平均構(gòu)建文本向量,將文本相似度計(jì)算轉(zhuǎn)化為向量空間相似度度量,這種方法沒(méi)有考慮到詞語(yǔ)之間的語(yǔ)義關(guān)聯(lián),不能表達(dá)文本的深層語(yǔ)義,容易導(dǎo)致計(jì)算結(jié)果存在偏差,因此需要設(shè)計(jì)一個(gè)融合詞語(yǔ)語(yǔ)義關(guān)系的相似度計(jì)算方法。
針對(duì)3.2 節(jié)描述的提取的特征詞缺乏代表性、相似度計(jì)算結(jié)果不夠準(zhǔn)確這2 個(gè)問(wèn)題,本文分別提出了基于層次分析法的詞語(yǔ)位置加權(quán)方法和基于Pearson 和廣義Dice 系數(shù)的相似度計(jì)算方法。
層次分析法設(shè)置文本各部分對(duì)詞語(yǔ)重要性影響的權(quán)值,通過(guò)提高詞語(yǔ)位置權(quán)重的合理性來(lái)提升提取特征詞的準(zhǔn)確度。AHP 是結(jié)合定性和定量分析的綜合評(píng)估方法,根據(jù)決策將問(wèn)題分解為不同層次的因素,使用定性分析確定元素間的相對(duì)重要性,再結(jié)合定量分析確定各層次以及各因素的權(quán)值,為決策者提供依據(jù),適用于存在主觀性和不確定性信息的情況[34-35]。本文利用層次分析法設(shè)置文本各部分對(duì)詞語(yǔ)重要性影響的權(quán)值,改進(jìn)文本相似度檢測(cè)框架中,特征詞提取階段的詞語(yǔ)總權(quán)重計(jì)算式,通過(guò)提高詞語(yǔ)位置權(quán)重的合理性來(lái)提升特征詞提取的準(zhǔn)確度。該方法的具體步驟如下。
1) 詞語(yǔ)位置重要性參數(shù)設(shè)計(jì)
本文設(shè)計(jì)的相似度檢測(cè)方案面向的文本類(lèi)型為學(xué)術(shù)論文,該類(lèi)型文本的統(tǒng)一結(jié)構(gòu)包含了論文標(biāo)題T、論文摘要A、論文關(guān)鍵詞K 等,詞語(yǔ)位置的重要程度主要由這3 個(gè)因素決定,如式(5)所示。
其中,α、β、γ為各因素在決定詞語(yǔ)位置重要性時(shí)所占的比例。
2) 詞語(yǔ)位置重要性計(jì)算
論文標(biāo)題通常包含了文章的研究主題、使用方法和應(yīng)用場(chǎng)景,是論文圍繞的核心;論文關(guān)鍵詞是作者總結(jié)文章重要內(nèi)容的詞語(yǔ),其對(duì)文章的重要性略低于論文標(biāo)題;論文摘要是從背景、目標(biāo)、過(guò)程、結(jié)果對(duì)論文的簡(jiǎn)短概述,包含的詞語(yǔ)相對(duì)較多,其對(duì)文章的重要性相對(duì)來(lái)說(shuō)低于論文標(biāo)題和論文關(guān)鍵詞。經(jīng)分析發(fā)現(xiàn),文本各結(jié)構(gòu)部分對(duì)其內(nèi)容的重要性存在差異,根據(jù)AHP 將論文標(biāo)題、關(guān)鍵詞、摘要作為3 個(gè)因素,計(jì)算其成對(duì)比較值,即可確定每個(gè)因素對(duì)文本的重要性。表1 是由Saaty 給出的9 個(gè)重要性等級(jí)及其量化值,依此構(gòu)造的成對(duì)比較矩陣如表2 所示。
表1 9 個(gè)重要性等級(jí)及其量化值
表2 成對(duì)比較矩陣
表2 中,Btt表示因素T 與T 的重要性比值,各因素與其自身的重要性是一樣的;Btk表示因素T與K 的重要性比值,Btk與Bkt互為倒數(shù),依次類(lèi)推,可得到其他兩兩因素的重要性比值。W(T)、W(K)、W(A)分別表示論文標(biāo)題、關(guān)鍵詞、摘要在決定詞語(yǔ)位置重要性時(shí)所占的比例,如式(6)所示。
3) 改進(jìn)的詞語(yǔ)總權(quán)重計(jì)算
根據(jù)式(6)計(jì)算得到文本各結(jié)構(gòu)對(duì)詞語(yǔ)位置的重要性W(T)、W(K)、W(A),將其代入式(5)中可得到式(7),即得到詞語(yǔ)i的位置權(quán)重,計(jì)算式為
將Wloc2(i)代入原詞語(yǔ)總權(quán)重計(jì)算式(2)中的位置權(quán)重Wloc(i),得到改進(jìn)后的詞語(yǔ)總權(quán)重計(jì)算式為
W2(i)作為新的詞語(yǔ)總權(quán)重用于提取特征詞,以在文本相似度檢測(cè)框架的后續(xù)步驟中使用。
Pearson 相關(guān)系數(shù)用于衡量2 個(gè)變量之間的線性相關(guān)程度,對(duì)數(shù)據(jù)分布比較敏感,適用于正態(tài)分布的變量。文獻(xiàn)[36]表明語(yǔ)義相似的詞向量呈線性關(guān)系,且Word2vec 模型訓(xùn)練的向量更傾向于正態(tài)分布。文本相似度檢測(cè)框架的步驟④采用了Word2vec 來(lái)生成詞向量,因此,本文利用Pearson相關(guān)系數(shù)來(lái)度量詞語(yǔ)間的語(yǔ)義關(guān)系,并將其作為廣義Dice 系數(shù)的權(quán)重改進(jìn)相似度計(jì)算公式。該方法同時(shí)考慮了單文本內(nèi)部和跨文本間的語(yǔ)義關(guān)系,提高了文本相似度計(jì)算結(jié)果的準(zhǔn)確性,具體步驟如下。
1) 詞語(yǔ)間語(yǔ)義關(guān)系度量
特征詞提取之后,文本的內(nèi)容由其特征詞代替表示。將特征詞輸入Word2vec 模型,每個(gè)詞被轉(zhuǎn)化為固定維度的向量,每個(gè)維度都表示該詞語(yǔ)在不同方面的語(yǔ)義信息,例如(v1,v2,...,v400)。記ki和kj分別為文本di和dj的特征詞,使用Pearson 相關(guān)系數(shù)計(jì)算詞語(yǔ)間語(yǔ)義相似度,如式(9)所示。
其中,ρ(ki,kj)表示詞語(yǔ)ki和kj的相關(guān)系數(shù);cov(I,J)表示樣本協(xié)方差;σI和σJ表示樣本方差;ρ的取值范圍為[-1,1],若相關(guān)系數(shù)接近1,兩向量之間呈正相關(guān),意味著2個(gè)詞語(yǔ)在語(yǔ)義上越相似,反之,兩向量之間呈負(fù)相關(guān),意味著2 個(gè)詞語(yǔ)在語(yǔ)義上越不相似。
2) 改進(jìn)的文本相似度計(jì)算
該方法中沒(méi)有將特征詞轉(zhuǎn)化為文本向量,而是將式(9)計(jì)算的特征詞之間的Pearson 相關(guān)系數(shù)作為廣義Dice 系數(shù)的權(quán)重,利用單文本內(nèi)詞語(yǔ)間的不相關(guān)性和跨文本間詞語(yǔ)的語(yǔ)義相關(guān)性,通過(guò)兩者之間的相對(duì)關(guān)系得到文本的相似度。由此,改進(jìn)原始的廣義Dice 系數(shù)式(4),得到式(10)為新的相似度計(jì)算式。
其中,x和y分別表示文本di和dj的特征詞組,sim(di,dj)表示文本di和dj的相似度。具體的含義為:一組特征詞內(nèi)部?jī)蓛稍~語(yǔ)間的相似度越小,該特征詞組越能夠從多方面充分表達(dá)文本內(nèi)容;同時(shí),兩組特征詞之間兩兩詞語(yǔ)間的相似度越大,該兩組特征詞表達(dá)的兩篇文本內(nèi)容也越相似。因此,當(dāng)根據(jù)式(10)計(jì)算的相似度大于閾值t時(shí),表示該兩篇文本是相似的。
針對(duì)本文提出的特征詞提取方法和相似度計(jì)算方法,分別設(shè)計(jì)了2 個(gè)對(duì)應(yīng)的實(shí)驗(yàn),來(lái)驗(yàn)證本文提出的相似度檢測(cè)方案的有效性。
1) 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)1 是由復(fù)旦大學(xué)提供的包含20 個(gè)不同文本類(lèi)別的中文分類(lèi)語(yǔ)料。本文從中隨機(jī)選取已經(jīng)由人工標(biāo)注出關(guān)鍵詞的農(nóng)業(yè)(agriculture)、藝術(shù)(art)、計(jì)算機(jī)(computer)、經(jīng)濟(jì)(economy)、環(huán)境(environment)、歷史(history)、政治(politics)、航空(space)等8 類(lèi)不相關(guān)文本各20 篇以及由這8 類(lèi)中每類(lèi)的兩篇文本組成混合文本(mix)16 篇,作為測(cè)試數(shù)據(jù)集。數(shù)據(jù)集中的每個(gè)數(shù)據(jù)項(xiàng)包括論文標(biāo)題、摘要、關(guān)鍵詞,實(shí)驗(yàn)中使用數(shù)據(jù)集中的關(guān)鍵詞字段作為對(duì)比項(xiàng),與實(shí)驗(yàn)所提取的特征詞相比較來(lái)評(píng)估各方法的性能。
2) 對(duì)比方法及評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)中選取了經(jīng)典的 TF-IDF 算法和基于TF-IDF 改進(jìn)的 TF-IWF[17]算法與本文方法(TF-IWF-Location)進(jìn)行對(duì)比。
本文將采用關(guān)鍵詞提取領(lǐng)域常用的精確率P(precision)、召回率R(recall)、綜合指標(biāo)F1 值(F1-score)來(lái)評(píng)測(cè)實(shí)驗(yàn)結(jié)果,其定義分別如式(11)、~式(13)所示。
其中,Cn表示正確提取到的特征詞個(gè)數(shù),Kn表示提取的所有特征詞個(gè)數(shù),Bn表示語(yǔ)料中標(biāo)注的特征詞個(gè)數(shù)。
3) 實(shí)驗(yàn)設(shè)置
首先提取論文標(biāo)題、摘要、關(guān)鍵詞的內(nèi)容,并將其合并為一段。然后使用jieba 分詞和哈工大停用詞表對(duì)合并后的內(nèi)容分詞、去停用詞,構(gòu)建特征詞候選詞集。
特征詞提取是將候選詞集中重要度靠前的K個(gè)詞語(yǔ)輸出為特征詞。由于數(shù)據(jù)集中各類(lèi)文本的長(zhǎng)度不一樣,且標(biāo)注的關(guān)鍵詞個(gè)數(shù)不同,為了使實(shí)驗(yàn)結(jié)果更加客觀準(zhǔn)確,實(shí)驗(yàn)中根據(jù)每類(lèi)文本中標(biāo)注的關(guān)鍵詞個(gè)數(shù)來(lái)調(diào)整提取的特征詞個(gè)數(shù),保證兩者之間的差值在10 之內(nèi),通過(guò)實(shí)驗(yàn)調(diào)試,得出每類(lèi)語(yǔ)料對(duì)應(yīng)所提取合適的特征詞個(gè)數(shù),如表3 所示。
表3 語(yǔ)料類(lèi)別與特征詞提取個(gè)數(shù)
在本文所提方法TF-IWF-Location 中引入了層次分析法,將論文標(biāo)題表示為T(mén)、關(guān)鍵詞表示為K、摘要表示為A,根據(jù)4.3 節(jié)的分析以及表1 的比例標(biāo)度,T 比K 稍微重要,K 比A 稍微重要,T 比A較強(qiáng)重要,通過(guò)構(gòu)造T、K、A 間的成對(duì)比較矩陣得出論文各結(jié)構(gòu)的位置權(quán)重參數(shù),如表4 所示。
表4 T、K、A 間的成對(duì)比較矩陣
4) 實(shí)驗(yàn)結(jié)果分析
按照以上實(shí)驗(yàn)設(shè)置進(jìn)行特征詞提取,將不同算法的各項(xiàng)指標(biāo)以折線圖呈現(xiàn),圖2~圖4 分別是TF-IDF、TF-IWF、TFIWF-Location 算法的精確率、召回率、F1 值的比較結(jié)果。
圖2 TF-IDF、TF-IWF、TF-IWF-Location 算法之間的精確率比較
圖3 TF-IDF、TF-IWF、TF-IWF-Location 算法之間的召回率比較
通過(guò)圖2~圖4 可知,TF-IWF 算法在computer語(yǔ)料上的精確率、召回率和F1 值略低于TF-IDF 算法,在environment 和history 語(yǔ)料上與TF-IDF 算法的性能相等,總體上優(yōu)于TF-IDF 算法,表明TF-IWF 算法能夠有效地提高提取同類(lèi)文本集中特征詞的準(zhǔn)確性。
圖4 TF-IDF、TF-IWF、TF-IWF-Location 算法之間的F1 值比較
本文所提方法TF-IWF-Location 與TF-IDF、TF-IWF 相比,在精確率、召回率、F1 值等各項(xiàng)指標(biāo)上均有所提高,特別是在computer、politics、space、mix 語(yǔ)料上的提高幅度較大,其中,精確率、召回率、F1 最高分別提高了7.9%、10.7%、7.8%。結(jié)果表明,詞語(yǔ)在文章中的結(jié)構(gòu)位置對(duì)詞語(yǔ)的重要性具有一定的影響,該方法能夠較好地提高對(duì)學(xué)術(shù)論文進(jìn)行特征詞提取的準(zhǔn)確率。
1) 實(shí)驗(yàn)數(shù)據(jù)
維基百科中文語(yǔ)料庫(kù),由中文維基百科中的新聞文章組成,具有質(zhì)量高、領(lǐng)域廣泛且開(kāi)放的特點(diǎn)。實(shí)驗(yàn)中使用的是截至2021 年5 月5 日的中文維基百科語(yǔ)料,大小約2 GB,包含392 515 篇文章,以xml格式存儲(chǔ)。本文以該語(yǔ)料庫(kù)來(lái)訓(xùn)練Word2vec 模型。
LCQMC 問(wèn)題語(yǔ)義數(shù)據(jù)集包含238 766 對(duì)訓(xùn)練文本、8 802 對(duì)驗(yàn)證文本和12 500 對(duì)測(cè)試文本,這些文本來(lái)自百度問(wèn)答中不同領(lǐng)域的高頻相關(guān)問(wèn)題,由人工判定相似的句子對(duì)標(biāo)簽為1,不相似的標(biāo)簽為0。本文以測(cè)試集的12 500 對(duì)句子作為實(shí)驗(yàn)的測(cè)試數(shù)據(jù),通過(guò)設(shè)置相似度閾值來(lái)將計(jì)算結(jié)果分為相似(1)與不相似(0)兩類(lèi),與數(shù)據(jù)集中的標(biāo)簽對(duì)比得到實(shí)驗(yàn)方法的各項(xiàng)指標(biāo)對(duì)比結(jié)果。
2) 對(duì)比方法及評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)中選取了 2 種方法來(lái)與本文方法Pearson-Dice 做對(duì)比,一種是傳統(tǒng)的基于余弦相似度的方法Base-Cosine[37],以特征詞疊加后的平均向量表示文本,再計(jì)算文本向量之間的余弦相似度;另一種是本文改進(jìn)之前的方法Base-Dice,該方法在Base-Cosine 的基礎(chǔ)上,使用廣義的Dice 系數(shù)來(lái)替代余弦相似度計(jì)算文本相似度。
本文將文本相似度檢測(cè)抽象為相似或不相似的二分類(lèi)問(wèn)題。采用二分類(lèi)領(lǐng)域中常用的準(zhǔn)確率(accuracy)和綜合指標(biāo)F1 值(F1-score)來(lái)評(píng)估各方法的性能,其定義分別如式(14)和式(15)所示。
其中,TP 表示被正確計(jì)算為相似句子對(duì)的數(shù)量,TN 表示被正確計(jì)算為不相似的句子對(duì)數(shù)量,F(xiàn)P 表示被錯(cuò)誤計(jì)算為相似句子對(duì)的數(shù)量,F(xiàn)N 表示被錯(cuò)誤計(jì)算為不相似的句子對(duì)數(shù)量,P和R分別表示二分類(lèi)問(wèn)題中的精確率和召回率,如式(16)和式(17)所示。
3) 實(shí)驗(yàn)設(shè)置
下載的維基百科語(yǔ)料為xml 壓縮格式且有較多的不可用數(shù)據(jù),不可直接用于訓(xùn)練Word2vec。先使用WikiCorpus 方法將文件格式轉(zhuǎn)換為txt,再通過(guò)Opencc 將文本中的繁體字轉(zhuǎn)為簡(jiǎn)體字,然后基于正則表達(dá)式去除數(shù)據(jù)中的英文和空格,最后使用jieba將分詞后的文本輸入Word2vec 模型進(jìn)行訓(xùn)練。
訓(xùn)練Word2vec 模型時(shí),有多個(gè)參數(shù)需要設(shè)置。在模式選擇上,COWB 模式的速度更快,Skip-gram模式的效果更好,實(shí)驗(yàn)中使用Skip-gram 模式;滑動(dòng)窗口的大小為5,以此構(gòu)建訓(xùn)練集;最低詞頻為5,過(guò)濾數(shù)據(jù)中出現(xiàn)次數(shù)低于5 的詞語(yǔ);詞向量維度為400,官方推薦值為300~500,此處取中間值;其余參數(shù)均為默認(rèn)。
文本之間的相似性由其相似分布值與閾值的相對(duì)大小決定。如果一對(duì)不相似文本和一對(duì)相似文本的相似值分別為0.7 和0.8,那么將相似度閾值設(shè)置為0.75,就能夠正確地區(qū)分相似和不相似文本。由于數(shù)據(jù)集和各相似度計(jì)算方法會(huì)使輸出的相似值的分布情況有所差異,因此,實(shí)驗(yàn)中分別將相似度閾值設(shè)置為0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90 來(lái)比較結(jié)果。
4) 實(shí)驗(yàn)結(jié)果分析
按照以上的實(shí)驗(yàn)設(shè)置進(jìn)行文本相似度檢測(cè),將不同方法的各項(xiàng)指標(biāo)以折線圖展示,圖5 和圖6 分別為Base-Cosine、Base-Dice、Pearson-Dice 的準(zhǔn)確率和F1 值的比較結(jié)果。
由圖5 可知,當(dāng)相似閾值設(shè)置為0.50、0.55、0.60、0.65、0.70 時(shí),Base-Dice 方法的準(zhǔn)確率高于其他2 種方法;當(dāng)相似度閾值為0.75、0.80、0.85、0.90 時(shí),本文方法的準(zhǔn)確率高于其他方法,閾值設(shè)置為0.85時(shí)準(zhǔn)確率最高為75.9%,與Base-Dice、Base-Cosine方法相比分別提高了2.08%和11.4%。由圖6 可知,僅在相似閾值為0.9 時(shí),Base-Cosine 方法的F1 值略高于本文方法的F1 值,在其余相似度閾值的情況下,均為本文方法F1 值最高。本文方法在閾值為0.80 和0.85 時(shí)達(dá)到75.7%和75.6%,最高值與Base-Dice、Base-Cosine 方法相比分別提高了2.8%和7.1%。
圖5 Base-Cosine、Base-Dice、Pearson-Dice 的準(zhǔn)確率比較
圖6 Base-Cosine、Base-Dice、Pearson-Dice 的F1 值比較
結(jié)果顯示,無(wú)論是在準(zhǔn)確率還是在F1 值方面,各方法的變化趨勢(shì)總體上一致,各方法在閾值為0.80 和0.85 時(shí)對(duì)應(yīng)的準(zhǔn)確率、F1 值均達(dá)到最高。這表明,該數(shù)據(jù)集的相似值分布在0.80~0.85,當(dāng)閾值設(shè)置在這個(gè)范圍里,能夠最好地區(qū)分相似或不相似文本,并且均為本文方法性能最優(yōu)。綜上所述,詞語(yǔ)間的語(yǔ)義關(guān)系在文本相似度計(jì)算中發(fā)揮了一定的作用,本文所提出的方法是有效可行的。
本文基于向量空間模型的相似度檢測(cè)算法,在特征詞提取階段提出了基于層次分析法的詞語(yǔ)位置加權(quán)方法,利用層次分析法確定文本位置對(duì)詞語(yǔ)的重要性,使提取的特征詞更能代表文本;在相似度計(jì)算階段提出了基于Pearson 和廣義Dice 系數(shù)的相似度計(jì)算方法,引入了詞語(yǔ)語(yǔ)義相似度作為廣義Dice 系數(shù)的權(quán)重,從而解決了傳統(tǒng)方法忽略詞語(yǔ)間語(yǔ)義關(guān)系的問(wèn)題。并針對(duì)這兩點(diǎn)進(jìn)行改進(jìn),分別設(shè)計(jì)了2 個(gè)對(duì)應(yīng)的實(shí)驗(yàn),與傳統(tǒng)方法以及改進(jìn)前的方法相比,本文提出的方法能夠有效地提高計(jì)算結(jié)果的準(zhǔn)確率。下一步將以提高分詞準(zhǔn)確性繼續(xù)改進(jìn),并進(jìn)一步探索跨語(yǔ)言的相似度檢測(cè),繼續(xù)提升相似度計(jì)算的準(zhǔn)確率。