趙士杰 陳秋
摘 要: 基于統(tǒng)計的TF-IDF相似度計算方法由于不考慮詞語的語義信息,不能準確地反映文本間的相似性。針對該問題,提出一種結(jié)合語義理解和TF-IDF的科技項目相似度計算方法。在項目分詞的基礎上,利用《知網(wǎng)》計算兩個項目間的特征項語義相似度,基于TF-IDF計算每個特征項的權重,然后針對權重大于給定閾值的特征項進行加權進而計算得到項目相似度值。實驗結(jié)果表明,該方法效果優(yōu)于單純的TF-IDF和語義理解的方法。
關鍵詞: TF-IDF; 語義理解; 《知網(wǎng)》; 特征項權重; 相似度計算
中圖分類號:TP391.1 文獻標志碼:A 文章編號:1006-8228(2015)05-01-03
Abstract: TF-IDF(term frequency - inverse document frequency)is one of the traditional text similarity calculation method based on statistics. Because TF-IDF does not consider the semantic information of words, it can not accurately reflect the similarity between texts. Aiming at this problem, this paper advances a method combined with the semantic understanding and TF-IDF to calculate the similarity of technology project. Based on the word segmentation of the technology project and the information from the HowNet, calculates the feature semantic similarity of the two between, then calculates weight of each feature by using TF-IDF, and finally calculates the similarity value of the technology project according to the weight of the features that their weight is greater than the given threshold. The experimental results show that the method is better than the pure TF-IDF and the method of semantic understanding.
Key words: TF-IDF; semantic understanding; HowNet; weight of feature; similarity calculation
0 引言
我國每年都有大量的科技項目申報,迫切需要一種智能的項目分析和“查重”的工具防止項目重復申報的問題。因此,對項目“查重”系統(tǒng)中的關鍵技術——文本相似度計算的研究非常有必要。
目前常見的文本相似度計算方法主要有基于概率統(tǒng)計的和根據(jù)某種世界知識體系進行語義理解的?;诮y(tǒng)計的方法中一般采用基于向量空間模型的TF-IDF方法。該方法充分考慮了每個詞項的統(tǒng)計信息但是缺乏對詞項的語義的理解,因此無法準確的衡量文本之間的相似度?;谡Z義理解的一般是先利用某種知識庫來計算詞項之間的語義相似度[1]從而計算文本之間的相似度。Wang[2]和金博[4]等人分別基于WordNet和《知網(wǎng)》來計算文本的相似度。肖志軍等人提出利用《知網(wǎng)》的義原空間來計算文本相似度[5]。廖開際等人提出通過加權語義網(wǎng)來計算文本的相似度[6]。這些方法考慮了詞項的語義信息,但忽略了不同特征項對文本的重要程度是不同的。通過對上述文本相似度方法進行分析,本文提出一種結(jié)合TF-IDF和語義理解的相似度計算方法,并用于科技項目的相似度計算中。
1 相關工作
1.1 向量空間模型和TF-IDF
向量空間模型(Vector Space Model)由Gerard Salton等人于1975提出。向量空間模型中文本被以形式化的向量的形式給出,然后通過對向量的處理來表示對文本的處理。向量空間模型最常用也比較有效的是TF-IDF,也就是詞頻-反向文檔頻率方法。
TF-IDF被定義為:TFIDF(wi)=tf(wi)×idf(wi)=tf(wi)×log(N/df(wi))。其中tf(wi)表示詞項wi在文本中出現(xiàn)的頻率,表示的是詞項在文本中的重要性,idf(wi)表示wi的逆向文件頻率,是文本集合總數(shù)和出現(xiàn)當前詞項的文本數(shù)的比值,表示的是詞項在文本庫中的普遍性。TF-IDF就是特征頻率(TF)和逆向文件頻率(IDF)的乘積。
可以看出,TF-IDF綜合考慮特征詞在文檔中的重要性和在語料庫中的普遍性,TF-IDF值較高的詞項對文本的語義貢獻較大,重要程度較高,能最大程度代表當前的文本。
1.2 基于語義理解的文本相似度計算
基于語義理解的相似度計算不需要大規(guī)模的語料庫訓練,一般是利用某種知識規(guī)則或分類體系來計算詞語之間的距離。國內(nèi)的劉群等人提出了利用《知網(wǎng)》來計算詞語之間的義原距離從而計算詞語之間的相似度[3]?!吨W(wǎng)》是一個描述詞語概念及概念屬性之間關系的一個常識知識庫。其中每個詞語都可以用多個“概念”進行描述,而每個概念又可以由一種“知識表示語言”表示為“義原”的樹狀結(jié)構(gòu)。
劉認為兩個詞語之間的相似度可以通過其“概念”之間的相似度來衡量。對于兩個詞語W1和W2,W1可以表示為S11、S12、S13…S1n等概念集合,W2可以表示為S21、S22、S23...S2m,那么W1和W2之間的相似度就是“概念”中相似度最大值:
而兩個概念之間又可以通過計算“義原”之間的距離來計算其相似度:
其中p1、p2表示兩個“義原”,d表示在義原層次結(jié)構(gòu)中兩個“義原”的距離,?是一個調(diào)節(jié)參數(shù)。
劉等人給出了利用《知網(wǎng)》計算兩個詞語之間的相似度的方法,金博等人在此基礎上利用劉的詞語相似度計算方法提出了基于語義理解的句子的相似度計算并推廣到文本的相似度計算。兩個句子的相似度計算過程如下:句子N1和N2可以表示為N1=(w11,w12,w13…w1n)和N2=(w21,w22,w23…w2n),其中w是句子分詞之后的特征項(本文不討論詞性的問題),則N1和N2的相似度矩陣為:
其中w1iw2i=sim(w1iw2i),采用劉等人提出的基于語義計算兩個詞語之間的相似度。遍歷矩陣選擇相似度最大的詞語之間的相似度值作為計算因子,并刪除詞語所在的行和列,直到矩陣為0行0列。則N1和N2之間的相似度為:
2 項目相似度計算方法
在對項目相似度計算之前要進行一些分詞、去除停用詞等預處理工作和特征項的選取,接著進行項目的知識表示,然后在此基礎上進行文本相似度計算。
2.1 特征項選取及權重計算
首先利用ICTCLAS進行科技項目分詞,然后基于哈工大停用詞庫進行停用詞的去除。由于科技項目含有很多專業(yè)名詞,因此把一些對文本語義沒有貢獻的名詞放入停用詞庫,并進行停用詞庫的更新。采用基于統(tǒng)計的方法來進行特征項的選擇。計算每個詞項的TF-IDF值,并把該值作為特征項的權重,然后根據(jù)TF-IDF值進行排序,選取值大于閾值Y的詞項作為該科技項目的特征項。這樣既選擇了文檔中最具代表性的詞匯又使特征項的維數(shù)不至于太高,提高計算效率。
2.2 科技項目的知識表示
文獻[7]提出了科技項目管理中一種基于可拓學的知識表示方法,用來把科技項目模型化理論化。在此基礎上結(jié)合向量空間模型,提出一種針對科技項目的知識表示模型,方便后續(xù)的研究計算。
科技項目的知識表示模型表示為項目自身描述向量和屬性描述向量的集合向量。可以用PM=(P,T,W)來表示,其中PM表示科技項目知識文本,P表示科技項目本身描述向量,T為屬性集合,W為屬性量值向量。向量P可以用P=(x,y,z,…)來表示,其中x,y,z分別是科技項目類型,項目的惟一標示id,申請書具有的字段個數(shù)等,如項目P1=(重大專項,2882,5,2014)。向量T可以用T=(S1,wS1,S2,wS2,…,Sn,wSn)來表示,其中Si表示第i個字段文本內(nèi)容,wSi表示字段的一個權重系數(shù)。這里向量W可以用基本的向量空間模型來表示為W=(W1,W2,…,Wn),其中Wi就是一個內(nèi)容項的特征向量,Wi=(wi1,wi2,…,win)。這樣PM可以表示為如下:
2.3 項目相似度計算方法
觀察1.2節(jié)的基于語義理解的句子相似度計算可以發(fā)現(xiàn),計算相似度時只是單純的考慮詞語之間的相似度,然后相加求平均,沒有考慮到不同的詞項對整個文檔語義的貢獻是不同的,關鍵詞權重值(也就是TF-IDF值)越大,相應在文檔中的重要性就越大,對文本的相似性影響也越大。反之如果關鍵詞權重較小,即使兩個詞項相似度較高,則對整個文本相似度的貢獻也不會很高。而上述方法在這一點上顯然沒有區(qū)分關鍵詞的重要性而直接把詞項之間的相似度加權平均了。正是基于此,本文提出一種可以根據(jù)詞項的權重調(diào)整單個詞語的語義相似度值的文本計算方法,從而更加準確的計算文本之間的相似度。
設兩個科技項目一個內(nèi)容項的特征向量分別為S1=(w11,w12,w13…w1n)和S2=(w21,w22,w23…w2n),其中w1i和w2i表示特征項的權重值。定義S1和S2的相似度計算公式為:
其中A表示的是兩個特征項的權重滿足⑸時,它們在所有滿足條件的權重中所占的比例的平均,(1+A)代表的是對特征項的權重較大且滿足式⑸條件時對語義相似度的一個調(diào)整因子。A的定義如下:
式⑷中simi表示的是滿足式⑸且根據(jù)1.2節(jié)提到的相似度矩陣選擇的詞組之間最大的一個相似度值,整個公式⑷前半部分表示的是:對所有滿足式⑸的特征項根據(jù)其對文檔重要程度對語義相似度值進行增大調(diào)整,調(diào)整因子是(1+A),然后利用調(diào)整之后的詞項的相似度根據(jù)式⑶來計算文本之間的相似度。B和A含義相同,定義如下:
B表示的是相似度計算時不滿足式⑸的特征性項的相似度值的調(diào)整因子,Λ表示滿足公式⑸的特征項集合。整個公式⑷后半部分表示:對于除Λ之外的特征項由于其對整個文本的相似性影響較小,降低這部分的詞項的相似度值,然后再進行文本相似度計算,具體計算方法和前半部分相同。
整個公式所表達的含義是進行基于語義理解的相似度計算時,對于那些比較重要的特性項提高它在相似度計算中所做的貢獻,對于那些對文檔不太重要的特征項降低其對相似度計算所做的貢獻。
wl+wh>α且wlwh>β表示選取兩個都比較重要的特征性,也就是當兩個特征性的權重滿足和、積都大于給定的閾值的時候增加它們對整個相似度計算的貢獻值,用和和積來同時選擇滿足條件的特征性,可以防止出現(xiàn)其中一個詞語的權重特別的大但是另一個權重比較小的情況,而只選擇權重都比較大的詞項。通過分析項目庫中大量項目的特征項權重(TF-IDF)分布曲線,擬合和分析拐點得出α、β的經(jīng)驗值近似為0.2和0.01。
最后把項目中每個內(nèi)容項的相似度根據(jù)權重wSi就行加權求和得到項目間的相似度計算公式為:
⑻
3 實驗結(jié)果及分析
本實驗采用浙江省科技項目管理系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)進行多次實驗,每次抽取12組項目,其中,人工判定為相似的4組,不相似的4組,較為相似的4組。實驗對比基于TF-IDF的相似度計算方法、金等人提出的基于語義理解的相似度計算方法以及本文方法。部分實驗結(jié)果如表1及圖1、圖2、圖3所示。
從表1和圖1、圖2、圖3可以看出,本文方法的結(jié)果具有更好的項目區(qū)分度,使不相似的項目相似度值更小,相似的項目相似度值更大。實驗結(jié)果表明,本文的方法可以更準確的判斷相似和不相似的項目,相似度計算效果好于單純的TF-IDF和語義的方法。
4 結(jié)束語
本文針對基于統(tǒng)計的TF-IDF的缺點,提出了一種結(jié)合TF-IDF和語義理解的文本相似度計算方法,考慮不同特征項對相似度計算貢獻的不同而進行加權調(diào)整,綜合利用文本的統(tǒng)計信息和詞語的語義信息進行相似度計算。對科技項目進行相似度計算結(jié)果表明了該算法的有效性。把句子分割成詞語進行語義理解和相似度計算會把原本完整的句子信息破壞,不能準確的代表原本句子的語義,因此下一步的研究可以在基于詞項的相似度基礎上考慮句子、段落的語義和結(jié)構(gòu)信息,從而提高文本的相似度計算效果。
參考文獻:
[1] Agirre E, Rigau G. A proposal for word sense disambiguation using conceptual distance, Proc of International Conference Recent Advances in Natural Language Processing (RANLP),1995:258-264
[2] Wang Y ,Julia H . Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Confer-ences on System Sciences.Hawaii,US,2006:54-63
[3] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C].第三屆漢語詞匯語義學研討會論文集,2002:59-76
[4] 金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學學報,2005.45(2):291-297
[5] 肖志軍,馮廣麗.基于《知網(wǎng)》義原空間的文本相似度計算[J].科學技術與工程,2013.13(29):8651-8656
[6] 廖開際,楊彬彬.基于加權語義網(wǎng)的文本相似度計算的研究[J].情報雜志,2012.31(7):182-186
[7] 李海峰,黨延忠.科技項目管理中知識的界定與表示方法研究[J].項目管理技術,2010.8(2):29-34