黃 浩, 陳懷新
?
基于交通領域知識網(wǎng)絡的詞匯語義相似度計算①
黃 浩, 陳懷新
(中國電子科技集團第十研究所, 成都 610036)
針對傳統(tǒng)基于wordnet的詞匯語義相似度計算方法中隔離抽象詞匯和具象詞匯, 以及片面依賴上下義關系的不足, 提出了基于交通領域知識網(wǎng)絡的詞匯語義相似度計算方法. 基于上下義、工具-工具對象、部件-整體等概念關系準則構建了交通詞匯的知識網(wǎng)絡圖譜, 提出了修正的平均路徑長度參量計算網(wǎng)絡中詞匯的語義相似度, 得到更高的語義一致性結果. 實驗表明, 在Finkelstein的353對詞匯集上, 本文算法能夠獲得比傳統(tǒng)方法更符合人工判斷的語義相似度.
詞匯語義相似度; 領域知識網(wǎng)絡; 平均路徑長度; wordnet; 概念關系準則
隨著語義相似度是兩個語言對象在各種語言互動類型下的語義互動強度[1]. 詞匯作為自然語言最基本的單位, 它們之間的語義相似度計算是一項十分重要的基礎工作, 在信息檢索、機器翻譯、圖像標簽排序和圖像標簽推薦等領域都有著廣泛的應用.
語義相似度的計算共有兩類方法: 基于分布相似性統(tǒng)計的相似度計算和基于知識資源結構分析的相似度計算. 前者基于這樣一個假設: 相似的詞匯出現(xiàn)在相似的上下文中. 統(tǒng)計詞匯對在語料庫文本窗口(通常為句子、段落或者篇章)中共同出現(xiàn)的頻次, 頻次越大, 相似度越大. 孫叔琦[2]和Mohammad[3]分別采用共生關系和平均互信息方法來計算詞匯對的語義相似度. 但是, 這種方法計算結果的準確性受到語料庫規(guī)模和所選計算公式的影響.
基于知識資源結構分析的相似度計算方法通過分析專家知識庫組織結構的規(guī)律, 提出合理計算公式來量化知識庫中詞匯的相似關系. wordnet是其中應用最為廣泛的知識庫, 由普林斯頓的語言學家和心理學家編撰, 涵蓋了近117000的英文詞匯. wordnet以義項為單元, 通過上下義和整體部分關系連接所有義項, 構成了一個有層次結構的詞匯網(wǎng)絡. 其中, 上下義關系占比90%以上, 生成了以“entity(事物)”為根節(jié)點的大型樹結構. 目前, 絕大多數(shù)相似度計算方法都是基于樹得到的, 常見的有基于義項間路徑長度的方法[4], 基于最深公共父節(jié)點信息內容的方法[5]和基于義項釋義重合度[6]的方法等. 但是, 在實際應用中, 許多詞匯的計算結果并不符合人的語義判斷, 存在以下不足: 第一, wordnet分為“抽象事物”和“具象事物”兩個子樹, 造成了抽象概念和具體事物的天然隔離, 使“交通”-“汽車”的相似度遠小于“交通”-“亞洲”的相似度; 第二, 即使在具象名詞分支, “汽車”-“輪子”、“公路”-“汽車”等關系緊密的詞匯也因為單一的上義下義關系而變得相似度很低.
針對以上不足, 本文提出了基于交通領域知識網(wǎng)絡的詞匯語義相似度計算方法. 該方法首先搜集某一領域的常用詞匯, 通過上下義、工具-工具對象、場所-事件等10種關系準則多角度表達領域知識潛在聯(lián)系, 然后基于詞匯在關系網(wǎng)絡中的路徑長度計算它們的語義相似度, 使計算結果更符合人的語義判斷.
Wordnet是以上下義關系為主的分類關系樹. 傳統(tǒng)的方法多基于義項在樹中的結構關系來計算語義相似度, 共分為2類: 基于路徑長度的算法和基于公共父節(jié)點信息內容的算法.
1.1 基于路徑長度的義項語義相似度
圖1 Wordnet分類樹中部分義項的組織結構
路徑長度指的是兩個義項在分類樹中形成的一條通路上所包含邊的個數(shù). 在圖1中, “摩托”和“拖拉機”的一條通路由黑色加粗的線段表示, 路徑長度為3. Hirst[7]指出義項在分類樹中的最短路徑越短, 相似度越大, 并直接利用路徑長度計算相似度, 公式如下:
其中, snetsim(1,2)表示義項1和2的語義相似度, len(1,2)表示和2的路徑長度.
Yu[8]認為相似度的大小不僅與路徑長度相聯(lián)系, 還與該節(jié)點在分類樹中的深度有關. 在相等路徑長度的條件下, 義項的深度越大, 概念越具體, 它們之間的區(qū)別也越小, 語義相似度需要加強. 計算公式如下:
其中,為義項1和2的最深公共父節(jié)點,()表示義項的深度.
Leacock和chodorow[9]則以wordnet中最大的深度作參考, 提出如下計算公式:
其中,表示W(wǎng)ordnet分類樹的全局最深節(jié)點的深度.
1.2 基于信息內容的義項語義相似度
借鑒信息論中信息熵的概念, 基于信息內容(Information Content, IC)的算法將兩個義項的最深公共父節(jié)點(Least Common Ancestors, LCA)所包含的信息量作為兩者之間的語義相似度. 計算公式如下:
其中,為義項的LCA,()表示s的信息熵,()表示在語料庫中出現(xiàn)的頻率,s表示的子節(jié)點. 義項的信息內容由它本身以及所有的子節(jié)點概率和表示. LCA的深度越淺, 包含的子節(jié)點越多, 計算結果越小. 這正符合wordnet樹結構的特點, 樹中每一層節(jié)點都是對下一層子節(jié)點概念的抽象. 概念越抽象, 所含的信息量越小. Lin[10]直接使用LCA的信息量作為相似度的大小. Formica[11]在計算中加入了節(jié)點各自的信息內容, 公式如下:
Jiang的計算方式避免了結果中過多的小值:
一般地, 詞語由多個義項構成, 如何從義項的語義相似度得到詞匯的相似度, 常用的方法是取所有義項組合中語義相似度的最大值作為詞匯的語義相似度. 該方法計算簡單, 在很多應用中也符合詞義模糊處理的需要. 假設詞匯1的義項為s(0<≤),2的義項為s(0<≤),1和2的詞匯語義相似度計算公式如下:
傳統(tǒng)的方法雖然在相似度計算上取得了一定的效果, 但也存在著很多的問題:
1) 基于信息內容的算法同時需要專家知識庫和語料庫的支持, 加大了計算開支. 而且, 詞匯信息量的計算嚴重依賴于語料庫的質量. 不同的語料庫所計算的結果可能相差很大.
圖2 Wordnet中具體事物與抽象事物的部分結構
2) 如圖2所示, 對于抽象詞匯和具象詞匯的相似度計算, 無論是基于路徑長度還是基于信息內容的方法, 都存在天然的“弱相似性”, 這在許多場合下并不合理.
圖3 Wordnet中具體事物分支部分結構
3) 如圖3所示, 即使都為具象詞匯, 片面依賴分類學的關系, 許多在內涵上有很強關聯(lián)性的詞匯(汽車-車輪、出租車-乘客等)也無法獲得符合人工判斷的相似度.
4) wordnet中的詞匯雖然覆蓋面廣, 但在某個領域內并不詳盡, 很多術語不在其列, 而且詞匯分布發(fā)散, 相互關系不易管理.
針對以上不足, 構造了交通領域的知識關系網(wǎng)絡用以計算詞匯的語義相似度. 改進如下:
1) 采用不依賴語料庫的基于路徑長度的算法;
2) 不再區(qū)分抽象和具象事物的詞匯, 而是采用包含著語義信息的“情景發(fā)生”方式重新組織詞匯網(wǎng)絡;
3) 在上下義關系的基礎上, 增加了部件-整體、屬性-宿主等9種關系, 從不同角度還原人工語義判斷的依據(jù);
4) 搜集單個領域內完善的專業(yè)知識, 按照上述方法構建詞匯網(wǎng)絡, 并推廣至其它的領域.
2.1 交通詞匯知識網(wǎng)絡的構建
為了打破抽象詞匯和具象詞匯的天然壁壘, 不再按照抽象事物和具體事物的標準劃分詞匯, 而是根據(jù)“情景發(fā)生”的方式組織詞匯網(wǎng)絡. 本文模擬事件發(fā)生的三要素(對象, 行為和環(huán)境), 將常用的交通領域詞匯按照交通主體(包括人和交通工具)、交通行為和交通環(huán)境(交通地點、交通發(fā)生時間等)劃分.
董振強在編撰知網(wǎng)[12]時, 曾指出詞匯之間除了簡單的分類學關系外, 還有部件-整體關系、屬性-宿主關系、關系主體-事件關系、場所-事件關系、時間-事件關系、值-屬性、實體-值和工具-工具對象關系等. 這些關系反映了我們感知詞匯語義關系的不同側面. 比如“汽車”和“駕駛”是一種關系主體-事件的關系, 但在wordnet中, 它們分別屬于具體事物和抽象事物, 相關性很低. “賽車”和“快”在wordnet中分屬于不同的詞性樹, 無法進行相似度計算, 而實體-值的關系體現(xiàn)了它們語義相關的一面. 交通領域詞匯在這10種關系的實例如表1所示. 值得指出的是, 這些關系概括了人們語義判斷時一般性的詞匯關聯(lián)模式, 不止適用于交通運輸領域, 借助相應的專業(yè)知識, 可以方便地推廣至其它領域.
表1 10種基本語義關系以及交通詞匯實例
交通領域知識網(wǎng)絡的構造分為兩步. 首先利用上義和下義關系將交通領域的詞匯組織為網(wǎng)絡的基本骨架, 然后依次考察每對詞匯之間是否存在其它的聯(lián)系, 如果存在, 則在詞匯對之間添加新的關系連線. 圖4展示了本文構建的部分詞匯的關系網(wǎng)絡圖.
圖4 交通領域關系網(wǎng)絡圖部分結構
相比傳統(tǒng)的wordnet分類樹結構, 交通詞匯知識網(wǎng)絡具有四點優(yōu)勢: 第一, 打破了抽象詞匯和具象詞匯的壁壘, 從多種角度發(fā)掘詞匯的語義聯(lián)系, 第二, 領域內的詞匯意義明確, 避免了一詞多義的現(xiàn)象; 第三, 可以方便地根據(jù)實際應用的要求動態(tài)增減領域詞匯的規(guī)模; 第四, 能夠快速推廣到其它領域的詞匯.
2.2 基于平均路徑長度的相似度計算
基于信息內容的相似度算法需要額外的語料庫支撐, 不利于海量數(shù)據(jù)的計算. 本文基于路徑長度計算詞匯的語義相似度. 與wordnet中單一的上下義關系不同, 領域詞匯網(wǎng)絡中每種“線形”的路徑都代表了一種在2.1節(jié)中新加入的語義關系, 如果仍然以最短路徑計算相似度, 將忽略詞匯間多元的語義聯(lián)系, 不符合人工語義判斷的規(guī)律. 式(3)中的路徑長度不再是節(jié)點間的最短路徑長度, 而是由節(jié)點間各類型的路徑長度平均得到. 此外, 基于平均路徑長度的算法使得路徑長度參數(shù)的取值范圍由整數(shù)擴大為實數(shù), 計算的語義相似度將粒度更細, 更加平滑. 計算公式如下:
3.1 實驗設置與評價指標
結合圖像標簽排序的實際應用需求, 從圖像分享網(wǎng)站Flickr上下載了帶有“traffic”或者“vehicle”標簽的圖像1000幅. 預處理后, 這1000幅圖像一共包含2016個不重復的標簽, 我們將出現(xiàn)次數(shù)排在前300的標簽作為構造領域知識網(wǎng)絡的常用詞匯, 具體包括traffic、vehicle、car、people、street等. 為了直觀評價相似度的計算結果, 分別采用基于路徑長度的Wu和Palmer算法(以下稱WP算法)、基于信息內容的Jiang和Conrath算法(以下稱JC算法)以及本文算法來計算“vehicle”與其它交通詞匯的語義相似度. 圖5展示了歸一化后的相似度變化曲線:
圖5 “vehicle”與部分交通詞匯的語義相似度曲線
由圖5可知, 1)WP算法和JC算法的相似度曲線除了偏置量的差別, 變化趨勢基本一致; 2)本文算法由于引入了多種詞匯關系, 領域知識的相似度得到加強, 整體高于WP和JC算法; 3)與交通主體和交通地點中的詞匯相比, WP和JC算法中交通行為詞匯(多為抽象事物)與“汽車”的相似度值偏小, 而本文算法采用的關系主體-事件和場所-事件等關系克服了抽象事物和具象事物之間的天然“弱相似性”, 使結果明顯增大.
Finkelstein給出了一個包含353對詞匯的語義相似度測試集, 測試集中的每對詞匯都是由專家精心挑選, 涵蓋了從“高語義相關”到“語義不相關”的類型. 為了得到真實的人工評價, 邀請了51個受試者相互獨立的對這353對詞匯的“意義相似性”進行打分, 分值從0.0到4.0變化. 受試者打分的平均值即為該測試集的真實值. 皮爾森關聯(lián)度[13]是評價一個詞匯相似度算法的好壞常用標準. 它反映了算法所得的相似度值和Finkelstein測試集中人工判斷的結果的符合程度, 關聯(lián)度越高, 算法越好. 計算公式如下:
從Finkelstein測試集中選取了56對交通相關的詞匯, 采用wp算法、resnik算法、Lch算法、Lin算法和本文算法計算相似度, 各算法的皮爾森關聯(lián)度和部分計算結果如圖6和表2所示.
圖6 各算法的皮爾森關聯(lián)度
表2 部分Finkelstein詞匯對不同算法的相似度值
整體而言, 本文算法的計算結果更接近真實值, 有著更高的皮爾森關聯(lián)度值. 如表2所示, 在抽象詞匯與具體詞匯對(比如car-journey和car-driving等)的相似度計算中, 本文算法的結果明顯優(yōu)于lch算法. 而在lch算法中關系不大的steering和vehicle, 由于部件-整體關系的引入, 本文算法獲得了更符合人工判斷的相似度值.
3.2 在圖像標簽排序中的應用
圖像標簽排序是根據(jù)標簽與圖像內容的相關程度由大到小重新排列標簽. 詞匯語義相似度體現(xiàn)了標簽之間的親疏關系, 是圖像標簽排序的重要依據(jù). 從新加坡國立大學提供的NUS-WIDE測試集[14]中選取了“traffic”類別的圖像300幅用于標簽排序. 語義相似度分別由Lin、Lch和本文算法得到. 實驗采用歸一化折損累積增益值(Normalized Discounted Cumulative Gain, NDCG)作為評價指標. 實驗前, 由志愿者基于標簽與圖像的相關度, 對測試集中每個標簽進行打分, 分值共有5個等級, 為0至4的整數(shù), 數(shù)值越大, 相關度越大. 圖像標簽的NDCG值的計算公式如下:
其中Z是在最佳排序時, 使NDCG值歸一化為1的系數(shù),()表示第個標簽的相關度得分. 圖7為各種算法取得的平均NDCG值. 圖8展示了排序前后的標注情況.
圖7 原始標簽和各種算法排序后的NDCG值
由圖可知, 原始標注的順序很隨意, 一些與圖像內容無直接關系的標簽往往占據(jù)著靠前的位置. 三種方法都不同程度地改善了標簽的排列順序. 相比于Lin算法, 本文算法在抽象詞匯與具象詞匯相似度計算上的修正, 使得諸如“traffic-jam”、“car-crash”和“accident”等表示交通行為的詞匯得到“重視”, 排到了前列, 取得了更高的NDCG值. 這些詞匯連同其它表示交通主體、交通地點的詞匯一起立體地描繪了圖像中的“交通場景”.
詞匯的語義相似度計算是信息檢索和圖像標簽處理等中的基本問題. 常用的計算方法有基于wordnet樹結構的路徑長度法和信息內容法. 針對傳統(tǒng)算法的不足, 本文提出了基于交通領域知識網(wǎng)絡的詞匯語義相似度算法. 在上下義關系的基礎上, 增加了部件-整體、屬性-宿主和工具-工具對象等9種關系將交通領域內的常用詞匯重新構造為互相聯(lián)系的知識網(wǎng)絡. 網(wǎng)絡中的每條通路都代表了通路上節(jié)點的一種語義關聯(lián), 基于這些通路的平均路徑長度, 我們定義了一種新的詞匯的語義相似度算法. 在Finkelstein測試集和NUS-WIDE圖像集上的實驗表明, 本文算法可以取得更符合人工判斷的詞匯語義相似度.
1 Pedersen T, Pakhomov SVS, Patwardhan S, et al. Measures of semantic similarity and relatedness in the biomedical domain. Journal of Biomedical Informatics, 2007, 40(3): 288–99.
2 孫叔琦.基于統(tǒng)計的詞匯語義相關計算研究[博士學位論文].哈爾濱:哈爾濱工業(yè)大學,2014.
3 Mohammad SM, Hirst G. Distributional measures of semantic distance: A survey. Computer Science, 2012.
4 Adhikari A, Singh S, Dutta A. A novel information theoretic approach for finding semantic similarity in WordNet. TENCON. Macao, China. IEEE. 2015. 1–6.
5 Harispe S, Ranwez S, Janaqi S, et al. Semantic measures for the comparison of units of language, concepts or instances from text and knowledge base analysis. Computer Science, 2013.
6 Hoffart J, Seufert S, Nguyen D B, et al. KORE: Keyphrase overlap relatedness for entity disambiguation. 21st ACM International Conference on Information and Knowledge Management. CIKM. NY, USA. ACM. 2012. 545–554.
7 Hirst G, St-Onge D. Lexical chains as representations of context for the detection and correction of malapropisms. Fellbaum C. WordNet: An Electronic Lexical Database. Cambridge, MA, USA: MIT Press, 1998: 305–332.
8 Yu X, Sun Y, Norick B. User guided entity similarity search using meta-path selection in heterogeneous information networks. Proc. of the 21st ACM International Conference on Information and Knowledge Management. NY, USA. ACM. 2012. 2025–2029.
9 王桐,王磊,吳吉義.wordnet中的綜合概念語義相似度計算方法.北京郵電大學學報,2013,36(2): 98–101.
10 Lin D. An information-theoretic definition of similarity. Proc. of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA. Morgan Kaufmann Publishers Inc. 1998. 296–304.
11 Formica A. Concept similarity in formal concept analysis, Information Science, 2006, 176(18): 2624–2641.
12 董強,董振東.知網(wǎng)簡介. http://www.keenage.com/.
13 劉宏哲,須德.基于本體的語義相似度和相關度計算研究綜述.計算機科學,2012,39(2): 8–13.
14 Chua TS, Tang J, Hong R, et al. NUS-WIDE: A real-world web image database from National University of Singapore. ACM International Conference on Image and Video Retrieval. ACM. 2009. 1–9.
Measuring Semantic Similarity of Words Based on Traffic Field Knowledge Network
HUANG Hao, CHEN Huai-Xin
(China Electronics Technology Group Corporation No.10 Research Institute, Chengdu 610036, China)
The traditional way of calculating word semantic similarity is based on wordnet structure, which has a huge gap between physical concept and abstract concept, and only considering concepts’ hyponymy. To solve the problem, a novel word similarity calculation algorithm based on traffic field words relation network is proposed in the paper. 10 kinds of concept relationships, including concepts of hyponymy, tool-tool object relationship, standard parts-overall and so on, are used to build traffic words knowledge network. Then modified average path length parameter is used to calculate words’ semantic similarity, which accords with people’s judgement. The experiment based on Finkelstein’s 353 word pairs shows that the algorithm achieves more accurate word semantic similarity.
word semantic similarity; field knowledge network; average path length; wordnet; concept relationship rule
2016-06-21;
2016-08-08
[10.15888/j.cnki.csa.005652]