国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于概念向量的文本語義相似度方法探索*

2017-07-18 12:01:48郭紅梅袁國華胡正銀
數(shù)字圖書館論壇 2017年6期
關(guān)鍵詞:詞表測度術(shù)語

郭紅梅,袁國華,胡正銀

(1. 中國科學(xué)院文獻情報中心,北京 100190;2. 中國科學(xué)院成都文獻情報中心,成都 610041)

基于概念向量的文本語義相似度方法探索*

郭紅梅1,袁國華1,胡正銀2

(1. 中國科學(xué)院文獻情報中心,北京 100190;2. 中國科學(xué)院成都文獻情報中心,成都 610041)

在對概念語義相似度方法調(diào)研的基礎(chǔ)上,本文提出基于概念向量的文本語義相似度測度方法,借助MetaMap工具抽取文本中的概念術(shù)語,將概念術(shù)語通過詞表層級結(jié)構(gòu)轉(zhuǎn)化為概念向量,通過計算兩文本中概念向量的語義相似度來測度兩文本的語義相似度。為驗證基于概念向量文本語義相似度方法的準(zhǔn)確性,選取TREC-05 genomics track數(shù)據(jù)進行實驗,實驗結(jié)果表明,本文提出的方法較常用的余弦方法更優(yōu),與專家評估方法更接近,在測度文本語義相似度上具有一定的可行性和有效性。

概念向量;語義相似度;文本相似度

1 引言

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,出版商將科技文獻加工成可供用戶查閱的PDF或HTML格式,并發(fā)布在Web上,這種電子化形式極大地提高了文本時效性[1],但同時增加了用戶從海量資源中快速準(zhǔn)確查找所需知識內(nèi)容的難度??萍嘉墨I間除書目信息的關(guān)聯(lián)外,還存在豐富的語義知識關(guān)聯(lián)[2],但目前由于缺乏對科技文獻完整的語義標(biāo)注及文本內(nèi)容相似度的準(zhǔn)確測度,讀者很難在短時間內(nèi)把握科技文獻發(fā)展脈絡(luò)及知識內(nèi)容關(guān)聯(lián)[3]。如何測度文本間語義相似度,輔助用戶對科技文獻間內(nèi)容關(guān)聯(lián)的挖掘,同時提高檢索系統(tǒng)效率,一直是文本挖掘研究中的重要問題。

目前衡量兩篇文本相似度大多基于概念空間向量模型,將文本轉(zhuǎn)換為詞匯包,卻未考慮概念的語境信息和語義層級關(guān)聯(lián)[4-5]。不少學(xué)者基于網(wǎng)頁查詢結(jié)果測度概念間語義相似度,如Li等提出非線性測度模型,融合了結(jié)構(gòu)語義信息和信息概念[6];Cilibrasi等利用搜索引擎檢索頁面數(shù)量測度兩個概念的距離,但未考慮同音異義情況,因此,對于不依賴層級分類詞表的概念,實施效果不佳[7];Sahami等通過搜索引擎返回的詞片段測度兩個查詢術(shù)語間的語義相似度,特征向量是利用詞片段中2 000個句法模式頻次形成的,并考慮到4個指標(biāo)(dice相關(guān)系數(shù)、重疊相關(guān)系數(shù)、jaccard系數(shù)和逐點相互信息)[8];Bollegala等通過網(wǎng)頁中兩個概念的關(guān)聯(lián)頁面數(shù),測度兩個概念或?qū)嶓w的語義相似度[9-10];Pilehvar等將文本表示為圖結(jié)構(gòu),從文獻、詞、段落三個層級分析文本間語義相似度[11]。但這些方法僅是基于定量指標(biāo)來測度概念的距離相似度,并未考慮概念在詞表中的語義相關(guān)性及領(lǐng)域信息。也有學(xué)者提出依照詞表中概念層級結(jié)構(gòu)測度概念間的語義相似度,Zhou等開發(fā)MeSHSim R語言包,具體包括5種基于路徑的測度方法和5種基于信息內(nèi)容的測度方法[12];Yang等基于WordNet中概念的層級位置來測度概念間語義相似度[13];Lin等基于MeSH詞表概念間的層級語義關(guān)系,提出文本主題相似度測度定量指標(biāo)[14];Bhattacharjee等提出基于概念層級的概念語義相似度測度方法[15]。以上研究僅是探索基于概念層級來測度概念語義相似度,并沒有將概念語義相似度方法擴展應(yīng)用在文本內(nèi)容的語義測度中。

在借鑒已有學(xué)者研究的基礎(chǔ)上,本文提出一種基于領(lǐng)域詞表的概念向量語義相似度方法,并將基于概念層級的語義相似度方法應(yīng)用在文本語義相似度測度中。本文首先基于領(lǐng)域詞表將概念間層級關(guān)系表示為概念向量,然后基于概念向量算法計算概念間的語義相似度,進一步依據(jù)兩文本中所抽取術(shù)語概念的語義相似度來測度兩文本的語義相似度。醫(yī)學(xué)領(lǐng)域有較成熟的MeSH詞表,詞表中疾病、藥物、基因序列、蛋白質(zhì)等概念間存在豐富的語義關(guān)聯(lián),同時該領(lǐng)域已有完善的術(shù)語和語義關(guān)系抽取工具和算法,因此,本文選取醫(yī)學(xué)領(lǐng)域數(shù)據(jù)進行實驗,以客觀準(zhǔn)確測度基于概念向量的文本語義相似度方法的有效性和可行性。

2 相關(guān)概念

2.1 概念層級的向量表示

概念向量由概念層級關(guān)系得到,概念層級由領(lǐng)域中概念間的隸屬關(guān)系形成。本文提出利用向量表示概念間層級關(guān)系,具體過程如圖1和圖2所示。對于概念層級中的概念C,其對應(yīng)的概念向量為,表示為,其中N為概念的名稱,S為概念的同義詞集為概念的層級向量,這樣每個概念都可以表示為的形式,其中m為同義詞的個數(shù),l為層級頂端到概念的個數(shù)。通過將概念層級中的每個概念轉(zhuǎn)為概念向量,這樣概念層級也轉(zhuǎn)化為概念向量層級。概念向量不僅可以清晰反映概念間的層級隸屬關(guān)系,還可通過概念向量中相同和相異層級的個數(shù)直觀揭示兩個概念的語義相似性。

圖1 概念的向量表示——概念層級

圖2 概念的向量表示——概念向量

2.2 基于概念向量的語義相似度測度方法

2.2.1 概念語義相似度

概念向量中明確給出概念間的層級語義關(guān)系,基于概念向量的表示結(jié)構(gòu)可知,兩個概念的語義相似度可通過其概念向量層級中相同和相異概念數(shù)來測度,將其稱為概念向量的語義同質(zhì)性(semantic homogeneity)和語義異質(zhì)性(semantic heterogeneity)。語義同質(zhì)性通過兩個概念向量層級中相同的概念來表征,語義異質(zhì)性通過兩個概念向量層級中不相同的概念來表征,文中將概念向量語義同質(zhì)性和語義異質(zhì)性的差值作為測度概念語義相似度(concept similarity)的標(biāo)準(zhǔn),如對于概念C1和C2,其語義同質(zhì)性、語義異質(zhì)性、概念語義相似度計算方法具體如下。

其中,n1為C1概念向量中包含的概念數(shù),n2為C2概念向量中包含的概念數(shù),j為C1和C2概念向量中相匹配的概念數(shù)。當(dāng)C1和C2為近義詞時,二者的語義同質(zhì)性為1,語義異質(zhì)性為0,從而進一步計算出C1和C2間的概念語義相似度為1。

2.2.2 文本語義相似度

文本由一系列概念術(shù)語通過一定的邏輯關(guān)系組成,本文將基于向量的概念語義相似度測度方法擴展至文本語義相似度測度,一般認為兩篇文章含有的術(shù)語概念向量語義相似度越大,這兩篇文章的內(nèi)容相關(guān)性越強,語義關(guān)聯(lián)也越強。因此,本文提出通過構(gòu)建文本的概念向量語義相似度來測度文本語義相似度的方法。為減少低頻術(shù)語和文本長度對文本語義相似度測量結(jié)果的影響,按照布拉德福分布定律選取前半部分的高頻術(shù)語作為文本內(nèi)容的表征,進而分別計算兩篇文章中高頻術(shù)語間的語義相似度,所有高頻術(shù)語語義相似度的均值即為兩個文本的語義相似度,具體計算見公式(4)。

其中,m為文本1包含的概念術(shù)語數(shù),n為文本2包含的概念術(shù)語數(shù),ci為文本1中的概念術(shù)語,cj為文本2中的概念術(shù)語。下文將以具體實驗數(shù)據(jù)來驗證該指標(biāo)用于文本語義相似度測度的有效性和科學(xué)性。

3 實驗

本文將重點對提出的基于概念向量的概念語義相似度方法和文本語義相似度方法進行實驗論證。對基于概念向量的概念語義相似度測度方法,選取WordNet中的28個概念對作為實驗數(shù)據(jù),對基于概念向量的文本語義相似度測度方法,選取TREC-05 genomics track數(shù)據(jù)進行實驗,驗證方法的有效性和可行性。

3.1 數(shù)據(jù)集的構(gòu)建

以往學(xué)者基于領(lǐng)域詞典進行概念語義相似度測度研究大多選取WordNet中的28個概念對進行實驗[16],為更好地與以往研究進行對比,仍選取這28個概念對,分別計算概念對中兩個概念間的語義相似度,以驗證概念語義相似度測度方法的有效性。

為驗證本文提出的基于概念向量的文本語義相似度計算方法的有效性,選取TREC-05 genomics track數(shù)據(jù)進行實驗,其共包含PubMed數(shù)據(jù)庫的34 633篇文獻,這些文獻被分為5個研究領(lǐng)域,分別為進行某項實驗或過程的標(biāo)準(zhǔn)方法或協(xié)議、在某種疾病中基因的作用、在特定生物過程中基因的作用、在某種疾病或器官功能中兩個或更多基因間的交互作用、特定基因變異和其生物效應(yīng)和作用,此外,每個研究領(lǐng)域又分為10個主題。領(lǐng)域?qū)<一蛟u估人員分別對50個主題中的每篇文章與該子主題的相關(guān)性進行打分(0—2分),0分表示不相關(guān),1分表示部分相關(guān),2分表示非常相關(guān),共有4 232篇文獻相關(guān)性分值為1分或2分。選取相關(guān)性論文數(shù)大于100篇的11個主題的文獻構(gòu)建實驗數(shù)據(jù)集,具體如表1所示。

表1 11個主題數(shù)據(jù)基本情況

3.2 實驗過程

MetaMap是美國國立醫(yī)學(xué)圖書館基于一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)開發(fā)的句法解析工具,可根據(jù)語義將句子拆分成若干具有意義的短語片段,并進一步將短語中的詞或詞組與UMLS詞表進行映射,獲取各術(shù)語的概念向量。實驗首先利用醫(yī)學(xué)領(lǐng)域術(shù)語抽取工具MetaMap對4 232篇實驗數(shù)據(jù)進行術(shù)語識別,并將抽取到的前半部分高頻術(shù)語與MeSH詞表中的概念和層級結(jié)構(gòu)進行映射;其次,按照上述概念層級的向量表示將每篇文章中抽取出的高頻概念術(shù)語轉(zhuǎn)化為概念向量表示,這樣每篇文章即可利用高頻的術(shù)語概念向量表示;最后,按照概念語義相似度和文本語義相似度的計算方法分別得出概念語義相似度和文本語義相似度值。

在方法的有效性驗證方面,針對概念語義相似度方法,選取以往研究的28個概念對,對比文中方法和以往較具有代表性的概念相似度測度方法,通過Person和Spearman相關(guān)分析來驗證文中方法的有效性;針對文本語義相似度測度方法,將TREC-05 genomics track人工標(biāo)注結(jié)果和余弦相似度測度方法進行對比,分別驗證概念語義相似度方法和文本語義相似度方法的有效性和可行性。具體實驗過程如圖3所示。

圖3 實驗過程

3.3 實驗結(jié)果分析

表2中28個概念對通過本文方法和以往具有代表性的概念相似度計算方法PMI[8]、Support Vector Machine-Based Approach(SVM)[8]、Relational Model Based Similarity Measurement Approach(RMSS)[9]、Co-occurrence Double Checking Model(CODC)[10]的相似度分值,表3給出5種方法的Person和Spearman相關(guān)性檢驗,從不同測度方法在28個概念對相似度的Person和Spearman相關(guān)系數(shù)可以看出,基于概念向量的文本語義相似度方法高于其他指標(biāo),且兼顧概念語境和領(lǐng)域信息,能更好地測度概念間的語義相似度。

利用MetaMap術(shù)語抽取工具分別對實驗集中的4 232篇文章進行標(biāo)題和摘要中概念術(shù)語抽取。由于抽取概念術(shù)語的個數(shù)與文本長度有關(guān),一般認為文本越長抽取到的術(shù)語概念越多。由公式(2)可知,基于概念向量的文本語義相似度方法與抽取概念術(shù)語個數(shù)相關(guān),為減少低頻術(shù)語和文本長度對文本語義相似度測量結(jié)果的影響,本文按照布拉德福分布定律對每篇文章前半部分的高頻術(shù)語進行語義相似度分析。

結(jié)合公式(3)和每篇文章抽取的前半部分高頻術(shù)語分別計算每個主題下兩個文本間的語義相似度。語義相似度越大認為兩篇文章的研究內(nèi)容越相似,一般可認為在同一個主題中語義相似度越大的文本集與該主題越相關(guān),因此將每個主題中語義相似度大于均值的文本集等同于TREC-05 genomics track系統(tǒng)中相關(guān)度分值為1分或2分的文本。從11個主題中抽取的高頻術(shù)語數(shù)、平均語義相似度和相似文本數(shù),由表4中數(shù)據(jù)可知,有8個主題通過基于概念向量方法得到的相關(guān)論文數(shù)大于TREC-05 genomics track系統(tǒng)中專家標(biāo)注相關(guān)論文數(shù)。

由表5可見,本文方法與余弦方法或TREC-05genomics track系統(tǒng)人工標(biāo)注結(jié)果的對比信息可知,在11個主題中,基于概念向量語義相似度方法識別出的相關(guān)論文數(shù)有9個主題小于余弦方法,但是與專家匹配論文數(shù)均高于余弦方法。

表2 本文方法與其他四種方法概念對語義相似度分值

表3 本文方法與其他語義相似度測度方法的相關(guān)性檢驗

由表6中數(shù)據(jù)可知,基于概念方法的準(zhǔn)確率和召回率均高于余弦方法。同一主題的論文具有相同關(guān)鍵詞,余弦方法只把術(shù)語表示為特征向量,基于文檔分布分析文本的相似度,沒有考慮術(shù)語自身的語義關(guān)聯(lián),因此很容易錯誤地將更多具有相同關(guān)鍵詞的文本判斷為一個主題?;诟拍钕蛄康姆椒骖櫺g(shù)語的語義層級關(guān)聯(lián),在語義相似度對比上更合理。層級結(jié)構(gòu)中包含一定的語義和語境,明確語境信息的重要性,通過實驗證明該方法的合理性和有效性。

表4 基于概念向量語義相似度方法實驗結(jié)果

表5 基于概念向量語義相似度方法與余弦方法相關(guān)論文集判斷結(jié)果篇

4 討論

已有學(xué)者嘗試基于詞表中的概念層級測度概念間的語義相似度,但大多局限于對詞表概念間測度方法的理論研究,并沒有將基于概念層級的測度方法應(yīng)用在文本相似度分析或文獻檢索系統(tǒng)中。本文嘗試將概念層級轉(zhuǎn)化為概念向量,并將概念向量語義相似度方法擴展到文本間語義相似度測度研究中,通過實驗驗證該思路和方法的合理性和有效性,具體體現(xiàn)在以下兩點。

表6 基于概念向量語義相似度方法與余弦方法實驗結(jié)果的對比%

(1)文本由許多具有語義信息的概念術(shù)語按照一定的邏輯關(guān)系構(gòu)成。基于概念向量的文本語義相似度測度方法在計算兩個文本的相似度時,除考慮相同或相似概念術(shù)語數(shù)外,還兼顧概念術(shù)語在詞表層級結(jié)構(gòu)上存在的邏輯和語義關(guān)系,符合文本構(gòu)成規(guī)律,利用該方法測度文本間的語義相似度具有一定的科學(xué)性和合理性。

(2)文中方法具有一定的可行性。目前很多詞表已提出適合自身的概念語義相似度測度方法,并且提供相應(yīng)算法,這為基于概念語義相似性測度文本語義相似度提供了理論和底層數(shù)據(jù)支持。此外,文中實驗數(shù)據(jù)也證明該方法較以余弦為代表的特征向量方法效果更優(yōu)。

基于概念向量的文本語義相似度方法在概念術(shù)語集的構(gòu)建和語義相似度閾值的選取上仍有待進一步優(yōu)化。目前,按照布拉德福分布定律選取前半部分的高頻術(shù)語進行語義相似度分析,造成一些低頻概念術(shù)語信息的丟失。在篩選每個主題下的相關(guān)文本時,僅選取集合內(nèi)的均值作為閾值,未來研究將考慮通過一定量的訓(xùn)練集來設(shè)定相似度閾值。此外,由于語義相似度越大的兩個文本在內(nèi)容上越相關(guān),研究主題越相似,因此未來也可進一步探索將基于概念向量的文本語義相似度方法應(yīng)用在聚類或文本語義網(wǎng)絡(luò)分析中,以實現(xiàn)對內(nèi)容相似文本的聚類分析或重要主題識別。

參考文獻

[1]CASTRO L J G,BERLANGA R,GARCIA A.In the pursuit of a semantic similarity metric based on UMLS annotations for articles in PubMed central open access[J].Journal of Biomedical Informatics,2015,57(C):204-218.

[2]D’HONDT J,VERHAEGENP A,VERTOMMEN J,et al.Topic identification based on document coherence and spectral analysis[J].Information Sciences,2011,181(18):3783-3797.

[3]MEZA B A.Searching and ranking documents based on semantic relationships[C].International Conference on Data Engineering,2006.

[4]HLIAOUTAKIS A,VARELAS G,VOUTSAKIS E,et al.Information retrieval by semantic similarity[J].International Journal on Semantic Web and Information Systems,2006,2(3):55-73.

[5]RYANG W, BERNARDH R.Techniques to identify themes[J].Field Methods,2003,15(1):85-109.

[6]LI Y,BANDAR Z A,MCLEAN D.An approach for measuring semantic similarity between words using multiple information sources[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(4):871-882.

[7]CILIBRASI R L,VITANYI P M B.The Google similarity distance[J].IEEE Educational Activities Department,2007,19(3):370-383.

[8]SAHAMI M,HEILMAN T D.A web-based kernel function for measuring the similarity of shorttext snippets[C]//Proceedings of the 15th International Conference on World Wide Web.[S.1.]:[s.n],2006:377-386.

[9]BOLLEGALA D,ISHIZUKA M,MATSUO Y.Measuring semantic similarity between words using web search engines[J].Computer Science,2015:757-766.

[10]CHEN H,LIN M,WEI Y,et al.Novel association measures using web search with double checking[C]//International Conference on Computational Linguistics.[S.1.]:[s.n],2006:1009-1016.

[11]PILEHVAR M T,NAVIGLI R.From senses to texts:an all-in-one graph-based approach for measuring semantic similarity[J].Artificial Intelligence,2015,228:95-128.

[12]ZHOU J,SHUI Y,PENG S,et al.MeSHSim:an R/Bioconductor package for measuring semantic similarity over MeSH headings and MEDLINE documents[J].Journal of Bioinformatics and Computational Biology,2015,13(6):1542002.

[13]YANG D,POWERS D M W.Measuring semantic similarity in the taxonomy of WordNet[J].Journal of Structural Biology, 2007,159(1):36-45.

[14]LIN J,WILBUR W J.PubMed related articles: a probabilistic topic-based model for content similarity[J].BMC Bioinformatics,2007,8(1):1-14.

[15]BHATTACHARJEE S,GHOSH S K.Measurement of semantic similarity: a concept hierarchy based approach[C]//Proceedings of 3rd International Conferenceon Advanced Computing, Networking and Informatics,Smart Innovation,Systems and Technologies.[S.1.]:Springer India,2016:407-418.

[16]MILLER G A.WordNet:a lexical database for English[J].Communications of the ACM,1995,38(11):39-41.

Measurement of Text Semantic Similarity on the Basis of Concept Vector

GUO HongMei1, YUAN GuoHua1, HU ZhengYin2
(1. National Science Library, Chinese Academy of Sciences, Beijing 100190, China;2. Chengdu Documentation and Information Center, Chinese Academy of Sciences, Chengdu 610041, China)

Based on the previous studies on the concept semantic similarity, this paper proposed measurement of text semantic similarity on the basis of concept vector. First, mining the concepts or terms from the texts. Second, transforming concepts or terms into concept vector followed by hierarchical structure of vocabulary.At last, measuring the sematic similarity of concepts or terms and further measuring the text semantic similarity. The paper used TREC-05 genomics track data to experiment. The results showed that the method of text semantic similarity on the basis of concept vector was better than cosine, which was more closely to expert evaluation result.

Concept Vector; Semantic Similarity; Text Similarity

G254

10.3772/j.issn.1673-2286.2017.06.006

郭紅梅,女,1985年生,博士,館員,研究方向:文本挖掘、科學(xué)計量分析,E-mail:guohm@mail.las.ac.cn。

袁國華,男,1983年生,博士研究生,工程師,研究方向:文本挖掘、網(wǎng)絡(luò)與信息安全。

胡正銀,男,1979年生,博士,副研究員,研究方向:文本挖掘、語義分析。

2017-05-08)

* 本研究得到ISTIC-EBSCO文獻大數(shù)據(jù)發(fā)現(xiàn)服務(wù)聯(lián)合實驗室基金項目“基于clique子團聚類的文本主題識別方法研究”資助。

猜你喜歡
詞表測度術(shù)語
三個數(shù)字集生成的自相似測度的乘積譜
R1上莫朗測度關(guān)于幾何平均誤差的最優(yōu)Vornoi分劃
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
英語世界(2021年13期)2021-01-12 05:47:51
非等熵Chaplygin氣體測度值解存在性
Cookie-Cutter集上的Gibbs測度
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
國外敘詞表的應(yīng)用與發(fā)展趨勢探討*
有感于幾個術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
常用聯(lián)綿詞表
對聯(lián)(2011年20期)2011-09-19 06:24:36
教育| 衡阳市| 固阳县| 仙游县| 友谊县| 安达市| 伊吾县| 洞口县| 汤阴县| 彩票| 隆回县| 迁西县| 石首市| 康乐县| 开化县| 紫金县| 扎兰屯市| 民权县| 仁怀市| 法库县| 吕梁市| 崇礼县| 积石山| 赤城县| 景东| 耿马| 工布江达县| 乾安县| 达尔| 万安县| 方山县| 许昌县| 温宿县| 东至县| 白河县| 平潭县| 平乐县| 阿合奇县| 启东市| 龙泉市| 昌邑市|