国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知網(wǎng)的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究*

2022-03-17 10:16MariusPetrescu潘俊輝王浩暢
關(guān)鍵詞:實(shí)詞虛詞義項(xiàng)

王 輝 Marius.Petrescu 潘俊輝 王浩暢 張 強(qiáng)

(1.東北石油大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 大慶 163318)(2.普洛耶什蒂石油天然氣大學(xué) 普洛耶什蒂 100680)

1 引言

詞語(yǔ)相似度計(jì)算在面向各領(lǐng)域的自動(dòng)問(wèn)答系統(tǒng)、詞語(yǔ)語(yǔ)義排歧、信息檢索等方面都有著廣泛的應(yīng)用[1]。目前,中文詞語(yǔ)語(yǔ)義相似度計(jì)算方法大致可分為兩類:一類是依賴大規(guī)模語(yǔ)料庫(kù)統(tǒng)計(jì)詞語(yǔ)相關(guān)性,如利用相關(guān)熵[2]或平均互信息[3]等計(jì)算詞語(yǔ)相似度,計(jì)算過(guò)程復(fù)雜,計(jì)算結(jié)果受訓(xùn)練數(shù)據(jù)噪聲和數(shù)據(jù)稀疏影響;另一類是根據(jù)世界知識(shí)(Ontology)或某種分類體系(Taxonomy),借助現(xiàn)有同義詞詞林[4]、WordNet[5]、知網(wǎng)[6]等,分析詞語(yǔ)在樹(shù)型結(jié)構(gòu)中的語(yǔ)義信息進(jìn)行詞語(yǔ)相似度計(jì)算,計(jì)算方法簡(jiǎn)單有效,易受個(gè)體主觀意識(shí)影響。然而,專家所劃分的詞語(yǔ)知識(shí)概念體系具有一定權(quán)威性,根據(jù)概念關(guān)系計(jì)算詞語(yǔ)相似度計(jì)算也更合理。

與WordNet 和同義詞詞林不同,知網(wǎng)作為目前國(guó)內(nèi)詞語(yǔ)語(yǔ)義研究的主流工具,其是一部比較詳盡的詞語(yǔ)語(yǔ)義知識(shí)詞典,采用多維知識(shí)表示形式描述一個(gè)詞的語(yǔ)義。因此,基于知網(wǎng)的中文詞語(yǔ)語(yǔ)義相似度的計(jì)算,可歸結(jié)為義項(xiàng)各組合間的相似度計(jì)算,進(jìn)而逐步歸結(jié)為義原相似度的計(jì)算[7]。如,張碩望等考慮了詞語(yǔ)與義原之間的包含關(guān)系[8],王小林等簡(jiǎn)化了義原分類[9],吳華等提取詞語(yǔ)的上下文語(yǔ)境特征作為語(yǔ)義承載單元[10]。

在基于本體知識(shí)的相似度算法基礎(chǔ)上,本文深入研究知網(wǎng)描述語(yǔ)言特征和結(jié)構(gòu),綜合考慮義原距層次樹(shù)根節(jié)點(diǎn)深度、義原所在區(qū)域密度及其主次關(guān)系對(duì)義原相似度的影響,提出一種義原相似度計(jì)算改進(jìn)方法,進(jìn)而得到了新的詞語(yǔ)語(yǔ)義相似度算法。

2 基于知網(wǎng)的詞語(yǔ)語(yǔ)義相似度計(jì)算

2.1 知網(wǎng)

1988 年,中科院計(jì)算機(jī)語(yǔ)言信息工程研究中心董振東提出,自然語(yǔ)言處理系統(tǒng)需要強(qiáng)大的知識(shí)庫(kù)支持,應(yīng)首先建立一種以中英文詞語(yǔ)代表的概念為描述對(duì)象,以揭示概念間及其屬性間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)[11]。數(shù)年后,此庫(kù)被稱為知識(shí)系統(tǒng)的常識(shí)性知識(shí)庫(kù),即知網(wǎng)(HowNet)。自1999年公布以來(lái),知網(wǎng)作為一部詳盡的語(yǔ)義知識(shí)詞典,已被廣泛應(yīng)用于自然語(yǔ)言處理、機(jī)器翻譯等方面的研究。

知網(wǎng)與其他樹(shù)狀詞匯數(shù)據(jù)庫(kù)有著本質(zhì)不同,知網(wǎng)的哲學(xué)和根本特性決定了它獨(dú)特的建設(shè)方法,其側(cè)重利用中文詞語(yǔ)意義結(jié)構(gòu)特征來(lái)分析和提取義素,采用一套基于義原和關(guān)系的結(jié)構(gòu)化標(biāo)注語(yǔ)言——知識(shí)庫(kù)描述語(yǔ)言(KDML)標(biāo)注語(yǔ)義。

在知網(wǎng)中,主要包含“義項(xiàng)“和“義原”兩個(gè)概念,每個(gè)漢語(yǔ)詞語(yǔ)均由義項(xiàng)的集合語(yǔ)義來(lái)描述,義項(xiàng)由“知識(shí)表示語(yǔ)言”——義原來(lái)定義,義原則是描述概念的、不可再分的最小意義單位[12]。每個(gè)漢語(yǔ)詞語(yǔ)的義項(xiàng)可分為虛詞義項(xiàng)和實(shí)詞義項(xiàng),其中實(shí)詞義項(xiàng)集合語(yǔ)義可由四類義原集合描述組成,即第一基本義原描述、其他基本義原描述、關(guān)系義原描述、關(guān)系符號(hào)描述[13]。

2.2 詞語(yǔ)語(yǔ)義相似度計(jì)算

假設(shè)有兩個(gè)中文詞語(yǔ)w1和w2,若w1涉及n個(gè)義項(xiàng):s11,s12,…,s1n,w2涉及m 個(gè)義項(xiàng):s21,s22,…,s2m,詞語(yǔ)w1和w2語(yǔ)義相似度sim(w1,w2)定義為涉及到的各個(gè)義項(xiàng)間相似度最大值[14],如式(1)所示。

式中,sim(s1i,s2j)為義項(xiàng)s1i與s2j之間相似度。故,詞語(yǔ)語(yǔ)義相似度計(jì)算歸結(jié)為義項(xiàng)相似度的計(jì)算。

2.3 義項(xiàng)相似度計(jì)算

知網(wǎng)中,義項(xiàng)分為虛詞義項(xiàng)與實(shí)詞義項(xiàng),因此,義項(xiàng)相似度計(jì)算分為虛詞義項(xiàng)相似度計(jì)算和實(shí)詞義項(xiàng)相似度計(jì)算。

2.3.1 虛詞義項(xiàng)相似度計(jì)算

由于虛詞本身沒(méi)有詞匯意義的特點(diǎn),虛詞與實(shí)詞不可以互相替換,導(dǎo)致虛詞義項(xiàng)與實(shí)詞義項(xiàng)的相似度總是歸為零[15]。虛詞義項(xiàng)總是用句法義原或關(guān)系義原描述,故為得到虛詞義項(xiàng)相似度,實(shí)際需要計(jì)算的是其對(duì)應(yīng)的句法義原或關(guān)系義原之間相似度。

2.3.2 實(shí)詞義項(xiàng)相似度計(jì)算

實(shí)詞義項(xiàng)是用語(yǔ)義表達(dá)式來(lái)描述的,故為得到整體的實(shí)詞義項(xiàng)相似度,應(yīng)分別計(jì)算第一基本義原描述式、其他基本義原描述式、關(guān)系義原描述式及關(guān)系符號(hào)描述式四類義原集合的相似度。

1)第一基本義原描述式

指描述該實(shí)詞最基本語(yǔ)義特征的義原,也是對(duì)最重要的一個(gè)描述式,相似度記為sim1(s1,s2)。

2)其他基本義原描述式

指除第一基本義原外,用基本義原(或具體詞)描述的所有其他基本義原(或具體詞),相似度記為sim2(s1,s2)。

3)關(guān)系義原描述式

指描述式中每個(gè)特征屬性都是關(guān)系義原,如“關(guān)系義原=基本義原”或者“關(guān)系義原=(具體詞)”,相似度記為sim3(s1,s2)。

4)關(guān)系符號(hào)描述式

指所有用符號(hào)義原描述的描述式,如“關(guān)系符號(hào)基本義原(具體詞)”,相似度記為sim4(s1,s2)。

因此,可用虛詞義項(xiàng)和實(shí)詞義項(xiàng)的各部分相似度表示義項(xiàng)整體相似度,如式(2)所示。

式中,βi(1 ≤i≤4)為可調(diào)節(jié)的參數(shù),且有β1+β2+β3+β4=1,β1≥β2≥β3≥β4。后者不等式反映了sim1到sim4對(duì)義項(xiàng)相似度的影響依次減弱,由于第一基本義原描述式反映的是義項(xiàng)最貼切、最主要的特征,sim1影響最大,一般β1≥0.5。因此,義項(xiàng)相似度的計(jì)算可歸結(jié)于義原相似度計(jì)算。

2.4 義原相似度計(jì)算

義原相似度是由義原的語(yǔ)義距離計(jì)算得到的,所有義原根據(jù)上下位關(guān)系均構(gòu)成樹(shù)狀義原層次體系。然而,分屬不同義項(xiàng)領(lǐng)域的多棵樹(shù)狀義原層次樹(shù)并無(wú)交集,不同樹(shù)的義原間沒(méi)有任何可行路徑,語(yǔ)義距離也不存在,這類義原相似度為零。屬于同一棵樹(shù)的不同義原之間存在可行路徑,劉群等提出可利用義原節(jié)點(diǎn)在樹(shù)狀結(jié)構(gòu)的距離關(guān)系來(lái)計(jì)算這類義原相似度[11],如式(3)所示。

式中,p1和p2為兩個(gè)義原;dis(p1,p2)為義原p1和p2處于同棵義原樹(shù)的義原距離,當(dāng)兩義原分屬不同樹(shù)時(shí),dis(p1,p2)取一個(gè)較大常數(shù),一般取值為20[16];α為可調(diào)節(jié)的參數(shù),取值為1.6。

3 改進(jìn)的詞語(yǔ)語(yǔ)義相似度計(jì)算方法

Rigau 在利用Wordnet 計(jì)算詞語(yǔ)的語(yǔ)義相似度時(shí),提出在義原樹(shù)中,影響義原距離最主要的兩個(gè)因素是義原深度與義原密度[11]。義原深度指義原距所在層次體系樹(shù)根節(jié)點(diǎn)的路徑長(zhǎng)度,長(zhǎng)度越短,其表達(dá)的概念(即義項(xiàng))越抽象,反之,表達(dá)的概念越具體。義原深度相同的兩個(gè)節(jié)點(diǎn),若位于層次樹(shù)的越底層,其語(yǔ)義距離較大。義原密度(即義原區(qū)域密度)指義原所在層次體系樹(shù)的同層兄弟節(jié)點(diǎn)總數(shù)(含自身),總數(shù)越大,則說(shuō)明分類越細(xì)致,其攜帶的語(yǔ)義信息越詳細(xì)。路徑長(zhǎng)度相同的兩個(gè)節(jié)點(diǎn),若位于層次樹(shù)中的高密度區(qū)域,其語(yǔ)義距離應(yīng)大于位于低密度區(qū)域的相同路徑長(zhǎng)度的兩個(gè)節(jié)點(diǎn)。

因知網(wǎng)中均采用單個(gè)義原描述第一基本義原,導(dǎo)致其距離義原樹(shù)的根節(jié)點(diǎn)很近,義原深度與密度對(duì)第一基本義原影響不大,本節(jié)僅改進(jìn)除第一基本義原之外的義原相似度算法。

本節(jié)參照張小川等利用距離約束最小層次義原深度因素,保證義原距離對(duì)相似度計(jì)算結(jié)果主導(dǎo)作用的方法[6],以及葛斌等提到的綜合考慮義原層次樹(shù)的深度、密度等因素對(duì)義原節(jié)點(diǎn)權(quán)重的影響[17],改進(jìn)式(2)得到新的義原相似度計(jì)算方法,如式(4)所示。

式中,sim(p1,p2) 為義原p1和p2的相似度;dis(p1,p2) 為義原距離;min(dep(p1),dep(p2)) 為義原最小深度;max(dep(p1),dep(p2))為義原最大深度;G是義原p1和p2的最小公共父節(jié)點(diǎn);f(·)為當(dāng)前義原的兄弟節(jié)點(diǎn)個(gè)數(shù),能夠反映其所在樹(shù)中的密度信息;γ1+γ2=1,γ1和γ2為權(quán)重因子,分別取值為0.5;α和ε為調(diào)節(jié)參數(shù),取值分別為0.5和2。

李蕾等認(rèn)為義原深度越大,義原距離越?。涣x原密度越大,義原距離越小。綜合考慮義原深度與義原密度,設(shè)置權(quán)重因子來(lái)限制義原深度與義原密度的影響[18],將dis(p1,p2)義原距離取為邊權(quán)重之和,如式(7)所示。

式中,weight(ip,q)為層次樹(shù)種每條邊的權(quán)重,隨層數(shù)遞增而單調(diào)遞減;ip,q為義原p與q之間的邊;q是義原p的上一層父節(jié)點(diǎn);depth為當(dāng)前義原層次樹(shù)樹(shù)高;kp為義原p所在層編號(hào);max 為義原p所在樹(shù)中所有義原節(jié)點(diǎn)總數(shù);c1+c2=1,c1和c2為權(quán)重因子,分別取值為0.7和0.3;θ為調(diào)節(jié)參數(shù),取值為4。

4 實(shí)驗(yàn)結(jié)果與分析

本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自《知網(wǎng)》網(wǎng)站(http://www.keenage.com/)。根據(jù)文獻(xiàn)[11]多次嘗試中取得的經(jīng)驗(yàn),結(jié)合多次實(shí)驗(yàn),設(shè)置了實(shí)驗(yàn)參數(shù)值,如表1 所示。

表1 實(shí)驗(yàn)參數(shù)設(shè)置

本文實(shí)驗(yàn)使用5 種不同方法來(lái)計(jì)算比較義原相似度,實(shí)驗(yàn)結(jié)果如表2 所示。方法1 為文獻(xiàn)[11]算法;方法2 為文獻(xiàn)[6]算法;方法3 為文獻(xiàn)[17]算法;方法4為文獻(xiàn)[18]算法;方法5為本文算法。

表2 實(shí)驗(yàn)結(jié)果對(duì)比

方法1 僅考慮了詞語(yǔ)中義原距離因素,沒(méi)有考慮義原層次樹(shù)種節(jié)點(diǎn)深度與區(qū)域密度的影響,因而實(shí)驗(yàn)結(jié)果比較粗糙,如“男人-女人”、“男人-母親”相似度相同,且接近于“男人-父親”相似度。方法2 與1 比較,部分?jǐn)?shù)據(jù)有所降低,主要是因?yàn)榉椒?在義原語(yǔ)義相似度計(jì)算中用集合的加權(quán)平均值代替了最大值,使得實(shí)驗(yàn)結(jié)果稍客觀,效果不夠明顯。方法3與方法1、2比較,由于加入了層次權(quán)重,可以比較細(xì)膩地區(qū)別不同詞匯,更符合人為認(rèn)知判定標(biāo)準(zhǔn),比如“男人-母親”相似度明顯降低;“男人-父親”相似度在前兩個(gè)方法中相同,但在方法3中有所降低,這是符合人為判定標(biāo)準(zhǔn)的。但也有不太合理的地方,比如“男人-女人”相似度在前三個(gè)方法中,均得到了大于或等于“男人-和尚”相似度的數(shù)值。方法4 與前三個(gè)方法比較,由于加入了調(diào)整義原深度與密度主次關(guān)系的權(quán)重因子,大部分相似度更加合理,只出現(xiàn)了個(gè)別相似度遺漏,比如“男人-父親”相似度重新回到方法1的數(shù)值。方法5與前四個(gè)方法比較較為合理,在深入分析義原深度、義原區(qū)域密度及其主次關(guān)系之后,將詞語(yǔ)語(yǔ)義相似度刻畫(huà)較為細(xì)致,使得原本相似度高的詞計(jì)算出的相似度更高,反之原本相似度低的詞計(jì)算出的相似度更低;又因?yàn)閰⒖剂朔椒? 的層次權(quán)重,更好呈現(xiàn)出了符合人為認(rèn)知判定的實(shí)驗(yàn)結(jié)果,比如“男人-父親”相似度沒(méi)有重新回到方法1的數(shù)值。

5 結(jié)語(yǔ)

不同于其他語(yǔ)義詞典,知網(wǎng)采用了上千個(gè)義原,通過(guò)KDML描述每個(gè)義項(xiàng)。為了更好地計(jì)算兩個(gè)詞語(yǔ)語(yǔ)義表達(dá)式相似度,本文將其分解成多個(gè)部分語(yǔ)義表達(dá)式,在保證義原距離對(duì)最終相似度計(jì)算結(jié)果的主導(dǎo)作用前提下,綜合考慮了義原距離、義原深度、義原密度對(duì)義原相似度的影響,構(gòu)建出一種新的詞語(yǔ)語(yǔ)義相似度計(jì)算方法,結(jié)合實(shí)驗(yàn)結(jié)果對(duì)比分析,驗(yàn)證了該算法更為合理和準(zhǔn)確。但由于漢語(yǔ)詞匯本身的復(fù)雜性、多義性等因素,詞語(yǔ)語(yǔ)義相似度計(jì)算仍有很大的研究空間,今后將側(cè)重從信息論的角度深入研究義原樹(shù)中擁有的信息量對(duì)相似度的影響。

猜你喜歡
實(shí)詞虛詞義項(xiàng)
高中文言文教學(xué)中如何把握“虛詞于構(gòu)句達(dá)意之作用”
掌握文言文閱讀中的“實(shí)”與“虛”
Note from the Editor-in-Chief
兩用成語(yǔ)中的冷義項(xiàng)
高考專題復(fù)習(xí)之文言實(shí)詞詞義猜想與推斷
高考文言實(shí)詞釋義的誤區(qū)與對(duì)策
高考英語(yǔ)短語(yǔ)分類展播
虛詞使用五種錯(cuò)誤例析