国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向中文詞匯語義相關(guān)性計(jì)算的ConceptNet與HowNet對(duì)比分析

2020-09-03 08:38:28曹靜雯王鐵鑫楊志斌李文心
關(guān)鍵詞:義項(xiàng)知識(shí)庫(kù)語義

曹靜雯,王鐵鑫,2,楊志斌,2,李文心

1(南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106)

2(高安全系統(tǒng)的軟件開發(fā)與驗(yàn)證技術(shù)-工信部重點(diǎn)實(shí)驗(yàn)室,南京 211106)E-mail:tiexin.wang@nuaa.edu.cn

1 引 言

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)和信息處理成為眾多領(lǐng)域的共同關(guān)注點(diǎn).大量的文本信息,如新聞,需求文檔等,由相關(guān)人員使用自然語言撰寫;由于自然語言的二義性,文本信息在傳遞過程中存在由于理解上的差異導(dǎo)致被錯(cuò)誤理解、傳達(dá)的可能性.對(duì)文本信息進(jìn)行語義分析,語義消歧等處理是有必要的.

自然語言使用詞語作為基本單位;詞語形成句子,句子組成文本.文本的語義由所包含的所有句子的語義構(gòu)成,而句子的語義由詞語的語義及語法規(guī)則共同決定.作為自然語言最基本的語義單元,詞語(詞匯)具有特定的語義和內(nèi)涵.對(duì)于自然人,在特定的場(chǎng)景使用語言一般不會(huì)引起歧義[1].計(jì)算機(jī)處理的語言具有多源性、語境異構(gòu)等特點(diǎn),計(jì)算機(jī)沒有自主辨別語言歧義的能力.因而需要人工輔助消除文本信息的歧義,其中涉及到的語義知識(shí)及推理,需要應(yīng)用自然語言處理NLP(Natural Language Processing)技術(shù)[2]完成.

NLP有眾多研究方向,其中語義分析是將文本轉(zhuǎn)換成可計(jì)算知識(shí)的過程.語義分析在NLP、信息檢索、信息過濾、信息分類和語義挖掘中具有廣泛的應(yīng)用.

為了提高語義分析的準(zhǔn)確性,需要搜集、創(chuàng)建大規(guī)模的語義知識(shí)資源,包括機(jī)器可處理的語義字典等.語義知識(shí)庫(kù)是語義字典的一種具體實(shí)現(xiàn)形式[3].

目前已有的語義知識(shí)庫(kù)包括:WordNet、ConceptNet[4]、HowNet[5]、DBpedia、FrameNet等;大部分語義知識(shí)庫(kù)以英文詞匯為構(gòu)建基礎(chǔ),而HowNet是針對(duì)中文詞匯建立的,ConceptNet也提供對(duì)中文詞匯語義計(jì)算的支持.

語義具有領(lǐng)域性,即同一詞匯在不同語境下的解釋存在差異.不同的語義知識(shí)庫(kù),對(duì)詞匯有不同的解釋并在詞匯間定義了特定的語義關(guān)系;基于不同的語義知識(shí)庫(kù)(或語料庫(kù)),科研人員提出了不同的語義相關(guān)性計(jì)算方法.

面向中文詞匯語義相關(guān)性計(jì)算問題,本文以兩種支持中文語義的知識(shí)庫(kù)“HowNet”及“ConceptNet”為基礎(chǔ),提出中文詞匯語義相關(guān)性的具體計(jì)算理論與方法.

本文主要貢獻(xiàn)如下:

1)分析、比較HowNet與ConceptNet語義知識(shí)庫(kù)的結(jié)構(gòu)、特征及應(yīng)用案例;

2)面向兩種知識(shí)庫(kù)各提出一種檢測(cè)中文詞匯語義關(guān)系的方法,并通過實(shí)驗(yàn)案例比較,得出HowNet適用于語義相似度檢測(cè)而ConceptNet適用于語義相關(guān)度檢測(cè)的結(jié)論;

3)探索性地提出結(jié)合兩種知識(shí)庫(kù)的語義檢測(cè)算法,以期提高檢測(cè)結(jié)果的準(zhǔn)確性,擴(kuò)展語義檢測(cè)的適用范圍.

本文結(jié)構(gòu)如下:第二節(jié)主要分析HowNet和ConceptNet的結(jié)構(gòu)及特點(diǎn);第三節(jié)介紹關(guān)于兩種知識(shí)庫(kù)已有的研究工作;第四節(jié)面向兩種知識(shí)庫(kù)分別提出語義相關(guān)性計(jì)算方法;第五節(jié)通過案例對(duì)第四節(jié)提出的計(jì)算方法進(jìn)行綜合比較;最后一節(jié)為總結(jié)和展望.

2 語義知識(shí)庫(kù)

2.1 HowNet

HowNet是動(dòng)態(tài)維護(hù)、持續(xù)更新的語義知識(shí)庫(kù);本文中使用的HowNet是官網(wǎng)于 2000年發(fā)布的(免費(fèi))版本,其中語義詞典中的總記錄數(shù)超過120,000條(仍在持續(xù)擴(kuò)充).

HowNet中定義了兩個(gè)基本概念“義原”和“義項(xiàng)”[5].

定義1.義原

義原是無法分割的最小意義單位.判斷增加新義原的首要原則是現(xiàn)有的義原集合是否能夠描述所有的概念.

定義2.義項(xiàng)

義項(xiàng)是一組義原的集合,描述了某個(gè)詞語的一項(xiàng)意思.義項(xiàng)中的第一個(gè)義原為主義原,是義項(xiàng)最基本的意義.

定義3.概念

概念是詞語的義項(xiàng)集合,一個(gè)詞語在不同的語境有不同的意思,每個(gè)意思對(duì)應(yīng)一個(gè)義項(xiàng).

HowNet中定義了1618個(gè)義原,分為以下9類:

1)Event|事件

2)entity|實(shí)體

3)attribute|屬性

4)aValue|屬性值

5)AttributeValue|屬性和屬性值

6)syntax|語法

7)qValue|數(shù)量值

8)SecondaryFeature|二特(二級(jí)特征)

9)EventRoleAndFeatures|動(dòng)態(tài)角色與特征

每個(gè)類型的義原構(gòu)成一棵義原分類樹;對(duì)于同一棵分類樹,可以計(jì)算其上任意兩個(gè)義原之間的義原距離.

定義4.義原和祖先的距離

義原所在層數(shù)和祖先所在層數(shù)的數(shù)值之差.

定義5.義原距離

即兩個(gè)義原距離他們最近公共祖先的距離之和.

義原分類樹是HowNet定義、維護(hù)語義關(guān)系的一個(gè)基礎(chǔ)文件.圖1是義原分類樹的示意.

圖1 義原分類樹示意

在一棵義原分類樹上,兩個(gè)義原的義原距離越小,則它們之間的相似性越高.義原位于的子樹(以最近公共祖先為根節(jié)點(diǎn)的樹)越低,則義原的分類越細(xì)致.在同一棵樹、同等義原距離下,接近葉子節(jié)點(diǎn)的義原之間的相似度要高于接近樹根的義原之間的相似度.

語義詞典是HowNet定義語義關(guān)系的另一個(gè)基礎(chǔ)文件,由多行記錄組成,每條記錄包括:一個(gè)中文詞語、對(duì)應(yīng)的英文單詞,兩個(gè)詞的詞性和詞的義項(xiàng)(在同一條記錄中,中英文詞語擁有相同的義項(xiàng))等.語義詞典的記錄結(jié)構(gòu)如圖2所示.

圖2 HowNet語義詞典中的記錄結(jié)構(gòu)

以詞“偶然性”為例,圖3是其在HowNet語義詞典中的存儲(chǔ)示例.

圖3 HowNet語義詞典中關(guān)于“偶然性”詞的定義

“偶然性”代表一個(gè)中文詞匯.左邊是由四個(gè)義原組成的該詞的義項(xiàng).“G_C =”和“G_E =”指明中文詞語的詞性和英語單詞的詞性.“NO.=”指明詞在字典中的序號(hào).一個(gè)中文詞匯往往可被翻譯成多個(gè)英語單詞,例如“偶然性”到三個(gè)英語單詞“chance”、“contingency”、“occasionality”.

本文中基于HowNet的中文詞匯語義相關(guān)性計(jì)算所用到的相關(guān)知識(shí)及推理基礎(chǔ)來自于“義原分類樹”和“語義詞典”兩個(gè)基本文件.

2.2 ConceptNet

ConceptNet是基于OMCS(Open Mind Common Sense)數(shù)據(jù)庫(kù)構(gòu)建的語義網(wǎng)絡(luò)[4].它以有向網(wǎng)的形式存儲(chǔ)信息,包括以下幾個(gè)結(jié)構(gòu):

定義6.節(jié)點(diǎn)

節(jié)點(diǎn)存儲(chǔ)概念,概念代表一組密切相關(guān)的自然語言短語,可以是名詞短語、動(dòng)詞短語、形容詞短語或從句.節(jié)點(diǎn)擁有自然語言標(biāo)簽,例如“en”表示英語;“zh”表示中文.

節(jié)點(diǎn)分為頭節(jié)點(diǎn)和尾節(jié)點(diǎn):頭節(jié)點(diǎn)是關(guān)系的發(fā)出方,例如“車”和“工具”具有“IsA”關(guān)系,其中“車”為關(guān)系發(fā)出方:“車是工具”.尾節(jié)點(diǎn)是關(guān)系的接收方,如“工具”.

定義7.邊(斷言)

邊代表一般知識(shí)的事實(shí),是具有主謂賓的RDF(Resource Description Framework:資源描述框架)語句,如“車是工具”.

邊用于指明關(guān)系,ConceptNet使用固定的關(guān)系集合,如“RelatedTo”等.邊上有權(quán)重,表示斷言可信度的強(qiáng)弱.

定義8.關(guān)系

關(guān)系分為單向關(guān)系和雙向關(guān)系:

單向(有向)關(guān)系,如“PartOf”,一個(gè)節(jié)點(diǎn)是另一個(gè)節(jié)點(diǎn)的一部分等:“輪胎”和“車”,“輪胎是車的一部分”.

雙向關(guān)系,例如“Synonym”,兩個(gè)節(jié)點(diǎn)上的概念互為同義詞:“human”和“人”,human是人的英文單詞.

圖4是ConceptNet中詞匯“車”節(jié)點(diǎn)及連接到該節(jié)點(diǎn)的邊,此處僅顯示其中10條邊.邊(斷言)上標(biāo)明關(guān)系名和權(quán)重;權(quán)重(weight)表示斷言的可信度,由斷言的來源決定.最新版本的ConceptNet定義了34種語義關(guān)系.兩個(gè)概念間可同時(shí)具有多個(gè)語義關(guān)系(一種語義關(guān)系也可能有多條邊).在計(jì)算語義關(guān)系時(shí),通常選擇權(quán)重≥1的邊作為參考.

圖4 關(guān)于概念節(jié)點(diǎn)“車”的語義結(jié)構(gòu)圖

3 相關(guān)工作

3.1 HowNet與ConceptNet

HowNet自2000年發(fā)布以來,受到許多學(xué)者的關(guān)注;基于HowNet提出的中文詞匯語義相關(guān)性檢測(cè)方法相繼發(fā)表.

張滬寅等人提出了一種基于HowNet改進(jìn)的語義相似度計(jì)算方法,使用主義原替換概念義項(xiàng)表達(dá)式中出現(xiàn)的具體詞,并且限制義原層次深度對(duì)相似度的影響[6].

朱新華等人提出了一種綜合HowNet與同義詞詞林的詞語語義相似度計(jì)算方法[7],根據(jù)義原層次結(jié)構(gòu)的特征,改進(jìn)了現(xiàn)有的義原相似度算法并且根據(jù)詞林的特征改進(jìn)了它的詞語相似度算法.最后,綜合考慮HowNet與同義詞林的動(dòng)態(tài)加權(quán)策略計(jì)算出最終的詞語語義相似度.

馬永起等人提出的改進(jìn)方法建立在義原軸上,考慮義原節(jié)點(diǎn)所處的深度、義原節(jié)點(diǎn)間的距離以及義原節(jié)點(diǎn)兄弟數(shù)目,在義原相似度基礎(chǔ)上,給出詞語語義相似度算法[8].

表1列出了上述相關(guān)工作的簡(jiǎn)要特點(diǎn).

表1 HowNet的已有工作

以上工作是通過HowNet基本文件內(nèi)單詞定義中的義原和義項(xiàng)實(shí)現(xiàn)詞對(duì)之間的語義相關(guān)性檢測(cè)的,檢測(cè)出的主要是詞對(duì)間的語義相似度.

ConceptNet知識(shí)庫(kù)中的語義關(guān)系來源于斷言,斷言由一句話構(gòu)成;在ConceptNet中,沒有單詞的明確定義,而是通過與單詞所在節(jié)點(diǎn)連接的邊以及邊上另一個(gè)節(jié)點(diǎn)來理解單詞的概念.

Ming-Hung Hsu等人提出了一種在拓展查詢(QE,Query Expansion)中基于ConceptNet的擴(kuò)展項(xiàng)權(quán)重自動(dòng)分配的方法[9].其基本思想為:將候選擴(kuò)展項(xiàng)分類為不同的離散權(quán)重類,例如:非常重要(heavy weight)、次重要(light weight)和不重要(no weight)等.該方法中使用了分類學(xué)習(xí)算法,支持向量機(jī)(SVM),從而自動(dòng)組合從多個(gè)來源(WordNet和ConceptNet)中提取各種類型的特征.此外,他們還在文獻(xiàn)[10]中比較了ConceptNet和WordNet在拓展查詢中的應(yīng)用,實(shí)驗(yàn)表明,兩個(gè)數(shù)據(jù)庫(kù)是互補(bǔ)的,其中前者具有更高的識(shí)別能力,而后者具有更高的概念多樣性.

Alexander Kotov等人展示了利用ConceptNet進(jìn)行拓展查詢的方法的系統(tǒng)研究結(jié)果[11].首先通過仿真實(shí)驗(yàn)證明,使用ConceptNet中的相關(guān)概念拓展查詢具有改進(jìn)難以查詢的搜索結(jié)果的巨大潛力.其次,提出并研究了幾種有監(jiān)督和無監(jiān)督的方法,用于從ConceptNet中選擇概念以進(jìn)行自動(dòng)查詢擴(kuò)展.

Robyn Speer等人介紹了“多語言和跨語言語義相似性”,以及基于ConceptNet的支持系統(tǒng)[12].該系統(tǒng)的最新版本(動(dòng)態(tài)維護(hù)、持續(xù)更新),添加了多種回退方法,用于將向量分配給詞匯表外單詞.

Mehdi Keshavarz等人基于ConceptNet開發(fā)了新的詞匯和語義相似性度量方法用于處理本體匹配[13].所提出的策略使用新的詞匯和語義匹配來尋找對(duì)應(yīng)實(shí)體.在語義方法中,作者使用ConceptNet來識(shí)別相似實(shí)體并根據(jù)它創(chuàng)建相似性矩陣,并使用標(biāo)準(zhǔn)精確度和召回方法評(píng)估所提出的測(cè)量方法,實(shí)驗(yàn)表明了所提出算法的有效性.

表2是對(duì)上述相關(guān)工作的簡(jiǎn)要總結(jié).

表2 關(guān)于ConceptNet的已有工作分析表

3.2 小結(jié)

HowNet中包含中文和英文詞匯,維護(hù)16種語義關(guān)系,以概念的定義為主;由單獨(dú)的專業(yè)團(tuán)隊(duì)創(chuàng)建并維護(hù),如表3所示.

表3 兩種知識(shí)庫(kù)的比較

ConceptNet主要依靠互聯(lián)網(wǎng)眾包、專家創(chuàng)建和游戲內(nèi)容提取,3種方式來構(gòu)建;數(shù)據(jù)來源多而廣,包含304種語言、維護(hù)34種語義關(guān)系.ConceptNet以節(jié)點(diǎn)間邊上的關(guān)系為語義檢測(cè)、判斷的基礎(chǔ).

4 語義計(jì)算方法

4.1 基于HowNet的語義檢測(cè)方法

HowNet定義并維護(hù)義原分類樹,義原的相似性可以通過義原分類樹上的義原距離來計(jì)算[14].

首先,定位兩個(gè)比較義原的最近共同祖先,然后應(yīng)用向上遞歸算法找到兩個(gè)義原到共同祖先之間的距離,求和獲得兩個(gè)義原之間的相對(duì)距離.如果兩個(gè)義原不在同一棵分類樹上,則默認(rèn)它們之間的義原距離為100.

公式(1)用于計(jì)算義原距離.在公式(1)中:

com(a,b)表示atom(義原)a和atom b最近的共同祖先,通過向上遞歸查找到.

Distance(a,com(a,b))表示atom a到義原ab最近共同祖先之間的距離.

AtomDistance(a,b)表示atom a和atom b之間的義原距離.如果兩個(gè)義原不在同一棵樹上,則該值取100.

公式(1)是一個(gè)普遍定義的計(jì)算公式.

公式(2)用于計(jì)算兩個(gè)義原的相似度.在公式(2)中:

TreeHighi表示分類樹的高度,其中i是分類樹的序號(hào);由于義原分類樹共9棵,所以i的范圍為1-9,僅考慮atom a和atom b同時(shí)位于i樹的情況.

根據(jù)文獻(xiàn)[8]等,在計(jì)算義原的相似度時(shí),在義原距離相同情況下,需要考慮義原所在深度和義原分支的疏密程度對(duì)結(jié)果值的影響.一般情況下,隨著深度的增加,義原越密,所以公式中需引入Deep.

Deep表示atom a和atom b的最近共同祖先距離根節(jié)點(diǎn)的層數(shù),因?yàn)樯疃仍酱?,劃分得越?xì);隨著Deep的增大,整個(gè)公式的值增大.假設(shè)兩個(gè)義原的義原距離為4,義原在樹上的最大距離為12,則兩個(gè)義原的義原相似性隨兩個(gè)義原的最近共同祖先深度的增加而增加,如圖5所示.

圖5 義原相似度隨因子“Deep”增加而變化的曲線圖

2×TreeHighi是兩個(gè)義原在該樹上可能有的最大距離.

AtomSim(a,b)表示atom a和atom b之間的相似性.

對(duì)于分支節(jié)點(diǎn),其第一個(gè)子節(jié)點(diǎn)與來自同一層的其他子節(jié)點(diǎn)的所有節(jié)點(diǎn)等距,因此,兩個(gè)節(jié)點(diǎn)的最遠(yuǎn)距離可粗略估計(jì)為樹高的兩倍.不同的義原分類樹具有不同的TreeHigh,應(yīng)用公式計(jì)算的前提是確定義原所在的具體分類樹.

在計(jì)算義原相似度的基礎(chǔ)上,計(jì)算具體詞語的相似度:

1)應(yīng)用公式(3)、公式(4)比較詞匯Word1和詞匯Word2的義項(xiàng)集合相似度,在公式(3)、公式(4)中:

comdef表示DEF1(Word1的義項(xiàng)集合)和DEF2(Word2的義項(xiàng)集合)中相同def(義項(xiàng))組成的集合.

|comdef|表示集合的勢(shì),即集合中元素個(gè)數(shù).

defRatio表示DEF1和DEF2中相同def的占比率,即DEF1和DEF2的相似度.

AtomDistance(a,b)=Distance(a,com(a,b))+Distance(b,com(a,b))

(1)

(2)

comdef={def|def∈DEF1∧def∈DEF2}

(3)

(4)

(5)

diffatomsim(def1,def2)=(1-sameatomRatio(def1,def2))

(6)

WordSim(Word1,Word2)=defRatio+(1-defRatio)×

(7)

如果defRatio為1,則表示DEF1和DEF2的相似度為1,則Word1和Word2的語義相似度為1,計(jì)算結(jié)束;否則,繼續(xù)計(jì)算兩個(gè)詞語之間的相似度,并分別刪除兩個(gè)DEF集合中相同的def,只在兩個(gè)詞語的不同def之間進(jìn)行相似度計(jì)算.

2)對(duì)兩個(gè)詞語的每對(duì)def中的atom進(jìn)行分析.

去除相同def后,從DEF1和DEF2中各選出一個(gè)def(定義為def1和def2)進(jìn)行比較,對(duì)于每一對(duì)def,首先需要比較兩個(gè)def的主屬性mainatom,相同為1,不同則求義原相似度.

公式(5)比較剩余的atom,如果存在相同的atom,則將其放入集合commonatom(def1,def2)中,并計(jì)算相同義原占所有義原的比率.在公式(5)中:

def1來自集合DEF1,def2來自集合DEF2.|def1|-1表示去除mainatom之外集合def包含atom的個(gè)數(shù).

sameatomRatio(def1,def2)表示def1和def2中相同atom占所有atom比率.

然后再去除相同的atom,公式(6)對(duì)剩余的atom進(jìn)行義原相似度計(jì)算,并求出所有atom之間的總相似度.在公式(6)中:

參數(shù)1-sameatomRatio(def1,def2)是不同atom之間相似度之和的權(quán)重,如果相同atom比率越高,則剩余atom的相似度計(jì)算權(quán)重下降;反之如果atom相似度過低,則剩余atom之間的相似度計(jì)算權(quán)重上升,這樣保證def之間的相似度結(jié)果差距不會(huì)太大.

∑AtomSim(a,b)表示計(jì)算所有對(duì)atom a和atom b的相似度之和,atom a屬于集合def1,atom b屬于集合def2.

|def|-1-|comatom|表示去除第一個(gè)atom和共同atom之后的集合def的勢(shì),即def中剩余atom的個(gè)數(shù).

diffatomsim(def1,def2)表示def1和def2中不同atom之間的總相似度.

3)公式(7)將所有def配對(duì),迭代計(jì)算出相似度,通過求和計(jì)算出Word1和Word2的相似度,在公式(7)中:

參數(shù)1-defRatio是不同def的相似度之和的權(quán)重,保證總相似度不超過1,并且權(quán)衡詞語相似度的結(jié)果.

參數(shù)α是主屬性的權(quán)重,默認(rèn)為0.6,參數(shù)β是其余atom的相似度的權(quán)重,默認(rèn)為0.4,這一設(shè)置保證每一對(duì)def的相似度不會(huì)超過1,參數(shù)的設(shè)置由用戶決定,用戶根據(jù)使用場(chǎng)景自主決定主屬性的比重.

|DEF|-|comdef|表示DEF集合中不同def的個(gè)數(shù).

WordSim(Word1,Word2)表示W(wǎng)ord1和Word2的相似度,即DEF1和DEF2的相似度,其取值范圍在 0-1之間.

已有工作通常選取兩個(gè)詞的義項(xiàng)之間的最大相似度為詞語的語義相似度.但是在詞匯沒有上下文背景的情況下,不能確定兩個(gè)詞匯展現(xiàn)的是特定的某意義,而應(yīng)該綜合考慮該詞匯所有的意義.本文提出的計(jì)算方法相較之前的已有工作,在考慮了義原分類樹深度對(duì)義原相似度影響的基礎(chǔ)上,結(jié)合考慮詞語的所有義項(xiàng),綜合比較兩個(gè)詞語的語義相似度,并且僅設(shè)置了一對(duì)可變參數(shù),降低人為參與,使實(shí)驗(yàn)結(jié)果更為客觀.

計(jì)算流程的整體說明如圖6所示,自頂向下的分析方法:首先分析義項(xiàng),對(duì)不同的義項(xiàng)進(jìn)行義原分析;在分析所有義原之間相似度的基礎(chǔ)上,把結(jié)果值向上傳遞,加權(quán)計(jì)算出兩個(gè)詞匯的相似度.對(duì)于一對(duì)詞匯的所有義項(xiàng)以及來自兩個(gè)詞匯的一對(duì)義項(xiàng)的所有義原,均以二分圖的形式進(jìn)行所有點(diǎn)之間的交叉匹配計(jì)算.

圖6 計(jì)算詞語相似度的流程圖

4.2 基于ConceptNet的語義檢測(cè)方法

考慮語義相似性,在ConceptNet中選擇如表4中16個(gè)語義關(guān)系(16/34)進(jìn)行檢測(cè),并賦相對(duì)(相似)值.本文所使用的是官網(wǎng)目前可下載的最新版ConceptNet5.7.0知識(shí)庫(kù).

表4 ConceptNet中語義關(guān)系及賦值

典型的語義相關(guān)性計(jì)算技術(shù)評(píng)價(jià)方法可分為兩種:

1)對(duì)比使用特定技術(shù)計(jì)算的詞匯語義關(guān)系值與人為對(duì)詞匯相關(guān)性的賦值(黃金標(biāo)準(zhǔn)數(shù)據(jù)集),通常采用Pearson相關(guān)系數(shù)和Spearman相關(guān)系數(shù)公式計(jì)算;

2)對(duì)于一個(gè)應(yīng)用的特定任務(wù),測(cè)量所提出的方法對(duì)改進(jìn)特定任務(wù)的性能的影響程度[15].

由于在已有工作中較少提及基于中文的黃金標(biāo)準(zhǔn)數(shù)據(jù)集,所以本文對(duì)語義關(guān)系的賦值主要參考了被廣泛作為參考標(biāo)準(zhǔn)的RG-65數(shù)據(jù)集[16],以英文單詞之間的語義關(guān)系值結(jié)果進(jìn)行調(diào)整的,最終使計(jì)算結(jié)果與RG-65 的Pearson相關(guān)系數(shù)結(jié)果值為0.9.

詞對(duì)間的語義相似度由它們?cè)谡Z義網(wǎng)中的關(guān)聯(lián)路徑?jīng)Q定;路徑上所有邊(關(guān)系)相似值的乘積(取所有路徑中的最大值),作為詞對(duì)間的最終相似值.本文所提方法僅考慮二重迭代的語義關(guān)系,詞對(duì)間超過3條邊的路徑不予考慮.

ConceptNet中部分語義關(guān)系,如“Synonym”“SimilarTo”“IsA”“InstanceOf”和“Antonym”,體現(xiàn)語義相似度關(guān)系;而如“DefinedAs”“HasContext”“HasProperty”等體現(xiàn)語義相關(guān)度.HowNet的設(shè)計(jì)人和開發(fā)者董振東曾說過:詞語的語義相關(guān)性是兩個(gè)詞語的相互關(guān)聯(lián)的程度,可以用詞語在同一個(gè)語境出現(xiàn)的可能性來衡量;而詞語的語義相似性反映的是詞語之間的聚合特點(diǎn).

設(shè)定關(guān)系值的閾值為0.81(0.9*0.9),即二重迭代的SimilarTo關(guān)系值.高于此閾值時(shí),判定為語義相似度,低于此閾值時(shí),判定為語義相關(guān)度.

ConceptNet中存儲(chǔ)的中文詞語包括簡(jiǎn)體和繁體,它們以“Synonym”的方式建立關(guān)聯(lián),但由于簡(jiǎn)體和繁體的一一對(duì)應(yīng)特性,相似值附為“1”.在語義檢測(cè)時(shí),同時(shí)檢測(cè)中文簡(jiǎn)體和中文繁體,結(jié)果取其最大值.

5 實(shí) 驗(yàn)

5.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

案例實(shí)驗(yàn)環(huán)境如表5所示.

表5 實(shí)驗(yàn)環(huán)境

MongoDB是面向文檔的非關(guān)系型數(shù)據(jù)庫(kù),基于分布式文件存儲(chǔ),與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)相比,更適用于大規(guī)模數(shù)據(jù)的存儲(chǔ).本文通過MongoDB建立本地化的數(shù)據(jù)集,以調(diào)用查詢.

5.2 實(shí)驗(yàn)案例與運(yùn)行結(jié)果

表6展示了作為實(shí)驗(yàn)案例的20組詞對(duì),以及基于HowNet知識(shí)庫(kù)的實(shí)驗(yàn)測(cè)試結(jié)果.

表6 語義相似度計(jì)算結(jié)果比較

與文獻(xiàn)[8]中的計(jì)算方法相比,本文中提出的計(jì)算方法得出的值具有更好的區(qū)分性,分析如下:

1)觀察“男人”和“父親”,在文獻(xiàn)[8]中比較的3個(gè)方法結(jié)果值均為1,然而“父親”一定是“男人”,“男人”卻不一定是“父親”,所以判斷結(jié)果為1,即語義相同是不夠合理的,與常理存在偏差.

2)觀察“日本”和“美國(guó)”、“日本人”和“美國(guó)人”、“劍橋大學(xué)”和“哈佛大學(xué)”這幾對(duì)的實(shí)驗(yàn)結(jié)果,主屬性是相同義原,但語義并不完全相同,結(jié)果值為1不貼近事實(shí).

綜合表中所有數(shù)據(jù),可以看出本實(shí)驗(yàn)的結(jié)果變化趨勢(shì)更加緩和,但也存在結(jié)果值數(shù)據(jù)集中的現(xiàn)象.

本實(shí)驗(yàn)案例應(yīng)用基于ConceptNet的相關(guān)語義檢測(cè)方法得到的測(cè)試結(jié)果如表7所示.

如表7所示,計(jì)算結(jié)果小于閾值(0.81),即檢測(cè)出來的關(guān)系是語義相關(guān)度.以“男人”和“責(zé)任”為例,其相關(guān)度為0.36,且是迭代語義關(guān)系.

5.3 實(shí)驗(yàn)結(jié)果分析

著眼于語義相關(guān)性檢測(cè)方法,基于HowNet的算法通過義原、義項(xiàng)等,實(shí)現(xiàn)了基于詞對(duì)信息量(information content)的計(jì)算規(guī)則;基于ConceptNet的算法是在圖(graph based)及邊權(quán)重[15]等相關(guān)算法的基礎(chǔ)上,擴(kuò)展得到的.

綜合對(duì)比表6、表7的測(cè)試結(jié)果,可以得出如下結(jié)論:

1)HowNet可以檢測(cè)出其語義詞典中所有詞匯之間的語義關(guān)系,結(jié)果取值為:0-1.義項(xiàng)完全不同的兩個(gè)詞對(duì)的語義關(guān)系值為0;義項(xiàng)完全相同的詞對(duì)間的語義關(guān)系值為1.

2)ConceptNet只能檢測(cè)出其語義網(wǎng)絡(luò)中存在一條以上有向路徑的詞對(duì)間的語義關(guān)系,結(jié)果取值為:0-1.沒有路徑連接詞對(duì)間語義關(guān)系默認(rèn)值為0;語義關(guān)系為“synonym”(僅中文簡(jiǎn)體和繁體)的語義關(guān)系結(jié)果為1.

3)以詞對(duì)“男人”、“女人”為例,兩個(gè)詞匯都是以“人”為第一義原,而義原“男”和“女”又是義原“性別”下的兩個(gè)直接分類,義原距離為2,在基于HowNet的計(jì)算方法中,得出語義相似性的值為0.79.基于ConceptNet的語義計(jì)算方法中,兩個(gè)詞匯在ConceptNet上存在迭代語義關(guān)系,故得到結(jié)果0.81.

4)在HowNet中“男人”和“責(zé)任”的語義相似性為0;在ConceptNet中可以存在迭代的語義關(guān)系.

5)從表中結(jié)果可以得出ConceptNet檢測(cè)出來的語義關(guān)系更豐富,更適用于補(bǔ)充兩個(gè)詞在語義相關(guān)度上的語義關(guān)系,且ConceptNet所包含的數(shù)據(jù)量更龐大,可擴(kuò)充語義檢測(cè)的單詞檢索范圍.

對(duì)于結(jié)合兩個(gè)數(shù)據(jù)庫(kù)的語義檢測(cè)方法,算法如下:

Knowledgebase HowNet;

Knowledgebase ConceptNet;

SR( Word A,Word B )

{

IF( Find( A,HowNet )&& Find( B,HowNet ))

RETURNCountSR( A,B,HowNet );

ELSEIF( Find( A,HowNet )&&( ! Find( B,HowNet ))){

FOR( Word C=FindNeighbor( A,ConceptNet))

IF( Find( C,HowNet ))

CountSR( C,B,HowNet );

RETURNMAX( CountSR( A,C,ConceptNet)*CountSR( C,B,HowNet )) }

ELSEIF( Find( B,HowNet )&&( ! Find( A,HowNet ))){

FOR( Word C=FindNeighbor( B,ConceptNet))

IF( Find( C,HowNet ))

CountSR( A,C,HowNet );

RETURNMAX( CountSR( C,B,ConceptNet)*CountSR( A,C,HowNet )) }

ELSE

RETURNCountSR( A,B,ConceptNet);

}

對(duì)于兩個(gè)詞A和B,計(jì)算語義關(guān)系方法可分為以下幾種情況:

1)若在HowNet語義詞典中能夠定位兩個(gè)比較詞,直接以HowNet為知識(shí)庫(kù)計(jì)算相似度;

2)如果詞A不能在HowNet語義詞典中找到,則在ConceptNet中依次遍歷詞A的所有語義鄰居-詞C,并在HowNet中計(jì)算詞C和詞B的語義相似度,并將結(jié)果值乘以詞C和詞A在ConceptNet中的語義關(guān)系值,最終取乘積最大的作為詞A和詞B的語義相似度.詞B不在HowNet語義詞典中時(shí)同理.

3)如果詞A和詞B都不在HowNet語義詞典中,則檢測(cè)詞A和詞B在ConceptNet上的語義關(guān)系值,并作為結(jié)果返回.

6 總結(jié)與展望

本文對(duì)中文詞匯語義相關(guān)知識(shí)庫(kù)HowNet和ConceptNet進(jìn)行了系統(tǒng)的分析和比較.

HowNet通過定義義原、義項(xiàng)等,提供基于信息含量的詞對(duì)間語義相似度(similarity)的計(jì)算基礎(chǔ);ConceptNet是以詞為節(jié)點(diǎn)、關(guān)系為邊的有向網(wǎng),支持詞對(duì)間的基于圖與加權(quán)邊的語義相關(guān)度(relatedness)計(jì)算.

在以上分析對(duì)比結(jié)果的基礎(chǔ)上,結(jié)合現(xiàn)有基于二者的科研工作,本文提出如下以HowNet為主,ConceptNet為輔,結(jié)合兩個(gè)語義知識(shí)庫(kù)實(shí)現(xiàn)語義檢測(cè)的理論.

該理論的核心思想是:結(jié)合使用基于“信息含量”與“圖所搜”的語義相關(guān)性計(jì)算方法.通過使用ConceptNet中定義的語義網(wǎng)絡(luò),擴(kuò)充比較詞對(duì)的范圍(找出與原比較詞具有“Synonym”“SimilarTo”等強(qiáng)相似性的詞,組成相似詞向量組);再利用HowNet提供的義原、義項(xiàng)定義,將詞對(duì)間語義計(jì)算擴(kuò)展成詞向量組間的語義計(jì)算.最終的語義計(jì)算值取匹配對(duì)中的最大值.

該理論的優(yōu)點(diǎn)是擴(kuò)充搜索范圍,最大限度的發(fā)現(xiàn)潛在語義關(guān)聯(lián);但由此會(huì)造成更多資源的消耗,并引入低效計(jì)算結(jié)果.在未來的工作中,要借助更多標(biāo)準(zhǔn)匹配數(shù)據(jù)集,如MC-30等,通過有針對(duì)性的實(shí)驗(yàn),逐步完善構(gòu)建詞向量組的規(guī)則并優(yōu)化匹配過程,最終實(shí)現(xiàn)匹配效率與資源消耗的最佳平衡.

猜你喜歡
義項(xiàng)知識(shí)庫(kù)語義
語言與語義
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
小心兩用成語中的冷義項(xiàng)
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
兩用成語中的冷義項(xiàng)
知識(shí)窗(2015年1期)2015-05-14 09:08:17
認(rèn)知范疇模糊與語義模糊
Enhanced Precision
Beijing Review(2012年37期)2012-10-16 02:24:10
語義分析與漢俄副名組合
临洮县| 堆龙德庆县| 政和县| 玛沁县| 延吉市| 阳城县| 新泰市| 康定县| 鄂托克前旗| 尉犁县| 上饶市| 六盘水市| 义乌市| 长寿区| 女性| 榆社县| 东兴市| 绥江县| 黎平县| 梧州市| 宜昌市| 平舆县| 洛川县| 阳西县| 孟州市| 长岭县| 榆中县| 南部县| 金乡县| 大丰市| 安顺市| 涿鹿县| 孝昌县| 武定县| 庄河市| 海丰县| 江孜县| 陈巴尔虎旗| 双柏县| 平昌县| 鲁山县|