国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識(shí)圖譜關(guān)系檢錯(cuò)和知識(shí)補(bǔ)全方法研究*

2022-08-26 09:39:46王赫楠楊昕悅孫艷秋
關(guān)鍵詞:三元組知識(shí)庫(kù)主語(yǔ)

王赫楠 楊昕悅 孫艷秋

(1.遼寧中醫(yī)藥大學(xué) 沈陽(yáng) 110000)(2.遼寧工程技術(shù)大學(xué) 阜新 123000)

1 引言

1.1 知識(shí)圖譜

知識(shí)圖譜[1]這一概念最初是由谷歌公司在2012 年提出,本質(zhì)是一種由節(jié)點(diǎn)和邊組成的語(yǔ)義網(wǎng)知識(shí)庫(kù)。早在20 世紀(jì)下半葉的人工智能熱潮中就有知識(shí)圖譜的相似理論被提出,它脫胎于許多認(rèn)知心理學(xué)家提出的語(yǔ)義網(wǎng)絡(luò)的理論[2]。從1977 年到2012年這35年來,作為知識(shí)圖譜的成長(zhǎng)期,知識(shí)圖譜經(jīng)歷了專家系統(tǒng)階段及Web1.0,Web2.0 階段。WordNet、Cyc、Hownet 等大規(guī)模的人工知識(shí)庫(kù)也應(yīng)運(yùn)而生,知識(shí)工程成為人工智能的重要研究領(lǐng)域。

1.2 知識(shí)圖譜補(bǔ)全

近年來一系列的知識(shí)圖譜補(bǔ)全研究應(yīng)運(yùn)而生[3]。根據(jù)是否與知識(shí)圖譜外的非結(jié)構(gòu)化信息關(guān)聯(lián)知識(shí)圖譜補(bǔ)全可以分為兩類:一種為靜態(tài)知識(shí)圖譜補(bǔ)全;第二種為動(dòng)態(tài)知識(shí)圖譜補(bǔ)全。目前,知識(shí)表示學(xué)習(xí)對(duì)靜態(tài)知識(shí)圖譜補(bǔ)全方法起到了重要的作用。

當(dāng)前主流的知識(shí)表示方法是基于詞向量的平移不變性原理,其中最具代表性的就是在2013 年被提出來的翻譯模型TransE[4]。但TransE 并不適用于復(fù)雜的關(guān)系知識(shí)圖譜,對(duì)“1-N”關(guān)系和“N-1”關(guān)系,TransE模型在這類復(fù)雜關(guān)系的知識(shí)圖譜上表現(xiàn)不夠理想;而后Wang 等提出了TransH[5]模型,它認(rèn)為關(guān)系下的實(shí)體與實(shí)體應(yīng)該有不同的表示;Lin提出TransR[6]模型則認(rèn)為,實(shí)體與關(guān)系也不應(yīng)該在同一空間下表示,所以TransR 模型將實(shí)體空間通過關(guān)系投影矩陣投影到相應(yīng)的關(guān)系空間;Ji等提出的TransD[7]模型則更加細(xì)化了頭實(shí)體和尾實(shí)體,認(rèn)為兩者之間的屬性有較大的差異,所以需要不同的關(guān)系投影矩陣。雖然知識(shí)表示在知識(shí)圖譜補(bǔ)全中占有著重要的位置[8],但數(shù)據(jù)的稀疏性問題和過擬合問題仍然是未來需要解決的問題。

針對(duì)上述問題,本文提出了一種基于知識(shí)嵌入的知識(shí)圖譜關(guān)系檢錯(cuò)和知識(shí)補(bǔ)全方法。該方法采用了邏輯規(guī)則、相似度計(jì)算、知識(shí)嵌入、卷積神經(jīng)網(wǎng)絡(luò)等方面的理論和相關(guān)算法。從而當(dāng)?shù)玫揭粋€(gè)更新后的三元組事實(shí),預(yù)測(cè)哪些是過時(shí)需要更新的三元組,然后刪除并補(bǔ)全整個(gè)知識(shí)庫(kù)。

2 知識(shí)圖譜自動(dòng)關(guān)系檢錯(cuò)方法

2.1 知識(shí)關(guān)系檢錯(cuò)方法

1)邏輯規(guī)則判斷

邏輯規(guī)則被廣泛地用于概括當(dāng)前的信息。例如,給定一個(gè)邏輯規(guī)則:“如果x 當(dāng)前的隊(duì)伍是y,而且z 也一樣,然后x 和z 是隊(duì)友”,如圖1 所示。當(dāng)確認(rèn)<內(nèi)馬爾,隊(duì)友,梅西>是過時(shí)的信息后,根據(jù)逆否命題,可以進(jìn)一步推斷出內(nèi)馬爾或者梅西已經(jīng)離開了他們的團(tuán)隊(duì)。

圖1 邏輯關(guān)系示例

因?yàn)樵谟?xùn)練后續(xù)的二分類模型中,需要一些訓(xùn)練實(shí)例。但已知的知識(shí)庫(kù)中并不知道哪些是正例哪些是負(fù)例,這時(shí)需要給定一個(gè)已知的最新事實(shí)<s,r,o>∈T。由它與最新知識(shí)庫(kù)K 進(jìn)行匹配,得到正例和負(fù)例。結(jié)果有兩種可能,第一種是知識(shí)圖譜已有對(duì)應(yīng)的三元組信息,那么認(rèn)為這個(gè)三元組為最新的三元組,知識(shí)圖譜也是無需更新的。

但當(dāng)匹配發(fā)現(xiàn)沒有可以與之匹配的三元組的時(shí)候,需要在知識(shí)庫(kù)K 中檢測(cè)<s,r,*>,<*,r,o>,和<s,*,o>三種情況是否是過時(shí)信息,其中*是通配符,其中<s,r,*>和<*,r,o>型的三元組是通過關(guān)系r的對(duì)應(yīng)關(guān)系來判斷的。如果r 是一個(gè)一對(duì)多的關(guān)系,即一個(gè)主語(yǔ)可能對(duì)應(yīng)很多的賓語(yǔ),但一個(gè)賓語(yǔ)只對(duì)應(yīng)一個(gè)主語(yǔ)。在這種情況下<*,r,o>即為過時(shí)信息。例如,一個(gè)公司的CEO 為A,他有許多公司成員,他的下屬有很多,但他的下屬只有這一個(gè)CEO,那么當(dāng)有一條最新的消息說,這位CEO 離任后,那么他的所有下屬信息都是過時(shí)的。對(duì)于<s,*,o>型的三元組,應(yīng)該尋找在知識(shí)庫(kù)K 中是否存在關(guān)系r′與r 是不相容的關(guān)系,意思是在兩個(gè)實(shí)體之間關(guān)系r 和r′是否可以同時(shí)存在,即<s,r,o>和<s,r′,o>在知識(shí)庫(kù)K 中能否在同一時(shí)間內(nèi)成立。舉個(gè)例子,知識(shí)庫(kù)中A 是B的學(xué)生,即<A,老師,B>與B 是A 的學(xué)生,即<A,學(xué)生,B>不能同時(shí)存在。如果這種情況出現(xiàn)了,因?yàn)橐呀?jīng)確定了新增的信息為更新后的事實(shí)三元組<s,r,o>,那么可以知道知識(shí)庫(kù)中原來的三元組<s,r′,o>為過時(shí)信息。

將上述過時(shí)的三元組信息作為負(fù)例,沒過時(shí)的三元組事實(shí)作為正例,放入二分類模型中進(jìn)行分類判斷為過時(shí)的可能性是多少,這里使用了神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)。但需要針對(duì)過時(shí)三元組自定義其特征,這里強(qiáng)調(diào)在討論的所有三元組事實(shí)f:<s,r,o>都是基于當(dāng)前需要檢錯(cuò)的知識(shí)庫(kù)K 中。前三個(gè)特征用于確定實(shí)體s 是否為活躍的實(shí)體,即s 的屬性是否會(huì)發(fā)生變化。第四個(gè)特征是確定關(guān)系r是否為主動(dòng)關(guān)系,第五個(gè)特征是確定整個(gè)事實(shí),最后一個(gè)特征是估量訓(xùn)練三元組與已知最新的事實(shí)三元組之間的相關(guān)度。在這里將特征分別為δ1,δ2,δ3,δ4,δ5,δ6,下面給出具體定義和計(jì)算方法。

δ1計(jì)算實(shí)體s的屬性完備性,它是實(shí)體s的屬性數(shù)與同類型實(shí)體之間的最大屬性數(shù)之比。

其中pf為待判斷三元組f:<s,r,o>的屬性數(shù),pmax為數(shù)據(jù)庫(kù)中與是事實(shí)f同類型實(shí)體的最大屬性。

δ2特征為實(shí)體s的歷史更新頻率。它統(tǒng)計(jì)實(shí)體s被添加到知識(shí)庫(kù)后被更新的次數(shù)。

δ3特征為從其他實(shí)體到實(shí)體s 的鏈接,即實(shí)體s的入度。因?yàn)橹R(shí)圖譜的結(jié)構(gòu)是一個(gè)關(guān)系對(duì)應(yīng)一個(gè)節(jié)點(diǎn),所以也可以說是計(jì)算指向s 的實(shí)體的數(shù)量。更具體地說,如果存在三元組<s′,r,s>,則s′指向s。

δ4特征為<s,r,*>歷史更新頻率,它測(cè)量的是在s 被加入知識(shí)圖譜中后實(shí)體s 對(duì)應(yīng)的r 關(guān)系的更新次數(shù),這可以反映關(guān)系r的穩(wěn)定性。

δ5特征為事實(shí)f:<s,r,o>在存在于知識(shí)庫(kù)中的時(shí)間,它用于量化事實(shí)f在知識(shí)庫(kù)中存在的時(shí)間。

δ6特征為待測(cè)三元組f:<s,r,o>與已知最新更新的三元組f*:<s*,r*,o*>之間的關(guān)系相似度。這里引出一個(gè)計(jì)算關(guān)系相似度的理論。

因?yàn)榕c大量的描述信息的實(shí)體不同,知識(shí)庫(kù)K中的關(guān)系之間幾乎沒有上下文可以捕獲其予以相關(guān)性,所以前人的研究一般只考慮實(shí)體之間的相似性,對(duì)于關(guān)系與關(guān)系之間的研究仍然有欠缺。

為了解決上述問題,采用點(diǎn)態(tài)互信息(Pointwise Mutual Information,PMI)[9]方法,該方法可以通過三元組之間的共同元素,即主語(yǔ)和賓語(yǔ)實(shí)體,來計(jì)算兩個(gè)關(guān)系的相關(guān)性,即在本文中計(jì)算r和r*的相關(guān)性。這里認(rèn)為,當(dāng)兩個(gè)關(guān)系的主語(yǔ)和賓語(yǔ)高度保持一致時(shí)兩個(gè)關(guān)系是相似的,當(dāng)此關(guān)系的頭節(jié)點(diǎn)和尾節(jié)點(diǎn)在所有頭節(jié)點(diǎn)和尾節(jié)點(diǎn)中占的概率越大,那么這兩個(gè)關(guān)系之間的相似度越高,從概率方向可以計(jì)算出兩個(gè)關(guān)系之間的相關(guān)度。

例如,在圖2 中所示中關(guān)系“工作于”,“生活于”,“定居于”因?yàn)槿齻€(gè)關(guān)系的主語(yǔ)和賓語(yǔ)高度一致,在很多三元組中都有體現(xiàn),那么可以說這三個(gè)相關(guān)性很高,但如果像關(guān)系“學(xué)生”與“老師”這種在知識(shí)庫(kù)中主語(yǔ)和賓語(yǔ)不可能一致的兩個(gè)關(guān)系,可以認(rèn)為兩個(gè)關(guān)系之間的相關(guān)性很低。

圖2 計(jì)算關(guān)系相關(guān)性思維圖

首先定義一個(gè)概率相關(guān)函數(shù)P(r,r*)來衡量?jī)蓚€(gè)關(guān)系的相關(guān)性,即P(r,r*)的值,其中r 和r*分別為帶判斷三元組和已知最新三元組事實(shí)。計(jì)算關(guān)系r 作為主體的概率PS(r) 和r 作為客體的概率PO(r)分別如下:

其中S(r) 是知識(shí)庫(kù)中關(guān)系r 的主語(yǔ)實(shí)體的集合,O(r)為關(guān)系r 的賓語(yǔ)實(shí)體的集合,N 是知識(shí)庫(kù)中事實(shí)的總數(shù)。

則關(guān)系r和r*共同主語(yǔ)的概率PS(r∩r*),關(guān)系r和r*共同賓語(yǔ)的概率PO(r∩r*)如式(3)所示:

因此可以得出r和r*的PMI得分為

為了方便后續(xù)的計(jì)算將PMI 評(píng)分進(jìn)行歸一化處理,處理后的NPMI的值域?yàn)椋?1,+1]:

因?yàn)橹狸P(guān)系r和關(guān)系r*之間因?yàn)槊繉?duì)r和r*至少有0 個(gè)公共的事實(shí)三元組,所以不可能存在負(fù)相關(guān)關(guān)系,所以定義的P(r,r*)的相關(guān)函數(shù)如下:

所以可以得到特征值δ6為P(r,r*)。

2)神經(jīng)網(wǎng)絡(luò)二分類模型

將每個(gè)訓(xùn)練三元組構(gòu)造為一個(gè)標(biāo)簽數(shù)據(jù):<<δ1(f),δ2(f),δ3(f),δ4(f),δ5(f),δ6(f)>,y(f)>,其中每個(gè)δi( )f都是關(guān)于事實(shí)f 的特征之一,如果f 過時(shí)了,y(f)=1 否則,y(f)=0。這些標(biāo)簽訓(xùn)練數(shù)據(jù)被進(jìn)一步輸入分類器來預(yù)測(cè)事實(shí)為過時(shí)的概率。分類器將為每個(gè)三元組返回一個(gè)[0,1]的值作為過時(shí)的可能性。

通過神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)得到了一個(gè)值域?yàn)椋?,1]的預(yù)測(cè)值,通過Top-k 排序,設(shè)定閾值,高于閾值的三元組為過時(shí)的三元組信息。

使用圖3對(duì)整體模型進(jìn)行概括。

圖3 知識(shí)圖譜關(guān)系檢錯(cuò)流程圖

2.2 基于2D卷積的知識(shí)圖譜補(bǔ)全方法

1)2D卷積模型應(yīng)用于知識(shí)圖譜

知識(shí)圖譜是一個(gè)能夠提供高質(zhì)量結(jié)構(gòu)化數(shù)據(jù)的知識(shí)庫(kù),已經(jīng)廣泛的應(yīng)用于人工智能的各種領(lǐng)域,例如智能搜索,問答系統(tǒng),推薦等。所以知識(shí)圖譜的完備性和準(zhǔn)確性在各領(lǐng)域中都很重要。但如今大部分開放知識(shí)圖譜,大都是人工或者半自動(dòng)的方式構(gòu)建起來的,這些圖譜通常比較稀疏,很多隱藏的關(guān)系并沒有被挖掘出來。例如,在Freebase 和DBpedia 中,超過66%的person 條目丟失了一個(gè)出生地[10]。知識(shí)圖譜補(bǔ)全[11]的目的在于將三元組缺失的部分預(yù)測(cè)出來,從而將知識(shí)圖譜更加完整。

當(dāng)知識(shí)庫(kù)檢錯(cuò)后很可能造成知識(shí)庫(kù)中關(guān)系的缺失,所以通過知識(shí)補(bǔ)全方法來完善的知識(shí)庫(kù),使數(shù)據(jù)源更加完備可靠。本章引用了一個(gè)基于2D卷積神經(jīng)網(wǎng)絡(luò)的模型ConvE[12],并將模型融入的方法中。

在知識(shí)圖譜補(bǔ)全中引用了一個(gè)神經(jīng)鏈接預(yù)測(cè)器,ConvE[12],模型的靈感來源于計(jì)算機(jī)視覺,使用二維卷積的嵌入來預(yù)測(cè)知識(shí)圖中的新鏈接,在空間層次上直接作用于嵌入,在嵌入中引入了像素級(jí)的空間結(jié)構(gòu)。雖然像其他鏈接預(yù)測(cè)一樣大部分的模型參數(shù)仍然在關(guān)系和實(shí)體嵌入上,但利用卷積體重共享機(jī)制,只使用一個(gè)額外的72 參數(shù)提取更多一層的非線性特性,然后投射回嵌入空間得分。因此,有一個(gè)高度參數(shù)效率,可擴(kuò)展的架構(gòu),它可以很好地推廣和而且與其他常用的鏈路預(yù)測(cè)模型相比,使用很少額外的參數(shù)。

ConvE 模型比起TransE 等其他知識(shí)嵌入模型有獨(dú)特的優(yōu)勢(shì),首先卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)多層非線性特征,同時(shí)通過權(quán)值共享減少參數(shù)的數(shù)量,由于一系列正則化技術(shù)[13],也可以有效地防止過度參數(shù)化導(dǎo)致的過擬合,其次模型不僅僅可以解決1-1的問題還可以解決1-N的復(fù)雜關(guān)系,這與上節(jié)敘述的檢錯(cuò)模型相匹配,模型同時(shí)預(yù)測(cè)所有鏈接的能力遠(yuǎn)高于其他模型。

ConvE模型的優(yōu)勢(shì)如下。

Toutanova 和Chen[14]之前的工作指出,F(xiàn)B15k和WN18 包含許多冗余的、可逆的關(guān)系,但他們沒有調(diào)查這個(gè)問題的嚴(yán)重性。ConvE 模型通過設(shè)計(jì)一個(gè)簡(jiǎn)單的基于反轉(zhuǎn)規(guī)則的模型來演示其嚴(yán)重性,反轉(zhuǎn)規(guī)則在WN18 和FB15k 上實(shí)現(xiàn)了最先進(jìn)的結(jié)果,這表明模型可能會(huì)學(xué)習(xí)這個(gè)規(guī)則,而不學(xué)習(xí)知識(shí)圖譜本身。提出了一個(gè)新的版本的WN18,它是按照FB15k-237的相同的建造流程,從而緩解這個(gè)問題。

2)ConvE 模型

ConvE 模型中提出了一個(gè)神經(jīng)連接預(yù)測(cè)模型,其中輸入的實(shí)體和關(guān)系之間是由全連接層和卷積層建模進(jìn)行交互的。ConvE 模型的主要特征是對(duì)二維形狀嵌入的卷積。圖4 總結(jié)了該體系結(jié)構(gòu)。

如圖4 所示,圖中步驟1、2 為ConvE 模型中的實(shí)體和關(guān)系嵌入的重塑和連接過程;步驟3 中,由重塑后產(chǎn)生的矩陣作為一個(gè)輸入,輸入到卷積層;步驟4、步驟3中,特征圖張量被量化和映射到一個(gè)k 維的空間;并在步驟5 中與所有候選對(duì)象嵌入相連。

圖4 ConvE模型結(jié)構(gòu)圖

評(píng)分函數(shù)的正式定義如下:

前饋過程中,模型對(duì)兩個(gè)嵌入矩陣進(jìn)行行向量查找操作,一個(gè)是實(shí)體,記作E|ε|×k,一個(gè)是關(guān)系,記R|R|×k′,其中k和k′分別是實(shí)體和關(guān)系的嵌入維數(shù),|ε|和 |R|表示實(shí)體數(shù)和關(guān)系數(shù)。這個(gè)模型然后連接代表和代表,并使用它作為一個(gè)帶卷積核ω的二維卷積的輸入。這樣一個(gè)層返回一個(gè)特征圖張量Τ ∈Rc×m×n,其中c 為二維卷積核的個(gè)數(shù),m和n 為所提取的特征圖的維數(shù)。然后將張量T 在vec(T)∈Rcmn向量中進(jìn)行重塑,然后將其通過矩陣W∈Rcmn×k參數(shù)化的線性變換投影到k 維空間中,并通過點(diǎn)積與嵌入對(duì)象eo 匹配。卷積核和矩陣W是共享參數(shù),與輸入實(shí)體s和o以及關(guān)系r無關(guān)。

為了訓(xùn)練模型參數(shù),采用邏輯sigmod 激活函數(shù),將(s,r,o)三元組的分?jǐn)?shù)的對(duì)數(shù)化并且最小化下面二元交叉熵?fù)p失:

其中p是標(biāo)預(yù)測(cè),t是標(biāo)簽。

使用已矯正的線性單元作為非線性f,以更快地訓(xùn)練,并在每層后進(jìn)行批量歸一化,以穩(wěn)定、規(guī)范地提高訓(xùn)練收斂的速度。使用dropout 對(duì)模型進(jìn)行正則化,可以分為以下幾個(gè)階段:去掉嵌入,去掉卷積后的特征映射,去掉全連接層后的隱藏單元。使用Adam 作為優(yōu)化器[15],并使用標(biāo)簽平滑來減少由于標(biāo)簽的輸出非線性飽和而導(dǎo)致的過擬合。

3 結(jié)語(yǔ)

本文提出了一種基于知識(shí)嵌入的知識(shí)圖譜關(guān)系檢錯(cuò)和知識(shí)補(bǔ)全的方法,該方法分為關(guān)系檢錯(cuò)和知識(shí)補(bǔ)全兩個(gè)階段。在關(guān)系檢錯(cuò)階段,根據(jù)最新更新過的事實(shí)三元組,通過邏輯規(guī)則找出訓(xùn)練二分類模型的訓(xùn)練數(shù)據(jù)。自行定義六個(gè)特征作為標(biāo)簽輸入模型,這里為體現(xiàn)關(guān)系之間的作用,采用了PMI方法計(jì)算了兩個(gè)關(guān)系之間的相似度。通過二分類模型訓(xùn)練預(yù)測(cè)三元組為過時(shí)信息的概率,與閾值比較判斷三元組是否為過時(shí)三元組。在知識(shí)補(bǔ)全方面,采用ConvE 知識(shí)圖譜補(bǔ)全算法,將檢錯(cuò)后的知識(shí)圖譜補(bǔ)全,得到更加完整的知識(shí)庫(kù),為后續(xù)研究與應(yīng)用提供更有保障的數(shù)據(jù)源。

猜你喜歡
三元組知識(shí)庫(kù)主語(yǔ)
基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
軟件工程(2024年12期)2024-12-28 00:00:00
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
談?wù)勔龑?dǎo)主語(yǔ)從句的連接詞的用法
關(guān)于余撓三元組的periodic-模
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
盤點(diǎn)高考中的特殊句式(二)
青蘋果(2014年2期)2014-04-29 20:31:27
英語(yǔ)中的虛主語(yǔ)“it”和漢語(yǔ)中的虛主語(yǔ)“他”異同之比較
三元組輻射場(chǎng)的建模與仿真
清水河县| 大新县| 武冈市| 威信县| 桐梓县| 那曲县| 玉山县| 义乌市| 错那县| 江山市| 会理县| 慈溪市| 惠州市| 长顺县| 玛曲县| 曲沃县| 龙口市| 博爱县| 舒城县| 商丘市| 上犹县| 阿拉善右旗| 重庆市| 柞水县| 梁河县| 阳春市| 内黄县| 四子王旗| 邳州市| 普兰县| 沂水县| 观塘区| 九寨沟县| 阜城县| 涟源市| 河北区| 修水县| 宁南县| 林周县| 吉首市| 新化县|