杜亞茹,黃媛,高欣娜,武猛,李海杰,楊英茹
(1. 石家莊市農(nóng)林科學(xué)研究院,石家莊市,050041; 2. 石家莊市農(nóng)業(yè)信息化工程技術(shù)創(chuàng)新中心,石家莊市,050041;3. 河北省都市農(nóng)業(yè)技術(shù)創(chuàng)新中心,石家莊市,050041)
隨著信息社會(huì)的發(fā)展,海量的開放鏈接數(shù)據(jù)和用戶生成的內(nèi)容在互聯(lián)網(wǎng)上發(fā)布和共享[1],人們迫切地需要建立標(biāo)準(zhǔn)化的知識(shí)模型以解決知識(shí)的共享問題。由Google公司提出的知識(shí)圖譜,以知識(shí)單元為基礎(chǔ),快速把握學(xué)科前沿領(lǐng)域[2]。知識(shí)圖譜作為增強(qiáng)搜索功能的知識(shí)庫,近幾年得到迅速的發(fā)展。
人們通常采用語義網(wǎng)絡(luò)圖的形式來組織知識(shí)圖譜中的知識(shí)條目,圖中的節(jié)點(diǎn)表示實(shí)體,邊表示關(guān)系。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,表示學(xué)習(xí)技術(shù)以分布式表示為理論基礎(chǔ),旨在將知識(shí)圖譜中的實(shí)體和關(guān)系用一組低維實(shí)值的向量進(jìn)行表示,很大程度上解決了網(wǎng)絡(luò)形式的表示方法在計(jì)算過程中面臨的計(jì)算效率和數(shù)據(jù)稀疏問題。知識(shí)表示學(xué)習(xí)模型,最初是建立在知識(shí)圖譜的基礎(chǔ)上,但是它貫穿在整個(gè)知識(shí)圖譜的構(gòu)建過程中,不僅可用于信息抽取[3],還可以應(yīng)用在知識(shí)融合[4]和知識(shí)推理等方面[5-6]。隨著Mikolov等在2013提出word2vec[7],知識(shí)的表示學(xué)習(xí)技術(shù)越來越受到重視。Word2vec是一款將詞表征為實(shí)數(shù)值向量的工具包,該工具包主要利用深度學(xué)習(xí)的思想,通過訓(xùn)練可以將文本內(nèi)容轉(zhuǎn)化為向量來完成信息處理,并通過計(jì)算向量間的差值來衡量對(duì)應(yīng)文本內(nèi)容的語義相似度。在此基礎(chǔ)上,Bordes等提出表示學(xué)習(xí)的翻譯模型TransE,TransE模型是一種簡單有效的表示學(xué)習(xí)方案,其主要思想是將知識(shí)圖譜中的關(guān)系看作頭實(shí)體到尾實(shí)體的一種翻譯操作。近幾年來,許多研究者對(duì)TransE進(jìn)行擴(kuò)展,先后提出了TransH,TransAH[8],TransR,TransD,PTransE,STransE[9]等模型對(duì)復(fù)雜關(guān)系進(jìn)行建模,但是不同的模型有不同的局限性,還需根據(jù)領(lǐng)域和數(shù)據(jù)集的特點(diǎn)進(jìn)行針對(duì)性的拓展。由于大多數(shù)的表示學(xué)習(xí)技術(shù)針對(duì)大規(guī)模的英文全局知識(shí)圖譜,如趙明等[10]利用本體費(fèi)分類關(guān)系的提取方法構(gòu)建基于植物領(lǐng)域知識(shí)圖譜,但基于中文蔬菜領(lǐng)域知識(shí)圖譜的表示學(xué)習(xí)技術(shù)的研究卻鮮見報(bào)道,隨著農(nóng)業(yè)大數(shù)據(jù)時(shí)代的到來[11],這方面的研究和應(yīng)用越來越重要。因此,本文在蔬菜信息領(lǐng)域,研究基于多種數(shù)據(jù)源構(gòu)建蔬菜知識(shí)圖譜的方法,在知識(shí)圖譜的構(gòu)建、命名實(shí)體識(shí)別和基于知識(shí)圖譜的語義檢索等方面展開工作,并在TransE翻譯模型基礎(chǔ)上進(jìn)行改進(jìn),對(duì)該領(lǐng)域一對(duì)多、多對(duì)一和多對(duì)多的復(fù)雜屬性關(guān)系進(jìn)行表示學(xué)習(xí)。
蔬菜領(lǐng)域的概念體系結(jié)構(gòu)較復(fù)雜,實(shí)體的屬性關(guān)系也復(fù)雜多樣,比如蔬菜領(lǐng)域涉及蔬菜生長發(fā)育規(guī)律及其與外界環(huán)境條件的關(guān)系、病蟲害防治、土壤與營養(yǎng)、栽培技術(shù)、輪作套種和遺傳育種等方面,其中,一個(gè)屬性關(guān)系往往包含兩個(gè)或兩個(gè)以上的屬性值,這給表示學(xué)習(xí)造成了極大的困難,使得蔬菜乃至整個(gè)農(nóng)業(yè)領(lǐng)域中,基于知識(shí)圖譜的表示學(xué)習(xí)技術(shù)研究相對(duì)薄弱。
TransE模型雖然在知識(shí)表示學(xué)習(xí)的過程中發(fā)揮了令人滿意的效果,但該模型在處理不同類別關(guān)系的時(shí)候?qū)W習(xí)的效果不同。由TransE模型的原理可知,對(duì)于一個(gè)三元組(h,r,t)(h表示頭實(shí)體,r表示關(guān)系,t表示尾實(shí)體),學(xué)習(xí)目標(biāo)是h+r≈t,對(duì)于同一個(gè)頭實(shí)體和關(guān)系來說,不同的尾實(shí)體在向量空間中趨于同一點(diǎn)。例如:(西紅柿,病害是,條腐病)和(西紅柿,病害是,細(xì)菌性葉斑病),將這兩個(gè)三元組映射到同一個(gè)低維的向量中,條腐病和細(xì)菌性葉斑病趨于重合。條腐病和細(xì)菌性葉斑病對(duì)于都屬于西紅柿的病害這一點(diǎn)雖然相似,但從二者的癥狀來看,發(fā)病原因和防治辦法等均不同。所以,TransE忽略了同類別向量的語義差別,在表示1-1關(guān)系的時(shí)候?qū)W習(xí)效果較好,但是在處理1-N,N-1,N-N等復(fù)雜的關(guān)系這些相似的情況時(shí)學(xué)習(xí)效果較差,從方法本身對(duì)于不同類別關(guān)系的表示就存在一定的局限性。
本文針對(duì)蔬菜領(lǐng)域知識(shí)圖譜的實(shí)體和關(guān)系特點(diǎn),提出PTA(Path-based TransE for Attribute)模型,在TransE模型的基礎(chǔ)上進(jìn)行改進(jìn),借助路徑表示學(xué)習(xí)模型解決該領(lǐng)域復(fù)雜屬性關(guān)系(一對(duì)多、多對(duì)一和多對(duì)多)表示學(xué)習(xí)問題[12]。
從蔬菜領(lǐng)域知識(shí)圖譜的構(gòu)建過程中可以看出,除了上下位關(guān)系,蔬菜領(lǐng)域包括大量的非分類關(guān)系,其中實(shí)體間的非分類關(guān)系(諸如輪作關(guān)系、間作關(guān)系等)只占小部分,絕大部分是屬性關(guān)系。屬性關(guān)系具體包括:病害有、蟲害有、營養(yǎng)價(jià)值、藥用價(jià)值、生長環(huán)境等,而且該領(lǐng)域中,屬性關(guān)系一般包含兩個(gè)或兩個(gè)以上的屬性值。例如,(h張三,r1出生城市,e1石家莊),(e1石家莊,r2是省會(huì)城市,e2河北省),(e2河北省,r3隸屬國家,t中國)。從以上三個(gè)三元組中可以得出,h實(shí)體張三和t實(shí)體中國之間可以通過r1出生城市,r2是省會(huì)城市,r3隸屬國家三個(gè)關(guān)系共同構(gòu)成,如此推理可得到一個(gè)新的三元組(h張三,r出省國家,t中國)。當(dāng)然,這屬于典型三階關(guān)系推理,在蔬菜領(lǐng)域,由于含有的實(shí)體數(shù)量較少,關(guān)系路徑?jīng)]有如此復(fù)雜,而且關(guān)系主要集中在屬性關(guān)系,因此,受到路徑推理的啟發(fā),PTA模型的目的在于借助路徑推理的思想來表示蔬菜領(lǐng)域知識(shí)圖譜中復(fù)雜的屬性關(guān)系,并將路徑也一起映射到低維的實(shí)值向量空間中。
但是針對(duì)蔬菜領(lǐng)域?qū)傩躁P(guān)系的復(fù)雜性,本文做出兩個(gè)基本假設(shè):第一,蔬菜領(lǐng)域三元組種所包含的蔬菜實(shí)體名稱和屬性值均歸為實(shí)體范疇;第二,為屬性關(guān)系涉及到的上下位關(guān)系ISA增加方向關(guān)系FISA,例如,三元組(青稞病,ISA,病害名稱)和(病害名稱,F(xiàn)ISA,青稞病)表示的語義關(guān)系均為“青稞病是一種病害名稱”,知識(shí)由于頭實(shí)體和尾實(shí)體互換了位置,導(dǎo)致上下位關(guān)系的名稱發(fā)生了變化。
與人物關(guān)系圖譜,歌曲圖譜或中醫(yī)藥知識(shí)圖譜不同,蔬菜領(lǐng)域所包含的實(shí)體間關(guān)系較少,主要的關(guān)系為輪作,間作等關(guān)系,除此之外,均可以歸為屬性關(guān)系。屬性關(guān)系又根據(jù)其復(fù)雜度進(jìn)行歸類,主要包含以下4個(gè)類別。
圖1的四幅圖分別表示了以上四種屬性關(guān)系的路徑規(guī)劃示意圖,實(shí)心的圓圈表示蔬菜領(lǐng)域知識(shí)圖譜中已有的實(shí)體,空心的圓圈表示增加的屬性模糊實(shí)體。該屬性模糊實(shí)體的增加主要體現(xiàn)在三元組的數(shù)據(jù)集中,如圖1(b)所示,三元組(西紅柿,別名是,番茄)和(西紅柿,別名是,蕃柿)轉(zhuǎn)化為三元組(西紅柿,別名是,別名屬性),(別名屬性,F(xiàn)ISA,番茄),(別名屬性,F(xiàn)ISA,蕃柿),其中,“別名屬性”作為屬性模糊實(shí)體來處理。
(a) 1-1關(guān)系 (b) 1-N關(guān)系
PTA對(duì)于每一個(gè)三元組(h,r,t)也定義了相應(yīng)的能量函數(shù)
G(h,r,t)=E(h,r,t)+E(h,p,t)
(1)
式中:E(h,r,t)——三元組實(shí)體間存在直接關(guān)系的相關(guān)性;
E(h,p,t)——三元組(h,p,t)的能量函數(shù),涉及到關(guān)系路徑p的向量化表示。
(2)
關(guān)系路徑向量p=(r1,r2)可以由三種不同的運(yùn)算方式得到,其中r1和r2分別表示兩種關(guān)系。
1) 相加(ADD)。加法運(yùn)算即將關(guān)系路徑所包含的所有關(guān)系向量進(jìn)行相加操作。
p=r1+r2
(3)
2) 相乘(MUL)。乘法運(yùn)算即將關(guān)系路徑所包含的所有關(guān)系向量進(jìn)行相乘操作,在語義網(wǎng)中,相加和相乘算法已被廣泛應(yīng)用于相關(guān)短語和句子的合成任務(wù)中。
p=r1·r2
(4)
3) 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。循環(huán)神經(jīng)網(wǎng)絡(luò)在語義組成上也被廣泛應(yīng)用。
ci=f([ci-1;ri])
(5)
式中:f——一個(gè)非線性的函數(shù);
[ci-1;ri]——兩個(gè)向量的聯(lián)結(jié)。
通過設(shè)置c1=r1來對(duì)關(guān)系路徑進(jìn)行基于循環(huán)神經(jīng)網(wǎng)絡(luò)的迭代,最后得到p=cn。對(duì)于一個(gè)屬性關(guān)系路徑三元組(h,p,t),本文定義的能量函數(shù)為E(h,p,t)=‖h+p-t‖,但是,由于上述工作已經(jīng)對(duì)直接關(guān)系三元組(h,r,t)求出了E(h,r,t)=‖h+r-t‖的最小值來保證r≈t-h,在此可直接獲得屬性關(guān)系路徑的能量函數(shù),當(dāng)屬性關(guān)系路徑p與直接關(guān)系r一致的時(shí)候,可同時(shí)獲取其最小值。
E(h,p,t)=‖p-(t-h)‖=‖p-r‖
=E(p,r)
(6)
首先需要從百度百科和互動(dòng)百科中下載蔬菜詞條作為構(gòu)建蔬菜領(lǐng)域知識(shí)圖譜的語料。由于百科詞條中均缺乏準(zhǔn)確詳細(xì)的分類標(biāo)簽,因此需要先構(gòu)建蔬菜詞表,根據(jù)已有的蔬菜領(lǐng)域本體結(jié)構(gòu)框架得到蔬菜實(shí)體的詞表,包括14個(gè)分類,共213種。本文利用蔬菜詞表及其分類情況,采用Python編寫的數(shù)據(jù)采集工具提取蔬菜百科中的相關(guān)文本,包括蔬菜簡介、結(jié)構(gòu)化表格以及目錄中的相關(guān)信息,按照文本文檔的形式進(jìn)行存儲(chǔ)。然后進(jìn)行數(shù)據(jù)清洗,刪除噪音和空行,如圖2所示。
圖2 網(wǎng)頁解析結(jié)果文檔
在語料采集結(jié)束后,利用Jieba分詞系統(tǒng)對(duì)其進(jìn)行全模式分詞,分詞后為后續(xù)的模式識(shí)別和基于文本的Word Embedding做準(zhǔn)備,分詞結(jié)果如圖3所示。
圖3 文檔分詞結(jié)果
知識(shí)的表示學(xué)習(xí)在知識(shí)圖譜初步構(gòu)建的前提下進(jìn)行,除了要獲得蔬菜領(lǐng)域?qū)嶓w及其別名信息,還要獲取關(guān)系(包含分類關(guān)系和非分類關(guān)系)。由于蔬菜的絕大部分非分類關(guān)系均為屬性關(guān)系,因此,本文更加注重蔬菜屬性關(guān)系的表示學(xué)習(xí)。
圖4表示的是蔬菜領(lǐng)域知識(shí)圖譜的三元組示例。
圖4 蔬菜領(lǐng)域知識(shí)圖譜三元組示例
其中包含上下位關(guān)系,和諸如拉丁學(xué)名、別名信息、分布地區(qū)、播種方法、栽培技術(shù)、病蟲害、營養(yǎng)價(jià)值、食用價(jià)值和藥用價(jià)值等屬性關(guān)系。分析圖4可知,蔬菜領(lǐng)域的屬性關(guān)系的復(fù)雜性,大多數(shù)屬性關(guān)系都有可能對(duì)應(yīng)有兩個(gè)以上的頭實(shí)體或?qū)傩灾?,因此,在?duì)這些三元組進(jìn)行表示學(xué)習(xí)時(shí),要特別注意這類復(fù)雜關(guān)系的建模和相關(guān)問題的處理。
利用表示學(xué)習(xí)的TransE模型,將知識(shí)圖譜中的實(shí)體和關(guān)系映射在一個(gè)低維稠密的實(shí)值向量空間中。本文選取根菜類,薯芋類等12個(gè)類別的蔬菜三元組作為訓(xùn)練數(shù)據(jù),食用菌(共37種蔬菜)三元組作為測(cè)試數(shù)據(jù),芽苗菜(共25種蔬菜)三元組作為校驗(yàn)數(shù)據(jù),如表1所示。
表1 知識(shí)表示學(xué)習(xí)TransE模型數(shù)據(jù)集Tab. 1 Knowledge representation learning TransE model data set
在PTA模型中,除了對(duì)實(shí)體進(jìn)行映射之外,還需要對(duì)關(guān)系路徑進(jìn)行映射,這里的關(guān)系路徑主要由屬性關(guān)系和上下位關(guān)系構(gòu)成,一對(duì)多和多對(duì)一關(guān)系為二階路徑翻譯模型,多對(duì)多關(guān)系為三階路徑翻譯模型。其中,別名信息,病蟲害關(guān)系,營養(yǎng)價(jià)值,藥用價(jià)值等屬性關(guān)系均存在以上的情況,因此,需要為圖譜添加屬性模糊實(shí)體和關(guān)系路徑如表2所示,數(shù)據(jù)統(tǒng)計(jì)情況如表3所示,其中訓(xùn)練數(shù)據(jù),校驗(yàn)數(shù)據(jù)和測(cè)試數(shù)據(jù)按照20∶1∶1的概率隨機(jī)劃分。
表2 部分二階路徑關(guān)系規(guī)劃表Tab. 2 Part of the second-order path relation programming table
表3 知識(shí)表示學(xué)習(xí)PTA模型數(shù)據(jù)集Tab. 3 Knowledge representation learning PTA model data set
對(duì)比表1和表3可見,實(shí)體數(shù)目增加了210個(gè),三元組總條目增加了704條。這些增加的實(shí)體數(shù)目和三元組條目即為PTA模型中增加的屬性模糊實(shí)體和拓展的相關(guān)的三元組。
PTA模型的訓(xùn)練得到的實(shí)體向量、關(guān)系向量和關(guān)系路徑向量。其中,關(guān)系路徑向量維度為100,且訓(xùn)練模型最佳參數(shù)配置與TransE模型相同。
由于本文涉及到的蔬菜領(lǐng)域知識(shí)圖譜三元組大多經(jīng)過人工提取,雖然準(zhǔn)確率較高,但是有太多因素會(huì)導(dǎo)致圖譜的知識(shí)覆蓋率較低,因此,后續(xù)工作亟待解決的一個(gè)問題,就是知識(shí)圖譜的動(dòng)態(tài)更新,對(duì)于每一個(gè)有所缺失的三元組,均利用知識(shí)表示學(xué)習(xí)模型進(jìn)行補(bǔ)全。知識(shí)圖譜的補(bǔ)全選用鏈接預(yù)測(cè)(Link Prediction)作為一個(gè)評(píng)價(jià)指標(biāo)用來衡量表示學(xué)習(xí)模型的效果,本文主要從實(shí)體預(yù)測(cè)方面分別對(duì)TransE模型和PTA模型在以蔬菜領(lǐng)域知識(shí)圖譜中進(jìn)行對(duì)比。
其中,對(duì)于每一個(gè)缺失頭實(shí)體或確實(shí)尾實(shí)體的三元組,本文采用隨機(jī)梯度下降算法計(jì)算打分函數(shù),然后對(duì)所有的候選實(shí)體進(jìn)行降序排列,并且選取兩個(gè)評(píng)估參數(shù)來計(jì)算:MeanRank和Hits@10。其中,MeanRank的值很大程度上表示了實(shí)體預(yù)測(cè)的情況,該指標(biāo)越小表示預(yù)測(cè)效果越好;Hits@10表示,針對(duì)一個(gè)頭實(shí)體或尾實(shí)體,預(yù)測(cè)結(jié)果中正確實(shí)體排在前10的個(gè)數(shù)占全體實(shí)體數(shù)目的比例,該指標(biāo)越大表示預(yù)測(cè)準(zhǔn)確率越高。因此,MeanRank和Hits@10兩個(gè)評(píng)測(cè)指標(biāo)分別是從宏觀和微觀的角度上對(duì)表示學(xué)習(xí)模型進(jìn)行的評(píng)價(jià),前者主要測(cè)試全部的預(yù)測(cè)實(shí)體效果,從整體上對(duì)表示學(xué)習(xí)模型做出把控,后者主要測(cè)試評(píng)測(cè)結(jié)果的優(yōu)秀率,二者各有側(cè)重,從兩個(gè)不同的層面反應(yīng)了表示學(xué)習(xí)模型的效果。
該評(píng)估方法在鏈接預(yù)測(cè)上有較好的效果,但在某些方面也有缺陷。如果測(cè)試數(shù)據(jù)中的三元組(西紅柿,病害有,筋腐病)的尾實(shí)體“筋腐病”缺失,“細(xì)菌性斑點(diǎn)病”將被預(yù)測(cè)出來,但是該實(shí)體已經(jīng)存在于蔬菜領(lǐng)域知識(shí)圖譜中,在對(duì)錯(cuò)誤三元組實(shí)體預(yù)測(cè)時(shí),(西紅柿,病害有,細(xì)菌性葉斑病)將被視為新的三元組。因此,在對(duì)測(cè)試三元組進(jìn)行實(shí)體預(yù)測(cè)評(píng)估過程中,可以在鏈接預(yù)測(cè)排序之前,從知識(shí)圖譜的訓(xùn)練語料,校驗(yàn)語料和測(cè)試語料中過濾出所有此類的三元組,因此,將過濾前的正確三元組數(shù)量稱為Raw,過濾后的正確三元組數(shù)量稱為Filter。left指的是在知識(shí)表示學(xué)習(xí)的模型訓(xùn)練過程中進(jìn)行頭實(shí)體預(yù)測(cè),即按照實(shí)體列表中的實(shí)體依次替換三元組的頭實(shí)體從而構(gòu)成錯(cuò)誤三元組集合,并進(jìn)行語義相似度的計(jì)算;right指的是在知識(shí)表示學(xué)習(xí)的模型訓(xùn)練過程中進(jìn)行尾實(shí)體預(yù)測(cè),即按照實(shí)體列表中的實(shí)體依次替換三元組的尾實(shí)體從而構(gòu)成錯(cuò)誤三元組,并進(jìn)行語義相似度的計(jì)算。
2.4.1 不考慮關(guān)系分類的鏈接預(yù)測(cè)
表4所列舉的是使用TransE模型對(duì)蔬菜領(lǐng)域數(shù)據(jù)集表示學(xué)習(xí)的鏈接預(yù)測(cè)效果,表5所列舉的是針對(duì)PTA模型的三種不同的路徑規(guī)劃算法,在蔬菜領(lǐng)域數(shù)據(jù)集上的鏈接預(yù)測(cè)效果。
表4 TransE模型在蔬菜領(lǐng)域知識(shí)圖譜中的鏈接預(yù)測(cè)效果Tab. 4 Link prediction effect of TransE model in vegetable domain knowledge map
表5 PTA模型在蔬菜領(lǐng)域知識(shí)圖譜中的鏈接預(yù)測(cè)效果Tab. 5 Effect of PTA model on the linkage prediction of vegetable domain knowledge map
從表5可以看出,在PTA模型的三種路徑規(guī)劃算法中,較之乘法運(yùn)算模型MUL和循環(huán)神經(jīng)網(wǎng)絡(luò)模型RNN,加法運(yùn)算模型ADD在MeanRank和Hits@10兩個(gè)方面的預(yù)測(cè)效果都是最佳。其原因在于,加法運(yùn)算同時(shí)符合TransE模型和PTA模型的學(xué)習(xí)目標(biāo)。因此,在后續(xù)的模型對(duì)比實(shí)驗(yàn)中,主要采取PTA模型的加法運(yùn)算進(jìn)行屬性關(guān)系的路徑計(jì)算。
表6 TransE模型和PTA模型在不區(qū)分關(guān)系類別前提下的鏈接預(yù)測(cè)效果對(duì)比Tab. 6 Comparison of link prediction effects between TransE model and PTA model without distinguishing relationship categories
從表6可以看出,PTA模型預(yù)測(cè)效果顯著優(yōu)于TransE模型,平均秩序MeanRank的Filter值下降到72.6,提前了大約6個(gè)次序,Hits@10的Filter值達(dá)到34.3%,提高了5%。這表明基于路徑的屬性關(guān)系表示學(xué)習(xí)模型為知識(shí)圖譜的表示學(xué)習(xí)提供了一個(gè)很好的補(bǔ)充。
2.4.2 考慮關(guān)系分類的鏈接預(yù)測(cè)
本文主要針對(duì)蔬菜領(lǐng)域?qū)傩躁P(guān)系的復(fù)雜性進(jìn)行模型的改進(jìn)。利用屬性關(guān)系和ISA關(guān)系的結(jié)合構(gòu)成關(guān)系路徑來解決1-N,N-1,N-N的復(fù)雜關(guān)系的表示學(xué)習(xí)問題。TransE模型和PTA模型在4種關(guān)系上的Hits@10值對(duì)比結(jié)果,如表7所示。
由于對(duì)蔬菜領(lǐng)域數(shù)據(jù)集進(jìn)行了分類,1-1,1-N,N-1和N-N所對(duì)應(yīng)的單元組條目互不相同,因此,無法比較MeanRank的值。表7所示的復(fù)雜關(guān)系鏈接預(yù)測(cè)效果,為TransE模型和PTA模型在不同關(guān)系類型數(shù)據(jù)集上的Hits@10值。結(jié)果表明,路徑和預(yù)測(cè)的方向兩個(gè)因素很大程度上決定著預(yù)測(cè)效果的好壞。
表7 不同表示學(xué)習(xí)模型在不同類別關(guān)系下的鏈接預(yù)測(cè)效果Tab. 7 Different represents the link prediction effect of learning model under different category relations
首先,從橫向進(jìn)行比較。分析不同的關(guān)系類別和預(yù)測(cè)方向的關(guān)系,表7的鏈接預(yù)測(cè)結(jié)果可被分為四個(gè)范疇,其中,由于1-1和N-N關(guān)系具有對(duì)稱性,兩個(gè)模型對(duì)于頭實(shí)體預(yù)測(cè)和尾實(shí)體預(yù)測(cè)效果均無較大差別。但兩個(gè)模型對(duì)于1-N和N-1的關(guān)系的鏈接預(yù)測(cè)效果卻出現(xiàn)了相反的效果。例如,PTA模型在1-N關(guān)系的頭實(shí)體預(yù)測(cè)和N-1關(guān)系的尾實(shí)體預(yù)測(cè)效果分別為36.1%和38.3%,二者預(yù)測(cè)結(jié)果相當(dāng)且在四類屬性關(guān)系的表示學(xué)習(xí)中效果最好,而N-1關(guān)系的頭實(shí)體預(yù)測(cè)和1-N關(guān)系的尾實(shí)體預(yù)測(cè)效果分別為26.5%和27.0%,二者預(yù)測(cè)結(jié)果相當(dāng)?shù)窃谒念悓傩躁P(guān)系的表示學(xué)習(xí)中效果最差。本文以頭實(shí)體為例,分析其原因,在1-N關(guān)系的頭實(shí)體預(yù)測(cè)任務(wù)中,關(guān)系路徑的展開方向與預(yù)測(cè)方向相反,即對(duì)于蔬菜領(lǐng)域三元組來說,多個(gè)屬性值對(duì)應(yīng)同一個(gè)蔬菜實(shí)體名稱,當(dāng)頭實(shí)體缺失時(shí),得相似蔬菜名稱的概率由多個(gè)屬性值確定,因此頭實(shí)體的預(yù)測(cè)的準(zhǔn)確率較高。而在N-1關(guān)系的頭實(shí)體預(yù)測(cè)任務(wù)中,多個(gè)蔬菜實(shí)體名稱對(duì)應(yīng)同一個(gè)屬性值,當(dāng)頭實(shí)體缺失時(shí),預(yù)測(cè)出某一個(gè)蔬菜名稱的概率較低,因此預(yù)測(cè)效果較差。
其次,從縱向進(jìn)行比較。分析不同模型在同一類別關(guān)系下的預(yù)測(cè)結(jié)果。
PTA模型與TransE模型相比,在傳統(tǒng)的翻譯模型中,增加關(guān)系路徑的向量化表示,旨在將屬性關(guān)系與上下位關(guān)系進(jìn)行融合解決復(fù)雜關(guān)系的表示學(xué)習(xí)問題。如表7所示,PTA模型的最終Hits@10值比TransE模型提高了6.6%,且在關(guān)系分類表示中,尾實(shí)體預(yù)測(cè)N-1關(guān)系結(jié)果最優(yōu),比TransE模型提高了13%。
綜上所述,PTA模型對(duì)蔬菜領(lǐng)域知識(shí)圖譜的復(fù)雜屬性關(guān)系有較好的表示效果,在小領(lǐng)域中文知識(shí)圖譜的表示學(xué)習(xí)上發(fā)揮了較重要的作用。
1) 本研究主要在蔬菜領(lǐng)域三元組數(shù)據(jù)集上進(jìn)行基于TransE模型的知識(shí)表示學(xué)習(xí),將8 780個(gè)實(shí)體和187個(gè)屬性關(guān)系映射到同一個(gè)低維連續(xù)的實(shí)值向量空間,通過計(jì)算向量的距離來衡量實(shí)體和關(guān)系之間語義關(guān)系,最終MeanRank降低到78.7,Hits@10的值高達(dá)28.8%。
2) 針對(duì)蔬菜領(lǐng)域特有的屬性關(guān)系,以及涉及到的實(shí)體數(shù)量來對(duì)數(shù)據(jù)集進(jìn)行分類,提出基于屬性的路徑翻譯模型PTA,分別對(duì)1-1,1-N,N-1和N-N四種復(fù)雜關(guān)系進(jìn)行表示學(xué)習(xí)。結(jié)果表明,PTA模型較TransE模型有較好的表示學(xué)習(xí)效果:在不考慮關(guān)系分類時(shí),PTA模型預(yù)測(cè)效果顯著優(yōu)于TransE模型,平均秩序MeanRank的Filter值下降到72.6,提前了大約6個(gè)次序,Hits@10的Filter值達(dá)到34.3%,提高了5%;考慮關(guān)系分類時(shí),PTA模型的最終Hits@10值比TransE模型提高了6.6%,且在關(guān)系分類表示中,尾實(shí)體預(yù)測(cè)N-1關(guān)系結(jié)果最優(yōu),比TransE模型提高了13%。
3) 在實(shí)驗(yàn)過程中,三元組數(shù)據(jù)集的質(zhì)量也是影響鏈接預(yù)測(cè)的關(guān)鍵,尤其是針對(duì)PTA模型,模糊節(jié)點(diǎn)的設(shè)置使得實(shí)體數(shù)目和三元組數(shù)目有所增加,正確添加相關(guān)的三元組后鏈接預(yù)測(cè)的實(shí)驗(yàn)結(jié)果(Hits@10)較沒有添加三元組的鏈接預(yù)測(cè)效果有所增加。