類型增強(qiáng)的時態(tài)知識圖譜表示學(xué)習(xí)模型

2023-04-19 18:33:36章夢禮寧原隆

計(jì)算機(jī)研究與發(fā)展 2023年4期

何鵬周剛陳靜章夢禮寧原隆

1 （戰(zhàn)略支援部隊(duì)信息工程大學(xué) 鄭州 450001）2 （鄭州工程技術(shù)學(xué)院鄭州 450044）

（helen830209@163.com）

知識圖譜（knowledge graph）以多關(guān)系有向圖的形式組織和存儲現(xiàn)實(shí)世界的知識. 其中，節(jié)點(diǎn)表示實(shí)體（人名、地名、機(jī)構(gòu)名、概念等），邊表示實(shí)體間的語義關(guān)系. 因此，知識圖譜又可以看成是結(jié)構(gòu)化三元組的集合，對應(yīng)有向圖中的邊（關(guān)系）及其相連的2個節(jié)點(diǎn)（實(shí)體）. 自從2012 年，谷歌首次提出知識圖譜的概念并將其成功應(yīng)用于信息檢索領(lǐng)域以來，知識圖譜在學(xué)術(shù)界和工業(yè)界得到了廣泛的關(guān)注和研究.現(xiàn)有的知識圖譜包括Freebase[1]、Dbpedia[2]、WordNet[3]等，已經(jīng)在許多人工智能相關(guān)的應(yīng)用中起到了巨大的推動和支撐作用，如個性化推薦[4]、智能問答[5]、信息檢索[6]以及自然語言處理[7]等.

現(xiàn)有的知識圖譜規(guī)模龐大，往往包含上億條事實(shí)三元組，不可避免的存在由數(shù)據(jù)缺失造成的不完整性問題. 為了解決此問題，人們提出了各種知識圖譜補(bǔ)全方法，通過基于已有的事實(shí)來推理和預(yù)測知識圖譜中缺失的鏈接. 知識圖譜表示學(xué)習(xí)（knowledge graph representation learning）是一種有效的知識圖譜補(bǔ)全方法，它可以自動預(yù)測缺失的知識，同時解決知識圖譜中的數(shù)據(jù)稀疏性和計(jì)算效率問題，為基于知識圖譜的深度學(xué)習(xí)工作提供了極大的便利.

知識圖譜表示學(xué)習(xí)又稱為知識圖譜嵌入（knowledge graph embedding），旨在將知識圖譜中的元素（實(shí)體和關(guān)系）映射到低維的連續(xù)向量空間中，學(xué)習(xí)實(shí)體和關(guān)系的嵌入表示，同時保持知識圖譜的內(nèi)在結(jié)構(gòu)和語義信息，即將知識圖譜的符號化表示形式轉(zhuǎn)換成數(shù)值化表示形式，從而實(shí)現(xiàn)高效的語義計(jì)算. 現(xiàn)有的知識圖譜表示學(xué)習(xí)模型通常是靜態(tài)的，忽略了事實(shí)的時間動態(tài)性和時序依賴性. 而在現(xiàn)實(shí)世界中，時間是實(shí)體和關(guān)系所具有的重要屬性，事實(shí)往往隨時間的變化而發(fā)生動態(tài)的演化. 常見的知識圖譜Wikidata[8]和YAGO[9]都包含了知識的時間信息. ICEWS[10]和GDELT[11]是2 個帶有時間信息的事件知識圖譜. 將知識圖譜中可提供的時間信息引入三元組中，構(gòu)成的帶有時間戳的四元組集合稱為時態(tài)知識圖譜（temporal knowledge graph）. 如圖1 所示，連接實(shí)體的關(guān)系帶有時間戳，表明該事實(shí)發(fā)生的具體時間，比如（美國，總統(tǒng)，奧巴馬， [2009—2017]）只在2009—2017 年間有效. 當(dāng)采用靜態(tài)的知識圖譜表示學(xué)習(xí)模型對時態(tài)知識圖譜進(jìn)行補(bǔ)全時，很容易混淆相似實(shí)體的語義信息. 比如，當(dāng)對缺失實(shí)體的事實(shí)（美國，總統(tǒng)，？，[1993—2001]）進(jìn)行鏈接預(yù)測時，如果忽略了給定的時間戳[1993—2001]，則可能會混淆“克林頓”和其他歷屆美國總統(tǒng)，給出錯誤的答案. 時態(tài)知識圖譜表示學(xué)習(xí)模型通過將可提供的時間信息顯式或隱式的融合到知識圖譜表示學(xué)習(xí)過程中，使得鏈接預(yù)測的結(jié)果隨時間不同而產(chǎn)生不同的排序，從而有效地區(qū)分相似語義的實(shí)體，提高時態(tài)知識圖譜補(bǔ)全的準(zhǔn)確性.

Fig.1 An example of temporal knowledge subgraph extracted from the Wikidata圖1 從Wikidata 抽取的時態(tài)知識圖譜子圖示例

由于上述優(yōu)點(diǎn)，最近幾年時態(tài)知識圖譜表示學(xué)習(xí)迅速成為知識圖譜領(lǐng)域的研究熱點(diǎn). 已經(jīng)有一些時態(tài)知識圖譜表示學(xué)習(xí)模型通過利用時間信息來改善表示學(xué)習(xí)的效果，但它們普遍存在一個或多個問題：1）不具備完全表達(dá)性，即不能準(zhǔn)確的區(qū)分事實(shí)（比如，“2009—2017 年間的美國總統(tǒng)是奧巴馬”）與非事實(shí)（如“2009—2017 年間的美國總統(tǒng)是希拉里”）[12]，從而限制了模型的表示能力. 2）只考慮時間點(diǎn)形式的時間戳（如[2014-07-16]），而沒有考慮時間段形式的時間戳（如[2009—2017]）. 比如，在Wikidata 和YAGO這2 個著名的時態(tài)知識圖譜中，事實(shí)通常帶有時間段形式的時間戳，由于時間的連續(xù)性，建模時間段形式的時間戳是一項(xiàng)具有挑戰(zhàn)性的工作. 3）存在冗余計(jì)算和時空復(fù)雜度高的問題. 4）沒有充分利用類型兼容性. 類型兼容性是指知識圖譜中的實(shí)體除了表示個體語義信息外，還隱含了一般的類型語義信息，且一個特定關(guān)系總是連接具有相同類型的實(shí)體. 比如（美國，總統(tǒng)，？）中，“總統(tǒng)”這一關(guān)系總是連接“國家”類型和“人”類型的實(shí)體. 在推理缺失信息時，利用類型兼容性這一先驗(yàn)知識可以判斷缺失實(shí)體的類型應(yīng)該是“人”，它在向量空間中應(yīng)該與其他“人”類型的實(shí)體位置接近，從而可以更好地限制和優(yōu)化實(shí)體嵌入.

為了解決這些問題，本文提出一種類型增強(qiáng)的時態(tài)知識圖譜表示學(xué)習(xí)模型（type-enhanced temporal knowledge graph representation learning model, T-Temp），用于解決時態(tài)知識圖譜中的知識補(bǔ)全和語義計(jì)算問題. 模型基于張量分解技術(shù)，將時態(tài)知識圖譜看成3 階張量，語義關(guān)系和時間信息聯(lián)合索引其中的一個模式向量. 同時，設(shè)計(jì)一種類型兼容性函數(shù)，自動捕獲實(shí)體的類型特征并優(yōu)化實(shí)體表示. 此外，模型具有完全表達(dá)性，且可以建模時態(tài)知識圖譜中常見的時間點(diǎn)形式和時間段形式的時間信息，具有普遍適用性.

本文的主要貢獻(xiàn)包括3 個方面:

1）提出了一種基于張量分解的時態(tài)知識圖譜表示學(xué)習(xí)模型T-Temp，將時間信息顯式地編碼到表示學(xué)習(xí)過程中，并利用實(shí)體和關(guān)系的類型兼容性，學(xué)習(xí)實(shí)體、關(guān)系、時間和類型的嵌入表示，提升表示學(xué)習(xí)的有效性.

2）理論上證明T-Temp 模型具有完全表達(dá)性，并與現(xiàn)有的同類模型做對比分析，說明其具有較低的時間和空間復(fù)雜度.

3）在真實(shí)的時態(tài)知識圖譜ICEWS、Wikidata、YAGO 中抽取出來的4 個公開數(shù)據(jù)集上開展廣泛的實(shí)驗(yàn). 在鏈接預(yù)測任務(wù)上的結(jié)果表明T-Temp 模型的性能較其他先進(jìn)模型有顯著提升，類型嵌入的可視化聚簇結(jié)果也表明T-Temp 模型能夠有效地捕獲實(shí)體的類型特征.

1 相關(guān)工作

本節(jié)主要介紹與本文工作相關(guān)的知識圖譜表示學(xué)習(xí)模型，包括靜態(tài)知識圖譜表示學(xué)習(xí)模型、時態(tài)知識圖譜表示學(xué)習(xí)模型和類型增強(qiáng)的知識圖譜表示學(xué)習(xí)模型，具體可參考綜述文獻(xiàn)[13?16].

1.1 靜態(tài)知識圖譜表示學(xué)習(xí)模型

現(xiàn)有的大多數(shù)知識圖譜表示學(xué)習(xí)模型基于靜態(tài)事實(shí)進(jìn)行建模，大體上可分為2 類：基于平移距離的模型和基于張量分解的模型.

基于平移距離的模型通常將關(guān)系建模成向量空間中的平移或旋轉(zhuǎn)操作，用關(guān)系操作后的實(shí)體間距離度量事實(shí)的真實(shí)性. 著名的基于平移距離的模型TransE[17]及其變體模型TransH[18]、TransR[19]、TransD[20]等均將關(guān)系建模為實(shí)數(shù)向量空間中的平移操作. 而最近的RotatE[21]和HAKE[22]模型則將關(guān)系建模為復(fù)數(shù)向量空間中的旋轉(zhuǎn)操作，從而推理知識圖譜中的各種關(guān)系模式，提高模型的關(guān)系建模能力. 然而，大部分平移距離模型不具備完全表達(dá)性[12]，限制了其表示能力，基于張量分解的SimplE[12]模型能夠克服這一缺點(diǎn). SimplE 模型受到經(jīng)典張量分解技術(shù)——典范多元（CANDECOMP/PARAFAC, CP）分解[23]——的啟發(fā)，將每個事實(shí)三元組對應(yīng)3 階張量中的1 個元素，其中，實(shí)體和關(guān)系分別索引該張量的一個模式向量，同時構(gòu)建反向關(guān)系來統(tǒng)一不同位置的實(shí)體嵌入.Lacroix 等人[24]也提出了類似的基于CP 分解的模型.ComplEx[25]模型是另一個基于張量分解的模型，它通過將實(shí)體映射到復(fù)數(shù)向量空間而非實(shí)數(shù)向量來建模實(shí)體間的關(guān)系. ComplEx 和SimplE 都具有完全表達(dá)性[12,24]，但與SimplE 相比，ComplEx 存在冗余計(jì)算問題. 此外，Yang 等人[26]提出一個簡化版的張量分解模型DistMult，王培妍等人[27]提出一種基于張量分解的知識超圖模型Typer.

盡管靜態(tài)知識圖譜表示學(xué)習(xí)模型取得了較好的表現(xiàn)，但它們沒有考慮知識的時態(tài)演化性，容易造成相似語義實(shí)體的混淆.

1.2 時態(tài)知識圖譜表示學(xué)習(xí)模型

最近，一些研究者通過對靜態(tài)模型進(jìn)行時態(tài)擴(kuò)展，提出了時態(tài)知識圖譜表示學(xué)習(xí)模型. 比如，TTransE[28]、TA-TransE[29]、HyTE[30]、Duration-HyTE[31]模型是對經(jīng)典靜態(tài)模型TransE 的時態(tài)擴(kuò)展，和TransE 一樣，這些動態(tài)模型不具備完全表達(dá)性. 受到靜態(tài)模型RotatE的啟發(fā)，TeRo[32]模型將時間信息建模成復(fù)數(shù)空間中的旋轉(zhuǎn)操作，實(shí)體通過沿不同角度的時間旋轉(zhuǎn)來體現(xiàn)不同時期的時間特征. ChronoR[33]模型同樣受到靜態(tài)模型RotatE 的啟發(fā)，但實(shí)體的旋轉(zhuǎn)變換由時間和關(guān)系共同決定，且采用向量間的角度而非距離來度量事實(shí)的真實(shí)性. DE-SimplE[34]模型在靜態(tài)模型SimplE的基礎(chǔ)上，通過引入DE（diachronic embedding）函數(shù)[35]來學(xué)習(xí)實(shí)體的時間演化特性. ConT[36]模型可以看成是靜態(tài)模型Tucker[37]的擴(kuò)展，它用特定時間張量代替Tucker 分解[38]中的核張量. 由于其時間嵌入需要大量的參數(shù)，在訓(xùn)練過程中效率較低且容易產(chǎn)生過擬合. ChronoR、DE-SimplE、ConT 模型都只能處理離散的時間點(diǎn)信息，而沒有考慮連續(xù)的時間段信息.TComplEx 和TNTComplEx[39]模型將時態(tài)知識圖譜表示成一個4 階張量，并添加一個時態(tài)模式向量來擴(kuò)展靜態(tài)模型ComplEx. 同樣，TComplEx 和TNTComplEx模型也存在冗余計(jì)算問題.

1.3 類型增強(qiáng)的知識圖譜表示學(xué)習(xí)模型

實(shí)體的類型特征體現(xiàn)了實(shí)體的一般語義和類別，相關(guān)工作利用這一特征進(jìn)一步優(yōu)化知識表示的學(xué)習(xí)效果. TKRL[40]模型首次引入顯式的實(shí)體類型來增強(qiáng)TransE. JOIE[41]模型將知識圖譜表示為本體視圖（即類型信息）和實(shí)例視圖（即實(shí)體信息），并聯(lián)合編碼這2 個視圖. TaRP[42]模型根據(jù)實(shí)體類型定義關(guān)系類型，并采用貝葉斯規(guī)則擬合關(guān)系類型和實(shí)體類型間的語義相似性. 上述模型均需要提供額外的類型信息. 最近，Jain 等人[43]認(rèn)為實(shí)體類型普遍隱含在知識圖譜中的實(shí)體和實(shí)體間的復(fù)雜語義關(guān)系中，并提出TypeDM和TypeComplEx 模型，通過建模實(shí)體和關(guān)系間的類型兼容性擴(kuò)展DistMult 和ComplEx 模型，自動學(xué)習(xí)實(shí)體的類型嵌入，不需要額外的類型信息. 然而，所有這些類型增強(qiáng)模型都沒有考慮知識的時間動態(tài)性.

與上述工作相比，本文工作主要致力于解決時態(tài)知識圖譜中的知識補(bǔ)全問題. 本文提出的類型增強(qiáng)的時態(tài)知識圖譜表示學(xué)習(xí)模型T-Temp 屬于張量分解模型. 在表示學(xué)習(xí)過程中，T-Temp 模型可以以較低的時空消耗，充分利用各種形式的時間信息，并自動學(xué)習(xí)和表示實(shí)體的類型特征，不需要提供額外的類型信息. 此外，據(jù)我們所知，T-Temp 模型是為數(shù)不多的具有完全表達(dá)性的時態(tài)模型.

2 類型增強(qiáng)的時態(tài)模型T-Temp

本節(jié)首先對時態(tài)知識圖譜表示學(xué)習(xí)中的相關(guān)問題進(jìn)行形式化定義，并對一些基本的概念和符號進(jìn)行解釋；然后詳細(xì)介紹所提出的T-Temp 模型.

2.1 問題定義

定義1.時態(tài)知識圖譜. 時態(tài)知識圖譜表示成一個帶有時間信息的多關(guān)系有向圖G=(E,R,T)，其中E是節(jié)點(diǎn)（實(shí)體）集，R是邊（關(guān)系）集，T是時間戳集. 因此，時態(tài)知識圖譜又可以看成是四元組(h,r,t,τ)∈G或(h,r,t,[τs,τe])∈G的集合，其中h,t∈E分別稱為頭實(shí)體和尾實(shí)體，r∈R是它們之間的關(guān)系，τ ∈T或[τs,τe]∈T是與事實(shí)相關(guān)聯(lián)的時間戳. 具體來說，τ表示事實(shí)發(fā)生在一個特定的時間點(diǎn)，[τs,τe]表示事實(shí)在一個開始時間為 τs、結(jié)束時間為 τe的持續(xù)時間段內(nèi)均有效.

定義2.時態(tài)知識圖譜存在不完整性問題. 本文用W?E×R×E×T表示現(xiàn)實(shí)世界中的全部事實(shí)，時態(tài)知識圖譜G是W的子集（即G?W），時態(tài)知識圖譜補(bǔ)全是一個根據(jù)G推理W的問題.

定義3.知識圖譜表示學(xué)習(xí)模型通常定義3 件事：

1）嵌入函數(shù)——將知識圖譜中的元素映射為向量、矩陣或張量等嵌入表示；

2）得分函數(shù)——將上述嵌入表示作為輸入，通過數(shù)值運(yùn)算獲得輸出，作為評估事實(shí)真實(shí)性的得分；

3）損失函數(shù)——通過最大化所有已知事實(shí)的得分來學(xué)習(xí)和優(yōu)化各元素的嵌入表示.

2.2 T-Temp 模型整體架構(gòu)

本文基于張量分解的模型，學(xué)習(xí)實(shí)體、關(guān)系和時間戳的向量化嵌入. 同時，利用實(shí)體和關(guān)系的類型兼容性，自動學(xué)習(xí)實(shí)體的類型嵌入，進(jìn)一步優(yōu)化實(shí)體表示. 圖2 展示了模型的整體架構(gòu)，按照知識圖譜表示學(xué)習(xí)的過程，首先，我們提出將已知四元組嵌入到實(shí)數(shù)向量空間中的嵌入函數(shù)；接著，定義基于CP 分解的得分函數(shù)以及基于語義相似性的類型兼容性函數(shù)，并將兩者結(jié)合，形成最終的得分函數(shù)；最后，設(shè)計(jì)一個帶有正則化的交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo)，學(xué)習(xí)各元素的嵌入表示.

2.3 嵌入函數(shù)

嵌入函數(shù)又稱為編碼器. 本文將時態(tài)知識圖譜中的實(shí)體、關(guān)系和時間戳元素顯式的編碼到維度為d的實(shí)數(shù)向量空間. 如圖2 所示，對于給定四元組(h,r,t,τ)，向量h,t∈Rd分別是頭實(shí)體h和尾實(shí)體t經(jīng)過嵌入函數(shù)映射后得到的嵌入表示，代表頭/尾實(shí)體的個體語義特征，向量分別是關(guān)系r和時間戳 τ經(jīng)過嵌入函數(shù)映射后得到的嵌入表示，代表關(guān)系和時間戳的語義特征，其中rd+τd=d.

Fig.2 T-Temp architecture圖2 T-Temp 架構(gòu)

為了學(xué)習(xí)實(shí)體所隱含的類型特征并建模實(shí)體與關(guān)系間的類型兼容性，嵌入函數(shù)進(jìn)一步將實(shí)體所屬的類型信息編碼到維度為k的實(shí)數(shù)向量空間中. 具體來說，向量yh,yt∈Rk分別表示頭實(shí)體h和尾實(shí)體t的類型嵌入，代表頭/尾實(shí)體的類型特征. 此外，構(gòu)建關(guān)系的類型屬性，根據(jù)一個特定關(guān)系總是連接具有相同類型的頭實(shí)體和尾實(shí)體，令關(guān)系r期望連接的頭實(shí)體類型為關(guān)系的頭類型，關(guān)系r期望連接的尾實(shí)體類型為關(guān)系的尾類型. 并定義向量xh∈Rk為關(guān)系r的頭類型嵌入，表示關(guān)系的頭類型特征；向量xt∈Rk為關(guān)系r的尾類型嵌入，表示關(guān)系的尾類型特征. 實(shí)體類型體現(xiàn)了多個實(shí)體的一般語義信息，往往沒有實(shí)體的語義豐富，因此通常情況下k?d.

2.4 得分函數(shù)

本文定義基于CP 分解的得分函數(shù)，將時態(tài)知識圖譜G看成一個3 階張量X∈R|E|×|R||T|×|E|，其中 |E|是實(shí)體的個數(shù)，|R||T|是關(guān)系個數(shù) |R|和時間戳個數(shù) |T|的乘積. 頭/尾實(shí)體分別索引模式-1 和模式-3 向量，關(guān)系和時間戳聯(lián)合索引模式-2 向量. 根據(jù)定義4 所描述的CP 分解方法，頭實(shí)體向量、尾實(shí)體向量、關(guān)系向量和時間戳向量組成的多線性乘積可以用來估計(jì)張量X中的各個元素，即四元組(h,r,t,τ)的得分函數(shù)為

其中h表示頭實(shí)體向量，t表示尾實(shí)體向量，[r|τ]表示關(guān)系向量r和時間戳向量 τ的級聯(lián). 該得分函數(shù)的值越大，說明四元組越真實(shí). 需要指出的是，這種原始的基于CP 分解的方法存在同一實(shí)體位于頭/尾不同位置時的嵌入向量不一致問題，為了解決這個問題，本文在訓(xùn)練時采用與靜態(tài)模型SimplE 類似的，構(gòu)建反向關(guān)系的方法統(tǒng)一實(shí)體的嵌入.

另一方面，考慮到本文所提出的模型不需要提供額外的類型信息，實(shí)體和關(guān)系的語義關(guān)聯(lián)中其實(shí)隱含了它們的類型特征. 為了可以自動學(xué)習(xí)和挖掘這些類型特征，根據(jù)實(shí)體和關(guān)系的類型兼容性這一先驗(yàn)知識，我們定義基于語義相似度的類型兼容性函數(shù)來建模實(shí)體和關(guān)系間的類型兼容性，采用與余弦相似度的計(jì)算成比例的向量內(nèi)積形式. 對于關(guān)系與其相連的頭實(shí)體，類型兼容性函數(shù)為

其中yh表示頭實(shí)體的類型向量，xh表示關(guān)系r期望連接的頭類型向量，σ是sigmoid 函數(shù). 類似地，對于關(guān)系與其相連的尾實(shí)體，類型兼容性函數(shù)為

其中yt表示尾實(shí)體的類型向量，xt表示關(guān)系r期望連接的尾類型向量.(h,r,t,τ)

將式（3）與式（4）（5）相結(jié)合，得到四元組的最終得分函數(shù)：

式（6）中2 個類型兼容性函數(shù)可以看成是CP 分解得分函數(shù)的系數(shù)，即根據(jù)四元組的類型兼容性調(diào)節(jié)該得分函數(shù)的結(jié)果.

除此之外，常見的時態(tài)知識圖譜通常是異構(gòu)的，也就是說，除了時態(tài)感知關(guān)系，還包含大量的非時態(tài)感知關(guān)系. 比如Wikidata 中的三元組（奧巴馬，出生地，夏威夷州），其關(guān)系“出生地”就是一個非時態(tài)感知關(guān)系，即奧巴馬的出生地永遠(yuǎn)是夏威夷州，不會隨時間發(fā)生變化. 為了能更好地處理這種既包含時態(tài)關(guān)系，又包含非時態(tài)關(guān)系的異構(gòu)型時態(tài)知識圖譜，本文在得分函數(shù)中增加了一個非時態(tài)組件，相應(yīng)的得分函數(shù)變?yōu)?/p>

其中rs∈Rd表示關(guān)系r的非時態(tài)向量，而r又稱為關(guān)系的時態(tài)向量表示. 對于時態(tài)感知關(guān)系來說，由于其通常出現(xiàn)在含有時間信息的四元組中，因此，該關(guān)系對應(yīng)的時態(tài)向量r應(yīng)該使正四元組得分較高，負(fù)四元組得分較低；而其對應(yīng)的非時態(tài)向量rs應(yīng)該使大部分不含有時間信息的三元組得分較低. 相反，對于非時態(tài)感知關(guān)系來說，其對應(yīng)的非時態(tài)向量rs應(yīng)該使正三元組得分較高，負(fù)三元組得分較低；而其對應(yīng)的時態(tài)向量r應(yīng)該使大部分含有時間信息的四元組得分較低.

2.5 損失函數(shù)與時間戳預(yù)處理

在2.4 節(jié)定義的得分函數(shù)基礎(chǔ)上，對于缺失尾實(shí)體的四元組(h,r,?,τ)，我們可以估計(jì)任意候選實(shí)體ti∈E的真實(shí)性：

對于缺失頭實(shí)體的四元組(?,r,t,τ)也類似. 進(jìn)而，本文采用交叉熵?fù)p失函數(shù)來學(xué)習(xí)和優(yōu)化各元素的向量化嵌入：

此外，考慮到參數(shù)正則化可以提升模型的泛化能力，避免對訓(xùn)練數(shù)據(jù)的過擬合，本文采用類似于文獻(xiàn)[37]中的張量核范數(shù)?p(θ)和基于先驗(yàn)知識的時間戳平滑 ?p作為模型的正則化項(xiàng)：

其中||·||p表示向量的p-范數(shù)，τi和τi+1表示任意2 個相鄰的時間戳嵌入表示. 模型的最終優(yōu)化目標(biāo)是最小化帶有正則化項(xiàng)的損失函數(shù)：

其中λ1和 λ2是加權(quán)超參.

在模型進(jìn)行訓(xùn)練之前，需要考慮如何處理時態(tài)知識圖譜中常見的2 種時間信息形式，即時間點(diǎn)時間戳和時間段時間戳. 在事件知識圖譜ICEWS 和GDELT 中，事實(shí)（事件）帶有時間點(diǎn)形式的時間戳 τ，用來表示該事件發(fā)生的具體時間. 由于時間點(diǎn)的離散性特點(diǎn)，這種形式的時間信息可以直接適用于TTemp 模型. 而在時態(tài)知識圖譜YAGO 和Wikidata 中，與事實(shí)相關(guān)聯(lián)的往往是時間段形式的時間戳[τs,τe]，如何建模這種連續(xù)性時間信息是一項(xiàng)具有挑戰(zhàn)性的任務(wù). 與TComplEx 和TNTComplEx 模型中采用的在時間段范圍內(nèi)均勻采樣的方法不同，我們直接用時間段的開始時間和結(jié)束時間作為新的時間戳來代替原有的時間戳，從而將持續(xù)性時間信息做離散化處理. 本質(zhì)上是利用擴(kuò)充數(shù)據(jù)量的方法盡可能多地采集連續(xù)性時間信息，形成模型可處理的四元組形式.算法1 給出了T-Temp 模型的偽代碼.

算法1.T-Temp 模型.

輸入：訓(xùn)練集Strain，實(shí)體集E，關(guān)系集R，時間戳集T，訓(xùn)練總輪數(shù)N，批次大小 β，嵌入維度k，d和rd，τd，加權(quán)超參 λ1和 λ2；

輸出：所有實(shí)體的嵌入向量e∈{h,t}和類型嵌入向量ye，所有關(guān)系的嵌入向量r，rs和頭/尾類型嵌入向量xe，所有時間戳的嵌入向量 τ.

2.6 完全表達(dá)性證明

完全表達(dá)性是知識圖譜表示學(xué)習(xí)模型的一個重要屬性，現(xiàn)有工作[12,34,38]已經(jīng)證明，基于張量分解的靜態(tài)模型ComplEx、SimplE、Tucker 具有完全表達(dá)性，最近提出的DE-SimplE 模型是第1 個具有完全表達(dá)性的時態(tài)模型. 本文從理論上分析T-Temp 模型的完全表達(dá)性.

定義5.知識圖譜表示學(xué)習(xí)模型具有完全表達(dá)性，當(dāng)且僅當(dāng)給定知識圖譜中的已知事實(shí)（真事實(shí)）集合，存在一種嵌入表示，能夠正確區(qū)分真事實(shí)與假事實(shí).

Kruskal[44]將N階張量的秩定義為能夠進(jìn)行CP分解的最小R值. 雖然確定給定張量的秩是個NP 難問題[45]，但Kruskal[46]已經(jīng)證明3 階張量的秩存在一個弱上界. 受到此證明啟發(fā)，本文證明T-Temp 模型具有完全表達(dá)性，并給出嵌入表示的邊界.

定理1.給定實(shí)體集E、關(guān)系集R和時間戳集T上的已知事實(shí)集合G，存在維度為|E|×|R|×|T|的嵌入表示，使得T-Temp 模型具有完全表達(dá)性.

證明. T-Temp 模型具備完全表達(dá)性的充分條件是，真事實(shí)和假事實(shí)的得分永不相交，即得分函數(shù)能夠正確劃分所有真事實(shí)與假事實(shí). 由于得分函數(shù)中的Ch和Ct取值位于0～1 之間，不影響總體函數(shù)值的正負(fù)，為了簡化證明，我們只關(guān)注得分函數(shù)的第1 部分f′.

大小為|E|×|R|×|T|的嵌入向量可以看成是 |E|個大小為|R|×|T|的塊. 對于頭實(shí)體ei，令其嵌入向量ei∈R|E|×|R|×|T|第i塊中的所有元素值為1，其余塊中的元素值均為0. 于是，只有第i塊中的元素值對四元組(ei,rk,ej,tl)的得分有影響. 接下來，進(jìn)一步分析嵌入向量的第i塊.

在大小為|R|×|T|的第i塊中，令關(guān)系rk和時間戳tl的嵌入向量級聯(lián)[rk|tl]∈R|E|×|R|×|T|的第i塊第(k×|T|+l)個元素值為1，其余為0. 因此，嵌入向量ei與[rk|tl]的哈達(dá)瑪積中，只有第i塊第(k×|T|+l)個元素為1，其余為0. 基于以上嵌入向量的元素值設(shè)置，如果四元組(ei,rk,ej,tl)為真事實(shí)，只需要令尾實(shí)體嵌入向量ej∈R|E|×|R|×|T|的第i塊第(k×|T|+l)個元素值為1，否則值為?1，即可得到真事實(shí)的得分〈ei,[rk|tl],ej〉為1，假事實(shí)為?1，互不相交. 證畢.

2.7 時間和空間復(fù)雜度分析

時間和空間復(fù)雜度是知識圖譜表示學(xué)習(xí)模型的另一個重要屬性，會直接影響模型的訓(xùn)練效率和可擴(kuò)展性. 如表1 所示，本文根據(jù)嵌入函數(shù)和得分函數(shù)分析比較T-Temp 模型和幾個現(xiàn)有的時態(tài)模型所需的參數(shù)量和時間消耗，其中 γ為調(diào)整時態(tài)特征權(quán)重的超參[34]. 在時間復(fù)雜度方面，除ConT 模型外，所有模型都消耗與嵌入維度呈線性的時間復(fù)雜度O(d). 由于ConT 模型涉及3 階張量運(yùn)算，其時間復(fù)雜度為O(d3).在參數(shù)個數(shù)方面，除了DE-SimplE 模型，其他模型的參數(shù)個數(shù)均與時間戳的個數(shù)相關(guān). 由于本文所提出的T-Temp 模型可以自動學(xué)習(xí)類型特征，模型需要與類型表示相關(guān)的參數(shù)量k(2|E|+4|R|). 而通常情況下k?d（比如第3 節(jié)實(shí)驗(yàn)中，d=2000,k=20），因此該部分參數(shù)量可忽略不計(jì). 又因?yàn)閞d+τd=d，所以TTemp 模型所需的參數(shù)個數(shù)總體上與最先進(jìn)的ChronoR，TeRo，TNTComplEx 等模型相當(dāng)甚至更少.

3 實(shí) 驗(yàn)

鏈接預(yù)測是標(biāo)準(zhǔn)的知識圖譜補(bǔ)全任務(wù)，本節(jié)通過時態(tài)知識圖譜上的鏈接預(yù)測任務(wù)對T-Temp 模型進(jìn)行有效性驗(yàn)證. 首先對實(shí)驗(yàn)中所采用的數(shù)據(jù)集、評價指標(biāo)和基線模型等進(jìn)行說明. 然后將實(shí)驗(yàn)分為5 組以達(dá)到不同的實(shí)驗(yàn)?zāi)康模?/p>

1）在4 個通用的數(shù)據(jù)集上對T-Temp 模型進(jìn)行鏈接預(yù)測實(shí)驗(yàn)，并將實(shí)驗(yàn)結(jié)果與之前的先進(jìn)模型進(jìn)行對比分析，以評估T-Temp 模型的有效性；

Table 1 Comparison of Our proposed models and State-ofthe-Art Temporal KGE Models on Time Complexity and Space Complexity表1 本文模型與現(xiàn)有時態(tài)知識圖譜表示學(xué)習(xí)模型的時間復(fù)雜度和空間復(fù)雜度對比

2）通過消融實(shí)驗(yàn)分析類型兼容性和時間段時間戳的處理方法對T-Temp 模型性能的影響；

3）對學(xué)習(xí)到的實(shí)體和類型嵌入進(jìn)行聚簇實(shí)驗(yàn)，并將聚簇結(jié)果進(jìn)行可視化展示，以驗(yàn)證T-Temp 模型能夠自動捕獲實(shí)體的類型特征.

4）進(jìn)行超參的敏感性分析實(shí)驗(yàn)，以驗(yàn)證模型的性能對于超參設(shè)置的敏感度.

5）鏈接預(yù)測任務(wù)上的案例研究實(shí)驗(yàn)，更細(xì)粒度地展示T-Temp 模型如何提升鏈接預(yù)測結(jié)果的準(zhǔn)確性.

3.1 數(shù)據(jù)集

本文在4 個抽取自真實(shí)時態(tài)知識圖譜的公開數(shù)據(jù)集上對T-Temp 模型進(jìn)行評估，包括：ICEWS14[29]、ICEWS05-15[29]、YAGO11k[30]、Wikidata12k[30].其中，ICEWS14 和ICEWS05-15是Garcia-Duran 等人[29]從事件知識圖譜ICEWS中抽取的2個子集. ICEWS包含從1995—2015年發(fā)生的政治事件，通過頭/尾實(shí)體（比如“國家”“總統(tǒng)”）和相連關(guān)系（比如“進(jìn)行訪問”“表達(dá)會面或談判的意圖”）以及時間點(diǎn)形式的時間戳（如[2014-05-23]）來表示. ICEWS14 和ICEWS05-15 分別對應(yīng)2005—2015年間發(fā)生的政治事件. YAGO11k和Wikidata12k 是時態(tài)知識圖譜YAGO和Wikidata 的子集，與事實(shí)相關(guān)聯(lián)的是時間段形式的時間戳（如[2006-11-18], [2012-08-20]）. 通過YAGO11k 和Wikidata-12k 數(shù)據(jù)集，可以證明T-Temp 模型能夠有效地處理連續(xù)性時間信息. 表2 列出了4 個數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)信息，需要說明的是，表中YAGO11k 和Wikidata12k數(shù)據(jù)集的時間戳個數(shù)是經(jīng)過2.5 節(jié)中介紹的離散化預(yù)處理后的值.

Table 2 Statistics of Datasets表2 數(shù)據(jù)集的統(tǒng)計(jì)信息

3.2 評價指標(biāo)

為了準(zhǔn)確評估模型在鏈接預(yù)測任務(wù)上的性能，本文采用2 個廣泛使用的評價指標(biāo)：平均倒數(shù)排名MRR（mean reciprocal rank）和擊中率Hits@N[21-22,30-34,37].首先，用所有已知實(shí)體e∈E分別替換測試集中每個四元組(h,r,t,τ)的頭實(shí)體h和尾實(shí)體t，從而為每個四元組創(chuàng)建2 個候選元組集合(h′,r,t,τ)和(h,r,t′,τ). 然后，用學(xué)到的嵌入表示和得分函數(shù)為所有候選元組計(jì)算得分，并按照得分進(jìn)行降序排名. 與文獻(xiàn)[17]中的設(shè)置一樣，只對訓(xùn)練集和驗(yàn)證集中均未出現(xiàn)過的候選元組進(jìn)行排名. 根據(jù)此排名，MRR為測試集元組在候選元組集合中排名倒數(shù)的平均值：

其中rankh和rankt分別表示測試元組在替換頭/尾實(shí)體組成的候選元組集合中的排名.Hits@N為排在前N名的測試集元組的平均個數(shù)：

其中，C(·)是條件函數(shù)，當(dāng)條件成立時值為1，否則為0.MRR和Hits@N的值越大，說明模型在鏈接預(yù)測任務(wù)上的性能越好.

3.3 基線模型和實(shí)驗(yàn)設(shè)置

本文選取了當(dāng)前被應(yīng)用較多的靜態(tài)和時態(tài)知識圖譜表示學(xué)習(xí)模型作為基線模型. 靜態(tài)模型包括：基于平移距離的TransE 和RotatE 模型，基于CP 分解的DistMult、ComplEx、SimplE 模型；時態(tài)模型包括：TransE 的時態(tài)擴(kuò)展模型TTransE、TA-TransE、HyTE.

基于Tucker 分解的時態(tài)模型ConT 以及基于CP 分解的時態(tài)模型DE-SimplE、TComplEx、TNTComplEx、TeRo、ChronoR. 這些模型均已在第1 節(jié)中進(jìn)行了詳細(xì)介紹.

為公平起見，本文在單個NVIDIA Geforce RTX 2080Ti GPU 上運(yùn)行T-Temp 和部分基線模型，使用Ubuntu 16.04 LTS 操作系統(tǒng)，配置Intel Core i7-7700 3.60GHz CPU，128GB 內(nèi)存. 本文利用PyTorch[47]實(shí)現(xiàn)T-Temp 模型，Adam[48]作為優(yōu) 化器. 訓(xùn)練批次大小為1 000，訓(xùn)練總輪數(shù)為50，且每5 輪驗(yàn)證1 次模型，選擇驗(yàn)證集上MRR值最高的模型參數(shù)進(jìn)行測試. 對于ICEWS14 和ICEWS05-15 數(shù)據(jù)集，最佳參數(shù)設(shè)置為d=2000，k=20，λ1=λ2=0.01，rd/τd=0.25，學(xué)習(xí)率為0.2；對于YAGO11k 數(shù)據(jù)集，最佳參數(shù)設(shè)置為d=1800，k=30，λ1=0.1，λ2=1，rd/τd=0.6，學(xué)習(xí)率為0.1；對于Wikidata12k 數(shù)據(jù)集，最佳參數(shù)設(shè)置為d=2000，k=30，λ1=λ2=0.01，rd/τd=0.6，學(xué)習(xí)率為0.1.

鑒于部分基線模型與本文采用的數(shù)據(jù)集和評價指標(biāo)相同，直接引用其公開報告的實(shí)驗(yàn)結(jié)果[32-33]. 對于其他基線模型[36-37]，按照其公開論文中的最佳實(shí)驗(yàn)設(shè)置進(jìn)行模型復(fù)現(xiàn).

3.4 鏈接預(yù)測實(shí)驗(yàn)

表3 和表4 給出了T-Temp 模型和其他先進(jìn)模型在4 個數(shù)據(jù)集上的鏈接預(yù)測結(jié)果對比. 總體來說，時態(tài)模型在評價指標(biāo)上優(yōu)于靜態(tài)模型，說明在知識圖譜表示學(xué)習(xí)過程中引入時間信息能夠顯著提升模型性能. 本文提出的T-Temp 模型在所有數(shù)據(jù)集上的結(jié)果均超過最先進(jìn)的時態(tài)模型，表明T-Temp 模型能夠有效完成時態(tài)知識圖譜補(bǔ)全任務(wù).

具體來說，在ICEWS14 和ICEWS05-15 這2 個帶有時間點(diǎn)形式時間戳的數(shù)據(jù)集上，T-Temp 模型的MRR指標(biāo)結(jié)果比最先進(jìn)的時態(tài)模型ChronoR 分別提升了3.9%和1.8%，比同樣基于CP 分解的時態(tài)模型TNTComplEx 分別提升了8.5%和16%. 這是因?yàn)門Temp 模型不僅利用事實(shí)的時間信息，還充分挖掘?qū)嶓w的類型特征，從而進(jìn)一步優(yōu)化實(shí)體嵌入. 而ChronoR和TNTComplEx 模型僅僅融合了時間信息，忽略了隱含在實(shí)體關(guān)系中的類型信息，因此無法取得更優(yōu)的結(jié)果. 此外，由于ConT 模型中的每個時間戳需要大量參數(shù)來表示，容易過擬合，所以ConT 性能欠佳，而且大量參數(shù)也使其訓(xùn)練速度尤其緩慢.

YAGO11k 和Wikidata12k 是2 個帶有時間段形式時間戳的數(shù)據(jù)集，ChronoR、DE-SimplE 和ConT 模型不能處理這種連續(xù)性時間信息，因此它們在YAGO11k和Wikidata12k 這2 個數(shù)據(jù)集上沒有結(jié)果. 盡管TeRo模型采用與本文模型相同的方法來處理持續(xù)性時間信息，但T-Temp 模型的結(jié)果仍然比TeRo 更優(yōu). 一方面是因?yàn)門eRo 只考慮通過時間的旋轉(zhuǎn)操作來建模實(shí)體的時態(tài)演化性，而忽略了關(guān)系和整個事實(shí)的時間變化屬性；另一方面也進(jìn)一步驗(yàn)證了本文的模型自動挖掘并利用實(shí)體類型特征的優(yōu)點(diǎn).

Table 3 Link Prediction Results on ICEWS14 and ICEWS05-15表3 在ICEWS14 和ICEWS05-15 上的鏈接預(yù)測結(jié)果

Table 4 Link Prediction Results on YAGO11k and Wikidata12k表4 在YAGO11k 和Wikidata12k 上的鏈接預(yù)測結(jié)果

3.5 消融實(shí)驗(yàn)

為了分析類型兼容性和連續(xù)性時間信息的處理方法對模型性能的影響，本文基于T-Temp 模型設(shè)計(jì)了2 個變體模型，T-Temp-Type 和T-Temp-Type（Unif），分別表示從T-Temp 的得分函數(shù)中移除類型兼容性函數(shù)，以及在該變體模型基礎(chǔ)上進(jìn)一步將連續(xù)性時間信息的處理方法變?yōu)門ComplEx 和TNTComplEx模型中采用的均勻采樣方法. T-Temp 模型及其變體模型在YAGO11k 數(shù)據(jù)集上的鏈接預(yù)測結(jié)果如表5所示.

Table 5 Results of Ablation Experiments on YAGO11k表5 YAGO11k 上的消融實(shí)驗(yàn)結(jié)果

從表5 中可以看出，T-Temp 模型比變體模型TTemp-Type 在MRR評價指標(biāo)上高2.4%，說明建模類型兼容性并自動學(xué)習(xí)實(shí)體的類型特征確實(shí)能提升模型效果. 而變體模型T-Temp-Type（Unif）的結(jié)果則進(jìn)一步退化成與TNTComplEx 相當(dāng). 驗(yàn)證了我們設(shè)計(jì)的連續(xù)性時間信息的處理方法可以更多地采集時間的語義信息，有效改進(jìn)模型性能.

3.6 聚簇和可視化實(shí)驗(yàn)

為了評估T-Temp 模型能否有效捕獲實(shí)體的類型特征，本部分實(shí)驗(yàn)對T-Temp 模型在ICEWS14 和YAGO11k 數(shù)據(jù)集上學(xué)習(xí)到的實(shí)體和類型嵌入進(jìn)行聚簇，并將聚簇結(jié)果可視化. 具體來說，我們采用k-means[49]算法進(jìn)行聚簇，采用t-SNE[50]方法對實(shí)體和類型嵌入進(jìn)行降維（原來的維度分別是d和k），方便可視化. 圖3分別展示了在不同數(shù)據(jù)集上的聚簇結(jié)果，不同的簇用不同顏色標(biāo)識.

Fig.3 The visualization of entity and type embedding clustering圖3 實(shí)體和類型嵌入聚簇的可視化

從圖3 中可以看出，類型嵌入的簇比實(shí)體嵌入的簇更緊湊，且簇與簇之間的區(qū)分更明顯，而實(shí)體嵌入?yún)s沒有這種明顯的聚簇現(xiàn)象. 說明類型嵌入確實(shí)能夠有效捕獲實(shí)體的一般語義特征，學(xué)習(xí)實(shí)體中隱含的類型信息.

3.7 參數(shù)敏感性分析

為了研究T-Temp 模型中的參數(shù)對其性能的影響，本文在ICEWS14 數(shù)據(jù)集上對一些重要的超參進(jìn)行了細(xì)粒度的分析和比較，包括2 個嵌入向量空間的維度d和k以及訓(xùn)練總輪數(shù)N. 令嵌入向量空間的維度分別為d∈{1 600,1 800,2 000,2 200,2 400,2 600,2 800}和k∈{10,15,20,25,30,35,40}，訓(xùn)練總輪數(shù)為N∈{30,40,50,60,70,80,90,100}. 為了實(shí)驗(yàn)公平，除了當(dāng)前研究的超參外，其余超參的設(shè)置與3.3 節(jié)中的相同，實(shí)驗(yàn)結(jié)果如圖4 所示.

圖4（a）顯式了當(dāng)維度為d的嵌入向量空間取不同維度值時T-Temp 模型的各項(xiàng)評價指標(biāo)變化趨勢.從圖4（a）中可以看出，當(dāng)維度小于2 000 時，各項(xiàng)指標(biāo)隨維度的增加呈上升趨勢，并在維度取值為2 000時達(dá)到最大；當(dāng)維度大于2 000 后，各項(xiàng)指標(biāo)隨維度的增加呈緩慢下降趨勢. 維度為d的嵌入向量空間用來表示實(shí)體的個體語義信息，實(shí)驗(yàn)結(jié)果說明該向量空間的維度是個敏感參數(shù)，當(dāng)維度取值過小時，可能造成欠擬合問題，即向量空間無法充分表達(dá)所有實(shí)體的豐富語義信息；而當(dāng)維度取值過大時，則可能出現(xiàn)過擬合現(xiàn)象，從而導(dǎo)致性能變差.

圖4（b）顯式了當(dāng)維度為k的嵌入向量空間取不同維度值時，T-Temp 模型的各項(xiàng)評價指標(biāo)變化趨勢.從圖中4（b）可以看出，模型的各項(xiàng)指標(biāo)同樣隨維度的增加先呈上升趨勢，然后在維度為20 時達(dá)到最大值，隨后開始緩慢下降. 維度為k的嵌入向量空間用來表示實(shí)體所屬的類型信息，實(shí)驗(yàn)結(jié)果同樣說明該向量空間的維度是個敏感參數(shù)，其取值過小或過大可能造成模型的欠擬合或過擬合問題. 此外，實(shí)體的類型特征所包含的一般語義信息通常沒有實(shí)體的個體語義信息豐富，因此實(shí)驗(yàn)中2 個嵌入向量空間的最佳取值維度有k?d.

圖4（c）顯式了當(dāng)訓(xùn)練總輪數(shù)N取不同值時，TTemp 模型的各項(xiàng)評價指標(biāo)變化趨勢. 從圖4（c）中可以看出，當(dāng)訓(xùn)練輪數(shù)增加時，模型的各評價指標(biāo)均有所提升. 而當(dāng)訓(xùn)練輪數(shù)進(jìn)一步增加時，各項(xiàng)指標(biāo)逐漸趨于平穩(wěn)，模型達(dá)到一個相對穩(wěn)定的狀態(tài).

3.8 案例研究

Fig.4 The sensitivity analysis of parameters圖4 參數(shù)敏感性分析

為了更細(xì)致地展示T-Temp 模型確實(shí)可以利用時間信息來提高鏈接預(yù)測任務(wù)的準(zhǔn)確性，本文從YAGO11k 數(shù)據(jù)集中抽取出一些帶有時間信息的四元組作為典型案例進(jìn)行研究，包括：（Ashley Cole, plays for, Arsenal, [1999—2006]）（Ashley Cole, plays for, Chelsea,[2006—2014]）（Ashley Cole, plays for, A.S. Roma,[2014—2016]）（Ashley Cole, plays for, LA Galaxy,[2016—2019]） . 這些四元組的頭實(shí)體和關(guān)系均是“Ashley Cole”和“Playsfor”，而尾實(shí)體則隨著時間的不同而有所不同，說明該球員在不同時期曾服務(wù)于不同的足球俱樂部.

實(shí)驗(yàn)分為2 種情況進(jìn)行對比：1）掩去四元組中的尾實(shí)體，在已知頭實(shí)體、關(guān)系和時間戳的情況下通過模型來預(yù)測尾實(shí)體，即回答問題：（Ashley Cole, plays for, ?, [1999—2006]）（Ashley Cole, plays for, ?,[2006—2014]）（Ashley Cole, plays for, ?, [2014—2016]）（Ashley Cole, plays for, ?, [2016-2019]）；2）是將四元組中的尾實(shí)體和時間戳均掩去，通過訓(xùn)練好的模型來預(yù)測尾實(shí)體，即回答問題（Ashley Cole, plays for, ?）. 模型根據(jù)得分函數(shù)對所有候選實(shí)體組成的元組計(jì)算得分，并按照得分高低依次進(jìn)行排序，實(shí)驗(yàn)結(jié)果如表6所示.

Table 6 Comparison of Link Prediction表6 鏈接預(yù)測對比

從表6 中可以看出，在回答有具體時間范圍限制的問題時，模型預(yù)測結(jié)果排名第一的候選實(shí)體均為正確答案，說明T-Temp 模型確實(shí)可以利用可提供的時間信息實(shí)現(xiàn)更精準(zhǔn)的鏈接預(yù)測. 而回答不帶有時間戳的三元組問題時，模型則給出了若干個候選實(shí)體作為答案. 這些候選實(shí)體雖然無法給出用戶精準(zhǔn)的答案，但得益于T-Temp 模型的類型限制作用，他們都屬于“足球俱樂部”這一類型，一定程度上滿足了用戶的需求.

4 總結(jié)與展望

時態(tài)知識圖譜表示學(xué)習(xí)是近幾年的研究熱點(diǎn)之一. 本文基于張量的典范多元分解技術(shù)，提出了一種類型增強(qiáng)的時態(tài)知識圖譜表示學(xué)習(xí)模型T-Temp，用于解決時態(tài)知識圖譜補(bǔ)全和語義計(jì)算問題，并證明了該模型在理論上具有完全表達(dá)性和較低的時空消耗. T-Temp 模型在表示學(xué)習(xí)的過程中不僅可以利用可提供的各種形式的時間信息，還可以利用實(shí)體和關(guān)系間的類型兼容性，自動學(xué)習(xí)實(shí)體、關(guān)系、時間和類型的嵌入表示，不需要提供額外的類型信息. 在4個公開的時態(tài)知識圖譜數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)結(jié)果證明了T-Temp 模型的有效性.

鑒于現(xiàn)有的時態(tài)知識圖譜中，與事實(shí)相關(guān)聯(lián)的時間戳存在大量的缺失現(xiàn)象，下一步，計(jì)劃探索TTemp 模型對缺失的時間戳進(jìn)行預(yù)測和補(bǔ)全的問題.另外，如何將T-Temp 模型擴(kuò)展到開放世界假設(shè)[51]，實(shí)現(xiàn)對未來事件的推理和預(yù)測，也是值得深入研究的方向.

作者貢獻(xiàn)聲明：何鵬提出了算法思路，完成實(shí)驗(yàn)并撰寫論文；周剛、陳靜、章夢禮、寧原隆提出指導(dǎo)意見并修改論文.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡