高勇 孟浩瀚 葉超
北京大學(xué)學(xué)報(自然科學(xué)版) 第59卷 第3期 2023年5月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 59, No. 3 (May 2023)
10.13209/j.0479-8023.2023.002
國家自然科學(xué)基金(41971331)資助
2022–04–28;
2022–05–11
基于空間約束的地理知識圖譜嵌入表示的負樣本生成方法
高勇?孟浩瀚 葉超
北京大學(xué)地球與空間科學(xué)學(xué)院遙感與地理信息系統(tǒng)研究所, 北京 100871;?E-mail: gaoyong@pku.edu.cn
地理知識圖譜的表示學(xué)習(xí)需要根據(jù)正樣本生成對應(yīng)的負樣本, 然而傳統(tǒng)的負樣本生成算法存在錯誤率高、地理知識圖譜適配性差的問題。針對這一問題, 調(diào)整空間關(guān)系在地理知識圖譜中的表達方式, 提出基于空間約束的負樣本生成方法, 并將該方法應(yīng)用至不同的知識圖譜表示學(xué)習(xí)模型, 探討其在地理知識圖譜表示學(xué)習(xí)中的適配性。結(jié)果表明, 該算法具有較低的錯誤率, 同時適用于常見的兩類知識圖譜表示模型, 能夠提高地理知識圖譜表示學(xué)習(xí)的精度, 有助于地理知識圖譜在地理研究中發(fā)揮更重要的作用。
地理知識圖譜; 表示學(xué)習(xí); 空間約束; 空間關(guān)系; 場所
空間(space)和場所(place)是表達和理解地理知識的基礎(chǔ), 其中被賦予含義的空間稱為場所[1–2]。場所知識是人們在行為活動中產(chǎn)生的, 并不斷精化的常識性認知, 是關(guān)聯(lián)個體行為與地理空間的橋梁[3]。在地理信息科學(xué)中, 地理知識通?;趫鏊奶卣骱蛨鏊g的關(guān)系來表示。符號邏輯、地名辭典和地理本體等方法一度在地理知識表示中發(fā)揮重要作用[3–5], 但隨著大數(shù)據(jù)和地理智能的發(fā)展, 海量時空信息的產(chǎn)生伴隨著更高程度的復(fù)雜性和多樣性, 進而導(dǎo)致地理知識的稀疏性和不完整性, 對場所表示提出新的挑戰(zhàn)。
作為一種新興的大規(guī)模結(jié)構(gòu)化知識建模方法, 知識圖譜(knowledge graph)[6]為形式化地組織地理知識提供了新途徑。知識圖譜是一個表示為=(,)的有向圖模型, 其中為實體集合,為邊集合。中的一條事實表示為一個三元組(,,), 其中∈和∈分別為頭實體和尾實體,∈表示與之間的關(guān)系。在知識圖譜中加入空間信息表達地理知識后, 產(chǎn)生地理知識圖譜(geographic know-ledge graph), 其中的和表示地理實體[7–10]。盡管地理知識圖譜還處于起步階段, 但在地理知識組織[8]、地理問答[10]和地理知識推理[9,11]等方面已發(fā)揮明顯的作用。
為了從知識圖譜中推斷新知識, 解決知識的稀疏性和不完整性等問題, 知識圖譜表示學(xué)習(xí)方法被提出來, 用于學(xué)習(xí)實體和關(guān)系在連續(xù)向量空間中的嵌入表達[12]。知識圖譜的嵌入表示模型主要分為平移距離模型(translational distance models)和語義匹配模型(semantics matching models)兩類, 前者包括 TransE[13]、 TransH[14]、TransR[15]、TransD[16]和TransG[17]等系列模型, 后者包括 RESCAL[18]、Dis-Mult[19]和 ComplEx[20]等模型。這些方法也在地理知識圖譜的嵌入表示中得到廣泛應(yīng)用。例如, Yan等[9]和 Qiu 等[11]均采用平移距離模型進行地理知識圖譜的嵌入表示, 張雪英等[8]和 Mai 等[10]則采用語義匹配模型。
在知識圖譜表示學(xué)習(xí)過程中, 生成負樣本(ne-gative samples)是一個重要部分。知識圖譜僅基于已知的事實, 以三元組的形式組織而成, 即數(shù)據(jù)集中只包含正樣本, 因此需要生成每個正樣本對應(yīng)的負樣本, 以便衡量知識圖譜表示學(xué)習(xí)訓(xùn)練中的模型損失。損失函數(shù)的一般形式為
然而, 傳統(tǒng)的隨機替換法未考慮地理實體間的空間關(guān)系, 導(dǎo)致負樣本生成的正確率偏低。例如, 相鄰的實體間不會存在包含關(guān)系, 距離越近的實體間具有相離關(guān)系的概率越小。引入這些空間約束, 可以明顯地提升地理知識圖譜負樣本生成的正確率, 從而提高地理知識圖譜表示學(xué)習(xí)的精度。同時, 現(xiàn)有的眾多空間關(guān)系表達模型較為復(fù)雜, 需要對其進行對比分析和改進, 以期簡化地理知識圖譜的復(fù)雜度。因此, 本研究通過調(diào)整空間關(guān)系表達模型, 提出基于空間約束的負樣本生成方法, 并探究該方法在地理知識圖譜嵌入表示中的適配性, 促使地理知識圖譜在地理研究中發(fā)揮更重要的作用。
知識圖譜嵌入表示是將知識圖譜中的實體表示為向量, 關(guān)系主要被表示為向量空間中的操作。常用的知識圖譜表示學(xué)習(xí)模型包括平移距離模型和語義匹配模型, 表 1 總結(jié)和對比這兩類模型。
最早被提出的平移距離模型是TransE[13], 它將關(guān)系視為實體在嵌入空間中的平移:
+=, (1)
其中,為頭實體向量,為尾實體向量,為頭實體與尾實體的關(guān)系向量。TransE 模型的評分函數(shù)定義如下:
f(,)=?||+–||1/2。 (2)
表1 知識圖譜嵌入表示模型對比
其中,表示單位矩陣。TransD 使用組合的投影矩陣, 分別對頭尾實體進行投影, 使得在投影空間中滿足平移關(guān)系。然而, 矩陣乘法帶來巨大的運算量, 不利于表示學(xué)習(xí)的訓(xùn)練。
相較于平移距離模型將事實表示為平移關(guān)系, 語義匹配模型使用了基于相似度的評分函數(shù)。最早提出的語義匹配模型 RESCAL[18]將實體分布式表示為向量, 關(guān)系表示為矩陣, 將三元組的評分函數(shù)定義為
針對傳統(tǒng)知識圖譜表示學(xué)習(xí)不考慮空間約束、負樣本生成的正確率低的問題, 本研究將空間關(guān)系模型引入地理知識圖譜?,F(xiàn)有的空間關(guān)系模型, 雖然精確度較高, 但往往過于復(fù)雜。為使空間關(guān)系模型與地理知識圖譜更好地結(jié)合, 本文分別探討空間拓撲關(guān)系、方位關(guān)系和度量關(guān)系在地理知識圖譜中的改動和表達。
空間拓撲關(guān)系描述的是空間點、線、面之間的鄰接、關(guān)聯(lián)和包含關(guān)系, 常用的空間拓撲關(guān)系表示模型有交集模型和 RCC 模型。常見的交集模型為四交模型(4-IM)[22–23]和九交模型(9-IM)。四交模型是將空間實體劃分為內(nèi)部和邊界, 用 2×2 的矩陣表示。九交模型在四交模型的基礎(chǔ)上擴充, 將空間實體的外部也納入空間拓撲關(guān)系的范圍, 用 3×3 的矩陣表示。RCC 模型包括 RCC8 和 RCC5[24]。RCC8 模型將空間拓撲關(guān)系分為 8 種: PO (partial overlap-ping)、TPP (tangential proper part)、NTPP (nontan-gential proper part)、EQ (equal)、NTPP?1(nontan-gential proper part?1)、TPP?1(tangential proper part?1)、EC (external connected)和 DC (disconnected)。RCC5在 RCC8 的基礎(chǔ)上將空間拓撲關(guān)系簡化, 不區(qū)分TPP 與 NTPP, 只用 PP (proper part)表示包含關(guān)系; 不區(qū)分 TPP?1與 NTPP?1, 只用PP?1(proper part?1)表示被包含關(guān)系; 不區(qū)分 EC 與 DC, 只用 DR(discrete)表示。因此, RCC5 包括 PO, PP, EQ, PP?1和 DR 這5 種空間拓撲關(guān)系。由于 DC 關(guān)系無法構(gòu)成地理知識圖譜中的三元組, 本文將 RCC5 中的 DR 關(guān)系細分為 EC 和 DC, 改動后的模型稱為 RCC5+, 包括相鄰關(guān)系(EC)、包含關(guān)系(PP)、被包含關(guān)系(PP?1)、重疊關(guān)系(PO)、相等關(guān)系(EQ)和相離關(guān)系(DC)。這6 種關(guān)系具有互斥性, 即任意兩個空間實體之間只能存在一種拓撲關(guān)系。前 5 種拓撲關(guān)系都源于連接關(guān)系 C, 表明具有該拓撲關(guān)系的實體在空間上是相近的。
方位關(guān)系指兩個空間實體之間方向與位置的相對關(guān)系。通常以一個空間實體為中心, 描述另一個空間實體位于它的哪個方位。方位關(guān)系的表達分為主方位關(guān)系(cardinal direction relations)和內(nèi)方位關(guān)系(internal direction relations)兩種, 主方位關(guān)系包括投影法[25–26]、錐形法[27]和 MBR 法[28–29]等, 內(nèi)方位關(guān)系包括 ICD 系列模型[30]等。然而, 投影法難以得到東西南北這些正方位關(guān)系, MBR 法的方位關(guān)系矩陣難以轉(zhuǎn)化成知識圖譜中的三元組, 因此錐形法更適合表達地理知識圖譜中的空間關(guān)系。
空間對象的度量屬性包括面積和周長等一元度量屬性以及距離等二元度量屬性。在知識圖譜表示學(xué)習(xí)中, 實體的一元屬性通常效果不佳, 因此很少使用[12], 因此本研究主要關(guān)注空間對象的距離這一二元屬性。為便于構(gòu)建地理知識圖譜的三元組, 空間關(guān)系中的距離需要用定性的方式表達, 例如遠和近。然而, 定性距離與確定遠近的距離閾值以及空間實體的尺寸等因素緊密相關(guān)。因此, 本研究采用TopN 鄰近關(guān)系, 即給定距離的空間實體中, 最鄰近的個空間實體具有鄰近關(guān)系。在空間實體稀疏的區(qū)域, 為防止過度識別距離較遠的實體, 需要引入距離閾值來限制鄰近關(guān)系的范圍。
在地理知識圖譜構(gòu)建及其嵌入表示的過程中, 需要區(qū)分上述 3 類空間關(guān)系的重要程度, 尤其是考慮遠距離空間對象之間的空間關(guān)系表達, 防止地理知識圖譜的復(fù)雜度過高。從空間拓撲關(guān)系的角度看, 相離關(guān)系(DC)是大部分遠距離空間實體對應(yīng)的拓撲關(guān)系, 對于地理知識圖譜, 其中大多數(shù)是無意義的, 因此 DC 不構(gòu)成空間三元組。對于方位關(guān)系, 距離較遠的實體間的方位是不重要的, 因此只需表示空間距離較近的空間實體的方位關(guān)系。對于度量關(guān)系, 距離較遠的實體間不應(yīng)具有鄰近關(guān)系, 因此需設(shè)置鄰近關(guān)系的距離閾值。綜上所述, 地理知識圖譜中的空間約束關(guān)系表達應(yīng)以空間拓撲關(guān)系為主,方位關(guān)系和度量關(guān)系作為補充, 并且, 空間約束關(guān)系的表達應(yīng)集中在距離較近的空間實體間, 遠距離的空間實體一般不構(gòu)成三元組。
與通用知識圖譜的一般關(guān)系相比, 地理知識圖譜中的空間關(guān)系具有更明顯的關(guān)聯(lián)。利用這些空間約束, 可以顯著地提升地理知識圖譜負樣本生成的正確率?;谇懊嫣岢龅目臻g約束表達方式, 本文在生成地理知識圖譜負樣本過程中引入拓撲關(guān)系的互斥性和空間鄰近性。
替換三元組的頭實體或尾實體, 可以生成負樣本。以頭實體為例, 將(,,)中的頭實體替換為′。如圖 1 所示, 首先需要找到與尾實體存在′關(guān)系的三元組(′,′,)集合, 其中′指除去關(guān)系的剩余拓撲關(guān)系。如果集合不為空, 那么(′,′,)三元組集合中所有′與尾實體構(gòu)成的(′,,)都為正確的負三元組。若集合為空, 則考慮空間鄰近性。
如圖 1 所示, 黑色區(qū)域為原三元組尾實體, 左上方灰色區(qū)域為原三元組頭實體, 剩余區(qū)域為待替換空間實體, 關(guān)系為= EC。圖 1 中灰色區(qū)域, 已知與原三元組尾實體存在 EC 關(guān)系; 圖 1 中條紋區(qū)域, 地理知識圖譜中沒有存儲它們與的關(guān)系, 最可能與不存在 EC 關(guān)系的實體是與不連接的實體, 因此可將與存在 RCC5+拓撲關(guān)系的實體排除在外。與原三元組尾實體直接存在 RCC5+拓撲關(guān)系的實體稱為 1 階鄰近實體, 與 1 階鄰近實體存在RCC5+拓撲關(guān)系的實體稱為 2 階鄰近實體。鄰近階數(shù)越大, 排除在外的實體越多, 與不連接的概率越大。圖 1 中,=1 將去除周圍 6 個空間實體,=2將去除周圍 7 個空間實體, 待選′則為最外層的 3 個, 這些′與構(gòu)成的(′, EC,)則為正確負三元組。當采用的空間鄰近性備選′集合為空時, 則采用傳統(tǒng)的負三元組生成算法。
圖1 基于空間鄰近性生成負三元組
形式化的空間負三元組頭實體算法如下。
數(shù)據(jù)及參數(shù): 輸入三元組(,,), 輸出三元組(′,,), 實體集合, 空間關(guān)系集合,階鄰近
1. 判斷是否為空間關(guān)系, 是則進入 2, 否則使用隨機替換, 返回(′,,)
3. 若′為空則轉(zhuǎn) 4, 否則隨機返回(′,,), 其中′∈H′
4. 設(shè)置鄰近集合={,},=0
5. 將包含中元素的三元組另一實體放入中,=+1, 若=則轉(zhuǎn) 6, 否則轉(zhuǎn) 5
類似地, 空間負三元組尾實體算法如下。
數(shù)據(jù)及參數(shù): 輸入三元組(,,), 輸出三元組(,,′), 實體集合, 空間關(guān)系集合,階鄰近
1. 判斷是否為空間關(guān)系, 是則進入 2, 否則使用隨機替換, 返回(,,′)
4. 設(shè)置鄰近集合={,},=0
5. 將包含中元素的三元組另一實體放入中,=+1, 若=則轉(zhuǎn) 6, 否則轉(zhuǎn) 5
空間負三元組關(guān)系算法較為簡單, 采用拓撲關(guān)系的互斥性替換不同的拓撲關(guān)系即可, 算法如下。
數(shù)據(jù)及參數(shù): 輸入三元組(,,), 輸出三元組(,′,), 空間關(guān)系集合
1. 判斷是否為空間關(guān)系, 是則進入 2, 否則使用隨機替換, 返回(,′,)
與一般機器學(xué)習(xí)或深度學(xué)習(xí)的評價任務(wù)及指標不同, 地理知識圖譜表示學(xué)習(xí)使用以下兩個任務(wù)進行精度評價。1)鏈接預(yù)測: 給定缺失頭實體或尾實體的三元組, 讓模型去檢測知識圖譜中所有實體最符合這個缺失實體的得分, 并排序(表 2); 2)三元組分類: 判斷測試三元組是不是正確的三元組, 即二分類的準確率。
平均序的計算公式如下:
平均相互序的計算公式如下:
MRR≤1, 其值越大說明預(yù)測精度越高, 效果越好。
命中率的計算公式如下:
式(9)中, Triplet 表示鏈接預(yù)測中的三元組, 分子為預(yù)測實體排列順序小于等于的集合的元素個數(shù), Hit@越大說明預(yù)測精度越高, 效果越好。
表2 鏈接預(yù)測任務(wù)精度評價指標
為構(gòu)建地理知識圖譜, 本文使用中國省級行政區(qū)劃數(shù)據(jù)、北京城市區(qū)劃數(shù)據(jù)、北京市五環(huán)內(nèi)商圈數(shù)據(jù)[31]、北京五環(huán)內(nèi)交通小區(qū)數(shù)據(jù)、北京市 250m×250m 格網(wǎng)數(shù)據(jù)和北京市興趣點數(shù)據(jù)(圖 2)。其中, 商圈單元是基于北京市興趣點數(shù)據(jù), 用模糊集方法[31]得到的。針對每個商圈包含的興趣點及其簽到量進行核密度估計, 利用等值線截取的方法劃定各個商圈的范圍。地理知識圖譜中的實體信息如表 3 所示, 其中的空間關(guān)系信息如表 4 所示。
3.2.1負樣本生成算法實驗結(jié)果
為了檢驗負樣本生成算法的效果, 按照不同比例, 將構(gòu)建的地理知識圖譜劃分成多個數(shù)據(jù)集(表5)進行負樣本生成實驗。
基于表 5 中 8 組數(shù)據(jù)集, 分別使用傳統(tǒng)負樣本生成算法和基于空間約束的負樣本生成算法, 隨機生成 100 萬個負樣本。通過檢驗生成的負樣本是否位于本文構(gòu)建的地理知識圖譜中, 即可判斷生成的負樣本正確與否(因為本文構(gòu)建的地理知識圖譜中包含實體間所有的拓撲關(guān)系)。
圖2 知識圖譜地理數(shù)據(jù)
表3 地理知識圖譜實體信息
表4 地理知識圖譜空間關(guān)系信息
表5 負樣本生成數(shù)據(jù)集
圖 3 中, 橫坐標表示生成負三元組的數(shù)據(jù)集中訓(xùn)練樣本占總體數(shù)據(jù)集的比例, 縱坐標表示生成100 萬個負三元組所包含的錯誤三元組個數(shù); 圓點標識的折線為傳統(tǒng)負三元組生成算法對應(yīng)的錯誤負三元組個數(shù), 隨著訓(xùn)練集包含的空間關(guān)系增加, 所生成的負三元組錯誤數(shù)量也增加; 三角形標識的折線為空間負三元組算法對應(yīng)的錯誤負三元組個數(shù), 隨著訓(xùn)練集包含的空間關(guān)系增加, 所生成的負三元組錯誤數(shù)量基本上保持在 100 個的水平??梢园l(fā)現(xiàn), 空間負三元組生成算法的效果遠優(yōu)于傳統(tǒng)負三元組生成算法。傳統(tǒng)負三元組生成算法只是基于開放世界假設(shè), 通過隨機替換正三元組成分獲得不在知識圖譜中的三元組來作為負三元組; 空間負三元組生成算法則考慮了空間關(guān)系間的互斥性, 生成負三元組的錯誤率大大降低。地理知識圖譜中包含的空間關(guān)系越多, 會使得不包含的空間關(guān)系越少, 導(dǎo)致傳統(tǒng)負三元組生成算法的錯誤率越高。這一結(jié)構(gòu)表明傳統(tǒng)負三元組生成算法并不適用于地理知識圖譜表示學(xué)習(xí), 發(fā)展基于空間約束的負樣本生成算法是必要的。
圖3 傳統(tǒng)負樣本生成算法與基于空間約束的負樣本生成算法結(jié)果對比
空間負三元組生成算法考慮空間關(guān)系互斥性時, 可能由于所包含的空間關(guān)系數(shù)量不足, 不能找到互斥空間關(guān)系。然而, 拓撲關(guān)系是 Connect 關(guān)系的導(dǎo)出關(guān)系, 表明地理知識圖譜中所表示的拓撲關(guān)系是對鄰近空間實體的空間關(guān)系描述。因此, 空間負三元組生成算法引入階空間關(guān)系來排除鄰近相關(guān)的空間實體, 增加負三元組生成的正確率。為了驗證階空間關(guān)系引入對負三元組生成的效果, 我們進行不引入階空間關(guān)系(=0)和引入 1 階空間關(guān)系(=1)的對比分析。
圖 4 中, 圓點標識的折線為空間負三元組算法0 階空間關(guān)系生成結(jié)果, 三角形標識的折線為空間負三元組算法 1 階空間關(guān)系生成結(jié)果。無論是否引入階空間關(guān)系, 生成 100 萬個負三元組的錯誤數(shù)量都低于 150 個。隨著引入空間關(guān)系占比的增加(訓(xùn)練集抽取率上升), 錯誤數(shù)量明顯下降。當空間關(guān)系占全集的 70%以下時, 引入 1 階空間關(guān)系生成負三元組的錯誤率低于不引入階空間關(guān)系的錯誤率; 當空間關(guān)系占比大于 70%時, 引入 1 階空間關(guān)系的錯誤率略高于不引入階空間關(guān)系。隨著數(shù)據(jù)集空間關(guān)系占比增大, 其補集減小, 引入階空間關(guān)系會將一部分鄰近空間實體從補集中去除, 使得雖然補集中錯誤候選實體的數(shù)量降低, 但錯誤實體的占比升高, 最后導(dǎo)致負三元組生成錯誤率增大。
圖4 引入N階空間關(guān)系的負樣本生成算法結(jié)果
上述兩組對比實驗的結(jié)果表明, 空間負三元組生成算法在地理知識圖譜表示學(xué)習(xí)中的效果遠優(yōu)于傳統(tǒng)的負三元組生成算法, 尤其在空間關(guān)系不充足的情況下, 空間負三元組生成算法引入階空間關(guān)系會進一步提高負三元組生成的正確率。
3.2.2地理知識圖譜表示學(xué)習(xí)模型對比
在進行地理知識圖譜表示學(xué)習(xí)時, 使用的仍然是傳統(tǒng)的平移距離模型和語義匹配模型。為了研究這兩類模型對空間負樣本生成算法的適配性, 基于表 5 中的數(shù)據(jù)集 Topo-0.9, 對兩類模型進行表示學(xué)習(xí)。平移距離模型包括 TransE, TransH, TransR 和TransD, 語義匹配模型包括 RESCAL 和 ComplEx。本文基于上述模型, 用空間負三元組生成算法訓(xùn)練10000 次, 使用的 Linux 服務(wù)器配置 Intel(R) Xeon (R) E5-2680 14 核 CPU, NVIDIA 1080Ti GPU, 訓(xùn)練模型程序均使用 30 個線程。
從圖 5 可以看出, TransR 和 RESCAL 的訓(xùn)練時長遠高于其他模型。這是由于 TransR 模型引入了關(guān)系空間(關(guān)系投影矩陣), 而 RESCAL 模型同樣用矩陣表示關(guān)系。這兩種模型進行大量的矩陣向量乘積操作, 大大地增加了訓(xùn)練時間。因此, 對于實時性高的應(yīng)用場景, TransR 和 RESCAL 不適用于知識圖譜的表示學(xué)習(xí)。
圖5 表示學(xué)習(xí)模型的訓(xùn)練時長
本文使用精度指標 MRR, HIT@10, HIT@3 和HIT@1, 分別對各個模型的表示學(xué)習(xí)結(jié)果進行評估。圖 6 顯示, 平移距離模型中的 TransE, TransH, TransR 和 TransD 在綜合結(jié)果評估中具有相似的精度表現(xiàn)。TransD 的精度略高于其他 3 種模型, 可能是由于 TransD 改進了 TransR, 將 TransR 中的關(guān)系投影矩陣分解為頭實體投影向量和尾實體投影向量, 使得模型能夠區(qū)分頭尾實體的差別。語義匹配模型的精度則有較大的差異, 其中 RESCAL 模型的精度遠高于平移距離模型, 而 ComplEx 模型的精度則遠低于所有其他模型。這可能是由于 ComplEx模型引入了復(fù)數(shù)空間, 訓(xùn)練收斂速度較慢, 訓(xùn)練10000 次仍然存在欠擬合的問題。
為了進一步分析不同模型對空間關(guān)系中拓撲關(guān)系表示的學(xué)習(xí)效果, 對各拓撲關(guān)系表示學(xué)習(xí)的精度分別進行分析, 結(jié)果如圖 7 所示。
對于同為:關(guān)系的包含關(guān)系(PP)和被包含關(guān)系(PP?1), 平移距離模型具有較為相似的精度表現(xiàn)。其中, TransR 模型因引入關(guān)系投影矩陣而導(dǎo)致欠擬合, 精度比其他平移距離模型低。各語義匹配模型的精度差異較大: RESCAL 模型優(yōu)于所有平移距離模型; 由于欠擬合, ComplEx 模型的精度遠低于所有表示學(xué)習(xí)模型。對于平移距離模型, 在包含關(guān)系中, TransH 和 TransE 的精度略高于 TransD 和TransR; 在被包含關(guān)系中, TransE 和 TransD 的精度略高于 TransH 和 TransD。
對于鄰接關(guān)系(EC), 所有模型均在 HIT@10 和HIT@3 上有一致的精度。平移距離模型仍有相似的精度, 且 TransD 模型的表示學(xué)習(xí)精度遠高于其他平移距離模型。對于語義匹配模型, RESCAL 模型的表示學(xué)習(xí)精度仍然遠優(yōu)于其他模型, 而 ComplEx模型由于欠擬合, 其表示學(xué)習(xí)精度遠低于所有其他模型。
對于重疊關(guān)系(PO), 各模型的表示學(xué)習(xí)精度不同于其他關(guān)系, RESCAL 模型的精度遠高于所有其他模型。其次, TransD 模型略高于 RESCAL 模型之外的其他模型。這種精度的差異與模型假設(shè)和關(guān)系性質(zhì)有關(guān)。重疊關(guān)系為對稱關(guān)系, 即(entity1, PO, entity2)→(entity2, PO, entity1)。對于平移距離模型, 對稱關(guān)系會使得關(guān)系表示為零向量, 但平移距離模型卻要求關(guān)系表示不為零向量。語義匹配模型要求極小化損失函數(shù) Loss=, 但該損失函數(shù)的定義要求為對稱關(guān)系。因模型假設(shè)不同的緣故, 語義匹配模型能更好地表示對稱關(guān)系。
圖6 地理知識圖譜表示學(xué)習(xí)模型精度對比
上述結(jié)果表明, 語義匹配模型中的 RESCAL 模型更適合地理知識圖譜的表示學(xué)習(xí), 平移距離模型略差于 RESCAL 模型。同時, 考慮到模型訓(xùn)練耗時問題, 由于引入矩陣乘積運算, RESCAL 和 TransR模型訓(xùn)練耗時較長。綜上所述, 同時考慮表示學(xué)習(xí)精度和訓(xùn)練耗時, TransD 模型具有僅次于 RESCAL的整體表示學(xué)習(xí)精度, 且模型訓(xùn)練耗時遠低于RESCAL 模型, TransD 模型更適用于地理知識圖譜的表示學(xué)習(xí)研究。
本研究提出基于空間約束的負樣本生成方法, 并將其應(yīng)用到地理知識圖譜的表示學(xué)習(xí)中。首先, 對已有的空間關(guān)系表達方式進行調(diào)整, 使它們可以用于地理知識圖譜中空間關(guān)系的表達, 同時保持知識圖譜的復(fù)雜度不大幅度增加。然后, 根據(jù)調(diào)整后的空間關(guān)系表達方式, 提出基于空間約束的負樣本生成算法。最后, 將基于空間約束的負樣本生成算法應(yīng)用到不同類型的表示學(xué)習(xí)模型中, 評估負樣本生成算法的適配性。
本研究使用省份、區(qū)劃、商圈單元、交通小區(qū)、格網(wǎng)單元和興趣點進行地理知識圖譜的構(gòu)建, 其中空間關(guān)系的表達采用調(diào)整的 RCC5+模型。實驗結(jié)果表明, RCC5+模型有能力表達常用地理知識圖譜中的空間關(guān)系, 不會導(dǎo)致知識圖譜的復(fù)雜度大幅度增加。與傳統(tǒng)的基于隨機替換的負樣本生成算法相比, 基于空間約束的負樣本生成算法具有更高的正確率, 尤其在空間關(guān)系不充足的情況下, 引入階空間關(guān)系的空間負樣本生成算法, 可以進一步提高負三元組生成的正確率?;诳臻g約束的負樣本生成算法適用于平移距離模型以及語義匹配模型這兩大類常見的表示學(xué)習(xí)模型。語義匹配模型中的RESCAL 模型具有最高的精度, 缺點在于訓(xùn)練耗時較長。綜合考慮表示學(xué)習(xí)精度和訓(xùn)練耗時, 平移距離模型中的 TransD 模型具有優(yōu)異的表現(xiàn)。
圖7 不同模型的拓撲關(guān)系表示學(xué)習(xí)精度對比
本文的研究結(jié)果表明, 地理知識圖譜能夠?qū)臻g信息進行合理的組織和綜合表示, 將在諸多領(lǐng)域產(chǎn)生較大的應(yīng)用價值。例如, 地理知識圖譜能夠結(jié)合不同層次的空間分析單元數(shù)據(jù), 對城市問題進行更綜合的分析和研究, 也能夠應(yīng)用于地名消歧、地理問答和地理知識推理等領(lǐng)域。如果地理知識圖譜能夠進一步對模糊性關(guān)系建模, 那么還可以進行具有模糊性的空間推理。地理知識圖譜的構(gòu)建及其嵌入表示的繼續(xù)發(fā)展, 將為上述領(lǐng)域提供更大的應(yīng)用價值。
[1] Relph E. Place and placelessness. London: Pion Press, 1976
[2] Tuan Y F. Space and place: humanistic perspective. Progress in Human Geography, 1974, 6: 233–246
[3] Purves R S, Winter S, Kuhn W. Places in Information Science. Journal of the Association for Information Science and Technology, 2019, 70(11): 1173–1182
[4] Goodchild M F. Formalizing place in geographic information systems // Burton L, Matthews S, Leung M, et al. Communities, neighborhoods, and health. New York: Springer, 2011: 21–33
[5] Scheider S, Janowicz K. Place reference systems: a constructive activity model of reference to places. Applied Ontology, 2014, 9(2): 97–127
[6] Paulheim H. Knowledge graph refinement: a survey of approaches and evaluation methods. Semantic Web Journal, 2017, 8(3): 489–508
[7] 陸鋒, 余麗, 仇培元. 論地理知識圖譜. 地球信息科學(xué)學(xué)報, 2017, 19(6): 723–734
[8] 張雪英, 張春菊, 吳明光, 等. 顧及時空特征的地理知識圖譜構(gòu)建方法. 中國科學(xué): 信息科學(xué), 2020, 50(7): 1019–1032
[9] Yan B, Janowicz K, Mai G, et al. A spatially exp- licit reinforcement learning model for geographic knowledge graph summarization. Transactions in GIS, 2019, 23(3): 620–640
[10] Mai G, Janowicz K, Cai L, et al. SE-KGE: a location-aware knowledge graph embedding model for geogra-phic question answering and spatial semantic lifting. Transactions in GIS, 2020, 24: 623–655
[11] Qiu P, Gao J, Yu L, et al. Knowledge embedding with geospatial distance restriction for geographic knowle-dge graph completion. ISPRS International Journal of Geo-Information, 2019, 8(6): 254–277
[12] Wang Q, Mao Z, Wang B, et al. Knowledge graph embedding: a survey of approaches and applications. IEEE Transactions on Knowledge and Data Enginee-ring, 2017, 29(12): 2724–2743
[13] Bordes A, Usunier N, Garcia-Duran A, et al. Transla-ting embeddings for modeling multi-relational data // Burges C J C, Bottou L, Welling M, et al. Advances in neural information processing systems. Red Hook, NY: Curran Associates, 2013: 2787–2795
[14] Wang Z, Zhang J, Feng J, et al. Knowledge graph embedding by translating on hyperplanes // Procee-dings of the 28th AAAI Conference on Artificial In-telligence. Québec City, 2014: 1112–1119
[15] Lin Y, Liu Z, Sun M, et al. Learning entity and relation embeddings for knowledge graph comple- tion // Proceedings of the 29th AAAI Conference on Artificial Intelligence. Hyatt Regency Austin, 2015: 2181–2187
[16] Ji G, He S, Xu L, et al. Knowledge graph embedding via dynamic mapping matrix // Proceedings of the 53rd Annual Meeting of the Association for Com-putational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing, 2015: 687–696
[17] Xiao H, Huang M, Zhu X. TransG: a generative model for knowledge graph embedding // Proceedings of the 54th Annual Meeting of the Association for Computa-tional Linguistics. Brelin, 2016: 2316–2325
[18] Nickel M, Tresp V, Kriegel H P. A three-way model for collective learning on multi-relational data // Pro-ceedings of the 28th International Conference on Ma-chine Learning. Bellevue, 2011: 809–816
[19] Yang B, Yih S W, He X, et al. Embedding entities and relations for learning and inference in knowle- dge bases [C/OL] // Proceedings of the International Conference on Learning Representations. (2015–08– 29) [2022–04–01]. http://arxiv.org/abs/1412.6572
[20] Trouillon T, Welbl J, Riedel S, et al. Complex em-beddings for simple link prediction // Proceedings of the 33rd International Conference on Machine Learning. New York, 2016: 2071–2080
[21] Drumond L, Rendle S, Schmidt-Thieme L. Predicting RDF triples in incomplete knowledge bases with ten-sor factorization // Proceedings of the 27th Annual ACM Symposium on Applied Computing. New York, 2012: 326–331
[22] Egenhofer M J. A formal definition of binary to-pological relationships // International conference on foundations of data organization and algorithms. Pa-ris, 1989: 457–472
[23] Egenhofer M J, Franzosa R D. Point-set topological spatial relations. International Journal of Geographi-cal Information System, 1991, 5(2): 161–174
[24] Randell D A, Cui Z, Cohn A G. A spatial logic based on regions and connection // Principles of Knowledge Representation and Reasoning: Proceedings of the 1st International Conference. Cambridge, 1992: 165–176
[25] Frank A U. Qualitative spatial reasoning: Cardinal directions as an example. International Journal of Geographical Information Science, 1996, 10(3): 269–290
[26] Ligozat G é. Reasoning about cardinal directions. Journal of Visual Languages & Computing, 1998, 9(1): 23–44
[27] Haar R. Computational models of spatial relations [R]. College Park: University of Maryland at College Park, Computer Science Center, 1976
[28] Goyal R K. Similarity assessment for cardinal direc-tions between extended spatial objects [D]. Orono: The University of Maine, 2000
[29] Goyal R K, Egenhofer M J. Similarity of cardinal directions // International Symposium on Spatial and Temporal Databases. Redondo Beach, 2001: 36–55
[30] Liu Y, Wang X, Jin X, et al. On internal cardinal direction relations // International Conference on Spa-tial Information Theory. Ellicottville, 2005: 283–299
[31] 王圣音, 劉瑜, 陳澤東, 等. 大眾點評數(shù)據(jù)下的城市場所范圍感知方法. 測繪學(xué)報, 2018, 47(8): 1105–1113
A Spatially Constraint Negative Sample Generation Method for Geographic Knowledge Graph Embedding
GAO Yong?, MENG Haohan, YE Chao
Institute of Remote Sensing and Geographic Information System, School of Earth and Space Sciences, Peking University,Beijing 100871; ? E-mail: gaoyong@pku.edu.cn
Geographic knowledge graph representation learning requires generating the corresponding negative samples based on the positive ones. However, traditional negative sample generation algorithms suffer from high error rate and poor adaption to geographic knowledge graph. Aimming at this problem, a spatially constraint negative sample generation method was proposed by modifying the modeling of spatial relations. Then the method was applied to different knowledge graph representation learning models to explore its suitability in geographic knowledge graph embedding. Results show that the proposed method has a low error rate and is suitable for two common types of knowledge graph representation models. The spatially constraint negative sample generation method will improve the accuracy of geographic knowledge graph representation learning, which helps to advance geographical research.
geographic knowledge graph; representation learning; spatial constraint; spatial relationship; place