段 帥,賈奮勵(lì),宋國民,高云亮,蓋 森
(1.信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450001,2.南京陸軍指揮學(xué)院,江蘇 南京 210045)
檢索應(yīng)用中地理信息資源相似度計(jì)算方法研究
段 帥1,賈奮勵(lì)1,宋國民1,高云亮1,蓋 森2
(1.信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450001,2.南京陸軍指揮學(xué)院,江蘇 南京 210045)
在地理信息資源檢索應(yīng)用中,資源屬性間相似關(guān)系的計(jì)算還不夠深入,地理信息資源的精準(zhǔn)推薦及檢索可視化應(yīng)用尚難以實(shí)現(xiàn)。針對(duì)該問題,統(tǒng)一采用“相似度”對(duì)資源屬性間的相似關(guān)系進(jìn)行表達(dá)。資源的屬性類型大部分為文本,其中具有語義差異,文中提出復(fù)合文本的相似度算法對(duì)文本類型屬性進(jìn)行匹配,并給出數(shù)值類型屬性的“相似度”映射方案。在此基礎(chǔ)上,實(shí)現(xiàn)資源時(shí)間、空間屬性的相似度計(jì)算。基于所提出的相似度算法進(jìn)行地理信息資源檢索實(shí)驗(yàn),實(shí)現(xiàn)地理信息資源屬性間相似關(guān)系的量化,促進(jìn)信息可視化在地理信息資源檢索中的應(yīng)用。
地理信息資源;資源檢索;相似計(jì)算;相似度
地理信息資源主要指用于描述地理信息的各種空間數(shù)據(jù),包括各種矢量數(shù)據(jù)、柵格數(shù)據(jù)、文本描述數(shù)據(jù)及多媒體數(shù)據(jù)等。在當(dāng)今數(shù)字時(shí)代,數(shù)字化地理數(shù)據(jù)的數(shù)據(jù)量正在快速增長[1],在各國政府、國際組織、企業(yè)和部門的普遍重視與長期建設(shè)下,其積累量已達(dá)到相當(dāng)規(guī)模,各類地理信息資源共享服務(wù)平臺(tái)紛紛投入建設(shè)[2]。如美國聯(lián)邦地理數(shù)據(jù)委員會(huì)(FGDC)交換中心(CleaningHouse)、歐委會(huì)啟迪地理門戶網(wǎng)站(INSPIRE geoportal),我國的地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)、地理空間數(shù)據(jù)云等。
地理信息元數(shù)據(jù)標(biāo)準(zhǔn)是地理信息資源在共享應(yīng)用中的主要描述依據(jù)。如ISO/TC211元數(shù)據(jù)標(biāo)準(zhǔn)(ISO19115)、《地理信息 元數(shù)據(jù)》(GB/T19710)、DIF數(shù)據(jù)交換目錄等,這些元數(shù)據(jù)標(biāo)準(zhǔn)在地理信息資源的描述項(xiàng)目及描述方式上存在一定的差異。同一資源屬性可能采用不同的描述方式及不同的度量單位,并且地理信息資源屬性類型大部分都是文本,其中含有大量的語義成分[3]。資源的屬性需要進(jìn)行一定的匹配和計(jì)算,才能給用戶提供較準(zhǔn)確的檢索結(jié)果。
然而,在地理信息資源共享應(yīng)用中通常采用關(guān)鍵字匹配的方式,在屬性計(jì)算方面通常只涉及到空間范圍的計(jì)算,而資源其它屬性間的相似關(guān)系卻很少涉及,地理信息資源的相似推薦及檢索可視化等應(yīng)用還難以實(shí)現(xiàn)。這樣,一方面用戶難以發(fā)現(xiàn)感興趣信息;另一方面,一些資源成為少人問津的“暗信息”[4]。
基于以上背景,本文面向地理信息資源檢索應(yīng)用,采用相似度對(duì)地理信息資源屬性間的相似關(guān)系進(jìn)行量化表達(dá),促進(jìn)資源更精準(zhǔn)的推薦及信息可視化在地理信息資源檢索中的應(yīng)用。
地理信息資源檢索應(yīng)用是將與檢索條件相匹配的資源進(jìn)行聚集并展示的過程,實(shí)質(zhì)上是基于資源屬性將相似的資源在邏輯上進(jìn)行聚集。采用相似度對(duì)地理信息資源屬性間的相似程度進(jìn)行量化,以便于對(duì)相似的資源進(jìn)行聚集,促進(jìn)檢索結(jié)果更好地排序及信息可視化對(duì)資源間相似關(guān)系的表達(dá)。下面對(duì)相似度的概念及其表達(dá)范圍進(jìn)行分析。
相似度定義:用于描述地理信息資源屬性間的相似程度,統(tǒng)一采用介于0至1之間數(shù)值進(jìn)行表達(dá),當(dāng)相似關(guān)系最強(qiáng)時(shí),設(shè)定其相似度為1;當(dāng)相似關(guān)系最弱時(shí),其相似度為0。
地理信息元數(shù)據(jù)標(biāo)準(zhǔn)提供給地理信息資源的描述項(xiàng)多達(dá)400余項(xiàng),實(shí)際應(yīng)用中通常選取其中十幾項(xiàng)或幾十項(xiàng)作為資源的描述。兩個(gè)資源對(duì)象可基于其中任一描述項(xiàng)計(jì)算出兩者的相似關(guān)系。對(duì)地理信息資源設(shè)定統(tǒng)一描述項(xiàng)已在另一文中作詳細(xì)敘述,具體包括了資源的基本特征、時(shí)空特征及深度內(nèi)容特征3個(gè)方面,本文的研究重點(diǎn)是對(duì)描述項(xiàng)的相似度進(jìn)行計(jì)算。面向地理信息資源檢索應(yīng)用,需要明確相似度的表達(dá)范圍,下面對(duì)資源的描述項(xiàng)進(jìn)行分析。
資源的描述項(xiàng)按照類型可劃分為文本類型和數(shù)值類型兩種。地理信息資源大部分屬性為文本類型,如資源名稱、采集工具、主題、關(guān)鍵字等;其余少量屬性的類型為數(shù)值類型,如時(shí)間、空間范圍、存儲(chǔ)大小、價(jià)格等。文本類型屬性需要進(jìn)行文本相似度計(jì)算,得到更加準(zhǔn)確的匹配結(jié)果;數(shù)值屬性中的時(shí)間、空間范圍需要進(jìn)行特殊的計(jì)算處理,而存儲(chǔ)大小、價(jià)格等屬性,需要將數(shù)值之間的關(guān)系轉(zhuǎn)換為相似度。
文本和數(shù)值屬性的相似度計(jì)算是進(jìn)行其它相似關(guān)系計(jì)算的基礎(chǔ),本節(jié)將針對(duì)文本、數(shù)值兩種類型屬性的相似度計(jì)算方法進(jìn)行研究,并給出資源空間屬性、時(shí)間屬性的相似度計(jì)算方法。
2.1 文本相似度計(jì)算
文本的相似度計(jì)算能夠促進(jìn)資源的模糊匹配,提高資源的查全率,從而為用戶推薦更多相似的資源結(jié)果。下面對(duì)常見的文本相似度算法進(jìn)行介紹,并針對(duì)地理信息資源檢索應(yīng)用給出具體的計(jì)算方法。
2.1.1 常見的文本相似度計(jì)算方法
2.1.1.1 字符串匹配算法
字符串相似度[5]可以用來衡量兩個(gè)字符串的相似程度,它利用兩個(gè)目標(biāo)字符串的公共子串的長度,根據(jù)相應(yīng)公式得出相似程度。對(duì)于兩個(gè)字符串P,T,分別可表示為P={P1,P2,P3,…,Pn},T={T1,T2,T3,…,Tm}。對(duì)P,T的元素進(jìn)行匹配,所有匹配對(duì)(Pi,Tj)的集合表達(dá)為Rs,兩個(gè)字符串相似度可以表示為
Sim(P,T)=
其中:Sim(P,T)表示兩個(gè)字符串P,T的相似度;|?|表示內(nèi)部集合的元素個(gè)數(shù);若Rs集合為空,則Sim值為0;當(dāng)P,T完全相同,Sim為1。
2.1.1.2 詞語的相似度計(jì)算方法
1)基于語料庫的詞語相似度計(jì)算。該方法通過統(tǒng)計(jì)大規(guī)模語料庫,根據(jù)詞語間信息量或者詞語共現(xiàn)頻率來計(jì)算詞語相似度。按照語料庫的類型具體分為傳統(tǒng)大規(guī)模語料庫和Web語料庫[6]。該方法適宜用于計(jì)算兩個(gè)詞語的相關(guān)性,如“軍人”和“武器”兩個(gè)概念,兩者意義上差別很大卻具有很強(qiáng)的相關(guān)性。但基于語料庫的方法依賴于語料庫,算法復(fù)雜且存在數(shù)據(jù)稀疏的問題,其應(yīng)用并不廣泛。
2)基于《同義詞詞林》的詞語相似度計(jì)算。梅家駒等人于1983年編纂了《同義詞詞林》,這本詞典中包括了詞語的同義詞及同類詞,哈工大在其基礎(chǔ)上進(jìn)行拓展,在原有三層分類體系基礎(chǔ)上增加兩層,形成了五層分類體系。并給每個(gè)詞7個(gè)位置編碼及一個(gè)標(biāo)記,具體編碼如表1所示。
3)基于《知網(wǎng)》的詞語相似度計(jì)算?!吨W(wǎng)》并非將所有的“概念”歸結(jié)到一個(gè)樹狀的層次體系中,而是試圖用一系列的“義原”來對(duì)每一個(gè)“概念”進(jìn)行描述。其具體概念的定義如下:
表1 詞語“影像”的編號(hào)示例[7]
概念:是對(duì)詞匯語義的一種描述。每一個(gè)詞可以表達(dá)為幾個(gè)概念?!案拍睢笔怯靡环N“知識(shí)表示語言”來描述的,這種“知識(shí)表示語言”所用的“詞匯”叫做“義原”。
義原:是用于描述一個(gè)“概念”的最小意義單位。《知網(wǎng)》中的義原可以分為三類:基本義原、語法義原、關(guān)系義原。
2.1.1.3 上述方法的對(duì)比
表2對(duì)上述幾種方法的優(yōu)缺點(diǎn)進(jìn)行總結(jié)。
2.1.2 兼顧語義的復(fù)合文本相似度計(jì)算方法
綜合字符串匹配的思想和詞語相似度計(jì)算方法,本文提出兼顧語義的復(fù)合文本相似度計(jì)算方法。
2.1.2.1 算法思路
為對(duì)資源屬性進(jìn)行良好的語義處理,提出一種兼顧語義的復(fù)合文本相似度計(jì)算方法,具體算法流程如圖1所示。
表2 文本相似度計(jì)算方法對(duì)比
圖1 文本相似度算法流程
步驟1:分詞。對(duì)于待比較的兩個(gè)屬性值A(chǔ)與B,考慮到A,B可能為復(fù)合詞語或短語,在進(jìn)行比較時(shí)先采用分詞工具對(duì)復(fù)合詞匯A,B進(jìn)行分詞,分別得到A,B的屬性向量A(a1,a2,…,am)和B(b1,b2,…,bn)。
步驟2:匹配。將兩個(gè)屬性向量中的每個(gè)元素進(jìn)行一一匹配,形成m×n個(gè)配對(duì)的元素,如下所示:
(a1,b1)(a1,b2)…(a1,bn)
(a2,b1)(a2,b2)…(a2,bn)
…………
(am,b1)(am,b2)…(am,bn)
步驟3:詞語相似度計(jì)算。對(duì)上述匹配對(duì)中的每個(gè)元素進(jìn)行詞語相似度計(jì)算。首先判斷配對(duì)(ai,bj)中兩個(gè)元素是否相同,若相同,則其相似度為1;若不同,則利用詞語相似度算法進(jìn)行計(jì)算,得到m×n特征矩陣M,表示如下:
步驟4:提取。首先遍歷相似度特征矩陣,提取矩陣中最大的元素Max1,并刪除其所在的行與列,得到(m-1)×(n-1)的矩陣M1。重復(fù)該步驟,每次提取矩陣中的最大元素Maxi,并去除該元素所在的行與列,直到矩陣元素只剩下一行或一列為止。得到min(m,n)個(gè)元素集合并記為Max:
Max={Max1,Max2,…,Maxmin(n,m)}.
步驟5:基于字符串匹配思想,對(duì)于兩個(gè)待匹配的屬性,以分詞后的元素作為最小單位進(jìn)行匹配,且語義相似度的值范圍為(0,1),因此結(jié)合屬性的相似度計(jì)算,將兩個(gè)概念中的相似度計(jì)算公式調(diào)整為
2.1.2.2 詞庫調(diào)整
由于地理信息資源檢索是特定領(lǐng)域的檢索,需要對(duì)領(lǐng)域特有的詞匯進(jìn)行檢驗(yàn),對(duì)缺乏的專業(yè)領(lǐng)域詞匯進(jìn)行添加,以滿足地理信息資源檢索應(yīng)用。《同義詞詞林》及《知網(wǎng)》兩種詞庫都不包含“攝影測(cè)量”、“遙感影像”這類的詞語。鑒于《同義詞詞林》的詞語結(jié)構(gòu)相對(duì)簡單,易于調(diào)整,采用《同義詞詞林》的詞庫進(jìn)行文本相似度計(jì)算,并對(duì)詞匯進(jìn)行添加及調(diào)整。
1)添加詞匯。對(duì)地理信息資源檢索應(yīng)用的核對(duì)核心詞匯進(jìn)行分析,添加缺少的詞匯。例如,添加“圖像 1 Dk31A01=”、“圖像 1 Dk31A01=”、“圖像1 Dk31A01=”、“航拍1 Dk31A02=”至“同義詞詞林.txt”文件中。
2)調(diào)整詞匯距離。對(duì)詞語相似度進(jìn)行測(cè)試,對(duì)明顯偏差的詞匯距離進(jìn)行修改。例如,對(duì)記錄“攝影 3 Ae17C07# Hh03A01= Df04A05#”,添加“Df04A05#”編碼以減少與詞匯“遙感”的距離。
2.2 數(shù)值屬性相似度計(jì)算
數(shù)值類型的屬性主要包括資源的存儲(chǔ)大小、價(jià)格、分辨率等,這類屬性采用“數(shù)值+單位”的形式進(jìn)行表示。實(shí)現(xiàn)數(shù)值距離向相似度的映射,具體分為以下兩個(gè)步驟。
步驟1:轉(zhuǎn)換為統(tǒng)一的計(jì)量單位,計(jì)算兩個(gè)待匹配數(shù)值的差值。
同一屬性可能具有不同的表示單位。如存儲(chǔ)大小可能采用KB、MB、GB、TB幾種單位進(jìn)行表示,進(jìn)行匹配時(shí)首先將其換算為統(tǒng)一單位,再計(jì)算兩個(gè)數(shù)值的差值,這里將差值記為D。
步驟2:對(duì)差值進(jìn)行分階,映射為0~1間的相似度。
對(duì)步驟1中計(jì)算出的差值D進(jìn)行分階,將每一階的范圍映射為相似度。以數(shù)據(jù)儲(chǔ)存大小屬性為例,表3對(duì)其相似度映射方法進(jìn)行分析。
需特別指出的是,數(shù)值型屬性間差值的分階方法并不固定,具體應(yīng)用中可參照該屬性的特征以及數(shù)據(jù)庫中該屬性的密集程度。
2.3 時(shí)間相似度計(jì)算
地理信息元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)資源的時(shí)間信息通常采用“時(shí)間點(diǎn)”和“時(shí)間段”兩種方式進(jìn)行表達(dá)。如“時(shí)間點(diǎn)”主要采用“年—月—日”的形式進(jìn)行描述;時(shí)間段包括起始時(shí)間點(diǎn)與終止時(shí)間點(diǎn)來表達(dá)。學(xué)術(shù)界將點(diǎn)時(shí)間看作一個(gè)極短的段時(shí)間[8]?;谠撍枷?,取時(shí)間段的中點(diǎn)作為時(shí)間段的簡化表示,便于統(tǒng)一計(jì)算。如圖2所示。
表3 資源存儲(chǔ)大小的相似度映射
圖2 時(shí)間映射示意圖
將時(shí)間段映射為時(shí)間軸的點(diǎn)之后,可以統(tǒng)一計(jì)算時(shí)間的間隔值D,采用上節(jié)中數(shù)值屬性相似度的計(jì)算方法,對(duì)時(shí)間間隔進(jìn)行相似度映射,在此不再贅述。
2.4 空間相似度計(jì)算
空間關(guān)系可細(xì)分為水平空間關(guān)系、資源方向、方位以及拓?fù)涞榷鄠€(gè)類別。考慮到資源方向、方位、拓?fù)浼按怪笨臻g上的復(fù)雜關(guān)系在檢索中并不常用,因此重點(diǎn)研究地理信息資源檢索中水平空間的相似關(guān)系。資源水平空間的描述可能采用直角坐標(biāo)系、大地坐標(biāo)系、地名、郵編、行政區(qū)劃等多種類型的描述方式。因此,實(shí)現(xiàn)資源水平空間關(guān)聯(lián)關(guān)系的計(jì)算首先要實(shí)現(xiàn)多種描述方式的統(tǒng)一映射。
本文將水平空間的多種描述方式統(tǒng)一映射為大地坐標(biāo)系的表達(dá),并采用空間重疊度和空間距離兩個(gè)參數(shù)對(duì)資源的空間相似度進(jìn)行度量,具體如圖3所示。
圖3 水平空間描述方式的統(tǒng)一映射與計(jì)算
重疊度:從檢索的角度,設(shè)區(qū)域A為待比較資源的水平空間區(qū)域或搜索范圍,區(qū)域B為待比較區(qū)域,區(qū)域B與區(qū)域A的重疊度σ(A,B)表示為
其中:SAB為區(qū)域A與B的公共面積,SA為區(qū)域A
的面積。
空間距離:僅僅采用空間重疊度往往還難以發(fā)現(xiàn)足夠多的資源,在此采用空間距離這一參數(shù)對(duì)相似度進(jìn)行補(bǔ)充。
設(shè)區(qū)域A中心點(diǎn)經(jīng)緯度為(LonA,LatA),區(qū)域B中心點(diǎn)經(jīng)緯度為(LonB,LatB)。對(duì)經(jīng)緯度進(jìn)行規(guī)范化處理:東經(jīng)取正值(Lon),西經(jīng)取負(fù)值(-Lat),北緯(90-Lat),南緯(90+Lat),經(jīng)處理后的坐標(biāo)分別表示為(MLonA,MLatA)和(MLonB,MLatB),空間距離計(jì)算公式為
Distance(A,B)=R×Arccos(sin(MLatA)×
sin(MLatB)×cos(MLonA-MLonB)+
cos(MLatA)×cos(MLatB))×PI/180.
其中:R為地球平均半徑;PI為圓周率。根據(jù)空間重疊度與空間距離公式,資源的水平空間總體相似度可表示如下:
其中:W1,W2分別對(duì)應(yīng)空間重疊度與空間距離的權(quán)重;N為距離的調(diào)整因子。水平空間相似度在理論上可以超過1,當(dāng)相似度超過1時(shí),調(diào)整其相似度值為1。
采用本文提出的地理信息資源屬性的相似度計(jì)算方法,開發(fā)原型試驗(yàn)系統(tǒng)進(jìn)行檢索實(shí)驗(yàn)。系統(tǒng)中地理信息資源的元數(shù)據(jù)庫中包含了主題內(nèi)容、時(shí)間、空間等詳細(xì)的屬性信息。原型系統(tǒng)提供單一要素檢索和多要素檢索功能,采用兩個(gè)功能分別進(jìn)行兩組檢索實(shí)驗(yàn)。
3.1 單要素檢索實(shí)驗(yàn)
設(shè)定檢索項(xiàng)為“主題”,檢索關(guān)鍵字為“山脈”,檢索結(jié)果如圖4所示。
圖4 主題檢索結(jié)果
表4對(duì)檢索結(jié)果進(jìn)行統(tǒng)計(jì),表中的匹配度代表資源與當(dāng)前檢索條件的相似度。
表4 檢索結(jié)果統(tǒng)計(jì)
對(duì)比可知,匹配度為100%的記錄中其主題包含了“山”、“山地”,與檢索詞匯“山脈”概念相一致;“海島”、“島礁”與其的相似度為79%,而湖泊、森林、城市等與“山脈”距離較遠(yuǎn)。檢索系統(tǒng)對(duì)每一頁的檢索結(jié)果以圖形進(jìn)行顯示(見圖5),初步實(shí)現(xiàn)了檢索結(jié)果的可視化表達(dá)。
圖5 檢索結(jié)果的圖形顯示
3.2 空間范圍檢索實(shí)驗(yàn)
設(shè)定3個(gè)檢索條件:資源類型為“影像”,“主題”為“河流”,“地名”為“鄭州”,其檢索結(jié)果目錄及圖形顯示分別如圖6、圖7所示。
圖6 多要素檢索結(jié)果
圖7 多要素檢索可視化顯示
表5對(duì)圖中的檢索結(jié)果進(jìn)行統(tǒng)計(jì)。當(dāng)有多個(gè)檢索條件時(shí),檢索系統(tǒng)計(jì)算出對(duì)應(yīng)屬性的相似度,求取平均值作為總體相似度。當(dāng)資源對(duì)象的相關(guān)屬性與3個(gè)檢索條件完全匹配時(shí),其總體相似度為100%;當(dāng)滿足其中兩個(gè)檢索條件,相似度約為66%;表5中匹配度為59%的資源,其空間范圍屬性與“空間范圍”檢索條件的相似度為1,并且其包含的主題“湖泊”與檢索條件“河流”在概念上相似,其相似度更高,該資源的總體相似度較高。
表5 多要素檢索結(jié)果統(tǒng)計(jì)
兩組檢索實(shí)驗(yàn)證明,統(tǒng)一采用相似度對(duì)地理信息資源屬性的相似關(guān)系進(jìn)行計(jì)算,有利于對(duì)屬性相似關(guān)系的統(tǒng)一量化,促進(jìn)資源的精確排序及信息可視化對(duì)檢索結(jié)果的表達(dá);驗(yàn)證了文本屬性、空間屬性的相似度算法的有效性,促進(jìn)資源的相似發(fā)現(xiàn),提高了查全率。
面向檢索應(yīng)用,對(duì)地理信息資源屬性的相似度計(jì)算方法進(jìn)行研究。統(tǒng)一采用介于0至1的相似度值對(duì)資源屬性的相似關(guān)系進(jìn)行統(tǒng)一表示。提出了復(fù)合文本的相似度算法對(duì)資源文本類型屬性進(jìn)行匹配,并給出數(shù)值屬性的相似度映射方案。在其基礎(chǔ)上,完成資源的時(shí)間、空間屬性的相似度計(jì)算。采用提出的屬性相似度計(jì)算方法進(jìn)行檢索實(shí)驗(yàn),實(shí)驗(yàn)證明,本文所提出的屬性相似度計(jì)算方法能夠促進(jìn)資源屬性間相似關(guān)系的量化,促進(jìn)資源的精確排序及相似資源的發(fā)現(xiàn)。
本文采用圖形方法對(duì)檢索結(jié)果進(jìn)行可視化顯示,該表達(dá)方式還比較簡單。在本文研究的基礎(chǔ)上,將信息可視化方法與地理信息資源檢索進(jìn)行深入結(jié)合是下一步研究工作的重點(diǎn)。
[1] 龔健雅,耿晶,吳華意,等.地理信息資源網(wǎng)絡(luò)服務(wù)技術(shù)及其發(fā)展[J].測(cè)繪科學(xué)技術(shù)學(xué)報(bào),2013,30(4):353-360.
[2] 陸海英,花存宏.地理信息資源共享服務(wù)平臺(tái)建設(shè)構(gòu)想[J].地理信息世界,2009,7(4):19-23.
[3] 宋國民,賈奮勵(lì).地理空間數(shù)據(jù)共享機(jī)制研究[J].測(cè)繪學(xué)院學(xué)報(bào),2002,19(2):134-136.
[4] 劉建國,周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009,19(1):1-15.
[5] 牛永潔,張成.多種字符串相似度算法的比較研究[J].計(jì)算機(jī)與數(shù)字工程,2012,40(3):14-17.
[6] 李慧.詞語相似度算法研究綜述[J].現(xiàn)代情報(bào),2015,35(4):172-177.
[7] 劉丹丹,彭成,錢龍華,等.《同義詞詞林》在中文實(shí)體關(guān)系抽取中的作用[J].中文信息學(xué)報(bào),2014,28(2):91-99.
[8] 侯志偉,諸云強(qiáng),高星,等.時(shí)間本體及其在地學(xué)數(shù)據(jù)檢索中的應(yīng)用[J].地球信息科學(xué)學(xué)報(bào),2015(4):379-390.
[責(zé)任編輯:劉文霞]
On the method of similarity computation of geographic information resources in the retrieval
DUAN Shuai1, JIA Fenli1, SONG Guomin1,GAO Yunliang1,GAI Sen2
(1.Information Engineering University,Zhengzhou 450001,China, 2.Nanjing Army Command College,Nanjing 210045,China)
In the retrieval of geographic information resources, as the computation of relationship between the attributes of resources is not deep enough, it is difficult to recommend the geographic information resources accurately and display the results in a visual form. In view of the above problems, this paper uses relationship to express the similarity between resource attributes. The mostly-used type of attributes is text, which has much semantic difference.So a similarity algorithm is proposed to match the text attributes, and to obtain the similarity mapping scheme of numerical attributes.On this basis the similarity of time and space attributes are calculated. Based on the proposed similarity algorithm, geographic information resources retrieval experiments are carried out,which will realize the quantification of resource similarity relation and application of information visualization in geographic information retrieval.
geographic information resources; resource retrieval; similarity algorithm; similar degree
引用著錄形式:段 帥,賈奮勵(lì),宋國民.檢索應(yīng)用中地理信息資源相似度計(jì)算方法研究[J].測(cè)繪工程,2017,26(6):53-59.
10.19349/j.cnki.issn1006-7949.2017.06.010
2016-05-06;
2016-06-01
國家自然科學(xué)基金資助項(xiàng)目(41371382);信息工程大學(xué)地理空間信息學(xué)院碩士學(xué)位創(chuàng)新與創(chuàng)優(yōu)論文基金(ZS201505)
段 帥(1990-),男,碩士研究生.
P208
A
1006-7949(2017)06-0053-07