王英杰
(北京建筑大學(xué) 測繪與城市空間信息學(xué)院,北京100044)
目前數(shù)字化建設(shè)方面城鎮(zhèn)比城市相對落后,使得城鎮(zhèn)規(guī)劃、管理、服務(wù)不能依靠現(xiàn)代化技術(shù)提高,多年的數(shù)據(jù)累積了大批城鎮(zhèn)數(shù)據(jù)資源,由于數(shù)據(jù)技術(shù)規(guī)范使得很難相互共享。因此在現(xiàn)有基礎(chǔ)上,構(gòu)建無縫的、規(guī)范的城鎮(zhèn)地理空間框架數(shù)據(jù),提高城鎮(zhèn)數(shù)據(jù)資源的應(yīng)用范圍,減少數(shù)據(jù)重復(fù)率、信息獲取費用。并且還能夠為城鎮(zhèn)經(jīng)濟信息等空間分析和城鎮(zhèn)各類信息系統(tǒng)實現(xiàn)提供地理空間信息的有力支撐。
數(shù)據(jù)整合主要針對數(shù)據(jù)的異構(gòu)問題,這是數(shù)據(jù)整合的核心,通常被分為三個方向系統(tǒng)、模式、來源異構(gòu)。由于數(shù)據(jù)存儲的數(shù)據(jù)庫管理系統(tǒng)和運行的業(yè)務(wù)系統(tǒng)以及桌面系統(tǒng)之間不同導(dǎo)致系統(tǒng)異構(gòu)。數(shù)據(jù)存儲的數(shù)據(jù)庫的不同導(dǎo)致數(shù)據(jù)類型不同,同時也導(dǎo)致存儲模式的不同,造成模式異構(gòu)。業(yè)務(wù)系統(tǒng)內(nèi)處理的內(nèi)部數(shù)據(jù)與外部輸入的數(shù)據(jù)不同造成來源異構(gòu)。
在數(shù)據(jù)整合中數(shù)據(jù)語法和數(shù)據(jù)語義為數(shù)據(jù)整合的難點,其中數(shù)據(jù)語法的異構(gòu)是因為設(shè)計中數(shù)據(jù)字段與數(shù)據(jù)類型在不同的數(shù)據(jù)源中不能匹配。解決的方法為依照數(shù)據(jù)結(jié)構(gòu)滿足不同數(shù)據(jù)源中數(shù)據(jù)結(jié)構(gòu)映射。但數(shù)據(jù)異構(gòu)整合還要考慮數(shù)據(jù)的語義問題,需要對數(shù)據(jù)內(nèi)容的含義理解再做匹配,通常需要對數(shù)據(jù)內(nèi)容進行拆分處理。
異構(gòu)整合為了把非同一數(shù)據(jù)源中的數(shù)據(jù)集成到結(jié)構(gòu)統(tǒng)一的數(shù)據(jù)集合中。主要目的是為了把相關(guān)的異構(gòu)數(shù)據(jù)有效的利用起來,可以達到通用快捷的數(shù)據(jù)查詢,便于數(shù)據(jù)共享。為了達到條件,異構(gòu)數(shù)據(jù)整合要建立數(shù)據(jù)的繼承性、數(shù)據(jù)的完整性、數(shù)據(jù)的一致性以及數(shù)據(jù)的安全性。
異構(gòu)數(shù)據(jù)整合設(shè)計方法針對以下問題:a.針對不同數(shù)據(jù)源,提供通用查詢,并且如何查詢數(shù)據(jù)源的更新數(shù)據(jù)。b.數(shù)據(jù)源的整合數(shù)量,面對互聯(lián)網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)源,大量未知的數(shù)據(jù)結(jié)構(gòu)如何匹配。c.不同的數(shù)據(jù)管理系統(tǒng)保管的不同數(shù)據(jù),例如非結(jié)構(gòu)化數(shù)據(jù)(圖片,音頻),這些數(shù)據(jù)如何處理。
首先用戶輸入數(shù)據(jù)模式,將此數(shù)據(jù)模式作為目標(biāo)然后一次對異構(gòu)數(shù)據(jù)中的各個屬性進行匹配判斷,匹配輸出后將異構(gòu)數(shù)據(jù)源的屬性建立映射關(guān)系。
圖1
表1
屬性匹配器是根據(jù)兩個不同屬性間的相似度判斷進行匹配,輸出的是布爾對象,true 代表相似,false 代表不相似。數(shù)據(jù)屬性名稱的相似度是非常重要的衡量標(biāo)準(zhǔn)之一。但由于在不同業(yè)務(wù)系統(tǒng)下,往往屬性名稱不同但含義相同,所以利用特征詞的相似度可以匹配不同數(shù)據(jù)源中的數(shù)據(jù)結(jié)構(gòu),通常相似度計算方法有互信息法、余弦系數(shù)法、基于距離的計算模型法等。首先判斷特征詞的相似度需要中文語料庫,通過語料庫中包含的所有中文詞匯,能從中抽取出數(shù)據(jù)屬性名稱的特征,依據(jù)特征再建立特征向量模型,根據(jù)模型計算出特征詞之間的相似度。此外數(shù)據(jù)的類型也可以作為匹配的標(biāo)準(zhǔn)之一。例如不同數(shù)據(jù)源的兩個屬性描述相同的實體,因此它的數(shù)據(jù)類型往往都是相同的,所以本文依據(jù)數(shù)據(jù)類型總結(jié)歸納為四種:第一是數(shù)字類型,第二是字符串類型,第三是日期類型,第四是布爾類型。數(shù)據(jù)類型的相似度可以依據(jù)項目經(jīng)驗給予不同之間的數(shù)據(jù)類型賦值,例如布爾類型數(shù)據(jù)對應(yīng)數(shù)字類型數(shù)據(jù)1 和0,那么它的相似度賦值就偏高,再有比如同樣的數(shù)據(jù)類型,但數(shù)據(jù)長度不同,那么它的賦值就會低于相同長度的相同數(shù)據(jù)類型的相似度賦值。根據(jù)這種方式我建立賦值表,見表1。
每個屬性匹配器輸出0-1 的數(shù)字,再將不同輸出的數(shù)值進行向量矩陣處理,從而得到一個相似度值。因此屬性匹配器輸出的結(jié)果聚合后。通過聚合函數(shù)將直接影響數(shù)據(jù)的匹配。
本文采用基于幕平均的聚合策略對多個屬性匹配器返回的結(jié)果進行合并。
本論文提供異構(gòu)數(shù)據(jù)整合方法思路,使整合后的數(shù)據(jù)保證一定的集成性、完整性和一致性。為實現(xiàn)不同結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)合并和共享提供了基礎(chǔ),通過開源工具和處理,建立全局統(tǒng)一的數(shù)據(jù)集成。