基于模式映射的異構(gòu)數(shù)據(jù)整合方法研究

2020-06-10 09:36王英杰

科學(xué)技術(shù)創(chuàng)新 2020年9期

王英杰

(北京建筑大學(xué) 測繪與城市空間信息學(xué)院，北京100044)

目前數(shù)字化建設(shè)方面城鎮(zhèn)比城市相對落后，使得城鎮(zhèn)規(guī)劃、管理、服務(wù)不能依靠現(xiàn)代化技術(shù)提高，多年的數(shù)據(jù)累積了大批城鎮(zhèn)數(shù)據(jù)資源，由于數(shù)據(jù)技術(shù)規(guī)范使得很難相互共享。因此在現(xiàn)有基礎(chǔ)上，構(gòu)建無縫的、規(guī)范的城鎮(zhèn)地理空間框架數(shù)據(jù)，提高城鎮(zhèn)數(shù)據(jù)資源的應(yīng)用范圍，減少數(shù)據(jù)重復(fù)率、信息獲取費用。并且還能夠為城鎮(zhèn)經(jīng)濟信息等空間分析和城鎮(zhèn)各類信息系統(tǒng)實現(xiàn)提供地理空間信息的有力支撐。

1 異構(gòu)數(shù)據(jù)研究及問題分析

1.1 相關(guān)研究

數(shù)據(jù)整合主要針對數(shù)據(jù)的異構(gòu)問題，這是數(shù)據(jù)整合的核心，通常被分為三個方向系統(tǒng)、模式、來源異構(gòu)。由于數(shù)據(jù)存儲的數(shù)據(jù)庫管理系統(tǒng)和運行的業(yè)務(wù)系統(tǒng)以及桌面系統(tǒng)之間不同導(dǎo)致系統(tǒng)異構(gòu)。數(shù)據(jù)存儲的數(shù)據(jù)庫的不同導(dǎo)致數(shù)據(jù)類型不同，同時也導(dǎo)致存儲模式的不同，造成模式異構(gòu)。業(yè)務(wù)系統(tǒng)內(nèi)處理的內(nèi)部數(shù)據(jù)與外部輸入的數(shù)據(jù)不同造成來源異構(gòu)。

在數(shù)據(jù)整合中數(shù)據(jù)語法和數(shù)據(jù)語義為數(shù)據(jù)整合的難點，其中數(shù)據(jù)語法的異構(gòu)是因為設(shè)計中數(shù)據(jù)字段與數(shù)據(jù)類型在不同的數(shù)據(jù)源中不能匹配。解決的方法為依照數(shù)據(jù)結(jié)構(gòu)滿足不同數(shù)據(jù)源中數(shù)據(jù)結(jié)構(gòu)映射。但數(shù)據(jù)異構(gòu)整合還要考慮數(shù)據(jù)的語義問題，需要對數(shù)據(jù)內(nèi)容的含義理解再做匹配，通常需要對數(shù)據(jù)內(nèi)容進行拆分處理。

1.2 問題分析

異構(gòu)整合為了把非同一數(shù)據(jù)源中的數(shù)據(jù)集成到結(jié)構(gòu)統(tǒng)一的數(shù)據(jù)集合中。主要目的是為了把相關(guān)的異構(gòu)數(shù)據(jù)有效的利用起來，可以達到通用快捷的數(shù)據(jù)查詢，便于數(shù)據(jù)共享。為了達到條件，異構(gòu)數(shù)據(jù)整合要建立數(shù)據(jù)的繼承性、數(shù)據(jù)的完整性、數(shù)據(jù)的一致性以及數(shù)據(jù)的安全性。

異構(gòu)數(shù)據(jù)整合設(shè)計方法針對以下問題：a.針對不同數(shù)據(jù)源，提供通用查詢，并且如何查詢數(shù)據(jù)源的更新數(shù)據(jù)。b.數(shù)據(jù)源的整合數(shù)量，面對互聯(lián)網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)源，大量未知的數(shù)據(jù)結(jié)構(gòu)如何匹配。c.不同的數(shù)據(jù)管理系統(tǒng)保管的不同數(shù)據(jù)，例如非結(jié)構(gòu)化數(shù)據(jù)（圖片，音頻），這些數(shù)據(jù)如何處理。

2 異構(gòu)數(shù)據(jù)模式匹配方法設(shè)計

2.1 模式匹配塊處理流程（圖1）

首先用戶輸入數(shù)據(jù)模式，將此數(shù)據(jù)模式作為目標(biāo)然后一次對異構(gòu)數(shù)據(jù)中的各個屬性進行匹配判斷，匹配輸出后將異構(gòu)數(shù)據(jù)源的屬性建立映射關(guān)系。

圖1

表1

2.2 屬性匹配器

屬性匹配器是根據(jù)兩個不同屬性間的相似度判斷進行匹配，輸出的是布爾對象，true 代表相似，false 代表不相似。數(shù)據(jù)屬性名稱的相似度是非常重要的衡量標(biāo)準(zhǔn)之一。但由于在不同業(yè)務(wù)系統(tǒng)下，往往屬性名稱不同但含義相同，所以利用特征詞的相似度可以匹配不同數(shù)據(jù)源中的數(shù)據(jù)結(jié)構(gòu)，通常相似度計算方法有互信息法、余弦系數(shù)法、基于距離的計算模型法等。首先判斷特征詞的相似度需要中文語料庫，通過語料庫中包含的所有中文詞匯，能從中抽取出數(shù)據(jù)屬性名稱的特征，依據(jù)特征再建立特征向量模型，根據(jù)模型計算出特征詞之間的相似度。此外數(shù)據(jù)的類型也可以作為匹配的標(biāo)準(zhǔn)之一。例如不同數(shù)據(jù)源的兩個屬性描述相同的實體，因此它的數(shù)據(jù)類型往往都是相同的，所以本文依據(jù)數(shù)據(jù)類型總結(jié)歸納為四種：第一是數(shù)字類型，第二是字符串類型，第三是日期類型，第四是布爾類型。數(shù)據(jù)類型的相似度可以依據(jù)項目經(jīng)驗給予不同之間的數(shù)據(jù)類型賦值，例如布爾類型數(shù)據(jù)對應(yīng)數(shù)字類型數(shù)據(jù)1 和0，那么它的相似度賦值就偏高，再有比如同樣的數(shù)據(jù)類型，但數(shù)據(jù)長度不同，那么它的賦值就會低于相同長度的相同數(shù)據(jù)類型的相似度賦值。根據(jù)這種方式我建立賦值表，見表1。

2.3 相似度計算

每個屬性匹配器輸出0-1 的數(shù)字，再將不同輸出的數(shù)值進行向量矩陣處理，從而得到一個相似度值。因此屬性匹配器輸出的結(jié)果聚合后。通過聚合函數(shù)將直接影響數(shù)據(jù)的匹配。

本文采用基于幕平均的聚合策略對多個屬性匹配器返回的結(jié)果進行合并。

3 結(jié)論

本論文提供異構(gòu)數(shù)據(jù)整合方法思路，使整合后的數(shù)據(jù)保證一定的集成性、完整性和一致性。為實現(xiàn)不同結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)合并和共享提供了基礎(chǔ)，通過開源工具和處理，建立全局統(tǒng)一的數(shù)據(jù)集成。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡