国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模式映射的異構(gòu)數(shù)據(jù)整合方法研究

2020-06-10 09:36王英杰
關(guān)鍵詞:數(shù)據(jù)類型賦值數(shù)據(jù)源

王英杰

(北京建筑大學(xué) 測繪與城市空間信息學(xué)院,北京100044)

目前數(shù)字化建設(shè)方面城鎮(zhèn)比城市相對落后,使得城鎮(zhèn)規(guī)劃、管理、服務(wù)不能依靠現(xiàn)代化技術(shù)提高,多年的數(shù)據(jù)累積了大批城鎮(zhèn)數(shù)據(jù)資源,由于數(shù)據(jù)技術(shù)規(guī)范使得很難相互共享。因此在現(xiàn)有基礎(chǔ)上,構(gòu)建無縫的、規(guī)范的城鎮(zhèn)地理空間框架數(shù)據(jù),提高城鎮(zhèn)數(shù)據(jù)資源的應(yīng)用范圍,減少數(shù)據(jù)重復(fù)率、信息獲取費用。并且還能夠為城鎮(zhèn)經(jīng)濟信息等空間分析和城鎮(zhèn)各類信息系統(tǒng)實現(xiàn)提供地理空間信息的有力支撐。

1 異構(gòu)數(shù)據(jù)研究及問題分析

1.1 相關(guān)研究

數(shù)據(jù)整合主要針對數(shù)據(jù)的異構(gòu)問題,這是數(shù)據(jù)整合的核心,通常被分為三個方向系統(tǒng)、模式、來源異構(gòu)。由于數(shù)據(jù)存儲的數(shù)據(jù)庫管理系統(tǒng)和運行的業(yè)務(wù)系統(tǒng)以及桌面系統(tǒng)之間不同導(dǎo)致系統(tǒng)異構(gòu)。數(shù)據(jù)存儲的數(shù)據(jù)庫的不同導(dǎo)致數(shù)據(jù)類型不同,同時也導(dǎo)致存儲模式的不同,造成模式異構(gòu)。業(yè)務(wù)系統(tǒng)內(nèi)處理的內(nèi)部數(shù)據(jù)與外部輸入的數(shù)據(jù)不同造成來源異構(gòu)。

在數(shù)據(jù)整合中數(shù)據(jù)語法和數(shù)據(jù)語義為數(shù)據(jù)整合的難點,其中數(shù)據(jù)語法的異構(gòu)是因為設(shè)計中數(shù)據(jù)字段與數(shù)據(jù)類型在不同的數(shù)據(jù)源中不能匹配。解決的方法為依照數(shù)據(jù)結(jié)構(gòu)滿足不同數(shù)據(jù)源中數(shù)據(jù)結(jié)構(gòu)映射。但數(shù)據(jù)異構(gòu)整合還要考慮數(shù)據(jù)的語義問題,需要對數(shù)據(jù)內(nèi)容的含義理解再做匹配,通常需要對數(shù)據(jù)內(nèi)容進行拆分處理。

1.2 問題分析

異構(gòu)整合為了把非同一數(shù)據(jù)源中的數(shù)據(jù)集成到結(jié)構(gòu)統(tǒng)一的數(shù)據(jù)集合中。主要目的是為了把相關(guān)的異構(gòu)數(shù)據(jù)有效的利用起來,可以達到通用快捷的數(shù)據(jù)查詢,便于數(shù)據(jù)共享。為了達到條件,異構(gòu)數(shù)據(jù)整合要建立數(shù)據(jù)的繼承性、數(shù)據(jù)的完整性、數(shù)據(jù)的一致性以及數(shù)據(jù)的安全性。

異構(gòu)數(shù)據(jù)整合設(shè)計方法針對以下問題:a.針對不同數(shù)據(jù)源,提供通用查詢,并且如何查詢數(shù)據(jù)源的更新數(shù)據(jù)。b.數(shù)據(jù)源的整合數(shù)量,面對互聯(lián)網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)源,大量未知的數(shù)據(jù)結(jié)構(gòu)如何匹配。c.不同的數(shù)據(jù)管理系統(tǒng)保管的不同數(shù)據(jù),例如非結(jié)構(gòu)化數(shù)據(jù)(圖片,音頻),這些數(shù)據(jù)如何處理。

2 異構(gòu)數(shù)據(jù)模式匹配方法設(shè)計

2.1 模式匹配塊處理流程(圖1)

首先用戶輸入數(shù)據(jù)模式,將此數(shù)據(jù)模式作為目標(biāo)然后一次對異構(gòu)數(shù)據(jù)中的各個屬性進行匹配判斷,匹配輸出后將異構(gòu)數(shù)據(jù)源的屬性建立映射關(guān)系。

圖1

表1

2.2 屬性匹配器

屬性匹配器是根據(jù)兩個不同屬性間的相似度判斷進行匹配,輸出的是布爾對象,true 代表相似,false 代表不相似。數(shù)據(jù)屬性名稱的相似度是非常重要的衡量標(biāo)準(zhǔn)之一。但由于在不同業(yè)務(wù)系統(tǒng)下,往往屬性名稱不同但含義相同,所以利用特征詞的相似度可以匹配不同數(shù)據(jù)源中的數(shù)據(jù)結(jié)構(gòu),通常相似度計算方法有互信息法、余弦系數(shù)法、基于距離的計算模型法等。首先判斷特征詞的相似度需要中文語料庫,通過語料庫中包含的所有中文詞匯,能從中抽取出數(shù)據(jù)屬性名稱的特征,依據(jù)特征再建立特征向量模型,根據(jù)模型計算出特征詞之間的相似度。此外數(shù)據(jù)的類型也可以作為匹配的標(biāo)準(zhǔn)之一。例如不同數(shù)據(jù)源的兩個屬性描述相同的實體,因此它的數(shù)據(jù)類型往往都是相同的,所以本文依據(jù)數(shù)據(jù)類型總結(jié)歸納為四種:第一是數(shù)字類型,第二是字符串類型,第三是日期類型,第四是布爾類型。數(shù)據(jù)類型的相似度可以依據(jù)項目經(jīng)驗給予不同之間的數(shù)據(jù)類型賦值,例如布爾類型數(shù)據(jù)對應(yīng)數(shù)字類型數(shù)據(jù)1 和0,那么它的相似度賦值就偏高,再有比如同樣的數(shù)據(jù)類型,但數(shù)據(jù)長度不同,那么它的賦值就會低于相同長度的相同數(shù)據(jù)類型的相似度賦值。根據(jù)這種方式我建立賦值表,見表1。

2.3 相似度計算

每個屬性匹配器輸出0-1 的數(shù)字,再將不同輸出的數(shù)值進行向量矩陣處理,從而得到一個相似度值。因此屬性匹配器輸出的結(jié)果聚合后。通過聚合函數(shù)將直接影響數(shù)據(jù)的匹配。

本文采用基于幕平均的聚合策略對多個屬性匹配器返回的結(jié)果進行合并。

3 結(jié)論

本論文提供異構(gòu)數(shù)據(jù)整合方法思路,使整合后的數(shù)據(jù)保證一定的集成性、完整性和一致性。為實現(xiàn)不同結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)合并和共享提供了基礎(chǔ),通過開源工具和處理,建立全局統(tǒng)一的數(shù)據(jù)集成。

猜你喜歡
數(shù)據(jù)類型賦值數(shù)據(jù)源
如何理解數(shù)據(jù)結(jié)構(gòu)中的抽象數(shù)據(jù)類型
一種多源數(shù)據(jù)融合過程中的實體關(guān)聯(lián)性計算方法
利用屬性集相關(guān)性與源誤差的多真值發(fā)現(xiàn)方法研究
強賦值幺半群上的加權(quán)Mealy機與加權(quán)Moore機的關(guān)系*
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
算法框圖問題中的易錯點
基于SeisBase模型的地震勘探成果數(shù)據(jù)管理系統(tǒng)設(shè)計
線上眾籌產(chǎn)品的特征分析與研究
相似度計算及其在數(shù)據(jù)挖掘中的應(yīng)用
利用賦值法解決抽象函數(shù)相關(guān)問題オ
三门峡市| 恩施市| 永定县| 曲水县| 宁阳县| 休宁县| 余庆县| 高邑县| 鲁山县| 兴仁县| 澄江县| 调兵山市| 延津县| 崇左市| 嘉黎县| 类乌齐县| 噶尔县| 正宁县| 石嘴山市| 农安县| 景宁| 通渭县| 沅陵县| 逊克县| 若羌县| 宜昌市| 平谷区| 古蔺县| 汝州市| 新疆| 郓城县| 泗水县| 佛冈县| 库尔勒市| 化州市| 大理市| 双江| 视频| 西林县| 芦溪县| 通许县|