農(nóng)村土地利用數(shù)據(jù)集成的模式匹配方法

2014-11-15 09:31王強(qiáng)

江蘇農(nóng)業(yè)科學(xué) 2014年9期

摘要：以模式匹配作為數(shù)據(jù)集成的重要方法可以解決多源數(shù)據(jù)在模式上的差異問(wèn)題，為用戶提供統(tǒng)一的訪問(wèn)視圖。通過(guò)對(duì)現(xiàn)有模式匹配方法及農(nóng)村土地利用數(shù)據(jù)差異類型的分析，提出基于不同模式結(jié)構(gòu)層次的元素匹配和實(shí)例統(tǒng)計(jì)匹配相結(jié)合的復(fù)合匹配方法，通過(guò)對(duì)模式語(yǔ)義相似度的計(jì)算，解決農(nóng)村土地利用數(shù)據(jù)集成過(guò)程中的模式匹配問(wèn)題。最后選取海南省瓊海市大路鎮(zhèn)農(nóng)村土地利用數(shù)據(jù)，驗(yàn)證該方法的可行性和有效性。

關(guān)鍵詞：農(nóng)村土地；模式差異；模式匹配；語(yǔ)義相似度；實(shí)例統(tǒng)計(jì)

中圖分類號(hào)： S127文獻(xiàn)標(biāo)志碼： A文章編號(hào)：1002-1302（2014）09-0391-04

收稿日期：2013-11-18

基金項(xiàng)目：國(guó)家科技支撐計(jì)劃（編號(hào)：2012BAJ23B04）

。

作者簡(jiǎn)介：王強(qiáng)（1988—），男，河南信陽(yáng)人，碩士研究生，主要從事空間數(shù)據(jù)語(yǔ)義整合研究。E-mail：yethde@163.com。

通信作者：朱華吉，博士，副研究員，主要從事時(shí)態(tài)GIS理論研究。E-mail：zhuhuaji@126.com。隨著我國(guó)經(jīng)濟(jì)快速發(fā)展，國(guó)土部門的業(yè)務(wù)范圍不斷擴(kuò)大，積累的農(nóng)村土地利用數(shù)據(jù)也越來(lái)越多。這些地理數(shù)據(jù)往往是由不同部門采用各自的數(shù)據(jù)管理軟件，按照各自行業(yè)標(biāo)準(zhǔn)采集和管理，沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)與規(guī)范，缺乏應(yīng)有的溝通和信息流動(dòng)，使跨平臺(tái)的數(shù)據(jù)交換出現(xiàn)困難[1]。建立農(nóng)村土地利用數(shù)據(jù)共享機(jī)制，集成多源異構(gòu)土地利用數(shù)據(jù)，有助于掌握農(nóng)村土地利用動(dòng)態(tài)變化、耕地總量動(dòng)態(tài)平衡情況，便于監(jiān)測(cè)、預(yù)測(cè)土地類型的變化趨勢(shì)和對(duì)土地利用情況進(jìn)行分析，對(duì)農(nóng)村土地的科學(xué)管理具有重要意義。本研究討論了數(shù)據(jù)集成過(guò)程中模式匹配的方法和作用，通過(guò)分析農(nóng)村土地利用數(shù)據(jù)模式的差異類型提出了基于元素和實(shí)例統(tǒng)計(jì)相結(jié)合的復(fù)合匹配方法，給出元素匹配中元素語(yǔ)義相似度的計(jì)算公式，設(shè)計(jì)了不同類型屬性的統(tǒng)計(jì)參數(shù)，旨在尋找正確的匹配模式，以便數(shù)據(jù)集成。

1模式及模式匹配

模式是指按照某種結(jié)構(gòu)組織起來(lái)的多個(gè)元素的集合，通常由數(shù)據(jù)庫(kù)表、列、類或XML元素、屬性等關(guān)聯(lián)元素集組成[2]。模式匹配是指從2個(gè)或多個(gè)模式中確定相關(guān)元素在語(yǔ)義上的對(duì)應(yīng)關(guān)系，并聲明其具體映射過(guò)程，其核心在于計(jì)算模式間的相似度。以給定的2個(gè)模式元素集合S={S1，S2，…，Sn}和T={T1，T2，…，Tm}作為輸入，發(fā)現(xiàn)語(yǔ)義相關(guān)模式元素S′、T′ ，并給出它們之間的映射關(guān)系，即完成一個(gè)模式匹配過(guò)程。

目前大多數(shù)應(yīng)用系統(tǒng)中的模式匹配任務(wù)是由用戶手動(dòng)實(shí)現(xiàn)的。為了滿足日益迫切的現(xiàn)實(shí)需要和盡量減少模式匹配過(guò)程中用戶的參與，人們對(duì)模式匹配問(wèn)題進(jìn)行了一系列研究，并提出多種自動(dòng)或半自動(dòng)匹配方法。根據(jù)信息來(lái)源和種類，現(xiàn)有模式自動(dòng)匹配方法可劃分為基于元素的匹配方法、基于實(shí)例的匹配方法、組合式匹配方法等三大類[3]。

基于元素的匹配方法僅依據(jù)模式元素本身所具有的信息來(lái)發(fā)現(xiàn)和確定語(yǔ)義相關(guān)的模式元素。這些信息主要包括元素名稱、元素描述性說(shuō)明信息、約束信息（如數(shù)據(jù)類型、取值范圍）等?；趯?shí)例的匹配方法是利用數(shù)據(jù)實(shí)例為匹配任務(wù)提供語(yǔ)義線索，分為實(shí)例概括統(tǒng)計(jì)和實(shí)例內(nèi)容統(tǒng)計(jì)2種方法。組合式匹配方法則包含基于元素和基于實(shí)例的方法，更靈活，效果往往也更好。

針對(duì)組合式匹配方法，SemInt系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)技術(shù)通過(guò)分析字段或?qū)傩缘募s束和實(shí)例統(tǒng)計(jì)信息來(lái)發(fā)現(xiàn)不同數(shù)據(jù)庫(kù)中的相關(guān)字段，該系統(tǒng)可以自動(dòng)執(zhí)行屬性匹配的整個(gè)過(guò)程，不需要用戶參與。但由于該過(guò)程須要大量的訓(xùn)練學(xué)習(xí)處理，容易產(chǎn)生類似于 m ∶n 的不確切匹配候選情況，進(jìn)一步增加用戶對(duì)匹配結(jié)果的核對(duì)和校正時(shí)間[4]。COMA平臺(tái)期望以最優(yōu)的策略對(duì)不同匹配方法產(chǎn)生的匹配結(jié)果進(jìn)行綜合利用，詳細(xì)討論組合匹配的基本過(guò)程以及可采取的組合策略類型，提供一個(gè)擴(kuò)展性良好的平臺(tái)來(lái)綜合各種方法的結(jié)果[5]。LSD系統(tǒng)先通過(guò)手工給出的匹配關(guān)系和數(shù)據(jù)實(shí)例訓(xùn)練學(xué)習(xí)器，用訓(xùn)練好的學(xué)習(xí)器產(chǎn)生新的匹配關(guān)系，最后結(jié)合多個(gè)學(xué)習(xí)器給出的映射規(guī)則獲取最終匹配結(jié)果。盡管其準(zhǔn)確性較高，但它需要專家知識(shí)才能完成人工訓(xùn)練，并且對(duì)于大型的應(yīng)用來(lái)說(shuō)很浪費(fèi)時(shí)間[6]。

組合式匹配可以在一定程度上提高匹配效果，但隨著組合信息和方法的增加，系統(tǒng)復(fù)雜性也將隨之增加。由于多種來(lái)源的信息具有不同的表達(dá)形式，一般并不能直接被應(yīng)用于混合匹配，而須要制定高效的策略和規(guī)則對(duì)其進(jìn)行規(guī)范化處理。復(fù)合匹配是以單個(gè)匹配方法為基礎(chǔ)的，為保證其效率和效果，不僅要盡可能地提高每個(gè)成員匹配方法的效率和效果，而且應(yīng)該選擇正確的執(zhí)行順序，制定合理的結(jié)果重用和組合策略。

2數(shù)據(jù)模式差異分析

模式是對(duì)數(shù)據(jù)基本種類和特征的概括性描述，反映的是各類數(shù)據(jù)的結(jié)構(gòu)、屬性、聯(lián)系、約束。由于土地利用數(shù)據(jù)是由不同單位根據(jù)自身實(shí)際需要設(shè)計(jì)數(shù)據(jù)模型，必然會(huì)產(chǎn)生不同的模式。數(shù)據(jù)采集單位用不同屬性字段表達(dá)相同的地物類別，或用同一屬性字段表達(dá)不同的空間地物，即存在“同名異物”和“同物異名”問(wèn)題。數(shù)據(jù)應(yīng)用部門對(duì)提供的數(shù)據(jù)模式進(jìn)行不同的重構(gòu)處理，如重新規(guī)劃要素類，為要素類增加或刪除屬性字段，更改屬性約束、取值范圍等。綜合來(lái)看，土地利用數(shù)據(jù)的模式差異主要表現(xiàn)在以下方面[7]。

2.1概括差異

概括是在定義類型時(shí)，將具有公共屬性和操作特征的幾種類型抽象出來(lái)，形成一種更一般的超類的機(jī)制。當(dāng)設(shè)計(jì)者采用不同的概括層次描述現(xiàn)實(shí)世界中的相關(guān)實(shí)體時(shí)，將產(chǎn)生概括差異。如表1中定義的要素類面狀地物，既可以表示幾何形狀為面狀的地類圖斑，也可以表示具有面積的線狀地物，還可以表示因?yàn)楸壤卟荒苌蠄D而面積過(guò)大不能舍棄的零星地物，表2中的要素類只表示地類圖斑。

2.2聚集差異

聚集是將幾個(gè)不同特征的子對(duì)象組合在一起形成一個(gè)在語(yǔ)義水平上更高的雙親對(duì)象。當(dāng)一個(gè)定義的要素類相當(dāng)于另一個(gè)或多個(gè)要素類的聚集結(jié)果時(shí)，將產(chǎn)生聚集差異。如要素類“道路”和要素類“公路”，前者中一個(gè)要素的空間形態(tài)和屬性是后者若干個(gè)要素的空間形態(tài)和屬性特征的聚合或總和。endprint

2.3描述差異

描述差異是指不同要素類采用不同數(shù)量或含義的屬性項(xiàng)來(lái)描述和刻畫相同現(xiàn)象的不同特征。表1、表2中，面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合（幾何型、標(biāo)志碼、地類名稱、變更時(shí)間、地類代碼、毛面積）和屬性集合（幾何型、標(biāo)志碼、要素代碼、地類名稱、地類編碼、圖斑面積）來(lái)刻畫地理要素的屬性和空間特征。

2.4命名差異

在模式設(shè)計(jì)或定義時(shí)，為明確模式元素（要素類、屬性等）的含義，并與其他元素相區(qū)別，通常為模式元素賦予相應(yīng)表1海南省瓊海市大路鎮(zhèn)1996年面狀地物（要素類A）

2.5約束差異

當(dāng)要素類對(duì)相同概念或關(guān)系采用不同約束條件（如空間要素的幾何類型、屬性的數(shù)據(jù)類型、長(zhǎng)度、取值范圍等）時(shí)，將產(chǎn)生約束差異。例如，將待入庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)要素編碼時(shí)，2個(gè)數(shù)據(jù)庫(kù)分別采用數(shù)值型和字符型來(lái)記錄要素的編碼值。

此外，如果2個(gè)關(guān)系（表）中存在共同的數(shù)據(jù)實(shí)例，則可認(rèn)為這2個(gè)關(guān)系之間存在匹配關(guān)系，然后根據(jù)數(shù)據(jù)實(shí)例進(jìn)一步確定這2個(gè)關(guān)系的屬性匹配關(guān)系。因此，數(shù)據(jù)實(shí)例對(duì)揭露數(shù)據(jù)模式匹配關(guān)系具有重要意義。表1、表2中數(shù)據(jù)實(shí)例的差異主要表現(xiàn)在外延差異、量綱差異、精度差異、表達(dá)差異、分段差異等方面。

3農(nóng)村土地利用數(shù)據(jù)的模式匹配

從地理信息系統(tǒng)（GIS）的觀點(diǎn)看，一個(gè)典型的土地利用數(shù)據(jù)模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個(gè)屬性。按照不同模式結(jié)構(gòu)層次分類，將要素類（關(guān)系表）當(dāng)作底層元素時(shí)，屬性（字段）可以看作是它的實(shí)例；將屬性（字段）作為底層元素時(shí)，數(shù)據(jù)記錄即為它的實(shí)例。

將農(nóng)村土地利用數(shù)據(jù)模式分為要素類和屬性2層分別進(jìn)行元素和實(shí)例的匹配，計(jì)算其元素相似度、約束相似度、實(shí)例相似度，通過(guò)最大相似度建立起模式匹配關(guān)系。

3.1基于元素的匹配

基于元素的匹配技術(shù)是對(duì)單個(gè)模式元素進(jìn)行匹配的。對(duì)于第1個(gè)輸入模式的每個(gè)元素，基于元素的匹配在第2個(gè)輸入模式中確定匹配元素。在最簡(jiǎn)單的情況下，僅考慮粒度的最底層元素也叫原子層，如 XML 模式中的屬性或關(guān)系模式中的列。但其也不只限于原子層，也可應(yīng)用于高層（非原子層）元素。高層粒度包括文件記錄、實(shí)體、類、關(guān)系表、XML 元素。

3.1.1元素名稱匹配“如果2個(gè)元素的名稱完全相同，則它們存在匹配關(guān)系”，這是大多數(shù)應(yīng)用系統(tǒng)中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語(yǔ)句。語(yǔ)句相似度是指2個(gè)語(yǔ)句的相似程度。相似度達(dá)到某個(gè)設(shè)定閥值時(shí)，就認(rèn)為這2個(gè)語(yǔ)句相似。一般語(yǔ)句相似度計(jì)算首先對(duì)語(yǔ)句進(jìn)行分割，通過(guò)計(jì)算關(guān)鍵詞詞形、詞義相似度，再賦予它們不同的權(quán)重得到語(yǔ)句的相似度[8]。

對(duì)于詞形相似度，可以通過(guò) Q-grams、編輯距離（edit distance）、Jaro 距離、Smith-Waterman 距離等字符串比較方法來(lái)衡量。對(duì)于詞義相似度，由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關(guān)系，因此所需的評(píng)價(jià)方法相對(duì)比較復(fù)雜，需要語(yǔ)義詞典支持，如 WordNet、知網(wǎng)等。

3.1.1.1基于詞形的相似度計(jì)算設(shè)語(yǔ)句S1、S2分別可被切分為m、n個(gè)詞語(yǔ)，即，S1={c1，c2，…，cm}，S1={c′1，c′2，…，c′n}、則S1、S2的相似度可通過(guò)下式計(jì)算：

3.1.1.2基于詞義的相似度計(jì)算設(shè)p1、p2是詞語(yǔ)c1、c′1的2個(gè)義原[9]（描述詞語(yǔ)語(yǔ)義的最小單位），其相似度如下。

3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息，如數(shù)據(jù)類型、值域、唯一性、可選性、關(guān)系類型等，它們是一種重要的語(yǔ)義信息來(lái)源。因?yàn)樵谀Ｊ皆O(shè)計(jì)時(shí)相同含義的屬性很可能被賦予相似的約束信息，所以可以將其作為屬性相似性的判斷依據(jù)來(lái)確定是否相關(guān)。下面進(jìn)一步分析這些信息的形式及其在模式匹配中的作用。

3.1.2.1屬性類型作為屬性的重要描述信息，一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會(huì)存在對(duì)應(yīng)關(guān)系，如浮點(diǎn)型屬性和雙精度型屬性存儲(chǔ)的可能都是一定精度的面積數(shù)據(jù)，“char”型屬性和“string”型屬性可能都存儲(chǔ)英文字符型數(shù)據(jù)；常見(jiàn)日期型數(shù)據(jù)可以用字符串表示，也可以用專門的日期型屬性存儲(chǔ)。

3.1.2.2值域由于應(yīng)用背景、數(shù)據(jù)參考源、數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)的不同，源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在描述同一空間實(shí)體狀態(tài)時(shí)會(huì)有不同的屬性值域。

3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。

3.1.2.4關(guān)系約束關(guān)系約束是揭示屬性之間聯(lián)系的語(yǔ)義來(lái)源。例如，已知A、B之間具有1 ∶1的關(guān)系，并且A與C匹配，那么B與C之間也可能存在匹配關(guān)系。

基于約束的屬性相似性計(jì)算方法如下：

Sim（A，B）=∑ni=1Sim（αi，βi）/n。（4）

式中：Sim（αi，βi）為屬性元素第i對(duì)對(duì)應(yīng)約束因子相似度。

單獨(dú)使用約束信息經(jīng)常會(huì)導(dǎo)致不完全的n ∶m映射，因?yàn)橐粋€(gè)模式中可能有多個(gè)具有可比約束的元素。然而這種方法能夠限制匹配候選者的數(shù)量，而且可與其他匹配程序相結(jié)合（如名稱匹配程序）[10]。

3.2基于實(shí)例統(tǒng)計(jì)的匹配

基于實(shí)例的匹配技術(shù)考慮的是實(shí)例級(jí)數(shù)據(jù)，通過(guò)這些實(shí)例級(jí)數(shù)據(jù)可以認(rèn)識(shí)到模式元素表示的內(nèi)容和意義。在可用模式信息非常有限的情況下，尤其是對(duì)于半結(jié)構(gòu)化數(shù)據(jù)，它們是非常有意義的。特別是在沒(méi)有給定任何模式信息的情況下，可以通過(guò)實(shí)例數(shù)據(jù)手工或自動(dòng)構(gòu)造出模式。

實(shí)例級(jí)數(shù)據(jù)給出了模式元素真實(shí)內(nèi)容的精確描述，可以進(jìn)一步分析模式元素的內(nèi)容和意義，尤其當(dāng)只有有限的可用模式信息時(shí)，通常這類情況都是半結(jié)構(gòu)化數(shù)據(jù)。這種特殊情況下沒(méi)有給出模式，只給出可由實(shí)例數(shù)據(jù)手工構(gòu)建的模式，如數(shù)據(jù)指南或從 XML文檔中構(gòu)建的近似模式圖；甚至當(dāng)可獲取充裕的模式信息時(shí)，實(shí)例級(jí)匹配對(duì)于發(fā)現(xiàn)錯(cuò)誤的模式信息的解釋也非常有效。例如，在看似同樣合理的模式級(jí)匹配中，通過(guò)選擇與匹配實(shí)例更為相似的元素而避免產(chǎn)生歧義。

對(duì)于可能匹配的屬性，若其數(shù)據(jù)類型為數(shù)值型如毛面積、圖斑面積，其統(tǒng)計(jì)概括信息主要包括最大值、最小值、平均值、標(biāo)準(zhǔn)差等，分別計(jì)算要素類A、B數(shù)值型匹配屬性的所有實(shí)例在這4個(gè)統(tǒng)計(jì)量上的值（表3）。設(shè)定差異閾值，統(tǒng)計(jì)量差異小于閾值則對(duì)應(yīng)屬性是匹配的。endprint

2.3描述差異

2.4命名差異

2.5約束差異

3農(nóng)村土地利用數(shù)據(jù)的模式匹配

3.1基于元素的匹配

3.1.1.2基于詞義的相似度計(jì)算設(shè)p1、p2是詞語(yǔ)c1、c′1的2個(gè)義原[9]（描述詞語(yǔ)語(yǔ)義的最小單位），其相似度如下。

3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。

基于約束的屬性相似性計(jì)算方法如下：

Sim（A，B）=∑ni=1Sim（αi，βi）/n。（4）

式中：Sim（αi，βi）為屬性元素第i對(duì)對(duì)應(yīng)約束因子相似度。

3.2基于實(shí)例統(tǒng)計(jì)的匹配

2.3描述差異

2.4命名差異

2.5約束差異

3農(nóng)村土地利用數(shù)據(jù)的模式匹配

3.1基于元素的匹配

3.1.1.2基于詞義的相似度計(jì)算設(shè)p1、p2是詞語(yǔ)c1、c′1的2個(gè)義原[9]（描述詞語(yǔ)語(yǔ)義的最小單位），其相似度如下。

3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。

基于約束的屬性相似性計(jì)算方法如下：

Sim（A，B）=∑ni=1Sim（αi，βi）/n。（4）

式中：Sim（αi，βi）為屬性元素第i對(duì)對(duì)應(yīng)約束因子相似度。

3.2基于實(shí)例統(tǒng)計(jì)的匹配

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

農(nóng)村土地利用數(shù)據(jù)集成的模式匹配方法