摘要:以模式匹配作為數(shù)據(jù)集成的重要方法可以解決多源數(shù)據(jù)在模式上的差異問(wèn)題,為用戶提供統(tǒng)一的訪問(wèn)視圖。通過(guò)對(duì)現(xiàn)有模式匹配方法及農(nóng)村土地利用數(shù)據(jù)差異類型的分析,提出基于不同模式結(jié)構(gòu)層次的元素匹配和實(shí)例統(tǒng)計(jì)匹配相結(jié)合的復(fù)合匹配方法,通過(guò)對(duì)模式語(yǔ)義相似度的計(jì)算,解決農(nóng)村土地利用數(shù)據(jù)集成過(guò)程中的模式匹配問(wèn)題。最后選取海南省瓊海市大路鎮(zhèn)農(nóng)村土地利用數(shù)據(jù),驗(yàn)證該方法的可行性和有效性。
關(guān)鍵詞:農(nóng)村土地;模式差異;模式匹配;語(yǔ)義相似度;實(shí)例統(tǒng)計(jì)
中圖分類號(hào): S127文獻(xiàn)標(biāo)志碼: A文章編號(hào):1002-1302(2014)09-0391-04
收稿日期:2013-11-18
基金項(xiàng)目:國(guó)家科技支撐計(jì)劃(編號(hào):2012BAJ23B04)
。
作者簡(jiǎn)介:王強(qiáng)(1988—),男,河南信陽(yáng)人,碩士研究生,主要從事空間數(shù)據(jù)語(yǔ)義整合研究。E-mail:yethde@163.com。
通信作者:朱華吉,博士,副研究員,主要從事時(shí)態(tài)GIS理論研究。E-mail:zhuhuaji@126.com。隨著我國(guó)經(jīng)濟(jì)快速發(fā)展,國(guó)土部門的業(yè)務(wù)范圍不斷擴(kuò)大,積累的農(nóng)村土地利用數(shù)據(jù)也越來(lái)越多。這些地理數(shù)據(jù)往往是由不同部門采用各自的數(shù)據(jù)管理軟件,按照各自行業(yè)標(biāo)準(zhǔn)采集和管理,沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)與規(guī)范,缺乏應(yīng)有的溝通和信息流動(dòng),使跨平臺(tái)的數(shù)據(jù)交換出現(xiàn)困難[1]。建立農(nóng)村土地利用數(shù)據(jù)共享機(jī)制,集成多源異構(gòu)土地利用數(shù)據(jù),有助于掌握農(nóng)村土地利用動(dòng)態(tài)變化、耕地總量動(dòng)態(tài)平衡情況,便于監(jiān)測(cè)、預(yù)測(cè)土地類型的變化趨勢(shì)和對(duì)土地利用情況進(jìn)行分析,對(duì)農(nóng)村土地的科學(xué)管理具有重要意義。本研究討論了數(shù)據(jù)集成過(guò)程中模式匹配的方法和作用,通過(guò)分析農(nóng)村土地利用數(shù)據(jù)模式的差異類型提出了基于元素和實(shí)例統(tǒng)計(jì)相結(jié)合的復(fù)合匹配方法,給出元素匹配中元素語(yǔ)義相似度的計(jì)算公式,設(shè)計(jì)了不同類型屬性的統(tǒng)計(jì)參數(shù),旨在尋找正確的匹配模式,以便數(shù)據(jù)集成。
1模式及模式匹配
模式是指按照某種結(jié)構(gòu)組織起來(lái)的多個(gè)元素的集合,通常由數(shù)據(jù)庫(kù)表、列、類或XML元素、屬性等關(guān)聯(lián)元素集組成[2]。模式匹配是指從2個(gè)或多個(gè)模式中確定相關(guān)元素在語(yǔ)義上的對(duì)應(yīng)關(guān)系,并聲明其具體映射過(guò)程,其核心在于計(jì)算模式間的相似度。以給定的2個(gè)模式元素集合S={S1,S2,…,Sn}和T={T1,T2,…,Tm}作為輸入,發(fā)現(xiàn)語(yǔ)義相關(guān)模式元素S′、T′ ,并給出它們之間的映射關(guān)系,即完成一個(gè)模式匹配過(guò)程。
目前大多數(shù)應(yīng)用系統(tǒng)中的模式匹配任務(wù)是由用戶手動(dòng)實(shí)現(xiàn)的。為了滿足日益迫切的現(xiàn)實(shí)需要和盡量減少模式匹配過(guò)程中用戶的參與,人們對(duì)模式匹配問(wèn)題進(jìn)行了一系列研究,并提出多種自動(dòng)或半自動(dòng)匹配方法。根據(jù)信息來(lái)源和種類,現(xiàn)有模式自動(dòng)匹配方法可劃分為基于元素的匹配方法、基于實(shí)例的匹配方法、組合式匹配方法等三大類[3]。
基于元素的匹配方法僅依據(jù)模式元素本身所具有的信息來(lái)發(fā)現(xiàn)和確定語(yǔ)義相關(guān)的模式元素。這些信息主要包括元素名稱、元素描述性說(shuō)明信息、約束信息(如數(shù)據(jù)類型、取值范圍)等?;趯?shí)例的匹配方法是利用數(shù)據(jù)實(shí)例為匹配任務(wù)提供語(yǔ)義線索,分為實(shí)例概括統(tǒng)計(jì)和實(shí)例內(nèi)容統(tǒng)計(jì)2種方法。組合式匹配方法則包含基于元素和基于實(shí)例的方法,更靈活,效果往往也更好。
針對(duì)組合式匹配方法,SemInt系統(tǒng)利用神經(jīng)網(wǎng)絡(luò)技術(shù)通過(guò)分析字段或?qū)傩缘募s束和實(shí)例統(tǒng)計(jì)信息來(lái)發(fā)現(xiàn)不同數(shù)據(jù)庫(kù)中的相關(guān)字段,該系統(tǒng)可以自動(dòng)執(zhí)行屬性匹配的整個(gè)過(guò)程,不需要用戶參與。但由于該過(guò)程須要大量的訓(xùn)練學(xué)習(xí)處理,容易產(chǎn)生類似于 m ∶n 的不確切匹配候選情況,進(jìn)一步增加用戶對(duì)匹配結(jié)果的核對(duì)和校正時(shí)間[4]。COMA平臺(tái)期望以最優(yōu)的策略對(duì)不同匹配方法產(chǎn)生的匹配結(jié)果進(jìn)行綜合利用,詳細(xì)討論組合匹配的基本過(guò)程以及可采取的組合策略類型,提供一個(gè)擴(kuò)展性良好的平臺(tái)來(lái)綜合各種方法的結(jié)果[5]。LSD系統(tǒng)先通過(guò)手工給出的匹配關(guān)系和數(shù)據(jù)實(shí)例訓(xùn)練學(xué)習(xí)器,用訓(xùn)練好的學(xué)習(xí)器產(chǎn)生新的匹配關(guān)系,最后結(jié)合多個(gè)學(xué)習(xí)器給出的映射規(guī)則獲取最終匹配結(jié)果。盡管其準(zhǔn)確性較高,但它需要專家知識(shí)才能完成人工訓(xùn)練,并且對(duì)于大型的應(yīng)用來(lái)說(shuō)很浪費(fèi)時(shí)間[6]。
組合式匹配可以在一定程度上提高匹配效果,但隨著組合信息和方法的增加,系統(tǒng)復(fù)雜性也將隨之增加。由于多種來(lái)源的信息具有不同的表達(dá)形式,一般并不能直接被應(yīng)用于混合匹配,而須要制定高效的策略和規(guī)則對(duì)其進(jìn)行規(guī)范化處理。復(fù)合匹配是以單個(gè)匹配方法為基礎(chǔ)的,為保證其效率和效果,不僅要盡可能地提高每個(gè)成員匹配方法的效率和效果,而且應(yīng)該選擇正確的執(zhí)行順序,制定合理的結(jié)果重用和組合策略。
2數(shù)據(jù)模式差異分析
模式是對(duì)數(shù)據(jù)基本種類和特征的概括性描述,反映的是各類數(shù)據(jù)的結(jié)構(gòu)、屬性、聯(lián)系、約束。由于土地利用數(shù)據(jù)是由不同單位根據(jù)自身實(shí)際需要設(shè)計(jì)數(shù)據(jù)模型,必然會(huì)產(chǎn)生不同的模式。數(shù)據(jù)采集單位用不同屬性字段表達(dá)相同的地物類別,或用同一屬性字段表達(dá)不同的空間地物,即存在“同名異物”和“同物異名”問(wèn)題。數(shù)據(jù)應(yīng)用部門對(duì)提供的數(shù)據(jù)模式進(jìn)行不同的重構(gòu)處理,如重新規(guī)劃要素類,為要素類增加或刪除屬性字段,更改屬性約束、取值范圍等。綜合來(lái)看,土地利用數(shù)據(jù)的模式差異主要表現(xiàn)在以下方面[7]。
2.1概括差異
概括是在定義類型時(shí),將具有公共屬性和操作特征的幾種類型抽象出來(lái),形成一種更一般的超類的機(jī)制。當(dāng)設(shè)計(jì)者采用不同的概括層次描述現(xiàn)實(shí)世界中的相關(guān)實(shí)體時(shí),將產(chǎn)生概括差異。如表1中定義的要素類面狀地物,既可以表示幾何形狀為面狀的地類圖斑,也可以表示具有面積的線狀地物,還可以表示因?yàn)楸壤卟荒苌蠄D而面積過(guò)大不能舍棄的零星地物,表2中的要素類只表示地類圖斑。
2.2聚集差異
聚集是將幾個(gè)不同特征的子對(duì)象組合在一起形成一個(gè)在語(yǔ)義水平上更高的雙親對(duì)象。當(dāng)一個(gè)定義的要素類相當(dāng)于另一個(gè)或多個(gè)要素類的聚集結(jié)果時(shí),將產(chǎn)生聚集差異。如要素類“道路”和要素類“公路”,前者中一個(gè)要素的空間形態(tài)和屬性是后者若干個(gè)要素的空間形態(tài)和屬性特征的聚合或總和。endprint
2.3描述差異
描述差異是指不同要素類采用不同數(shù)量或含義的屬性項(xiàng)來(lái)描述和刻畫相同現(xiàn)象的不同特征。表1、表2中,面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合 (幾何型、標(biāo)志碼、地類名稱、變更時(shí)間、地類代碼、毛面積)和 屬性集合(幾何型、標(biāo)志碼、要素代碼、地類名稱、地類編碼、圖斑面積)來(lái)刻畫地理要素的屬性和空間特征。
2.4命名差異
在模式設(shè)計(jì)或定義時(shí),為明確模式元素 (要素類、屬性等)的含義,并與其他元素相區(qū)別,通常為模式元素賦予相應(yīng)表1海南省瓊海市大路鎮(zhèn)1996年面狀地物(要素類A)
2.5約束差異
當(dāng)要素類對(duì)相同概念或關(guān)系采用不同約束條件(如空間要素的幾何類型、屬性的數(shù)據(jù)類型、長(zhǎng)度、取值范圍等)時(shí),將產(chǎn)生約束差異。例如,將待入庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)要素編碼時(shí),2個(gè)數(shù)據(jù)庫(kù)分別采用數(shù)值型和字符型來(lái)記錄要素的編碼值。
此外,如果2個(gè)關(guān)系(表)中存在共同的數(shù)據(jù)實(shí)例,則可認(rèn)為這2個(gè)關(guān)系之間存在匹配關(guān)系,然后根據(jù)數(shù)據(jù)實(shí)例進(jìn)一步確定這2個(gè)關(guān)系的屬性匹配關(guān)系。因此,數(shù)據(jù)實(shí)例對(duì)揭露數(shù)據(jù)模式匹配關(guān)系具有重要意義。表1、表2中數(shù)據(jù)實(shí)例的差異主要表現(xiàn)在外延差異、量綱差異、精度差異、表達(dá)差異、分段差異等方面。
3農(nóng)村土地利用數(shù)據(jù)的模式匹配
從地理信息系統(tǒng)(GIS)的觀點(diǎn)看,一個(gè)典型的土地利用數(shù)據(jù)模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個(gè)屬性。按照不同模式結(jié)構(gòu)層次分類,將要素類(關(guān)系表)當(dāng)作底層元素時(shí),屬性(字段)可以看作是它的實(shí)例;將屬性(字段)作為底層元素時(shí),數(shù)據(jù)記錄即為它的實(shí)例。
將農(nóng)村土地利用數(shù)據(jù)模式分為要素類和屬性2層分別進(jìn)行元素和實(shí)例的匹配,計(jì)算其元素相似度、約束相似度、實(shí)例相似度,通過(guò)最大相似度建立起模式匹配關(guān)系。
3.1基于元素的匹配
基于元素的匹配技術(shù)是對(duì)單個(gè)模式元素進(jìn)行匹配的。對(duì)于第1個(gè)輸入模式的每個(gè)元素,基于元素的匹配在第2個(gè)輸入模式中確定匹配元素。在最簡(jiǎn)單的情況下,僅考慮粒度的最底層元素也叫原子層,如 XML 模式中的屬性或關(guān)系模式中的列。但其也不只限于原子層,也可應(yīng)用于高層(非原子層)元素。高層粒度包括文件記錄、實(shí)體、類、關(guān)系表、XML 元素。
3.1.1元素名稱匹配“如果2個(gè)元素的名稱完全相同,則它們存在匹配關(guān)系”,這是大多數(shù)應(yīng)用系統(tǒng)中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語(yǔ)句。語(yǔ)句相似度是指2個(gè)語(yǔ)句的相似程度。相似度達(dá)到某個(gè)設(shè)定閥值時(shí),就認(rèn)為這2個(gè)語(yǔ)句相似。一般語(yǔ)句相似度計(jì)算首先對(duì)語(yǔ)句進(jìn)行分割,通過(guò)計(jì)算關(guān)鍵詞詞形、詞義相似度,再賦予它們不同的權(quán)重得到語(yǔ)句的相似度[8]。
對(duì)于詞形相似度,可以通過(guò) Q-grams、編輯距離(edit distance)、Jaro 距離、Smith-Waterman 距離等字符串比較方法來(lái)衡量。對(duì)于詞義相似度,由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關(guān)系,因此所需的評(píng)價(jià)方法相對(duì)比較復(fù)雜,需要語(yǔ)義詞典支持,如 WordNet、知網(wǎng)等。
3.1.1.1基于詞形的相似度計(jì)算設(shè)語(yǔ)句S1、S2分別可被切分為m、n個(gè)詞語(yǔ),即,S1={c1,c2,…,cm},S1={c′1,c′2,…,c′n}、則S1、S2的相似度可通過(guò)下式計(jì)算:
3.1.1.2基于詞義的相似度計(jì)算設(shè)p1、p2是詞語(yǔ)c1、c′1的2個(gè)義原[9](描述詞語(yǔ)語(yǔ)義的最小單位),其相似度如下。
3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息,如數(shù)據(jù)類型、值域、唯一性、可選性、關(guān)系類型等,它們是一種重要的語(yǔ)義信息來(lái)源。因?yàn)樵谀J皆O(shè)計(jì)時(shí)相同含義的屬性很可能被賦予相似的約束信息,所以可以將其作為屬性相似性的判斷依據(jù)來(lái)確定是否相關(guān)。下面進(jìn)一步分析這些信息的形式及其在模式匹配中的作用。
3.1.2.1屬性類型作為屬性的重要描述信息,一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會(huì)存在對(duì)應(yīng)關(guān)系,如浮點(diǎn)型屬性和雙精度型屬性存儲(chǔ)的可能都是一定精度的面積數(shù)據(jù),“char”型屬性和“string”型屬性可能都存儲(chǔ)英文字符型數(shù)據(jù);常見(jiàn)日期型數(shù)據(jù)可以用字符串表示,也可以用專門的日期型屬性存儲(chǔ)。
3.1.2.2值域由于應(yīng)用背景、數(shù)據(jù)參考源、數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)的不同,源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在描述同一空間實(shí)體狀態(tài)時(shí)會(huì)有不同的屬性值域。
3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。
3.1.2.4關(guān)系約束關(guān)系約束是揭示屬性之間聯(lián)系的語(yǔ)義來(lái)源。例如,已知A、B之間具有1 ∶1的關(guān)系,并且A與C匹配,那么B與C之間也可能存在匹配關(guān)系。
基于約束的屬性相似性計(jì)算方法如下:
Sim(A,B)=∑ni=1Sim(αi,βi)/n。(4)
式中:Sim(αi,βi)為屬性元素第i對(duì)對(duì)應(yīng)約束因子相似度。
單獨(dú)使用約束信息經(jīng)常會(huì)導(dǎo)致不完全的n ∶m映射,因?yàn)橐粋€(gè)模式中可能有多個(gè)具有可比約束的元素。然而這種方法能夠限制匹配候選者的數(shù)量,而且可與其他匹配程序相結(jié)合(如名稱匹配程序)[10]。
3.2基于實(shí)例統(tǒng)計(jì)的匹配
基于實(shí)例的匹配技術(shù)考慮的是實(shí)例級(jí)數(shù)據(jù),通過(guò)這些實(shí)例級(jí)數(shù)據(jù)可以認(rèn)識(shí)到模式元素表示的內(nèi)容和意義。在可用模式信息非常有限的情況下,尤其是對(duì)于半結(jié)構(gòu)化數(shù)據(jù),它們是非常有意義的。特別是在沒(méi)有給定任何模式信息的情況下,可以通過(guò)實(shí)例數(shù)據(jù)手工或自動(dòng)構(gòu)造出模式。
實(shí)例級(jí)數(shù)據(jù)給出了模式元素真實(shí)內(nèi)容的精確描述,可以進(jìn)一步分析模式元素的內(nèi)容和意義,尤其當(dāng)只有有限的可用模式信息時(shí),通常這類情況都是半結(jié)構(gòu)化數(shù)據(jù)。這種特殊情況下沒(méi)有給出模式,只給出可由實(shí)例數(shù)據(jù)手工構(gòu)建的模式,如數(shù)據(jù)指南或從 XML文檔中構(gòu)建的近似模式圖;甚至當(dāng)可獲取充裕的模式信息時(shí),實(shí)例級(jí)匹配對(duì)于發(fā)現(xiàn)錯(cuò)誤的模式信息的解釋也非常有效。例如,在看似同樣合理的模式級(jí)匹配中,通過(guò)選擇與匹配實(shí)例更為相似的元素而避免產(chǎn)生歧義。
對(duì)于可能匹配的屬性,若其數(shù)據(jù)類型為數(shù)值型如毛面積、圖斑面積,其統(tǒng)計(jì)概括信息主要包括最大值、最小值、平均值、標(biāo)準(zhǔn)差等,分別計(jì)算要素類A、B數(shù)值型匹配屬性的所有實(shí)例在這4個(gè)統(tǒng)計(jì)量上的值(表3)。設(shè)定差異閾值,統(tǒng)計(jì)量差異小于閾值則對(duì)應(yīng)屬性是匹配的。endprint
2.3描述差異
描述差異是指不同要素類采用不同數(shù)量或含義的屬性項(xiàng)來(lái)描述和刻畫相同現(xiàn)象的不同特征。表1、表2中,面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合 (幾何型、標(biāo)志碼、地類名稱、變更時(shí)間、地類代碼、毛面積)和 屬性集合(幾何型、標(biāo)志碼、要素代碼、地類名稱、地類編碼、圖斑面積)來(lái)刻畫地理要素的屬性和空間特征。
2.4命名差異
在模式設(shè)計(jì)或定義時(shí),為明確模式元素 (要素類、屬性等)的含義,并與其他元素相區(qū)別,通常為模式元素賦予相應(yīng)表1海南省瓊海市大路鎮(zhèn)1996年面狀地物(要素類A)
2.5約束差異
當(dāng)要素類對(duì)相同概念或關(guān)系采用不同約束條件(如空間要素的幾何類型、屬性的數(shù)據(jù)類型、長(zhǎng)度、取值范圍等)時(shí),將產(chǎn)生約束差異。例如,將待入庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)要素編碼時(shí),2個(gè)數(shù)據(jù)庫(kù)分別采用數(shù)值型和字符型來(lái)記錄要素的編碼值。
此外,如果2個(gè)關(guān)系(表)中存在共同的數(shù)據(jù)實(shí)例,則可認(rèn)為這2個(gè)關(guān)系之間存在匹配關(guān)系,然后根據(jù)數(shù)據(jù)實(shí)例進(jìn)一步確定這2個(gè)關(guān)系的屬性匹配關(guān)系。因此,數(shù)據(jù)實(shí)例對(duì)揭露數(shù)據(jù)模式匹配關(guān)系具有重要意義。表1、表2中數(shù)據(jù)實(shí)例的差異主要表現(xiàn)在外延差異、量綱差異、精度差異、表達(dá)差異、分段差異等方面。
3農(nóng)村土地利用數(shù)據(jù)的模式匹配
從地理信息系統(tǒng)(GIS)的觀點(diǎn)看,一個(gè)典型的土地利用數(shù)據(jù)模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個(gè)屬性。按照不同模式結(jié)構(gòu)層次分類,將要素類(關(guān)系表)當(dāng)作底層元素時(shí),屬性(字段)可以看作是它的實(shí)例;將屬性(字段)作為底層元素時(shí),數(shù)據(jù)記錄即為它的實(shí)例。
將農(nóng)村土地利用數(shù)據(jù)模式分為要素類和屬性2層分別進(jìn)行元素和實(shí)例的匹配,計(jì)算其元素相似度、約束相似度、實(shí)例相似度,通過(guò)最大相似度建立起模式匹配關(guān)系。
3.1基于元素的匹配
基于元素的匹配技術(shù)是對(duì)單個(gè)模式元素進(jìn)行匹配的。對(duì)于第1個(gè)輸入模式的每個(gè)元素,基于元素的匹配在第2個(gè)輸入模式中確定匹配元素。在最簡(jiǎn)單的情況下,僅考慮粒度的最底層元素也叫原子層,如 XML 模式中的屬性或關(guān)系模式中的列。但其也不只限于原子層,也可應(yīng)用于高層(非原子層)元素。高層粒度包括文件記錄、實(shí)體、類、關(guān)系表、XML 元素。
3.1.1元素名稱匹配“如果2個(gè)元素的名稱完全相同,則它們存在匹配關(guān)系”,這是大多數(shù)應(yīng)用系統(tǒng)中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語(yǔ)句。語(yǔ)句相似度是指2個(gè)語(yǔ)句的相似程度。相似度達(dá)到某個(gè)設(shè)定閥值時(shí),就認(rèn)為這2個(gè)語(yǔ)句相似。一般語(yǔ)句相似度計(jì)算首先對(duì)語(yǔ)句進(jìn)行分割,通過(guò)計(jì)算關(guān)鍵詞詞形、詞義相似度,再賦予它們不同的權(quán)重得到語(yǔ)句的相似度[8]。
對(duì)于詞形相似度,可以通過(guò) Q-grams、編輯距離(edit distance)、Jaro 距離、Smith-Waterman 距離等字符串比較方法來(lái)衡量。對(duì)于詞義相似度,由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關(guān)系,因此所需的評(píng)價(jià)方法相對(duì)比較復(fù)雜,需要語(yǔ)義詞典支持,如 WordNet、知網(wǎng)等。
3.1.1.1基于詞形的相似度計(jì)算設(shè)語(yǔ)句S1、S2分別可被切分為m、n個(gè)詞語(yǔ),即,S1={c1,c2,…,cm},S1={c′1,c′2,…,c′n}、則S1、S2的相似度可通過(guò)下式計(jì)算:
3.1.1.2基于詞義的相似度計(jì)算設(shè)p1、p2是詞語(yǔ)c1、c′1的2個(gè)義原[9](描述詞語(yǔ)語(yǔ)義的最小單位),其相似度如下。
3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息,如數(shù)據(jù)類型、值域、唯一性、可選性、關(guān)系類型等,它們是一種重要的語(yǔ)義信息來(lái)源。因?yàn)樵谀J皆O(shè)計(jì)時(shí)相同含義的屬性很可能被賦予相似的約束信息,所以可以將其作為屬性相似性的判斷依據(jù)來(lái)確定是否相關(guān)。下面進(jìn)一步分析這些信息的形式及其在模式匹配中的作用。
3.1.2.1屬性類型作為屬性的重要描述信息,一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會(huì)存在對(duì)應(yīng)關(guān)系,如浮點(diǎn)型屬性和雙精度型屬性存儲(chǔ)的可能都是一定精度的面積數(shù)據(jù),“char”型屬性和“string”型屬性可能都存儲(chǔ)英文字符型數(shù)據(jù);常見(jiàn)日期型數(shù)據(jù)可以用字符串表示,也可以用專門的日期型屬性存儲(chǔ)。
3.1.2.2值域由于應(yīng)用背景、數(shù)據(jù)參考源、數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)的不同,源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在描述同一空間實(shí)體狀態(tài)時(shí)會(huì)有不同的屬性值域。
3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。
3.1.2.4關(guān)系約束關(guān)系約束是揭示屬性之間聯(lián)系的語(yǔ)義來(lái)源。例如,已知A、B之間具有1 ∶1的關(guān)系,并且A與C匹配,那么B與C之間也可能存在匹配關(guān)系。
基于約束的屬性相似性計(jì)算方法如下:
Sim(A,B)=∑ni=1Sim(αi,βi)/n。(4)
式中:Sim(αi,βi)為屬性元素第i對(duì)對(duì)應(yīng)約束因子相似度。
單獨(dú)使用約束信息經(jīng)常會(huì)導(dǎo)致不完全的n ∶m映射,因?yàn)橐粋€(gè)模式中可能有多個(gè)具有可比約束的元素。然而這種方法能夠限制匹配候選者的數(shù)量,而且可與其他匹配程序相結(jié)合(如名稱匹配程序)[10]。
3.2基于實(shí)例統(tǒng)計(jì)的匹配
基于實(shí)例的匹配技術(shù)考慮的是實(shí)例級(jí)數(shù)據(jù),通過(guò)這些實(shí)例級(jí)數(shù)據(jù)可以認(rèn)識(shí)到模式元素表示的內(nèi)容和意義。在可用模式信息非常有限的情況下,尤其是對(duì)于半結(jié)構(gòu)化數(shù)據(jù),它們是非常有意義的。特別是在沒(méi)有給定任何模式信息的情況下,可以通過(guò)實(shí)例數(shù)據(jù)手工或自動(dòng)構(gòu)造出模式。
實(shí)例級(jí)數(shù)據(jù)給出了模式元素真實(shí)內(nèi)容的精確描述,可以進(jìn)一步分析模式元素的內(nèi)容和意義,尤其當(dāng)只有有限的可用模式信息時(shí),通常這類情況都是半結(jié)構(gòu)化數(shù)據(jù)。這種特殊情況下沒(méi)有給出模式,只給出可由實(shí)例數(shù)據(jù)手工構(gòu)建的模式,如數(shù)據(jù)指南或從 XML文檔中構(gòu)建的近似模式圖;甚至當(dāng)可獲取充裕的模式信息時(shí),實(shí)例級(jí)匹配對(duì)于發(fā)現(xiàn)錯(cuò)誤的模式信息的解釋也非常有效。例如,在看似同樣合理的模式級(jí)匹配中,通過(guò)選擇與匹配實(shí)例更為相似的元素而避免產(chǎn)生歧義。
對(duì)于可能匹配的屬性,若其數(shù)據(jù)類型為數(shù)值型如毛面積、圖斑面積,其統(tǒng)計(jì)概括信息主要包括最大值、最小值、平均值、標(biāo)準(zhǔn)差等,分別計(jì)算要素類A、B數(shù)值型匹配屬性的所有實(shí)例在這4個(gè)統(tǒng)計(jì)量上的值(表3)。設(shè)定差異閾值,統(tǒng)計(jì)量差異小于閾值則對(duì)應(yīng)屬性是匹配的。endprint
2.3描述差異
描述差異是指不同要素類采用不同數(shù)量或含義的屬性項(xiàng)來(lái)描述和刻畫相同現(xiàn)象的不同特征。表1、表2中,面狀地物要素類和地類圖斑要素類分別采用不同的屬性集合 (幾何型、標(biāo)志碼、地類名稱、變更時(shí)間、地類代碼、毛面積)和 屬性集合(幾何型、標(biāo)志碼、要素代碼、地類名稱、地類編碼、圖斑面積)來(lái)刻畫地理要素的屬性和空間特征。
2.4命名差異
在模式設(shè)計(jì)或定義時(shí),為明確模式元素 (要素類、屬性等)的含義,并與其他元素相區(qū)別,通常為模式元素賦予相應(yīng)表1海南省瓊海市大路鎮(zhèn)1996年面狀地物(要素類A)
2.5約束差異
當(dāng)要素類對(duì)相同概念或關(guān)系采用不同約束條件(如空間要素的幾何類型、屬性的數(shù)據(jù)類型、長(zhǎng)度、取值范圍等)時(shí),將產(chǎn)生約束差異。例如,將待入庫(kù)的數(shù)據(jù)進(jìn)行數(shù)據(jù)要素編碼時(shí),2個(gè)數(shù)據(jù)庫(kù)分別采用數(shù)值型和字符型來(lái)記錄要素的編碼值。
此外,如果2個(gè)關(guān)系(表)中存在共同的數(shù)據(jù)實(shí)例,則可認(rèn)為這2個(gè)關(guān)系之間存在匹配關(guān)系,然后根據(jù)數(shù)據(jù)實(shí)例進(jìn)一步確定這2個(gè)關(guān)系的屬性匹配關(guān)系。因此,數(shù)據(jù)實(shí)例對(duì)揭露數(shù)據(jù)模式匹配關(guān)系具有重要意義。表1、表2中數(shù)據(jù)實(shí)例的差異主要表現(xiàn)在外延差異、量綱差異、精度差異、表達(dá)差異、分段差異等方面。
3農(nóng)村土地利用數(shù)據(jù)的模式匹配
從地理信息系統(tǒng)(GIS)的觀點(diǎn)看,一個(gè)典型的土地利用數(shù)據(jù)模式一般包含幾何型、要素類、屬性等3種模式元素。而幾何型又可被視為要素類的一個(gè)屬性。按照不同模式結(jié)構(gòu)層次分類,將要素類(關(guān)系表)當(dāng)作底層元素時(shí),屬性(字段)可以看作是它的實(shí)例;將屬性(字段)作為底層元素時(shí),數(shù)據(jù)記錄即為它的實(shí)例。
將農(nóng)村土地利用數(shù)據(jù)模式分為要素類和屬性2層分別進(jìn)行元素和實(shí)例的匹配,計(jì)算其元素相似度、約束相似度、實(shí)例相似度,通過(guò)最大相似度建立起模式匹配關(guān)系。
3.1基于元素的匹配
基于元素的匹配技術(shù)是對(duì)單個(gè)模式元素進(jìn)行匹配的。對(duì)于第1個(gè)輸入模式的每個(gè)元素,基于元素的匹配在第2個(gè)輸入模式中確定匹配元素。在最簡(jiǎn)單的情況下,僅考慮粒度的最底層元素也叫原子層,如 XML 模式中的屬性或關(guān)系模式中的列。但其也不只限于原子層,也可應(yīng)用于高層(非原子層)元素。高層粒度包括文件記錄、實(shí)體、類、關(guān)系表、XML 元素。
3.1.1元素名稱匹配“如果2個(gè)元素的名稱完全相同,則它們存在匹配關(guān)系”,這是大多數(shù)應(yīng)用系統(tǒng)中常使用的匹配方法之一。元素名稱一般是一串中文字符串即語(yǔ)句。語(yǔ)句相似度是指2個(gè)語(yǔ)句的相似程度。相似度達(dá)到某個(gè)設(shè)定閥值時(shí),就認(rèn)為這2個(gè)語(yǔ)句相似。一般語(yǔ)句相似度計(jì)算首先對(duì)語(yǔ)句進(jìn)行分割,通過(guò)計(jì)算關(guān)鍵詞詞形、詞義相似度,再賦予它們不同的權(quán)重得到語(yǔ)句的相似度[8]。
對(duì)于詞形相似度,可以通過(guò) Q-grams、編輯距離(edit distance)、Jaro 距離、Smith-Waterman 距離等字符串比較方法來(lái)衡量。對(duì)于詞義相似度,由于名稱之間可能存在詞義相同、詞義包含、詞義相交等多種詞義關(guān)系,因此所需的評(píng)價(jià)方法相對(duì)比較復(fù)雜,需要語(yǔ)義詞典支持,如 WordNet、知網(wǎng)等。
3.1.1.1基于詞形的相似度計(jì)算設(shè)語(yǔ)句S1、S2分別可被切分為m、n個(gè)詞語(yǔ),即,S1={c1,c2,…,cm},S1={c′1,c′2,…,c′n}、則S1、S2的相似度可通過(guò)下式計(jì)算:
3.1.1.2基于詞義的相似度計(jì)算設(shè)p1、p2是詞語(yǔ)c1、c′1的2個(gè)義原[9](描述詞語(yǔ)語(yǔ)義的最小單位),其相似度如下。
3.1.2元素約束匹配模式中的屬性元素通常還含有一些約束信息,如數(shù)據(jù)類型、值域、唯一性、可選性、關(guān)系類型等,它們是一種重要的語(yǔ)義信息來(lái)源。因?yàn)樵谀J皆O(shè)計(jì)時(shí)相同含義的屬性很可能被賦予相似的約束信息,所以可以將其作為屬性相似性的判斷依據(jù)來(lái)確定是否相關(guān)。下面進(jìn)一步分析這些信息的形式及其在模式匹配中的作用。
3.1.2.1屬性類型作為屬性的重要描述信息,一般相同屬性具有相同的屬性類型。但這并不代表不同類型的屬性不會(huì)存在對(duì)應(yīng)關(guān)系,如浮點(diǎn)型屬性和雙精度型屬性存儲(chǔ)的可能都是一定精度的面積數(shù)據(jù),“char”型屬性和“string”型屬性可能都存儲(chǔ)英文字符型數(shù)據(jù);常見(jiàn)日期型數(shù)據(jù)可以用字符串表示,也可以用專門的日期型屬性存儲(chǔ)。
3.1.2.2值域由于應(yīng)用背景、數(shù)據(jù)參考源、數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)的不同,源數(shù)據(jù)和目標(biāo)數(shù)據(jù)在描述同一空間實(shí)體狀態(tài)時(shí)會(huì)有不同的屬性值域。
3.1.2.3唯一性屬性取值的唯一性是確定候選匹配的另一種有效方法。這樣的屬性只能與具有同樣約束的屬性匹配。
3.1.2.4關(guān)系約束關(guān)系約束是揭示屬性之間聯(lián)系的語(yǔ)義來(lái)源。例如,已知A、B之間具有1 ∶1的關(guān)系,并且A與C匹配,那么B與C之間也可能存在匹配關(guān)系。
基于約束的屬性相似性計(jì)算方法如下:
Sim(A,B)=∑ni=1Sim(αi,βi)/n。(4)
式中:Sim(αi,βi)為屬性元素第i對(duì)對(duì)應(yīng)約束因子相似度。
單獨(dú)使用約束信息經(jīng)常會(huì)導(dǎo)致不完全的n ∶m映射,因?yàn)橐粋€(gè)模式中可能有多個(gè)具有可比約束的元素。然而這種方法能夠限制匹配候選者的數(shù)量,而且可與其他匹配程序相結(jié)合(如名稱匹配程序)[10]。
3.2基于實(shí)例統(tǒng)計(jì)的匹配
基于實(shí)例的匹配技術(shù)考慮的是實(shí)例級(jí)數(shù)據(jù),通過(guò)這些實(shí)例級(jí)數(shù)據(jù)可以認(rèn)識(shí)到模式元素表示的內(nèi)容和意義。在可用模式信息非常有限的情況下,尤其是對(duì)于半結(jié)構(gòu)化數(shù)據(jù),它們是非常有意義的。特別是在沒(méi)有給定任何模式信息的情況下,可以通過(guò)實(shí)例數(shù)據(jù)手工或自動(dòng)構(gòu)造出模式。
實(shí)例級(jí)數(shù)據(jù)給出了模式元素真實(shí)內(nèi)容的精確描述,可以進(jìn)一步分析模式元素的內(nèi)容和意義,尤其當(dāng)只有有限的可用模式信息時(shí),通常這類情況都是半結(jié)構(gòu)化數(shù)據(jù)。這種特殊情況下沒(méi)有給出模式,只給出可由實(shí)例數(shù)據(jù)手工構(gòu)建的模式,如數(shù)據(jù)指南或從 XML文檔中構(gòu)建的近似模式圖;甚至當(dāng)可獲取充裕的模式信息時(shí),實(shí)例級(jí)匹配對(duì)于發(fā)現(xiàn)錯(cuò)誤的模式信息的解釋也非常有效。例如,在看似同樣合理的模式級(jí)匹配中,通過(guò)選擇與匹配實(shí)例更為相似的元素而避免產(chǎn)生歧義。
對(duì)于可能匹配的屬性,若其數(shù)據(jù)類型為數(shù)值型如毛面積、圖斑面積,其統(tǒng)計(jì)概括信息主要包括最大值、最小值、平均值、標(biāo)準(zhǔn)差等,分別計(jì)算要素類A、B數(shù)值型匹配屬性的所有實(shí)例在這4個(gè)統(tǒng)計(jì)量上的值(表3)。設(shè)定差異閾值,統(tǒng)計(jì)量差異小于閾值則對(duì)應(yīng)屬性是匹配的。endprint