詹長(zhǎng)根,涂李蕾,嚴(yán) 盼,吳 藝
(1.武漢大學(xué) 資源與環(huán)境科學(xué)學(xué)院,湖北 武漢430079)
地籍?dāng)?shù)據(jù)庫(kù)優(yōu)化集成研究
詹長(zhǎng)根1,涂李蕾1,嚴(yán) 盼1,吳 藝1
(1.武漢大學(xué) 資源與環(huán)境科學(xué)學(xué)院,湖北 武漢430079)
針對(duì)我國(guó)現(xiàn)行地籍?dāng)?shù)據(jù)庫(kù)中存在的數(shù)據(jù)雜糅、組織異構(gòu)、冗余量大等不足,將ISO/TC211土地管理域模型(LADM)拓展為適合我國(guó)國(guó)情的人-地關(guān)系模型。利用該模型對(duì)地籍?dāng)?shù)據(jù)組織結(jié)構(gòu)進(jìn)行優(yōu)化集成,消除數(shù)據(jù)庫(kù)中存在的數(shù)據(jù)冗余與異構(gòu),以構(gòu)建通用一體化地籍?dāng)?shù)據(jù)庫(kù)。
地籍?dāng)?shù)據(jù)庫(kù);集成優(yōu)化設(shè)計(jì);人-地關(guān)系模型;數(shù)據(jù)組織結(jié)構(gòu)
2007年,我國(guó)正式發(fā)布了2個(gè)地籍?dāng)?shù)據(jù)庫(kù)標(biāo)準(zhǔn),即《土地利用數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)》(TD/T 1016-2007)[1]和《城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)標(biāo)準(zhǔn)》(TD/T 1015-2007)[2],分別用于2008年開(kāi)始的農(nóng)村土地調(diào)查和城鎮(zhèn)土地調(diào)查數(shù)據(jù)庫(kù)建設(shè)。2011年至今,我國(guó)開(kāi)展了農(nóng)村集體土地所有權(quán)、宅基地使用權(quán)和集體建設(shè)用地使用權(quán)調(diào)查登記工作,其相應(yīng)的數(shù)據(jù)庫(kù)建設(shè)原則上仍按照上述2個(gè)標(biāo)準(zhǔn)進(jìn)行。至今,縣級(jí)國(guó)土資源部門共建設(shè)了4種數(shù)據(jù)庫(kù),包括農(nóng)村土地利用數(shù)據(jù)庫(kù)、城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)、集體土地所有權(quán)數(shù)據(jù)庫(kù)以及宅基地使用權(quán)和集體建設(shè)用地使用權(quán)數(shù)據(jù)庫(kù)。基于當(dāng)時(shí)的技術(shù)水平,《土地利用數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)》和《城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)標(biāo)準(zhǔn)》的數(shù)據(jù)組織結(jié)構(gòu)并不是一體化設(shè)計(jì)的。因此,基于上述標(biāo)準(zhǔn)建立的4種數(shù)據(jù)庫(kù)之間在數(shù)據(jù)交換、相互利用等方面存在很大的障礙[3]。將現(xiàn)有的地籍?dāng)?shù)據(jù)庫(kù)進(jìn)行統(tǒng)一集成,克服數(shù)據(jù)庫(kù)之間的異構(gòu),實(shí)現(xiàn)地籍信息共享,是亟需解決的問(wèn)題。
1.1 相似度計(jì)算模型
相似度是對(duì)數(shù)據(jù)冗余進(jìn)行定量分析的重要指標(biāo),也是分析數(shù)據(jù)組織異構(gòu),實(shí)現(xiàn)數(shù)據(jù)組織集成、合并的理論基礎(chǔ)[4]?;谔卣髌ヅ溆?jì)算相似度的模型是通過(guò)匹配2個(gè)對(duì)象的特征來(lái)計(jì)算其相似度,最早應(yīng)用于心理學(xué)研究。其基本思想為:對(duì)象a和b之間的相似度與它們之間的共性和差別相關(guān),擁有的共性越多,相似性越大[5]。最有代表性的算法是Tversky模型:
式中,A、B分別是對(duì)象a和b的屬性集合;A∩B表示A和B共有的特征;A-B表示A具有而B(niǎo)不具備的特征;B-A表示B具有而A不具備的特征;α、β表示比較對(duì)象和參照對(duì)象的重要性權(quán)重。
Tversky模型將特性的差異性引入相似性度量中,設(shè)a為比較對(duì)象,b為參照對(duì)象。地籍?dāng)?shù)據(jù)中,不同種類的調(diào)查數(shù)據(jù)可認(rèn)為具有同等的重要性,故取α=β=1。Tversky模型是基于二值特征的,可通過(guò)1或0表示特征的有或無(wú)。據(jù)此,將式(1)簡(jiǎn)化為:
式中,f11表示A和B共有特征的個(gè)數(shù);f10表示A具有而B(niǎo)不具備的特征個(gè)數(shù);f01表示B具有而A不具備的特征個(gè)數(shù)。
1.2 基于LADM的人-地關(guān)系模型
1.2.1 LADM概述
ISO/TC211國(guó)際標(biāo)準(zhǔn)土地管理域模型 LADM是以國(guó)際測(cè)量師聯(lián)合會(huì)(FIG)發(fā)布的“地籍系統(tǒng)2014”為基礎(chǔ)的[6]。LADM從人地關(guān)系出發(fā),以地籍主體、地籍客體和土地權(quán)利為核心,建立起地籍主體和地籍客體之間的聯(lián)系,是應(yīng)用非常廣泛的空間表達(dá)模型[7,8]。
1.2.2 人-地關(guān)系模型
本文立足于我國(guó)地籍管理的現(xiàn)狀,以LADM核心框架為參考,將其改進(jìn)為適合我國(guó)國(guó)情的人–地關(guān)系模型。我國(guó)地籍管理對(duì)象為:主體——人,客體——地塊、主體和客體之間的紐帶——土地制度,對(duì)象及其關(guān)聯(lián)通過(guò)地籍業(yè)務(wù)顯化出來(lái),見(jiàn)圖1。采用數(shù)據(jù)結(jié)構(gòu)的表達(dá)方式,人–地關(guān)系模型可以表示為:
式中,D由2個(gè)元素組成,D={人,地塊};R是D上關(guān)系的集合,R={土地制度}。
圖1 基于LADM的人-地關(guān)系模型
2.1 數(shù)據(jù)庫(kù)內(nèi)組織混亂
現(xiàn)行各地籍?dāng)?shù)據(jù)庫(kù)中數(shù)據(jù)組織的設(shè)計(jì)思路是參照地籍管理業(yè)務(wù)中的相關(guān)數(shù)據(jù)表格,根據(jù)其結(jié)構(gòu)與內(nèi)容,基于實(shí)際業(yè)務(wù)管理的特點(diǎn)進(jìn)行設(shè)計(jì)的。在這種面向業(yè)務(wù)的數(shù)據(jù)組織方式中,唯一的實(shí)體是宗地?,F(xiàn)行數(shù)據(jù)組織結(jié)構(gòu)雖然能夠滿足單純的業(yè)務(wù)數(shù)據(jù)存儲(chǔ)、查詢和管理需求,但各數(shù)據(jù)表都僅針對(duì)具體業(yè)務(wù),而忽略了數(shù)據(jù)庫(kù)內(nèi)各部分間的關(guān)系。地籍?dāng)?shù)據(jù)庫(kù)主要存在以下幾個(gè)問(wèn)題:
1)屬性字段內(nèi)聚度低?,F(xiàn)行數(shù)據(jù)庫(kù)屬性表中,部分字段與表中其他字段關(guān)聯(lián)程度較低,屬性表繁雜且不符合范式要求。例如,城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)的宗地屬性表中,建筑容積率、建筑密度、土地級(jí)別、申報(bào)地價(jià)、取得價(jià)格這5個(gè)字段并不屬于宗地的基本信息,而是在土地利用過(guò)程中產(chǎn)生的易變動(dòng)數(shù)據(jù)。當(dāng)上述信息變化時(shí),宗地的基本信息就會(huì)被重復(fù)存儲(chǔ)。
2)屬性字段集成度低,即同一數(shù)據(jù)庫(kù)中部分語(yǔ)義、結(jié)構(gòu)相似的字段多次出現(xiàn)。例如,城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)的權(quán)利人屬性表中,權(quán)利人名稱、權(quán)利人證件類型、權(quán)利人證件號(hào)、法人代表姓名、法人代表證件類型、法人代表證件號(hào)、代理人姓名、代理人證件類型、代理人證件號(hào)這9個(gè)字段高度相似。
3)屬性字段重復(fù)冗余。在現(xiàn)行的地籍?dāng)?shù)據(jù)庫(kù)中,部分完全相同的屬性字段在多個(gè)屬性表中重復(fù)出現(xiàn)。例如,在土地利用數(shù)據(jù)庫(kù)中,有關(guān)控制點(diǎn)的名稱、點(diǎn)號(hào)、類型、等級(jí)等相關(guān)字段,在測(cè)量控制點(diǎn)屬性表與數(shù)字正射影像圖糾正控制點(diǎn)屬性表中重復(fù)出現(xiàn),造成數(shù)據(jù)冗余。
2.2 數(shù)據(jù)庫(kù)間結(jié)構(gòu)差異明顯
由于現(xiàn)有4種地籍?dāng)?shù)據(jù)庫(kù)在建庫(kù)過(guò)程中缺少統(tǒng)一標(biāo)準(zhǔn),造成各數(shù)據(jù)庫(kù)的數(shù)據(jù)組織結(jié)構(gòu)存在差異,數(shù)據(jù)庫(kù)之間明顯異構(gòu)。主要體現(xiàn)在以下方面:
1)空間要素分層異構(gòu)。主要指部分空間要素層缺失的情況。例如,由于土地利用數(shù)據(jù)庫(kù)對(duì)土地利用信息重點(diǎn)關(guān)注,土地利用數(shù)據(jù)庫(kù)中所包含的基本農(nóng)田要素層和其他要素層在其他數(shù)據(jù)庫(kù)中缺失。
2)屬性結(jié)構(gòu)描述表異構(gòu)。主要包括:①部分屬性表缺失。例如,城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)中包括“房屋屬性表”、“房屋權(quán)利人擴(kuò)展屬性表”,而其他3種數(shù)據(jù)庫(kù)則不存在。②結(jié)構(gòu)沖突。例如,在城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)中,權(quán)屬來(lái)源證明擴(kuò)展表為標(biāo)識(shí)碼、地籍號(hào)、土地證號(hào)、權(quán)屬證明文件類型、權(quán)屬證明文件編號(hào)、權(quán)屬證明文件日期、權(quán)屬來(lái)源證明;土地利用數(shù)據(jù)庫(kù)中,權(quán)屬來(lái)源證明擴(kuò)展表為標(biāo)識(shí)碼、地籍號(hào)、權(quán)屬來(lái)源證明文件類型、權(quán)屬來(lái)源證明文件編號(hào)、權(quán)屬來(lái)源證明、權(quán)屬單位代碼。同為權(quán)屬來(lái)源證明擴(kuò)展表,前表比后表多出“土地證號(hào)”和“權(quán)屬證明文件日期”2個(gè)字段,缺少“權(quán)屬單位代碼”字段。
3)字段沖突。①命名沖突。同名異義,例如,城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)與土地利用數(shù)據(jù)庫(kù)的地類圖斑屬性表中均包含“圖斑面積”字段,但因空間對(duì)象的多尺度性,導(dǎo)致二者雖名稱相同,但含義卻不相同[9,10];異名同義,例如,在城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)與土地利用數(shù)據(jù)庫(kù)的權(quán)屬調(diào)查擴(kuò)展表中,分別存在“界址標(biāo)志”和“界址標(biāo)識(shí)”字段,但均表示界址點(diǎn)標(biāo)記。②類型沖突。指采用不同的數(shù)據(jù)類型表達(dá)相同的字段。例如,權(quán)利人屬性表中的“代理人身份證明書(shū)”字段,城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)把它定義為varbin類型,而土地利用數(shù)據(jù)庫(kù)將其定義為char類型。③長(zhǎng)度沖突。例如,宗地屬性表中“實(shí)測(cè)面積”字段,城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)與土地利用數(shù)據(jù)庫(kù)分別將此字段長(zhǎng)度定義為16位和15位。④約束條件沖突。例如,行政區(qū)屬性表中的“控制面積”,在城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)中屬于條件必填字段,而在土地利用數(shù)據(jù)庫(kù)中為必填字段。⑤值域沖突。以衛(wèi)星定位等級(jí)點(diǎn)的值域?yàn)槔?,其在城?zhèn)地籍?dāng)?shù)據(jù)庫(kù)中為A、B、C、D、E、二等、三等、四等、一級(jí)、二級(jí);而土地利用數(shù)據(jù)庫(kù)中僅為A、B、C、D、E 5個(gè)等級(jí)。
2.3 數(shù)據(jù)庫(kù)間數(shù)據(jù)冗余大
運(yùn)用相似度模型對(duì)現(xiàn)有地籍?dāng)?shù)據(jù)庫(kù)中的數(shù)據(jù)冗余進(jìn)行定量計(jì)算與分析。以城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)和土地利用數(shù)據(jù)庫(kù)的宗地屬性表為例說(shuō)明相似度計(jì)算過(guò)程:分析宗地屬性表中的字段名,確定等價(jià)概念對(duì),用1或0表示概念的有或無(wú),對(duì)宗地屬性表進(jìn)行簡(jiǎn)化,見(jiàn)表1。
由表1統(tǒng)計(jì)得到,宗地屬性表中f11=9,f10=7,f01=2。代入式(2),得到城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)與土地利用數(shù)據(jù)庫(kù)宗地屬性表之間的相似度為50%。同理,可計(jì)算出各數(shù)據(jù)庫(kù)之間所含屬性表的相似度。通過(guò)對(duì)城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)、土地利用數(shù)據(jù)庫(kù)、集體土地所有權(quán)數(shù)據(jù)庫(kù)及宅基地和集體建設(shè)用地使用權(quán)數(shù)據(jù)庫(kù)中所有同名屬性表的相似度分析發(fā)現(xiàn),現(xiàn)有地籍?dāng)?shù)據(jù)庫(kù)中所涉及到的32個(gè)屬性表,其中4庫(kù)完全相同的屬性表有11個(gè),占34.4%;3庫(kù)完全相同的屬性表有8個(gè),占25%;2庫(kù)完全相同的屬性表有4個(gè),占12.5%??梢?jiàn),現(xiàn)有地籍?dāng)?shù)據(jù)庫(kù)間相似度較高,數(shù)據(jù)冗余量大。
表1 宗地屬性結(jié)構(gòu)字段對(duì)比表
針對(duì)現(xiàn)行地籍?dāng)?shù)據(jù)庫(kù)中數(shù)據(jù)組織結(jié)構(gòu)雜糅、數(shù)據(jù)冗余度高以及數(shù)據(jù)庫(kù)間異構(gòu)、共享困難等問(wèn)題,本文基于由LADM拓展的人-地關(guān)系模型,并結(jié)合我國(guó)地籍管理現(xiàn)狀,對(duì)現(xiàn)行地籍?dāng)?shù)據(jù)庫(kù)中的屬性字段、組織結(jié)構(gòu)等進(jìn)行規(guī)范,構(gòu)建適合我國(guó)國(guó)情的一體化集成地籍?dāng)?shù)據(jù)庫(kù)。
3.1 地籍主體實(shí)體構(gòu)建
人-地關(guān)系模型中的主體實(shí)體“人”,是指地籍管理和業(yè)務(wù)中涉及到的所有角色,包括權(quán)利人、代理人、義務(wù)人、審查人、審批人等自然人和法人。通過(guò)對(duì)現(xiàn)有地籍?dāng)?shù)據(jù)庫(kù)進(jìn)行分析發(fā)現(xiàn),權(quán)利人實(shí)體(權(quán)屬單位)的名稱、證件號(hào)等關(guān)于人的屬性信息,多次出現(xiàn)在房屋權(quán)利人擴(kuò)展表、權(quán)利人屬性表、他項(xiàng)權(quán)利登記擴(kuò)展表、地類圖斑屬性表和線狀地物屬性表中,造成數(shù)據(jù)冗余大、數(shù)據(jù)庫(kù)維護(hù)與更新困難。從相關(guān)屬性表中提取出人的本質(zhì)屬性,構(gòu)建人屬性的實(shí)體模型,見(jiàn)圖2。人屬性結(jié)構(gòu)描述見(jiàn)表2。
圖2 人屬性的實(shí)體模型
表2 人屬性結(jié)構(gòu)描述表
3.2 地籍客體實(shí)體構(gòu)建
人-地關(guān)系模型中的客體實(shí)體為地塊,即可辨別出同類屬性的最小土地單元[11]。依據(jù)本體論的思想,宗地、地類圖斑、線狀地物、零星地物都可以統(tǒng)一聚集到地塊實(shí)體中。設(shè)計(jì)的地塊屬性結(jié)構(gòu)描述表中僅包含地塊位置、地塊類型等地塊的本質(zhì)屬性,通過(guò)“標(biāo)識(shí)碼”、“地塊代碼”字段與其他相關(guān)聯(lián)的權(quán)屬信息和利用信息進(jìn)行掛接;通過(guò)“隸屬調(diào)查區(qū)代碼”與上級(jí)調(diào)查單元進(jìn)行掛接[11];通過(guò)“隸屬地塊代碼”、“隸屬界址線代碼”與下級(jí)空間實(shí)體界址線、界址點(diǎn)掛接。地塊及其關(guān)聯(lián)屬性的實(shí)體模型見(jiàn)圖3,地塊屬性結(jié)構(gòu)描述表見(jiàn)表3。
表3 地塊屬性結(jié)構(gòu)描述表
圖3 地塊及其關(guān)聯(lián)屬性的實(shí)體模型
圖4 地籍業(yè)務(wù)屬性的實(shí)體模型
3.3 地籍業(yè)務(wù)實(shí)體構(gòu)建
人-地關(guān)系模型中的連接樞紐是指土地權(quán)利制度和土地利用制度,外化為地籍調(diào)查、土地登記申請(qǐng)、土地登記審批、土地注冊(cè)登記等多種地籍管理業(yè)務(wù)。地籍業(yè)務(wù)的發(fā)生將地籍主體實(shí)體與地籍客體實(shí)體相互關(guān)聯(lián)。本文構(gòu)建地籍業(yè)務(wù)屬性的實(shí)體模型如圖4所示。
需要補(bǔ)充的是,地籍?dāng)?shù)據(jù)庫(kù)中除人-地關(guān)系模型的核心實(shí)體外,還包含許多基礎(chǔ)性地理數(shù)據(jù)和輔助性數(shù)據(jù),如行政區(qū)、調(diào)查區(qū)、控制點(diǎn)、高程點(diǎn)及地類界線、各類注記等。這些數(shù)據(jù)通過(guò)相應(yīng)字段與核心實(shí)體相互掛接,從而使各數(shù)據(jù)層之間彼此聯(lián)系,構(gòu)成一個(gè)完整的地籍?dāng)?shù)據(jù)庫(kù)整體。
本文在分析現(xiàn)行地籍?dāng)?shù)據(jù)庫(kù)缺陷的基礎(chǔ)上,通過(guò)理順地籍管理中所涉及的實(shí)體及其關(guān)系,克服數(shù)據(jù)庫(kù)之間的異構(gòu)與冗余等問(wèn)題,并基于人-地關(guān)系模型從人、地塊、業(yè)務(wù)等方面設(shè)計(jì)了通用的一體化地籍?dāng)?shù)據(jù)庫(kù)的實(shí)體模型與屬性表。相比現(xiàn)行地籍?dāng)?shù)據(jù)庫(kù)中的32個(gè)屬性表、360個(gè)字段,通用一體化地籍?dāng)?shù)據(jù)庫(kù)僅包含26個(gè)屬性表、244個(gè)字段,將大量冗余數(shù)據(jù)擠出。一體化集成數(shù)據(jù)組織結(jié)構(gòu)既減少了數(shù)據(jù)存儲(chǔ)量,又滿足了數(shù)據(jù)庫(kù)范式要求,是地籍?dāng)?shù)據(jù)庫(kù)建設(shè)發(fā)展的必然趨勢(shì)。
[1] TD/T 1016-2007土地利用數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)[S].
[2] TD/T 1015-2007城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)標(biāo)準(zhǔn)[S].
[3] 陳紅艷, 于曉峰, 李曉燕, 等. 城鎮(zhèn)地籍?dāng)?shù)據(jù)庫(kù)建設(shè)及發(fā)展趨向[J].測(cè)繪通報(bào),2010(7):65-67
[4] 曹澤文, 錢杰, 張維明, 等. 一種綜合的概念相似度計(jì)算方法[J].計(jì)算機(jī)科學(xué),2007,34(3): 174-175
[5] 宋玲, 郭家義, 張冬梅, 等. 概念與文檔的語(yǔ)義相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用, 2009, 44(35): 163-167
[6] Kaufmann J, Steudler D. Cadastre 2014: A Vision for a Future Cadastral System[M]. Kaufmann J, Steudler D, 1998
[7] Elia E A, Zevenbergen J A, Lemmen C H J, et al. The Land Administration Domain Model (LADM) as the Reference Model for the Cyprus Land Information System (CLIS)[J].Survey Review, 2013,45(329):100-110
[8] Lemmen C H J, Oosterom P J M, Uitermark H T, et al.Transforming the Land Administration Domain Model (LADM) into an ISO Standard (ISO19152)[J]. 2009
[9] 許歡. 面向服務(wù)的土地資源空間信息多級(jí)語(yǔ)義網(wǎng)格研究[D].杭州:浙江大學(xué), 2009
[10] 黃亮,姜棟.城鄉(xiāng)一體化土地調(diào)查理論與方法初探[J].國(guó)土資源科技管理,2009,26(6): 79-83
[11] 詹長(zhǎng)根,唐祥云,劉麗.地籍測(cè)量學(xué)[M]. 武漢:武漢大學(xué)出版社, 2008
P273
B
1672-4623(2016)02-0006-04
10.3969/j.issn.1672-4623.2016.02.002
詹長(zhǎng)根,博士,副教授,主要研究方向?yàn)楝F(xiàn)代地籍理論與方法、土地信息技術(shù)。
2015-03-30。
項(xiàng)目來(lái)源:全國(guó)宗地統(tǒng)一編碼示范推廣與集成應(yīng)用資助項(xiàng)目(DCPJ13-10.1)。