曹佳敏,盧春陽
(浙江省測繪科學技術研究院,浙江杭州 310000)
空間數(shù)據(jù)庫模型是連接現(xiàn)實世界與空間實體的載體,主要是為了描述空間數(shù)據(jù)的組織關系,以便相關工作者掌握更多信息[1]。多源地質空間數(shù)據(jù)庫存儲著不同尺度以及不同格式的地質數(shù)據(jù),包括地質礦產(chǎn)數(shù)據(jù)、地球化學數(shù)據(jù)以及地球物理數(shù)據(jù)等多源地質空間數(shù)據(jù)[2]。美國、加拿大和英國等一些經(jīng)濟較為發(fā)達的西方國家對多源地質數(shù)據(jù)庫的研究起步較早,如美國地質調(diào)查局早在1960年就已經(jīng)開始建設多源地質數(shù)據(jù)庫。我國的地質資料數(shù)據(jù)庫建設始于20世紀80年代中后期,雖然起步較晚,但在生態(tài)保護、資源審計、旅游資源調(diào)查等多個領域已取得了較大進展[3]。根據(jù)相關研究資料記載,目前對多源地質空間數(shù)據(jù)庫更新模型與GNSS數(shù)據(jù)相融合的研究還不夠全面,需要進一步探討?;谏鲜霰尘埃疚奶岢龌贕NSS數(shù)據(jù)的多源地質空間數(shù)據(jù)庫更新模型,首先設定兩個空間直角坐標系,將地質空間數(shù)據(jù)進行空間坐標轉換;其次,根據(jù)轉換結果,劃分多源地質空間數(shù)據(jù)集,并利用似真函數(shù)、支持函數(shù)與信任函數(shù)之間的關聯(lián),提取多源地質空間數(shù)據(jù)關聯(lián)規(guī)則,基于GNSS數(shù)據(jù)構建數(shù)據(jù)庫更新模型;最后進行該模型的效率分析,驗證基于GNSS數(shù)據(jù)的多源地質空間數(shù)據(jù)庫的更新效率。
由于地質空間的特殊性,需要進行空間內(nèi)坐標轉換。根據(jù)建立坐標系的平行及重合條件,所建立的大地空間直角坐標系的各軸之間都是相互平行的關系[4]。在滿足兩個坐標系只有坐標原點不同的前提下,僅通過平移方式就能完成坐標轉換[5]。設定O—ABC與O—A′B′C′為兩個空間直角坐標系,兩坐標系各軸之間相互平行,且坐標原點不重合。設定地面上任意一點J,則兩坐標的形式表現(xiàn)為:
(1)
式中:p表示的是坐標系O—ABC的原點相對于坐標系O—A′B′C′原點的位置矢量,也就是空間內(nèi)的3個平移轉換參數(shù)。選取向量ΔA表示原始坐標系的坐標點與目標坐標系的相對位置向量,設定AZ、AW分別表示待求點在目標坐標系和原始坐標系的位置向量,如圖1 所示。
圖1 坐標轉換示意圖Fig.1 Diagram of coordinate transformation
從圖1 可以看出,其坐標歐拉角與尺度因子的相對位置關系可表示為:
Aw=ΔA+(1+n)S1(SA)S2(SB)S3(SC)AZ
(2)
式中,ΔA表示兩個坐標系之間的相對位置向量,SA、SB、SC表示坐標系的歐拉角,n表示尺度因子。在公式(2)成立的基礎上,則得到用K和L所表示的單位矩陣,根據(jù)兩個坐標系的歐拉角變換關系,轉換公式(2),得到:
Aw=ΔA+AZ+LAZ+nAZ
(3)
在進行空間數(shù)據(jù)生產(chǎn)、更新和應用時存在諸多影響因素,涉及空間基準與數(shù)學基礎的差異,經(jīng)過一系列計算,完成空間坐標轉換[6]。
多源地質空間數(shù)據(jù)庫是獲取其關聯(lián)規(guī)則的主要研究對象,數(shù)據(jù)管理是關鍵部分[7]。針對地質空間的多源性特點,將多源地質空間的數(shù)據(jù)集按照數(shù)據(jù)集、要素類、要素集以及要素子集進行類型劃分[8]。在多源地質空間數(shù)據(jù)庫中,根據(jù)挖掘任務提取地質空間數(shù)據(jù)挖掘的目標數(shù)據(jù)集,縮小處理范圍,提高挖掘效率[9]。在進行數(shù)據(jù)處理之前,需要對目標數(shù)據(jù)進行限制或者加以條件約束。設定A={a1,a2,…,am}是項的集合,另設任務相關的數(shù)據(jù)P為數(shù)據(jù)中要素的集合,其中每個R是項的集合,使R∈A;設Q是一個項集,要素集R包含Q,當且僅當Q∈R。設定關聯(lián)規(guī)則Q∈A,其中Q∈A,B∈A,并且Q∩B=?。數(shù)據(jù)關聯(lián)規(guī)則的評價標準主要是支持度與可信度,其中,超過最低支持度閾值和最低可靠度閾值的規(guī)則稱為強關聯(lián)規(guī)則。用D(Q)表示數(shù)據(jù)中出現(xiàn)要素Q的概率,D(B/Q)表示地質空間D的數(shù)據(jù)中出現(xiàn)要素B的概率,公式表達如下:
Support(Q→B)=D(Q∪B)Confidence(Q→B)=D(B/Q)
(4)
根據(jù)交易集的要素特征,挖掘空間關聯(lián)規(guī)則主要就是其支持度與信任度分別大于給定的最小支持度與最小信任度關聯(lián)度原則[10]。其中,最小支持度表示項目的要素集在數(shù)學意義上的重要性,最小置信度表示關聯(lián)規(guī)則的最低可靠性[11]??臻g數(shù)據(jù)庫與其他數(shù)據(jù)庫的相同點是:都可以進行空間數(shù)據(jù)規(guī)則挖掘,但空間數(shù)據(jù)具有一定的空間特征,因此,需要更深入挖掘。首先,將空間數(shù)據(jù)進行組織劃分,用不同的要素表達不同的數(shù)據(jù)特征[12];其次,根據(jù)數(shù)據(jù)集所包含的空間對象的條件或者決策屬性,進行離散化處理和關聯(lián)規(guī)則提取,表達方式如下:
D1∧D2∧…∧Dn→L1∧L2∧…∧Lm(r%,e%)
(5)
式中:r%表示關聯(lián)規(guī)則的支持度,D1,…,Dn表示空間數(shù)據(jù)的距離要素,e%為關聯(lián)規(guī)則的置信度,L1,…,Lm表示空間數(shù)據(jù)的方位要素。
這種提取方式適用于多源地質空間的多維關聯(lián)規(guī)則,通過設定一種具有逐層搜索的迭代方法,求得空間數(shù)據(jù)的支持函數(shù)和似真函數(shù)與支持函數(shù)在信任函數(shù)上的關系。設定一個非空集合2β,任意命題K在問題域中屬于冪集 ,則其基本概率表示為j2β→[0,1] ,其中,j為基本概率分配函數(shù),并滿足j(?)=0的條件,得出支持函數(shù)的表達公式為:
(6)
式中:j(K)表示命題K發(fā)生的信任程度,利用空間數(shù)據(jù)的證據(jù)體得到其信任函數(shù)的表達公式,用Bel(K)表示,即變量對命題K的支持程度與全部信任程度。似真函數(shù)的表達公式為:
Wl(K)=1-Bel(Kc) ?K?β
(7)
式中:Wl(K)表示可能屬于命題K的程度。根據(jù)上述公式,得出三者的關系,如圖2所示。
圖2 信任函數(shù)關系圖Fig.2 Diagram of trust function
從圖2可以看出,似真函數(shù)和支持函數(shù)與信任函數(shù)之間的關聯(lián),支持函數(shù)越大就表示獲取該區(qū)域的數(shù)據(jù)關聯(lián)規(guī)則越容易,反之則越難。至此,完成了多源地質空間數(shù)據(jù)關聯(lián)規(guī)則的獲取。
空間數(shù)據(jù)庫的更新是將保存的某一時間點數(shù)據(jù)作為歷史數(shù)據(jù),以變化信息的方式更新數(shù)據(jù)庫。更新過程是在原始數(shù)據(jù)庫中增加實體的過程,在保存歷史數(shù)據(jù)、維護數(shù)據(jù)層關系以及保證數(shù)據(jù)質量的基礎上,進行空間數(shù)據(jù)庫更新模型構建[13]。根據(jù)多源數(shù)據(jù)庫的更新操作對象不同,多源地質空間數(shù)據(jù)更新可分為區(qū)域空間的實體整體更新與局部更新兩種方式[14]。整體更新主要是采用數(shù)據(jù)集之間疊加的方式;局部更新主要是通過交互式空間實體圖形變更來實現(xiàn)。二者的區(qū)別是局部更新的操作對象為單個實體,而整體更新的操作對象為多個實體[15]??臻g關系分析與處理是實現(xiàn)空間數(shù)據(jù)庫更新的關鍵,因此,需要將空間分析技術作為空間數(shù)據(jù)庫更新模型的構建基礎。同時,還需要考慮實際情況中的各實體之間的平面相鄰、平面相離以及空間覆蓋等情況。其中,由于覆蓋情況比較復雜,需要對覆蓋區(qū)進行具體研究。
設定線段HM和JM為原線段UP前進方向的左右兩條覆蓋區(qū)線段,原線段的起點U和終點P的坐標分別為(Ua,Pa)、(Ub,Pb),覆蓋區(qū)半徑為r,則線段UP的左覆蓋區(qū)線段HM的端點坐標為(Uc,Pc)、(Ud,Pd),當Ub-Ua≠0時,l為線段UP的斜率,其計算公式如下:
(8)
當Pa-Pb>0,l>0或者Pa-Pb<0時,計算不同線段的斜率,得到線段覆蓋區(qū)斜率,為空間數(shù)據(jù)庫更新奠定數(shù)據(jù)基礎。多源地質空間數(shù)據(jù)庫的生產(chǎn)與更新主要是對同一地區(qū)但來源不同的空間數(shù)據(jù)進行有效處理,保證這些數(shù)據(jù)的屬性以及幾何位置層面都有對應的關系。基于上述描述與計算,空間數(shù)據(jù)庫更新模型構建完成。
多源地質空間數(shù)據(jù)庫中,通常都需要對相關信息進行定義與屬性設置,包括數(shù)據(jù)的生產(chǎn)日期、數(shù)據(jù)名稱等。數(shù)據(jù)屬性越豐富,能提供的信息就越多,數(shù)據(jù)更新的速度就越快。某地質空間地層的數(shù)據(jù)屬性如表1所示。
表1 地層屬性結構Tab.1 Stratumattributestructure字段名稱項目允許空字段描述Object-ciNumber(22)not實體Length-nlNumber3(17)not長度Name-klNumber1(19)null名字Shape-aqNumber4vnot形狀Perimeter-s1Double-fnull周長Shape-lenNumber6(e)null長度Area-3Double-hnull區(qū)域
表1提供的地層屬性結構信息,主要負責用戶的數(shù)據(jù)信息查詢以及空間數(shù)據(jù)組織關系分析。根據(jù)相應地質礦產(chǎn)數(shù)據(jù)、地球物理數(shù)據(jù)、地球化學數(shù)據(jù)以及遙感影像數(shù)據(jù)的數(shù)據(jù)集、要素集和要素子集得到多源地質空間數(shù)據(jù)組織關系,如表2所示。
表2 多源地質空間數(shù)據(jù)關系組織Tab.2 Relationshiporganizationofmulti sourcegeospatialdata數(shù)據(jù)集項目數(shù)據(jù)子集數(shù)量要素類數(shù)量地質礦產(chǎn)數(shù)據(jù)1∶100000地質礦產(chǎn)數(shù)據(jù)e-081212219帶1∶200000地質礦產(chǎn)數(shù)據(jù)e-11101311∶150000地質礦產(chǎn)數(shù)據(jù)e-041711722帶1∶150000地質礦產(chǎn)數(shù)據(jù)e-1391121∶100000地質礦產(chǎn)數(shù)據(jù)e-17378地球物理數(shù)據(jù)1∶100000航磁數(shù)據(jù)n-11131∶200000航磁數(shù)據(jù)n-215121∶150000航磁數(shù)據(jù)n-33118地球化學數(shù)據(jù)1∶100000地球化學數(shù)據(jù)y-0624231∶100000地球化學數(shù)據(jù)y-064161∶100000地球化學數(shù)據(jù)y-0647遙感影像數(shù)據(jù)EYMA數(shù)據(jù)223ASTERI數(shù)據(jù)712HYPEEIOD數(shù)據(jù)3617GIS-8數(shù)據(jù)423
根據(jù)表2可以得出整體性的數(shù)據(jù)庫更新模型的數(shù)據(jù)組織關系,應用上述信息進行模型更新效率測試。
選取野外調(diào)查、遙感調(diào)查兩種傳統(tǒng)數(shù)據(jù)庫更新模型,對此次構建的更新模型在不同比例尺地質空間的更新速度進行測試,并得出圖3所示測試結果。
圖3 數(shù)據(jù)庫更新速度測試結果Fig.3 Results from database updating speed test
根據(jù)圖3的數(shù)據(jù)模型更新速度測試結果,得出不同比例尺地質空間內(nèi)3種更新模型的更新速度均值,如表3所示。
表3 三種模型更新速度均值Tab.3 Averageupdatingspeedofthethreemodels比例尺傳統(tǒng)更新模型1/s傳統(tǒng)更新模型2/s基于GNSS數(shù)據(jù)的更新模型/s1∶500000.31600.38230.19871∶1000005.26434.40173.31591∶20000042.114737.480627.4401
從表3可知,基于GNSS數(shù)據(jù)所構建的數(shù)據(jù)庫更新模型在三種不同的比例尺地質空間的更新速度均高于兩種傳統(tǒng)數(shù)據(jù)庫更新模型的速度。當比例尺為1∶50 000時,基于GNSS數(shù)據(jù)的更新模型比傳統(tǒng)模型1高于0.117 3 s,比傳統(tǒng)模型2高于0.183 6 s;當比例尺為1∶100 000時,基于GNSS數(shù)據(jù)的更新模型比傳統(tǒng)模型1高于1.948 4 s,比傳統(tǒng)模型2高于1.085 8 s;當比例尺為1∶200 000時,基于GNSS數(shù)據(jù)的更新模型比傳統(tǒng)模型1高于14.674 6 s,比傳統(tǒng)模型2高10.040 5 s。由上述內(nèi)容可知,融合了GNSS數(shù)據(jù)的數(shù)據(jù)庫更新模型的更新效率更高。
根據(jù)實驗測試結果可知,本研究設計的數(shù)據(jù)庫更新模型的數(shù)據(jù)更新速度快,更適用于研究多源地質空間數(shù)據(jù)庫更新。其結果在一定程度上推動了數(shù)據(jù)庫更新領域的發(fā)展,同時為學術界開展相關研究奠定了理論和實踐基礎。但是,由于研究條件有限,多源地質空間數(shù)據(jù)庫更新模型的精度還有待研究,未來需要進一步探討與完善模型精度。