范登科 ,張恒 , ,韓祖杰 ,全玉山,宋永軍,楊斌,張利明
1. 中國鐵路設(shè)計集團有限公司,天津 300308;
2. 城市軌道交通數(shù)字化建設(shè)與測評技術(shù)國家工程研究中心,天津 300308;
3. 西南交通大學地球科學與環(huán)境工程學院,成都 610031;
4. 甘肅天隴鐵路有限公司,蘭州 730046
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)(薛嬌等,2020;Sawadogo 和Darmont,2021)。在地理信息數(shù)據(jù)分析、處理、交換和服務(wù)發(fā)布過程中,元數(shù)據(jù)提供了統(tǒng)一的數(shù)據(jù)描述規(guī)則和方法,以便各方在信息理解和數(shù)據(jù)解譯上達成一致(Lassoued 等,2007;Sheoran和Parmar,2020;劉紀平等,2022)。我國于2005年發(fā)布《地理信息 元數(shù)據(jù)》(GB/T 19710—2005)標準,定義了元數(shù)據(jù)的組成單元、特征和數(shù)據(jù)字典,有效規(guī)范了元數(shù)據(jù)的內(nèi)容和形式,并在《基礎(chǔ)地理信息數(shù)字成果元數(shù)據(jù)》(GB/T 39608—2020)中提出了基于XML 語言的元數(shù)據(jù)規(guī)則實現(xiàn)方式。為了實現(xiàn)地理信息元數(shù)據(jù)的結(jié)構(gòu)化存儲和標準化應(yīng)用,全國地理信息標準化技術(shù)委員會發(fā)布了國家標準化指導性技術(shù)文件《地理信息 元數(shù)據(jù) XML 模式實現(xiàn)》(GB/Z 24357—2009),明確了基于XML語言編制元數(shù)據(jù)規(guī)則,用以描述元數(shù)據(jù)數(shù)據(jù)字典的全部組成單元及其彼此間的關(guān)系(張濤等,2007;李爽,2017;Lacayo 等,2021)。由于地理信息數(shù)據(jù)具有時空海量、多源異構(gòu)等特點(徐冠華和黃寫勤,2022),導致元數(shù)據(jù)內(nèi)容多樣、規(guī)則關(guān)系復雜。常規(guī)手工對文件編輯處理的方式導致元數(shù)據(jù)的生產(chǎn)、管理和交互等工作效率低下、內(nèi)容繁雜,致使元數(shù)據(jù)技術(shù)的推廣應(yīng)用受到限制(張敏等,2019;周成虎等,2020;李新等,2021)。如何對復雜規(guī)則關(guān)系進行解析,批量自動地采集標準化的元數(shù)據(jù),是對海量時空大數(shù)據(jù)達成一致理解的重要前提。
現(xiàn)有元數(shù)據(jù)采集方法主要包括三類。一是基于數(shù)據(jù)庫的采集。根據(jù)數(shù)據(jù)字典設(shè)計好數(shù)據(jù)庫表結(jié)構(gòu),通過表之間的關(guān)系反映元數(shù)據(jù)實體和元數(shù)據(jù)元素間的邏輯關(guān)系,采集時將元數(shù)據(jù)實體的實例存儲為數(shù)據(jù)庫表中的一行記錄(羅英偉等,2005;宋鴻運,2017;Parmar 和Sheoran,2021)。這種方法將元數(shù)據(jù)的各種關(guān)系隱含在數(shù)據(jù)庫表關(guān)系中無法顯式表達,一旦進行信息交換或遷移,還需要執(zhí)行繁瑣的數(shù)據(jù)庫查詢和修改操作,以保證元數(shù)據(jù)與所描述數(shù)據(jù)統(tǒng)一一致。二是將XML 規(guī)則文件描述的數(shù)據(jù)字典轉(zhuǎn)為RDF、DTD 或其他建模語言描述(程志華,2018;孫立健等,2018;王曉迪等,2023)。該方法不僅使元數(shù)據(jù)的批量采集能力和交互編輯能力受限于特定建模語言或軟件,還增加了轉(zhuǎn)換過程中數(shù)據(jù)字典信息錯漏的風險。三是采用文本描述語言,如XML、TXT、Json等固定的語法和結(jié)構(gòu),直接寫入信息批量生產(chǎn)實例文件(Hu 等,2022;鄭聰和張衍偉,2019;任赳龍等,2019)。這種方法僅能處理通用、固定的元數(shù)據(jù)內(nèi)容,由于缺少規(guī)則約束,難以保證元數(shù)據(jù)信息的完整性,以及與數(shù)據(jù)字典描述的一致性;同時由于需要在軟件研發(fā)階段固化元數(shù)據(jù)結(jié)構(gòu)和內(nèi)容,可擴展性和靈活性較低。此外,現(xiàn)有軟件如國家基礎(chǔ)地理信息中心的MetaGear、商業(yè)軟件ArcGIS 僅支持對基礎(chǔ)地理信息元數(shù)據(jù)的編輯,缺乏對行業(yè)特定擴展元數(shù)據(jù)的采集能力,極大限制了元數(shù)據(jù)在各專業(yè)領(lǐng)域的應(yīng)用(Cartledge,2018;Brodeur 等,2019;Closa 等,2019)。
為解決元數(shù)據(jù)采集自動化程度和效率低、行業(yè)應(yīng)用受限等問題,本文提出一種基于規(guī)則解析的地理信息元數(shù)據(jù)批量快速采集方法,以實現(xiàn)規(guī)則約束下的元數(shù)據(jù)標準化采集,提高元數(shù)據(jù)的采集效率及產(chǎn)品的可靠性,滿足行業(yè)擴展應(yīng)用的需求。首先,通過定義元數(shù)據(jù)的數(shù)據(jù)類型,將元數(shù)據(jù)規(guī)則文件中的各類組成單元解析為相對應(yīng)數(shù)據(jù)類型的對象;其次,采用屬性描述組成單元間的關(guān)系,重建數(shù)據(jù)字典結(jié)構(gòu);最后,建立交互視圖以實現(xiàn)元數(shù)據(jù)實例的批量表達和編輯。
圖1 展示了基于規(guī)則解析的地理信息元數(shù)據(jù)批量快速采集方法的總體技術(shù)框架,主要包括元數(shù)據(jù)數(shù)據(jù)類型定義和規(guī)則解析、元數(shù)據(jù)數(shù)據(jù)字典的結(jié)構(gòu)重建,以及元數(shù)據(jù)信息交互視圖構(gòu)建三個步驟。
圖1 本研究總體技術(shù)框架Fig.1 Overall technical framework
2.1.1 元數(shù)據(jù)組成單元類型定義
遵照國家標準的規(guī)定,采用計算機語言分別定義元數(shù)據(jù)實體類、元素類、代碼表類和代碼表枚舉項類。其中,實體類和元素類中各項屬性的數(shù)據(jù)類型與元數(shù)據(jù)特征之間的對應(yīng)關(guān)系,如表1 所示。將元數(shù)據(jù)代碼表和代碼表枚舉項的“名稱(中文)”“名稱(英文)”“域代碼”和“說明”四個特征的數(shù)據(jù)類型全部定義為字符串型。
表1 各組成單元特征與數(shù)據(jù)類型定義間的對應(yīng)關(guān)系Tab.1 Correspondence between the constituent units characteristics and the data type
2.1.2 元數(shù)據(jù)組成單元間關(guān)系描述
元數(shù)據(jù)各要素之間具有四類邏輯關(guān)系,分別是包含關(guān)系、引用關(guān)系、泛化關(guān)系和特化關(guān)系。作為元數(shù)據(jù)元素的一類特殊值類型,代碼表與其枚舉項同樣構(gòu)成包含關(guān)系。通過在相應(yīng)要素類中新增屬性定義實現(xiàn)上述關(guān)系描述,各屬性的數(shù)據(jù)類型與所描述邏輯關(guān)系的對應(yīng)情況,如表2 所示。
表2 四類邏輯關(guān)系與屬性的數(shù)據(jù)類型間的對照Tab.2 Comparison between the four types of logical relationships and the data types of attributes
一組地理信息元數(shù)據(jù)規(guī)則文件記錄了以XML語言實現(xiàn)的數(shù)據(jù)字典描述(蔡魯湘,2005)。遵照國家標準化技術(shù)性指導文件的規(guī)定,元數(shù)據(jù)各要素及其實例均采用了特定的XML 語法、Tag 標記和組織形式進行定義。本研究通過解析這些固定的格式、標記和組織形式,將元數(shù)據(jù)的數(shù)據(jù)字典信息從XML 規(guī)則文件傳遞到上述所建立的描述架構(gòu)中,圖2 描述了XML 規(guī)則文件解析的具體方法。
圖2 解析XML 規(guī)則文件內(nèi)數(shù)據(jù)字典信息到所建立的描述架構(gòu)的方法Fig.2 A method of parsing metadata data dictionary in XML schema files into the description framework proposed
以元數(shù)據(jù)實體CRCI_Contact 為例,圖3 展示了將其XML 規(guī)則內(nèi)容解析為實體類對象和元素類對象的過程,其中將上述所建描述結(jié)構(gòu)中定義的實體類命名為MetadataEntity,元素類命名為MetadataElement,解析所得實體對象為O,其包含的各元素對象為ei,各項元數(shù)據(jù)特征值解析為對象的屬性值。
圖3 從規(guī)則文件中解析元數(shù)據(jù)實體對象和元素對象的過程示意Fig.3 Schematic of the process of parsing metadata entity objects and element objects from the schema files
元數(shù)據(jù)的數(shù)據(jù)字典定義了一整套從根實體MD_Metadata 出發(fā)的、自上而下的“子集—實體—元素”三級組織架構(gòu)。通過包含關(guān)系、引用關(guān)系、泛化關(guān)系、特化關(guān)系四種邏輯關(guān)系,元數(shù)據(jù)各要素有序組織在一起,在數(shù)據(jù)結(jié)構(gòu)上表現(xiàn)為樹結(jié)構(gòu),如圖4 所示。樹結(jié)構(gòu)中的節(jié)點為元數(shù)據(jù)實體O 或元素e,節(jié)點間的連接線代表其邏輯關(guān)系,分別是實體與元素的包含關(guān)系,元素與實體的引用關(guān)系,實體與子實體的特化或泛化關(guān)系。在規(guī)則解析過程中,隨著各要素對象的實例化,對象間的各類邏輯關(guān)系解析為對象的屬性值。至此,借助計算機語言,元數(shù)據(jù)數(shù)據(jù)字典的全部信息被完整地描述出來。
圖4 元數(shù)據(jù)數(shù)據(jù)字典的樹結(jié)構(gòu)示意Fig.4 Tree structure of the metadata dictionary
2.3.1 元數(shù)據(jù)特征表達
采用統(tǒng)一的樹列表結(jié)構(gòu)視圖表達由上述解析得到的元數(shù)據(jù)數(shù)據(jù)字典。如圖5 所示,該視圖中的一行表示一個節(jié)點,反映了一個元數(shù)據(jù)元素對象的信息。元數(shù)據(jù)的三個特征——“名稱/角色(中文)”“數(shù)據(jù)類型”和“可選性”的實例信息,分別通過視圖的第一列數(shù)據(jù)、第二列數(shù)據(jù)和節(jié)點圖標表達。其中,“名稱/角色(中文)”和“數(shù)據(jù)類型”特征直接表達為屬性值,“可選性”特征則通過節(jié)點圖標樣式差異化表達元素是可選的還是必選的。
圖5 元數(shù)據(jù)特征表達視圖的構(gòu)建過程示意Fig.5 Construction process of metadata feature representation view
2.3.2 引用關(guān)系與包含關(guān)系的表達
當元數(shù)據(jù)元素與實體之間構(gòu)成引用關(guān)系時,該元素值的數(shù)據(jù)類型為實體型。在交互視圖中,引用關(guān)系通過節(jié)點的第一列數(shù)據(jù)——元素的“名稱/角色(中文)”特征與第二列數(shù)據(jù)——元素的“數(shù)據(jù)類型”特征二者間的對應(yīng)關(guān)系表達。元數(shù)據(jù)實體與其所含元素之間的包含關(guān)系則通過樹結(jié)構(gòu)中節(jié)點及其子節(jié)點間的包含關(guān)系表達。以引用 CRMD_Keywords 實體的元素及該實體所包含的元素為例,引用關(guān)系和包含關(guān)系在視圖中表達方式,如圖6所示。
圖6 交互視圖中以樹列表結(jié)構(gòu)表達引用關(guān)系和包含關(guān)系Fig.6 Tree list structure of the reference relationship and the containment relationship in the interactive view
2.3.3 泛化關(guān)系與特化關(guān)系的表達
與計算機語言描述的類型派生類似,元數(shù)據(jù)實體之間具有泛化或特化關(guān)系。以空間表示(CRMD_SpatialRepresentation)實體為例,由其特化出格網(wǎng)空間表示(CRMD_GridSpatialRepresentation)、矢量空間表示(CRMD_VectorSpatialRepresentation)和模型空間表示(CRMD_ModelSpatialRepresentation)三個實體;其中,格網(wǎng)空間表示又特化出地理校正(CRMD_Georectified)實體。在交互視圖中,以上述特化關(guān)系創(chuàng)建樹列表子視圖,如圖7 所示,并通過上述構(gòu)建的樹結(jié)構(gòu)中第二列數(shù)據(jù)——元素的“數(shù)據(jù)類型”特征與主視圖關(guān)聯(lián)。當選中子視圖中某實體類型時,其包含的元素作為子節(jié)點添加到主視圖中,從而實現(xiàn)元數(shù)據(jù)實體的多態(tài)化表達。
圖7 特化關(guān)系或泛化關(guān)系的子視圖表達、與主視圖關(guān)聯(lián)及多態(tài)化Fig.7 Subview representation of generalization or specialization, association with main view, and polymorphism
2.3.4 批量同步采編及空間信息驅(qū)動
如圖7 所示樹列表主視圖中,除前兩列表達元數(shù)據(jù)的兩個特征外,其他列用于展示元數(shù)據(jù)的實例值。一個元數(shù)據(jù)實例文件的內(nèi)容由主視圖中的一列數(shù)據(jù)表達。圖8 示意了不同元數(shù)據(jù)應(yīng)用類型、不同空間數(shù)據(jù)類型的元數(shù)據(jù)實例文件內(nèi)容在主視圖中同步展示的效果。由于相同項目數(shù)據(jù)的元數(shù)據(jù)在一些元素(如創(chuàng)建日期、制作單位、說明等)上取值相同,可以對視圖展示的所有或部分元數(shù)據(jù)按行(元素)統(tǒng)一賦值,從而實現(xiàn)元數(shù)據(jù)的批量同步采編。
圖8 元數(shù)據(jù)批量同步采編及空間信息驅(qū)動下的元素多實例化Fig.8 Metadata batch synchronous collection and element multi-instantiation driven by spatial information
借助空間數(shù)據(jù)接口,能夠自動采集與空間信息相關(guān)的元數(shù)據(jù)實例信息。由于作為這些信息載體的元數(shù)據(jù)實體(如空間表示信息、內(nèi)容信息)具有與上述相同的多態(tài)性。對不同數(shù)據(jù)類型的地理信息數(shù)據(jù)批量同步采編時,相同元素在空間信息的驅(qū)動下表達為不同數(shù)據(jù)類型(實體類型)的實例。
本方法適用于基于XML 規(guī)則實現(xiàn)的、遵照國家標準GB/T 19710 及GB/Z 24357 擴展規(guī)定編制的各型元數(shù)據(jù)的采集?;诒痉椒?,地理信息數(shù)據(jù)生產(chǎn)人員在昌景黃高速鐵路、京雄城際鐵路等工程的信息化項目中開展了元數(shù)據(jù)采集實踐應(yīng)用,采集目標為鐵路建設(shè)周邊地理要素矢量、數(shù)字正射影像圖(digital orthophoto map,DOM)和數(shù)字高程模型(digital elevation model,DEM)影像、工程要素模型、施工圖設(shè)計參數(shù)表格等地理信息數(shù)據(jù),目標數(shù)據(jù)量總計約45 GB,采集所得元數(shù)據(jù)實例文件數(shù)為382 個。元數(shù)據(jù)采集效率和質(zhì)量得到提升,進一步規(guī)范了地理信息數(shù)據(jù)管理,縮短了數(shù)據(jù)服務(wù)發(fā)布周期。本文實驗包括以下三個步驟。
(1)元數(shù)據(jù)數(shù)據(jù)類型定義和規(guī)則解析。首先,根據(jù)地理信息元數(shù)據(jù)的XML 模式實現(xiàn)規(guī)則,采用計算機語言定義元數(shù)據(jù)各類組成單元對象的數(shù)據(jù)類型;其次,從元數(shù)據(jù)XML 規(guī)則文件和代碼表文件中,提取其中記錄的元數(shù)據(jù)實體、元素和代碼表及代碼表枚舉項實例信息,解析為數(shù)據(jù)類型的對象。
(2)元數(shù)據(jù)數(shù)據(jù)字典的結(jié)構(gòu)重建。擴展定義步驟(1)元數(shù)據(jù)的數(shù)據(jù)類型中實體類和要素類的屬性,以描述元數(shù)據(jù)數(shù)據(jù)字典中記錄的包含關(guān)系、引用關(guān)系、泛化關(guān)系和特化關(guān)系。通過上述四類關(guān)系將步驟(1)解析獲得的實體對象和元素對象關(guān)聯(lián)組織在一起,形成數(shù)據(jù)字典的數(shù)據(jù)結(jié)構(gòu)。
(3)元數(shù)據(jù)信息交互視圖構(gòu)建。采用樹列表結(jié)構(gòu),創(chuàng)建視圖表達步驟(2)解析形成的數(shù)據(jù)結(jié)構(gòu),包括元數(shù)據(jù)實體和元數(shù)據(jù)元素的部分特征信息,以及彼此間的四類關(guān)系,形成按照視圖結(jié)構(gòu)表達的、統(tǒng)一的、多態(tài)可控的組織形式。采用列表結(jié)構(gòu),創(chuàng)建子視圖表達步驟(1)解析得到的各代碼表及所含代碼表枚舉項的全部特征信息。最終關(guān)聯(lián)上述視圖和子視圖,通過所描述地理信息數(shù)據(jù)的類型驅(qū)動生成采集視圖,將在組織關(guān)系上相關(guān)的元數(shù)據(jù)實例同步顯示到樹列表結(jié)構(gòu)視圖的不同列中,以統(tǒng)一賦值、自動提取空間信息等方式實現(xiàn)元數(shù)據(jù)批量快速采集。
MetaGear 是國家基礎(chǔ)地理信息中心研發(fā)的一款地理信息元數(shù)據(jù)采集軟件,能夠個性化地采集生產(chǎn)不同區(qū)域的XML 元數(shù)據(jù),但與本方法相比,其不足之處在于一次僅能采集一個元數(shù)據(jù)實例,且需要在采集前指定地理信息數(shù)據(jù)所對應(yīng)的數(shù)據(jù)類型模板,在整個采集過程中元數(shù)據(jù)數(shù)據(jù)字典結(jié)構(gòu)固定,不具有靈活可變的特性。本方法解決了MetaGear 無法一次采集多個元數(shù)據(jù)實例的問題,支持多種數(shù)據(jù)類型的元數(shù)據(jù)實例同時展示,并在采集過程中可以靈活調(diào)整元數(shù)據(jù)數(shù)據(jù)字典組織內(nèi)容和結(jié)構(gòu),可以有效應(yīng)對當前如FileGDB、KMZ 等混合數(shù)據(jù)類型的地理信息數(shù)據(jù)的采集。
采用本方法與文本直接編輯方法的元數(shù)據(jù)采集進行效率對比實驗,兩種采集過程的采集人員、采集環(huán)境和采集目標數(shù)據(jù)均保持一致,并分別從新建實例數(shù)據(jù)和修改實例數(shù)據(jù)兩方面作比較。新建實例數(shù)據(jù)的實驗過程是,根據(jù)需求新建并采集20 個不同地理信息數(shù)據(jù)類型的元數(shù)據(jù)文件,其中包含具有代表性的矢量數(shù)據(jù)文件7 個、柵格數(shù)據(jù)文件7 個、模型數(shù)據(jù)文件6 個,且同類文件中空間信息各不相同,分別記錄無地理信息數(shù)據(jù)類型先驗知識和有地理信息數(shù)據(jù)類型先驗知識兩種情況下兩種方法的處理時間;修改實例數(shù)據(jù)的實驗過程是,根據(jù)需求修改20 個既有不同地理信息數(shù)據(jù)類型的元數(shù)據(jù)文件,不同類型文件數(shù)量及信息差異性與前者保持一致,分別記錄無增刪元數(shù)據(jù)元素和有增刪元數(shù)據(jù)元素情況下兩種方法的處理時間;最終四種情況等權(quán)計算平均水平。兩種方法在多環(huán)境下元數(shù)據(jù)處理時間的統(tǒng)計結(jié)果,如表3 所示。
表3 兩種元數(shù)據(jù)處理方法效率對比Tab.3 Efficiency comparison of two metadata processing methods min
由表3 可知,本方法在各種情況下均優(yōu)于文本直接編輯方法。由于后者在處理過程中不僅需要編輯大量的XML 節(jié)點,而且還需要充分考慮元數(shù)據(jù)數(shù)據(jù)字典層次關(guān)系的正確描述,對數(shù)據(jù)處理人員熟悉地理信息元數(shù)據(jù)XML 模式的程度有很高要求。在有先驗知識的新建實例數(shù)據(jù)和有增刪元素的修改實例數(shù)據(jù)情況下,本方法能顯著提升處理效率,平均時間節(jié)約達60.5%。
本文提出的基于規(guī)則解析的地理信息元數(shù)據(jù)批量快速采集方法解決了現(xiàn)有方法中存在的處理效率低、信息不完整、交互能力弱、靈活性差等問題。基于地理信息元數(shù)據(jù)XML 規(guī)則解析的數(shù)據(jù)字典重構(gòu)和元數(shù)據(jù)信息交互視圖的構(gòu)建是本方法實現(xiàn)的技術(shù)基礎(chǔ)。在規(guī)則解析與數(shù)據(jù)字典重構(gòu)方面,本方法采用計算機語言描述了由XML 模式定義的地理信息元數(shù)據(jù)實體、元素、代碼表及代碼表枚舉項的各類特征和邏輯關(guān)系,重新建立了元數(shù)據(jù)數(shù)據(jù)字典的多層級、多態(tài)化數(shù)據(jù)結(jié)構(gòu)。在元數(shù)據(jù)信息交互視圖構(gòu)建方面,方法借助樹列表視圖多維信息表達的優(yōu)勢,直觀、完整地反映元數(shù)據(jù)數(shù)據(jù)字典的全部內(nèi)容,動態(tài)、靈活地表現(xiàn)其多層級和多態(tài)化數(shù)據(jù)結(jié)構(gòu),為批量快速采集地理信息元數(shù)據(jù)實例提供了高效的、可擴展的方法。未來工作將關(guān)注于與元數(shù)據(jù)規(guī)則相匹配的數(shù)據(jù)庫表的自動創(chuàng)建和修改,以及元數(shù)據(jù)實例自動入庫管理方法研究上,進一步提升元數(shù)據(jù)管理的統(tǒng)一性和規(guī)范性。