符季穎, 霍 亮,2, 沈 濤,2, 徐 鯤, 欒磊洋
(1.北京建筑大學(xué) 測繪與城市空間信息學(xué)院,北京 100044;2.北京建筑大學(xué) 北京未來城市設(shè)計高精尖創(chuàng)新中心,北京 100044)
數(shù)據(jù)集成是指把不同來源、格式、特點、性質(zhì)的地理信息數(shù)據(jù)進(jìn)行邏輯或物理上的有機(jī)集中,在這個過程中充分考慮到數(shù)據(jù)的屬性、時間和空間特征、數(shù)據(jù)自身及其表達(dá)的地理特征和過程的準(zhǔn)確性[1]。災(zāi)害應(yīng)急測繪數(shù)據(jù)具有海量、多源、異構(gòu)等特點[2]。如何快速集成應(yīng)急測繪數(shù)據(jù)、加快自然災(zāi)害應(yīng)急決策響應(yīng)速度,是當(dāng)前應(yīng)急測繪保障研究的熱點問題。目前,針對應(yīng)急測繪數(shù)據(jù)的集成管理主要包括數(shù)據(jù)倉庫[3]、統(tǒng)一數(shù)據(jù)交換[4]、本體描述[5]3種方式。
數(shù)據(jù)倉庫是較為傳統(tǒng)的數(shù)據(jù)集成管理方式,主要采用關(guān)系數(shù)據(jù)庫方式存儲,并以編目的形式進(jìn)行集成管理,存儲的數(shù)據(jù)較為單一,且只面向特定的部門使用。此外,數(shù)據(jù)倉庫采用“元數(shù)據(jù)關(guān)鍵字”的方式進(jìn)行數(shù)據(jù)檢索,這種檢索速度會受到硬件條件、檢索數(shù)量等的限制,使數(shù)據(jù)的集成效率難以得到保障。盡管現(xiàn)在ArcSDE、Oracle Spatial等空間引擎時空索引與傳統(tǒng)E-R關(guān)系索引組合使用,提升了數(shù)據(jù)存儲、分析及檢索能力,但其在海量多元異構(gòu)的應(yīng)急測繪數(shù)據(jù)存儲與檢索上,還是存在著一定不足。
統(tǒng)一數(shù)據(jù)交換是指在分布式、異構(gòu)式環(huán)境的背景下,從共享角度出發(fā),利用面向?qū)ο髮?shù)據(jù)交換格式進(jìn)行統(tǒng)一描述,并提供統(tǒng)一的數(shù)據(jù)表達(dá)與查詢接口,如數(shù)據(jù)字典。特點是使數(shù)據(jù)與業(yè)務(wù)分離,采用松耦合方式集成數(shù)據(jù)。該種方式提供統(tǒng)一的元數(shù)據(jù)表達(dá),但其語義描述和數(shù)據(jù)映射關(guān)系較為簡單,難以根據(jù)災(zāi)害事件響應(yīng)需求滿足應(yīng)急測繪數(shù)據(jù)的自動檢索發(fā)現(xiàn)。
基于本體描述表達(dá)的數(shù)據(jù)集成方式,是采用本體描述語言(Ontology Web Language,OWL)并利用資源描述框架(Resource Description Framework,RDF)對數(shù)據(jù)的概念、關(guān)系進(jìn)行定義,從而實現(xiàn)數(shù)據(jù)的統(tǒng)一描述與表達(dá)。該方式可以增強(qiáng)數(shù)據(jù)間的語義互操作性,屬于一種知識表達(dá)的方式,能很好地實現(xiàn)數(shù)據(jù)的自動篩選發(fā)現(xiàn)。
在自然災(zāi)害應(yīng)急事件快速響應(yīng)背景下,本文采用本體描述的數(shù)據(jù)集成方法集成災(zāi)害事件應(yīng)急測繪數(shù)據(jù)。首先,分析災(zāi)害事件和應(yīng)急測繪數(shù)據(jù)類型、特征,使用本體描述方法分別對災(zāi)害事件及應(yīng)急測繪數(shù)據(jù)進(jìn)行統(tǒng)一描述與關(guān)系表達(dá),建立災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)語義關(guān)聯(lián)性。然后,從災(zāi)害事件語義約束、應(yīng)急測繪數(shù)據(jù)語義約束、時效性語義約束3個層級約束出發(fā)搭建多級語義約束框架,最后,以用戶需求為導(dǎo)向?qū)崿F(xiàn)災(zāi)害事件應(yīng)急測繪數(shù)據(jù)的快速集成,實現(xiàn)應(yīng)急測繪數(shù)據(jù)的自動檢索發(fā)現(xiàn)。
自然災(zāi)害發(fā)生地的地理環(huán)境、人口分布、應(yīng)急資源分布等空間信息,靜態(tài)文本難以快速融合這些空間信息,不能為應(yīng)急決策提供直觀的依據(jù)[6]。本體作為實現(xiàn)語義篩選發(fā)現(xiàn)的一種重要方法,為災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)間的語義關(guān)系表達(dá)與數(shù)據(jù)自動檢索集成提供了一種有效可行的辦法。為此,本文構(gòu)建了災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)的語義關(guān)聯(lián)性,從災(zāi)害事件類型的角度出發(fā),描述災(zāi)害事件、應(yīng)急測繪數(shù)據(jù)與事件數(shù)據(jù)時效性的語義映射關(guān)系。該語義映射關(guān)系可以快速準(zhǔn)確地查找應(yīng)急減災(zāi)所需的數(shù)據(jù)集,快速提升應(yīng)急測繪數(shù)據(jù)集成效率。
1.1.1 災(zāi)害事件語義描述
為了降低事件本體模型的復(fù)雜性,本文主要研究災(zāi)害事件向應(yīng)急測繪數(shù)據(jù)的篩選,而降低對災(zāi)害事件管理中減緩、準(zhǔn)備、響應(yīng)和恢復(fù)4個階段發(fā)展演化的復(fù)雜性研究,更多是強(qiáng)調(diào)災(zāi)害事件發(fā)生時應(yīng)急測繪數(shù)據(jù)的快速集成響應(yīng)。本文通過描述災(zāi)害事件領(lǐng)域中概念、屬性和關(guān)系之間的關(guān)系,建立災(zāi)害事件本體模型,實現(xiàn)災(zāi)害事件統(tǒng)一語義描述,形成災(zāi)害事件語義層次的形式化表達(dá)。
災(zāi)害事件本體模型采用四元組的形式進(jìn)行表達(dá),事件本體的四元組表達(dá)為:
Oe=〈Ei,Et|Re,Rd〉
(1)
1)災(zāi)害事件基礎(chǔ)信息(Event information, Ei):描述災(zāi)害事件的基本特征,包括事件位置、事件等級、事件內(nèi)容、事件ID等,是對災(zāi)害事件的一個總體概述,更好、更充分地反映所響應(yīng)災(zāi)害事件的具體信息。
2)事件類型(Event type, Et):屬于災(zāi)害事件的具體事件類型。為了保證災(zāi)害事件概念分類的語義一致性與分類的標(biāo)準(zhǔn)性,概念分類需要依照國家具體的災(zāi)害事件信息分類標(biāo)準(zhǔn)來實施。事件類型是事件本體的核心要素,反映了具體事件發(fā)生的災(zāi)害類型與所需的相應(yīng)應(yīng)急測繪數(shù)據(jù)信息,體現(xiàn)了災(zāi)害事件本體與應(yīng)急測繪數(shù)據(jù)本體之間的相互關(guān)聯(lián)關(guān)系。
3)災(zāi)害事件關(guān)系(Relationship event, Re):在災(zāi)害事件語義描述中,屬于災(zāi)害事件的父子、同類事件的一種關(guān)聯(lián)關(guān)系,存在著一對一、一對多和多對多的關(guān)系,描述與災(zāi)害事件之間的包含與被包含關(guān)系,是災(zāi)害事件向其關(guān)聯(lián)事件應(yīng)急測繪數(shù)據(jù)篩選發(fā)現(xiàn)的具體體現(xiàn)。
4)應(yīng)急測繪數(shù)據(jù)(Relationship data, Rd):在災(zāi)害事件語義描述中,指災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)的關(guān)聯(lián)關(guān)系。本文通過語義約束的多級映射關(guān)系,描述它們之間的關(guān)聯(lián)關(guān)系。事件與數(shù)據(jù)的約束分為事件類型約束、數(shù)據(jù)屬性特征約束和時效性約束。
1.1.2 應(yīng)急測繪數(shù)據(jù)語義描述
在響應(yīng)自然災(zāi)害事件進(jìn)行應(yīng)急測繪數(shù)據(jù)集成中,應(yīng)急測繪數(shù)據(jù)本體模型是關(guān)鍵。它在應(yīng)急測繪數(shù)據(jù)之間建立關(guān)聯(lián)關(guān)系,并與災(zāi)害事件建立語義映射關(guān)系,從而為基于災(zāi)害事件的數(shù)據(jù)快速檢索集成提供理論依據(jù),是災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)統(tǒng)一形式化表達(dá)的重要組成部分。應(yīng)急測繪數(shù)據(jù)本體模型采用五元組的形式進(jìn)行表達(dá):
Od=〈Dt,Df,Dp|Re,Rd〉
(2)
1)應(yīng)急測繪數(shù)據(jù)類型(Date type, Dt):為快速準(zhǔn)確定位至目標(biāo)數(shù)據(jù)群體中,設(shè)計數(shù)據(jù)類型表達(dá)元素。每個數(shù)據(jù)通過一個或多個類型標(biāo)注,為計算機(jī)提供快速篩選相應(yīng)目標(biāo)數(shù)據(jù)集的途徑。數(shù)據(jù)類型內(nèi)容可通過獲取途徑(如衛(wèi)星、航空攝影)和基礎(chǔ)地理數(shù)據(jù)(如道路、河流)等方式定義。
2)應(yīng)急測繪數(shù)據(jù)特征(Date feature, Df):從應(yīng)急測繪數(shù)據(jù)的空間、屬性、時間3個方面進(jìn)行統(tǒng)一描述管理,特征內(nèi)容包括坐標(biāo)系統(tǒng)、數(shù)據(jù)格式、數(shù)據(jù)來源、獲取時間等。
3)時效性(Date phase, Dp):針對時效性語義約束條件,設(shè)計時效性元素表達(dá)。其屬于應(yīng)急測繪數(shù)據(jù)特征要素的組成部分,包括實時傳輸?shù)臑?zāi)害發(fā)生實時數(shù)據(jù)、災(zāi)前建庫的歷史數(shù)據(jù)和跨部門調(diào)入的其他數(shù)據(jù),體現(xiàn)了災(zāi)害事件應(yīng)急響應(yīng)的數(shù)據(jù)時效性。
4)災(zāi)害事件關(guān)系(Relationship event, Re):在應(yīng)急測繪數(shù)據(jù)語義描述中,描述應(yīng)急測繪數(shù)據(jù)與災(zāi)害事件的關(guān)聯(lián)關(guān)系,是對應(yīng)急測繪數(shù)據(jù)特征滿足災(zāi)害事件程度的形式化表達(dá)。根據(jù)應(yīng)急測繪數(shù)據(jù)與災(zāi)害事件的關(guān)系距離,為災(zāi)害事件的應(yīng)急測繪數(shù)據(jù)定位并逐步自動檢索提供篩選依據(jù)。
5)應(yīng)急測繪數(shù)據(jù)(Relationship date, Rd):在應(yīng)急測繪數(shù)據(jù)語義描述中,屬于對應(yīng)急測繪數(shù)據(jù)之間空間結(jié)構(gòu)特性的關(guān)聯(lián)描述,可以實現(xiàn)同源異構(gòu)、異構(gòu)同源等應(yīng)急測繪數(shù)據(jù)特性的檢索篩選,為不同結(jié)構(gòu)的數(shù)據(jù)集成提供檢索判斷依據(jù),是應(yīng)急測繪數(shù)據(jù)本體模型表達(dá)的重要組成元素。
目前,常見的語義關(guān)聯(lián)構(gòu)建方法主要有顧捷曄等[7]研究的語義聚類方法、蘇依拉等[8]研究的圖論模型方法、朱慶等[9]研究的本體模型方法,本文采用目前較為成熟的本體模型方法,構(gòu)建災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)的語義關(guān)聯(lián)關(guān)系。本體模型可以很好地存儲、處理以及表示各種具有語義信息的災(zāi)害應(yīng)急知識資源。目前,本體模型語義關(guān)聯(lián)構(gòu)建方法主要有骨架法、Tove法、七步法、數(shù)據(jù)挖掘和領(lǐng)域?qū)<蚁嘟Y(jié)合的半自動構(gòu)建方法、KACTUS法等[10],綜合這幾種方法,本文設(shè)計“五步法”,構(gòu)建災(zāi)害事件和應(yīng)急測繪數(shù)據(jù)本體模型,如圖1所示。
圖1 災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)本體構(gòu)建“五步法”
具體描述為:參照國家相關(guān)應(yīng)急信息分類標(biāo)準(zhǔn),分析災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)相關(guān)分類、屬性特征等,為構(gòu)建本體建立數(shù)據(jù)統(tǒng)一參考;分析災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)分類標(biāo)準(zhǔn)和語義關(guān)系,建立事件與數(shù)據(jù)語義的統(tǒng)一描述,滿足該領(lǐng)域的形式化表達(dá);由于災(zāi)害應(yīng)急領(lǐng)域中通常有許多概念,每個手動編輯效率不高,因此,通過使用統(tǒng)一描述語言UML設(shè)計相應(yīng)的概念模型形成UML文件,并傳輸U(kuò)ML文件至OWL中,將它們在數(shù)據(jù)庫中的傳輸記錄映射至OWL建立本體;對于一些特別概念、類型可以直接采用本體描述語OWL構(gòu)建本體;創(chuàng)建本體實例,并存入實例庫中。
在災(zāi)害事件本體與應(yīng)急測繪數(shù)據(jù)本體建立后,需要利用映射的方式將災(zāi)害事件本體與應(yīng)急測繪數(shù)據(jù)本體聯(lián)系起來[11-12]。本文采用相似度的映射方式,在針對各層約束的特征信息提取后,采用概念相似度,建立災(zāi)害事件本體與應(yīng)急測繪數(shù)據(jù)本體之間關(guān)系的度量,實現(xiàn)災(zāi)害事件語義與應(yīng)急測繪數(shù)據(jù)語義的匹配。
為建立災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)間的關(guān)聯(lián)性,從災(zāi)害事件語義約束、應(yīng)急測繪數(shù)據(jù)語義約束和時效性語義約束3個層級約束出發(fā),設(shè)計災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)的多級語義約束關(guān)系,響應(yīng)災(zāi)害事件發(fā)生時需要的應(yīng)急測繪數(shù)據(jù)自動集成,如圖2所示。
圖2 災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)多級語義約束
2.1.1 災(zāi)害事件語義約束
災(zāi)害發(fā)生時,根據(jù)災(zāi)害事件中的災(zāi)害位置、災(zāi)害范圍等災(zāi)害事件語義對應(yīng)急測繪數(shù)據(jù)空間特征進(jìn)行約束,定義災(zāi)害事件對應(yīng)急測繪數(shù)據(jù)的相關(guān)需求。該層直觀表達(dá)災(zāi)害事件發(fā)生時,以用戶需求為驅(qū)動的災(zāi)害類型等災(zāi)害語義信息對具體數(shù)據(jù)的需求。
2.1.2 應(yīng)急測繪數(shù)據(jù)語義約束
該層是針對應(yīng)急測繪數(shù)據(jù)的時間分辨率、獲取時間等時間特征和數(shù)據(jù)類型、數(shù)據(jù)格式、坐標(biāo)系統(tǒng)等屬性特征形成的約束層,可以從全局?jǐn)?shù)據(jù)關(guān)系出發(fā)完成對滿足災(zāi)害事件應(yīng)急測繪數(shù)據(jù)集成的大部分篩選,屬于多級映射關(guān)系的核心約束層。當(dāng)用戶以某類災(zāi)害事件為需求集成相應(yīng)的應(yīng)急測繪數(shù)據(jù)集時,通過災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)間的語義關(guān)聯(lián),可完成由災(zāi)害事件到應(yīng)急測繪數(shù)據(jù)的語義映射,并根據(jù)具體的數(shù)據(jù)語義約束,實現(xiàn)應(yīng)急測繪數(shù)據(jù)的篩選。
2.1.3 時效性語義約束
針對應(yīng)急響應(yīng)過程中應(yīng)急測繪數(shù)據(jù)具有時效性的需要,本文根據(jù)不同的應(yīng)急測繪數(shù)據(jù)來源方式,建立具有不同時效狀態(tài)信息的時效性約束層。根據(jù)災(zāi)害事件應(yīng)急響應(yīng)具體需求,通過該層約束條件,對實時傳輸、災(zāi)前建庫和跨部門調(diào)入3種不同應(yīng)急測繪數(shù)據(jù)時效性的約束關(guān)系,采用一種或多種語義約束集成應(yīng)急測繪數(shù)據(jù)。
本文設(shè)計多級語義約束框架,并基于該框架實現(xiàn)應(yīng)急測繪數(shù)據(jù)的篩選集成,如圖3所示。
圖3 多級語義約束框架
首先,根據(jù)國家應(yīng)急相關(guān)規(guī)范及OWL語法規(guī)范,采用“五步法”實現(xiàn)應(yīng)急測繪數(shù)據(jù)元數(shù)據(jù)信息語義映射。然后,設(shè)計災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)本體模型,建立災(zāi)害事件語義描述和應(yīng)急測繪數(shù)據(jù)語義描述的統(tǒng)一表達(dá)。最后,針對災(zāi)害事件應(yīng)急測繪數(shù)據(jù)集成特點,設(shè)計災(zāi)害事件語義約束、應(yīng)急測繪數(shù)據(jù)語義約束和時效性語義約束的多級語義約束映射表達(dá),通過提取多級語義約束信息,集成災(zāi)害事件應(yīng)急測繪數(shù)據(jù),并將結(jié)果顯示于用戶界面。多級語義約束數(shù)據(jù)集成框架實現(xiàn)對災(zāi)害事件應(yīng)急測繪數(shù)據(jù)的快速檢索、發(fā)現(xiàn)、篩選與集成,為應(yīng)急處置提供快速有效的數(shù)據(jù)支撐。
依據(jù)《國家應(yīng)急平臺體系信息資源分類與編碼規(guī)范》建立概念層次分類體系,包括地面沉降事件、山體崩塌事件等[13]。然后參照《突發(fā)公共事件應(yīng)對法》《國家自然災(zāi)害救助應(yīng)急預(yù)案》和張春菊的屬性分類標(biāo)準(zhǔn)[14-15],設(shè)計屬性概念分類體系,包括人員受傷、經(jīng)濟(jì)損失等共有屬性及沉降點、曲率等特有屬性。采用“五步法”構(gòu)建地質(zhì)災(zāi)害事件本體模型,如圖4所示。
圖4 地質(zhì)災(zāi)害事件本體
在實踐中,3個層級的約束條件如下。
1)災(zāi)害事件語義約束:包括地面沉降事件、地面塌陷事件等事件類型;一般(Ⅳ級)、較大(Ⅲ級)等事件等級;災(zāi)害發(fā)生原因、人員受傷情況等事件屬性;發(fā)生地質(zhì)災(zāi)害事件的具體災(zāi)害位置等(表1)。
表1 災(zāi)害事件語義約束
2)應(yīng)急測繪數(shù)據(jù)語義約束:該層約束條件包括地形數(shù)據(jù)、矢量數(shù)據(jù)等數(shù)據(jù)類型;Terrain、Shape等數(shù)據(jù)格式;CGCS2000、WGS84等坐標(biāo)系統(tǒng)等應(yīng)急測繪數(shù)據(jù)語義約束(表2)。
表2 應(yīng)急測繪數(shù)據(jù)語義約束
3)時效性語義約束:時效性是數(shù)據(jù)屬性的進(jìn)一步約束,從數(shù)據(jù)傳輸方式方面定量表達(dá)數(shù)據(jù)需求滿足程度,包括實時傳輸?shù)臑?zāi)害發(fā)生實時數(shù)據(jù)、災(zāi)前建庫的歷史數(shù)據(jù)和跨部門調(diào)入的其他數(shù)據(jù),3個時效特征可以單個或同時約束應(yīng)急測繪數(shù)據(jù),實現(xiàn)時效性語義約束下的地質(zhì)災(zāi)害事件應(yīng)急測繪數(shù)據(jù)集成(表3)。
表3 時效性語義約束
通過本文方法與數(shù)據(jù)倉庫檢索集成的傳統(tǒng)方法,實現(xiàn)地質(zhì)災(zāi)害應(yīng)急測繪數(shù)據(jù)篩選集成,如表4和圖5所示。
表4 地質(zhì)災(zāi)害應(yīng)急測繪數(shù)據(jù)集成統(tǒng)計信息
圖5 地質(zhì)災(zāi)害應(yīng)急測繪元數(shù)據(jù)集成結(jié)果
本文探討了災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)語義互操作的可能性,并有效地提高了應(yīng)急測繪數(shù)據(jù)的集成效率。
1)本文方法通過構(gòu)建災(zāi)害事件與應(yīng)急測繪數(shù)據(jù)語義關(guān)聯(lián)性,提出以用戶需求為驅(qū)動,顧及災(zāi)害事件語義約束、應(yīng)急測繪數(shù)據(jù)語義約束、時效性語義約束3個層級約束條件的數(shù)據(jù)自動篩選發(fā)現(xiàn),實現(xiàn)自然災(zāi)害應(yīng)急響應(yīng)背景下的應(yīng)急測繪數(shù)據(jù)快速集成。實踐表明,較傳統(tǒng)數(shù)據(jù)集成方法,本文方法所集成的數(shù)據(jù)能有效減少數(shù)據(jù)冗余、提高數(shù)據(jù)集成效率。
2)本文方法可以有效地改善傳統(tǒng)信息檢索的局限性,快速準(zhǔn)確地篩選集成應(yīng)急測繪數(shù)據(jù),為災(zāi)情決策、應(yīng)急救援、災(zāi)情評估等自然災(zāi)害應(yīng)急事件快速響應(yīng)提供支撐,有較好的普適性。
3)在多級語義約束應(yīng)急測繪數(shù)據(jù)集成研究中,還要考慮本體模型評價、時效性評估等問題,需要進(jìn)一步研究。