何萬(wàn)雙+尚功偉
摘要:水文地質(zhì)數(shù)據(jù)復(fù)雜多樣,非結(jié)構(gòu)化數(shù)據(jù)彼此孤立,不能共享,建立一個(gè)水文地質(zhì)非結(jié)構(gòu)化數(shù)據(jù)模型勢(shì)在必行,為資源共享,提高工作效率提供最大限度的可能性。
關(guān)鍵詞:水文地質(zhì);非結(jié)構(gòu)化數(shù)據(jù);信息
一、非結(jié)構(gòu)化數(shù)據(jù)的定義
相對(duì)于結(jié)構(gòu)化數(shù)據(jù)(即行數(shù)據(jù),存儲(chǔ)在現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)即稱為非結(jié)構(gòu)化數(shù)據(jù),包括數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)式所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等等。據(jù)統(tǒng)計(jì),非結(jié)構(gòu)化數(shù)據(jù)占到現(xiàn)有數(shù)據(jù)總量的80%以上。
二、非結(jié)構(gòu)化水文地質(zhì)數(shù)據(jù)的特點(diǎn)
1、專業(yè)性強(qiáng)。水文地質(zhì)數(shù)據(jù)涉及到的大部分是和水文地質(zhì)相關(guān)的信息,如水文地質(zhì)圖、物探、測(cè)井曲線、地質(zhì)構(gòu)造三維結(jié)構(gòu)圖、各種水文視頻資料等內(nèi)容。對(duì)于這些數(shù)據(jù)的分析和解釋,不同的經(jīng)驗(yàn)背景、不同分析方法得出的分析結(jié)論可能依然會(huì)有差異。
2、媒體形式多。水文地質(zhì)資料包括數(shù)字化的文本、實(shí)物、照片、電子出版物、數(shù)字及三維地質(zhì)圖、地質(zhì)構(gòu)造圖等各種各樣的水文地質(zhì)相關(guān)資源。其存儲(chǔ)媒介已不限于印刷體,它包含文本、聲音、圖像、視頻等多種媒體形式,類型復(fù)雜。
3、存儲(chǔ)容量大。水文地質(zhì)相關(guān)的各類資料非常多,要實(shí)現(xiàn)由計(jì)算機(jī)來(lái)進(jìn)行處理分析,則需要對(duì)大量資料進(jìn)行信息抽取和數(shù)字化,隨著資料的不斷完善,資料的積累導(dǎo)致的數(shù)據(jù)會(huì)成倍增長(zhǎng)并將一直持續(xù)下去。
三、水文地質(zhì)數(shù)據(jù)信息的管理及使用現(xiàn)狀
1、管理現(xiàn)狀。目前,在國(guó)內(nèi)各水文地質(zhì)、勘察設(shè)計(jì)等單位之間沒有形成有效的資源共享,各單位的詳細(xì)信息資源基本都相互獨(dú)立,產(chǎn)生了信息孤島。同時(shí),在單位內(nèi)部,除部分結(jié)構(gòu)化的信息資料(如地質(zhì)結(jié)構(gòu)數(shù)據(jù)等)由計(jì)算機(jī)進(jìn)行管理,大部分的應(yīng)用系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù),如報(bào)告、報(bào)表、圖片等都是以二進(jìn)制的格式保存在結(jié)構(gòu)化數(shù)據(jù)庫(kù)的BLOB字段中。保存在BLOB字段中的好處是調(diào)用文件的速度很快,維護(hù)和管理簡(jiǎn)單;缺點(diǎn)一是由于非結(jié)構(gòu)化數(shù)據(jù)文件大,在數(shù)據(jù)量不斷增大的情況下,會(huì)使得結(jié)構(gòu)化數(shù)據(jù)庫(kù)迅速膨脹,導(dǎo)致數(shù)據(jù)庫(kù)性能下降,進(jìn)而影響整個(gè)應(yīng)用系統(tǒng)的性能;二是由于各個(gè)應(yīng)用系統(tǒng)相對(duì)封閉和獨(dú)立,其他應(yīng)用無(wú)法共享相關(guān)文檔資料,信息之間的關(guān)聯(lián)程度低,不能有效發(fā)揮信息之間的關(guān)聯(lián)解釋作用,極大的降低了數(shù)據(jù)的價(jià)值。
2、使用現(xiàn)狀。由于上述的管理現(xiàn)狀,水文地質(zhì)資料在使用上存在影響資料價(jià)值有效發(fā)揮及工作效率低的問(wèn)題。例如,在本單位所掌握的資料區(qū)域內(nèi)執(zhí)行任務(wù)時(shí),由于信息資料管理的自動(dòng)化程度低,資料之間的關(guān)聯(lián)關(guān)系沒有有效建立,查閱資料時(shí)就需要翻閱不同存儲(chǔ)位置、不同存儲(chǔ)介質(zhì)的大量信息,以便為制定決策提供依據(jù),極大的降低工作效率。如果到本單位所掌握的資料區(qū)域外執(zhí)行任務(wù),所能得到的參考資料非常少,通常需要提前進(jìn)行現(xiàn)場(chǎng)勘查或到當(dāng)?shù)赜嘘P(guān)單位索取相關(guān)資料。
四、水文地質(zhì)數(shù)據(jù)的應(yīng)用分析
第一類決策指揮層:主要關(guān)心的是水源分布及施工進(jìn)度情況,從宏觀上掌握控制水環(huán)境,以便能夠及時(shí)進(jìn)行任務(wù)分派、調(diào)整、做出指揮決策。
第二類工程地質(zhì)人員:主要關(guān)心如何利用現(xiàn)有水文地質(zhì)資料及以往的知識(shí)和經(jīng)驗(yàn)分析某一區(qū)域的水文地質(zhì)情況,尋找水源位置,評(píng)估施工效率和施工成本,報(bào)表打印,為施工、鉆井設(shè)計(jì)以及水源偵查過(guò)程中所遇到的一些問(wèn)題提供相關(guān)資料和解決辦法。
第三類施工技術(shù)人員:包括鉆井指揮人員、機(jī)臺(tái)管理人員、設(shè)備操作人員等,主要關(guān)心施工區(qū)域的地質(zhì)構(gòu)造,應(yīng)采用的施工工藝,發(fā)生故障時(shí)應(yīng)采取的處理辦法。
五、水文地質(zhì)信息知識(shí)抽取模型的建立
1、對(duì)水文地質(zhì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行專業(yè)細(xì)分,使其作為一個(gè)獨(dú)立的專業(yè)領(lǐng)域來(lái)進(jìn)行專門處理,從而極大縮小數(shù)據(jù)的管理范圍,提供管理的專業(yè)化水平。因此,集成行業(yè)的相關(guān)數(shù)據(jù),或者說(shuō)為了搜索和分析而對(duì)這些數(shù)據(jù)進(jìn)行專業(yè)細(xì)分,其實(shí)現(xiàn)的可能性就非常大。
2、在非結(jié)構(gòu)化水文地質(zhì)數(shù)據(jù)采集的方式上采用元數(shù)據(jù)管理和系統(tǒng)自動(dòng)學(xué)習(xí)修正的技術(shù),從而提高數(shù)據(jù)質(zhì)量。對(duì)于非結(jié)構(gòu)化的水文地質(zhì)數(shù)據(jù),大部分都無(wú)法直接由計(jì)算機(jī)來(lái)進(jìn)行統(tǒng)一管理和使用,必須對(duì)其本質(zhì)信息進(jìn)行抽取和總結(jié),從而提取出便于計(jì)算機(jī)管理的有價(jià)值的信息。抽取的這些信息便是非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)描述。這些元數(shù)據(jù)通常無(wú)法由計(jì)算機(jī)直接生成,需要由專業(yè)人員對(duì)其進(jìn)行解釋分析生成。
3、在數(shù)據(jù)使用上采用全文檢索技術(shù)和信息自動(dòng)關(guān)聯(lián)的方法。根據(jù)調(diào)查,地質(zhì)工作者每天30%的工作時(shí)間,用于收集信息:72%的領(lǐng)導(dǎo)者認(rèn)為,知識(shí)沒有在他們的組織得到重復(fù)利用。從這些異構(gòu)、繁雜、豐富的內(nèi)容中,準(zhǔn)確、快速地找到自己所需要的信息,減少信息搜尋時(shí)間,能夠創(chuàng)造巨大的價(jià)值。當(dāng)非結(jié)構(gòu)化的水文地質(zhì)元數(shù)據(jù)庫(kù)建立好以后,信息查找就變的和處理結(jié)構(gòu)化數(shù)據(jù)一樣簡(jiǎn)單了。
六、非結(jié)構(gòu)數(shù)據(jù)模型存在的問(wèn)題
1、各水文地質(zhì)單位之間的數(shù)據(jù)共享問(wèn)題。由于這些水文地質(zhì)數(shù)據(jù)可能涉及到國(guó)家利益和各單位的自身利益,因此有些數(shù)據(jù)通常屬于保密范疇,通常不便于聯(lián)網(wǎng)使用。因此,這些詳細(xì)的水文地質(zhì)資料需要由國(guó)家相關(guān)部門來(lái)統(tǒng)一進(jìn)行整合,統(tǒng)一管理使用,及時(shí)進(jìn)行數(shù)據(jù)更新,從而方便相關(guān)部門執(zhí)行任務(wù)時(shí)進(jìn)行查找使用。
2、結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間的互通問(wèn)題。以上模型的建立是基于非結(jié)構(gòu)化的水文地質(zhì)數(shù)據(jù)而得出的,對(duì)于結(jié)構(gòu)化的水文地質(zhì)數(shù)據(jù)依然保存在結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中,二者之間如果要建立關(guān)聯(lián),則需要一個(gè)中間的特殊紐帶來(lái)完成。紐帶的選擇非常重要,我們將地理坐標(biāo)和區(qū)域名稱作為這一關(guān)鍵性的關(guān)聯(lián)紐帶,在結(jié)構(gòu)化和非結(jié)構(gòu)化水文地質(zhì)數(shù)據(jù)之間建立聯(lián)系。
3、專業(yè)化解釋的問(wèn)題。對(duì)于非結(jié)構(gòu)化的水文地質(zhì)數(shù)據(jù),由于其專業(yè)化程度較高,很多數(shù)據(jù)都需要進(jìn)行分析解釋,因此,元數(shù)據(jù)構(gòu)建的工作量非常大。