盧珊
DOI:10.16661/j.cnki.1672-3791.2109-5042-3177
摘? 要:知識服務(wù)已廣泛應(yīng)用于圖書情報領(lǐng)域。大數(shù)據(jù)時代,單一、保守的地質(zhì)資料信息服務(wù)模式已經(jīng)難以滿足用戶的需求,面向知識服務(wù)實現(xiàn)地質(zhì)資料的管理勢在必行。知識服務(wù)的特點是基于知識內(nèi)容,以用戶需求為中心,融入用戶決策,提供解決方案。地質(zhì)資料與圖書情報具有共性,蘊含著海量的知識信息,是科技情報工作的基礎(chǔ)。該文在分析地質(zhì)資料現(xiàn)狀的基礎(chǔ)上,提出基于本體構(gòu)建地質(zhì)數(shù)據(jù)組織模型、基于關(guān)聯(lián)數(shù)據(jù)實現(xiàn)地質(zhì)資料機構(gòu)知識庫的語義擴(kuò)展的思路,以及面向地質(zhì)大數(shù)據(jù)的語義檢索機制,促進(jìn)地質(zhì)資料管理向知識服務(wù)轉(zhuǎn)型。
關(guān)鍵詞:地質(zhì)資料? ?知識庫? ?知識檢索? ?知識地圖
中圖分類號:P621? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A文章編號:1672-3791(2021)08(a)-0028-03
Discussion on the Design of Geological Data Knowledge Base and Knowledge Retrieval Model
LU Shan
(Hainan Marine Geological Survey, Haikou, Hainan Province, 570206 China)
Abstract: Knowledge service has been widely used in the field of library and information. In the era of big data, the single and conservative geological data information service mode has been difficult to meet the needs of users. It is imperative to realize the management of geological data for knowledge service. The characteristics of knowledge service are based on knowledge content, centered on user needs, integrated into user decision-making, providing solutions. Geological data and library information have the same characteristics, which contain a large amount of knowledge information, and are the basis of scientific and technological information work. Based on the analysis of the current situation of geological data, this paper puts forward the idea of building geological data organization model based on ontology, realizing semantic expansion of geological data institutional repository based on related data, and semantic retrieval mechanism for geological big data, so as to promote the transformation of geological data management to knowledge service.
Key Words: Geological data; Knowledge base; Knowledge retrieval; Knowledge map
地質(zhì)資料的本質(zhì)屬性是提供社會服務(wù),為國民經(jīng)濟(jì)發(fā)展提供地質(zhì)信息。隨著信息時代和知識經(jīng)濟(jì)時代的到來,傳統(tǒng)的地質(zhì)數(shù)據(jù)服務(wù)模式難以滿足社會發(fā)展的需要,地質(zhì)數(shù)據(jù)向知識服務(wù)的轉(zhuǎn)化成為當(dāng)今研究的熱點[1]。知識服務(wù)的概念起源于圖書情報領(lǐng)域,是以信息資源為基礎(chǔ),以知識內(nèi)容為中心,以用戶需求為驅(qū)動,融入用戶決策過程,幫助用戶查找或形成解決方案的一種增值服務(wù)。
知識服務(wù)在圖書檔案領(lǐng)域產(chǎn)生了一系列的研究成果,地質(zhì)數(shù)據(jù)具有檔案和圖書的雙重屬性,但又有所不同。地質(zhì)數(shù)據(jù)是一種專業(yè)的科技檔案,包含海量的知識信息,便于對地質(zhì)數(shù)據(jù)進(jìn)行深度分析、提取和聚合知識,提供知識服務(wù)。
1? 地質(zhì)資料知識服務(wù)
1.1 知識服務(wù)
知識服務(wù)基于知識和搜索、組織、分析和重構(gòu)信息和知識的能力,根據(jù)用戶的問題,將知識融入到用戶的問題解決過程中,提供一種能夠有效支持知識的應(yīng)用和知識的服務(wù)。知識服務(wù)是一種注重用戶在知識生產(chǎn)和提供過程中的感知和體驗的信息服務(wù),是一種與現(xiàn)有信息服務(wù)具有不同特征的信息服務(wù)[2]。
地質(zhì)數(shù)據(jù)知識服務(wù)通過基于地質(zhì)數(shù)據(jù)信息資源中包含的地質(zhì)知識進(jìn)行索引、整理、聚合、重組,達(dá)到對地質(zhì)數(shù)據(jù)知識進(jìn)行檢索、關(guān)聯(lián)和聚合的目的,提高地質(zhì)數(shù)據(jù)服務(wù)質(zhì)量。
1.2 必要性
首先,傳統(tǒng)的地質(zhì)數(shù)據(jù)服務(wù)方式單一且保守,主要供用戶從圖書館借閱。搜索時,最小單位是“碎片”,只能在文件級別到達(dá)。雖然有些文件可以在線查看和下載,還有少量定制化的服務(wù)方式,但難以滿足用戶的需求。其次,用戶很難從海量的地質(zhì)信息資源中找到自己需要的信息。隨著大數(shù)據(jù)時代的到來,用戶需要搜索包含在文件層面的知識,我們希望能夠根據(jù)用戶的搜索行為將相關(guān)知識推送給用戶[3]。
知識服務(wù)是信息提供者提供的高級服務(wù)。傳統(tǒng)知識服務(wù)基于人類智能服務(wù),需要通過人腦進(jìn)行分析。在大數(shù)據(jù)時代,為了深入利用分散在海量地質(zhì)數(shù)據(jù)中的地質(zhì)知識,實現(xiàn)知識化的地質(zhì)數(shù)據(jù)管理,需要利用知識組織工具對地質(zhì)知識進(jìn)行管理、重構(gòu)、組織。信息作為一種知識資源,可以提供知識服務(wù),實現(xiàn)粒狀智能地質(zhì)數(shù)據(jù)的知識關(guān)聯(lián)、聚合和整合。
2? 地質(zhì)資料知識組織
地質(zhì)資料的知識組織旨在實現(xiàn)知識單元的細(xì)粒度化—機器可計算、知識表示的語義化—機器可理解、知識組織的關(guān)聯(lián)化—機器可推理、知識增長的自動化—機器可自學(xué)習(xí)[4]。
地質(zhì)數(shù)據(jù)是地質(zhì)知識模型的載體,描述地質(zhì)數(shù)據(jù)就是對地質(zhì)對象本身、地質(zhì)概念及其之間的關(guān)系、地質(zhì)數(shù)據(jù)自身屬性的描述。地質(zhì)數(shù)據(jù)知識模型如圖1所示,將地質(zhì)對象及其相互間的關(guān)系進(jìn)行概況與抽象,形成地質(zhì)概念與關(guān)系;屬性信息是對地質(zhì)事物、現(xiàn)象、過程的詳細(xì)描述,定性、定量的表達(dá)地質(zhì)概念與關(guān)系。
2.1 知識單元細(xì)粒度化
地質(zhì)資料數(shù)據(jù)類型復(fù)雜、數(shù)量巨大,分散存儲在各級保管單位,且缺乏對地質(zhì)資料成果的深度揭示、關(guān)聯(lián)關(guān)系的深度挖掘,“信息孤島”現(xiàn)象普遍存在,嚴(yán)重阻礙用戶對多來源和細(xì)粒度地質(zhì)知識的有效獲取與利用。因此,有必要對來源分散的地質(zhì)資料信息片段進(jìn)行深入揭示和關(guān)聯(lián),實現(xiàn)地質(zhì)資料信息資源的細(xì)粒度聚合,從而有效滿足用戶對地質(zhì)資料的復(fù)雜信息需求,提升地質(zhì)資料知識服務(wù)能力[5]。
用戶雖然可以借助文件級資料的元數(shù)據(jù)查詢地質(zhì)資料的名稱、關(guān)鍵詞、編著者及形成單位等基本信息,但是大數(shù)據(jù)時代需要揭示的是資料內(nèi)部的地質(zhì)知識。因此,描述地質(zhì)資料的知識單元應(yīng)更細(xì)致地闡明地質(zhì)資料的內(nèi)容特征、相互之間的關(guān)系等,便于機器進(jìn)行聚類、統(tǒng)計、分析、推理等計算,幫助用戶便捷、高效地獲取和利用所需信息,促進(jìn)智能檢索、知識發(fā)現(xiàn)、自動綜述等一系列應(yīng)用的有效實現(xiàn)。
2.2 知識地圖
知識地圖能有效地匯集、整合、關(guān)聯(lián)分散的地質(zhì)信息資源,使地質(zhì)知識有序化,以可視化方式展示地質(zhì)知識的分布及地質(zhì)知識間的分布,具體見圖1。用戶可以按圖索驥得到獲取知識的途徑,縮短知識獲取時間。知識地圖不僅能提供顯性知識,也能展示隱性知識。通過本體的語義描述能力可以建立地質(zhì)知識單元間的語義關(guān)聯(lián),從而形成地質(zhì)資料知識地圖網(wǎng)絡(luò)[6]。
2.3 知識庫
為實現(xiàn)地質(zhì)資料檔案的知識組織,需要將雜亂的信息蛻變、升華為有序、關(guān)聯(lián)、可用的知識,達(dá)到信息知識化、知識有序化、知識服務(wù)化。以地質(zhì)專業(yè)領(lǐng)域的專利、標(biāo)準(zhǔn)、論文、專著、地質(zhì)調(diào)查成果專項數(shù)據(jù)為信息基礎(chǔ),以推動地質(zhì)調(diào)查成果的分析與評價、地質(zhì)調(diào)查工作的部署與規(guī)劃、地質(zhì)領(lǐng)域的知識服務(wù)等為目標(biāo),整合異構(gòu)數(shù)據(jù),對元數(shù)據(jù)歸一、加工、實體抽取,設(shè)計地質(zhì)學(xué)知識元模型,解析知識元,建設(shè)集地學(xué)知識資源匯集、知識加工、知識服務(wù)為一體的地質(zhì)知識庫體系。地質(zhì)領(lǐng)域知識庫能提升地質(zhì)調(diào)查工作與地質(zhì)科研工作的信息化水平、促進(jìn)地質(zhì)調(diào)查成果轉(zhuǎn)化與利用、推動地質(zhì)領(lǐng)域知識的社會化服務(wù)。
3? 知識檢索模型
基于傳統(tǒng)引擎檢索地質(zhì)資料僅是淺層檢索,依據(jù)字符串的匹配,致力于從海量、異構(gòu)的地質(zhì)資料數(shù)據(jù)中過濾對用戶有用的信息,然后將過濾結(jié)果反饋給用戶,用戶無法獲取、解析所得結(jié)果中蘊含的內(nèi)在關(guān)聯(lián)關(guān)系,只能在結(jié)果中自己理解、篩選知識,無法獲得數(shù)據(jù)間的規(guī)律等深層次的語義知識。
知識檢索模型能夠透過用戶輸入的請求語句字面本身的含義,看到本質(zhì),以此搜索信息,讓用戶獲得意想不到的知識。目前國內(nèi)外在知識檢索方面主要取得了3個方面的成果:(1)語言模型的構(gòu)建及應(yīng)用;(2)信息檢索的擴(kuò)展;(3)圍繞信息檢索結(jié)果的聚類分析,特別是聚類算法的研究及改善、基于圖數(shù)據(jù)庫及知識圖譜的檢索及圍繞語義檢索展開的領(lǐng)域應(yīng)用及知識服務(wù)。地質(zhì)數(shù)據(jù)具有復(fù)雜性、特殊性,因此僅在地質(zhì)大數(shù)據(jù)存儲及一體化檢索、地質(zhì)數(shù)據(jù)知識圖譜構(gòu)建、地質(zhì)數(shù)據(jù)知識建模及地質(zhì)數(shù)據(jù)語義分析在云服務(wù)方面的應(yīng)用等方面展開了研究。
地質(zhì)資料包括案卷級資料、文件級資料。雖然文件級元數(shù)據(jù)已經(jīng)建立,但也只能反映一些基本信息,用戶無法得到文件級地質(zhì)資料內(nèi)部蘊含的信息。為了將地質(zhì)隱性知識顯性化,可以結(jié)合地質(zhì)敘詞表、地質(zhì)大詞典、地質(zhì)本體,構(gòu)建地質(zhì)數(shù)據(jù)語義知識圖譜,對地質(zhì)資料文檔的文本部分及表格部分分別處理:根據(jù)文本的標(biāo)題分清上下級嵌套關(guān)系,提取各個標(biāo)題下的內(nèi)容并進(jìn)行語義處理;對于表格,先識別表頭,然后對單元格內(nèi)容語義識別,結(jié)合地質(zhì)領(lǐng)域?qū)<抑R、知識庫模板、地質(zhì)數(shù)據(jù)語義模型獲得文本及表格的關(guān)鍵語句,采用基于地質(zhì)敘詞表擴(kuò)展的半自動化本體構(gòu)建方法構(gòu)建地質(zhì)知識圖譜。地質(zhì)知識圖譜是地質(zhì)結(jié)構(gòu)化的語義知識庫?;诘刭|(zhì)領(lǐng)域?qū)I(yè)文檔及網(wǎng)絡(luò)爬蟲技術(shù)獲取的互聯(lián)網(wǎng)上的地質(zhì)相關(guān)數(shù)據(jù)信息,采用Neo4j圖譜數(shù)據(jù)存儲框架存儲實體信息、語義關(guān)系、圖數(shù)據(jù)庫,完善地質(zhì)知識圖譜?;诘刭|(zhì)知識圖譜的語義檢索將用戶的查詢需求當(dāng)作實體,利用語義知識圖譜獲得候選的擴(kuò)展詞,經(jīng)知識抽取、融合后采用概念、實體的匹配度將數(shù)據(jù)轉(zhuǎn)變?yōu)榇韺嶓w的知識,返回給用戶,減少用戶的參與。
4? 結(jié)語
知識經(jīng)濟(jì)時代,運用知識組織、知識管理理念,創(chuàng)新發(fā)展知識服務(wù)型數(shù)字地質(zhì)資料檔案館,實現(xiàn)地質(zhì)資料由信息管理型向知識服務(wù)型的轉(zhuǎn)型是地質(zhì)資料的信息化方向。運用大數(shù)據(jù)、人工智能等技術(shù),數(shù)據(jù)化、結(jié)構(gòu)化、碎片化館藏地質(zhì)資料,加速地質(zhì)資料數(shù)據(jù)資源整合、服務(wù)進(jìn)程,提供智能化數(shù)據(jù)服務(wù),實現(xiàn)資源共享多元化是提升地質(zhì)資料社會化價值的必由之路。
參考文獻(xiàn)
[1] 吳軒.基于元數(shù)據(jù)模型的地質(zhì)資料編目與互聯(lián)互查平臺設(shè)計與實現(xiàn)[D].北京:中國地質(zhì)大學(xué),2018.
[2] 李瑩瑩,范董偉,昌儀.基于GIS的實物地質(zhì)資料信息化管理平臺的設(shè)計與實現(xiàn)[J].地礦測繪,2020,36(2):16-18,48.
[3] 張明霞.地質(zhì)資料匯交的流程化管理與質(zhì)量控制[J].安徽地質(zhì),2020,30(1):71-73.
[4] 張惠.地質(zhì)資料目錄一鍵式服務(wù)管理機制研究[D].北京:中國地質(zhì)大學(xué),2017.
[5] 何學(xué)洲,陳秀法,高愛紅,等.我國境外地質(zhì)資料管理服務(wù)現(xiàn)狀及對策建議[J].中國礦業(yè),2019,28(10):39-44.
[6] 米勝信.全國實物地質(zhì)資料集群服務(wù)系統(tǒng)研究與應(yīng)用[D].北京:中國地質(zhì)大學(xué),2017.