国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜的水利數(shù)據(jù)垂直搜索應用

2018-03-25 12:18葛召華張中坤
山東水利 2018年5期
關(guān)鍵詞:網(wǎng)頁文檔數(shù)據(jù)中心

葛召華,張中坤,李 博

(山東省水利信息中心,山東 濟南 250014)

為解決水利信息資源開發(fā)管理分散、基礎(chǔ)數(shù)據(jù)存儲零亂、標準化差、應用服務適用性單一、難以共享等問題,山東省建設(shè)了水利數(shù)據(jù)中心。通過水利數(shù)據(jù)中心建設(shè),將主要水利業(yè)務數(shù)據(jù)通過復制、抽取以及清洗等方式集中在數(shù)據(jù)中心,積累形成了水利大數(shù)據(jù)的雛形。但如何有效使用這些數(shù)據(jù),使其投入生產(chǎn)管理工作中,充分發(fā)揮價值,為推進水利從粗放管理向精細管理、從傳統(tǒng)管理模式向現(xiàn)代管理模式轉(zhuǎn)變提供支撐,成為水利行業(yè)對大數(shù)據(jù)技術(shù)最客觀需求。

研究大數(shù)據(jù)環(huán)境下水利業(yè)務信息的一體化智能檢索(垂直檢索)關(guān)鍵技術(shù),借助人工智能,以水利大數(shù)據(jù)為基礎(chǔ),構(gòu)建水利知識圖譜,用主題爬蟲、信息抽取、倒排索引和中文分詞等垂直搜索核心技術(shù),建立水利數(shù)據(jù)垂直搜索基礎(chǔ)模型,開發(fā)山東省水利數(shù)據(jù)搜索引擎,對水利結(jié)構(gòu)化數(shù)據(jù)、網(wǎng)頁分析提取數(shù)據(jù)、非結(jié)構(gòu)化文獻影像圖像數(shù)據(jù)等進行分析、整理和數(shù)據(jù)挖掘,實現(xiàn)水利信息資源的精準檢索,更精準、更深入地挖掘出高效的水利信息。

1 設(shè)計原則

在建設(shè)山東水利數(shù)據(jù)中心的垂直搜索時遵循以下幾個基本原則:1)便捷實用。系統(tǒng)能夠為各個水利業(yè)務提供數(shù)據(jù)基礎(chǔ)支撐,根據(jù)用戶需求快速有效地檢索到關(guān)系的數(shù)據(jù),為用戶決策提供保障。2)交互性強。用戶能夠通過輸入關(guān)鍵詞與系統(tǒng)進行交互。系統(tǒng)能夠給用戶提供一些專業(yè)性的水利數(shù)據(jù),協(xié)助用戶使用了解水利業(yè)務數(shù)據(jù)。3)易于擴展、維護。系統(tǒng)接口設(shè)計開放合理,支持外部應用程序調(diào)用數(shù)據(jù)服務??筛鶕?jù)用戶需求對基礎(chǔ)水利業(yè)務信息的更新,對搜索引擎中的索引數(shù)據(jù)庫進行管理和維護。

2 總體設(shè)計框架

山東水利數(shù)據(jù)中心通過網(wǎng)絡(luò)爬蟲、數(shù)據(jù)抽取、數(shù)據(jù)加工處理等技術(shù)對水利基礎(chǔ)數(shù)據(jù)、水利業(yè)務數(shù)據(jù)、水利年鑒等非結(jié)構(gòu)化數(shù)據(jù)、水利資訊等門戶類數(shù)據(jù)進行數(shù)據(jù)資源整合。通過建立數(shù)據(jù)索引、運用中文分詞、優(yōu)化權(quán)重排序算法等手段建立垂直搜索引擎,實現(xiàn)對水利數(shù)據(jù)的全文檢索、精準查詢,運用水利知識圖譜實現(xiàn)數(shù)據(jù)的關(guān)聯(lián)展示及分析。數(shù)據(jù)中心不僅實現(xiàn)了對數(shù)據(jù)的檢索和關(guān)聯(lián)分析查詢,還實現(xiàn)了水利概況、水資源、水文業(yè)務、水利移民、水利工程等業(yè)務的按主題分類查詢。

3 構(gòu)建水利知識圖譜

作為一種新興的知識發(fā)現(xiàn)方法,知識圖譜能夠全方位揭示知識的來源及其發(fā)展規(guī)律,可以客觀的揭示水利相關(guān)特點、業(yè)務實體之間的聯(lián)系、水利科技/工程等相關(guān)發(fā)展趨勢。水利知識圖譜利用人工智能技術(shù)、知識計算工具以及現(xiàn)有的業(yè)務數(shù)據(jù)進行實體識別、屬性識別,并建立實體屬性鏈接集成。構(gòu)建了水庫、河湖、水文、水網(wǎng)工程、水資源、水利移民、農(nóng)村水利、水利概況、水土保持等水利工程和業(yè)務知識圖譜。

4 數(shù)據(jù)檢索設(shè)計與實現(xiàn)

4.1 數(shù)據(jù)分類查詢

運用JAVA WEB技術(shù)開發(fā)實現(xiàn)業(yè)務數(shù)據(jù)表的分類查詢功能,將水利業(yè)務分成水利概況、水資源、水文業(yè)務、農(nóng)村水利、水土保持、防汛抗旱、水利移民、水網(wǎng)工程等八類,并實現(xiàn)水利業(yè)務的數(shù)據(jù)查詢功能,通過面向具體的主題業(yè)務區(qū)域來方便用戶快速了解相關(guān)數(shù)據(jù)。

4.2 數(shù)據(jù)檢索

主要提供所有水利業(yè)務數(shù)據(jù)的檢索功能,通過網(wǎng)頁爬蟲技術(shù)檢索關(guān)鍵詞的相關(guān)匹配對展現(xiàn)相關(guān)的數(shù)據(jù)信息。

1)構(gòu)建索引。把抓取的水利信息建立類似書目的數(shù)據(jù)文件,以便實現(xiàn)高速檢索。索引系統(tǒng)涉及的關(guān)鍵技術(shù)點有分詞技術(shù)、增量索引與全索引、排序技術(shù)、熱點詞高速緩存、標準檢索語句解析等。首先解析文檔讀入文檔后,給文檔進行編號,賦予唯一的文檔ID,并對文檔內(nèi)容解析,為該文檔內(nèi)每個單詞建立一個(單詞ID,文檔ID,單詞頻率)三元組,將處理好的數(shù)據(jù)寫入磁盤臨時文件。其次對臨時文件在合并中間結(jié)果的過程中,系統(tǒng)為每個中間結(jié)果文件在內(nèi)存中開辟一個數(shù)據(jù)緩沖區(qū),用來存放文件的部分數(shù)據(jù)。最后當所有中間結(jié)果文件都依次被讀入緩沖區(qū),在合并完成后,就形成了最終的索引文件。

2)搜索和中文分詞的應用。水利術(shù)語繁多復雜、專業(yè)性強,存在大量對檢索和鑒別無意義的詞匯。因此,為了提高檢索的效率和質(zhì)量,需要增加關(guān)鍵詞密度,構(gòu)建出水利領(lǐng)域停用詞典,建立相應的水利詞庫。采用基于專業(yè)詞典的逆向最大匹配和統(tǒng)計的中文分析算法,通過算法的改進可以較好地對水利信息專業(yè)詞匯進行分次,提高了搜索的準確率,根據(jù)搜索密度、信息關(guān)注度等對檢索信息進行有效的權(quán)重處理,自定了排序,優(yōu)化了索引,提高了檢索效率。

通過索引中的關(guān)鍵字等進行一定算法的權(quán)重設(shè)置為用戶檢索出匹配度更高,相關(guān)度更高,更加準確、無誤的信息。

4.3 數(shù)據(jù)關(guān)聯(lián)度查詢

通過構(gòu)建好的水利知識圖譜,建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,實現(xiàn)在檢索到本身需要的信息外,又可以關(guān)聯(lián)出與該業(yè)務數(shù)據(jù)相關(guān)的數(shù)據(jù),便于用戶了解到數(shù)據(jù)的來源以及相關(guān)聯(lián)情況。

5 應用爬蟲技術(shù)重構(gòu)業(yè)務展示

應用網(wǎng)頁爬蟲技術(shù),按照數(shù)據(jù)之間的關(guān)聯(lián)從水利數(shù)據(jù)中心信息源中抓取數(shù)據(jù),基于預先構(gòu)造的水利業(yè)務模板,抓取系統(tǒng)涉及的關(guān)鍵點,包括有爬行路徑分析、增量抓取與全抓取、信息構(gòu)造完整性、信息唯一性識別、多網(wǎng)頁信息整合、自動標引(此功能也可以單獨提出)等。

選取抓取的網(wǎng)頁或者系統(tǒng)展示頁面種子URL;將這些URL放入待抓取URL隊列;從待抓取URL隊列中取出待抓取URL,解析DNS,并且得到主機的IP,將URL對應的網(wǎng)頁下載下來,通過模版分析得到主題關(guān)鍵詞內(nèi)容,建立索引存儲到已下載網(wǎng)頁庫中。將這些URL放進已抓取URL隊列,分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進入下一個循環(huán)。

6 結(jié)語

目前,山東省水利信息化已經(jīng)建設(shè)了防汛抗旱、農(nóng)村水利、水利工程管理、水利數(shù)據(jù)中心、電子政務、水資源管理、水利移民、水利門戶網(wǎng)站群等系統(tǒng),接入了水文、水資源、農(nóng)村水利、水利普查等相關(guān)數(shù)據(jù),完成了水利概況、水資源、水文業(yè)務、農(nóng)村水利、水土保持、防汛抗旱、水利移民、水網(wǎng)工程的數(shù)據(jù)索引,構(gòu)建了19張水利業(yè)務知識圖譜,完成29張水利業(yè)務基礎(chǔ)表的查詢檢索展示,96張表的關(guān)聯(lián)度查詢。統(tǒng)一的數(shù)據(jù),統(tǒng)一的搜索展現(xiàn)形式支撐起了垂直檢索技術(shù)在山東水利的應用,為進一步發(fā)揮數(shù)據(jù)的作用,滿足水利工作者快捷地了解水利相關(guān)知識信息提供了條件。

猜你喜歡
網(wǎng)頁文檔數(shù)據(jù)中心
酒泉云計算大數(shù)據(jù)中心
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
淺析數(shù)據(jù)中心空調(diào)節(jié)能發(fā)展趨勢
關(guān)于建立“格薩爾文獻數(shù)據(jù)中心”的初步構(gòu)想
基于CSS的網(wǎng)頁導航欄的設(shè)計
基于HTML5靜態(tài)網(wǎng)頁設(shè)計
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
基于RI碼計算的Word復制文檔鑒別
網(wǎng)頁制作在英語教學中的應用