林雁
摘 要:當(dāng)前的圖書館云檢索系統(tǒng)存在著各種各樣的問題,例如沒有及時(shí)關(guān)注用戶的實(shí)際需求,還有一個(gè)問題就是檢索效率非常低,因此,提出了以Hadoop為支撐數(shù)據(jù)的智能圖書館云檢索系統(tǒng)。首先集成Hive,HDFS,MapReduce和Hadoop組件,以設(shè)計(jì)智能圖書館云檢索系統(tǒng)的硬件部分。Hive主要用于圖書館圖書關(guān)鍵詞的存儲(chǔ)和分析。MapReduce主要用于資源的實(shí)際統(tǒng)計(jì)分析和計(jì)算。HDFS主要用于存儲(chǔ)相關(guān)的操作數(shù)據(jù), Hadoop主要用于存儲(chǔ)設(shè)備的相關(guān)管理。通過多組實(shí)驗(yàn)數(shù)據(jù)對系統(tǒng)的性能進(jìn)行了測試,與其他類似的檢索系統(tǒng)相比,效率大大地提高。
關(guān)鍵詞:智能圖書館;云檢索系統(tǒng);系統(tǒng)設(shè)計(jì);數(shù)據(jù)檢索;性能測試
隨著時(shí)間的推移,數(shù)據(jù)量也迅速增加,服務(wù)提供商一直在創(chuàng)新技術(shù),還是難以滿足讀者的實(shí)際需求。對于圖書館資源,怎樣快速獲取信息,學(xué)者已經(jīng)開始從研究國內(nèi)外的各種信息。本文利用數(shù)據(jù)挖掘技術(shù)開發(fā)出智能圖書館云檢索系統(tǒng),為及時(shí)有效地獲取專業(yè)書籍資源提供了有效途徑。
1 智能圖書館云檢索系統(tǒng)
1.1 智能圖書館云檢索系統(tǒng)架構(gòu)
在構(gòu)建智能圖書館云檢索系統(tǒng)的過程中,有必要?jiǎng)?chuàng)建一種適用于智能圖書館信息云檢索的分布式檢索體系架構(gòu)。根據(jù)圖書館資源檢索需要,使用開源云計(jì)算平臺(tái)Hadoop,基于HDFS,MapReduce和Hive的集成,建立智能圖書館云檢索架構(gòu)。智能圖書館云檢索系統(tǒng)可分為四個(gè)部分:訪問層,應(yīng)用接口層,基本管理層和存儲(chǔ)層。具體結(jié)構(gòu)如圖1所示。
1)訪問層。讀者可以登錄應(yīng)用界面,并根據(jù)各種信息檢索和信息加載提供檢索服務(wù)。服務(wù)器會(huì)將新輸入的圖書實(shí)時(shí)更新到系統(tǒng)的會(huì)員卡信息中。2)應(yīng)用接口層。它可以根據(jù)具體的業(yè)務(wù)類型提供圖書館資源檢索平臺(tái)3)基本管理層。它是智能圖書館云檢索系統(tǒng)云存儲(chǔ)的最關(guān)鍵組成部分。數(shù)據(jù)基礎(chǔ)管理層使用HDFS,MapReduce,Hive等技術(shù)實(shí)現(xiàn)系統(tǒng)相關(guān)設(shè)備之間的聯(lián)合工作,并向系統(tǒng)外部提供統(tǒng)一的檢索服務(wù)。4)存儲(chǔ)層。它是系統(tǒng)組成的核心部分,具有重要的功能,所有的存儲(chǔ)設(shè)備都由系統(tǒng)統(tǒng)一管理。使用開源云計(jì)算平臺(tái)Hadoop來實(shí)現(xiàn)云存儲(chǔ)設(shè)備的虛擬化管理,以及存儲(chǔ)設(shè)備的故障狀態(tài)診斷等。
1.2 系統(tǒng)特定組件的分析
Hive主要用于圖書館圖書資源關(guān)鍵詞的存儲(chǔ)和分析; MapReduce主要用于圖書館圖書資源的實(shí)際統(tǒng)計(jì)分析和計(jì)算; HDFS主要用于存儲(chǔ)相關(guān)操作數(shù)據(jù);開源云計(jì)算平臺(tái)Hadoop主要用于與存儲(chǔ)設(shè)備有關(guān)的具體管理圖如圖2所示。本文設(shè)計(jì)的智能圖書館云檢索系統(tǒng)的HDFS架構(gòu)如圖3所示。1)管理器HDFS體系結(jié)構(gòu)中的控制節(jié)點(diǎn)是控制節(jié)點(diǎn),可用于管理名稱空間,集中分配以及復(fù)制圖書館書文件的存儲(chǔ)模塊。控制節(jié)點(diǎn)將圖書館書文件的元數(shù)據(jù)存儲(chǔ)到存儲(chǔ)器中,并且書文件的元數(shù)據(jù)在數(shù)據(jù)節(jié)點(diǎn)中包含書文件信息和數(shù)據(jù)節(jié)點(diǎn)的信息。2)數(shù)據(jù)節(jié)點(diǎn)是庫資源存儲(chǔ)的基本組成部分。他們可以以塊狀形式在本地存儲(chǔ)書籍資源,為書籍資源存儲(chǔ)元數(shù)據(jù),并在給定的周期內(nèi)將所有現(xiàn)有的圖書館資源塊信息傳輸?shù)娇刂乒?jié)點(diǎn)。3)客戶主要負(fù)責(zé)獲取HDFS中的圖書文件。
智能圖書館云檢索系統(tǒng)中的MapReduce架構(gòu)如圖4所示。MapReduce架構(gòu)中的作業(yè)節(jié)點(diǎn)專注于調(diào)度作業(yè)的運(yùn)行,架構(gòu)中的作業(yè)節(jié)點(diǎn)和任務(wù)節(jié)點(diǎn)可以相互轉(zhuǎn)換,執(zhí)行任務(wù)時(shí),它可以分為多個(gè)切片。任務(wù)節(jié)點(diǎn)反映切片數(shù)據(jù)和映射任務(wù)等等??蛻舳藢D書館信息檢索查詢的計(jì)算任務(wù)提交給MapReduce。HDFS可以提供庫信息存儲(chǔ)功能,主要用于為所有操作節(jié)點(diǎn)提供所需的資源。
Hive架構(gòu)在智能圖書館云檢索系統(tǒng)中的具體功能描述如下:1)Hive架構(gòu)中的解析器主要負(fù)責(zé)分析和查詢有關(guān)的信息,并對不同的資源進(jìn)行語義查詢,并根據(jù)存儲(chǔ)節(jié)點(diǎn)中的元素制定相應(yīng)的計(jì)劃。2)圖書庫信息元數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)存儲(chǔ)層中所有表和分區(qū)的信息都能在云檢索系統(tǒng)的HDFS中獲取數(shù)據(jù)。3)執(zhí)行者負(fù)責(zé)執(zhí)行計(jì)劃,執(zhí)行引擎在系統(tǒng)組件上執(zhí)行上述計(jì)劃。4)節(jié)點(diǎn)是接受信息查詢的組件。
3 實(shí)驗(yàn)結(jié)果與分析
模擬實(shí)驗(yàn)數(shù)據(jù)使用多個(gè)隨機(jī)生成的數(shù)據(jù)。測試環(huán)境為WindowsServer2012R2Intel2XeonTMCPUE5?2650@2.30GHz2.30GHz,具有32.0GB的RAM,該環(huán)境由Matlab2014a編程實(shí)現(xiàn)。為了驗(yàn)證智能圖書館云檢索系統(tǒng)的效率,多組實(shí)驗(yàn)數(shù)據(jù)量為GB量級,時(shí)間單位為ms。為了準(zhǔn)確表示系統(tǒng)檢索結(jié)果,對時(shí)間按照10為底取對數(shù),如圖5所示。
從圖5可以表明,使用本文的檢索系統(tǒng)具有更高的數(shù)據(jù)檢索效率。直接查詢圖書館資源時(shí),檢索時(shí)間將隨著數(shù)據(jù)量的增加而增加,并且總體呈現(xiàn)呈線性趨勢。表1顯示了500GB庫數(shù)據(jù)的檢索時(shí)間匯總結(jié)果。從表1可以看出,隨著圖書館檢索范圍的擴(kuò)大,相應(yīng)的數(shù)據(jù)檢索時(shí)間將逐漸增加,主要原因是當(dāng)圖書館資源檢索空間增大時(shí),滿足查詢條件的圖書館資源數(shù)據(jù)塊也會(huì)增加。
當(dāng)智能圖書庫云檢索系統(tǒng)節(jié)點(diǎn)數(shù)量減少時(shí),對大小為500GB的圖書庫資源進(jìn)行檢索的時(shí)間統(tǒng)計(jì)結(jié)果如表2所示。
從表2可以看出,當(dāng)節(jié)點(diǎn)數(shù)量增加時(shí),相應(yīng)的檢索時(shí)間將隨之減少,它們之間呈反比的關(guān)系??梢酝茢?,當(dāng)節(jié)點(diǎn)數(shù)持續(xù)增加時(shí),檢索時(shí)間大大縮短,數(shù)據(jù)檢索效率得到顯著提高。
4 結(jié)論
現(xiàn)如今,智能圖書館資源管理方法已逐漸成為熱門,相對于一些大數(shù)據(jù)的快速查詢,本文提出了一種基于海量圖書庫資源的數(shù)據(jù)挖掘算法,并將其應(yīng)用于分布式開源框架Hadoop。通過對多組的實(shí)驗(yàn)分析并驗(yàn)證了該系統(tǒng)有一定的效果。
參考文獻(xiàn)
[1]陳春陽.基于圖書館微信平臺(tái)的館配云平臺(tái)圖書數(shù)據(jù)推送研究[J].出版發(fā)行研究,2018(5):44.
[2]鮑玉來,白淑霞,飛龍,等.漢蒙跨語言檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)理論與實(shí)踐,2017,40(4):128-132.
[3]劉愛琴,李永清.基于SOM神經(jīng)網(wǎng)絡(luò)的高校圖書館個(gè)性化推薦服務(wù)系統(tǒng)構(gòu)建[J].圖書館論壇,2018,38(4):95-102.