国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)技術(shù)的高校圖書(shū)館電子資源訪問(wèn)日志分析

2017-05-31 07:22張衛(wèi)華
創(chuàng)新科技 2017年3期
關(guān)鍵詞:日志檢索圖書(shū)館

張衛(wèi)華

[摘 要] 傳統(tǒng)圖書(shū)館電子資源訪問(wèn)日志工具采集周期長(zhǎng)、處理效率低下,無(wú)法支持高校圖書(shū)館大規(guī)模電子資源的日志采集和分析需求。大數(shù)據(jù)技術(shù)為圖書(shū)電子資源的訪問(wèn)日志分析提供了值得借鑒的方法和手段。本文研究了一種采用Web日志工具LogStash和Elasticsearch設(shè)計(jì)實(shí)現(xiàn)的高校圖書(shū)電子資源訪問(wèn)日志的實(shí)時(shí)采集和快速查詢分析方法;給出了日志采集的大數(shù)據(jù)工具的選擇、索引的建立方法,以及日志分析的處理流程,文中采用Kibana工具實(shí)現(xiàn)日志可視化分析。

[關(guān)鍵詞] 大數(shù)據(jù);ElasticSearch;文獻(xiàn)分析

[中圖分類號(hào)] TP311 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1671-0037(2017)3-82-3

Analysis of Electronic Resource Access Logs in University Libraries Based on Big Data Technology

Zhang Weihua

(School of Electrical Engineering, Zhengzhou University, Zhengzhou Henan 450001)

Abstract: Traditional library electronic resource access log tools have long acquisition cycle, low handling efficiency, can not support the needs of university library's large-scale electronic resources log acquisition and analysis. The big data technology provides a valuable method and means for the access log analysis of library electronic resources. This paper studied a real-time acquisition and quick query analysis method for the access log of electronic resource in university library using Web access log tools of LogStash and ElasticSearch design. The selection of big data tools for log acquisition, the establishment method of index, and the prodedure of log analysis were given. Kibana tool was used in the paper to achieve the log visualization analysis.

Key words: big data; ElasticSearch; document analysis

1 引言

隨著互聯(lián)網(wǎng)技術(shù)的普及,電子資源成為高校圖書(shū)館提供的情報(bào)服務(wù)的重要部分,高校購(gòu)買了更多的電子資源,同時(shí)高校圖書(shū)館自身也儲(chǔ)備了日益增多的電子文獻(xiàn),電子資源的應(yīng)用評(píng)估逐漸成為圖書(shū)情報(bào)領(lǐng)域的重要研究課題。如何對(duì)高校圖書(shū)館電子資源的應(yīng)用狀況進(jìn)行統(tǒng)計(jì)、分析和評(píng)價(jià),對(duì)于所購(gòu)買的資源是否符合本單位的用戶需求成為調(diào)整電子資源建設(shè)政策、開(kāi)展資源推廣等工作的重要依據(jù)[1]。同時(shí),包括自身館藏電子文獻(xiàn)在內(nèi)的高校圖書(shū)館電子資源的增多,教師和學(xué)生對(duì)電子資源的使用量也日益增加,而圖書(shū)館迫切地需要掌握電子資源的具體使用狀況及需求的變化趨勢(shì),能夠智能地根據(jù)電子資源的訪問(wèn)日志從不同角度分析出高校圖書(shū)館資源的應(yīng)用狀況成為亟須解決的問(wèn)題之一[2]。

大數(shù)據(jù)技術(shù)為我們提供了包括分布式文件系統(tǒng)HDFS、分布式計(jì)算集群HADOOP和分布式全文檢索ElasticSearch等多種解決大數(shù)據(jù)量的高效處理手段[3]。運(yùn)用大數(shù)據(jù)技術(shù)可以有效地解決電子資源的訪問(wèn)日志的存儲(chǔ)、檢索分析。從不同維度展現(xiàn)資源利用狀況,發(fā)現(xiàn)資源瓶頸,提高服務(wù)質(zhì)量。

2 傳統(tǒng)電子資源訪問(wèn)日志分析

電子資源日志的分析在高校圖書(shū)館的資源利用狀況分析中占非常重要的地位,高校圖書(shū)館電子資源來(lái)源越來(lái)越復(fù)雜,日志的分析和監(jiān)控就顯得尤為重要,常見(jiàn)的需求有:

·根據(jù)關(guān)鍵字查詢?nèi)罩驹斍?/p>

·監(jiān)控電子資源的運(yùn)行狀況

·統(tǒng)計(jì)分析,比如資源的訪問(wèn)次數(shù)、執(zhí)行時(shí)間、成功率等

·異常數(shù)據(jù)自動(dòng)觸發(fā)消息通知

·基于日志的數(shù)據(jù)挖掘

EZproxy 是一個(gè)目前被國(guó)外圖書(shū)館廣泛使用的實(shí)現(xiàn)訪問(wèn)代理的軟件。與普通代理服務(wù)器軟件的主要區(qū)別在于它是采用基于“URL 重寫(xiě)”技術(shù),用戶無(wú)須修改瀏覽器的設(shè)置就能實(shí)現(xiàn)代理訪問(wèn)資源的功能[4]。EZproxy為圖書(shū)館對(duì)數(shù)據(jù)資源的使用進(jìn)行監(jiān)控和分析帶來(lái)了極大的便利。但是對(duì)于更大規(guī)模的電子資源的訪問(wèn),EZproxy暴露出一些問(wèn)題,主要有:

·日志數(shù)據(jù)分散在多個(gè)系統(tǒng),難以查找

·日志數(shù)據(jù)量大,查詢速度慢

·一個(gè)調(diào)用會(huì)涉及多個(gè)系統(tǒng),難以在這些系統(tǒng)的日志中快速定位數(shù)據(jù)

·數(shù)據(jù)不夠?qū)崟r(shí)

3 基于大數(shù)據(jù)技術(shù)的日志分析

大數(shù)據(jù)應(yīng)用技術(shù)中,基于LogStash+ElasticSearch的日志分析被廣泛應(yīng)用于Web瀏覽的日志分析[7]。它從Web訪問(wèn)端抓取訪問(wèn)日志,應(yīng)用Web大數(shù)據(jù)技術(shù)進(jìn)行存儲(chǔ)和索引,利用全文搜索工具ElasticSearch進(jìn)行日志的分析和處理,能夠提供遠(yuǎn)超于傳統(tǒng)日志分析所具有的分析和檢索功能。這種方法更適合于未來(lái)日益增長(zhǎng)的圖書(shū)電子資源的日志分析,可以提供關(guān)于電子資源利用率、資源使用行為分析、資源利用發(fā)展趨勢(shì)分析等新的應(yīng)用場(chǎng)景需求。圖1是LogStash+ElasticSearch構(gòu)造的日志分析和監(jiān)測(cè)系統(tǒng)的典型架構(gòu)。

LogStash是一個(gè)開(kāi)放源碼的日志收集工具,屬于Elastic家族的一員,它負(fù)責(zé)將收集的日志信息輸送到ElasticSearch,為ElasticSearch提供數(shù)據(jù)源[4]。

ElasticSearch是一個(gè)高擴(kuò)展的、開(kāi)源的、全文檢索的搜索引擎,它提供了近實(shí)時(shí)的索引、搜索、分析功能[4]。在設(shè)計(jì)和實(shí)現(xiàn)上它吸收了包括HADOOP在內(nèi)的主流的分布式系統(tǒng)的很多特性[5,7]。

ElasticSearch基于開(kāi)源的搜索引擎Lucene構(gòu)建,它把復(fù)雜的Lucene通過(guò)RESTful API隱藏起來(lái),提供了簡(jiǎn)單易用的應(yīng)用接口。這種基于RESTful的搜索引擎用于云計(jì)算中,能夠達(dá)到近乎實(shí)時(shí)的搜索功能,并且提供了很好的穩(wěn)定性和可靠性。ElasticSearch支持通過(guò)HTTP使用JSON進(jìn)行數(shù)據(jù)索引[4],提供 Kibana 可視化監(jiān)控和分析界面。

4 電子資源日志分析流程

4.1 日志的獲取和匯聚

首先在讀者訪問(wèn)電子資源的Web服務(wù)器上啟動(dòng)日志功能,讀者的各種操作都會(huì)被作為日志記錄下來(lái)。

通過(guò)在日志所在的主機(jī)上安裝部署LogStash Shipper,用于獲取日志并且轉(zhuǎn)換成JSON格式的數(shù)據(jù),日志數(shù)據(jù)被發(fā)送到Redis存儲(chǔ)服務(wù)和后續(xù)的LogStash Indexer進(jìn)行處理,為ElasticSearch的檢索和分析做數(shù)據(jù)準(zhǔn)備。

獲取的日志格式定義:

log_format logstash ‘$http_host

‘$remote_addr [$time_local]

‘“$request” $status $body_bytes_sent

‘“$http_referer” “$http_user_agent”

'$request_time '$upstream_response_time';

4.2 日志存儲(chǔ)和索引

經(jīng)Shipper采集的日志數(shù)據(jù)匯聚到大數(shù)據(jù)存儲(chǔ)集群中,而后根據(jù)分析和統(tǒng)計(jì)的需要建立多種維度的索引。ElasticSearch索引的建立是日志分析的重要基礎(chǔ),我們借鑒了普通Web應(yīng)用的日志分析方式,多樣化的電子資源建立了日志信息存儲(chǔ)的索引,索引建立的依據(jù)是:

4.2.1 各種電子資源站點(diǎn)的概要統(tǒng)計(jì)。包括分析覆蓋的時(shí)間、訪問(wèn)的頁(yè)面數(shù)、訪問(wèn)數(shù)、會(huì)話數(shù)、訪問(wèn)者信息以及平均訪問(wèn)、最高訪問(wèn)等。

4.2.2 內(nèi)容分析。讀者訪問(wèn)的最多及最少被訪問(wèn)的數(shù)據(jù)庫(kù)資源、檢索路徑、最高訪問(wèn)的時(shí)間。4.2.3 讀者信息分析。包括訪問(wèn)者的來(lái)源、訪問(wèn)者使用的瀏覽器及操作系統(tǒng)分析、訪問(wèn)來(lái)自的頁(yè)面、IP地址以及訪問(wèn)者使用的檢索方式。

4.2.4 讀者活動(dòng)周期行為分析。一周7天的訪問(wèn)行為、24小時(shí)的訪問(wèn)行為、每周的最多的訪問(wèn)日、訪問(wèn)時(shí)段等。

4.2.5 資源數(shù)據(jù)庫(kù)訪問(wèn)分析。針對(duì)各個(gè)資源數(shù)據(jù)庫(kù)訪問(wèn)分析資源利用情況,分學(xué)科統(tǒng)計(jì)出各個(gè)數(shù)據(jù)庫(kù)的訪問(wèn)情況,并進(jìn)行分析。

4.2.6 全文數(shù)據(jù)庫(kù)擴(kuò)展分析。針對(duì)聯(lián)機(jī)或光盤數(shù)據(jù)庫(kù)的下載等內(nèi)容的訪問(wèn)分析。

4.2.7 發(fā)現(xiàn)用戶訪問(wèn)模式。通過(guò)分析和探究資源數(shù)據(jù)庫(kù)日志記錄中的規(guī)律,可以識(shí)別讀者的需求趨勢(shì),提高對(duì)讀者的服務(wù)質(zhì)量,并改進(jìn)圖書(shū)館服務(wù)器系統(tǒng)的性能。

4.2.8 主要訪問(wèn)錯(cuò)誤分析。主要訪問(wèn)錯(cuò)誤分析包括服務(wù)端錯(cuò)誤、聯(lián)機(jī)資源錯(cuò)誤等。

4.3 檢索和分析引擎

ElasticSearch具有強(qiáng)大的搜索和分析功能,它提供了強(qiáng)大的搜索功能,可以實(shí)現(xiàn)類似百度、谷歌等搜索。可以搜索日志或者交易數(shù)據(jù),用來(lái)分析商業(yè)趨勢(shì)、搜集日志、分析系統(tǒng)瓶頸或者發(fā)展趨勢(shì)。在百萬(wàn)級(jí)的大數(shù)據(jù)中輕松地定位關(guān)鍵信息。

本文采用了三臺(tái)計(jì)算機(jī)作為日志分析群集建立了一個(gè)實(shí)驗(yàn)環(huán)境。在每臺(tái)機(jī)器上安裝ElasticSearch服務(wù)和LogStash。通過(guò)設(shè)置三臺(tái)機(jī)器的集群節(jié)點(diǎn)參數(shù),實(shí)現(xiàn)性能和可靠性的保障。

由于ElasticSearch自帶的中文分詞功能并不理想,當(dāng)需要進(jìn)行文獻(xiàn)全文檢索的條件分析時(shí),不準(zhǔn)確的分詞和詞庫(kù)會(huì)導(dǎo)致對(duì)日志中用戶對(duì)文獻(xiàn)數(shù)據(jù)庫(kù)檢索的條件和內(nèi)容分析不夠準(zhǔn)確。我們采用了IK分詞插件用于中文檢索的分詞器,改善了索引的性能。

對(duì)于不同的資源數(shù)據(jù)庫(kù),通過(guò)日志記錄的訪問(wèn)URL的解析可以分析出訪問(wèn)者使用的檢索方式、檢索條件;通過(guò)對(duì)檢索條件的內(nèi)容分析,可以解析出讀者的檢索意圖和對(duì)應(yīng)的學(xué)科專業(yè)領(lǐng)域。通過(guò)$request的請(qǐng)求內(nèi)容的解析還可以解析出讀者對(duì)文獻(xiàn)的編目和全文的使用情況。

我們?yōu)镋lasticSearch配置為15個(gè)片2個(gè)副本,由于日志分析屬于內(nèi)部使用功能,訪問(wèn)量并不大,所以沒(méi)太大必要使用過(guò)多的副本存儲(chǔ),設(shè)置LogStash索引名為系統(tǒng)自動(dòng)生成的,每天一個(gè)日志類別,可使按時(shí)間的檢索更加簡(jiǎn)單。

4.4 日志分析的人機(jī)交互

Kibana是一個(gè)功能強(qiáng)大的ElasticSearch數(shù)據(jù)顯示客戶端,Kibana可以對(duì)日志進(jìn)行高效的搜索、可視化、分析等各種操作。Kibana提供了多種圖表的展現(xiàn)方式,使得日志的分析結(jié)果更加形象地展現(xiàn)給分析者。

5 總結(jié)

利用開(kāi)源工具 LogStash和 Elasticsearch 設(shè)計(jì)實(shí)現(xiàn)了分布式集群日志采集和分析平臺(tái),應(yīng)用Kibana可以方便地進(jìn)行日志不同角度的分析和展現(xiàn);滿足了多種電子資源海量日志的實(shí)時(shí)采集和快速分析需求,可以為日常服務(wù)檢測(cè)、快速排查故障維持系統(tǒng)正常運(yùn)行,提供了可行性工具。同時(shí)具備實(shí)施部署方便的特點(diǎn)。

本文只使用了LogStash和 Elasticsearch對(duì)高校圖書(shū)電子資源的日志分析方法做了初步的探討,建立的搜索模型和索引選取比較簡(jiǎn)單。后續(xù)還有許多實(shí)際的需求無(wú)法滿足。在本文所選擇的平臺(tái)上還可以做很多有針對(duì)性的專題分析。另外,隨著大數(shù)據(jù)和人工智能技術(shù)的成熟,ElasticSearch的機(jī)器學(xué)習(xí)功能的利用還可以建立智能化的訪問(wèn)日志分析系統(tǒng)。

參考文獻(xiàn):

[1] 羅文森.常用中文電子資源訪問(wèn)日志功能分析及研究[J].情報(bào)理論與實(shí)踐,2011(2).

[2] 嚴(yán)潮斌.加州大學(xué)圖書(shū)館多平臺(tái)云遷移策略研究[J]. 圖書(shū)情報(bào)工作,2013(11).

[3] 陳祖琴.圖書(shū)館視角下的大數(shù)據(jù)資源共建共享[J].情報(bào)雜志,2015(4).

[4] 周映.ELK日志分析平臺(tái)在電子商務(wù)系統(tǒng)監(jiān)控服務(wù)中的應(yīng)用[J].信息技術(shù)與標(biāo)準(zhǔn)化,2016(7).

[5] 饒琛琳.ELKstack權(quán)威指南[M].北京:機(jī)械工業(yè)出版社,2015.

[6] 陳俊杰.應(yīng)用Elasticsearch重構(gòu)圖書(shū)館站內(nèi)搜索引擎 情報(bào)探索[J].2014(11).

[7] Elasticsearch聯(lián)機(jī)文檔[EB/OL].https://www.elastic.co/guide/index.html.2017-2-5.

猜你喜歡
日志檢索圖書(shū)館
高效管理日志文件用命令行就可以
讀扶貧日志
CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應(yīng)用探討
通過(guò)實(shí)際案例談如何利用外文庫(kù)檢索提高檢索效率
瑞典專利數(shù)據(jù)庫(kù)的檢索技巧
雅皮的心情日志
雅皮的心情日志
圖書(shū)館
英國(guó)知識(shí)產(chǎn)權(quán)局商標(biāo)數(shù)據(jù)庫(kù)信息檢索
去圖書(shū)館
内江市| 娄烦县| 乐清市| 海城市| 天柱县| 扎赉特旗| 锦屏县| 闽侯县| 应用必备| 临湘市| 浪卡子县| 襄城县| 大理市| 娄烦县| 深泽县| 奎屯市| 乌什县| 阿坝| 鹤岗市| 万全县| 吴忠市| 清镇市| 和平县| 金乡县| 兴山县| 赤峰市| 禄丰县| 乌审旗| 昭平县| 锡林郭勒盟| 伊通| 汪清县| 九龙坡区| 当涂县| 威远县| 凌海市| 河南省| 天等县| 永兴县| 九江县| 赞皇县|