雷東升 郭振英
〔摘要〕校外訪問(wèn)圖書(shū)館電子資源在方便讀者的同時(shí)也出現(xiàn)一些異常訪問(wèn)行為,利用EZproxy代理服務(wù)器日志信息分析異常訪問(wèn)行為特征,設(shè)計(jì)并開(kāi)發(fā)EZproxy日志分析系統(tǒng),完成對(duì)電子資源訪問(wèn)日志的預(yù)處理、上傳、統(tǒng)計(jì)和分析,從訪問(wèn)特征發(fā)掘讀者的異常訪問(wèn)行為,對(duì)異常行為情況分類(lèi)處理,基本避免了異常訪問(wèn)行為導(dǎo)致圖書(shū)館電子資源被數(shù)據(jù)庫(kù)商臨時(shí)封掉IP的現(xiàn)象出現(xiàn),維護(hù)圖書(shū)館讀者的合法權(quán)利,提高資源訪問(wèn)效率。
〔關(guān)鍵詞〕EZproxy;日志分析;電子資源;異常訪問(wèn)行為;惡意下載
DOI:10.3969/j.issn.1008-0821.2016.07.018
〔中圖分類(lèi)號(hào)〕G2520〔文獻(xiàn)標(biāo)識(shí)碼〕B〔文章編號(hào)〕1008-0821(2016)07-0101-06
電子文獻(xiàn)資源作為特殊文獻(xiàn)資源類(lèi)型在高校圖書(shū)館的資源保障建設(shè)中發(fā)揮著越來(lái)越重要的作用,日益成為高校圖書(shū)館文獻(xiàn)資源保障體系中不可或缺的重要組成部分,是教學(xué)科研人員的必備工具[1]。為了方便各類(lèi)讀者在校外使用學(xué)校的電子資源,很多高校圖書(shū)館開(kāi)通了校外遠(yuǎn)程訪問(wèn)電子資源方式。校外訪問(wèn)電子資源,是指非校園網(wǎng)讀者突破數(shù)據(jù)庫(kù)資源校內(nèi)IP地址的訪問(wèn)限制,隨時(shí)隨地訪問(wèn)學(xué)校購(gòu)買(mǎi)的數(shù)據(jù)庫(kù)資源。
EZproxy是實(shí)現(xiàn)校外遠(yuǎn)程訪問(wèn)圖書(shū)館電子資源的一款代理軟件,在國(guó)外高校圖書(shū)館被廣泛使用,其中絕大部分讀者為各類(lèi)科研機(jī)構(gòu)和高等院校[2]。EZproxy采用“URL重寫(xiě)”技術(shù)實(shí)現(xiàn),讀者在使用EZproxy訪問(wèn)它代理的電子資源時(shí),不需要在客戶(hù)端瀏覽器上安裝插件,也不需要修改設(shè)置,只需驗(yàn)證已經(jīng)被授權(quán)的帳號(hào)和密碼就能訪問(wèn)被代理的電子資源[3]。EZproxy代理電子資源時(shí)縮短了url,隱藏了實(shí)際路徑,提高了訪問(wèn)的安全性。EZproxy還提供接口程序,方便編程人員編寫(xiě)外部程序?qū)崿F(xiàn)與本地應(yīng)用系統(tǒng)的集成對(duì)接。EZproxy日志記錄了訪問(wèn)者信息和資源訪問(wèn)量,極大的方便了管理人員對(duì)所購(gòu)買(mǎi)的電子資源的使用情況進(jìn)行監(jiān)控和分析。本文設(shè)計(jì)的EZproxy日志分析系統(tǒng)就是通過(guò)EZproxy日志信息發(fā)掘讀者在訪問(wèn)電子資源時(shí)的異常訪問(wèn)行為。
1異常訪問(wèn)行為
校外訪問(wèn)電子資源在方便讀者的同時(shí)也出現(xiàn)一些訪問(wèn)電子資源的異常行為,個(gè)別讀者訪問(wèn)電子資源時(shí),采用不正當(dāng)?shù)脑L問(wèn)方式、或出于特殊目的惡意下載電子資源給圖書(shū)館電子資源合法使用帶來(lái)不良影響[4]。異常行為主要有:(1)個(gè)人出于不良目的長(zhǎng)期連續(xù)下載數(shù)據(jù)資源。(2)故意或無(wú)意泄露個(gè)人賬戶(hù)和密碼供其他非法機(jī)構(gòu)或個(gè)人長(zhǎng)期惡意下載數(shù)據(jù)庫(kù)中數(shù)據(jù)資源。(3)使用數(shù)據(jù)庫(kù)廠商不允許的下載行為,如在數(shù)據(jù)庫(kù)的下載過(guò)程中使用專(zhuān)門(mén)的工具或者啟用多線程方式下載數(shù)據(jù)。(4)數(shù)據(jù)資源下載數(shù)量遠(yuǎn)遠(yuǎn)超過(guò)數(shù)據(jù)庫(kù)商服務(wù)允許的下載行為,數(shù)據(jù)庫(kù)服務(wù)商為了保護(hù)自己的利益,一般都明確規(guī)定不允許讀者一次性下載某種期刊同期半數(shù)以上的全文數(shù)據(jù)資源[5]。
異常訪問(wèn)行為在一定時(shí)間范圍內(nèi)占用了大量數(shù)據(jù)庫(kù)服務(wù)商提供的帶寬資源,從而影響其他合法讀者的正常服務(wù)請(qǐng)求,還可能導(dǎo)致數(shù)據(jù)資源被盜用[4]。由于訪問(wèn)行為沒(méi)有遵守電子數(shù)據(jù)庫(kù)相關(guān)版權(quán)協(xié)議,被數(shù)據(jù)庫(kù)商服務(wù)器甄別為惡意下載而自動(dòng)被封掉IP字段,導(dǎo)致圖書(shū)館全部讀者的訪問(wèn)被臨時(shí)中斷。惡意下載侵害數(shù)據(jù)庫(kù)商的版權(quán),影響了圖書(shū)館的聲譽(yù),使得圖書(shū)館的讀者正常訪問(wèn)電子資源的權(quán)利受到侵犯。這種情況在高校圖書(shū)館中經(jīng)常發(fā)生。
北京工業(yè)大學(xué)圖書(shū)館2013年1月因?yàn)椤凹t動(dòng)數(shù)據(jù)”導(dǎo)致學(xué)校訪問(wèn)知網(wǎng)的IP被臨時(shí)封掉,師生無(wú)法正常訪問(wèn)CNKI數(shù)據(jù)庫(kù)。2014年北京工業(yè)大學(xué)圖書(shū)館因讀者的不良訪問(wèn)行為受到美國(guó)ACS數(shù)據(jù)庫(kù)的警告提醒。其他高校圖書(shū)館關(guān)于電子資源惡意下載的情況也是頻繁出現(xiàn)。浙江大學(xué)圖書(shū)館網(wǎng)站報(bào)道該校圖書(shū)館數(shù)據(jù)庫(kù)資源由于惡意下載事件,導(dǎo)致圖書(shū)館IP被封,導(dǎo)致部分師生無(wú)法正常使用美國(guó)物理學(xué)會(huì)APS、An.nual Reviews等數(shù)據(jù)庫(kù),在2011年9月5日發(fā)布了《關(guān)于提醒讀者合理規(guī)范使用數(shù)據(jù)庫(kù)的通知》[6]。清華大學(xué)圖書(shū)館網(wǎng)站版權(quán)公告顯示,從2003-2014年因非法惡意超量下載圖書(shū)館數(shù)據(jù)資源被圖書(shū)館通報(bào)批評(píng)的事件就有60多起[7]。隨著讀者對(duì)電子資源使用需求的增加,全國(guó)高校圖書(shū)館加大了電子資源的訂購(gòu)量,電子資源異常訪問(wèn)現(xiàn)象頻繁發(fā)生。如何防范和應(yīng)對(duì)電子資源的異常訪問(wèn)行為成為各大高校圖書(shū)館共同面臨的問(wèn)題[4]。
2EZproxy日志的處理
21EZproxy日志的特征
為了方便電子資源的管理和使用安全,北京工業(yè)大學(xué)圖書(shū)館從2006年開(kāi)始把EZproxy代理服務(wù)器作為校內(nèi)外電子資源訪問(wèn)的統(tǒng)一入口[8]。EZproxy代理服務(wù)器自動(dòng)記錄訪問(wèn)日志,每天生成1個(gè)TXT型的日志文件,文件記錄了讀者通過(guò)EZproxy代理服務(wù)器訪問(wèn)電子資源的詳細(xì)信息,通過(guò)對(duì)日志數(shù)據(jù)的統(tǒng)計(jì)分析挖掘出讀者使用電子資源的情況和各種異常使用電子資源的行為。因此開(kāi)發(fā)基于EZproxy日志的分析系統(tǒng)來(lái)幫助工作人員統(tǒng)計(jì)發(fā)掘讀者訪問(wèn)行為成為可能。
EZproxy日志的主要特點(diǎn)是:數(shù)據(jù)量大,每天1個(gè)日志文件,北京工業(yè)大學(xué)圖書(shū)館電子資源訪問(wèn)日志文件大小為100M左右的文本文件,訪問(wèn)量多時(shí)曾經(jīng)達(dá)到500M;校外訪問(wèn)能記錄讀者IP或者讀者ID,便于統(tǒng)計(jì)分析,校內(nèi)訪問(wèn)的讀者名為auto,對(duì)讀者行為統(tǒng)計(jì)分析只能以IP地址為準(zhǔn)。根據(jù)EZproxy日志特征確定日志處理流程如圖1所示,設(shè)計(jì)并開(kāi)發(fā)EZproxy日志分析系統(tǒng),系統(tǒng)把預(yù)處理后的EZproxy日志文件裝入數(shù)據(jù)庫(kù)中,按照日期、讀者類(lèi)別、訪問(wèn)次數(shù)、IP地址等對(duì)數(shù)據(jù)完成統(tǒng)計(jì)分析,發(fā)掘異常訪問(wèn)行為,對(duì)相關(guān)結(jié)果進(jìn)行可視化處理。通過(guò)EZproxy日志分析系統(tǒng),發(fā)現(xiàn)異常訪問(wèn)行為及時(shí)解決,有利于維護(hù)圖書(shū)館讀者的合法權(quán)利,提高電子資源訪問(wèn)效率,保護(hù)數(shù)據(jù)庫(kù)商的版權(quán)。圖1EZproxy日志處理流程
22EZproxy日志基本格式
EZproxy代理服務(wù)器生成的電子資源訪問(wèn)日志是Web日志標(biāo)準(zhǔn)格式,基本格式為:
LogFormat %h %{ezproxy-session}i %u %t″%r″%s %b
其中各項(xiàng)內(nèi)容的含義說(shuō)明如表1所示。
第一條日志說(shuō)明IP地址為172.23.50.197,讀者賬號(hào)為auto的讀者,該讀者在校內(nèi)訪問(wèn)資源,在20014年10月13日8點(diǎn)54分52秒,請(qǐng)求連接頁(yè)面http:∥www.sciencedirect.com:80/science/frag/0141029688900466/5ab…,訪問(wèn)的傳輸協(xié)議是HTTP 11。讀者會(huì)話標(biāo)識(shí)是jgf0qvTlfiznkMg,本次訪問(wèn)請(qǐng)求成功并完成1 830字節(jié)的數(shù)據(jù)傳輸,返回表示成功鏈接的狀態(tài)碼200。
123.123.250.5 BBisN8vM48mBqCh 05xxx[13/Oct/2014∶15∶03∶42+0800]″GET http:∥ac.els-cdn.com:80/S01429 61214009120/1-s2.0-S014…669a2 HTTP/11″206 4827
第二條日志說(shuō)明賬戶(hù)05xxx的讀者在校外訪問(wèn)電子資源,請(qǐng)求成功傳輸了4 287個(gè)字節(jié)的數(shù)據(jù),返回表示服務(wù)器已經(jīng)成功處理了部分GET請(qǐng)求的狀態(tài)碼206。
EZproxy代理服務(wù)器的日志文件由若干條上述訪問(wèn)記錄組成,記錄信息中數(shù)據(jù)項(xiàng)之間以空格作為分隔符,方便數(shù)據(jù)導(dǎo)入關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行挖掘分析。文件的大小與電子資源的訪問(wèn)量有關(guān)。
23EZproxy日志預(yù)處理
EZproxy代理服務(wù)器生成的原始日志文件數(shù)據(jù)量大,記錄了讀者訪問(wèn)電子資源的全部信息。當(dāng)讀者通過(guò)EZproxy代理服務(wù)器訪問(wèn)數(shù)據(jù)庫(kù)電子資源時(shí),與讀者訪問(wèn)信息無(wú)關(guān)的內(nèi)容,如網(wǎng)頁(yè)上相關(guān)圖片、音頻、Flash文件等會(huì)自動(dòng)下載并記錄在日志中。EZproxy訪問(wèn)日志文件需要經(jīng)過(guò)預(yù)處理,篩除無(wú)關(guān)信息。預(yù)處理方法主要有:數(shù)據(jù)清洗、讀者識(shí)別和會(huì)話識(shí)別等。數(shù)據(jù)清洗主要是把URL請(qǐng)求信息后綴中包含jpg、swf、gif、jpeg、css等的記錄清除,然后通過(guò)返回狀態(tài)碼對(duì)日志文件中的記錄分類(lèi)別處理,返回狀態(tài)代碼為200~299的表示電子資源網(wǎng)站成功響應(yīng)客戶(hù)端請(qǐng)求,記錄數(shù)據(jù)予以保留;返回狀態(tài)代碼為300~599表示各種不同類(lèi)別的錯(cuò)誤,屬于無(wú)用記錄,需要?jiǎng)h除。
用戶(hù)識(shí)別是將用戶(hù)與EZproxy代理服務(wù)器請(qǐng)求的電子資源頁(yè)面相關(guān)聯(lián),記錄讀者訪問(wèn)的信息。EZproxy代理服務(wù)器通過(guò)IP地址和用戶(hù)ID兩個(gè)數(shù)據(jù)項(xiàng)標(biāo)識(shí)用戶(hù)的信息屬性。為了方便讀者在校內(nèi)訪問(wèn)電子資源,北京工業(yè)大學(xué)圖書(shū)館允許校園網(wǎng)內(nèi)讀者直接用Auto身份自動(dòng)登錄EZproxy代理服務(wù)器訪問(wèn)電子資源,在日志分析時(shí)為了識(shí)別不同讀者的訪問(wèn)信息,通過(guò)‘Auto+IP地址(校內(nèi)IP地址)的形式作為識(shí)別不同讀者的信息,校外訪問(wèn)的讀者需要登錄到EZproxy代理服務(wù)器上訪問(wèn)電子資源,日志信息直接記錄讀者ID作為用戶(hù)識(shí)別標(biāo)識(shí)。
會(huì)話是各類(lèi)讀者在訪問(wèn)電子資源網(wǎng)站期間(從登錄到資源網(wǎng)站到離開(kāi)網(wǎng)站)所進(jìn)行的全部訪問(wèn)行為。EZproxy代理服務(wù)器在讀者請(qǐng)求成功建立鏈接時(shí)生成Session ID來(lái)標(biāo)識(shí)一個(gè)會(huì)話,記錄讀者在此次會(huì)話活動(dòng)中所做的訪問(wèn)。在對(duì)日志文件進(jìn)行分析時(shí),日志文件被導(dǎo)入數(shù)據(jù)庫(kù)后,通過(guò)過(guò)濾session ID,找出讀者某次會(huì)話的全部訪問(wèn)信息并進(jìn)行分析處理,判定會(huì)話中是否存在異常訪問(wèn)行為。
24EZproxy日志分析系統(tǒng)
為了實(shí)現(xiàn)EZproxy日志的自動(dòng)處理與分析,設(shè)計(jì)并開(kāi)發(fā)了EZproxy日志分析系統(tǒng),系統(tǒng)的基本功能如圖2所示。日志分析系統(tǒng)首先完成日志數(shù)據(jù)預(yù)處理并上傳到數(shù)據(jù)庫(kù)服務(wù)器,然后對(duì)數(shù)據(jù)分析處理發(fā)掘異常訪問(wèn)行為的賬號(hào)或者IP地址,實(shí)現(xiàn)基于日志分析的異常訪問(wèn)行為檢測(cè),并對(duì)部分?jǐn)?shù)據(jù)進(jìn)行可視化展示。EZproxy日志分析系統(tǒng)主要包括身份驗(yàn)證、日志導(dǎo)入、日志刪除、批量日志導(dǎo)入、異常IP發(fā)掘、異常賬號(hào)發(fā)掘和流量可視化7個(gè)基本功能模塊。
241系統(tǒng)的功能需求
身份驗(yàn)證模塊主要完成登錄用戶(hù)驗(yàn)證功能。為保證系統(tǒng)的安全,對(duì)登錄系統(tǒng)的用戶(hù)身份進(jìn)行合法驗(yàn)證,通過(guò)驗(yàn)證的用戶(hù)可以使用系統(tǒng)。
圖2EZproxy日志分析系功能模塊
日志導(dǎo)入主要完成日志上傳到數(shù)據(jù)庫(kù)中,按照系統(tǒng)要求對(duì)日志中的記錄進(jìn)行預(yù)處理,完成數(shù)據(jù)清洗、讀者識(shí)別和會(huì)話識(shí)別,保證傳入數(shù)據(jù)庫(kù)中的數(shù)據(jù)符合系統(tǒng)處理的要求。為方便日志文件導(dǎo)入,設(shè)計(jì)兩個(gè)功能模塊,單日志文件導(dǎo)入模塊,每次導(dǎo)入1個(gè)日志文件。批量日志導(dǎo)入模塊每次導(dǎo)入1批日志文件,方便批量日志數(shù)據(jù)的處理。日志刪除模塊主要是刪除已經(jīng)上傳到服務(wù)器中無(wú)用的日志文件。
異常IP發(fā)掘模塊按照用戶(hù)IP地址統(tǒng)計(jì)用戶(hù)的下載量,在限定時(shí)間內(nèi)下載量過(guò)大的IP地址為異常IP地址,然后對(duì)IP的訪問(wèn)量進(jìn)行深入分析,找出原因。異常賬戶(hù)發(fā)掘功能模塊是按照用戶(hù)賬號(hào)發(fā)掘用戶(hù)異常訪問(wèn)行為。校外訪問(wèn)電子資源的用戶(hù)賬號(hào)在單位時(shí)間內(nèi)下載量過(guò)大、登陸次數(shù)過(guò)多、使用IP地址過(guò)多都屬于異常行為,通過(guò)統(tǒng)計(jì)分析,發(fā)掘異常賬戶(hù)。流量可視化模塊主要是分時(shí)段統(tǒng)計(jì)讀者1天的訪問(wèn)量并繪制出來(lái)折線圖,以期揭示讀者的訪問(wèn)行為。
242數(shù)據(jù)庫(kù)的設(shè)計(jì)
根據(jù)EZproxy日志分析系統(tǒng)功能需求,設(shè)計(jì)系統(tǒng)的數(shù)據(jù)庫(kù),主要有4個(gè)數(shù)據(jù)庫(kù)表:系統(tǒng)用戶(hù)表、日志數(shù)據(jù)表、異常用戶(hù)表,異常IP表。系統(tǒng)用戶(hù)表主要存放用戶(hù)信息,有用戶(hù)ID、用戶(hù)名、密碼、創(chuàng)建時(shí)間4個(gè)主要字段。
日志數(shù)據(jù)存放日志數(shù)據(jù)信息,每天的日志信息存放在1個(gè)日志數(shù)據(jù)表,主要字段有登錄IP、會(huì)話ID、用戶(hù)ID、操作類(lèi)型、操作時(shí)間、訪問(wèn)串、協(xié)議、返回狀態(tài)、訪問(wèn)流量等,基本結(jié)構(gòu)如表2所示。
243系統(tǒng)主要功能模塊的設(shè)計(jì)
日志導(dǎo)入模塊的設(shè)計(jì):日志導(dǎo)入模塊主要是完成日志數(shù)據(jù)的上傳,EZproxy日志代理服務(wù)器每天生成1個(gè)日志文件,每1個(gè)日志文件上傳到數(shù)據(jù)庫(kù)系統(tǒng)生成1個(gè)日志文件表,以日志數(shù)據(jù)生成的日期為表名,方便實(shí)現(xiàn)對(duì)數(shù)據(jù)的分析與挖掘。日志導(dǎo)入模塊的主要流程如圖3所示。首先連接到數(shù)據(jù)庫(kù),選擇需要導(dǎo)入的日志文件,系統(tǒng)根據(jù)日志文件的日期檢查數(shù)據(jù)中是否已經(jīng)上傳了日志信息,如果已經(jīng)上傳過(guò),重新選擇要上傳的日志文件。如果沒(méi)有,在數(shù)據(jù)庫(kù)中創(chuàng)建日志數(shù)據(jù)表,然后上傳日志數(shù)據(jù),并對(duì)每1條日志記錄按照要求進(jìn)行驗(yàn)證。最后完成日志文件的導(dǎo)入并生成日志文件導(dǎo)入報(bào)告,統(tǒng)計(jì)上傳的日志條數(shù)和沒(méi)有上傳的日志信息。
異常賬號(hào)發(fā)掘模塊的設(shè)計(jì):異常賬號(hào)發(fā)掘模塊是按照異常訪問(wèn)特征發(fā)掘不正常使用數(shù)據(jù)庫(kù)讀者賬號(hào),并查找該賬戶(hù)的訪問(wèn)信息。首先選擇要發(fā)掘異常訪問(wèn)賬戶(hù)的日期,然后設(shè)置異常訪問(wèn)特征參數(shù),異常訪問(wèn)參數(shù)是以每日訪問(wèn)信息為基準(zhǔn),每日訪問(wèn)總流量操過(guò)一定的數(shù)值即為異常,主要異常參數(shù)有訪問(wèn)總流量異常、會(huì)話個(gè)數(shù)異常、使用的IP地址個(gè)數(shù)異常,異常情況有單個(gè)參數(shù)異常,或者全部參數(shù)都異常。根據(jù)生成的異常賬戶(hù)清單可以查詢(xún)單個(gè)異常賬戶(hù)的訪問(wèn)信息,并可以導(dǎo)出XLS文件。
流量可視化模塊的設(shè)計(jì):流量可視化模塊按照讀者類(lèi)型把讀者在1天內(nèi)不同時(shí)間段信息訪問(wèn)量生成時(shí)間趨勢(shì)圖展示。首先選擇匯總的日期,設(shè)置需要展示的讀者類(lèi)別,系統(tǒng)把讀者分成教工、博士生、碩士研究生、本科生、其他人員等5種類(lèi)別讀者,按照類(lèi)別統(tǒng)計(jì)讀者的訪問(wèn)量,調(diào)用微軟的可視化插件繪制折線圖。通過(guò)分析折線圖,可以了解不同類(lèi)型讀者校外訪問(wèn)電子資源的情況,有助于進(jìn)一步分析讀者的訪問(wèn)行為。
244系統(tǒng)的實(shí)現(xiàn)
EZproxy日志分析系統(tǒng)使用C#語(yǔ)言設(shè)計(jì)實(shí)現(xiàn),開(kāi)發(fā)平臺(tái)為Microsoft Visual Studio 2010,數(shù)據(jù)庫(kù)使用SQL Server 2012。系統(tǒng)的運(yùn)行界面如圖6所示。
3基于Ezproxy日志分析的異常訪問(wèn)行為分析
使用EZproxy日志分析系統(tǒng),完成北京工業(yè)大學(xué)圖書(shū)館
2000年1月到2014年12月的電子資源校外訪問(wèn)日志的預(yù)處理并裝入指定的數(shù)據(jù)庫(kù),通過(guò)對(duì)日志數(shù)據(jù)分析與發(fā)掘,發(fā)現(xiàn)校外訪問(wèn)電子資源的異常訪問(wèn)行為主要有以下幾種情況:
①校外訪問(wèn)電子資源讀者賬戶(hù)流量異常,正常情況下校外訪問(wèn)電子資源的賬戶(hù)日均訪問(wèn)流量在500M左右,系統(tǒng)統(tǒng)計(jì)發(fā)現(xiàn)有個(gè)別賬戶(hù)日訪問(wèn)電子資源流量已經(jīng)達(dá)到1G,最多時(shí)單日流量達(dá)到4G多,如圖7所示,賬戶(hù)為G2010010XX(研究生賬戶(hù))的讀者,2013年04月11日流量達(dá)到68G,2013年04月10日流量達(dá)到65G,2013年04月08日流量達(dá)到40G,訪問(wèn)流量存在明顯的異常,說(shuō)明該賬戶(hù)在此期間可能存在惡意下載圖書(shū)館電子資源的行為。
②校外訪問(wèn)電子資源時(shí)讀者賬戶(hù)使用的IP地址數(shù)量多,登錄次數(shù)(會(huì)話數(shù))多,有個(gè)別賬戶(hù)單日使用的IP地址數(shù)超過(guò)100個(gè),最多達(dá)到800個(gè),登錄次數(shù)超過(guò)100次,如圖8、圖9所示,賬戶(hù)G2010070XX(研究生賬戶(hù))的讀者,2013年01月08日單日使用的IP地址數(shù)是498個(gè),登錄次數(shù)達(dá)到7 953次,賬戶(hù)G2010010XX(研究生賬戶(hù))的讀者,2013年04月11日單日使用的IP地址是1 423個(gè),登錄次數(shù)達(dá)到了2 473次,某教工賬戶(hù)2014年05月06日單日使用的IP地址是700個(gè),登錄次數(shù)達(dá)到了66次,這些賬戶(hù)可能被非法盜用。
③校外訪問(wèn)電子資源時(shí)賬戶(hù)登錄1次(單會(huì)話)卻出現(xiàn)多個(gè)IP地址訪問(wèn),并且該登錄會(huì)話數(shù)日沒(méi)有中斷。如圖10所示,某教工賬戶(hù)在2014年08月19日登錄電子資源校外訪問(wèn)系統(tǒng),會(huì)話一直沒(méi)有中斷,直到2014年08月27日,我們?cè)趯?duì)系統(tǒng)進(jìn)行維護(hù)時(shí)發(fā)現(xiàn)異常,強(qiáng)行中斷這個(gè)會(huì)話,期間,每天都有數(shù)十個(gè)甚至上百個(gè)IP地址通過(guò)這個(gè)會(huì)話訪問(wèn)電子資源。
④EZproxy日志文件大小異常情況,正常情況下日志文件的大小為200M左右,在統(tǒng)計(jì)分析時(shí)發(fā)現(xiàn)有部分日志文件達(dá)到了G級(jí)別,如圖11所示,最高一天2014年4月19日日志文件達(dá)到28G Byte,經(jīng)分析,日志記錄總數(shù)370多萬(wàn)條,校外有賬號(hào)訪問(wèn)記錄信息僅有14萬(wàn)條,無(wú)會(huì)話標(biāo)識(shí)無(wú)賬號(hào)的訪問(wèn)350多萬(wàn)條記錄信息,系統(tǒng)可能遭到非法攻擊。
4異常訪問(wèn)行為的處理措施
通過(guò)分析北京工業(yè)大學(xué)近幾年校外訪問(wèn)電子資源日志,發(fā)現(xiàn)讀者在校外訪問(wèn)電子資源時(shí),大部分讀者都能夠按照學(xué)校的要求合法的訪問(wèn)電子資源,但少部分讀者在使用電子資源時(shí)存在各種異常行為。北京工業(yè)大圖書(shū)館首先對(duì)出現(xiàn)異常訪問(wèn)行為的讀者賬戶(hù)進(jìn)行集中處理,臨時(shí)限制異常賬戶(hù)的校外訪問(wèn)權(quán)限,聯(lián)系讀者,查找發(fā)生異常訪問(wèn)行為的原因,及時(shí)解決。同時(shí)完善相關(guān)管理規(guī)定,減少校外訪問(wèn)電子資源異常行為的發(fā)生。主要采取的措施如下:
①?gòu)拇矸?wù)器EZproxy軟件設(shè)置入手,調(diào)整EZproxy的訪問(wèn)策略,嚴(yán)格限制讀者訪問(wèn)權(quán)限。EZproxy軟件提供了強(qiáng)大的讀者訪問(wèn)服務(wù)器的管理功能,通過(guò)限制登錄等設(shè)置,可以在一定程度上遏制異常訪問(wèn)行為的發(fā)生。如規(guī)定每個(gè)賬戶(hù)每小時(shí)的最大下載量不操過(guò)500M,每個(gè)會(huì)話在20分鐘內(nèi)沒(méi)有訪問(wèn)需要重新登陸,讀者會(huì)話連續(xù)訪問(wèn)超過(guò)3個(gè)小時(shí)強(qiáng)制掉線1次。
②加強(qiáng)對(duì)讀者宣傳教育,增加讀者對(duì)圖書(shū)館電子資源的安全訪問(wèn)意識(shí)。有些讀者認(rèn)為電子資源可以隨便免費(fèi)使用,在開(kāi)通校外訪問(wèn)電子資源后,不及時(shí)修改初始密碼,或者隨意把賬戶(hù)借給他人使用造成賬戶(hù)被盜用或亂用現(xiàn)象。
③制定嚴(yán)格的北京工業(yè)大學(xué)圖書(shū)館電子資源校外訪問(wèn)管理辦法,對(duì)于故意提供賬戶(hù)供非法讀者惡意訪問(wèn)的行為嚴(yán)格處理,通知所在學(xué)院或者部門(mén),在圖書(shū)館網(wǎng)站公示處理結(jié)果,達(dá)到警示教育的目的。
④EZproxy代理服務(wù)器日志分析常態(tài)化,每周做1次日志統(tǒng)計(jì)分析,及時(shí)發(fā)現(xiàn)讀者可能出現(xiàn)的異常訪問(wèn)行為并處理解決,避免出現(xiàn)個(gè)別讀者長(zhǎng)期惡意訪問(wèn)電子資源造成的不良后果。
5小結(jié)
通過(guò)使用EZproxy日志分析系統(tǒng),發(fā)現(xiàn)電子資源校外訪問(wèn)異常賬戶(hù),對(duì)異常訪問(wèn)情況分類(lèi)別進(jìn)行處理,基本解決了異常訪問(wèn)行為導(dǎo)致我校電子資源被數(shù)據(jù)庫(kù)商臨時(shí)封掉IP的現(xiàn)象,提高了正常使用電子資源讀者的訪問(wèn)效率,保障了圖書(shū)館所購(gòu)買(mǎi)電子資源的安全合法的使用。如果EZproxy日志分析系統(tǒng)能夠?qū)崿F(xiàn)實(shí)時(shí)處理日志,并對(duì)異常訪問(wèn)現(xiàn)象及時(shí)報(bào)警,有利于發(fā)現(xiàn)異常訪問(wèn)現(xiàn)象并做出及時(shí)處理,提升電子資源的訪問(wèn)效率和讀者的滿意度,保障圖書(shū)館電子資源合理高效的使用。
參考文獻(xiàn)
[1]勾丹,鄭洋洋.我國(guó)高校圖書(shū)館電子資源利用現(xiàn)狀與對(duì)策[J].圖書(shū)館學(xué)研究,2008,(11):85-87.
[2]黨洪莉.利用EZproxy實(shí)現(xiàn)圖書(shū)館電子資源的遠(yuǎn)程訪問(wèn)[J].圖書(shū)館研究與工作,2008,(1):33-35.
[3]陳光鋒.EZproxy在校外訪問(wèn)服務(wù)中的應(yīng)用分析[J].圖書(shū)館學(xué)研究,2008,(10):31-34.
[4]時(shí)彤,郭青,馮佳,等.高校圖書(shū)館電子資源惡意下載現(xiàn)狀及對(duì)策[J].醫(yī)學(xué)信息學(xué)雜志,2011,(12):63-66.
[5]鄒榮,張成昱,姜愛(ài)蓉,等.電子資源訪問(wèn)管理與控制系統(tǒng)的設(shè)計(jì)及應(yīng)用[J].圖書(shū)情報(bào)工作,2010,(1):121-124.
[6]浙江大學(xué)圖書(shū)館關(guān)于再次提醒讀者規(guī)范使用數(shù)據(jù)庫(kù)的通知[BE/OL].http:∥libweb.zju.edu.cn/libweb/redir.php?catalogid=49221&objectid=34042,2014-09-18.
[7]違規(guī)使用電子資源的處理情況[BE/OL].http:∥lib.tsinghua.edu.cn/database/copyrightcase.html,2015-05-20.
[8]郭振英,趙文兵,魏育輝.電子資源日志統(tǒng)計(jì)系統(tǒng)分析與設(shè)計(jì)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2008,(9):102-106.
(本文責(zé)任編輯:孫國(guó)雷)