国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘技術(shù)的高校圖書(shū)館個(gè)性化書(shū)目推薦服務(wù)研究

2015-12-27 05:42陶碩馬鞍山職業(yè)技術(shù)學(xué)院安徽馬鞍山243000
綏化學(xué)院學(xué)報(bào) 2015年11期
關(guān)鍵詞:館藏數(shù)據(jù)挖掘個(gè)性化

陶碩(馬鞍山職業(yè)技術(shù)學(xué)院 安徽馬鞍山 243000)

基于數(shù)據(jù)挖掘技術(shù)的高校圖書(shū)館個(gè)性化書(shū)目推薦服務(wù)研究

陶碩
(馬鞍山職業(yè)技術(shù)學(xué)院 安徽馬鞍山 243000)

數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館個(gè)性化書(shū)目推薦服務(wù)中的應(yīng)用很有必要,闡述個(gè)性化書(shū)目推薦服務(wù)系統(tǒng)的設(shè)計(jì)目的和設(shè)計(jì)思路,設(shè)計(jì)了個(gè)性化書(shū)目推薦系統(tǒng)的整體構(gòu)架、功能模塊和工作流程,最后指出了數(shù)據(jù)挖掘的主要實(shí)施過(guò)程,數(shù)據(jù)源的選取和借閱信息處理等。

數(shù)據(jù)挖掘技術(shù);個(gè)性化服務(wù);書(shū)目推薦;高校圖書(shū)館

數(shù)據(jù)挖掘又可以認(rèn)為是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí),是一個(gè)對(duì)大量數(shù)據(jù)進(jìn)行分析的復(fù)雜過(guò)程,通過(guò)這一過(guò)程可以把未知的、有價(jià)值的模式等知識(shí)抽取挖掘出來(lái)。數(shù)據(jù)挖掘設(shè)計(jì)的學(xué)科領(lǐng)域很多,是一個(gè)交叉學(xué)科領(lǐng)域,使用的方法也很多,包括數(shù)據(jù)庫(kù)技術(shù)、神經(jīng)網(wǎng)絡(luò)、可視化等等。

一、數(shù)據(jù)挖掘技術(shù)應(yīng)用在高校圖書(shū)館個(gè)性化書(shū)目推薦服務(wù)中的必要性

(一)高校圖書(shū)館信息資源極大豐富化的需要。圖書(shū)館經(jīng)過(guò)這么多年的積累和沉淀不僅有濃厚的文化氛圍,更有系統(tǒng)的專(zhuān)業(yè)知識(shí)和豐富的館藏資源是互聯(lián)網(wǎng)資源無(wú)法可比的。伴隨著人們對(duì)與數(shù)字圖書(shū)館相關(guān)的多媒體大數(shù)據(jù)信息的研究,圖書(shū)館與網(wǎng)絡(luò)技術(shù)的結(jié)合也逐漸成為一種趨勢(shì)。現(xiàn)在,人們對(duì)館藏資源可視化的研究主要包括可視化檢索的研究和可視化檢索結(jié)果的研究。數(shù)字圖書(shū)館信息資源可視化當(dāng)前突出的問(wèn)題,不只是數(shù)據(jù)資源的豐富和可視化效果要好,館藏資源的數(shù)字化過(guò)程也是個(gè)大問(wèn)題,有些資源的保存介質(zhì)是很久以前的紙質(zhì),這些信息數(shù)據(jù)的數(shù)據(jù)庫(kù)錄入工作就不是件容易事,這在很大程度影響到數(shù)字圖書(shū)館的館藏資源的可視化過(guò)程。

(二)高校圖書(shū)館用戶信息需求的多樣化的要求。在高校圖書(shū)館中,用戶信息需求有其多樣化的特點(diǎn)[1],主要表現(xiàn)在三個(gè)方面:首先是用戶信息需求主體的多樣化,需求主體多樣化導(dǎo)致信息用戶不斷增多,不斷增多的用戶群體之間又存在不同的信息需求;其次是信息需求內(nèi)容的多樣化,需求內(nèi)容多樣化使得用戶有了更多可選擇的信息源,不同的用戶可以獲取不同的信息內(nèi)容;最后是用戶信息需求方式的多樣化,需求方式的多樣化提供了更多的途徑方便用戶獲取信息。不同的用戶可以根據(jù)自己本身的閱讀需求,從高校圖書(shū)館中可以自由選擇信息獲取的方式和內(nèi)容。

二、數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用

(一)圖書(shū)文獻(xiàn)推薦工作中的應(yīng)用。高校圖書(shū)館中最主要、最基礎(chǔ)的就是圖書(shū)文獻(xiàn)資源,圖書(shū)館中文獻(xiàn)資源的利用率是評(píng)價(jià)圖書(shū)館各項(xiàng)服務(wù)質(zhì)量高低的最主要因素之一,特別是個(gè)性化服務(wù)質(zhì)量的評(píng)價(jià)所占比重更大。所以,在高校圖書(shū)館中,個(gè)性化書(shū)目推薦工作是整個(gè)圖書(shū)館服務(wù)的重點(diǎn)。

采用聚類(lèi)分析或者關(guān)聯(lián)分析的方法研究讀者的歷史借閱數(shù)據(jù)時(shí),數(shù)據(jù)挖掘技術(shù)的利用有利于關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),對(duì)于讀者在圖書(shū)館中圖書(shū)文獻(xiàn)的借閱提供理論支持,簡(jiǎn)單理解也就是不同的讀者借閱的圖書(shū)類(lèi)型不同,而且同一讀者也可能會(huì)借閱不同類(lèi)型的圖書(shū),通過(guò)計(jì)算類(lèi)型相關(guān)圖書(shū)文獻(xiàn)之間的關(guān)聯(lián)規(guī)則,可以分析得到置信度和支持度,進(jìn)而可以構(gòu)建得出讀者的借閱模式,形成圖書(shū)館館藏資源基礎(chǔ)上的圖書(shū)推薦數(shù)據(jù)庫(kù),通過(guò)對(duì)讀者借閱行為的分析從數(shù)據(jù)庫(kù)中推薦相對(duì)有用的圖書(shū)西苑給讀者。例如,通過(guò)關(guān)聯(lián)分析讀者的借閱行為,關(guān)聯(lián)性較強(qiáng)的有計(jì)算機(jī)編程和數(shù)據(jù)庫(kù)類(lèi)型的文獻(xiàn),那么當(dāng)讀者有意向?qū)τ?jì)算機(jī)編程語(yǔ)言圖書(shū)進(jìn)行借閱時(shí),就可以個(gè)性化的向讀者推薦數(shù)據(jù)庫(kù)類(lèi)別的資源,不僅節(jié)省了讀者的查找時(shí)間,還能幫助讀者更好的學(xué)習(xí),圖書(shū)館服務(wù)的質(zhì)量得到提高。

(二)文獻(xiàn)檢索中的應(yīng)用。在高校圖書(shū)館提供的個(gè)性化信息推薦服務(wù)中,其中的重要一環(huán)無(wú)疑就是文獻(xiàn)檢索。在傳統(tǒng)的文獻(xiàn)檢索中,圖書(shū)館僅能把一些簡(jiǎn)單的館藏文獻(xiàn)資源提供給讀者,而不是進(jìn)行個(gè)性化推薦服務(wù),更遑論參考讀者的閱讀喜好和規(guī)律。

圖書(shū)館在對(duì)讀者提供個(gè)性化推薦服務(wù)時(shí),在目標(biāo)的實(shí)現(xiàn)過(guò)程中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以減輕工作強(qiáng)度。首先是數(shù)據(jù)準(zhǔn)備階段,數(shù)據(jù)信息是數(shù)據(jù)的基礎(chǔ),所以數(shù)據(jù)的收集對(duì)應(yīng)的也是數(shù)據(jù)挖掘技術(shù)應(yīng)用的基礎(chǔ),收集的數(shù)據(jù)主要是讀者歷史借閱行為,這種類(lèi)型的數(shù)據(jù)收集本身就是一項(xiàng)巨大的工程,在圖書(shū)館后臺(tái)數(shù)據(jù)庫(kù)中,數(shù)據(jù)資源是海量的,數(shù)據(jù)的收集不僅要收集讀者的歷史借閱激勵(lì),還要把相關(guān)的讀者預(yù)約和續(xù)借等信息都收集起來(lái)。其次,是數(shù)據(jù)篩選和處理階段,該階段的數(shù)據(jù)篩選主要是處理上階段收集到的數(shù)據(jù),包括噪聲和重復(fù)數(shù)據(jù)的消除等。然后把處理后的數(shù)據(jù)進(jìn)行預(yù)處理和轉(zhuǎn)換,至此構(gòu)建完成結(jié)構(gòu)化的數(shù)據(jù)庫(kù),有助于數(shù)據(jù)挖掘算法的進(jìn)一步實(shí)施。第三,是數(shù)據(jù)挖掘階段,該階段是運(yùn)用關(guān)聯(lián)分析和聚類(lèi)分析等方法研究建立的數(shù)據(jù)庫(kù),把不同類(lèi)型讀者閱讀的喜好和借閱書(shū)目信息分析出來(lái)。最后,結(jié)合可視化技術(shù),利用以上分析結(jié)果,把個(gè)性化的文獻(xiàn)推薦服務(wù)提供給讀者,當(dāng)讀者進(jìn)行文獻(xiàn)的檢索時(shí),通過(guò)推薦集把與讀者搜索文獻(xiàn)相關(guān)的其他文獻(xiàn)自動(dòng)推薦給讀者,同時(shí)根據(jù)讀者喜好進(jìn)行相關(guān)優(yōu)秀文獻(xiàn)的推薦,不僅能有效的進(jìn)行讀者的導(dǎo)讀推薦,還能以可視化的方式把有用的數(shù)據(jù)信息呈現(xiàn)給讀者。

(三)館藏書(shū)架管理的優(yōu)化。在高校中,師生教研工作的開(kāi)展進(jìn)程中,作為一個(gè)重要的輔助部門(mén),高校圖書(shū)館的館藏文獻(xiàn)資源十分豐富,其包含的內(nèi)容不僅囊括了本所高校設(shè)置的專(zhuān)業(yè)領(lǐng)域資源,還涉及了其他相關(guān)的研究領(lǐng)域,能極其有效的幫助全校師生的教學(xué)和科研,并能提供給師生個(gè)性化的推薦服務(wù)。高校圖書(shū)館有著種類(lèi)繁多的館藏資源,正是因?yàn)槿绱?,在高校圖書(shū)館科學(xué)發(fā)展中,館藏書(shū)架管理工作的優(yōu)化極為重要,而其中的一個(gè)重點(diǎn)方向就是圖書(shū)文獻(xiàn)變化趨勢(shì)預(yù)估,在書(shū)架上給預(yù)測(cè)出的最新文獻(xiàn)預(yù)留出位置,盡量減少書(shū)架上圖書(shū)的倒架次數(shù),做到舊文獻(xiàn)的及時(shí)剔除,新文獻(xiàn)的迅速上架。

上面所述館藏書(shū)架的優(yōu)化管理,可以通過(guò)數(shù)據(jù)挖掘技術(shù)的引入來(lái)實(shí)現(xiàn),首先針對(duì)圖書(shū)館的歷史圖書(shū)文獻(xiàn)借閱日志,選擇預(yù)測(cè)分析技術(shù)進(jìn)行數(shù)據(jù)分析,選用的方法為回歸與時(shí)序分析方法,可以得出文獻(xiàn)被借閱的周期變化,之后對(duì)整理好的圖書(shū)流通日志進(jìn)行具體分類(lèi),并采用統(tǒng)計(jì)方法對(duì)其進(jìn)行統(tǒng)計(jì)分析,把借閱增幅較大和借閱頻繁的館藏資源挑選出來(lái),并根據(jù)這些數(shù)據(jù)按照排架規(guī)則進(jìn)行圖書(shū)的上架管理,在容易查找的書(shū)架位置放置借閱量較大的館藏資源,并預(yù)留位置給那些借閱增幅較大的館藏文獻(xiàn),使圖書(shū)的倒架次數(shù)減小。最后,要及時(shí)剔除陳舊文獻(xiàn),實(shí)時(shí)更新上架新文獻(xiàn),要對(duì)館藏文獻(xiàn)資源中的圖書(shū)進(jìn)行分類(lèi)分析,統(tǒng)計(jì)出來(lái)已印刷新版的舊版圖書(shū)、擁有過(guò)多副本的館藏圖書(shū)、殘缺破損的圖書(shū)以及規(guī)定時(shí)間已到不予以流通的圖書(shū),按照以上圖書(shū)分類(lèi)分別統(tǒng)計(jì)各類(lèi)圖書(shū)的數(shù)量及其具體所在書(shū)架位置,然后對(duì)整理好的圖書(shū)做到及時(shí)的下架,并將下架信息反饋給相關(guān)管理單位,使圖書(shū)館館藏文獻(xiàn)資源的及時(shí)更新得到保障。

四、基于數(shù)據(jù)挖掘技術(shù)的高校圖書(shū)館個(gè)性化書(shū)目推薦服務(wù)系統(tǒng)設(shè)計(jì)

(一)系統(tǒng)結(jié)構(gòu)設(shè)計(jì)。針對(duì)高校圖書(shū)館設(shè)計(jì)出的個(gè)性化服務(wù)模型圖1可知,其基本流程從第一步的用戶注冊(cè)直至個(gè)性化服務(wù)的提供圖中已經(jīng)有詳細(xì)的示意,首先是采集用戶信息,然后根據(jù)信息數(shù)據(jù)對(duì)整體用戶利用相關(guān)技術(shù)進(jìn)行建模,最后匹配規(guī)則庫(kù)與針對(duì)用戶多構(gòu)建的模型提供給用戶個(gè)性化的信息服務(wù)。

圖1 切其于數(shù)據(jù)挖掘的個(gè)性化系統(tǒng)結(jié)構(gòu)圖

由上圖所示,該個(gè)性化系統(tǒng)主要包括在線推薦模塊和離線挖掘模塊兩大模塊,分別表示為實(shí)線圖和虛線圖,而在知識(shí)庫(kù)中,分別由資源的采集、存儲(chǔ)、加工處理以及最后服務(wù)的提供一起構(gòu)成了知識(shí)的獲得。其中前三層提供數(shù)據(jù)基礎(chǔ)給第四層的資源服務(wù)層進(jìn)行知識(shí)的推送。在該模型中,數(shù)據(jù)采集階段主要是對(duì)一些比較零散的數(shù)字信息進(jìn)行采集,一般情況下包括圖書(shū)館的館藏資源信息,讀者基本信息、借閱記錄以及檢索記錄,最后資源處理階段要對(duì)采集到的信息進(jìn)行加工處理,保證能實(shí)時(shí)進(jìn)行數(shù)據(jù)庫(kù)信息的更新,資源數(shù)據(jù)的時(shí)效性才能得到有效的保證。其知識(shí)資源獲取結(jié)構(gòu)如圖2所示。

圖2 知識(shí)資源獲取結(jié)構(gòu)

在資源采集層中,主要由兩種信息采集方式:一種是自動(dòng)采集方式,讀者在圖書(shū)館進(jìn)行借閱時(shí),系統(tǒng)提取借書(shū)證中的讀者個(gè)人信息并在讀者信息庫(kù)中進(jìn)行存儲(chǔ);一種是對(duì)讀者信息進(jìn)行手工采集,這主要是在讀者借書(shū)證中存在不完全的個(gè)人信息記錄的情況下才會(huì)采用,這部分信息不全的讀者在借書(shū)時(shí),工作人員需要對(duì)讀者遺缺的信息進(jìn)行手工的補(bǔ)充。在資源處理層中,要清理不規(guī)范的數(shù)據(jù)并進(jìn)行適當(dāng)?shù)母袷睫D(zhuǎn)化,使數(shù)字信息可被數(shù)據(jù)挖掘識(shí)別,最后通過(guò)數(shù)據(jù)挖掘,存儲(chǔ)轉(zhuǎn)換后的知識(shí)并提供給讀者個(gè)性化的服務(wù)。

(二)系統(tǒng)功能描述。

首先是收集用戶信息模塊,該模塊還有兩個(gè)子模塊,分別為圖書(shū)信息采集和讀者信息采集模塊。在前一個(gè)模塊中主要是準(zhǔn)備全面的圖書(shū)信息提供給后期的數(shù)據(jù)處理過(guò)程,這些采集的主要內(nèi)容包括書(shū)名、索書(shū)號(hào)、出版社信息以及作者,有些還包括圖書(shū)館分類(lèi)號(hào),在讀者進(jìn)行圖書(shū)的借閱以及個(gè)性化推薦圖書(shū)時(shí)就可以提供給用戶以上詳細(xì)的書(shū)籍信息,方便用戶的使用。后一個(gè)子模塊不僅要收集用戶的注冊(cè)信息,還要更全面的對(duì)能體現(xiàn)用戶個(gè)性的各類(lèi)信息進(jìn)行詳細(xì)的收集。

其次是用戶模型分析模塊,在這個(gè)階段是針對(duì)用戶生成具體模型的,也即是分析上述采集到的信息,將讀者按照數(shù)據(jù)背后隱藏的規(guī)律進(jìn)行分類(lèi),進(jìn)而把讀者借閱模型構(gòu)建出來(lái)。

最后是個(gè)性化推薦模塊,該模塊也是最核心的內(nèi)容所在,推薦算法的不同決定著推薦系統(tǒng)的差異,其具體劃分如下所示:系統(tǒng)過(guò)濾[2];基于內(nèi)容的推薦系統(tǒng)[3];混合推薦系統(tǒng)[4]及基于規(guī)則的推薦系統(tǒng)[5]。

個(gè)性化服務(wù)系統(tǒng)通過(guò)以上三個(gè)模塊的分析,就可以實(shí)現(xiàn)個(gè)性化服務(wù)的提供,不僅展示了圖書(shū)館個(gè)性化服務(wù)個(gè)性化的一面,還可以看出圖書(shū)館個(gè)性化服務(wù)提供的主動(dòng)性。在讀者對(duì)資源沒(méi)有明確的需要時(shí),這種功能根據(jù)讀者的以往借閱記錄,參考與其相似讀者的屬性對(duì)讀者的借閱行為進(jìn)行預(yù)測(cè),從而提供給讀者個(gè)性化的服務(wù)。

(三)系統(tǒng)工作流程??偟墓ぷ髁鞒?,將從讀者和圖書(shū)館的后臺(tái)數(shù)據(jù)庫(kù)兩方面同時(shí)開(kāi)展。首先,從讀者的角度來(lái)說(shuō),根據(jù)網(wǎng)站的注冊(cè)信息在首頁(yè)輸入賬號(hào)和密碼就可以選擇進(jìn)入個(gè)性化界面,實(shí)現(xiàn)人機(jī)交互,對(duì)各類(lèi)書(shū)籍信息進(jìn)行查詢(xún),同時(shí)可以參考系統(tǒng)提供的個(gè)性化推薦。另外,從圖書(shū)館的后臺(tái)數(shù)據(jù)方面來(lái)說(shuō),個(gè)性化系統(tǒng)對(duì)讀者的個(gè)人信息和特點(diǎn)進(jìn)行后臺(tái)的調(diào)取,然后把以上進(jìn)行分類(lèi)再分析,把具體的讀者借閱模型構(gòu)建出來(lái),再利用數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)分析把其中關(guān)聯(lián)關(guān)系最好的資源推薦給讀者。其工作流程如圖3所示。

圖3 系統(tǒng)工作流程

五、結(jié)論

數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館個(gè)性化書(shū)目推薦服務(wù)中應(yīng)用的優(yōu)勢(shì)很明顯。在網(wǎng)絡(luò)時(shí)代背景下圖書(shū)館在數(shù)字化進(jìn)程中館藏文獻(xiàn)資源愈加豐富,在數(shù)字化進(jìn)程中應(yīng)用數(shù)據(jù)挖掘技術(shù)能更好的發(fā)揮出高校圖書(shū)館信息服務(wù)的作用,對(duì)提高圖書(shū)館的服務(wù)質(zhì)量具有重要意義。

[1]楊雪霞.數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館管理系統(tǒng)中的應(yīng)用研究[J].軟件,2012(6).

[2]楊芳.數(shù)據(jù)挖掘在高校圖書(shū)館個(gè)性化信息服務(wù)中的應(yīng)用[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2012(1).

[3]李靜.數(shù)據(jù)挖掘技術(shù)在高校圖書(shū)館個(gè)性化服務(wù)中的應(yīng)用研究[D].天津大學(xué),2012(5).

[4]劉顯顯.基于數(shù)據(jù)挖掘的高校圖書(shū)館個(gè)性化信息推薦方法研究[D].遼寧大學(xué),2013(5).

[5]王斌.數(shù)據(jù)挖掘在高校圖書(shū)館服務(wù)中的應(yīng)用研究[D].西安理工大學(xué),2010(5).

[責(zé)任編輯 鄭麗娟]

G252

A

2095-0438(2015)11-0138-03

2015-06-27

陶碩(1973-),女,安徽樅陽(yáng)人,馬鞍山職業(yè)技術(shù)學(xué)院講師,研究方向:數(shù)據(jù)挖掘。

猜你喜歡
館藏數(shù)據(jù)挖掘個(gè)性化
館藏
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
堅(jiān)持個(gè)性化的寫(xiě)作
博物館的生存之道:館藏能否變賣(mài)?
新聞的個(gè)性化寫(xiě)作
知還印館藏印選——古印篇
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
上汽大通:C2B個(gè)性化定制未來(lái)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
滿足群眾的個(gè)性化需求