劉玉梅 姚寧
關(guān)鍵詞:讀者;數(shù)據(jù)挖掘;圖書館;閱讀社群;構(gòu)建
摘要:大數(shù)據(jù)時(shí)代,基于讀者數(shù)據(jù)挖掘的圖書館構(gòu)建閱讀社群是非常必要的。文章分析了數(shù)據(jù)挖掘與大數(shù)據(jù)的聯(lián)系和區(qū)別,介紹了圖書館閱讀社群讀者行為數(shù)據(jù)挖掘的方法與過程,提出了基于讀者數(shù)據(jù)挖掘的圖書館閱讀社群的構(gòu)建策略。
中圖分類號(hào):G250文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2019)07-0136-03
近年來,大數(shù)據(jù)推動(dòng)了各行各業(yè)的發(fā)展和變化,在一定程度上促進(jìn)了基于數(shù)據(jù)挖掘的圖書館閱讀社群的構(gòu)建,對(duì)于豐富圖書館閱讀社群的服務(wù)形式及提升其服務(wù)質(zhì)量等都起了非常重要的作用。為了更好地促進(jìn)基于讀者數(shù)據(jù)挖掘的圖書館構(gòu)建閱讀社群,對(duì)其展開相應(yīng)的研究是非常必要的。
1數(shù)據(jù)挖掘概述
1.1數(shù)據(jù)挖掘分析
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過程。具體來說,數(shù)據(jù)挖掘具有發(fā)現(xiàn)知識(shí)的重要作用,通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等方法實(shí)現(xiàn)上述目標(biāo)。從大量數(shù)據(jù)中提取的信息一般采用特定的形式表示,如概念、規(guī)則和規(guī)律等。隨著現(xiàn)代信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘的對(duì)象已不再僅限于數(shù)據(jù)庫(kù),慢慢擴(kuò)展到更多領(lǐng)域,如文本系統(tǒng)或其他形式的數(shù)據(jù)組合等。從數(shù)據(jù)中提取的信息以一定的形式加以表示后就形成了模式,數(shù)據(jù)挖掘的主要任務(wù)是從數(shù)據(jù)庫(kù)中找出對(duì)人們有用的數(shù)據(jù)模式,模式分為預(yù)測(cè)型模式和描述型模式兩種[1]。根據(jù)這兩種分類模式,數(shù)據(jù)挖掘的知識(shí)又可分為廣義型知識(shí)、分類型知識(shí)、關(guān)聯(lián)型知識(shí)、預(yù)測(cè)型知識(shí)和偏差型知識(shí)等五種不同類型。目前,數(shù)據(jù)挖掘被廣泛應(yīng)用于金融業(yè)、銷售和零售業(yè)及科學(xué)研究等領(lǐng)域。
1.2大數(shù)據(jù)概述
近年來,隨著計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)、存儲(chǔ)技術(shù)及云計(jì)算技術(shù)的快速發(fā)展,大數(shù)據(jù)逐漸成為IT行業(yè)中的熱門詞匯。2008年,Nature最早提出了大數(shù)據(jù)的概念。2011年,美國(guó)的麥肯錫咨詢公司最早發(fā)布了關(guān)于大數(shù)據(jù)的調(diào)查報(bào)告。自此之后,在商業(yè)和IT行業(yè)領(lǐng)域掀起了大數(shù)據(jù)熱[2],很多知名企業(yè)也加大了對(duì)大數(shù)據(jù)的研究力度,促進(jìn)了大數(shù)據(jù)的快速發(fā)展。2012年,美國(guó)政府公開支持關(guān)于大數(shù)據(jù)的研究,并宣布了大數(shù)據(jù)時(shí)代的來臨,這為大數(shù)據(jù)的快速發(fā)展提供了非常重要的政策支持。
目前,關(guān)于大數(shù)據(jù)的定義在學(xué)術(shù)界還沒有形成定論,學(xué)者從不同角度出發(fā)得出不同的定義。關(guān)于大數(shù)據(jù)的代表觀點(diǎn)主要有以下幾個(gè):麥肯錫咨詢公司從大體量的角度對(duì)大數(shù)據(jù)進(jìn)行定義,認(rèn)為大數(shù)據(jù)就是指擁有較大規(guī)模的數(shù)據(jù),對(duì)這些數(shù)據(jù)無法利用計(jì)算機(jī)工具展開相應(yīng)的整合分析;維基百科也從大體量的角度對(duì)大數(shù)據(jù)進(jìn)行定義,且建立在麥肯錫關(guān)于大數(shù)據(jù)定義的基礎(chǔ)上,認(rèn)為大數(shù)據(jù)不僅具有較大規(guī)模,還是異常復(fù)雜的,以至于無法被計(jì)算機(jī)軟件所整理分析。此外,還有一些學(xué)者從價(jià)值大、體量大、復(fù)雜程度高等方面對(duì)大數(shù)據(jù)展開了相應(yīng)的分析。
1.3大數(shù)據(jù)與數(shù)據(jù)挖掘的關(guān)系概述
大數(shù)據(jù)與數(shù)據(jù)挖掘之間既有緊密的聯(lián)系,又存在一定的區(qū)別。從其聯(lián)系看,大數(shù)據(jù)與數(shù)據(jù)挖掘都需要以海量數(shù)據(jù)為基礎(chǔ),并從中挖掘?qū)θ祟惏l(fā)展有重要價(jià)值的數(shù)據(jù)信息,無論是工作過程還是使用的方式方法都存在一定的相似性。從其區(qū)別看,數(shù)據(jù)挖掘所依賴的數(shù)據(jù)量較少,主要以數(shù)據(jù)庫(kù)為基礎(chǔ),并且數(shù)據(jù)以結(jié)構(gòu)化的形式呈現(xiàn),數(shù)據(jù)的種類較為單一,以MB為數(shù)據(jù)單位;而大數(shù)據(jù)所需要的數(shù)據(jù)規(guī)模較大,其需要借助多種類型的數(shù)據(jù),數(shù)據(jù)的單位以GB、TB為主。大數(shù)據(jù)所依賴的數(shù)據(jù)不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括各種類型的半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)。對(duì)于大數(shù)據(jù)來說,由于不同類型數(shù)據(jù)的作用不同,數(shù)據(jù)的應(yīng)用模式也存在較大區(qū)別,并在應(yīng)用過程中其模式會(huì)隨之發(fā)生相應(yīng)的變化。由于大數(shù)據(jù)所需要處理的數(shù)據(jù)規(guī)模較大,圖書館在具體應(yīng)用的過程中需要考慮其存儲(chǔ)問題。
2圖書館閱讀社群讀者行為數(shù)據(jù)挖掘的方法與過程
2.1讀者行為的數(shù)據(jù)采集
為了給讀者提供專業(yè)的數(shù)據(jù)服務(wù),圖書館需要有針對(duì)性地對(duì)讀者行為進(jìn)行相應(yīng)的數(shù)據(jù)采集。數(shù)據(jù)采集方式主要有網(wǎng)絡(luò)爬蟲和開放API平臺(tái)等。在數(shù)據(jù)采集的過程中,圖書館需要對(duì)讀者的具體訪問情況展開較為詳細(xì)的分析。讀者每訪問一次圖書館的相關(guān)網(wǎng)站或多媒體平臺(tái),圖書館的系統(tǒng)后臺(tái)都會(huì)有相應(yīng)的顯示,如讀者搜索的圖書資源及輸入的關(guān)鍵詞等。圖書館通過對(duì)讀者搜索行為蹤跡的記錄,可分析出讀者的一般閱讀需求,從而為讀者提供更好的閱讀服務(wù)[3]。在數(shù)據(jù)采集的過程中,圖書館還需要詳細(xì)記錄讀者搜索數(shù)據(jù)信息的具體時(shí)間及下載的具體內(nèi)容等。
2.2數(shù)據(jù)的預(yù)處理
記錄讀者行為日志的相關(guān)數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),且規(guī)模較大。因此,圖書館在對(duì)這些數(shù)據(jù)進(jìn)行處理前,做好相應(yīng)的預(yù)處理是非常必要的。事實(shí)上,預(yù)處理就是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)的過程,可大大減少圖書館處理復(fù)雜數(shù)據(jù)的工作量,并能有效提升數(shù)據(jù)挖掘的工作效率。在數(shù)據(jù)的預(yù)處理過程中,圖書館需要結(jié)合數(shù)據(jù)挖掘的具體目的,對(duì)讀者行為的相關(guān)數(shù)據(jù)展開相應(yīng)的整理及分析處理,進(jìn)而為讀者挖掘有價(jià)值的數(shù)據(jù)信息。
2.3數(shù)據(jù)的聚類分析
所謂Web數(shù)據(jù)挖掘,就是對(duì)讀者訪問網(wǎng)站時(shí)的相關(guān)行為數(shù)據(jù)展開有價(jià)值的分析。具體來說,Web數(shù)據(jù)挖掘可分為分類、聚類、關(guān)聯(lián)規(guī)則及序列等數(shù)據(jù)算法。聚類算法是將數(shù)據(jù)以類的形式劃分,把同類型的數(shù)據(jù)劃分到一個(gè)組內(nèi),相同組的數(shù)據(jù)具有相似的特征,而不同組的數(shù)據(jù)自然具有不同的特征。圖書館利用聚類算法對(duì)讀者的行為數(shù)據(jù)展開相應(yīng)的分析,能對(duì)讀者的行為喜好進(jìn)行歸類,獲取讀者的閱讀需求,進(jìn)而為讀者推送其感興趣的內(nèi)容,提供個(gè)性化的信息服務(wù)。
3基于讀者數(shù)據(jù)挖掘的圖書館閱讀社群應(yīng)用分析
3.1應(yīng)用于讀者的個(gè)性化服務(wù)
大數(shù)據(jù)時(shí)代,商家為了能夠在市場(chǎng)中占有一席之地,不僅需要保證商品的質(zhì)量,還需要做好相應(yīng)的服務(wù)工作,有針對(duì)性地了解消費(fèi)者的喜好。因此,圖書館需要在注重圖書質(zhì)量的基礎(chǔ)上不斷創(chuàng)新服務(wù)模式,利用數(shù)據(jù)挖掘技術(shù)分析用戶的閱讀喜好,提升服務(wù)質(zhì)量,為他們提供良好的服務(wù)體驗(yàn),滿足他們的個(gè)性化需求。圖書館也需要有效利用各種大數(shù)據(jù),從中提取對(duì)服務(wù)創(chuàng)新有價(jià)值的信息。圖書館還需要加強(qiáng)用戶研究,充分利用各種類型的交互數(shù)據(jù),對(duì)已經(jīng)存在或潛在的各種用戶開展跟蹤服務(wù)、知識(shí)關(guān)聯(lián)服務(wù)、精準(zhǔn)服務(wù)和宣傳推廣服務(wù),如圖1所示。
3.2應(yīng)用于信息資源體系的優(yōu)化
大數(shù)據(jù)時(shí)代,圖書館應(yīng)利用物聯(lián)網(wǎng)、云計(jì)算技術(shù)、傳感網(wǎng)、信息物理融合系統(tǒng)等,有針對(duì)性地向讀者推送相關(guān)信息,提高館藏資源利用率。圖書館還應(yīng)對(duì)館藏資源進(jìn)行相應(yīng)的整合處理,發(fā)揮自身的技術(shù)和人才優(yōu)勢(shì),構(gòu)建跨領(lǐng)域、跨行業(yè)的多學(xué)科智能知識(shí)庫(kù),為用戶提供一站式、個(gè)性化的信息服務(wù)。
3.3應(yīng)用于讀者的分類研究
圖書館應(yīng)利用數(shù)據(jù)挖掘技術(shù),獲取讀者的閱讀興趣及需求,將興趣相似的讀者劃為一個(gè)群體[4]。通常來說,圖書館應(yīng)根據(jù)讀者的興趣及需求進(jìn)行分類,并應(yīng)用分類模型根據(jù)不同的類別建立不同的類別模式。如:高校圖書館可先按照讀者的年齡、專業(yè)、學(xué)歷等進(jìn)行分類,再根據(jù)讀者的具體特征及其屬性進(jìn)行細(xì)分,了解用戶的閱讀喜好,進(jìn)而為他們提供有針對(duì)性的信息服務(wù)。在數(shù)據(jù)挖掘過程中,圖書館還可利用聚類算法對(duì)相關(guān)數(shù)據(jù)進(jìn)行整理與分析,為分類研究提供支撐。
4基于讀者數(shù)據(jù)挖掘的圖書館閱讀社群的構(gòu)建策略
4.1以戰(zhàn)略規(guī)劃為基礎(chǔ),營(yíng)造服務(wù)氛圍
圖書館基于讀者數(shù)據(jù)挖掘構(gòu)建閱讀社群,需要做好相應(yīng)的戰(zhàn)略規(guī)劃,進(jìn)而為閱讀社群服務(wù)工作的順利開展提供支撐。具體來說,圖書館可成立專門的規(guī)劃小組,確保每項(xiàng)工作都有專人負(fù)責(zé),保證各項(xiàng)工作都能有序開展。圖書館也應(yīng)重點(diǎn)分析以往在數(shù)據(jù)挖掘中存在的主要問題,在制訂規(guī)劃的過程中有針對(duì)性地解決這些問題。圖書館還應(yīng)細(xì)化戰(zhàn)略規(guī)劃,既要制訂年度規(guī)劃,又要制訂季度規(guī)劃及月規(guī)劃。
4.2以學(xué)科團(tuán)隊(duì)為基礎(chǔ),順利開展服務(wù)
為了保證基于讀者數(shù)據(jù)挖掘的圖書館閱讀社群構(gòu)建的科學(xué)性與專業(yè)性,圖書館必須組建專業(yè)的學(xué)科團(tuán)隊(duì),保證服務(wù)工作的順利開展[5]。具體來說,學(xué)科團(tuán)隊(duì)?wèi)?yīng)對(duì)所要做的工作有較為詳細(xì)的了解,進(jìn)而制定相應(yīng)的發(fā)展戰(zhàn)略。學(xué)科團(tuán)隊(duì)也要注重選擇適當(dāng)?shù)姆?wù)契機(jī),保證服務(wù)策略得以有效實(shí)施,提高服務(wù)質(zhì)量。學(xué)科團(tuán)隊(duì)成員之間還應(yīng)相互交流經(jīng)驗(yàn),使服務(wù)策略在短時(shí)間得到有效推廣。
4.3以教育培訓(xùn)為基礎(chǔ),努力搭建服務(wù)橋梁
大數(shù)據(jù)時(shí)代,館員不僅要掌握專業(yè)的學(xué)科知識(shí),對(duì)學(xué)科內(nèi)的專業(yè)名詞概念有較為詳細(xì)的了解,對(duì)學(xué)科發(fā)展趨勢(shì)有清晰的把握,還要具備一定的數(shù)據(jù)挖掘能力,以及能熟練運(yùn)用信息軟件。由于學(xué)科專有名詞的概念、學(xué)科發(fā)展趨勢(shì)、數(shù)據(jù)挖掘技術(shù)等都會(huì)隨著時(shí)代的發(fā)展不斷更新,因此,為了提高智慧館員的服務(wù)水平、服務(wù)質(zhì)量,滿足現(xiàn)代化智慧圖書館建設(shè)的需要,圖書館應(yīng)加強(qiáng)館員培訓(xùn)。圖書館可邀請(qǐng)學(xué)科領(lǐng)域內(nèi)的專家定期舉辦講座,對(duì)館員進(jìn)行短期培訓(xùn),促使他們不斷更新知識(shí)體系,提升他們的業(yè)務(wù)能力。圖書館也可組織館員到其他圖書館參觀學(xué)習(xí),汲取有價(jià)值的實(shí)踐經(jīng)驗(yàn)。圖書館還可為館員提供學(xué)習(xí)交流的機(jī)會(huì),如參加智慧圖書館建設(shè)方面的學(xué)術(shù)會(huì)議、研討會(huì)等,提升他們的服務(wù)能力。
5結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代,基于讀者數(shù)據(jù)挖掘的圖書館構(gòu)建閱讀社群是非常必要的。數(shù)據(jù)挖掘與大數(shù)據(jù)之間既存在著緊密的聯(lián)系,又有一定的區(qū)別。因此,圖書館在將數(shù)據(jù)挖掘應(yīng)用于社群服務(wù)的過程中應(yīng)注重其與大數(shù)據(jù)之間的聯(lián)系與區(qū)別,進(jìn)而推動(dòng)閱讀社群工作的順利開展,滿足讀者的個(gè)性化閱讀需求。
參考文獻(xiàn):
[1]王偉.基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究[J].情報(bào)科學(xué),2012(3):391-394,418.
[2]陳臣.基于大數(shù)據(jù)的圖書館個(gè)性化服務(wù)用戶行為分析研究[J].圖書館工作與研究,2015(2):28-31.
[3]姚飛,竇天芳,武麗娜,等.基于社會(huì)網(wǎng)絡(luò)理念打造泛在圖書館服務(wù):以清華大學(xué)圖書館為例[J].大學(xué)圖書館學(xué)報(bào),2013(5):74-76.
[4]周偉,汪少華,楊云.基于數(shù)據(jù)挖掘和讀者行為分析的圖書館薦書系統(tǒng)的研究與設(shè)計(jì)[J].圖書情報(bào)研究,2014(4):38-44.
[5]張立春.基于數(shù)據(jù)挖掘技術(shù)的圖書館服務(wù)平臺(tái)研究[J].圖書館理論與實(shí)踐,2012(12):35-37.
(編校:孫新梅)