国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用

2016-03-28 11:17:04田玉娥
傳播與版權(quán) 2016年3期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則聚類(lèi)分析決策樹(shù)

田玉娥

數(shù)據(jù)挖掘在高校圖書(shū)館中的應(yīng)用

田玉娥

[摘 要]隨著高校招生人數(shù)的增多,圖書(shū)館購(gòu)買(mǎi)了大批量圖書(shū),圖書(shū)管理文獻(xiàn)系統(tǒng)蘊(yùn)藏著大量的數(shù)據(jù),這些數(shù)據(jù)除了有讀者信息、圖書(shū)信息外,還有多媒體信息等。我們?cè)噲D從這些數(shù)據(jù)中分析出有價(jià)值的信息,利用數(shù)據(jù)挖掘?qū)@些數(shù)據(jù)進(jìn)行分析,找到內(nèi)在的關(guān)系,為圖書(shū)館各方面的決策起到引導(dǎo)作用。簡(jiǎn)要介紹數(shù)據(jù)挖掘的定義以及圖書(shū)館數(shù)據(jù)挖掘主要用到的算法,如關(guān)聯(lián)規(guī)則、決策樹(shù)、聚類(lèi)分析等,總結(jié)數(shù)據(jù)挖掘得到的結(jié)果在圖書(shū)館館藏布局、圖書(shū)采集、WEB信息挖掘、個(gè)性化服務(wù)方面發(fā)揮的作用,并對(duì)數(shù)據(jù)挖掘在高校圖書(shū)館中的研究進(jìn)行了展望。

[關(guān)鍵詞]高校圖書(shū)館;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;聚類(lèi)分析;決策樹(shù)

[作 者] 田玉娥,山西工程職業(yè)技術(shù)學(xué)院。

圖書(shū)館是搜集、整理、收藏圖書(shū)資料以供讀者閱覽、參考的機(jī)構(gòu)。圖書(shū)館的業(yè)務(wù)工作是由很多相互聯(lián)系的工作環(huán)節(jié)組成的,一般包括文獻(xiàn)的收集、整理、典藏和服務(wù)四個(gè)部分。這幾個(gè)方面環(huán)環(huán)相扣,要想使讀者對(duì)所借閱的文獻(xiàn)滿意,服務(wù)到位,就要了解讀者對(duì)文獻(xiàn)類(lèi)型的需求,了解讀者的需求。為此,我們可以采取一些方法,比如問(wèn)卷調(diào)查、座談、網(wǎng)絡(luò)論壇交流等形式,但這些都是顯性需求、表面需求,通過(guò)簡(jiǎn)單的統(tǒng)計(jì)即可完成,要想了解更深層次的隱形需求就比較復(fù)雜了。怎樣才能更好地了解這些文獻(xiàn)之間的關(guān)系,讓讀者十分滿意,并且讓圖書(shū)館的紙質(zhì)圖書(shū)和電子資源得到最大效率的充分利用,恐怕要借助數(shù)據(jù)挖掘這項(xiàng)技術(shù)了。

數(shù)據(jù)挖掘就是面對(duì)海量數(shù)據(jù)應(yīng)運(yùn)而生的一種數(shù)據(jù)處理技術(shù),通過(guò)數(shù)據(jù)挖掘的一些方法能把這些數(shù)據(jù)中隱形的關(guān)聯(lián)的數(shù)據(jù)挖掘出來(lái),便于圖書(shū)館工作人員更好地為讀者服務(wù)。在數(shù)據(jù)挖掘中最著名的相關(guān)聯(lián)系的例子是“啤酒與尿布”的例子,即看起來(lái)風(fēng)馬牛不相及的物體卻通過(guò)數(shù)據(jù)挖掘的方法找到了內(nèi)在的聯(lián)系——購(gòu)買(mǎi)尿布的同時(shí)也購(gòu)買(mǎi)了啤酒。圖書(shū)館想要充分利用數(shù)據(jù)挖掘,首先就要了解什么是數(shù)據(jù)挖掘,現(xiàn)階段在圖書(shū)館應(yīng)用方面涉及哪些數(shù)據(jù)挖掘的方法,以及取得了哪些成效。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的知識(shí)的過(guò)程[1]。但這些知識(shí)并非是單一的,它可以以多種形式出現(xiàn),如數(shù)字、文本、圖形、結(jié)構(gòu)化語(yǔ)言、網(wǎng)頁(yè)等,但最終目的只有一個(gè),那就是把海量數(shù)據(jù)轉(zhuǎn)化成易于理解的模式讓大家接受與認(rèn)可。海量數(shù)據(jù)的存在形式多樣,圖書(shū)館內(nèi)借閱的自動(dòng)化系統(tǒng)數(shù)據(jù)庫(kù)中存儲(chǔ)了大量的讀者信息和館藏圖書(shū)信息,除此之外還有一些隱藏著的網(wǎng)絡(luò)信息,如用戶(hù)的提問(wèn)、動(dòng)態(tài)生成的結(jié)果[2],一些音頻、圖像等多媒體信息。數(shù)據(jù)挖掘分?jǐn)?shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋三個(gè)主要階段來(lái)完成。

二、數(shù)據(jù)挖掘在圖書(shū)館發(fā)展領(lǐng)域的現(xiàn)狀

隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)也已不斷引進(jìn)圖書(shū)館的發(fā)展領(lǐng)域內(nèi),如Scott Nicholson研究圖書(shū)館書(shū)目挖掘模式就是根據(jù)讀者的借閱信息和借閱圖書(shū)的種類(lèi)挖掘出來(lái)的。圖書(shū)館數(shù)據(jù)挖掘理論模型被May Chau發(fā)現(xiàn)并研究出來(lái),利用這種模型,可以研究出圖書(shū)館的挖掘系統(tǒng),能幫助讀者快速查找信息[3]。近年來(lái)許多學(xué)者在圖書(shū)館挖掘模型中投入了大量的精力,但迄今為止沒(méi)有明顯的成就。

三、現(xiàn)階段在圖書(shū)館數(shù)據(jù)方面用到的數(shù)據(jù)挖掘算法

盡管數(shù)據(jù)挖掘的算法有很多,但是在圖書(shū)館數(shù)據(jù)挖掘這一塊應(yīng)用較多的是關(guān)聯(lián)規(guī)則、聚類(lèi)分析、決策樹(shù)算法。在數(shù)據(jù)挖掘過(guò)程中,有時(shí)單獨(dú)使用某種算法,有時(shí)是幾種算法交叉使用,或互相印證或?yàn)榍竽硞€(gè)數(shù)值。我們主要就這幾個(gè)算法進(jìn)行比較詳細(xì)的說(shuō)明。

(一)關(guān)聯(lián)規(guī)則

所謂關(guān)聯(lián),反映的是一個(gè)事件和其他事件之間依賴(lài)或關(guān)聯(lián)的知識(shí)。這種關(guān)聯(lián)是建立在數(shù)據(jù)庫(kù)中的一些數(shù)據(jù)項(xiàng)中的關(guān)系,這種關(guān)聯(lián)可以是簡(jiǎn)簡(jiǎn)單單的關(guān)聯(lián),也可以是有前因后果的關(guān)聯(lián),或者是時(shí)間序列分析的關(guān)聯(lián)。通過(guò)各種關(guān)聯(lián),找到它們之間隱藏的兩個(gè)或多個(gè)變量取值之間的規(guī)律性,這就是關(guān)聯(lián)規(guī)則。這種關(guān)聯(lián)需要通過(guò)一些參數(shù)“支持度”“信任度”來(lái)衡量它們之間的依賴(lài)生存關(guān)系,關(guān)聯(lián)規(guī)則就是支持度和信任度分別滿足用戶(hù)給定閾值的規(guī)則。

關(guān)聯(lián)規(guī)則挖掘算法分連接和剪枝兩個(gè)步驟來(lái)完成的,其中比較經(jīng)典的算法是Apriori算法。

Apriori算法是先在數(shù)據(jù)庫(kù)中找出支持度大于或等于用戶(hù)設(shè)定的閥值的所有的頻繁項(xiàng)集,再利用頻繁項(xiàng)集構(gòu)造出滿足用戶(hù)最小信任度的規(guī)則。在找所有頻繁項(xiàng)集的過(guò)程中,會(huì)有非頻繁項(xiàng)集的候選集產(chǎn)生,需多次掃描數(shù)據(jù)庫(kù)將它們找出來(lái),再將不符合要求的給刪除掉,由于需要往返多次掃描數(shù)據(jù)庫(kù),所以這是Apriori算法的一大缺點(diǎn)。

(二)聚類(lèi)分析

將物理或抽象對(duì)象的結(jié)合人為地依據(jù)一定的規(guī)則分組成不同的類(lèi)的過(guò)程就是聚類(lèi)分析。因?yàn)橐罁?jù)的規(guī)則不同,生成的簇的對(duì)象的特點(diǎn)就比較明顯,同簇相似性大,異簇相異性大,相似度極低。

同其他算法一樣,也有其算法原理,原理如下:

第一步:分初始類(lèi),此時(shí)的類(lèi)可能是以前的類(lèi),也可能是新類(lèi),需要對(duì)樣本逐個(gè)掃描,根據(jù)其與已掃描過(guò)的樣本的距離分類(lèi);

第二步,依據(jù)類(lèi)間距離對(duì)第一步中的類(lèi)進(jìn)行合并,達(dá)到一定的標(biāo)準(zhǔn),停止合并。

計(jì)算兩個(gè)樣本間的相異度的度量標(biāo)準(zhǔn)即距離的衡量是用特征空間中的距離作為標(biāo)準(zhǔn)的,K-means算法是典型的基于距離的聚類(lèi)算法,聚類(lèi)算法的終極目標(biāo)是得到緊湊且獨(dú)立的簇,把距離作為相似性的評(píng)價(jià)指標(biāo)。

聚類(lèi)分析算法也有它的缺點(diǎn),因?yàn)橐罁?jù)的規(guī)則不同,結(jié)果也有些許的差別。

(三)決策樹(shù)算法

決策樹(shù)算法是一種非連續(xù)的、逼近離散函數(shù)值的方法。也同其他算法一樣,先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,根據(jù)歸納算法生成決策樹(shù)和可讀的規(guī)則,再利用決策對(duì)新生成的數(shù)據(jù)進(jìn)行研究。

決策樹(shù)算法的目的是生成一顆決策樹(shù),建立樹(shù)的分支需要通過(guò)一個(gè)測(cè)試函數(shù)值來(lái)生成,這個(gè)測(cè)試函數(shù)是靠實(shí)例集生成的,在每個(gè)分支下依據(jù)同樣的規(guī)則建立下層結(jié)點(diǎn)和分支,同Apriori算法一樣也需要對(duì)決策樹(shù)進(jìn)行剪枝,把決策樹(shù)轉(zhuǎn)化為規(guī)則集,有了規(guī)則集就可以分類(lèi)新實(shí)例。

C4.5是決策樹(shù)的經(jīng)典算法,它既可以用來(lái)解決分類(lèi)問(wèn)題,也可以用來(lái)解決回歸問(wèn)題,而且對(duì)于預(yù)測(cè)變量的數(shù)據(jù)處理如空值處理、派生規(guī)則等許多方面做了比較大的改進(jìn)。

高校圖書(shū)館的讀者群比較特殊,老師們作為讀者比較固定,但學(xué)生作為讀者的生命周期就比較短[4],三年或四年一換,這就需要不斷地對(duì)數(shù)據(jù)源進(jìn)行更新,挖掘的數(shù)據(jù)源的跨度要大,隨時(shí)掌握讀者群的變化。

四、數(shù)據(jù)挖掘在圖書(shū)館方面的應(yīng)用

數(shù)據(jù)挖掘應(yīng)用在圖書(shū)館,主要集中在這幾個(gè)方面:

(一)館藏布局和圖書(shū)推薦方面

通過(guò)挖掘圖書(shū)館管理系統(tǒng)和多媒體信息可以發(fā)現(xiàn):在五大類(lèi)圖書(shū)分類(lèi)之間有很強(qiáng)的關(guān)聯(lián)性,對(duì)于這五大類(lèi)圖書(shū)可以就近擺放或放在熱門(mén)書(shū)籍附近;圖書(shū)種類(lèi)之間存在關(guān)聯(lián),這樣可以在圖書(shū)上架時(shí)進(jìn)行考慮,抽出部分圖書(shū)復(fù)本把關(guān)聯(lián)書(shū)放置在一起或周?chē)?;?zhuān)業(yè)和圖書(shū)種類(lèi)之間的關(guān)聯(lián),圖書(shū)種類(lèi)不只是專(zhuān)業(yè)書(shū)籍,還有是文學(xué)、語(yǔ)言類(lèi)圖書(shū)之間的關(guān)聯(lián),這樣能針對(duì)不同專(zhuān)業(yè)的讀者給予合理的較快的引導(dǎo),較大地提高了圖書(shū)的使用率,同時(shí)也節(jié)省了讀者寶貴的時(shí)間,使其借到合乎自己要求的圖書(shū);學(xué)科之間有關(guān)聯(lián),比如數(shù)學(xué)和計(jì)算機(jī)學(xué)科就有著很深的淵源,計(jì)算機(jī)利用數(shù)學(xué)來(lái)抽象或思考,數(shù)學(xué)利用計(jì)算機(jī)來(lái)提高工作效率,這樣在排架時(shí)就可以有所側(cè)重。

(二)圖書(shū)采集方面

過(guò)去的圖書(shū)采集比較隨意,將書(shū)目發(fā)到各系部由各專(zhuān)業(yè)老師結(jié)合本專(zhuān)業(yè)特色、課程與自身發(fā)展選擇圖書(shū),或通過(guò)收集熱門(mén)圖書(shū)進(jìn)行采集?,F(xiàn)在通過(guò)數(shù)據(jù)挖掘的算法,發(fā)現(xiàn)讀者與圖書(shū)之間的聯(lián)系、圖書(shū)之間的聯(lián)系等,就可以在采集圖書(shū)的過(guò)程中進(jìn)行參考,這樣在采購(gòu)圖書(shū)時(shí)便有了側(cè)重點(diǎn),同時(shí)也發(fā)現(xiàn)了少有人問(wèn)津的圖書(shū)可以不采購(gòu),而對(duì)借閱率高的圖書(shū)重點(diǎn)采購(gòu),并考慮是否要多采購(gòu)復(fù)本,以使經(jīng)費(fèi)得到最好最合理的應(yīng)用,避免盲目浪費(fèi)。

(三)Web信息

數(shù)據(jù)挖掘要從方方面面進(jìn)行挖掘,對(duì)于Web信息來(lái)說(shuō),Web的文檔層次結(jié)構(gòu)、Web的組成元素圖片、文字等數(shù)據(jù)中的某些信息是有價(jià)值的,Web數(shù)據(jù)挖掘是通過(guò)挖掘這些有價(jià)值的信息,來(lái)發(fā)現(xiàn)其中的某些隱形的未被發(fā)現(xiàn)的模式來(lái)提高Web技術(shù)的利用效率[5]。Web數(shù)據(jù)挖掘不管是從內(nèi)容、結(jié)構(gòu)還是使用上進(jìn)行挖掘,其目的都是為了發(fā)現(xiàn)或預(yù)測(cè)讀者隱藏在數(shù)據(jù)中的習(xí)慣行為,以便對(duì)網(wǎng)站的結(jié)構(gòu)或內(nèi)容修改進(jìn)行指導(dǎo),發(fā)現(xiàn)有價(jià)值的頁(yè)面,發(fā)現(xiàn)讀者隱藏的關(guān)聯(lián)規(guī)則,為讀者個(gè)性化服務(wù)提供依據(jù),來(lái)提高數(shù)字資源或紙質(zhì)圖書(shū)、期刊等的利用率。

(四)個(gè)性化服務(wù)

數(shù)據(jù)挖掘不單可以挖掘圖書(shū)之間的關(guān)聯(lián),還可以針對(duì)某一特定讀者群,例如某一專(zhuān)業(yè)或某一個(gè)系部,挖掘讀者信息和書(shū)目信息,或數(shù)字資源等之間隱秘的關(guān)系,預(yù)測(cè)他們的信息要求,發(fā)現(xiàn)他們借閱圖書(shū)的特點(diǎn)。掌握了這些,就能夠針對(duì)讀者的特點(diǎn),高效率高質(zhì)量地為讀者提供個(gè)性化服務(wù),同時(shí)也節(jié)省了讀者的時(shí)間,給出合理的參考性的指導(dǎo),讓圖書(shū)館的服務(wù)更上一層樓。

五、數(shù)據(jù)挖掘在高校圖書(shū)館中的發(fā)展前景

數(shù)據(jù)挖掘在國(guó)內(nèi)圖書(shū)館的挖掘現(xiàn)在還處在初步階段,挖掘方法比較單一,研究只停在理論水平上,對(duì)圖書(shū)館的實(shí)際需求分析和研究的層次較淺,在方法原理和應(yīng)用上沒(méi)有突破性的發(fā)展,沒(méi)有好的應(yīng)用實(shí)例在圖書(shū)館間廣泛使用。筆者相信在不久的將來(lái),隨著科學(xué)技術(shù)的突飛猛進(jìn),數(shù)據(jù)庫(kù)技術(shù)會(huì)越來(lái)越成熟,研究出的數(shù)據(jù)挖掘算法會(huì)更全面,開(kāi)發(fā)出的圖書(shū)數(shù)據(jù)挖掘模型會(huì)更廣泛地應(yīng)用到各大圖書(shū)館中,那時(shí)圖書(shū)館

服務(wù)質(zhì)量會(huì)更上一層樓,圖書(shū)館將發(fā)揮它最大的效用。

【參考文獻(xiàn)】

[1]田玉娥.數(shù)據(jù)挖掘在圖書(shū)管理方面的應(yīng)用[J].電腦開(kāi)發(fā)與應(yīng)用,2012(4):79-81.

[2]宜建軍.基于Web數(shù)據(jù)挖掘的圖書(shū)館UIS系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代情報(bào),2006(3):146-149.

[3]奉國(guó)和,奉永桃.近十年國(guó)內(nèi)圖書(shū)館數(shù)據(jù)挖掘研究文獻(xiàn)計(jì)量分析[J].圖書(shū)館論壇,2011(1):46-49.

[4]周倩.數(shù)據(jù)挖掘在圖書(shū)館用戶(hù)資源管理中的應(yīng)用研究[J].現(xiàn)代情報(bào),2006(6):87-90.

[5]周鋒.Web挖掘技術(shù)在遠(yuǎn)程網(wǎng)絡(luò)教育中的應(yīng)用[J].常州工學(xué)院學(xué)報(bào),2010(Z1):64-66,86.

猜你喜歡
關(guān)聯(lián)規(guī)則聚類(lèi)分析決策樹(shù)
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評(píng)價(jià)體系中的應(yīng)用
農(nóng)村居民家庭人均生活消費(fèi)支出分析
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
基于聚類(lèi)分析的互聯(lián)網(wǎng)廣告投放研究
科技視界(2016年20期)2016-09-29 12:32:48
基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
沿河| 宁乡县| 历史| 固阳县| 辛集市| 万州区| 安远县| 阳城县| 西畴县| 海林市| 宜州市| 海宁市| 商水县| 曲靖市| 航空| 高邮市| 安仁县| 天门市| 南澳县| 宁陵县| 崇义县| 海盐县| 瑞昌市| 奉节县| 商水县| 石首市| 辉南县| 富宁县| 五莲县| 昆明市| 卓资县| 措勤县| 长泰县| 华坪县| 诏安县| 柳州市| 庆阳市| 鄂尔多斯市| 荥经县| 绵阳市| 吴川市|