国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書(shū)館中的應(yīng)用

2014-04-29 05:11:16厙睿
電子世界 2014年15期
關(guān)鍵詞:個(gè)性化服務(wù)數(shù)字圖書(shū)館數(shù)據(jù)挖掘

【摘要】數(shù)據(jù)挖掘技術(shù)是一種基于人工智能的技術(shù),數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書(shū)館中的應(yīng)用提高了數(shù)字化圖書(shū)館的服務(wù)質(zhì)量。文章介紹了數(shù)據(jù)挖掘技術(shù)的概念、分類(lèi)和分析方法,從提高圖書(shū)館建設(shè)決策和提高信息的獲取速度等方面分析了數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書(shū)館中的應(yīng)用,并給出了數(shù)據(jù)挖掘技術(shù)當(dāng)前面臨的問(wèn)題。

【關(guān)鍵詞】數(shù)字圖書(shū)館;數(shù)據(jù)挖掘;個(gè)性化服務(wù)

數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書(shū)館(Digiatl Libray)[1]個(gè)性化服務(wù)中的研究和實(shí)踐是IT行業(yè)新起的一個(gè)交叉領(lǐng)域的研究。數(shù)據(jù)挖掘技術(shù)主要是依賴人工智能、模式識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、可視化技術(shù)從大量的、不完全的、模糊的、有噪聲的、隨機(jī)的數(shù)據(jù)中,提取不易為人知的但是有巨大價(jià)值的關(guān)聯(lián)信息,是數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)的核心。數(shù)據(jù)挖掘技術(shù)主要分為數(shù)據(jù)整理、數(shù)據(jù)集成、數(shù)據(jù)篩選、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表達(dá)幾個(gè)步驟。該技術(shù)的目的是從大量的雜亂無(wú)序的數(shù)據(jù)中自動(dòng)分析數(shù)據(jù),做出歸納統(tǒng)計(jì),從中挖掘出潛在的模式,為用戶提供價(jià)值信息。數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書(shū)館中的應(yīng)用可以優(yōu)化圖書(shū)館期刊的布局,提高效率節(jié)省資源。也可以為讀者提供個(gè)性化服務(wù),通過(guò)對(duì)讀者借閱量的統(tǒng)計(jì)分析讀者的周期借閱習(xí)慣,結(jié)合現(xiàn)有資源向讀者推薦其喜好的圖書(shū),提高圖書(shū)館的服務(wù)質(zhì)量。

1.數(shù)據(jù)挖掘技術(shù)及其分類(lèi)

1.1 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘是指從大量的表面上沒(méi)有關(guān)系的數(shù)據(jù)中通過(guò)關(guān)鍵算法發(fā)掘隱藏在其中的關(guān)聯(lián)信息的過(guò)程。為了能找到數(shù)據(jù)的變化規(guī)律以及數(shù)據(jù)之間的相互關(guān)系,從海量的數(shù)據(jù)存儲(chǔ)中抽取模式、充分挖掘數(shù)據(jù)以及指導(dǎo)決策等各項(xiàng)工作,人們?cè)絹?lái)越迫切的想把數(shù)據(jù)分析轉(zhuǎn)化為易于理解的知識(shí)。知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘技術(shù)正好可以滿足我們的需要,為自動(dòng)并智能地把海量數(shù)據(jù)轉(zhuǎn)化成可用信息提供了堅(jiān)強(qiáng)有力的手段,同時(shí)也在數(shù)據(jù)和知識(shí)之間的架起了橋梁[2]。

1.2 數(shù)據(jù)挖掘?qū)ο蠓诸?lèi)

數(shù)據(jù)挖掘技術(shù)按照挖掘的對(duì)象可以分為web數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘[3]和多媒體數(shù)據(jù)挖掘。

web數(shù)據(jù)挖掘可以分為:內(nèi)容挖掘,是從web頁(yè)面內(nèi)容和后臺(tái)數(shù)據(jù)庫(kù)進(jìn)行挖掘,從www相關(guān)的資源和行為中抽取感興趣的、有用的模式和隱含信息;web使用記錄挖掘,通過(guò)挖掘網(wǎng)站上的日志信息和數(shù)據(jù)挖掘用戶的偏好和行為模式,獲取價(jià)值信息[5]。

文本數(shù)據(jù)挖掘是指當(dāng)數(shù)據(jù)挖掘的對(duì)象完全由文本類(lèi)型組成時(shí),結(jié)合使用數(shù)據(jù)挖掘算法與信息檢索算法對(duì)巨量文本信息進(jìn)行自動(dòng)化信息處理與分析的過(guò)程叫文本數(shù)據(jù)挖掘。

多媒體數(shù)據(jù)挖掘是基于多媒體數(shù)據(jù)的內(nèi)容特征,以及這些特征的相關(guān)語(yǔ)義,從大型多媒體數(shù)據(jù)庫(kù)集中、發(fā)現(xiàn)和分析出隱含的、有效的、有價(jià)值的、可理解的模式。它不同于web和文本數(shù)據(jù)挖掘,多媒體的數(shù)據(jù)是非線性結(jié)構(gòu)的且特征向量維數(shù)不僅僅局限在二維空間。

2.數(shù)據(jù)挖掘分析方法

2.1 關(guān)聯(lián)分析(association analysis)

關(guān)聯(lián)是指兩個(gè)以上變量之間的取值存在的規(guī)律性。關(guān)聯(lián)分析法主要是挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。隨著大量數(shù)據(jù)不停地收集和存儲(chǔ),許多業(yè)界人士對(duì)于從他們的數(shù)據(jù)庫(kù)中挖掘關(guān)聯(lián)規(guī)則越來(lái)越感興趣。從大量商務(wù)事務(wù)記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系A(chǔ)priori使用一種稱(chēng)作逐層搜索的迭代方法,k-項(xiàng)集用于探索(k+1)-項(xiàng)集。

2.2 聚類(lèi)分析(clustering)

聚類(lèi)分析指將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程,聚類(lèi)分析用于分析數(shù)據(jù)的數(shù)據(jù)屬性和分布模式及之間存在可能的相互關(guān)系。

2.3 分類(lèi)(classification)

分類(lèi)是一個(gè)類(lèi)的概念,是類(lèi)別的內(nèi)在描述,把一個(gè)群按一定的原則劃分為不同的類(lèi)別。分類(lèi)通常是用規(guī)則或決策樹(shù)模式來(lái)表示的,它代表這類(lèi)數(shù)據(jù)的整體信息,并通過(guò)描述來(lái)構(gòu)造模型。分類(lèi)可被用于規(guī)則描述和預(yù)測(cè),它通過(guò)一定的算法利用訓(xùn)練數(shù)據(jù)集的方法得到分類(lèi)規(guī)則。

2.4 預(yù)測(cè)(predication)

預(yù)測(cè)是指從大量的歷史數(shù)據(jù)中找出變化規(guī)律并按照一定的算法建立數(shù)學(xué)模型,根據(jù)建立的數(shù)學(xué)模型來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)的走勢(shì)或者特征。預(yù)測(cè)的目的是對(duì)未知對(duì)象做預(yù)測(cè),預(yù)測(cè)的結(jié)果有極大的不確定性,要通過(guò)一段時(shí)間的檢驗(yàn)才能估算其準(zhǔn)確性。

2.5 時(shí)序模式(time-series pattern)

時(shí)序模式方法也是依據(jù)現(xiàn)有的知識(shí)來(lái)對(duì)未來(lái)的對(duì)象進(jìn)行預(yù)測(cè),它是通過(guò)對(duì)時(shí)間序列分析找出的重復(fù)率較高的模式來(lái)進(jìn)行預(yù)測(cè)。

2.6 偏差分析(deviation)

偏差中發(fā)現(xiàn)數(shù)據(jù)存在的異常是極為重要的,數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)存在很多異常情況,包括很多有價(jià)值的知識(shí)。找到觀察結(jié)果與參照結(jié)果二者的差別是檢驗(yàn)偏差的基本方法。

3.數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書(shū)館中的應(yīng)用

3.1 提高圖書(shū)館建設(shè)的決策

資源采集和信息資源的采集數(shù)字化圖書(shū)館建設(shè)發(fā)展的基礎(chǔ),通過(guò)分析歷史采購(gòu)信息、資源訪問(wèn)信息、讀者信息、讀者反饋信息以及各個(gè)學(xué)科前沿發(fā)展和讀者的需求,幫助采購(gòu)人員確定采購(gòu)重點(diǎn)。比如說(shuō)為了更多的購(gòu)進(jìn)讀者需要的書(shū)籍,給借閱需求高的用戶更多的借閱機(jī)會(huì)。這樣可以保障圖書(shū)館信息的合理性和科學(xué)性,以及采購(gòu)資金的合理分布。

3.2 提高信息的獲取速度

為了提高用戶在使用時(shí)能快速獲取價(jià)值信息的服務(wù)速度,可以用關(guān)聯(lián)規(guī)則挖掘算法按照給定閾值匹配相似模式的信息,把其存在服務(wù)器的知識(shí)庫(kù)上,當(dāng)用戶瀏覽某頁(yè)時(shí),網(wǎng)絡(luò)代理根據(jù)規(guī)則預(yù)先連接其關(guān)聯(lián)頁(yè),從而提高響應(yīng)速度。

3.3 提供個(gè)性化服務(wù)

我們可以通過(guò)了解用戶的特點(diǎn)和需求,采用數(shù)據(jù)挖掘技術(shù),挖掘出來(lái)一些潛在的服務(wù)[4]來(lái)吸引用戶,提高用戶的使用滿意度。并對(duì)一些特殊的用戶進(jìn)行特殊的服務(wù)。我們還可以通過(guò)挖掘用戶的興趣愛(ài)好,主動(dòng)提供服務(wù),使數(shù)字圖書(shū)館成為一個(gè)智能型、主動(dòng)性的信息平臺(tái)。

3.4 拓展服務(wù)形式

數(shù)據(jù)挖掘可實(shí)現(xiàn)信息服務(wù)質(zhì)量的提升和業(yè)務(wù)的拓展。數(shù)字圖書(shū)館借助現(xiàn)代信息技術(shù),不僅在于服務(wù)媒體和時(shí)空的轉(zhuǎn)變,更重要的能夠借助數(shù)據(jù)挖掘技術(shù),完善其服務(wù)結(jié)構(gòu)和提升服務(wù)水平。擴(kuò)展的服務(wù)形式可以分為如下幾種:

(1)通過(guò)用戶按照自己的個(gè)人興趣愛(ài)好設(shè)定信息類(lèi)型和表現(xiàn)形式選取特定的系統(tǒng)服務(wù)。

(2)給用戶提供信息推送服務(wù),為用戶提供實(shí)時(shí)的關(guān)注信息,運(yùn)用推送技術(shù)來(lái)實(shí)現(xiàn)的一種個(gè)性化主動(dòng)信息服務(wù)方式,推送技術(shù)又稱(chēng)“WEB廣播”,它是通過(guò)一定的標(biāo)準(zhǔn)和協(xié)議,在Inetrnet上按照用戶的需求,主動(dòng)傳送用戶感興趣的信息的一項(xiàng)計(jì)算機(jī)技術(shù)。

(3)通過(guò)信息智能代理服務(wù)方式自動(dòng)捕捉用戶的興趣愛(ài)好,主動(dòng)搜索可能引起用戶興趣的信息并提供給用戶。

(4)為用戶提供虛擬咨詢服務(wù),可以通過(guò)電子郵件、留言版和實(shí)時(shí)聊天等形式向用戶提供全方位的咨詢服務(wù),為用戶提供專(zhuān)業(yè)的解答。

3.5 挖掘不同讀者群的需求

通過(guò)數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則挖掘出讀者間的關(guān)系與特征。可以把讀者按照性別、年齡、職業(yè)、愛(ài)好、地域等因素進(jìn)行分類(lèi)[6]。也可以通過(guò)聚類(lèi)的方式對(duì)用戶進(jìn)行分類(lèi),通過(guò)對(duì)用戶的分類(lèi)以,可以更加容易地了解用戶,掌握不同用戶之間的需求,為不同群體提供不同的服務(wù)。

3.6 提高圖書(shū)館的服務(wù)水平

通過(guò)對(duì)關(guān)聯(lián)規(guī)則和數(shù)據(jù)挖掘的方法的運(yùn)用,我們更加清楚的了解了圖書(shū)館的服務(wù)流程,提高了決策水平,然后根據(jù)不足改進(jìn)了服務(wù)流程,增強(qiáng)了圖書(shū)館的服務(wù)水平。

4.面臨的問(wèn)題

數(shù)據(jù)挖掘技術(shù)、方法、用戶交互、系統(tǒng)性能和數(shù)據(jù)的多樣性給數(shù)據(jù)挖掘技術(shù)的廣泛使用帶來(lái)了嚴(yán)峻的挑戰(zhàn),高效的數(shù)據(jù)挖掘方法、高集成的數(shù)據(jù)挖掘環(huán)境的建立、數(shù)據(jù)挖掘語(yǔ)言的標(biāo)準(zhǔn)化和數(shù)據(jù)的可視化等,都是當(dāng)前面臨的技術(shù)性問(wèn)題。數(shù)據(jù)挖掘有關(guān)的,還牽扯到隱私問(wèn)題,可以通過(guò)數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)查到用戶的一些個(gè)人隱私甚至是商業(yè)機(jī)密信息,所以必須要有相關(guān)的法律法規(guī)來(lái)規(guī)范其行為,否則一旦被某些不法分子使用,那么就會(huì)出現(xiàn)一些涉及保密、法律和倫理的問(wèn)題。

5.結(jié)束語(yǔ)

數(shù)據(jù)挖掘作為一門(mén)前沿技術(shù),盡管自身還在不斷發(fā)展完善,還面臨著許多問(wèn)題, 但鑒于它在數(shù)據(jù)的組織、分析和知識(shí)發(fā)現(xiàn)等方面的巨大優(yōu)勢(shì)和潛力, 同時(shí)隨著數(shù)據(jù)挖掘這一新興智能信息處理技術(shù)的進(jìn)一步完善和發(fā)展,深入研究數(shù)據(jù)挖掘與圖書(shū)館系統(tǒng)的有效結(jié)合可以使它在圖書(shū)館信息管理中發(fā)揮更大作用,而且我們有理由堅(jiān)信數(shù)據(jù)挖掘技術(shù)必將在高校數(shù)字圖書(shū)館建設(shè)中發(fā)揮關(guān)鍵性的作用。

參考文獻(xiàn)

[1]戰(zhàn)春光.數(shù)字圖書(shū)館發(fā)展概述[J].晉圖學(xué)刊,2003(2):19-20.

[2]王艷.數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用[J].情報(bào)科學(xué),2003(2):211-214.

[3]馮研,王馨.國(guó)內(nèi)圖書(shū)館數(shù)據(jù)挖掘技術(shù)實(shí)踐應(yīng)用進(jìn)展分析[J].圖書(shū)館學(xué)研究,2011,10:2-4.

[4]夏南強(qiáng),張紅梅.基于數(shù)據(jù)挖掘的數(shù)字圖書(shū)館個(gè)性化服務(wù)[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2006(6):11-13.

[5]林彬煌.數(shù)字圖書(shū)館服務(wù)中的Web數(shù)據(jù)挖掘[J].科技創(chuàng)新與應(yīng)用,2012,10:46-47.

[6]唐吉深.圖書(shū)館數(shù)據(jù)挖掘技術(shù)研究現(xiàn)狀述評(píng)[J].圖書(shū)館界,2011(1):42-44.

作者簡(jiǎn)介:厙睿(1984—),女,遼寧人,西北民族大學(xué)碩士研究生,助理館員,現(xiàn)供職于西安醫(yī)學(xué)院圖書(shū)館文獻(xiàn)建設(shè)部。

猜你喜歡
個(gè)性化服務(wù)數(shù)字圖書(shū)館數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
淺析移動(dòng)時(shí)代的圖書(shū)館發(fā)展策略
互聯(lián)網(wǎng)思維下數(shù)字圖書(shū)館個(gè)性化服務(wù)建設(shè)研究
需求理論在高校圖書(shū)館就業(yè)服務(wù)中的應(yīng)用研究
高校數(shù)字圖書(shū)館資源整合的初探
商情(2016年39期)2016-11-21 09:27:10
基于云計(jì)算的數(shù)字圖書(shū)館建設(shè)與服務(wù)模式研究
從谷歌案析數(shù)字圖書(shū)館對(duì)作品的使用行為
芻議數(shù)字圖書(shū)館計(jì)算機(jī)網(wǎng)絡(luò)的安全技術(shù)及其防護(hù)策略
大數(shù)據(jù)對(duì)高校圖書(shū)館個(gè)性化服務(wù)的影響
科技視界(2016年10期)2016-04-26 10:14:33
泊头市| 随州市| 桓仁| 伽师县| 新沂市| 抚远县| 芮城县| 九龙县| 凤山县| 新建县| 申扎县| 开鲁县| 武义县| 阳春市| 米易县| 江达县| 新平| 肇东市| 兴隆县| 西藏| 昭通市| 高唐县| 呼和浩特市| 渝北区| 三亚市| 承德县| 麻城市| 嘉善县| 榆中县| 鲁山县| 和田县| 苏尼特右旗| 遵义市| 哈尔滨市| 县级市| 沿河| 交口县| 肇州县| 阜南县| 西丰县| 玛曲县|