国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘技術(shù)的圖書館服務(wù)平臺(tái)研究

2012-02-15 23:48張立春中共太原市委黨校圖書館太原030012
圖書館理論與實(shí)踐 2012年12期
關(guān)鍵詞:服務(wù)平臺(tái)數(shù)據(jù)挖掘分類

●張立春(中共太原市委黨校 圖書館,太原 030012)

引言

圖書館服務(wù)平臺(tái)的管理方法非常多,由于其大量的信息流,采用不同的數(shù)據(jù)處理手段對(duì)平臺(tái)性能的影響也是很大的。[1]Web數(shù)據(jù)流控制技術(shù)是目前流行的一種技術(shù)手段,它的特點(diǎn)是針對(duì)大量的數(shù)據(jù)資源進(jìn)行快速的處理、分類等。[2]對(duì)于高等院校的圖書館而言,充分利用網(wǎng)絡(luò)資源可以為廣大師生提供完善的數(shù)據(jù)信息,對(duì)于教育、科研都具有重要的意義。

采用先進(jìn)的網(wǎng)絡(luò)化技術(shù)可以高效地利用教育教學(xué)資源,能提高教學(xué)質(zhì)量,拓寬教學(xué)層次,使師生的思想更具備發(fā)散性,有利于高校教學(xué)綜合素質(zhì)的提高。所以,開發(fā)高校的網(wǎng)絡(luò)教育平臺(tái)資源,是實(shí)現(xiàn)網(wǎng)絡(luò)資源整合服務(wù)的核心。

通過圖書館服務(wù)平臺(tái)的Web資源平臺(tái)實(shí)現(xiàn)整體網(wǎng)絡(luò)資源的整合,包括數(shù)據(jù)挖掘、資源分類、決策處理、網(wǎng)絡(luò)服務(wù)等的研究。應(yīng)用Web資源與圖書館服務(wù)平臺(tái)相結(jié)合的思想,可以使整個(gè)高校的信息平臺(tái)更加完善。以Web資源數(shù)據(jù)挖掘等手段的平臺(tái)更適應(yīng)多樣化用戶的使用,兼容了科研型教師梯隊(duì)、教學(xué)型教師梯隊(duì)以及學(xué)習(xí)型學(xué)生網(wǎng)絡(luò)的特點(diǎn),有利于廣大師生在圖書館的大量數(shù)據(jù)中更快、更好地發(fā)現(xiàn)對(duì)應(yīng)的有效信息。

目前,國(guó)內(nèi)外對(duì)數(shù)據(jù)挖掘技術(shù)的研究日益火爆,在圖書館中應(yīng)用數(shù)據(jù)挖掘技術(shù)從海量信息中提取有用信息已經(jīng)是重要的發(fā)展方向之一。不但有助于圖書館的數(shù)字化、自動(dòng)化的形成,還可以針對(duì)不同用戶的需求采取不同的應(yīng)對(duì)措施。所以,基于Web資源平臺(tái)的數(shù)據(jù)挖掘技術(shù)在圖書館信息整理、處理等方面是非常實(shí)用的,也是世界各國(guó)的很多圖書館服務(wù)平臺(tái)的發(fā)展趨勢(shì)。

1 圖書館服務(wù)平臺(tái)開發(fā)的必要性

高校圖書館利用數(shù)據(jù)挖掘等技術(shù)主要是在文獻(xiàn)信息管理、信息服務(wù)和人員管理方面。因?yàn)閭鹘y(tǒng)的圖書信息采集由專人完成,存在主觀因素,所以各分類學(xué)科的分配上有偏差,常常不能達(dá)到最佳利用的效果。采用數(shù)據(jù)挖掘、有效地分類,通過一些相關(guān)算法可以有效地將利用率不同的書刊資料區(qū)分出來,更好地完成圖書資源的分配。如通過數(shù)據(jù)挖掘中的動(dòng)態(tài)關(guān)系圖找出圖書類別和借閱次數(shù)之間的函數(shù)關(guān)系,通過綜合分析而完成新書資源配比的問題。在信息服務(wù)方面,不再是被動(dòng)式的借書還書模式,而是主動(dòng)配置模式,根據(jù)不同的用戶特征為其提供不同的搜索服務(wù),根據(jù)用戶的檢所要求,設(shè)計(jì)直接檢索效果以及一些相關(guān)鏈接,使數(shù)據(jù)資源更全面的展現(xiàn)在用戶面前。在人員管理方面,不再是簡(jiǎn)單的層次管理和個(gè)人信息記錄等,而要求圖書館員的服務(wù)幫助等建立評(píng)價(jià)體系等,使服務(wù)更加的完善,從而激發(fā)館員的工作熱情,提供信息交流的平臺(tái),提高其業(yè)務(wù)能力,為廣大讀者提供不同的服務(wù)。

利用統(tǒng)計(jì)分析、邏輯回歸、決策樹、粗糙集分類、BP神經(jīng)網(wǎng)絡(luò)等多種算法,通過對(duì)用戶的行為、興趣等分析,將用戶的個(gè)性化需求與系統(tǒng)的服務(wù)平臺(tái)結(jié)合起來,為每個(gè)用戶提供更有針對(duì)性的服務(wù),提高圖書資源的利用效率。

由于社會(huì)信息化過程中各個(gè)系統(tǒng)、軟件及數(shù)據(jù)庫之間關(guān)聯(lián)性差,而造成的數(shù)據(jù)共享性差,無法實(shí)現(xiàn)資源共享模式而導(dǎo)致系統(tǒng)效率低。各高校圖書館都有大量的數(shù)字化資源,如館藏圖書、全文期刊數(shù)據(jù)庫、學(xué)位論文數(shù)據(jù)庫等。如果能進(jìn)行有效的數(shù)據(jù)交換,可以極大地拓寬各個(gè)高校的數(shù)字資源服務(wù)平臺(tái)。這個(gè)過程就需要Web資源共享技術(shù),結(jié)合數(shù)據(jù)挖掘等技術(shù)手段實(shí)現(xiàn)圖書館服務(wù)平臺(tái)性能的高效化。綜合Web數(shù)據(jù)的特點(diǎn),在短時(shí)間內(nèi)可以處理大量數(shù)據(jù),時(shí)間動(dòng)態(tài)變化等情況,將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館服務(wù)平臺(tái)建設(shè)中非常合適。

2 服務(wù)平臺(tái)中的Web數(shù)據(jù)挖掘

圖書館的數(shù)字化程度越來越高,通過數(shù)據(jù)挖掘技術(shù)為圖書館服務(wù)平臺(tái)提供技術(shù)支持。通過信息的整合,主動(dòng)發(fā)掘各種讀者的閱讀需求,滿足讀者的不同想法,有利于信息多元化的發(fā)展。每種數(shù)據(jù)挖掘都有各自的特點(diǎn)和方式,對(duì)于Web數(shù)據(jù)挖掘技術(shù)也是如此,整個(gè)過程是一個(gè)相當(dāng)復(fù)雜的算法處理的過程。這一過程是人機(jī)結(jié)合、處理循環(huán)、逼近目標(biāo)、知識(shí)發(fā)現(xiàn)的過程,包括了數(shù)據(jù)的收集、整理、挖掘等,同時(shí),不是簡(jiǎn)單地單次模式,而是一個(gè)循環(huán)迭代的工作模式,也只有這樣才可以使其實(shí)現(xiàn)最終的要求。

2.1 數(shù)據(jù)庫的建立

完整的數(shù)據(jù)庫是數(shù)據(jù)挖掘技術(shù)應(yīng)用的基本條件,數(shù)據(jù)庫的建立一般采用常用的數(shù)據(jù)庫建立手段,將可以用于決策的海量數(shù)據(jù)信息從操作環(huán)境中取出來,形成獨(dú)立的數(shù)據(jù)資源體系。在圖書館服務(wù)平臺(tái)中的數(shù)據(jù)庫和傳統(tǒng)的數(shù)據(jù)庫是有有所不同的,其更加強(qiáng)調(diào)系統(tǒng)的集中性、統(tǒng)一性。數(shù)據(jù)庫是決策系統(tǒng)的基本組成單元,是管理信息的基本元素,數(shù)據(jù)庫提供了整理處理后的數(shù)據(jù),給決策者提供信息保障,并通過這些數(shù)據(jù)完成決策。所以建立數(shù)據(jù)庫對(duì)于圖書館服務(wù)平臺(tái)的數(shù)據(jù)挖掘是很重要的。

在目前絕大部分圖書館中,都已經(jīng)采用完整的圖書卡借閱模式,在高校的圖書館中更是常見,如校園一卡通等。這種形式非常適合收集讀者的各種信息,包括讀者的個(gè)人簡(jiǎn)介信息,借閱數(shù)據(jù)等。在借閱過程中,以身份、書籍類型、借閱時(shí)間作為主要的分類方式,定義一個(gè)3維度的數(shù)據(jù)空間,建立數(shù)據(jù)表收集信息。維表上對(duì)應(yīng)記錄著對(duì)應(yīng)維度的信息,用于查詢對(duì)應(yīng)的約束條件,通常是離散分布的,不具備可加性。由于要記錄的數(shù)據(jù)量大,所以一般采用多維數(shù)據(jù)的記錄形式,這樣可以更好地實(shí)現(xiàn)多維數(shù)據(jù)的記錄、分析、處理等。多維數(shù)據(jù)結(jié)構(gòu)普遍采用星形模式,對(duì)于星形模式而言,由事實(shí)表及維表通過星形結(jié)構(gòu)連接成,其中,事實(shí)表存儲(chǔ)有借閱數(shù)據(jù)信息,用于查詢和分析。因?yàn)閿?shù)據(jù)取值一般是可以度量的,并且具有可加性的,同時(shí)數(shù)據(jù)信息量很大。與此同時(shí),借閱數(shù)據(jù)的信息可通過多個(gè)維度獲得,每個(gè)維度都可以產(chǎn)生相應(yīng)的維表。

在數(shù)據(jù)庫星形工作模式建立完畢以后,就可以數(shù)據(jù)聚集了。數(shù)據(jù)聚集是數(shù)據(jù)庫的重要組成部分,可以用于分析對(duì)應(yīng)應(yīng)用的需求關(guān)系,與事實(shí)表及維表都有著緊密的關(guān)系。

創(chuàng)建數(shù)據(jù)聚集的方法如下:

(1) 在各個(gè)維向上分析需要聚集的屬性數(shù)據(jù),以時(shí)間作為橫軸,圖書種類作為縱軸,依據(jù)借閱人的身份特征(例如是學(xué)生、老師等) 建立對(duì)應(yīng)的數(shù)據(jù)聚集。

(2)組合不同維的屬性。數(shù)據(jù)聚集后,分析、查詢的過程都是復(fù)雜的,所以數(shù)據(jù)庫的資源數(shù)據(jù)都很大,所以需要建立索引從而提高數(shù)據(jù)庫的訪問能力。只有在明確數(shù)據(jù)庫體系及其結(jié)構(gòu)的基礎(chǔ)上,完成數(shù)據(jù)模型的設(shè)計(jì)才能實(shí)現(xiàn)對(duì)后續(xù)問題的預(yù)處理。也就是需要對(duì)事實(shí)表及維表中的數(shù)據(jù)流進(jìn)行分類、凈化等處理。數(shù)據(jù)庫經(jīng)建設(shè)后還需要定期的維護(hù)。

2.2 Web數(shù)據(jù)挖掘

(1)數(shù)據(jù)的預(yù)儲(chǔ)存。對(duì)采集得到的數(shù)據(jù)首先需要進(jìn)行預(yù)處理,包括凈化、識(shí)別、路徑補(bǔ)充等。在本文設(shè)計(jì)的Web數(shù)據(jù)挖掘方式基礎(chǔ)上,采用的預(yù)處理主要是只收集數(shù)據(jù)資源的記錄信息,這樣保證了數(shù)據(jù)的完整性,同時(shí)又不需要在收集過程中占用大量的時(shí)間,在建立數(shù)據(jù)庫的過程中再根據(jù)需要從中獲取相應(yīng)的數(shù)據(jù)信息,結(jié)合IP地址信息實(shí)現(xiàn)網(wǎng)站的拓?fù)浣Y(jié)構(gòu),從而實(shí)現(xiàn)聯(lián)機(jī)采集的效果。

(2)數(shù)據(jù)的算法。挖掘數(shù)據(jù)是一個(gè)長(zhǎng)期、動(dòng)態(tài)的工作過程,對(duì)于不同的數(shù)據(jù)而言,需要不同的數(shù)據(jù)挖掘處理算法。例如有滑動(dòng)窗口模型(針對(duì)最近時(shí)間段的數(shù)據(jù)進(jìn)行處理)、定期抽取模型(按固定時(shí)間進(jìn)行采集的方式)、特征時(shí)間模型(按特定時(shí)間進(jìn)行采集的方式)等。利用分類、聚類、關(guān)聯(lián)等算法對(duì)資源進(jìn)行整合,將數(shù)據(jù)中近似的、相近的、相關(guān)聯(lián)的提取出來。

(3)模式的構(gòu)建。通過分類、聚類、關(guān)聯(lián)的方法進(jìn)行模式的自組織。分類通過分類模型實(shí)現(xiàn),利用分類函數(shù)獲得類別信息,分析相應(yīng)的公共屬性,分類后可以通過類型特征進(jìn)行聚類。聚類可以將Web數(shù)據(jù)庫中存在相似屬性的用戶資源相關(guān)聯(lián),同時(shí)分析他們的相似性,找出共同特性,從而更好地掌握用戶的需求。最后,由關(guān)聯(lián)規(guī)則完成用戶對(duì)網(wǎng)站上各種資源的相互關(guān)系,通過對(duì)規(guī)則的設(shè)定挖掘出用戶的閱讀趨向及規(guī)律,從而實(shí)現(xiàn)主動(dòng)服務(wù)的高級(jí)功能。

(4) 整合資源信息。由于Web資源信息的多樣性、廣泛性,所以需要有合理的資源導(dǎo)航及檢索能力,通過資源的發(fā)現(xiàn)、分類及標(biāo)注功能完成資源的有效定位。通過資源的名稱、URL地址、簡(jiǎn)介、關(guān)鍵詞以及類型等特征信息,完成數(shù)據(jù)庫的掃描檢索功能。例如針對(duì)某個(gè)需要查找的內(nèi)容信息進(jìn)行檢索,信息的特種特征越是具體,檢索效果就會(huì)越好,這樣才能實(shí)現(xiàn)檢索結(jié)果的具體化,這需要在檢索過濾方面采用相關(guān)技術(shù)進(jìn)行有效地定位。在搜索過程中,應(yīng)該存在細(xì)線條、深層次、大范圍的搜索,找到用戶需要的資源信息,隨著特征的具體化而越具體,避免了造成搜索過程中產(chǎn)生大量的冗余信息。方便快捷地找到需要的搜索結(jié)果是用戶的目的。根據(jù)對(duì)資源的不同請(qǐng)求情況,對(duì)資源實(shí)時(shí)分類,從而滿足不同用戶的信息檢索要求,提供用戶需要的文獻(xiàn)服務(wù)。

3 圖書館數(shù)據(jù)挖掘平臺(tái)架構(gòu)

圖書館資源服務(wù)平臺(tái)是根據(jù)讀者用戶所提出的問題在傳統(tǒng)功能的基礎(chǔ)上改進(jìn)、更新的服務(wù)方式。雖然具有網(wǎng)絡(luò)化的新功能,但是需要建立在原有信息資源的基礎(chǔ)上,同時(shí)結(jié)合讀者用戶的各種需求。利用Web數(shù)據(jù)挖掘技術(shù),對(duì)數(shù)據(jù)的分析提取、整合聚類、綜合整理完成相應(yīng)的功能模塊。為了實(shí)現(xiàn)對(duì)應(yīng)的應(yīng)用功能,形成易于理解、操作簡(jiǎn)潔的用戶數(shù)據(jù)檢索形式,充分體現(xiàn)數(shù)據(jù)資源有效性,需要在了解掌握傳統(tǒng)數(shù)據(jù)庫工作機(jī)理上添加Web數(shù)據(jù)挖掘的相關(guān)功能。實(shí)現(xiàn)Web資源平臺(tái)的方法是以分類為基礎(chǔ),將各種不同的資源信息離散化,將分類完畢的資源信息利用決策樹等算法手段,把讀者用戶的閱讀請(qǐng)求及目的抽象出來,發(fā)給圖書館綜合服務(wù)平臺(tái),同時(shí),服務(wù)平臺(tái)會(huì)根據(jù)不同的請(qǐng)求,建立新的鏈接及提供原始服務(wù),依據(jù)分析算法實(shí)現(xiàn)挖掘結(jié)果的附加服務(wù)。

讀者用戶是資源使用者,是資源對(duì)外服務(wù)的載體,是資源溝通的橋梁。圖書館資源是否能方便地使用和資源服務(wù)方式方法有著密切的關(guān)系,因此設(shè)計(jì)較好的可視化的信息服務(wù)平臺(tái)是優(yōu)化的一個(gè)重要方面。除可視化服務(wù)平臺(tái)外,還需要制定一些服務(wù)策略,提高擴(kuò)大讀者用戶的被服務(wù)范圍。主動(dòng)分析讀者用戶的需求,利用信息資源的優(yōu)勢(shì),提高數(shù)據(jù)服務(wù)的綜合質(zhì)量及效率,從而體現(xiàn)數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘的特色。

4 結(jié)論

本文通過采用Web數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)了一種更利于讀者獲取所需信息的工作模式。系統(tǒng)通過對(duì)樣本庫的分類分析,將分類后的相應(yīng)數(shù)據(jù)進(jìn)行處理,從而構(gòu)建了基于Web數(shù)據(jù)挖掘的圖書館服務(wù)平臺(tái)。數(shù)據(jù)庫是數(shù)據(jù)挖掘的基礎(chǔ),在完成了數(shù)據(jù)收集、處理、存儲(chǔ)等工作的基礎(chǔ)上,數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)了知識(shí)的特征提取,最終達(dá)到圖書館服務(wù)平臺(tái)功能的提升,使其能夠充分地發(fā)揮數(shù)據(jù)信息的力量。

[1]李征.云計(jì)算在圖書館建設(shè)與信息服務(wù)中潛在價(jià)值探析 [J].大學(xué)圖書館學(xué)報(bào),2011,(1) :59-62,82.

[2]姚玉閣.淺析數(shù)據(jù)挖掘技術(shù)[J].信息與電腦,2010 (11):115.

猜你喜歡
服務(wù)平臺(tái)數(shù)據(jù)挖掘分類
打造一體化汽車服務(wù)平臺(tái)
分類算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
江蘇省一體化在線交通運(yùn)輸政務(wù)服務(wù)平臺(tái)構(gòu)建
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
論基于云的電子政務(wù)服務(wù)平臺(tái)構(gòu)建
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
基于云計(jì)算的民航公共信息服務(wù)平臺(tái)
教你一招:數(shù)的分類