王瑛瑛
(朔州師范高等專科學(xué)校 山西 朔州 036002)
在網(wǎng)絡(luò)信息數(shù)據(jù)庫不斷發(fā)展壯大的背景下,國內(nèi)高校的圖書館都在很短時(shí)間內(nèi)完成了對海量數(shù)據(jù)的積累,人們想要檢索特定的信息數(shù)據(jù)的難度逐漸增加,所以檢索技術(shù)變得更加有效。對高校圖書館來說,過去的管理重點(diǎn)是登記圖書借閱和圖書歸還,沒能及時(shí)分析有關(guān)數(shù)據(jù),沒能重視信息資源。數(shù)據(jù)挖掘技術(shù)能夠結(jié)合基本理論與圖書館具體管理,為圖書館的信息資源管理工作建立相關(guān)的檔案信息平臺(tái)。
數(shù)據(jù)挖掘技術(shù)指的是整理并提取儲(chǔ)存于數(shù)據(jù)庫的海量的數(shù)據(jù)信息,并從這些數(shù)據(jù)信息中將能夠?yàn)槿藗兯玫臄?shù)據(jù)信息挖掘出來的技術(shù),本質(zhì)是對數(shù)據(jù)的處理。其具體功能如下。
這個(gè)功能指的是利用淺顯且容易明白的語句和詞語來描述指定對象的關(guān)鍵特點(diǎn)。在劃分類別時(shí)應(yīng)該依據(jù)描述對象的關(guān)鍵特點(diǎn)來分類其群體。定義的側(cè)重點(diǎn)在于描述同一數(shù)據(jù)區(qū)的共性特點(diǎn),而類別的側(cè)重點(diǎn)是區(qū)分存在差別的數(shù)據(jù)對象。
關(guān)系發(fā)現(xiàn)即對不同的信息變量的潛在性規(guī)律以及內(nèi)部關(guān)聯(lián)進(jìn)行發(fā)現(xiàn)和處理。關(guān)系發(fā)現(xiàn)能夠被分成因果作用類型、時(shí)序關(guān)系類型、簡單關(guān)系類型。關(guān)系發(fā)現(xiàn)功能在商務(wù)關(guān)聯(lián)方面和決策分析方面均有廣泛應(yīng)用,此種數(shù)據(jù)挖掘方式廣受人們歡迎。
假如必須分類信息數(shù)據(jù)與預(yù)估信息數(shù)據(jù),則應(yīng)該在對數(shù)據(jù)進(jìn)行處理的初期進(jìn)行有益的習(xí)得性操作,設(shè)置模型與規(guī)定。分類功能通常被用來估算散亂信息,預(yù)估功能應(yīng)該對連續(xù)信息進(jìn)行估計(jì),常見的分類方法包括遺傳算法分類、神經(jīng)網(wǎng)絡(luò)分類、貝葉斯公式分類、決策樹分類、模糊集分類、粗糙集分類,常見的預(yù)估技術(shù)可以分為非線性回歸預(yù)估和線性回歸預(yù)估。
聚合的意思是詳細(xì)地區(qū)分相似的數(shù)據(jù)組成的各個(gè)類別,在分類劃分樣本時(shí),應(yīng)該依據(jù)組間最小相似度和組間最大相似度。在研究信息對象時(shí),人們通常不能確定它的詳細(xì)類別。此時(shí),應(yīng)該使用劃分方法、分層方法、網(wǎng)格主導(dǎo)方法、模型主導(dǎo)方法、密度主導(dǎo)方法對類別實(shí)行聚合研究操作。
人們常用孤立點(diǎn)指代無法符合信息的常規(guī)行為以及無法符合信息的一般模型。因?yàn)橄到y(tǒng)檢索的不足,使得信息分析存在偶然偏差,進(jìn)而使這些信息變成無效數(shù)據(jù),最終遭到清除。但是這些信息數(shù)據(jù)大部分是具有含義與現(xiàn)實(shí)作用的,對孤立點(diǎn)進(jìn)行挖掘的方式包括基于距離、非基于距離、統(tǒng)計(jì)學(xué)的方法。
確定數(shù)據(jù)挖掘的目標(biāo)是開展數(shù)據(jù)挖掘操作的必要準(zhǔn)備工作,例如高校圖書館要想對師生在文獻(xiàn)類型方面的需求有所了解,就需要把高校圖書館的文獻(xiàn)分成許多類型,在此基礎(chǔ)上,對大數(shù)據(jù)內(nèi)部的所需信息進(jìn)行挖掘,以此提高數(shù)據(jù)挖掘的針對性,從而能夠?yàn)楦咝D書館的信息資源管理提供更加優(yōu)質(zhì)的服務(wù)[1]。
在準(zhǔn)備用戶信息的過程中,高校圖書館的工作人員能夠在對師生的基本信息進(jìn)行確認(rèn)的過程中使用圖書館系統(tǒng)。在高校師生使用圖書館的過程中,借助RFID技術(shù)把它們的個(gè)人信息反映在系統(tǒng)中。首先,能夠在學(xué)生查閱文獻(xiàn)和圖書的過程中完成對其詳細(xì)記錄的獲取,獲取證件號、獲取專業(yè)、獲取借閱登記記錄、獲取院系、獲取性別、獲取年齡、獲取類型。其次,在高校圖書館的信息資源管理中,讀者借閱的歷史記錄是其關(guān)鍵數(shù)據(jù)信息,如果把讀者借閱的歷史記錄當(dāng)作統(tǒng)計(jì)數(shù)據(jù)的對象,就可以實(shí)現(xiàn)對圖書條碼號信息、索書號信息、讀者編號信息、借閱時(shí)間信息、書名信息、歸還時(shí)間信息的整合。通過詳細(xì)的分類統(tǒng)計(jì)與整理分析這些信息,高校圖書館能夠?qū)ξ墨I(xiàn)的利用效率進(jìn)行預(yù)測與分析。此外,圖書館的文獻(xiàn)書目記錄和流通日志同樣屬于借閱歷史信息的范疇,是數(shù)據(jù)挖掘的目標(biāo)[2]。
3.3.1 數(shù)據(jù)清理技術(shù)
數(shù)據(jù)清理過程是對數(shù)據(jù)之中的異常數(shù)據(jù)進(jìn)行清理的過程,這樣做能夠使數(shù)據(jù)挖掘的結(jié)果更加準(zhǔn)確。在對圖書數(shù)據(jù)和讀者數(shù)據(jù)進(jìn)行處理的過程中,工作人員能夠發(fā)現(xiàn)數(shù)據(jù)中具有不夠完整的數(shù)據(jù)和不一致的數(shù)據(jù),這也印證了清理數(shù)據(jù)的必要性。在此過程中,應(yīng)該對數(shù)據(jù)光滑技術(shù)和缺失值處理技術(shù)多加利用,把“續(xù)借”缺失值和“性別”缺失值替換成unknown,把“年齡”缺失值替換成ageave,如果記錄中存在空字段,應(yīng)該使用手工編寫的SQL腳本,如果少數(shù)圖書的分類號是中文字符,則在挖掘過程中必須進(jìn)行妥善處理,應(yīng)該盡快將壞數(shù)據(jù)刪除。
3.3.2 數(shù)據(jù)整合技術(shù)
在對完整的信息進(jìn)行獲取之后,能夠使用大數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行深入地挖掘,此時(shí)應(yīng)該利用面向?qū)傩缘臍w納算法來對數(shù)據(jù)進(jìn)行分類,從而得到數(shù)據(jù)的屬性集合。例如,在對高校圖書館的信息資源進(jìn)行管理的過程中,產(chǎn)生的數(shù)據(jù)能夠分成文獻(xiàn)圖書數(shù)據(jù)、記錄數(shù)據(jù)、用戶數(shù)據(jù)、借閱檢索圖書的集合,這樣做能夠使數(shù)據(jù)維度減少,能夠起到降低挖掘難度的作用。此時(shí),應(yīng)該把分散數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫,從而形成讀者的借閱記錄。
3.3.3 數(shù)據(jù)歸約算法
當(dāng)數(shù)據(jù)倉庫運(yùn)行至一定期限之后,數(shù)據(jù)量會(huì)以很快的速度增長,如果不利用歸約算法而是進(jìn)行直接挖掘,會(huì)出現(xiàn)的問題如下:(1)每一個(gè)字段都需要占據(jù)很大的空間,這會(huì)使得內(nèi)存的占用率提升,從而使內(nèi)存導(dǎo)入的時(shí)間延長。(2)絕大多數(shù)單項(xiàng)是漢字字符串,而且候選序列的生產(chǎn)時(shí)間和空間開銷都會(huì)變多,出于節(jié)省時(shí)間和提高實(shí)踐效率的目的,應(yīng)該對全部事務(wù)記錄進(jìn)行壓縮,把單一事務(wù)記錄成6個(gè)字符串,單一字符必須是小寫字符,在系統(tǒng)對屬性配置進(jìn)行讀取之后,依據(jù)順序把特定的字母賦予屬性值。假如程序讀取至“本科”,就會(huì)把“a”賦值給本科,會(huì)在讀到“研究生”時(shí)把“b”賦值給研究生,以這樣的方式完成對全部屬性值的讀取,從而能夠完成對字母字符至屬性值映射表格的建立,通過對讀者的數(shù)據(jù)庫進(jìn)行壓縮的方式,達(dá)到減少預(yù)處理文件數(shù)量的目的,使效率能夠提升。舉例說明,沒有壓縮數(shù)據(jù)庫之前的大小是127 M,在對數(shù)據(jù)進(jìn)行壓縮之后會(huì)縮減成11.6 M,能夠直觀地發(fā)現(xiàn)內(nèi)存資源得到了明顯節(jié)省[3]。
對高校圖書館來說,它在購置文獻(xiàn)方面的經(jīng)費(fèi)是有限的,在對各個(gè)學(xué)科文獻(xiàn)的購置經(jīng)費(fèi)進(jìn)行分配的過程中,不但應(yīng)該結(jié)合高校的調(diào)研狀況,而且應(yīng)該結(jié)合高校的教學(xué)狀況,從而使費(fèi)用支出達(dá)到均衡,能夠發(fā)揮購置文獻(xiàn)的作用。以往高校圖書館在對信息進(jìn)行采集時(shí),大多是通過幾位專家和采訪人員進(jìn)行商議的方法決定的,這樣做難免會(huì)出現(xiàn)信息不夠全面的狀況,不但會(huì)使信息資源出現(xiàn)缺失問題,還會(huì)出現(xiàn)浪費(fèi)經(jīng)費(fèi)問題。此外,儲(chǔ)存文獻(xiàn)的空間同樣不是無限的。優(yōu)化館藏分布,館藏分布可以分為多媒體和傳統(tǒng)文獻(xiàn)的擺放,以及服務(wù)器中的文獻(xiàn)索引組織,使資源的利用效率得到有效提升。在對高校圖書館的圖書流通數(shù)據(jù)、圖書借閱數(shù)據(jù)、圖書檢索請求數(shù)據(jù)進(jìn)行挖掘之后,按照類別對文獻(xiàn)的頻繁借閱集和文獻(xiàn)的拒借集進(jìn)行統(tǒng)計(jì),能夠幫助信息資源進(jìn)行補(bǔ)充,而且能夠使決策變得更加豐富,從而實(shí)現(xiàn)對文獻(xiàn)利用率的分析,把過時(shí)的文獻(xiàn)去除,減少收集部分文獻(xiàn),通過對用戶借閱文獻(xiàn)的關(guān)聯(lián)進(jìn)行分析,能夠查出文獻(xiàn)的比例關(guān)系和文獻(xiàn)的關(guān)聯(lián)規(guī)則,以此優(yōu)化高校圖書館的館藏布局和信息建設(shè)。
出于保證用戶可以在很短的時(shí)間內(nèi)得到想要的信息的目的,高校圖書館應(yīng)該對用戶的專題瀏覽集合進(jìn)行收集,依據(jù)用戶的瀏覽記錄來建立事務(wù)庫,在此基礎(chǔ)上執(zhí)行事務(wù)庫操作。首先,利用關(guān)聯(lián)規(guī)則來查找訪問頻率高過閾值的項(xiàng)目,使用分類算法把頻繁項(xiàng)目和用戶的瀏覽模式進(jìn)行相似度的匹配,把瀏覽模式相像的用戶安排至相同服務(wù)器,使服務(wù)器頁面的傳輸數(shù)量和服務(wù)器的緩存得到減少。其次,如果事務(wù)庫內(nèi)部的專題的訪問頻率大于閾值,在進(jìn)行關(guān)聯(lián)分析之后,能夠得到專題的關(guān)聯(lián)規(guī)則,把它儲(chǔ)存到服務(wù)器的知識庫中,由用戶在網(wǎng)頁上進(jìn)行瀏覽,就能夠按照規(guī)則來提前連接關(guān)聯(lián)頁,使響應(yīng)的速度得到提升。智能信息檢索的支持范圍包括聯(lián)想、模糊、概念、多語言的檢索,還可以使用聚類算法來對查詢的結(jié)果進(jìn)行聚類分析,確保呈現(xiàn)的內(nèi)容是有條理的內(nèi)容,方便用戶進(jìn)行篩選。
在對高校圖書館的信息資源進(jìn)行管理的過程中,因其文本數(shù)據(jù)眾多,能夠使用文本挖掘技術(shù)自行摘要的方法對文本數(shù)據(jù)文檔進(jìn)行分類。在此過程中,文本自動(dòng)摘要需要使用統(tǒng)計(jì)算法,將原文中和主題有密切關(guān)聯(lián)的語句挑選出來,自行實(shí)現(xiàn)對文本摘要的生成,這種數(shù)據(jù)挖掘技術(shù)非常適合用在電子期刊和電子圖書這類文獻(xiàn)信息中。文檔自動(dòng)分類指的是按照文檔文本的數(shù)據(jù)特征來實(shí)現(xiàn)對文檔類別的挖掘,將其歸至合適的主題范圍,以便高校師生查詢。在大量的數(shù)據(jù)信息背景下,利用文本挖掘技術(shù)能夠防止出現(xiàn)時(shí)間緊張問題和人員短缺問題,可以有效保障高校圖書館的信息資源管理服務(wù)的效果[4]。
綜上所述,高校圖書館要想建立數(shù)字化檔案,需要在數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上有針對地建立檔案信息管理平臺(tái),從而促進(jìn)高校圖書館不斷發(fā)展。因此,相關(guān)人員應(yīng)該對數(shù)據(jù)挖掘技術(shù)優(yōu)勢進(jìn)行充分利用,增加人力投入與物力投入,使數(shù)字化檔案平臺(tái)能夠不斷完善,盡量提高使用圖書館信息資源的效率,充分開發(fā)與利用高校圖書館的檔案資源,而且應(yīng)該積極促進(jìn)高校圖書館朝著科學(xué)化方向不斷發(fā)展。