董德生
(63810部隊 海南 文昌 571300)
信息化領域高速發(fā)展,數(shù)據(jù)挖掘技術成為先進信息技術被廣泛應用,并且逐步使用到軟件工程中,讓開發(fā)、管理、代碼編寫等各個環(huán)節(jié)順利進行,從而實現(xiàn)數(shù)據(jù)挖掘的高效進行,促進數(shù)據(jù)質量的提升,提高研發(fā)速度,提高軟件工程開發(fā)水平,滿足各項工作的運行需要,促進軟件工程領域的發(fā)展。我國圖書館的館藏圖書量較大,需要處理的信息量也不斷變得繁雜。在此條件下,圖書館管理信息系統(tǒng)充分應用數(shù)據(jù)挖掘技術是十分必要的,我們要通過數(shù)據(jù)挖掘技術進一步改變較為傳統(tǒng)的圖書館管理,達到提高圖書館信息化管理整體水平的目的。
數(shù)據(jù)挖掘技術主要是對數(shù)據(jù)進行深入的開發(fā),并在大量的數(shù)據(jù)中整理出有價值的數(shù)據(jù),達到雜亂數(shù)據(jù)規(guī)整化的目的。大量數(shù)據(jù)中仍然具有缺陷,比如不完整性、隨機性和噪聲性等,利用該技術對數(shù)據(jù)進行挖掘,并從各種數(shù)據(jù)中提取出有價值的信息,使其更具實用性。在數(shù)據(jù)處理過程中使用數(shù)據(jù)挖掘,是對數(shù)據(jù)信息的轉換。數(shù)據(jù)挖掘也是一種多學科融合之下的技術,體現(xiàn)出大數(shù)據(jù)的優(yōu)勢。利用數(shù)據(jù)挖掘掌握全部數(shù)據(jù)信息,更容易被用戶采用和使用。數(shù)據(jù)挖掘實際上是對數(shù)據(jù)進行深度加工和精細加工的過程,并且在數(shù)據(jù)分析中具有高度的自主性。它主要針對各種格式的數(shù)據(jù)庫和Internet,首先構建完善的數(shù)據(jù)庫系統(tǒng),實現(xiàn)數(shù)據(jù)清理與轉換,經(jīng)過挖掘之后得出結論,進行進一步的分析和總結。數(shù)據(jù)挖掘技術被廣泛應用于生產(chǎn)和生活的各個領域,并取得了良好的效果,例如數(shù)字圖書館的個性化服務,同樣可以利用數(shù)據(jù)挖掘技術,從它的應用效果可以看出,服務質量得到了極大提升[1]。
圖書館管理信息系統(tǒng)是通過計算機掌握全部圖書館信息,讓圖書館管理順利實施,這是現(xiàn)代化圖書館管理的模式,專業(yè)性高、可使用性強、工作內容比較繁雜。圖書館管理信息系統(tǒng)對數(shù)據(jù)進行采集、存儲和轉換,給用戶提供完善的信息,取代以往人工作業(yè)方式,提高工作精度和質量,讓圖書館管理者做出正確的決策。在信息化建設的過程中,合理應用海量的網(wǎng)絡資源,及時進行深入分析和研究,深度挖掘信息資源的內在,給用戶提供有用的信息,讓管理人員了解內在的關系,實現(xiàn)管理人員與圖書、用戶之間的高效鏈接。
信息獲取速度的提高是當前圖書館管理的需要,也是信息管理技術應用的優(yōu)勢,體現(xiàn)出數(shù)據(jù)挖掘技術的優(yōu)勢。信息獲取速度的提升,是通過數(shù)據(jù)挖掘技術在圖書館管理信息系統(tǒng)中的高效應用,能夠更進一步記載用戶的瀏覽記錄、閱讀傾向,并進行更加深化的觀測,然后系統(tǒng)會將所獲取的數(shù)據(jù)通過分析、融合,找到具有價值的數(shù)據(jù),并通過關聯(lián)規(guī)則將同時獲取的相關規(guī)則進行編制,組建出能夠為用戶提供充分選擇和利用的圖書資源,信息獲取順利實現(xiàn)。
圖書館的目標是給用戶提供高水平的服務,滿足不同人群的閱讀需要。但是,從管理的過程來看,這樣圖書館的服務會更加被動,并不能達到用戶使用的要求,這種處于被動的服務模式使圖書館的管理發(fā)展滯后。而充分應用了數(shù)據(jù)挖掘技術的圖書館,在此技術的支撐下,為用戶提供了由自己進行實際操作和向用戶推薦相關閱讀服務一個平臺,有效地提高了圖書館的智能化水平。這種現(xiàn)代化的服務模式既保證了圖書館在服務過程中處于主動,使人力與物力的配置更加合理化,也使用戶更加明確自己的實際需求,促進了服務質量的提升,確保了用戶個性化服務[2]。
圖書館資源的優(yōu)化利用可以發(fā)揮出圖書資源的作用,利用數(shù)據(jù)挖掘技術可以實現(xiàn)。系統(tǒng)內存儲大量的借閱日志,跟蹤用戶和書籍信息,每日借用書籍而形成的大量數(shù)據(jù)信息,傳統(tǒng)的數(shù)據(jù)分析無法確定借用書籍資源的趨勢。應用數(shù)據(jù)挖掘技術后,將圖書館每日借書數(shù)據(jù)深入挖掘和利用,分析用戶的真實需求,發(fā)布相關的服務方案,保證圖書館資源科學合理的應用。因此,在數(shù)據(jù)挖掘技術應用到圖書管理系統(tǒng)后,有效地優(yōu)化了信息資源,改善了信息架構,科學地解決了此類問題。首先,它可以先有效地分析圖書館中用戶的瀏覽記錄和借閱日志記錄,以及分析出圖書館館藏圖書的記錄,再將分析出的數(shù)據(jù)進行系統(tǒng)分析,把分析結果與用戶實際的需求作為基本的根據(jù),以此確定圖書館館藏書目的類型和數(shù)量。其次,隨著信息技術的發(fā)展與完善,網(wǎng)絡信息的發(fā)展也越來越完善,在此環(huán)境下,它能使圖書館輕松地獲取有價值的信息并將其添加到信息資源數(shù)據(jù)庫中,豐富了庫中的信息資源,也使管理人員的工作效率得到提高[3]。在圖書館的規(guī)模建設的持續(xù)發(fā)展中,日漸更新的藏書量變得更加繁雜,會使用戶對圖書的搜集和閱讀造成較大困擾。為了有效地控制信息資源,有必要將其基本屬性進行分類,以確保信息整合和轉化的科學性和合理性。
經(jīng)過信息處理技術的應用,保證挖掘技術可以充分利用,這是圖書管理信息系統(tǒng)基本功能,與傳統(tǒng)的圖書館管理中的信息處理模式相比有較明顯的差別。傳統(tǒng)的圖書館管理中,數(shù)據(jù)采集常常受到挖掘時間限制,會存有數(shù)據(jù)缺失,數(shù)據(jù)遺漏等現(xiàn)象,不利于查找,此時,挖掘技術中的數(shù)據(jù)清理,就能有效地解決此類問題。數(shù)據(jù)挖掘技術在該系統(tǒng)中的應用使用戶所需要的數(shù)據(jù)能夠更加完整精確地存儲在數(shù)據(jù)倉庫當中。用戶只需遵循標準化的檢索程序,可以直接獲取目標文件信息。相對而言,該類型的信息挖掘過程具備標準化、自動化、廣泛性的優(yōu)勢。
利用數(shù)據(jù)挖掘技術可以充分掌握用戶與圖書、圖書之間的關系,以此為基礎對圖書的采購進行指導。一方面,適當篩除借閱率低的舊書,針對借閱率高的圖書類型進行豐富和填充,達到優(yōu)化館藏的目的,使圖書館的圖書資源更加符合用戶需求,利用掌握的信息客觀分析圖書轉化趨勢。另一方面,不同學科也有著差異和關系,且隨著時間的變化而改變,通過運用數(shù)據(jù)挖掘技術把這種關系呈現(xiàn)出來,以此用來指導圖書館中專業(yè)學科的設置,也達到了優(yōu)化館藏的目的,同時,為用戶提供了相關學科專業(yè)的咨詢服務和推薦服務。
數(shù)據(jù)挖掘技術應用到圖書管理中,能夠收集到與圖書館中信息資源相關的全部信息,掌握內部數(shù)據(jù),并且為決定的制定提供強有力的支持,保證數(shù)據(jù)可以充分利用,促進工作順利開展和實施。
現(xiàn)代社會發(fā)展之下,數(shù)字圖書館是未來發(fā)展的必然。分析數(shù)據(jù)挖掘技術的形態(tài),數(shù)字圖書館通過現(xiàn)代化信息技術的研發(fā)和應用,可以掌握全面的圖書館資源,采集圖書圖像、文字與語音等資源,這種情況之下,處理和儲存了現(xiàn)有的信息資源,有利于最終價值的進一步提升。分析應用的狀態(tài),可以完成數(shù)字圖書館建設,掌握足夠的數(shù)據(jù)信息??傊瑪?shù)據(jù)挖掘技術的廣泛應用,能夠系統(tǒng)應用現(xiàn)代有效的分析工具和統(tǒng)計方法,同時,還可以應用決策樹、規(guī)則處理等技術獲取足夠的信息資源,它實現(xiàn)了對圖書館管理模式的可行性分析,最后利用知識表達的方法可以給用戶提供數(shù)據(jù)挖掘技術,讓信息管理達到數(shù)字化、智能化的標準。
Apriori算法是為了找出數(shù)據(jù)中出現(xiàn)次數(shù)頻繁的集合,進行數(shù)據(jù)庫掃描處理,形成數(shù)量龐大的頻繁項集,且每一次形成的頻繁項集都會經(jīng)過迭代的方法形成頻繁候選項集,然后再次掃描數(shù)據(jù)庫,保證生成的集合是頻繁項集。Apriori算法的基本思想是:
首先通過多次的迭代,找出所有符合支持度標準的且是最大個數(shù)的頻繁項集;
其次,根據(jù)上述找見的頻繁項集,輸出得到的強關聯(lián)規(guī)則。
通過上面第一步找出的頻繁項集生成的規(guī)則,只把置信度大于用戶設置的最小置信度的規(guī)則保留下來,要想讓形成的頻繁項集更加有效,提高挖掘效率,可以使用遞歸的方法,其挖掘步驟如下:
產(chǎn)生大量的頻繁項集后,及時把生成的非頻繁項集篩除,減少重新組合頻繁候選項集的時間;
在使用Apriori算法前先把一些特殊的事務刪除掉,這樣生成的頻繁項集,不會再次計算這些特殊事務,減少誤差。
深入分析發(fā)現(xiàn)用戶和圖書的關聯(lián)規(guī)則,然后可以給客戶推薦圖書和優(yōu)化館藏資源,比如優(yōu)化館藏與提供個性化服務。根據(jù)系統(tǒng)中用戶的借閱記錄可以直接看出圖書的借閱率,然后就能挖掘出關聯(lián)性較強的圖書,即為優(yōu)化館藏。同時,可以把關聯(lián)性強的圖書推薦給選擇過類似圖書的用戶,或者給該用戶推薦與他選擇圖書關聯(lián)性強的其他書籍。也就是說,按照圖書管理系統(tǒng)的數(shù)據(jù)特性,從借閱記錄中,通過關聯(lián)分析把用戶與圖書之間的關系挖掘出來。具體包含下述幾個步驟:
(1)數(shù)據(jù)準備。給用戶推薦圖書時,通常會推薦與該用戶以往選擇圖書關聯(lián)性強的圖書,例如,用戶在借閱《呼嘯山莊》時,也會借閱《瀕死之眼》。通過利用數(shù)據(jù)挖掘可以發(fā)現(xiàn),圖書之間的關聯(lián)規(guī)則可以優(yōu)化館藏,并為用戶提供個性化服務。
(2)數(shù)據(jù)預處理。進行挖掘前,要挖掘的數(shù)據(jù)有一些是含有雜質的,或者存在信息不完整的情況,所以在實驗環(huán)節(jié)要對該類型數(shù)據(jù)實現(xiàn)預處理。內容如下:
①空值處理。數(shù)據(jù)挖掘表內,不允許有空值屬性的字段存在。如果表中填充空值,例如,在借閱信息表中,挖掘的重要參考字段是分類號,而分類號有空值,那么可能會使表中信息的不確定性更加明顯,使具有確定性的成分變得更難把握,此時就需要根據(jù)副本的相關信息將此空值進行數(shù)據(jù)補齊,使數(shù)據(jù)挖掘表更加完備。
②噪聲處理。數(shù)據(jù)挖掘表內,一些沒有意義的數(shù)據(jù)給數(shù)據(jù)分析影響結果產(chǎn)生不利影響,因此,應該充分開展數(shù)據(jù)挖掘和分析,提高工作質量和標準[4]。
綜上所述,數(shù)據(jù)挖掘技術中具有描述性、預測性的數(shù)據(jù)分析功能為在圖書館管理信息系統(tǒng)中應用提供了重要的技術支持,而數(shù)據(jù)挖掘技術應用到圖書館管理系統(tǒng)內,給系統(tǒng)產(chǎn)生積極的影響,并且發(fā)揮出該技術在圖書館管理信息系統(tǒng)的作用,可以有效地增強系統(tǒng)功能,使其工作更加便捷。在圖書館信息化建設中,管理人員自身的現(xiàn)代管理意識提升,才有可能充分認識到數(shù)據(jù)挖掘技術在其中的應用優(yōu)勢,做好其信息化建設的具體應用內容,保證系統(tǒng)中數(shù)據(jù)挖掘應用水平的有效提高,進一步推動系統(tǒng)的發(fā)展。