高萍
(寶雞文理學(xué)院,陜西 寶雞 721006)
圖書館借閱量是評估一個圖書館館藏資源質(zhì)量、數(shù)量、圖書種類和用戶群體閱讀需求的重要指標(biāo)。圖書館借閱量能較為直觀地反映出紙質(zhì)書籍與電子文獻(xiàn)的借閱情況[1]。對圖書館借閱量進(jìn)行預(yù)測可為圖書館的工作人員對圖書和文獻(xiàn)資源管理提供方便,并根據(jù)相關(guān)書籍的借閱情況及時作出部署與安排。圖書館借閱量會受到較多因素的制約,如借閱人數(shù)、借閱時間、館藏數(shù)量及質(zhì)量、冷門書籍的借閱氛圍等,這些制約因素具有一定的周期性和規(guī)律性,不利于圖書館借閱量的精準(zhǔn)預(yù)測[2]。
相關(guān)學(xué)者也提出比較有效的圖書館借閱量預(yù)測方法,楊英設(shè)計一種基于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計模型,通過圖書館借閱數(shù)據(jù)構(gòu)建借閱量估計模型,采用蟻群算法優(yōu)化RBF 神經(jīng)網(wǎng)絡(luò)的權(quán)值、閾值,該方法能快速實(shí)現(xiàn)預(yù)測,但其預(yù)測精度較低,預(yù)測量與實(shí)際圖書館借閱量相差較大[3]。
為解決上述問題,實(shí)現(xiàn)圖書館借閱量的精準(zhǔn)預(yù)測,該文提出以GMBP 模型為核心的圖書館借閱量非線性預(yù)測方法,根據(jù)圖書館借閱量進(jìn)行建模,利用混沌分析法和數(shù)據(jù)挖掘法處理數(shù)據(jù),對數(shù)據(jù)進(jìn)行非線性預(yù)測,通過實(shí)驗(yàn)研究驗(yàn)證該文所提方法的性能。
對圖書館借閱量進(jìn)行預(yù)測時,采集圖書館借閱量樣本數(shù)據(jù)(xi,yi),并將其輸入到BP 神經(jīng)網(wǎng)絡(luò)模型中,通過采用?(x) 將圖書館借閱量樣本數(shù)據(jù)(xi,yi)映射到BP 神經(jīng)網(wǎng)絡(luò)模型中[4],以得到GMBP 模型,如式(1)所示:
式中,ωT表示圖書館借閱量的正則化參數(shù);b表示圖書館借閱量的子數(shù)據(jù)集。通過結(jié)合后的GMBP模型對圖書館借閱量進(jìn)行預(yù)測建模[5]。
圖書館借閱量數(shù)據(jù)包含大量的測試數(shù)據(jù),為改善因數(shù)據(jù)處理技術(shù)不具備歸一化處理能力導(dǎo)致的樣本數(shù)據(jù)與測試數(shù)據(jù)混沌性較高的問題,建立GM 灰色模型以實(shí)現(xiàn)圖書館借閱量測試數(shù)據(jù)的準(zhǔn)確預(yù)測。
將圖書館借閱量數(shù)據(jù)中的數(shù)據(jù)節(jié)點(diǎn)按照預(yù)測順序進(jìn)行劃分,通過劃分完的節(jié)點(diǎn)數(shù)據(jù)對圖書館一個周期的借閱量進(jìn)行預(yù)測,并進(jìn)行系統(tǒng)學(xué)習(xí),建立的預(yù)測模型如圖1 所示。
圖1 圖書館借閱量預(yù)測模型
觀察圖1 可知,每種圖書館借閱量數(shù)據(jù)集中含有相同數(shù)量的子數(shù)據(jù),將輸入的圖書館借閱量數(shù)據(jù)通過GMBP 模型進(jìn)行輸出,收集輸出的圖書館借閱量訓(xùn)練數(shù)據(jù),并進(jìn)行節(jié)點(diǎn)劃分,劃分完成后獲得多種圖書館借閱量數(shù)據(jù)集,將圖書館借閱量子數(shù)據(jù)輸入到GMBP 灰色神經(jīng)網(wǎng)絡(luò)模型對其進(jìn)行統(tǒng)計與篩選。通過圖書館管理人員下發(fā)的圖書館借閱量預(yù)測子任務(wù),篩選出符合圖書館預(yù)測要求的某一階段的圖書館借閱量數(shù)據(jù),再根據(jù)訓(xùn)練集與測試集進(jìn)行劃分,建立圖書館借閱量非線性預(yù)測模型[6]。在圖書館借閱量子數(shù)據(jù)輸入并選擇完成后,將其分別輸入到GM 灰色模型與BP 神經(jīng)網(wǎng)絡(luò)模型中,輸入到模型中的圖書館借閱量數(shù)據(jù)將存儲在輸入層與隱含層中[7]。輸入層中的圖書館借閱量子數(shù)據(jù)可通過映射轉(zhuǎn)換到多維空間之中,而存儲在隱含層中的圖書館借閱量子數(shù)據(jù)由于數(shù)據(jù)屬于多維數(shù)據(jù),因此需通過隱含層節(jié)點(diǎn)將圖書館借閱量子數(shù)據(jù)變換到隱含層空間內(nèi),對得到的圖書館借閱量預(yù)測結(jié)果進(jìn)行分析,將GM 灰色模型與BP 神經(jīng)網(wǎng)絡(luò)結(jié)合,完成GMBP 模型的建模[8]。
通過該圖書館借閱量預(yù)測模型可實(shí)現(xiàn)海量圖書館借閱量數(shù)據(jù)的輸入與輸出、映射與融合,將不同空間內(nèi)的圖書館借閱量數(shù)據(jù)進(jìn)行結(jié)合,使預(yù)測結(jié)果更具準(zhǔn)確性與可靠性[9]。
對圖書館借閱量的預(yù)測屬于非線性預(yù)測,這是由于圖書館借閱量具有非線性變化的特點(diǎn),受到借閱人數(shù)、時間、書籍種類等因素影響,其數(shù)據(jù)具有一定的混沌性[10]。因此在對圖書館借閱量進(jìn)行非線性預(yù)測時,首先采用混沌分析法對圖書館借閱量進(jìn)行初級預(yù)測,降低其混沌性。假設(shè)圖書館借閱量的原始數(shù)據(jù)為xi,i=0,1,2,……,為更精確地找出圖書館借閱量的原始數(shù)據(jù)隨借閱時間與借閱圖書種類變化的情況,將圖書館借閱量的原始數(shù)據(jù)按照數(shù)據(jù)隱藏特點(diǎn)分為圖書館借閱量樣本數(shù)據(jù)與測試數(shù)據(jù),通過混沌分析方法對圖書館借閱量樣本數(shù)據(jù)與測試數(shù)據(jù)進(jìn)行處理與映射,以此完成對圖書館借閱量原始數(shù)據(jù)的初級預(yù)測[11]。預(yù)測公式如下:
式中,m表示采用混沌分析方法對圖書館借閱量原始數(shù)據(jù)進(jìn)行映射的次數(shù);τ表示圖書館借閱量樣本數(shù)據(jù)與測試數(shù)據(jù)的嵌入維數(shù)。將原始數(shù)據(jù)分為測試數(shù)據(jù)與樣本數(shù)據(jù),通過該預(yù)測公式,采用混沌分析方法對圖書館借閱量原始數(shù)據(jù)進(jìn)行初級預(yù)測[12],并得出預(yù)測初級結(jié)果,該預(yù)測初級結(jié)果可提高圖書館借閱量最終預(yù)測結(jié)果的有效性和精確性[13]。
采用數(shù)據(jù)挖掘技術(shù)對圖書館借閱量測試數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行挖掘。首先提取學(xué)校圖書館30 天的圖書館借閱量,采用數(shù)據(jù)挖掘技術(shù)確定測試數(shù)據(jù)與樣本數(shù)據(jù)的空間維數(shù),如果定階指數(shù)為6,則可通過數(shù)據(jù)挖掘技術(shù)得到圖書館第7 天的圖書館借閱量,對初級預(yù)測過程中的圖書館借閱量樣本數(shù)據(jù)與測試數(shù)據(jù)進(jìn)行分析,確定實(shí)驗(yàn)結(jié)果[14]。驗(yàn)證結(jié)束后,將圖書館借閱量預(yù)測初級結(jié)果與驗(yàn)證結(jié)果進(jìn)行融合,對融合后的預(yù)測結(jié)果進(jìn)行參數(shù)尋優(yōu)和歸一化處理[15],進(jìn)行參數(shù)尋優(yōu)的公式為:
式中,xmin和xmax分別表示預(yù)測結(jié)果的最小值和最大值,采用圖書館借閱量樣本數(shù)據(jù)分別對預(yù)測融合結(jié)果、預(yù)測最大值、預(yù)測最小值進(jìn)行參數(shù)尋優(yōu),對參數(shù)尋優(yōu)后的三種預(yù)測結(jié)果進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束后就得到最終的圖書館借閱量預(yù)測結(jié)果[16]。
由于混沌分析方法具有非線性的特點(diǎn),對數(shù)據(jù)的把控能力更強(qiáng),可在短時間內(nèi)收集大量數(shù)據(jù),收集后分析數(shù)據(jù)特性,以不同的方式將數(shù)據(jù)排列,根據(jù)數(shù)據(jù)特點(diǎn),確定圖書館借閱量。與傳統(tǒng)的線性分析方法相比,非線性分析方法的分析范圍更廣,分析能力更強(qiáng)。圖書館書籍內(nèi)容羅列方式不同,因此基于GMBP模型的圖書館借閱量非線性預(yù)測方法更適合于實(shí)際應(yīng)用。
為驗(yàn)證該文提出的以GMBP 模型為核心的圖書館借閱量非線性預(yù)測方法的實(shí)際工作效果,將基于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計方法與該文方法進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)中的圖書館借閱量提取于某學(xué)校圖書館的管理系統(tǒng),從某學(xué)校圖書館管理系統(tǒng)中采集某一時間段內(nèi)的圖書館借閱量樣本,采集到有效圖書館借閱量樣本數(shù)量為600 個,樣本數(shù)據(jù)示意圖如圖2 所示。
圖2 樣本數(shù)據(jù)示意圖
根據(jù)圖2 的樣本數(shù)據(jù),進(jìn)行對比實(shí)驗(yàn)。
實(shí)驗(yàn)中,對所采集的600 個圖書館借閱量樣本數(shù)據(jù)進(jìn)行處理和映射,然后將映射后的樣本數(shù)據(jù)分為樣本集與測試集,圖書館借閱量樣本數(shù)據(jù)中的前400 個數(shù)據(jù)作為GMBP 灰色神經(jīng)網(wǎng)絡(luò)的樣本集,對樣本集進(jìn)行歸一化處理,剩下200 個數(shù)據(jù)作為灰色神經(jīng)網(wǎng)絡(luò)的測試集,利用混沌分析法分析圖書館借閱量的映射次數(shù)與嵌入維數(shù),然后進(jìn)行參數(shù)尋優(yōu),尋優(yōu)后分別對樣本集與測試集進(jìn)行預(yù)測。采用該文方法與傳統(tǒng)方法,即基于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計方法對數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測結(jié)果如圖3 所示。
圖3 預(yù)測實(shí)驗(yàn)結(jié)果
由圖3 可知,該文提出以GMBP 模型為核心的圖書館借閱量非線性預(yù)測方法預(yù)測結(jié)果與真實(shí)結(jié)果相差較小,而基于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計方法的預(yù)測結(jié)果與真實(shí)結(jié)果相差較大,由此證明了該文方法預(yù)測的圖書館借閱量更符合實(shí)際圖書館的借閱量。
基于以上設(shè)置的實(shí)驗(yàn)參數(shù),針對不同預(yù)測方法進(jìn)行預(yù)測精度的對比實(shí)驗(yàn)。在預(yù)測精度對比實(shí)驗(yàn)中,對圖書館借閱量樣本數(shù)據(jù)和測試數(shù)據(jù)分別進(jìn)行映射實(shí)驗(yàn),實(shí)驗(yàn)進(jìn)行5 次,統(tǒng)計每次實(shí)驗(yàn)結(jié)果,兩種預(yù)測方法的預(yù)測精度對比結(jié)果如圖4 所示。
圖4 預(yù)測精度實(shí)驗(yàn)結(jié)果
分析預(yù)測精度實(shí)驗(yàn)結(jié)果可知,該文方法的預(yù)測精度較高,傳統(tǒng)預(yù)測方法的預(yù)測精度較低。造成這種情況的原因是,該文研究的預(yù)測方法引用了GMBP模型,可實(shí)現(xiàn)非線性預(yù)測,得到GMBP 灰色神經(jīng)網(wǎng)絡(luò)模型的最優(yōu)參數(shù),提升預(yù)測精度。而基于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計方法的模型屬于線性回歸模型,無法識別圖書館借閱量的非線性特點(diǎn),并且該方法對樣本集進(jìn)行測試時泛化能力較差,很難通過灰色模型找出圖書館借閱量的全局最優(yōu)值,預(yù)測精度較低。
采用該文方法與基于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計方法對圖書館借閱量樣本數(shù)據(jù)進(jìn)行5 次實(shí)驗(yàn),實(shí)驗(yàn)中每次預(yù)測結(jié)果的穩(wěn)定性結(jié)果如圖5 所示。
圖5 預(yù)測穩(wěn)定性實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果可知,基于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計方法的5次預(yù)測結(jié)果的干擾值在-10~10 mm之間波動,主要集中在-3~5 mm 之間,說明基于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計方法的波動范圍較大,穩(wěn)定性較差,不適合實(shí)際應(yīng)用。而該文方法的5次預(yù)測結(jié)果的干擾值在-2.5~2.5 mm 之間波動,主要集中在-1.5~1 mm 之間,說明該文方法的抗干擾性較強(qiáng),波動范圍較小,穩(wěn)定性較好,適合實(shí)際應(yīng)用,由此可證明該文方法的穩(wěn)定性要優(yōu)于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計方法。
經(jīng)過以上對比實(shí)驗(yàn)可驗(yàn)證,該文預(yù)測方法預(yù)測精度較高,穩(wěn)定性較高,預(yù)測結(jié)果與實(shí)際結(jié)果誤差小,整體性能優(yōu)于傳統(tǒng)預(yù)測方法,實(shí)用性強(qiáng)。
圖書館借閱量在圖書館業(yè)務(wù)統(tǒng)計中是一個非常關(guān)鍵的評估指標(biāo),通過精準(zhǔn)閱讀提高圖書館服務(wù)質(zhì)量,完善圖書館的日常管理。該文利用GMBP 模型設(shè)計一種新的圖書館借閱量非線性預(yù)測方法,對預(yù)測方法的數(shù)據(jù)量進(jìn)行建模,根據(jù)建模結(jié)果分析數(shù)據(jù)精度,實(shí)現(xiàn)數(shù)據(jù)預(yù)測。通過實(shí)驗(yàn)可知,研究的預(yù)測方法穩(wěn)定性高、預(yù)測精度高,值得大力推薦和使用,有助于圖書館的資源管理。