孫 寶 趙艷梅
(華北科技學院圖書館,北京東燕郊 101601)
平均復本量預測模型研究①
孫 寶②趙艷梅
(華北科技學院圖書館,北京東燕郊 101601)
在確定采購復本量過程中,重點突出讀者借閱行為的影響作用,根據(jù)借閱率與平均復本量之間相關關系,運用線性回歸分析方法,預測未來2008—2009學年度20個大類圖書平均復本量,目的是為了給采購復本量的確定提供參考。選取高校圖書館中具有代表性的H語言類圖書為例,介紹平均復本量預測過程。
線性回歸;自回歸;借閱率;平均復本量;圖書采購
單純確定某一種圖書采購復本量,方法比較多,筆者從預測37個大類圖書平均復本量角度出發(fā),試圖用每一個大類平均復本量指導任何一種圖書采購復本量的確定。若要確定某一種圖書采購復本量,可以從該種圖書所在大類的平均復本量點預測值和置信區(qū)間中獲得參考。制定采購策略應當首先考慮讀者借閱行為及藏書量的影響作用,筆者對此進行了深入探討。本文在預測20個大類圖書平均復本量過程中,所運用線性回歸方法,以借閱率為自變量,包含著讀者借閱行為和藏書量兩方面信息。預計采購的某一種圖書一般不在館藏范圍內(nèi),也不可能有反映讀者借閱行為的歷史數(shù)據(jù),而該種圖書所在大類的其他館藏圖書借閱歷史數(shù)據(jù)卻可以用于作為首選參考數(shù)據(jù)。
復本量是圖書館采購人員必須解決的問題,許多專家學者都在關注圖書采購復本量研究,發(fā)表了大量論文,專門闡述確定復本量的各種策略。吳志榮老師主張借鑒國外大學圖書館一個復本的圖書采購策略[1]。高校圖書館的服務對象是由在校大學生、研究生、授課教師等組成的廣大讀者群,復本量過低,則很可能使部分讀者無法借到所需文獻。相反,復本量過多,又會造成經(jīng)費和館藏空間的浪費,也沒有考慮到同類書的不同品種在一定程度上可以代替復本[2]。復本量過低和過多都不可行,于是研究制定科學的復本量策略就顯得俞加必要和緊迫。
實際工作中,圖書采購人員一般根據(jù)本校教學科研情況和本館館藏情況,劃出每一類圖書的采購復本量標準,但是這種操作方法會受到采購人員主觀認識水平的限制[3]。王居平老師根據(jù)復本量與拒借率之間相關關系,由控制方程,在指定拒借率范圍內(nèi)求解出某一種圖書復本量[4]。只是拒借率難于統(tǒng)計,所得結(jié)果不夠準確,模型置信度不易達到通常要求。
劉新文老師考慮7個主要因素對復本量的共同作用,綜合確定某一種圖書采購復本量[5]。7個因素之多的公式復雜度較高,實際工作中難于把握,而且讀者續(xù)借文獻概率、預計消耗冊數(shù)等指標也不易統(tǒng)計,不易獲得。
決定一種圖書采購復本量的首要因素應當是讀者借閱行為。無論采用何種方法,精確得出即將采購的某一種圖書復本量都是不現(xiàn)實的,理論上似乎可行,實際操作卻很難實現(xiàn)。如果預先確定該種圖書所在大類平均復本量和上下波動范圍,是否對實際采購的指導作用更強?對比其他復本量確定方法,平均復本量模型中借閱率指標只包含借閱量和藏書量信息,易于統(tǒng)計,易于獲得,僅有一個指標的模型相對簡單,可操作性強。
從借閱率與平均復本量相關關系中研究復本量的方法,目前在相關文獻中尚未檢索到類似報道。圖書采購部門選擇采購策略,應當充分考慮讀者借閱行為的影響作用,筆者在這方面進行了有益嘗試。
如果一個因變量Y與一個自變量X有相關關系,根據(jù)觀察數(shù)據(jù)作散點圖時,具有直線趨勢,其樣本回歸方程:
根據(jù)最小二乘法原理,可得a和b的計算公式[6,7,8]:
從樣本回歸方程可得點預測值,置信區(qū)間能給出估計的更精確信息[9,10]。
在顯著性水平α下,某一個新值y0的置信區(qū)間是
對于時間序列yi(i=1,2,…,n),可以取xi= i,采用線性回歸分析,即為線性趨勢時間序列分析,也可以采用時間序列自回歸分析。
把時間序列前后兩期觀察值一一配對,可得自相關表,如表1所示[11,12,13]。
表1 時間序列自相關表
筆者觀察每一個大類平均復本量與借閱率,都總結(jié)出二者服從線性關系,可以應用線性回歸分析?;貧w理論相對比較成熟,有一系列檢驗準則。只要模型通過檢驗,就能夠保證應用結(jié)果的準確性。模型由兩個步驟組成,首先根據(jù)時間序列理論預測下一個學年度借閱率,然后利用該預測結(jié)果預測下一學年度平均復本量。
本文對各個大類圖書平均復本量的探討,所引用的數(shù)據(jù)基本上都來源于華北科技學院圖書館鑫盤集成管理系統(tǒng)。華北科技學院圖書館的讀者主要是在校大學生,英語是公共課,讀者借閱量比較集中,因此,英語類藏書所在的H語言類圖書相比于其他各類圖書具有典型性,于是本文以H語言類圖書為例,介紹平均復本量預測過程
H語言類圖書借閱率用G表示,計算公式為:
上式中L表示一個學年度(前一年8月至該年7月)H語言類圖書總借閱量,單位是冊;C表示一個學年度(該年7月底)H語言類圖書藏書量,單位是冊。調(diào)用鑫盤管理系統(tǒng)統(tǒng)計功能,可以統(tǒng)計出1999年至今9個學年度H語言類圖書總借閱量和藏書量(見表2)。
表2 H語言類圖書借閱率
H語言類圖書平均復本量用O表示,計算公式為:
上式中C的意義與4.1中相同;K表示一個學年度(該年7月底)H語言類圖書總種數(shù),單位是種。H語言類圖書總種數(shù)也可從鑫盤系統(tǒng)中統(tǒng)計得到(見表3)。
表3 H語言類圖書平均復本量
3.3.1 借閱率自相關表
以1999年至今9個學年度借閱率為時間序列,把相鄰兩個學年度借閱率一一配對,即為借閱率自相關表(見表4)。
表4 借閱率自相關表
3.3.2 描繪借閱率自回歸散點圖
以借閱率自相關表中g(shù)i為x軸坐標,以gi+1為y軸坐標,將對應借閱率用坐標點形式描繪,即為借閱率一階自回歸散點圖,如圖1所示。
圖1 借閱率自回歸散點圖
3.3.3 自相關系數(shù)判定條件
從借閱率自回歸散點圖可以看出,借閱率時間序列具有明顯一階自相關性。但是,能否應用時間序列自回歸分析,還要根據(jù)自相關系數(shù)判定條件來決定。利用借閱率自相關表中數(shù)據(jù),自相關系數(shù)計算結(jié)果為:
在顯著性水平α=0.001下,查相關系數(shù)檢驗表,獲得置信度為99.9%的臨界值d= 0.92493。由于|r1|=0.953197>d,滿足判定條件,自回歸分析適用于此。
3.3.4 確定自回歸參數(shù)與樣本自回歸方程
利用借閱率自相關表中數(shù)據(jù),確定自回歸參數(shù):
3.3.5 F—檢驗
從表5可知,在顯著性水平α=0.001下,查F—概率分布表,獲得置信度為99.9%的臨界值F0.001(1,8-2)=35.51。由于F=59.634068>F0.001(1,6),表明相鄰兩學年度借閱率之間具有密切自相關關系,自回歸分析通過F—檢驗。
3.3.6 預測2008~2009學年度借閱率
由2007~2008學年度借閱率可以預測2008~2009學年度借閱率為:
表5 借閱率自回歸分析方差分析表
3.4.1 平均復本量對借閱率相關表0
根據(jù)1999年至今9個學年度平均復本量和借閱率原始數(shù)據(jù),把借閱率從小到大排列,將平均復本量與其對應排列,可得平均復本量對借閱率相關表(見表6)。
表6 平均復本量對借閱率相關表
3.4.2 描繪平均復本量對借閱率線性相關散點圖
以借閱率為x軸坐標,以平均復本量為y軸坐標,把對應觀察值用坐標點形式描繪,可得線性相關散點圖,如圖2所示。
圖2 平均復本量與借閱率散點圖
3.4.3 平均復本量與借閱率線性相關系數(shù)判定條
從圖2看出,平均復本量與借閱率近似服從負線性相關關系。通過判定相關系數(shù),進一步印證了線性回歸分析適用性。相關系數(shù)計算結(jié)果為:
在顯著性水平α=0.001下,查相關系數(shù)檢驗表,獲得置信度為99.9%的臨界值d=0.8982。由于|r|=0.985161>d,滿足判定條件,此處適用線性回歸分析。
3.4.4 確定線性回歸參數(shù)與樣本回歸方程利用表6中數(shù)據(jù),回歸參數(shù)計算結(jié)果為:
3.4.5 F—檢驗
從表7可知,在顯著性水平α=0.001下,查F—概率分布表,獲得置信度為99.9%的臨界值為F0.001(1,9-2)=29.25。由于F=230.627861?F0.001(1,7),表明平均復本量與借閱率之間具有密切線性相關關系,線性回歸分析通過F—檢驗。
表7 平均復本量對借閱率方差分析表
3.4.6 預測2008~2009學年度平均復本量
當已知2008~2009學年度借閱率g0= 79.612506,可以預測2008~2009學年度平均復本量為:
3.4.7 估計2008—2009學年度平均復本量置信區(qū)間利用表7中數(shù)據(jù)有:
在顯著性水平α=0.001下,平均復本量置信度為99.9%的置信區(qū)間是:
即(3.825697,4.765604)。至此,可以預測2008—2009學年度H語言類圖書平均復本量將是4.3冊/種,置信區(qū)間介于3.8冊/種至4.8冊/種之間。
按照中圖法分類體系,分別獲取了A,B,……,Z,TB,TD,……,TV等37個大類圖書借閱、藏書數(shù)據(jù),采用與預測H語言類圖書平均復本量類似的方法,可以預測其他各個大類平均復本量。根據(jù)相關系數(shù)判定條件,經(jīng)過對這37個大類平均復本量與借閱率相關系數(shù)逐一判別,取最低置信度95%,從中篩選出20個大類判定結(jié)果符合回歸分析理論應用要求(見表8)。
表8 20個大類平均復本量預測表
在類號旁邊標以“*”的A、G、TB等3大類平均復本量預測過程中,當采用自回歸分析預測借閱率時,出現(xiàn)檢驗置信度低于95%的情況,換用線性趨勢時間序列分析方法,才保證模型置信度達到95%以上。
本文在回歸分析理論指導下,根據(jù)各個大類平均復本量與借閱率之間相關系數(shù)判定結(jié)果,求得了2008~2009學年度20個大類平均復本量點預測值和置信區(qū)間,可以作為這20個大類采購復本量的參考依據(jù)。本文應用的理論和方法,易于實現(xiàn),可操作性強,對高校圖書館采購部門確定新書采購復本量,具有較強的指導作用。
限于回歸分析理論相關系數(shù)判定條件的約束,在37個大類圖書中,只有20個大類可以應用回歸分析方法。在下一步研究和探討中,可否尋找出能夠用于預測每個大類平均復本量的回歸分析方法,則對圖書采購的指導作用更強。
[1] 吳志榮.感悟“一個復本”—探究西方大學圖書館的辦館理念[J].圖書館雜志,2004(12):41-43
[2] 陳堯禧.試論藏書品種與復本的關系及對策[J].圖書館學研究,2003(6):55-57
[3] 曹臻.大學圖書館館藏中文圖書復本的配置[J].大學圖書館學報,2005(3):53-56
[4] 王居平.圖書館學和情報學中的量化分析和預測方法初探[J].情報雜志,2007(1):105 -106
[5] 劉新文.圖書館圖書復本量的定量分析[J].西南師范大學學報(自然科學版),2007(4):87-89
[6] Gerard ED.Introduction to S impleLinearRegression[EB/OL].(2008-7-16)[2009-4-2]. http://www.jerrydallal.com/LHSP/slr.h tm
[7] Devore J L.Probability and Statistics for Engineering and the Sciences[M].6th edition.Brooks/Cole, 2004:496-554
[8] Kelly H Z,Kemal T,Stuart G S.Correlation and Simple Linear Regression[J].Radiology,2003, 227(3):617-622
[9] Prem S M.Introductory Statistics[M].5th edition.JohnWiley&Sons,2007:580-642
[10] 蘇均和,朱建中.社會經(jīng)濟統(tǒng)計學原理[M].上海:立信會計出版社,2007:256-268
[11] 孫允午.統(tǒng)計學—數(shù)據(jù)的搜集、整理和分析[M].上海:上海財經(jīng)大學出版社,2007:326-333
[12] 徐國祥.統(tǒng)計學[M].上海:上海人民出版社,2007:317-320
[13] 王燕.應用時間序列分析[M].北京:中國人民大學出版社,2007:69-82
The Research aboutM ean Duplicates Prediction M odel
SUN B ao,ZHAO Yanm ei
(North China Institute of Science and TechnologyLibrary,Yanjiao Beijing-East 101601)
The influence of the reader loans behavior is firstly selected to determine the literature purchasing duplicates.Based on the correlation relation between the library loans rate and the mean duplicates of 20 categories books,the method of linear regression analysis is used to predict itsmean duplicates in the coming 2008-2009 school year.The prediction result plays a key role in deter mining all duplicates thatwill be purchased.As the representative in the library of colleges and universities,the H language category books is selected to demonstrate the mean duplicates prediction procedure.
Linear regression;Autoregression;Library loans rate;Mean duplicates;Literature purchasing
G250.71
A
1672-7169(2010)01-0079-06
2009-07-18
孫寶(1970-),男,河北遷安人,碩士,華北科技學院圖書館副研究館員,研究方向:信息管理與信息系統(tǒng)。