●王 冉(江蘇師范大學(xué)圖書館,江蘇 徐州 221116)
?
運(yùn)用回歸模型構(gòu)建隨書光盤共享平臺(tái)
●王冉(江蘇師范大學(xué)圖書館,江蘇徐州221116)
[關(guān)鍵詞]隨書光盤;回歸分析;移動(dòng)互聯(lián)網(wǎng)
[摘要]在移動(dòng)互聯(lián)網(wǎng)大環(huán)境下,隨書光盤共享平臺(tái)難以很好地為讀者服務(wù),改造虛擬光盤勢在必行。采用多元回歸分析模型,結(jié)合隨書光盤相關(guān)數(shù)據(jù),利用SPSS軟件對隨書光盤下載量的影響因素進(jìn)行多元回歸分析,建立預(yù)測模型。經(jīng)檢驗(yàn),預(yù)測模型可以有效預(yù)測光盤下載量,有針對性地指導(dǎo)光盤改造工作。
隨書光盤作為紙本書籍的重要補(bǔ)充,是傳統(tǒng)閱讀向數(shù)字閱讀過渡的中間環(huán)節(jié)。由于光盤本身的傳播能力有限,且讀者以獨(dú)占方式借閱,使得隨書光盤的利用效率受到影響。加之光盤易被磨損,由此可能導(dǎo)致數(shù)據(jù)讀取失敗,甚至部分或全部損壞。[1]因此,近幾年,國內(nèi)各大高校、機(jī)構(gòu)紛紛將館藏隨書光盤壓制為虛擬光盤鏡像文件(*.ISO),建立隨書光盤共享平臺(tái)(系統(tǒng)),以期為讀者提供更加便利的光盤檢索、借閱服務(wù)。[2]隨書光盤共享平臺(tái)上線之初得到讀者廣泛認(rèn)同,很多讀者通過下載光盤鏡像取代實(shí)體光盤借閱。[3]然而,近一兩年來,光盤鏡像下載量并不盡如人意,究其原因,主要有兩點(diǎn):其一,部分光盤存在信息陳舊、內(nèi)容空泛等問題,不能滿足讀者的實(shí)際需要;其二,在現(xiàn)今所處的移動(dòng)互聯(lián)網(wǎng)時(shí)代,移動(dòng)終端由于其便攜性強(qiáng),信息處理能力日益提高,讀者更愿意使用智能手機(jī)、平板電腦等移動(dòng)設(shè)備處理簡單的工作和學(xué)習(xí)事務(wù),而傳統(tǒng)的隨書光盤鏡像文件主要運(yùn)行平臺(tái)是個(gè)人電腦和筆記本電腦尤其是個(gè)人電腦因其不夠輕便、能耗高、整合性差、網(wǎng)絡(luò)接入單一等,相當(dāng)一部分讀者棄之不用。耗費(fèi)大量財(cái)力建立并需要不斷投入人力、物力進(jìn)行維護(hù)的隨書光盤共享平臺(tái)不能有效、高質(zhì)地為讀者服務(wù)的現(xiàn)狀成為廣大圖書館員面對的一個(gè)困局。
在移動(dòng)互聯(lián)網(wǎng)時(shí)代大環(huán)境下,智能手機(jī)、平板電腦等輕量級設(shè)備難以支撐類似虛擬光盤鏡像這類大容量文件。具體表現(xiàn)在:目前的移動(dòng)終端所采用的操作系統(tǒng)多為android、ios、windows phone/RT、windows 8等。其中,除去windows 8作為桌面級操作系統(tǒng)可以無縫支持虛擬光盤的相關(guān)應(yīng)用外,其余均受限于系統(tǒng)內(nèi)核、文件系統(tǒng)以及CPU和其他硬件性能等因素,無法執(zhí)行對iso文件的讀取、解壓等操作。唯有徹底打破虛擬光驅(qū)鏡像文件(iso)的束縛,將光盤內(nèi)容轉(zhuǎn)換為移動(dòng)平臺(tái)可以支持的形式和格式,才能讓移動(dòng)設(shè)備正常使用隨書光盤共享平臺(tái)。因此,對現(xiàn)有隨書光盤共享平臺(tái)的改造勢在必行。
隨書光盤一般分為以下四大類:(1)數(shù)據(jù)、資料類,包含素材、源代碼、電子書、影音文件、軟件工具等;(2)視頻、音頻原盤,包含VCD、DVD、CD等;(3)紙本書籍配套的輔助應(yīng)用,包含試題、練習(xí)、等交互式應(yīng)用;(4)其他,包含以上未列舉各類光盤。就改造而言,以上4類難度各異,具體改造方式見表1。
表1 隨書光盤改造方式
目前,隨書光盤共享平臺(tái)中收藏了數(shù)以萬計(jì)、不同領(lǐng)域、不同年代出版的虛擬光盤文件,一般占用存儲(chǔ)空間多達(dá)數(shù)十T。同時(shí),越來越多的紙本數(shù)據(jù)選擇附帶光盤出版,大量的新光盤不斷被壓制出來,導(dǎo)致光盤存儲(chǔ)空間日益捉襟見肘。然而,在如此巨大的光盤資源中,尚有相當(dāng)一部分并非讀者經(jīng)常使用,甚至幾乎不被使用。從表1可知,光盤改造工作不同于對光盤的簡單壓制,需要耗費(fèi)更多的人力、物力、財(cái)力。對現(xiàn)有所有光盤進(jìn)行改造并不現(xiàn)實(shí),也沒必要。如能有針對性地選擇多數(shù)讀者急需的光盤進(jìn)行改造,并在新書光盤壓制時(shí)有預(yù)見性地選擇改造,同時(shí),對現(xiàn)有過于老舊且無人問津的虛擬光盤鏡像實(shí)施剔舊,則可以在滿足讀者需要基礎(chǔ)上,節(jié)省大量人力、財(cái)力、物力,減少隨書光盤共享平臺(tái)日益激增的存儲(chǔ)量,從而使隨書光盤共享平臺(tái)在移動(dòng)互聯(lián)網(wǎng)時(shí)代高質(zhì)量、高效率地為讀者服務(wù)。
綜上所述,如何選擇和預(yù)測讀者需要的光盤加以改造是亟待解決的問題。
下載量是隨書光盤受歡迎與否的重要指標(biāo),但考慮到部分光盤上線不久,下載量并不明顯。單純依據(jù)現(xiàn)有下載量判斷光盤的重要性來選擇對其進(jìn)行改造,有失偏頗,會(huì)使很多重要光盤得不到改造,影響讀者使用。同時(shí),新書隨書光盤尚未產(chǎn)生下載量,也無從有針對性地選擇改造。
根據(jù)已有下載量數(shù)據(jù),結(jié)合隨書光盤和紙本書籍自身信息,并在橫向上參考光盤所在中圖分類中書籍隨書附盤比重,建立預(yù)測模型,由此推斷和預(yù)測隨書光盤的受歡迎程度,有針對性、有重點(diǎn)地優(yōu)先改造,是真正解決隨書光盤共享平臺(tái)在移動(dòng)互聯(lián)網(wǎng)時(shí)代困境的有效方法。借助統(tǒng)計(jì)學(xué)廣泛使用的回歸分析模型可以便捷、準(zhǔn)確地實(shí)現(xiàn)這一需求。
3.1回歸分析的含義和原理
回歸分析(Regression Analysis)是通過研究一個(gè)或多個(gè)自變量X和因變量y之間是否相關(guān)、相關(guān)方向和強(qiáng)度,從而建立數(shù)學(xué)模型,以便通過特定自變量來預(yù)測因變量的一種統(tǒng)計(jì)學(xué)分析數(shù)據(jù)的方法。根據(jù)涉及自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的相關(guān)類型,可分為線性回歸分析和非線性回歸分析。[4]多元線性回歸分析是利用最小二乘函數(shù)構(gòu)建線性回歸方程對多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。多元線性回歸分析的數(shù)學(xué)原理是:當(dāng)因變量y和自變量X1, X2,X3,…Xi存在線性關(guān)系時(shí),利用最小二乘函數(shù)建立y和X1…Xi之間的關(guān)系模型為y=b0+b1X1+b2X2+b3X3+ …+biXi。其中,b0是回歸常數(shù),表示方程的截距,bi是偏回歸系數(shù),表示當(dāng)其他自變量不變時(shí),自變量Xi每改變1個(gè)單位時(shí)y的平均變化量。[5]
3.2回歸參數(shù)選擇和數(shù)據(jù)采集
根據(jù)隨書光盤下載的實(shí)際情況,設(shè)計(jì)影響光盤下載量的因素有所在分類書籍附盤比重、光盤容量、改造成本、書籍含光盤價(jià)格、書籍頁碼。
設(shè)計(jì)自變量如下:附盤比重X1(%)、光盤容量X2(mb)、書籍(含光盤)價(jià)格X3(元)、書籍頁碼X4(頁),由于網(wǎng)絡(luò)環(huán)境等因素對模型無實(shí)際影響,故分析時(shí)不予考慮。則下載量模型為:
y=b0+b1X1+b2X2+b3X3+b4X4
考慮到隨書光盤的時(shí)效性較強(qiáng),同時(shí)隨書光盤共享平臺(tái)正式上線服務(wù)時(shí)間不長,近一兩年新上線的隨書光盤的下載量尚存在較大變化。故在2011年出版的隨書光盤下載量中抽樣選取數(shù)據(jù)既能保證數(shù)據(jù)足夠成熟,又照顧到光盤的新鮮度。表2顯示了從江蘇師范大學(xué)隨書光盤共享平臺(tái)中隨機(jī)抽取的44組2011年出版的隨書光盤下載量。下面,將對前40組數(shù)據(jù)作回歸分析,構(gòu)建回歸模型,用后4組數(shù)據(jù)檢驗(yàn)回歸模型的有效性。
表2 隨書光盤下載量和相關(guān)參數(shù)
3.3多元線性回歸分析
啟動(dòng)spss軟件,建立變量并錄入數(shù)據(jù),執(zhí)行回歸分析,選擇線性回歸,在線性回歸對話框中,將y設(shè)置為因變量,將變量X1到X5設(shè)置為自變量,設(shè)置回歸方法為:“輸入”;點(diǎn)擊“Statistics”按鈕,在統(tǒng)計(jì)對話框中選中“估計(jì)”、“模型擬合度”、“共線性診斷”。執(zhí)行線性回歸分析。[6]部分輸出結(jié)果見表3~5。
表3 方差分析
表4 模型摘要
表5 系數(shù)
由表3可知,F(xiàn)統(tǒng)計(jì)量為747.945,顯著性值為0.00,小于顯著性水平0.05,因此判定模型有效,即因變量和自變量之間有顯著線性關(guān)系。可決系數(shù)R2為復(fù)相關(guān)系數(shù)R的平方,由表4知R2為0.988,調(diào)整后的R2為0.987,較接近1,顯示回歸結(jié)果較好,模型擬合度比較理想。但根據(jù)表5數(shù)據(jù),X4即頁數(shù)自變量的偏回歸系數(shù)是非顯著的,說明其對因變量(下載量)影響并不顯著。因此,模型中引入此變量沒有實(shí)際意義。方差膨脹因子(VIF)最大值為1.767(通常VIF大于2就可能存在共線性問題),判斷可能不存在共線性問題。[7]
為進(jìn)一步避免出現(xiàn)共線性問題以及有效剔除非顯著影響因子,可以采用逐步回歸方法建立模型。逐步回歸根據(jù)偏相關(guān)系數(shù)的大小次序?qū)⒆宰兞恐鸫我敕匠蹋⑦M(jìn)行統(tǒng)計(jì)檢驗(yàn),將效應(yīng)顯著的自變量留在回歸方程內(nèi),循此繼續(xù)遴選下一個(gè)自變量。
重新執(zhí)行spss線性回歸分析,在線性回歸對話框中,設(shè)置回歸方法為逐步,得到分析結(jié)果見表6~8。
表6 逐步回歸模型摘要
表7 逐步回歸方差分析
表8 逐步回歸系數(shù)
表6顯示,模型3中復(fù)相關(guān)系數(shù)R=0.994,可決系數(shù)R2=0.988(非常接近1),調(diào)整后的R2=0.987,剩余標(biāo)準(zhǔn)差為4.688,顯示因變量光盤下載量與所選3個(gè)自變量之間存在顯著線性關(guān)系。由表7可知, F統(tǒng)計(jì)量為1025.226,顯著性值為0.00小于顯著性水平0.05,所建立的回歸模型具有統(tǒng)計(jì)學(xué)意義。由表8可以看出,經(jīng)過逐步回歸最終選擇建立模型的預(yù)測變量為:附盤比重X1(%)、光盤容量X2(mb)、書籍(含光盤)價(jià)格X3(元)。該模型回歸系數(shù)顯著,即對光盤下載量有顯著影響。[8]B值即為方程截距和偏相關(guān)系數(shù),據(jù)此建立回歸方程為:
y=1.312X1-0.007X2+1.287X3-19.473
3.4模型檢驗(yàn)
利用回歸模型檢驗(yàn)第41~44組數(shù)據(jù),得到結(jié)果如表9所示。從表9可以看出,模型預(yù)測誤差最小值為2.62%,最大值為7.84%,平均誤差為4.91%。說明本模型有著較高的預(yù)測準(zhǔn)確度,對光盤下載量有較好的揭示作用。
表9 模型預(yù)測結(jié)果和實(shí)際值對比
利用回歸分析建立預(yù)測模型,運(yùn)算分析過程較為簡單,準(zhǔn)確度較高,預(yù)測結(jié)果直觀,可以直接指導(dǎo)隨書光盤鏡像的改造工作。根據(jù)現(xiàn)有隨書光盤共享平臺(tái)數(shù)據(jù),進(jìn)一步搜集和增加因變量的決定因素,完善自變量,優(yōu)化模型結(jié)構(gòu),提高模型精度,及時(shí)推廣回歸分析模型并展開預(yù)測工作,可以讓隨書光盤改造工作具有針對性,以最小的投入成本獲取最大限度的改造效果。同時(shí),可以對老舊、無效資源進(jìn)行剔舊,優(yōu)化現(xiàn)有存儲(chǔ)格局,提高硬件使用效率,讓隨書光盤這種數(shù)字媒體的“先驅(qū)”在移動(dòng)互聯(lián)網(wǎng)時(shí)代繼續(xù)為讀者提供優(yōu)質(zhì)、高效服務(wù)。
[參考文獻(xiàn)]
[1]李永鋼.關(guān)于建立隨書光盤共享平臺(tái)的思考[J].淮北師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011 (4):53-57.
[2]王妙婭.高校圖書館隨書光盤網(wǎng)絡(luò)化服務(wù)現(xiàn)狀與問題調(diào)查分析[J].圖書館工作與研究,2013 (2):101-104.
[3]支崎.高校圖書館隨書光盤管理模式比較研究[J].圖書館學(xué)研究,2004(10):8-9,15.
[4]陳永勝,宋立新.多元線性回歸建模以及SPSS軟件求解[J].通化師范學(xué)院學(xué)報(bào),2007(12):8-9,12.
[5]王惠文,孟潔.多元線性回歸的預(yù)測建模方法[J].北京航空航天大學(xué)學(xué)報(bào),2007(4):500-504.
[6]史春薇,等.基于SPSS統(tǒng)計(jì)軟件在多元線性回歸校驗(yàn)數(shù)據(jù)中的應(yīng)用[J].當(dāng)代化工,2014(6):1112-1113.
[7]馮力.回歸分析方法原理及SPSS實(shí)際操作[M].北京:中國金融出版社,2004.
[8]謝宇.回歸分析[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2010.
[責(zé)任編輯]張雅妮
[收稿日期]2014-11-05
[作者簡介]王冉(1981-),男,碩士,江蘇師范大學(xué)圖書館館員,研究方向:數(shù)字圖書館、隨書光盤。
[基金項(xiàng)目]本文系江蘇師范大學(xué)哲學(xué)社會(huì)科學(xué)基金項(xiàng)目“非書資料共享管理平臺(tái)建設(shè)和實(shí)踐研究”(項(xiàng)目編號:11XWB19)研究成果之一。
[文章編號]1005-8214(2015)09-0087-03
[文獻(xiàn)標(biāo)志碼]B
[中圖分類號]G255.75