徐根祺,曹寧,謝國坤,董三鋒,張正勃
(西安交通工程學院,1.機械與電氣工程學院,2.土木工程學院, 陜西,西安 710300)
圖書館傳播知識的對象是讀者,而讀者又是圖書館資源中最根本的資源,圖書館價值的體現(xiàn)(如經(jīng)濟效益和社會效益)很大程度上是建立在讀者資源這個平臺上的,讀者數(shù)量的穩(wěn)定以及開發(fā)的深、廣度在根本上影響著圖書館的生存與發(fā)展。因此,如何能夠留住讀者,防止讀者流失逐漸引起決策者和管理者的重視,這也是檢驗圖書館是否成熟的一個重要標志[1]。
然而,當云計算風起云涌之際,大數(shù)據(jù)又風靡云蒸,在物聯(lián)網(wǎng)、移動互聯(lián)、云計算等技術(shù)的推動下,全球化大數(shù)據(jù)時代已如日方升[2]。隨著人們獲取知識的方式多樣化,傳統(tǒng)圖書館受到了極大的沖擊,讀者流失嚴重。探究讀者流失的原因、提升圖書館的服務質(zhì)量、增加現(xiàn)有讀者的滿意度、吸引潛在讀者到圖書館借閱圖書、減少讀者流失的可能性,對比充分發(fā)揮圖書館知識服務的作用更顯得尤為重要[3]。目前,國內(nèi)外研究大多集中于對圖書館讀者流失原因的剖析,而對于讀者流失預測的研究則鳳毛麟角,且預測效果也并不理想,面對讀者們各種需求的紛至沓來,為了最大程度減少讀者流失,可以采用數(shù)據(jù)挖掘算法根據(jù)讀者和圖書館的歷史數(shù)據(jù)建立以讀者信息和圖書館信息為輸入,讀者流失概率為輸出的模型,探求這些數(shù)據(jù)之間的內(nèi)在聯(lián)系,據(jù)此來預測讀者流失的可能性。若讀者流失概率過高,則通過改善服務、為讀者推薦圖書等方式來提高讀者的忠誠度以預防讀者流失[4],這就改變了過去圖書館在讀者注冊后無法預估讀者流失和無法有效實現(xiàn)對讀者關(guān)懷的情況[5]。
本研究根據(jù)讀者的屬性信息、讀者的借閱行為信息和圖書館的屬性信息等文本信息[6]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[7],建立了圖書館讀者流失概率預測模型TEXT-CNN,利用這個模型對讀者的流失概率做出分析。
造成圖書館讀者流失的原因有多種,眾多研究表明,常見的包括讀者和圖書館兩方面原因[8-10]。
1.1.1 讀者固有屬性
年齡、性別、職業(yè)、學歷、是否結(jié)婚等均屬于讀者固有屬性信息,這些因素均從不同程度上對讀者進入圖書館閱讀的行為產(chǎn)生影響[11]。隨著讀者年齡的增長、學歷的提升、職業(yè)的轉(zhuǎn)變以及婚姻狀況的改變等,造成其遠離或轉(zhuǎn)移圖書館的行為。
1.1.2 讀者行為屬性
讀者在圖書館進行的借閱行為也屬于讀者屬性,借閱行為數(shù)據(jù)主要包括在借數(shù)據(jù)、歷史數(shù)據(jù)和統(tǒng)計數(shù)據(jù)。
(1) 在借數(shù)據(jù)收集的是讀者正在借閱的書籍信息。
(2) 歷史數(shù)據(jù)收集的是讀者過去半年內(nèi)的借閱信息。
(3) 統(tǒng)計數(shù)據(jù)又分為借閱頻率和閱讀程度。借閱頻率表示讀者某時間段內(nèi)借閱圖書的平均次數(shù);閱讀程度表示讀者對所借閱書籍認真閱讀的程度,用續(xù)借次數(shù)和借閱天數(shù)之積表征。
圖書館屬性包括自身的“硬”屬性和“軟”屬性。館藏圖書數(shù)量與種類、開放時間和館內(nèi)圖書更新速度等均屬于圖書館能否留住讀者的“硬”屬性,多倫多大學的Heather V. Cunningham和Susanne Tabur根據(jù)Maslow需求層次理論提出圖書館四大空間學習屬性,可將其歸納為地理位置便捷性、易于讀者活動性、便于建立社交性和學習空間舒適性,這些也可列入“硬”屬性范疇[12];而圖書館舉辦的講座與活動、工作人員的服務態(tài)度與服務質(zhì)量等則屬于圖書館能否留住讀者的“軟”屬性。讀者流失正是由于圖書館的各種屬性無法滿足讀者相應的需求所導致的。
CNN本質(zhì)上就是從輸入到輸出的某種映射關(guān)系,且輸入與輸出之間并不需要精確的數(shù)學表達式就可以從學習海量輸入與輸出數(shù)據(jù)得到映射關(guān)系[7]。為了建立卷積神經(jīng)網(wǎng)絡(luò)的輸入、輸出之間的映射關(guān)系,需要用已設(shè)定好的模式對網(wǎng)絡(luò)進行訓練。Fukushima在神經(jīng)認知機中提出了第一個卷積神經(jīng)網(wǎng)絡(luò)計算模型。Lecun等提出的卷積神經(jīng)網(wǎng)絡(luò)是第一個真正的多層結(jié)構(gòu)學習算法。圖1給出了CNN的一般網(wǎng)絡(luò)結(jié)構(gòu),從左至右依次為輸入層、卷積層、池化層(子采樣層)、全連接層和輸出層。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
(1) 輸入層
CNN的輸入層可直接以原始數(shù)據(jù)作為輸入,也可以先通過矩陣變換得到特征向量,再將其輸入到網(wǎng)絡(luò)中。由于CNN通常都有全連接層,而全連接層的輸入要求是大小相同,因此卷積神經(jīng)網(wǎng)絡(luò)的輸入一般大小都一樣。
(2) 卷積層
卷積層屬于特征抽取層。對輸入進行卷積,便可得到特征圖。為了減少網(wǎng)絡(luò)結(jié)構(gòu)中連接權(quán)的數(shù)量,CNN要求同一卷積層中不同神經(jīng)元與前一層中不同位置相連的權(quán)值相等(一個卷積核提取前一層輸出中不同位置的特征),即一個卷積核對前一層網(wǎng)絡(luò)的輸出進行卷積從而得到一種特征。對于不同的卷積核,每個卷積核都能分別進行卷積,這樣就能夠提取出不同的特征。
(3) 池化層
池化層(也稱下采樣層)是特征映射層。在池化層中,使用非線性降采樣法將輸入劃分為多個局部感受域,用這些局部感受域中的平均值(或最大值)來表示降維后的特征值。每一個與前一層的輸出局部感受域相連接的權(quán)值都被設(shè)定為固定值,在整個網(wǎng)絡(luò)訓練的過程中不再改變。這一層通過對前一層網(wǎng)絡(luò)的輸出進行下采樣,進一步降低了網(wǎng)絡(luò)參數(shù)規(guī)模。
(4) 全連接層
全連接層是采用全連接方式的人工神經(jīng)網(wǎng)絡(luò),對卷積層所提取特征的總結(jié)變換,將所有的特征映射至一維列向量。
(5) 輸出層
全連接層的下游為CNN的輸出層,與傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)的輸出層相比,其原理和結(jié)構(gòu)完全相同。此處選用sigmoid函數(shù)作為輸出層激活函數(shù)。
首先,文本信息必須轉(zhuǎn)換為某種數(shù)字輸入,因此先要進行預處理,然后準備文檔,使每個術(shù)語都進行一次熱編碼。文本數(shù)據(jù)需要轉(zhuǎn)換為代表維空間中文本信息的維數(shù)字向量,連續(xù)的維向量表示可以隨機地使用預訓練的向量來初始化,這些詞嵌入可以像其他模型參數(shù)一樣在訓練期間進行更新,也可以保持不變。其次,可以從CNN卷積層的嵌入向量中計算出新的特征。本文使用復雜層術(shù)語,其中將卷積層定義為3個階段,即卷積階段、檢測器階段和合并階段。
卷積可以提高網(wǎng)絡(luò)的計算效率。首先,將卷積階段的單元組織在特征圖中,并通過一組連接權(quán)值連接到上一層特征圖中的局部補丁。其次,特征圖中的所有單位共享相同的連接權(quán)值或濾波器組,這一過程稱為參數(shù)共享。卷積是線性運算,因此將局部加權(quán)和的結(jié)果通過激活函數(shù)傳遞給檢測器階段的非線性模型,該激活功能將有關(guān)神經(jīng)元輸出是否被激活的信息傳遞給外部連接。
分類需要將在卷積層中創(chuàng)建的特征組合到一個分類器中,通常使用一個或多個全連接(或密集)層。全連接層需要一維輸入,因此將最后一層中的列連接為單個向量x,變換Z定義為Z=xTW,它是權(quán)值矩陣W和某些非線性激活函數(shù)的內(nèi)積。輸出層中使用softmax函數(shù)作為激活函數(shù)。
CNN的訓練需要使用損失函數(shù),該函數(shù)間接優(yōu)化了真實目標,其定義為Loss=-Σ{yilogpi+(1-yi)log(1-pi)},其中yi表示真實的類別標簽,pi表示讀者i的預測結(jié)果。當對讀者的預測越來越接近實際值時,損失也越來越少,因此可以通過減少損失來提高目標。
讀者預測模型流程如下:
(1) 將結(jié)構(gòu)化處理后的讀者和圖書館的數(shù)據(jù)作為預測模型的輸入;
(2) 對數(shù)據(jù)進行數(shù)據(jù)抽取、數(shù)據(jù)清理和數(shù)據(jù)轉(zhuǎn)換等預處理過程;
(3) 將準備好的數(shù)據(jù)集輸入CNN網(wǎng)絡(luò),預測出讀者流失的數(shù)量。
預測模型結(jié)構(gòu)圖如圖2所示。
圖2 CNN讀者流失預測模型
由于非結(jié)構(gòu)化文本數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)類型之間存在巨大差異,因此第一階段將它們分開處理,該階段僅將文本數(shù)據(jù)納入基于結(jié)構(gòu)化數(shù)據(jù)的預測模型中。第二階段將預處理的結(jié)構(gòu)化信息和文本信息進行組合來構(gòu)建預測模型,如圖3所示,將文本數(shù)據(jù)與卷積神經(jīng)網(wǎng)絡(luò)進行合并。
圖3 基于文本信息的CNN讀者流失預測模型
本節(jié)構(gòu)造了一個非靜態(tài)的CNN來處理文本數(shù)據(jù),嵌入層之后是一維卷積層和最大池化層,將這些層的輸出合并在一起作為全連接層的輸入。最后一層使用sigmoid激活函數(shù),該函數(shù)對每個讀者可生成其流失概率?;谙惹暗难芯拷?jīng)驗,本文CNN的參數(shù)設(shè)置如表1所示。
表1 CNN模型參數(shù)
模型搭建過程中需要建立模型的目標變量,這些變量包括讀者屬性信息、讀者借閱行為信息和圖書館屬性信息。本文選取西安市某圖書館2018年1月~2018年12月共3 300組數(shù)據(jù),將其分為兩部分對模型進行訓練和驗證,其中2018年1月~2018年11月的3 000組數(shù)據(jù)用于訓練模型,2018年12月的300組數(shù)據(jù)用于對模型進行驗證。
根據(jù)所選取的數(shù)據(jù)進行讀者流失的預測,輸入為某圖書館 2018年1月至2018年11月的讀者數(shù)據(jù),目標變量為2018年12月的讀者流失數(shù)據(jù),并將本研究中所用模型TEXT-CNN與遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)(GA-BP)模型、支持向量機(SVM)模型以及邏輯回歸(Logistic)模型的預測結(jié)果進行比較,各模型的預測誤差如圖4所示。
圖4 4種模型預測誤差對比
由圖4可知,TEXT-CNN的預測誤差明顯低于其他模型的預測誤差,采用將文本信息納入卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果要比實際讀者流失的變動曲線擬合效果更好。利用均方根誤差(root mean square error,RMSE)和均方誤差(mean square error,MSE)2個指標進行衡量并對比分析(結(jié)果如表2所示),由表2可以看出,TEXT-CNN模型的預測結(jié)果相對應的RMSE和MSE均為最小,同時相對其他3種模型可靠性也最高。
表2 4種模型的RMSE和MSE數(shù)值表
為了進一步分析各模型的性能,本節(jié)對各模型的精準率、準確率、F1值和召回率進行比較,結(jié)果如表3所示。
表3 4種模型預測結(jié)果
由表3可知,本文所用的TEXT-CNN神經(jīng)網(wǎng)絡(luò)的精準率為85.21%,F(xiàn)1值為77.33%,均比其他3種模型略高;準確率為95.19%,比Logistic、SVM和GA-BP模型分別高2.51%、3.58%和6.72%;召回率為72.01%,分別高出Logistic模型7.65%、SVM模型9.26%和GA-BP模型10.92%。該結(jié)果表明TEXT-CNN模型相比于其他3種模型能夠更有效地對讀者流失情況進行預測。
根據(jù)模型輸入的目標變量數(shù)據(jù),生成讀者流失概率的信息列表,如表4所示。
由表4可知,模型的預測結(jié)果與圖書館的日常借閱情況相符,可用于圖書館讀者流失的預測,具有較強的實用性。根據(jù)預測結(jié)果,圖書館管理人員針對可能流失的原因進行分
析,對不同的讀者群體采取相應的措施。
表4 讀者信息列表
通過對圖書館用戶流失原因的深入剖析,基于圖書館屬性和讀者屬性的文本信息結(jié)合卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了TEXT-CNN預測模型,并通過西安市某圖書館的實際樣本數(shù)據(jù),分別將TEXT-CNN模型和Logistic模型、SVM模型及GA-BP模型的預測結(jié)果進行了比較,結(jié)果顯示,本文提出的模型在精準率、準確率、F1值和召回率方面均高于其他3種模型,預測結(jié)果與流失的讀者信息也基本一致。該模型能夠幫助圖書館準確分析讀者流失的實際情況,為全面有效地開展圖書館管理工作提供更好的決策支持。