国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于生存分析理論的電子資源用戶流失預(yù)測(cè)研究

2023-07-10 07:18刁羽薛紅
新世紀(jì)圖書(shū)館 2023年5期

刁羽?薛紅

摘 要 基于電子資源校外訪問(wèn)系統(tǒng)用戶行為數(shù)據(jù),運(yùn)用生存分析理論中的Kaplan-Meier、COX比例風(fēng)險(xiǎn)模型研究用戶整體流失概率變化規(guī)律、用戶個(gè)體訪問(wèn)行為與其流失概率之間的發(fā)展變化規(guī)律及相關(guān)關(guān)系,并在預(yù)測(cè)用戶流失臨界點(diǎn)的基礎(chǔ)上建立用戶流失預(yù)警機(jī)制,從而為進(jìn)一步采取用戶流失干預(yù)措施提前布局。本研究能反映出用戶訪問(wèn)行為與用戶流失概率之間的變化情況,具有較高的應(yīng)用價(jià)值和推廣價(jià)值。

關(guān)鍵詞 用戶流失;流失預(yù)警;生存分析;校外訪問(wèn)系統(tǒng);電子資源行為數(shù)據(jù)

分類號(hào) G252.62

DOI 10.16810/j.cnki.1672-514X.2023.05.009

Research on Electronic Resource User Churn Prediction: Taking Off-campus Access System of Electronic Resource as Example

Diao Yu, Xue Hong

Abstract Based on the user behavior data of the off-campus access system of electronic resources, the Kaplan-Meier and COX proportional risk models in the survival analysis theory were used to study the change law of the overall probability of user churn, the law of development change and the correlation between the individual user access behavior and the churn probability, and a user churn warning mechanism based on predicting the critical point of user churn was established. Therefore, the further implementation of user churn intervention measures in advance layout. This study can reflect the change between user access behavior and user churn probability, and has high application value and promotion value.

Keywords User churn. Churn prediction. Survival analysis. Off-campus access system. Electronic re-source behavior data.

0 引言

隨著數(shù)字化新技術(shù)的迅猛發(fā)展,傳統(tǒng)科學(xué)研究范式已悄然發(fā)生變革,電子資源已成為各種不同層次的用戶獲取信息的主要類型[1]。目前,各高校圖書(shū)館的電子資源購(gòu)置費(fèi)所占館藏的經(jīng)費(fèi)比例過(guò)半,自2006年以來(lái)均值與比例基本上呈抬升趨勢(shì),雖然在2019年發(fā)生下滑,但2020年隨即恢復(fù)上升[2]。盡管各種類型電子資源在圖書(shū)館中不斷得到補(bǔ)充,較大地滿足了用戶需求,但即便如此,仍存在不少用戶在訪問(wèn)電子資源過(guò)程中由積極使用轉(zhuǎn)向消極使用甚至徹底放棄的現(xiàn)象,這已成為高校圖書(shū)館電子資源服務(wù)運(yùn)營(yíng)面臨的挑戰(zhàn)和難題,對(duì)此采取用戶流失干預(yù)措施,滿足用戶需求,提升老用戶訪問(wèn)資源行為是關(guān)鍵。通常情況下,拓展新用戶與挽留老用戶相比,無(wú)論在花費(fèi)的成本上,還是在為企業(yè)或系統(tǒng)平臺(tái)帶來(lái)的價(jià)值上,后者皆優(yōu)于前者[3]。因此,為最大程度挽留老用戶,有效預(yù)測(cè)瀕臨流失用戶的關(guān)鍵臨界點(diǎn)顯得尤為重要。為此,本文基于生存分析理論[4]重點(diǎn)研究用戶訪問(wèn)行為與用戶流失概率之間的發(fā)展變化規(guī)律及相關(guān)關(guān)系,來(lái)預(yù)測(cè)用戶流失的臨界點(diǎn),并在此基礎(chǔ)上形成用戶預(yù)警分析,從而為圖書(shū)館分析流失原因、挽留瀕臨流失用戶夯實(shí)基礎(chǔ)。

1 研究綜述

用戶流失最早由Keaveney和Parthasarathy于2010年針對(duì)在線服務(wù)提出[5],流失類型主要分為兩種,一是用戶中斷在線服務(wù),即在使用一段時(shí)間后停止使用該服務(wù);二是用戶“服務(wù)切換”,即改變所使用服務(wù)的提供商或運(yùn)營(yíng)商。對(duì)于流失用戶的定義依行業(yè)或訪問(wèn)方式的不同而不同,移動(dòng)設(shè)備App領(lǐng)域以用戶一定時(shí)期內(nèi)不再登錄、卸載軟件及二次安裝或選擇其他同類替代為界定標(biāo)準(zhǔn)[6]。

近年來(lái),業(yè)界關(guān)于用戶流失的研究主要是以S-O-R理論、扎根理論等為基礎(chǔ),利用訪談設(shè)計(jì)、問(wèn)卷調(diào)查等方式來(lái)統(tǒng)計(jì)分析研究不同類型平臺(tái)用戶流失的重要因素。對(duì)于用戶流失預(yù)測(cè)研究也有一些學(xué)者利用用戶訪問(wèn)系統(tǒng)時(shí)留下的客觀行為數(shù)據(jù)進(jìn)行分析,如賀芳以“新浪微博”為例,在用戶細(xì)分的基礎(chǔ)上采用典型判別分析法構(gòu)建用戶流失預(yù)測(cè)模型, 并通過(guò)交叉驗(yàn)證法判別預(yù)測(cè)精度[7]。王若佳,嚴(yán)承希,郭鳳英等使用LDA抽取用戶關(guān)注主題的文本向量,使用SMOTE算法對(duì)模型進(jìn)行修正,以解正數(shù)據(jù)集中流失與非流失用戶比例失衡的問(wèn)題,并使用C4.5決策樹(shù)等6個(gè)算法對(duì)比研究預(yù)測(cè)用戶流失情況的優(yōu)劣,對(duì)比顯示Gradient Boosting和ExtraTrees模型效果較好[8]。在圖書(shū)館領(lǐng)域,有些學(xué)者基于生存分析理論對(duì)文獻(xiàn)采購(gòu)、引文分析、關(guān)鍵詞等方面展開(kāi)分析研究,如:Jiang Z、 Fitzgerald S R、Walker K W等學(xué)者使用生存分析法分析出版者、出版時(shí)間、價(jià)格、美國(guó)國(guó)會(huì)圖書(shū)館分類法等與圖書(shū)館文獻(xiàn)采購(gòu)的相關(guān)關(guān)系[9]。朱世琴,蔣辛未等利用生存分析的Cox回歸研究CSSCI來(lái)源期刊中2000-2014年9個(gè)學(xué)科的論文被引頻度的年代分布,以確定文獻(xiàn)的老化風(fēng)險(xiǎn)率[10]。劉智鋒,李信通過(guò)生存分析方法對(duì)作者關(guān)鍵詞進(jìn)行分析,以反映作者關(guān)鍵詞生存情況[11]。孫佳佳,李雅靜通過(guò)客戶價(jià)值細(xì)分RFM模型對(duì)CSSCI收錄的圖情檔文獻(xiàn)的作者關(guān)鍵詞建模,在此基礎(chǔ)上利用Kaplan-Meier曲線挖掘熱點(diǎn)主題[12]。也有學(xué)者將生存分析應(yīng)用于信息系統(tǒng)用戶流失的研究,但總體數(shù)量較少。賴院根等為反映國(guó)家科技圖書(shū)文獻(xiàn)中心(NSTL)的總體運(yùn)行狀況,對(duì)NSTL在2003-2008年間的用戶進(jìn)行了用戶流失分析,并使用壽命表方法揭示了NSTL用戶的生存時(shí)間分布[13];賴院根,劉礪利在通過(guò)利用SPSS生存分析模塊中的壽命表分析了NSTL用戶生存時(shí)間的基礎(chǔ)上,使用Kaplan-Meier模塊對(duì)贈(zèng)卡用戶和無(wú)贈(zèng)卡用戶進(jìn)行了生存時(shí)間比較,并使用COX模塊分析了流失用戶的影響因素[14]。

2 用戶訪問(wèn)電子資源行為數(shù)據(jù)分析的相關(guān)性理論和分析模型

在大數(shù)據(jù)時(shí)代,如何通過(guò)電子資源行為數(shù)據(jù)有效揭示其與用戶流失概率的相關(guān)性,如何發(fā)掘?yàn)l臨流失的用戶并建立預(yù)警信號(hào),不僅是進(jìn)一步分析用戶流失原因并精準(zhǔn)施策的基礎(chǔ),也是提高電子資源服務(wù)效能的根本。基于這樣的考慮,那么能夠真實(shí)反映用戶對(duì)校外訪問(wèn)系統(tǒng)黏性的用戶訪問(wèn)電子資源行為數(shù)據(jù)即成為研究用戶檢索行為和科研方向的重要信息源。高質(zhì)量的電子資源行為數(shù)據(jù)不僅是用戶獲取電子文獻(xiàn)資源時(shí)與平臺(tái)自然產(chǎn)生的最為客觀的數(shù)據(jù),也是新數(shù)據(jù)范式下快捷高效地發(fā)現(xiàn)事物間的內(nèi)在關(guān)聯(lián),明確用戶的使用規(guī)律和關(guān)注焦點(diǎn),對(duì)此相關(guān)性的研究分析可為圖書(shū)館預(yù)防電子資源用戶流失提供科學(xué)依據(jù)。

目前,在業(yè)界相關(guān)研究中,數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究第四范式開(kāi)始注重分析數(shù)據(jù)間的相關(guān)關(guān)系,即某數(shù)據(jù)的發(fā)生與其他數(shù)據(jù)變化規(guī)律間的關(guān)系[15],而非拘泥于揭示現(xiàn)實(shí)的“實(shí)體性的物與發(fā)生性的事”之間的因果關(guān)系[16]。目前,數(shù)據(jù)相關(guān)分析已然有效地應(yīng)用于推薦系統(tǒng)、商業(yè)分析、公共管理、醫(yī)療診斷等領(lǐng)域,通過(guò)時(shí)序分析、空間分析等方法進(jìn)行數(shù)據(jù)分析[17]。故此,本研究基于生存分析理論利用用戶訪問(wèn)系統(tǒng)時(shí)留下的客觀行為數(shù)據(jù)進(jìn)行的分析,不是探究用戶訪問(wèn)電子資源各行為特征變量與造成用戶流失之間的直接因果關(guān)系,而是基于大數(shù)據(jù)思維,分析用戶行為數(shù)據(jù)特征值隨著時(shí)間變化與其流失概率之間的發(fā)展變化情況及相關(guān)關(guān)系,以期為下一步找出造成用戶流失的關(guān)鍵性原因打下堅(jiān)實(shí)基礎(chǔ)。

基于電子資源校外訪問(wèn)系統(tǒng)(以下簡(jiǎn)稱校外訪問(wèn)系統(tǒng))用戶流失概率及流失臨界點(diǎn)的計(jì)算,本文運(yùn)用生存分析理論中的Kaplan-Meier和COX比例風(fēng)險(xiǎn)模型來(lái)研究用戶整體隨時(shí)間推移流失概率的變化規(guī)律,解析用戶個(gè)體訪問(wèn)行為與其流失概率之間發(fā)展變化情況及相關(guān)關(guān)系,以及預(yù)測(cè)用戶流失臨界點(diǎn),并最終形成用戶流失預(yù)警分析。

首先定義用戶的生存變化規(guī)律,用生存函數(shù)(survival function)來(lái)表示。將用戶定義為r;將用戶使用校外訪問(wèn)系統(tǒng)的時(shí)間長(zhǎng)度定義為T(mén),即用戶生存時(shí)長(zhǎng);將t定義為計(jì)算r生存概率的隨機(jī)時(shí)間。生存函數(shù)值反映T≥指定時(shí)間t時(shí),用戶繼續(xù)使用校外訪問(wèn)系統(tǒng)的概率,其公式[4]如下:

從公式一可以看出,生存函數(shù)是t的單調(diào)下降函數(shù),代表用戶流失的風(fēng)險(xiǎn)隨著時(shí)間的增加而增加。函數(shù)下降快慢,反映了用戶使用校外訪問(wèn)系統(tǒng)流失速率的總體情況。

在本研究中,由于用戶開(kāi)始使用校外訪問(wèn)系統(tǒng)的時(shí)間以及在觀察期間處于流失或刪失的狀態(tài)各有差異,單純地使用生存函數(shù)或危險(xiǎn)率函數(shù)對(duì)含有刪失數(shù)據(jù)的樣本數(shù)據(jù)評(píng)估校外訪問(wèn)系統(tǒng)用戶的流失規(guī)律顯然偏差較大。為此,針對(duì)存在刪失數(shù)據(jù)的生存分析,可使用1958年由卡普蘭和梅爾聯(lián)合提出的一種基于不完全樣本估計(jì)總體生存函數(shù)的非參數(shù)估計(jì)量(Kaplan-Meier estimator)進(jìn)行計(jì)算,公式[4]如下:

其中i=(1,2,…,n)為用戶集合,y(1)≤y(2)≤…≤y(n)是y1,y2,…,yn的順序量,y為出現(xiàn)用戶流失事件的時(shí)間點(diǎn),δ(1),δ(2),…,δ(n)是與之相對(duì)應(yīng)的y1,y2,…,yn的δ值。從公式二可以看出,Kaplan-Meier的每個(gè)時(shí)間節(jié)點(diǎn)的生存概率都是以上一個(gè)時(shí)間節(jié)點(diǎn)為基礎(chǔ)并剔除刪失數(shù)據(jù)進(jìn)行計(jì)算的,因此能較好地解決刪失問(wèn)題。

雖然使用Kaplan-Meier可以預(yù)估用戶在指定時(shí)間節(jié)點(diǎn)流失的概率,但沒(méi)有考慮相關(guān)變量在其中的作用,因此還需采用COX比例風(fēng)險(xiǎn)模型(cox proportional-hazards model,以下簡(jiǎn)稱COX模型)。COX模型是一種半?yún)?shù)回歸模型,考慮了一種或多種因素對(duì)用戶生存時(shí)長(zhǎng)的影響。設(shè)與用戶生存的相關(guān)的因素:X=(X1,X2,…,Xm),則根據(jù)COX模型,可以建立以h(t,X)為因變量的指數(shù)回歸方程[18]:

其中1,…,m為導(dǎo)致用戶死亡的因素X1,…,Xm的回歸系數(shù),h(t,X)為風(fēng)險(xiǎn)率函數(shù),計(jì)算當(dāng)用戶在時(shí)間t時(shí)仍然在使用校外訪問(wèn)系統(tǒng),那么計(jì)算其在t至?t(?t無(wú)限趨近于0)之間流失的概率,公式如下[19]:

本研究的重要目的是預(yù)測(cè)用戶流失的臨界點(diǎn),其原理是在擴(kuò)展公式一的基礎(chǔ)上計(jì)算用戶在時(shí)間s的生存概率。因此在預(yù)測(cè)生存時(shí)間的計(jì)算上,設(shè)s為用戶已經(jīng)存活的時(shí)長(zhǎng),可利用公式五計(jì)算該用戶已經(jīng)存活到s時(shí)間的條件下,還能存活到t時(shí)的概率,其中因在s前用戶尚未流失,所以在計(jì)算概率時(shí)需將s前用戶的生存概率設(shè)置為1.0[20]:

3 數(shù)據(jù)來(lái)源與數(shù)據(jù)結(jié)構(gòu)

本研究所采集、利用用戶特征數(shù)據(jù)與用戶訪問(wèn)電子資源的行為數(shù)據(jù)(以下簡(jiǎn)稱行為數(shù)據(jù)),是指用戶在利用校外訪問(wèn)系統(tǒng)過(guò)程中登錄、檢索、瀏覽、下載等隨著時(shí)間變化的歷次會(huì)話的集合。這些數(shù)據(jù)是用戶對(duì)校外訪問(wèn)系統(tǒng)用戶黏性的真實(shí)體現(xiàn),它們中每個(gè)特征值的變化情況,皆可體現(xiàn)校外訪問(wèn)系統(tǒng)對(duì)用戶的吸引力,即校外訪問(wèn)系統(tǒng)價(jià)值[21]。之所以選取校外訪問(wèn)系統(tǒng)行為數(shù)據(jù)作為數(shù)據(jù)來(lái)源之一,首先在于該系統(tǒng)具備廣泛的使用率,能確保采集的樣本數(shù)據(jù)的多樣性及準(zhǔn)確性,且只涉及用戶訪問(wèn)電子資源的行為數(shù)據(jù),提取容易;其次該系統(tǒng)詳細(xì)、全面記錄了用戶每次訪問(wèn)的不同維度的行為數(shù)據(jù),能客觀、真實(shí)地反映出用戶利用校外訪問(wèn)系統(tǒng)情況;第三在技術(shù)保障方面,筆者在前期研究成果中已經(jīng)提出并實(shí)現(xiàn)了基于電子資源校外訪問(wèn)系統(tǒng)的數(shù)據(jù)采集關(guān)鍵技術(shù)和實(shí)施方案[22]。

3.1 圖書(shū)館集成管理系統(tǒng)數(shù)據(jù)結(jié)構(gòu)

圖書(shū)館集成管理系統(tǒng)(以下簡(jiǎn)稱LIS)中的“讀者庫(kù)”表存儲(chǔ)了用戶基本人口統(tǒng)計(jì)學(xué)特征數(shù)據(jù)。而校外訪問(wèn)系統(tǒng)的登錄名為用戶在LIS中的“借書(shū)證號(hào)”,因此,可方便地將登錄名與LIS的借書(shū)證號(hào)進(jìn)行關(guān)聯(lián),并從LIS中獲取本研究所需要的數(shù)據(jù)。根據(jù)學(xué)校的實(shí)際情況,本研究提取了借書(shū)證號(hào)、姓名、讀者類別字段作為數(shù)據(jù)來(lái)源。

3.2 行為數(shù)據(jù)來(lái)源及其數(shù)據(jù)結(jié)構(gòu)

本館購(gòu)置的校外訪問(wèn)系統(tǒng)用戶行為日志數(shù)據(jù)以JSON格式存儲(chǔ),每條JSON數(shù)據(jù)代表用戶與校外系統(tǒng)的一次會(huì)話,JSON數(shù)據(jù)的文件名為用戶的登錄名,同一天所有用戶的日志數(shù)據(jù)存儲(chǔ)在以當(dāng)天日期命名的文件夾中。單條JSON日志數(shù)據(jù)結(jié)構(gòu)如圖1所示。

在校外訪問(wèn)系統(tǒng)中,本研究涉及的主要數(shù)據(jù)有:(1)文件夾名,用于提取用戶的訪問(wèn)時(shí)間;(2)JSON日志名,用于提取用戶的登錄名;(3)日志文件的RES元素,通過(guò)其SEARCH、DOWNLOAD、VIEW4個(gè)子元素獲取每次會(huì)話用戶檢索、下載、瀏覽的次數(shù)。

3.3 數(shù)據(jù)融合

因?yàn)樾M庠L問(wèn)系統(tǒng)的登錄名與LIS的借書(shū)證號(hào)完全一致,故將借書(shū)證號(hào)作為主鍵,登錄名作外鍵進(jìn)行連接,從而可以融合上述兩個(gè)系統(tǒng)中的數(shù)據(jù)并存儲(chǔ)在以“SurvivalDataset”命名的數(shù)據(jù)庫(kù)中。該數(shù)據(jù)庫(kù)各表及表間關(guān)系如圖2所示。

SurvivalDataset數(shù)據(jù)庫(kù)涉及的表及其中字段含義如表1所示:

4 校外訪問(wèn)系統(tǒng)用戶數(shù)據(jù)相關(guān)性流失分析

本文根據(jù)校外訪問(wèn)系統(tǒng)的實(shí)際使用情況,將用戶在6個(gè)月內(nèi)不再使用校外訪問(wèn)系統(tǒng)定義為“流失”,其余情況則被定義為“刪失”。此外,本研究由于學(xué)生在校時(shí)間有一定時(shí)間限制,必然出現(xiàn)自然流失的現(xiàn)象,故本文僅選擇以本校教職工為研究對(duì)象。其分析思路如圖3所示。

首先,使用Kaplan-Meier分析用戶整體行為數(shù)據(jù)在不同時(shí)期其生存概率的變化情況,并以此揭示出用戶整體流失風(fēng)險(xiǎn)變化趨勢(shì);其次,通過(guò)使用COX比例風(fēng)險(xiǎn)模型,分析用戶各行為數(shù)據(jù)特征值與用戶流失概率之間發(fā)展變化規(guī)律及相關(guān)關(guān)系。當(dāng)特征值的變化與用戶流失概率呈正相關(guān)時(shí),則可以將之視為用戶瀕臨流失的重要信號(hào);第三,通過(guò)公式五預(yù)測(cè)用戶流失臨界點(diǎn)(日期),為預(yù)防用戶瀕臨流失提前布局;第四,以python 3.8.3+lifelines 0.26.3為工具進(jìn)行上述生存分析。

4.1 基于Kaplan-Meier的用戶整體流失風(fēng)險(xiǎn)分析

通過(guò)LIS讀者庫(kù)的用戶級(jí)別字段篩選出1165名教職工的行為數(shù)據(jù),研究時(shí)間范圍為2017年3月14日至2021年8月31日。根據(jù)前文公式二,從SurvivalDataset中提取以下數(shù)據(jù)并以xlsx格式保存。為了對(duì)不同時(shí)間階段校外訪問(wèn)系統(tǒng)的運(yùn)行態(tài)勢(shì)進(jìn)行對(duì)比,本環(huán)節(jié)將數(shù)據(jù)分割為2017年3月14日至2020年8月31日、2018年3月14日至2021年8月31日兩組數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)見(jiàn)表2。

通過(guò)Kaplan-Meier分析,并利用python的lifelines庫(kù)進(jìn)行對(duì)比,形成不同時(shí)間段用戶生存曲線對(duì)比圖(圖4)。圖4中“At_risk”表示生存時(shí)長(zhǎng)與橫坐標(biāo)不一致的用戶數(shù);“Censored”表示刪失用戶數(shù);“Events”表示在此及以前的累積流失用戶數(shù)。

以圖4中2018—2021年生存期為10個(gè)月的數(shù)據(jù)為例,在前0~10月期間,校外訪問(wèn)系統(tǒng)累積流失人數(shù)為287人,有178名用戶的使用時(shí)長(zhǎng)正好為10個(gè)月,因沒(méi)有后續(xù)統(tǒng)計(jì)數(shù)據(jù)揭示用戶體整體是否趨于流失,故這些標(biāo)記為刪失數(shù)據(jù),另有522名用戶的使用時(shí)長(zhǎng)超過(guò)10個(gè)月。在此基礎(chǔ)上,調(diào)用Kaplan-Meier的logrank_test函數(shù)對(duì)上述兩組時(shí)間段的用戶(按時(shí)間劃分的兩組數(shù)據(jù))的生存曲線做Log-rank 檢驗(yàn),p值均等于0.21,表明這兩條生命曲線沒(méi)有統(tǒng)計(jì)學(xué)意義上的差異。從圖4的生存對(duì)比還可以看出,雖用戶整體生存概率在2018年至2021年間的略高于2017年至2020年間,但總體來(lái)看,兩個(gè)時(shí)間段用戶生存概率走勢(shì)幾乎一致,表明校外訪問(wèn)系統(tǒng)運(yùn)行狀態(tài)穩(wěn)定且在2018—2021年期間用戶流失風(fēng)險(xiǎn)還略有降低??傊?,結(jié)果表明:通過(guò)對(duì)比不用時(shí)期校外訪問(wèn)系統(tǒng)用戶整體的生存概率,可從宏觀層面上有效監(jiān)測(cè)系統(tǒng)各時(shí)期其流失風(fēng)險(xiǎn)變化情況;當(dāng)各時(shí)期校外訪問(wèn)系統(tǒng)用戶整體生存概率趨于平穩(wěn)時(shí),則可將瀕臨流失的用戶個(gè)體作為重點(diǎn)監(jiān)測(cè)目標(biāo)。以下將利用COX模型解析用戶訪問(wèn)行為與其流失概率之間發(fā)展變化規(guī)律及相關(guān)關(guān)系。

4.2 基于COX模型的用戶流失概率相關(guān)特征分析

本研究從最能反映用戶粘性的訪問(wèn)頻率、有效訪問(wèn)行為,以及用戶對(duì)系統(tǒng)掌握的熟練度等角度出發(fā),根據(jù)經(jīng)驗(yàn)提取了登錄頻繁度等7個(gè)指標(biāo)作為可能反映用戶流失概率變化的相關(guān)特征值,再融合用戶名等基礎(chǔ)數(shù)據(jù)生成進(jìn)行COX分析所使用數(shù)據(jù)。數(shù)據(jù)結(jié)構(gòu)見(jiàn)表3。

通過(guò)分析計(jì)算,其結(jié)果如表4所示。表4中,coef欄為COX回歸方程中各自變量的回歸系數(shù)。exp(coef)代表風(fēng)險(xiǎn)比(HR,hazard ratio),coef欄的值為此欄的自然對(duì)數(shù)。當(dāng)HR=1時(shí),coef的值為0,則變量對(duì)用戶流失概率沒(méi)有影響;當(dāng)HR>1時(shí),coef的值為正,表示變量值越大,則用戶流失風(fēng)險(xiǎn)也越大;當(dāng)HR<1時(shí),coef的值為負(fù),表示變量越大用戶流失風(fēng)險(xiǎn)越小。se(coef)為系數(shù)的標(biāo)準(zhǔn)誤差。表中后面4列分別代表coef和exp(coef)在95%置信區(qū)間的上限與下限。

從表4中可得出以下結(jié)論:用戶活躍度為用戶流失概率的不良相關(guān)因素,即每次登錄后進(jìn)行大量檢索操作的用戶更具有流失風(fēng)險(xiǎn)。其余為良性相關(guān)因素,即它們所代表的用戶訪問(wèn)行為指標(biāo)越活躍,流失風(fēng)險(xiǎn)越低,其中登錄頻繁度尤為突出。

為評(píng)估COX模型的精準(zhǔn)度,本研究通過(guò)一致性指數(shù)(Concordance Index,C-index)進(jìn)行評(píng)價(jià)。其值在0.5到1之間,數(shù)值越大,模型的準(zhǔn)確性越高。當(dāng)為0.5時(shí),表示模型的預(yù)測(cè)完全隨機(jī),無(wú)任何意義;當(dāng)?shù)扔?時(shí),則表示模型與實(shí)際情況完全符合。其原理為將樣本數(shù)據(jù)隨機(jī)進(jìn)行兩兩配對(duì),并比較他們的協(xié)變量與其生存時(shí)長(zhǎng)的關(guān)系是否相符,即協(xié)變量顯示生存時(shí)間更短的用戶實(shí)際生存時(shí)長(zhǎng)也更短,則為相符,反之,為不相符[23]。最后計(jì)算相符的結(jié)果在所有情況中的比例。經(jīng)過(guò)計(jì)算,本研究的C-index值等于0.82,準(zhǔn)確度良好。

5 預(yù)測(cè)用戶流失臨界點(diǎn)(critical point)及預(yù)警分析

利用lifelines可以計(jì)算留存用戶在最后一次登錄時(shí)間(d)后每一天的生存概率,在此基礎(chǔ)上即可簡(jiǎn)捷地預(yù)測(cè)用戶流失臨界點(diǎn)(以p表示)。首先,根據(jù)公式五計(jì)算用戶生存概率剛剛小于0.5時(shí)距離d的時(shí)長(zhǎng)(即剩余生存時(shí)間),以t_s表示;其次,計(jì)算用戶流失臨界點(diǎn)的公式為:p=d+t_s。在該日期,用戶的生存概率剛剛小于0.5,用戶留存概率剛好低于用戶流失概率。需要注意的是,lifelines默認(rèn)最多計(jì)算1640天的生存概率,如果用戶在1640天時(shí)的生存概率仍然未小于0.5,則它不再計(jì)算t值,而是將用戶的生存時(shí)長(zhǎng)標(biāo)記為無(wú)窮大。在這種情況下就無(wú)法預(yù)測(cè)流失臨界點(diǎn),故予以剔除。本環(huán)節(jié)使用的數(shù)據(jù)與基于COX模型的用戶流失概率計(jì)算使用的數(shù)據(jù)一致,具體結(jié)果如下:

第一步,通過(guò)調(diào)用CoxPHFitter對(duì)象的predict_survival_function函數(shù)預(yù)測(cè)用戶剩余生存時(shí)間。結(jié)果顯示可預(yù)測(cè)160名用戶的剩余生存時(shí)間,其中最長(zhǎng)時(shí)間為1308天,最短為56天,平均剩余時(shí)間約為568天。預(yù)測(cè)部分結(jié)果見(jiàn)表5。

第二步,計(jì)算用戶流失臨界點(diǎn)。表5中的索引欄為用戶在導(dǎo)出數(shù)據(jù)的excel文件中的行號(hào)(以0開(kāi)始),可用于定位具體用戶并獲得該用戶的最后一次登錄時(shí)間(d)。以790號(hào)用戶為例,其d值為2021年4月26日,t_s值為141,則可以計(jì)算出其流失臨界點(diǎn)為p=t_s+d,即2021年9月14日。

當(dāng)用戶流失臨界點(diǎn)計(jì)算值出來(lái)后,即可進(jìn)行預(yù)警。用戶流失預(yù)警分析是指通過(guò)建立操作性強(qiáng)、可實(shí)現(xiàn)的流失識(shí)別指標(biāo)體系,衡量流失跡象是否存在以及存在的邊界狀態(tài)[24]。主要涉及以下三個(gè)方面。

(1)監(jiān)測(cè)用戶整體的生存概率變化情況。通過(guò)Kaplan-Meier對(duì)比不同時(shí)期用戶整體生存概率的變化情況。當(dāng)近期用戶組生存曲線下降幅度增加,同時(shí)與前期對(duì)照組用戶生存曲線作Log-rank檢驗(yàn)時(shí)且p值<0.05,則表示用戶整體生存概率總體趨于惡化,校外訪問(wèn)系統(tǒng)的用戶粘性降低,這時(shí)就需發(fā)出用戶整體的流失預(yù)警信號(hào);反之,除此之外,還可將瀕臨流失的用戶個(gè)體作為重點(diǎn)監(jiān)測(cè)目標(biāo)。

(2)監(jiān)測(cè)反映用戶個(gè)體流失概率的相關(guān)特征值變化。通過(guò)COX定時(shí)監(jiān)測(cè)行為數(shù)據(jù)中反映用戶個(gè)體流失概率變化的相關(guān)特征值的變化情況,有助于及時(shí)發(fā)現(xiàn)瀕臨流失的用戶個(gè)體。當(dāng)用戶流失概率的良性相關(guān)因素在一定時(shí)間內(nèi)持續(xù)走低時(shí),或不良因素持續(xù)升高的情況下,可以認(rèn)定該用戶正處于疲憊瓶頸期,且具有較高的流失風(fēng)險(xiǎn),需及時(shí)發(fā)出預(yù)警信號(hào)。

(3)預(yù)測(cè)用戶流失預(yù)警日期。根據(jù)用戶流失臨界點(diǎn)(p)確定用戶流失預(yù)警日期(churn warning date,以w表示)。當(dāng)用戶位于流失臨界點(diǎn)時(shí),其留存的概率剛剛小于流失的概率。此時(shí),可認(rèn)定該用戶已處于瀕臨流失的狀態(tài)。但如前文所述,判斷用戶流失的標(biāo)準(zhǔn)是在提取用戶行為數(shù)據(jù)的截止日期前推6個(gè)月內(nèi)未登錄,會(huì)出現(xiàn)用戶流失臨界點(diǎn)早于完成數(shù)據(jù)分析的時(shí)間(以ad表示),如790號(hào)用戶的p值為9月14日,而本次實(shí)證的分析完成之日為9月20日),為精準(zhǔn)統(tǒng)計(jì),這部分用戶也需要納入預(yù)警范圍。另外,因本研究只能發(fā)現(xiàn)用戶可能流失的相應(yīng)征兆,而不能明確造成用戶流失的具體原因,為真正實(shí)現(xiàn)在相對(duì)精確的時(shí)期介入干預(yù)避免用戶流失,需耗費(fèi)一定時(shí)間做量的用戶調(diào)研、數(shù)據(jù)分析工作,故需在p日前置某個(gè)時(shí)間段(pd)進(jìn)行提前預(yù)警。該時(shí)間可以根據(jù)實(shí)際情況自定,本研究擬設(shè)置為7(天),則計(jì)算用戶流失預(yù)警日期(w)的公式如下:

當(dāng)p-ad- pd ≤0時(shí):

w= ad

如790號(hào)用戶的流失預(yù)警期為數(shù)據(jù)分析完成之日,即9月20日。

當(dāng)p-ad- pd >0時(shí):

w=p- pd

如279號(hào)用戶的最后登錄時(shí)間為2021年8月9日,剩余生存時(shí)間為272天,則p等于2022年5月8日,流失預(yù)警之日為2022年5月1日。

6 結(jié)語(yǔ)

本研究采用Kaplan-Meier、COX對(duì)用戶整體流失風(fēng)險(xiǎn)變化趨勢(shì)、用戶訪問(wèn)行為與用戶流失概率之間的變化情況,揭示了電子資源用戶流失變化規(guī)律, 可及時(shí)發(fā)現(xiàn)用戶對(duì)校外訪問(wèn)系統(tǒng)電子資源黏性降低時(shí)的行為表征,并在此基礎(chǔ)上顯現(xiàn)瀕臨流失用戶,不僅在生存函數(shù)的基礎(chǔ)上進(jìn)一步拓展了關(guān)于預(yù)測(cè)用戶流失的研究,填補(bǔ)了該研究領(lǐng)域的空白,具有較好的可行性及普及推廣價(jià)值,還能從用戶整體和個(gè)體兩個(gè)層面有效發(fā)現(xiàn)電子資源用戶瀕臨流失的預(yù)兆,為及時(shí)改進(jìn)與完善圖書(shū)館電子資源服務(wù)工作提供參考依據(jù)。然而,本研究還存在諸多不足:其一,實(shí)證研究的對(duì)象較為單一,方法可能存在缺陷,在今后的研究中應(yīng)根據(jù)具體情況適當(dāng)?shù)臄U(kuò)大研究范圍。其二,在本研究的基礎(chǔ)上,尚需過(guò)濾出瀕臨流失用戶,進(jìn)一步挖掘出導(dǎo)致其可能流失的真正原因。其三,在判斷用戶瀕臨流失的標(biāo)準(zhǔn)方面,尚未經(jīng)過(guò)實(shí)踐反復(fù)復(fù)檢驗(yàn),后期需采集用戶主觀數(shù)據(jù)并結(jié)合經(jīng)驗(yàn)來(lái)進(jìn)行多角度的綜合分析及判斷。這些探索點(diǎn)將是筆者后續(xù)努力研究的方向。

參考文獻(xiàn)

孔青青.科研人員電子資源需求調(diào)查分析[J].圖書(shū)情報(bào)工作,2016,60(10):47-54.

吳漢華,王波.文獻(xiàn)2020年中國(guó)高校圖書(shū)館基本統(tǒng)計(jì)數(shù)據(jù)報(bào)告[J]. 大學(xué)圖書(shū)館學(xué)報(bào),2021,39(4):5-7.

零客戶流失:服務(wù)業(yè)的質(zhì)量革命[EB/OL].[2021-10-04].https://wenku.baidu.com/view/38f0e71275232f60ddccda38376baf1ffc4fe38d.html.

《數(shù)學(xué)辭?!肪庉嬑瘑T會(huì).數(shù)據(jù)辭海:第四卷[M].太原:山西教育出版社,2002.8.

KEAVENEY S M,PARTHASARATHY M.Journal of the Academy of Marketing Science [J].2001,29(4):374-390.

陳靜,余建波,李艷冰.基于隨機(jī)森林的用戶流失預(yù)警研究[J].精密制造與自動(dòng)化,2021(2):21-24,51.

賀芳.基于用戶細(xì)分的微博社區(qū)用戶流失預(yù)測(cè)研究[J].情報(bào)探索,2018(12):21-27.

王若佳,嚴(yán)承希,郭鳳英,等.基于用戶畫(huà)像的在線健康社區(qū)用戶流失預(yù)測(cè)研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2022(Z1):1-16.

JIANG Z, FITZGERALD S R, WALKER K W. Modeling time-to-trigger in library demand-driven acquisitions via survival analysis[J]. Library & Information Science Research, 2019, 41(3): 100968.

朱世琴,蔣辛未.基于CSSCI的人文社科期刊文獻(xiàn)老化風(fēng)險(xiǎn)率研究[J].情報(bào)學(xué)報(bào),2017,36(10):1031-1037.

劉智鋒,李信.作者關(guān)鍵詞生存分析:以國(guó)內(nèi)圖情領(lǐng)域?yàn)槔齕J].圖書(shū)館雜志,2020,39(7):48-57.

孫佳佳,李雅靜.基于關(guān)鍵詞價(jià)值細(xì)分的高價(jià)值熱點(diǎn)主題識(shí)別方法研究[J].情報(bào)學(xué)報(bào),2022,41(2):118-129.

賴院根,劉敏健,王星.網(wǎng)絡(luò)環(huán)境下的信息用戶流失分析[J].情報(bào)科學(xué),2011,29(11):1736-1741.

賴院根,劉礪利.基于生存分析的信息用戶流失研究與實(shí)證[J].情報(bào)雜志,2011,30(4):129-132,171.

程學(xué)旗,梅宏,趙偉,等.數(shù)據(jù)科學(xué)與計(jì)算智能:內(nèi)涵、范式與機(jī)遇[J].中國(guó)科學(xué)院院刊,2020,35(12):1470-1481.

陳志偉.大數(shù)據(jù)方法論的新特征及其哲學(xué)反思[J].湖南師范大學(xué)社會(huì)科學(xué)學(xué)報(bào),2020,49(1):24-31.

數(shù)據(jù)相關(guān)性[EB/OL].[2022-04-04].https://baike.so.com/doc/26482622-27741494.html.

Cox回歸生存分析[EB/OL].[2021-09-01].https://www.jianshu.com/p/e80eb4168043.

劉桂琴,許新華.基于機(jī)器學(xué)習(xí)的圖書(shū)館用戶流失影響因素研討[J].新世紀(jì)圖書(shū)館,2020(1):9-13.

Prediction on censored subjects[EB/OL].[2021-09-01].https://lifelines.readthedocs.io/en/latest/Survival%20Regression.html#prediction-on-censored-subjects.

刁羽,薛紅.高校圖書(shū)館用戶校外訪問(wèn)系統(tǒng)電子資源滿意度畫(huà)像研究:基于小數(shù)據(jù)的視角[J].圖書(shū)館工作與研究,2021(9):76-83.

刁羽,賀意林.用戶訪問(wèn)電子資源行為數(shù)據(jù)的獲取研究:基于創(chuàng)文圖書(shū)館電子資源綜合管理與利用系統(tǒng)[J].圖書(shū)館學(xué)研究,2020(3):40-47.

How the concordance index is calculated in Cox model if the actual event times are not predicted? [EB/OL].[2021-09-01].https://stats.stackexchange.com/questions/478294/how-the-concordance-index-is-calculated-in-cox-model-if-the-actual-event-times-a/478305#478305.

董堅(jiān)峰. 經(jīng)濟(jì)不發(fā)達(dá)地區(qū)公共圖書(shū)館用戶穩(wěn)定機(jī)制研究[J]. 現(xiàn)代情報(bào),2012,32(5):25-29.

永德县| 海丰县| 阿图什市| 土默特左旗| 临汾市| 昭觉县| 扬中市| 营山县| 天津市| 靖安县| 开阳县| 曲松县| 泰顺县| 虞城县| 东兰县| 彭山县| 营口市| 英山县| 商水县| 天长市| 赤峰市| 二连浩特市| 高青县| 阿拉善左旗| 东城区| 奇台县| 南充市| 临西县| 连平县| 新沂市| 福贡县| 锦州市| 阆中市| 文化| 五寨县| 昌邑市| 曲松县| 镇康县| 孝感市| 崇义县| 临安市|