摘 要 用戶畫像作為大數(shù)據(jù)分析背景下個(gè)性化推薦服務(wù)的設(shè)計(jì)工具,為高校圖書館領(lǐng)域個(gè)性化閱讀資源推薦服務(wù)提供解決思路。本研究在分析目前個(gè)性化推薦和用戶畫像研究的基礎(chǔ)上,引入用戶畫像技術(shù),從數(shù)據(jù)基礎(chǔ)層、數(shù)據(jù)處理層、畫像構(gòu)建層、畫像服務(wù)層設(shè)計(jì)探討用戶畫像的構(gòu)建流程,重點(diǎn)在用戶畫像構(gòu)建和畫像服務(wù)層面進(jìn)行闡述,同時(shí)從用戶基本屬性、閱讀狀態(tài)、學(xué)習(xí)風(fēng)格、閱讀偏好四個(gè)維度構(gòu)建用戶多維畫像模型,并提出基于冷啟動(dòng)和用戶閱讀學(xué)習(xí)過程畫像的個(gè)性化推薦服務(wù)策略,以期為后疫情教育環(huán)境下高校圖書館開展個(gè)性化資源推薦服務(wù)和滿足用戶多維度閱讀學(xué)習(xí)需求提供參考。
關(guān)鍵詞 用戶畫像 ?個(gè)性化資源推薦 ?閱讀偏好 ?冷啟動(dòng)
分類號(hào) G252;G258.6
DOI 10.16810/j.cnki.1672-514X.2021.04.013
Design on Personalized Resources Recommendation Service of University Library Based on User Portrait
Li Bao
Abstract As a design tool for personalized recommendation services in the context of the big data analysis, user portrait provides solutions for personalized reading resource recommendation services in the field of university libraries. Based on the analysis of current personalized recommendation and user portrait research, this research introduces user portrait technology to discuss the construction process of user portrait from the design of the data foundation layer, data processing layer, portrait construction layer and portrait service layer. Then explanation focused on the level of portrait construction and portrait service. At the same time, it constructs a users multi-dimensional portrait model from the four dimensions of users basic attributes, reading status, learning style and reading preference. Finally, personalized recommendation service strategy based on the cold start and user portrait during the users reading and learning process are proposed, in order to provide reference for university libraries to develop personalized resource recommendation services and meet users multi-dimensional reading and learning needs in the post-epidemic education environment.
Keywords User portrait. Personalized resources recommendation. Interest preference. Cold start.
0 引言
“互聯(lián)網(wǎng)+”時(shí)代背景下,用戶研究一直是高校圖書情報(bào)領(lǐng)域研究的熱點(diǎn)問題[1],數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、5G網(wǎng)絡(luò)、人工智能、數(shù)字孿生等新興技術(shù)的出現(xiàn)和廣泛應(yīng)用為高校圖書館領(lǐng)域的用戶研究帶來新契機(jī)、新挑戰(zhàn)?!?020年新媒體聯(lián)盟中國高等教育技術(shù)展望:地平線項(xiàng)目區(qū)域報(bào)告》中提到“自適應(yīng)技術(shù)是解決個(gè)性化學(xué)習(xí)的最佳技術(shù),自適應(yīng)技術(shù)能夠依據(jù)用戶特征提供符合用戶需求的資源、活動(dòng)等,逐步成為高等教育領(lǐng)域新增的關(guān)鍵技術(shù)[2]”。自適應(yīng)技術(shù)指在高等教育機(jī)構(gòu)中要滿足不同學(xué)生用戶的需求,自然要考慮不同用戶學(xué)習(xí)過程中的個(gè)體差異性。
2020年是一個(gè)特殊的年份,也是全國人民攻堅(jiān)克難的年份,全國人民遭受到新型冠狀病毒肺炎的災(zāi)難影響。當(dāng)前,在以習(xí)近平同志為核心的黨中央堅(jiān)強(qiáng)領(lǐng)導(dǎo)下,全國高教教育系統(tǒng)正在全力做好疫情防控工作。為了解決延期開學(xué)期間學(xué)生的居家學(xué)習(xí)問題,教育部印發(fā)系列文件,并發(fā)出“停課不停學(xué)”的通知,集中國家和各地區(qū)的力量與資源為廣大高校學(xué)生提供學(xué)習(xí)資源和學(xué)習(xí)支持服務(wù)。在目前5G網(wǎng)絡(luò)實(shí)現(xiàn)寬信道帶寬和大容量MIMO條件下,網(wǎng)絡(luò)學(xué)習(xí)空間內(nèi)的信息量呈現(xiàn)幾何式爆發(fā)增長,為用戶提供了大量的個(gè)性化學(xué)習(xí)閱讀資源[3]29。然而,疫情期間面對(duì)大量開放的閱讀資源以及各類用戶,高校圖書館作為提供學(xué)生用戶閱讀學(xué)習(xí)資源的主要服務(wù)機(jī)構(gòu),如何針對(duì)學(xué)生用戶個(gè)體特征從數(shù)字圖書館海量服務(wù)資源庫中推薦符合用戶個(gè)性化需求的閱讀學(xué)習(xí)資源等,正是高校圖書館機(jī)構(gòu)亟待解決的問題。
用戶畫像作為大數(shù)據(jù)分析背景下個(gè)性化推薦服務(wù)的設(shè)計(jì)工具,為智慧圖書館個(gè)性化資源推薦服務(wù)提供了解決思路[3]29-30。因此,筆者認(rèn)為要解決疫情期間高校數(shù)字圖書館學(xué)生用戶個(gè)性化閱讀資源服務(wù)的問題,需要借鑒大數(shù)據(jù)、學(xué)習(xí)分析技術(shù),引入用戶畫像技術(shù),從用戶基本屬性、閱讀狀態(tài)、學(xué)習(xí)風(fēng)格、閱讀興趣偏好四個(gè)維度構(gòu)建用戶多維畫像模型,才能在后疫情教育環(huán)境下順利開展個(gè)性化資源推薦服務(wù),滿足學(xué)生用戶多維度閱讀學(xué)習(xí)需求。
1 文獻(xiàn)回溯
1.1 個(gè)性化推薦
個(gè)性化推薦的概念出現(xiàn)于1994年,最初是由Resnick首次提出的[4]。通過梳理國內(nèi)外關(guān)于個(gè)性化推薦的研究發(fā)現(xiàn),目前得到廣泛應(yīng)用的推薦算法主要有基于內(nèi)容的推薦、基于協(xié)同過濾推薦、混合推薦三種方式[5]。
基于內(nèi)容的推薦算法主要是運(yùn)用用戶以往對(duì)資源項(xiàng)目的興趣偏好建立用戶特征庫,評(píng)估項(xiàng)目與用戶興趣之間的相關(guān)性,將相似項(xiàng)目推薦給目標(biāo)用戶[6]。整個(gè)推薦算法只是和項(xiàng)目本身的屬性特征與某個(gè)用戶產(chǎn)生的歷史行為數(shù)據(jù)有關(guān)?;趨f(xié)同過濾推薦的方法是計(jì)算用戶之間的相似度,然后依據(jù)與當(dāng)前目標(biāo)用戶相似度較高的用戶對(duì)其他項(xiàng)目的評(píng)價(jià)來預(yù)測目標(biāo)用戶對(duì)特定項(xiàng)目的偏好程度,最后依據(jù)用戶推薦列表TOP-N實(shí)現(xiàn)推薦[7]。該方法需要構(gòu)建用戶與項(xiàng)目評(píng)分矩陣、計(jì)算用戶相似度、選擇最近鄰居、預(yù)測評(píng)分、產(chǎn)生推薦五個(gè)步驟[8]?;趦?nèi)容推薦和協(xié)同過濾推薦都有各自優(yōu)點(diǎn),同時(shí)都存在一些缺陷,所以后來研究者提出了混合推薦模型,將主流的推薦方法融合起來,避免某些單一推薦的缺陷[9]。例如,申云鳳以用戶行為數(shù)據(jù)為基礎(chǔ),采用協(xié)同過濾和蟻群算法相結(jié)合,構(gòu)建出個(gè)性化學(xué)習(xí)路徑推薦模型[10];熊回香等將基于內(nèi)容和協(xié)同過濾算法相結(jié)合,提出基于LDA標(biāo)簽混合推薦模型,運(yùn)用語義關(guān)系提高了相似度計(jì)算的準(zhǔn)確性[11]。
基于內(nèi)容的推薦算法、協(xié)同過濾推薦算法以及混合推薦算法,每種算法各有特點(diǎn),同時(shí)每種算法都有自身的局限性,無論哪種算法,其最核心的基礎(chǔ)是用戶偏好的獲取[12]。但是,國內(nèi)外現(xiàn)有的研究大多重點(diǎn)在于推薦算法的研究,從用戶個(gè)體角度出發(fā)來關(guān)注推薦過程中用戶本體特征的較少。即使有少部分的研究,但是傾向于用戶的歷史學(xué)習(xí)興趣推薦類似的學(xué)習(xí)資源。
1.2 用戶畫像
用戶畫像(Persona)最初由庫珀(Cooper)提出,主要是依據(jù)用戶社會(huì)屬性、生活習(xí)慣和消費(fèi)行為等信息抽象出的標(biāo)簽化用戶模型[13]。用戶畫像最初應(yīng)用于商業(yè)營銷、計(jì)算機(jī)科學(xué)等領(lǐng)域,多用于信息資源推薦服務(wù)以及精準(zhǔn)營銷方面。后來,用戶畫像技術(shù)逐漸向管理學(xué)、經(jīng)濟(jì)學(xué)、人文社科領(lǐng)域發(fā)展,逐步呈現(xiàn)出明顯的跨學(xué)科特征[14]。
近年來,用戶畫像逐步應(yīng)用到高校數(shù)字圖書館領(lǐng)域。用戶畫像可基于大規(guī)模存儲(chǔ)數(shù)據(jù)、機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)挖掘,構(gòu)建用戶特征,將行為隱式數(shù)據(jù)轉(zhuǎn)化為顯式可視化數(shù)據(jù),為個(gè)性化推薦提供服務(wù)。國內(nèi)關(guān)于用戶畫像在數(shù)字圖書館的應(yīng)用偏向于用戶畫像的構(gòu)建理論探究與應(yīng)用推廣。例如,尹婷婷等結(jié)合用戶畫像技術(shù)從數(shù)據(jù)來源、數(shù)據(jù)整合、數(shù)據(jù)挖掘?qū)蛹?jí)探討高校圖書館個(gè)性化服務(wù)的應(yīng)用模式 [15];劉海鷗等人在用戶多維度標(biāo)簽構(gòu)建模型基礎(chǔ)上引入情境化推薦方法探究數(shù)字圖書館大數(shù)據(jù)知識(shí)個(gè)性化推薦服務(wù)[16];張莉曼等從用戶表層行為和深層驅(qū)動(dòng)設(shè)計(jì)畫像標(biāo)簽,利用與用戶強(qiáng)關(guān)聯(lián)的動(dòng)態(tài)小數(shù)據(jù)實(shí)現(xiàn)用戶畫像的構(gòu)建[17];王順箐采集用戶需求的數(shù)據(jù)構(gòu)建智慧推薦系統(tǒng),以用戶個(gè)人喜好和實(shí)時(shí)需求實(shí)現(xiàn)針對(duì)用戶的無差別推薦[18];肖海清構(gòu)建基于參與式用戶畫像的高校圖書館精準(zhǔn)推廣模式,重點(diǎn)對(duì)于個(gè)體和群體閱讀推廣進(jìn)行探討[19]。
以上相關(guān)研究成果為本研究提供了參考和借鑒,但是通過用戶畫像相關(guān)研究的梳理,發(fā)現(xiàn)國內(nèi)在圖書館領(lǐng)域的用戶畫像研究缺少從用戶多維度構(gòu)建畫像特征,同時(shí)未考慮用戶閱讀過程中興趣偏好轉(zhuǎn)移的因素等。此外,在高校圖書館推薦系統(tǒng)冷啟動(dòng)時(shí)期,大多研究僅僅依靠靜態(tài)數(shù)據(jù)構(gòu)建用戶畫像個(gè)性化閱讀資源推薦依據(jù),未結(jié)合知識(shí)本體角度考慮資源相似度計(jì)算結(jié)果進(jìn)行實(shí)際推薦。基于此,本研究提出大數(shù)據(jù)下基于用戶畫像的高校數(shù)字圖書館個(gè)性化閱讀資源推薦服務(wù),以期解決這些問題。
2 用戶畫像的構(gòu)建
2.1 高校圖書館用戶畫像構(gòu)建流程
用戶畫像構(gòu)建的精準(zhǔn)性往往會(huì)影響到個(gè)性化推薦結(jié)果的滿意度。用戶畫像的刻畫一般涵蓋需求、興趣、性格等多個(gè)屬性[20]。高校數(shù)字圖書館用戶畫像的數(shù)據(jù)來源通常包含問卷調(diào)查、訪談、閱讀學(xué)習(xí)行為、閱讀學(xué)習(xí)日志等。用戶畫像為進(jìn)一步快速準(zhǔn)確分析用戶特征提供了足夠的數(shù)據(jù)基礎(chǔ),完全將用戶特征抽象提取出來,可以看作是個(gè)性化推薦中應(yīng)用大數(shù)據(jù)的根基。
本研究重點(diǎn)從數(shù)據(jù)基礎(chǔ)層、數(shù)據(jù)處理層、畫像構(gòu)建層、畫像服務(wù)層四個(gè)層級(jí)考慮用戶畫像的構(gòu)建流程,具體如圖1所示。其中數(shù)據(jù)基礎(chǔ)層和數(shù)據(jù)處理層是底層階段,而畫像構(gòu)建層是用戶畫像的關(guān)鍵層級(jí),同時(shí)該層級(jí)的構(gòu)建結(jié)果是畫像服務(wù)層推薦的依據(jù)。
數(shù)據(jù)基礎(chǔ)層主要是考慮用戶畫像構(gòu)建的基礎(chǔ)數(shù)據(jù)來源。該層級(jí)包含兩部分基礎(chǔ)數(shù)據(jù),一類是顯式獲取的數(shù)據(jù),例如學(xué)習(xí)風(fēng)格量表調(diào)查、用戶基本屬性問卷調(diào)查等;另一類是隱式動(dòng)態(tài)數(shù)據(jù)的挖掘,包含用戶對(duì)閱讀資源標(biāo)記的行為、點(diǎn)擊鏈接行為、互動(dòng)行為等數(shù)據(jù)。數(shù)據(jù)處理層需要搜集數(shù)據(jù)基礎(chǔ)層數(shù)據(jù),然后進(jìn)行梳理歸類,能夠結(jié)合用戶畫像構(gòu)建層中用戶畫像的維度進(jìn)行數(shù)據(jù)的分類預(yù)處理。例如,畫像構(gòu)建層需要了解用戶的閱讀興趣偏好,需要在處理層建立用戶對(duì)于閱讀學(xué)習(xí)資源項(xiàng)目的評(píng)分矩陣或者標(biāo)注行為矩陣。畫像構(gòu)建層在構(gòu)建用戶畫像過程中需要對(duì)數(shù)據(jù)處理層預(yù)處理的數(shù)據(jù)進(jìn)行分析挖掘,主要圍繞用戶一般屬性特征、閱讀準(zhǔn)備狀態(tài)、學(xué)習(xí)風(fēng)格、閱讀興趣偏好等行為特征來完成畫像模型的構(gòu)建。該層級(jí)除了完成用戶個(gè)體畫像構(gòu)建外,還需要采用聚類分析、相似度分析、關(guān)聯(lián)分析等方法實(shí)現(xiàn)用戶群體畫像的構(gòu)建。用戶群體畫像的構(gòu)建主要是為畫像服務(wù)層相似用戶進(jìn)行個(gè)性化推薦預(yù)測和診斷;畫像構(gòu)建層完成后,推薦系統(tǒng)就可以依據(jù)用戶畫像特征完成畫像服務(wù)層的推薦業(yè)務(wù)。在實(shí)現(xiàn)推薦過程中,可以依據(jù)用戶畫像完成與數(shù)字圖書館閱讀資源相似度匹配、個(gè)性化閱讀路徑定制、用戶群體中個(gè)體閱讀行為的預(yù)測分析等。
2.2 高校圖書館用戶畫像特征模型構(gòu)建
在用戶畫像構(gòu)建過程中,考慮從多維層次進(jìn)行。用戶畫像特征模型用UserPersona表示,主要包含用戶基本畫像(UserInfo)、用戶學(xué)習(xí)風(fēng)格畫像(UserStyle)、用戶閱讀狀態(tài)畫像(UserReady)、用戶閱讀興趣偏好畫像(UserPre),即UserPersona={ UserInfo,UserStyle,UserReady,UserPre}。
2.2.1 用戶基本屬性畫像(UserInfo)
對(duì)于剛剛進(jìn)入數(shù)字圖書館資源閱讀平臺(tái)的新用戶,系統(tǒng)首先需要在用戶正式閱讀學(xué)習(xí)前搜集用戶個(gè)體屬性特征畫像數(shù)據(jù),主要包括用戶一般基本特征屬性。通過問卷顯式方式調(diào)查用戶的性別、年齡、計(jì)算機(jī)使用水平、專業(yè)、國籍、平臺(tái)使用意向等個(gè)體靜態(tài)特征信息,即UserInfo={Gender,Age,computerSkill,major,……}。該部分信息的搜集主要是在閱讀行為發(fā)生前采用問卷調(diào)研方式完成。
2.2.2 用戶閱讀狀態(tài)畫像(UserReady)
用戶閱讀狀態(tài)畫像主要是了解用戶原有閱讀知識(shí)結(jié)構(gòu)的起點(diǎn)以及狀態(tài)。某個(gè)用戶開始閱讀前可以依據(jù)用戶基本特征編寫相應(yīng)前測試題,通過測試了解該用戶知識(shí)結(jié)構(gòu)的起點(diǎn),整個(gè)知識(shí)結(jié)構(gòu)采用向量進(jìn)行標(biāo)記,用戶閱讀起點(diǎn)位置可以用向量Vector標(biāo)記。閱讀學(xué)習(xí)過程中,用戶對(duì)于某個(gè)向量標(biāo)記的知識(shí)內(nèi)容是否閱讀則采用閱讀狀態(tài)Status表示,0表示未閱讀,1表示閱讀中,2表示已完成閱讀。即閱讀準(zhǔn)備狀態(tài)畫像UserReady={Vector,Status}。
2.2.3 學(xué)習(xí)風(fēng)格畫像(UserStyle)
學(xué)習(xí)風(fēng)格畫像采用Felder-Silverman學(xué)習(xí)風(fēng)格調(diào)查結(jié)果作為依據(jù),如圖2。不同用戶在數(shù)字圖書館中進(jìn)行資源閱讀時(shí),不同學(xué)習(xí)風(fēng)格偏好的資源呈現(xiàn)方式也會(huì)存在差異。目前學(xué)習(xí)風(fēng)格模型的研究有Kolb學(xué)習(xí)風(fēng)格模型、Dun學(xué)習(xí)風(fēng)格模型及Felder-Silverman學(xué)習(xí)風(fēng)格模型等,已有研究表明Felder-Silverman學(xué)習(xí)風(fēng)格模型使用率較高[21],其模型分為信息加工、感知、輸入、理解四個(gè)維度,其中信息加工分為活躍型和沉思型,感知分為感悟型和直覺型,輸入分為視覺型和語言型,理解分為序列型和綜合型,即UserStyle={active,Contemplative,Visual,Listening,Auditory,Linguistic……}。用戶在具體閱讀過程中,學(xué)習(xí)風(fēng)格也會(huì)受到閱讀環(huán)境和情境等影響,不斷發(fā)生新變化。此外,由于前測采用的是顯式調(diào)查方式,沒有將用戶隱式閱讀行為體現(xiàn)的風(fēng)格挖掘出來。在前期調(diào)查結(jié)果基礎(chǔ)上,后續(xù)閱讀學(xué)習(xí)過程中需要結(jié)合閱讀資源的學(xué)習(xí)行為模式,不斷完善和更新學(xué)習(xí)風(fēng)格畫像。
2.2.4 用戶閱讀興趣偏好畫像(UserPre)
用戶閱讀興趣偏好畫像主要是以用戶閱讀過程中對(duì)于數(shù)字圖書館閱讀資源標(biāo)注行為的關(guān)注度來查看用戶的興趣偏好行為,而對(duì)于用戶喜歡哪一種閱讀資源的呈現(xiàn)方式,這個(gè)已在學(xué)習(xí)風(fēng)格畫像刻畫中進(jìn)行標(biāo)記。同時(shí),對(duì)于用戶標(biāo)注的感興趣閱讀資源以及資源之間存在的概念關(guān)系應(yīng)該有所記錄。例如,采用LCi表示用戶感興趣的閱讀資源,RCi表示閱讀資源之間的相互關(guān)系。用戶閱讀興趣偏好畫像主要關(guān)注用戶近期閱讀興趣偏好以及閱讀過程中持續(xù)閱讀興趣偏好兩個(gè)方面。近期閱讀興趣偏好主要關(guān)注用戶當(dāng)前閱讀過程中的興趣,而持續(xù)閱讀興趣則是關(guān)注用戶在閱讀學(xué)習(xí)過程中的閱讀興趣是否發(fā)生偏移。即用戶閱讀興趣偏好畫像UserPre={LCi,RCi,RPre(Tagt) , ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 。
(1)用戶近期閱讀興趣偏好RPre(Tagt)。用戶近期閱讀興趣的偏好可以通過使用用戶最近標(biāo)注閱讀資源使用的標(biāo)簽進(jìn)行計(jì)算,用戶近期推薦資源的偏好依據(jù)標(biāo)簽記為RPre(Tagt),用戶當(dāng)前閱讀時(shí)間記為Recent,用戶最近一次使用標(biāo)簽t標(biāo)注閱讀資源的時(shí)間記為 ? ? ? ? ? ? ? ? ? ,用戶第一次使用某個(gè)標(biāo)簽標(biāo)注閱讀資源記為 ? ? ? ? ? ? ? ?。具體計(jì)算方法為:
公式(1)
RPre(Tagt)計(jì)算得出的結(jié)果作為用戶當(dāng)前閱讀興趣偏好標(biāo)簽,然后使用相似度計(jì)算得出資源標(biāo)簽和用戶興趣偏好RPre(Tagt)的相似度。
(2)用戶持續(xù)閱讀興趣偏好 ? ? ? ? ? ? ? ? ? ? ? ? ? ? 。在實(shí)際閱讀過程中,除了要考慮用戶近期閱讀興趣的偏好,還需要考慮用戶階段閱讀過程中閱讀興趣偏好是否繼續(xù)持續(xù)的問題,因?yàn)橛脩舻呐d趣偏好往往會(huì)隨著時(shí)間的推移而發(fā)生改變。研究中采用已有的研究使用用戶的持續(xù)興趣偏好指標(biāo)作為參考依據(jù),該方法關(guān)于用戶的持續(xù)興趣通過用戶持續(xù)使用某個(gè)標(biāo)簽標(biāo)注信息資源的時(shí)間跨度進(jìn)行計(jì)算[22],在實(shí)際應(yīng)用中可以作為用戶持續(xù)興趣偏好的計(jì)算依據(jù)。計(jì)算方法如下:
公式(2)
其中,用戶最后一次使用某個(gè)標(biāo)簽標(biāo)注閱讀資源記為LastTag,用戶第一次使用標(biāo)簽t標(biāo)注閱讀資源的時(shí)間記為TagFirst(Tagt),用戶持續(xù)興趣偏好記為PersistentPre(Tagt),其取值越接近1,說明用戶興趣一直持續(xù);如果取值越接近0,則說明用戶的閱讀興趣發(fā)生了偏移,關(guān)注主題有所變動(dòng)。如果學(xué)生閱讀興趣偏好發(fā)生偏移,則可以利用用戶興趣偏好記錄中感興趣知識(shí)之間的關(guān)系RCi進(jìn)行延伸擴(kuò)展推薦。同時(shí),也可以結(jié)合用戶閱讀準(zhǔn)備狀態(tài)中用戶閱讀狀態(tài)和閱讀資源本體之間相互結(jié)構(gòu)關(guān)系作為新閱讀資源偏好推薦的輔助依據(jù)。
3 基于用戶畫像的個(gè)性化閱讀資源推薦服務(wù)設(shè)計(jì)
數(shù)字圖書館在實(shí)施閱讀資源推薦過程中,往往會(huì)關(guān)注系統(tǒng)冷啟動(dòng)的推薦和基于用戶閱讀過程行為數(shù)據(jù)的推薦。冷啟動(dòng)的推薦策略主要解決系統(tǒng)中數(shù)據(jù)稀疏的問題;基于閱讀過程的行為數(shù)據(jù)推薦,則是將用戶興趣偏好畫像、用戶閱讀準(zhǔn)備狀態(tài)畫像考慮在其中。閱讀過程的行為數(shù)據(jù)分析恰恰是挖掘用戶興趣偏好的主要數(shù)據(jù)來源。
3.1 基于冷啟動(dòng)用戶畫像的個(gè)性化推薦
在數(shù)字圖書館平臺(tái)推薦中,用戶未閱讀資源前往往存在數(shù)據(jù)稀疏問題。本研究構(gòu)建的多維度用戶畫像UserPersona可以解決平臺(tái)中冷啟動(dòng)問題,數(shù)字圖書館平臺(tái)推薦中的冷啟動(dòng)一般主要分為新用戶冷啟動(dòng)、新閱讀學(xué)習(xí)資源冷啟動(dòng)兩種情況。新用戶啟動(dòng)指用戶首次進(jìn)入平臺(tái),平臺(tái)中沒有任何該用戶閱讀行為數(shù)據(jù),沒有辦法依據(jù)已有歷史行為數(shù)據(jù)找到相似用戶實(shí)現(xiàn)推薦。因此,無法建立用戶畫像模型,不能針對(duì)該用戶進(jìn)行個(gè)性化閱讀資源推薦。新閱讀資源冷啟動(dòng)指的是新的閱讀資源加入到平臺(tái)中,沒有任何對(duì)該閱讀資源項(xiàng)目的閱讀評(píng)分?jǐn)?shù)據(jù),無法找到該資源項(xiàng)目的相似最近鄰,無法將新的閱讀資源推薦給可能感興趣的用戶,不利于潛在用戶的挖掘。
針對(duì)新用戶冷啟動(dòng)的問題,目前大多研究已解決該問題,可以采用靜態(tài)數(shù)據(jù)刻畫用戶畫像,或者采用基于協(xié)同過濾推薦的方法。利用靜態(tài)數(shù)據(jù)刻畫用戶畫像需要調(diào)研了解用戶基本屬性、學(xué)習(xí)風(fēng)格等顯式獲取的數(shù)據(jù),然后依據(jù)數(shù)據(jù)刻畫的用戶畫像進(jìn)行閱讀資源的推薦。而采用基于協(xié)同過濾推薦的方法則是比較成熟的推薦方法,需要先計(jì)算出用戶之間的相似度,然后依據(jù)與當(dāng)前目標(biāo)用戶相似度較高的用戶對(duì)其他閱讀資源的評(píng)價(jià)來預(yù)測目標(biāo)用戶對(duì)特定閱讀資源的偏好程度,最后依據(jù)用戶推薦列表TOP-N實(shí)現(xiàn)推薦。而用戶之間相似度計(jì)算的前提是需要了解用戶的特征,依據(jù)用戶基本屬性、學(xué)習(xí)風(fēng)格、閱讀準(zhǔn)備狀態(tài)等數(shù)據(jù)刻畫用戶畫像。但是由于處于推薦冷啟動(dòng)階段,所以用戶畫像的數(shù)據(jù)來源還是以靜態(tài)數(shù)據(jù)為主。
對(duì)于新閱讀資源冷啟動(dòng)的問題,可以從閱讀資源片斷知識(shí)本體的角度考慮。由于數(shù)字圖書館平臺(tái)在解決新用戶的問題時(shí),對(duì)于用戶特征畫像構(gòu)建采用了學(xué)習(xí)風(fēng)格等,所以在考慮新學(xué)習(xí)資源冷啟動(dòng)問題時(shí),也會(huì)考慮同一閱讀資源項(xiàng)目的不同呈現(xiàn)方式,資源呈現(xiàn)方式的依據(jù)則是參照用戶在學(xué)習(xí)風(fēng)格各維度的類型。整個(gè)平臺(tái)中閱讀學(xué)習(xí)知識(shí)的呈現(xiàn)從本質(zhì)講都是一種樹狀結(jié)構(gòu),各個(gè)閱讀資源單元片斷所屬章節(jié)知識(shí)點(diǎn)存在樹形關(guān)系,可以利用學(xué)科知識(shí)圖譜形式展示。學(xué)科知識(shí)圖譜需要了解學(xué)科知識(shí)點(diǎn)結(jié)構(gòu)圖,將學(xué)科內(nèi)知識(shí)點(diǎn)關(guān)系用領(lǐng)域本體表示,閱讀資源片段結(jié)構(gòu)具體如圖3所示。
資源A可以看成某個(gè)專題的根知識(shí)點(diǎn),資源x和資源y可以看成其他專題知識(shí)點(diǎn),資源B是該專題下某一個(gè)進(jìn)階知識(shí)點(diǎn),最底層的e、n、f、i、h、m、l是最小學(xué)習(xí)單元的閱讀資源項(xiàng)目,每個(gè)最小知識(shí)單元提供不同資源呈現(xiàn)方式。例如,最小閱讀單元資源項(xiàng)目m,呈現(xiàn)該資源的文本、圖片、音頻、視頻、交互學(xué)習(xí)等不同閱讀資源方式。因此,在實(shí)際進(jìn)行閱讀資源推薦的過程中,如果要計(jì)算兩個(gè)閱讀資源項(xiàng)目的相似度,只需要考慮閱讀資源單元層面就可以,至于推薦閱讀資源類型是和用戶學(xué)習(xí)風(fēng)格畫像數(shù)據(jù)有關(guān)。針對(duì)閱讀資源的樹狀結(jié)構(gòu),在解決新閱讀資源冷啟動(dòng)問題中使用P.Ganesan最早提出基于邊權(quán)重和有向節(jié)點(diǎn)的概念距離相似度計(jì)算[23],該方法主要是在推薦中用于計(jì)算兩個(gè)項(xiàng)目實(shí)例的相似度,在樹狀層次結(jié)構(gòu)中越靠近的節(jié)點(diǎn),其相似度越高。同時(shí),資源知識(shí)點(diǎn)存在進(jìn)階關(guān)系,在圖中可以用父子節(jié)點(diǎn)關(guān)系來表示。閱讀資源在知識(shí)結(jié)構(gòu)體系中可能存在多重繼承關(guān)系,知識(shí)之間存在網(wǎng)狀分布關(guān)系,知識(shí)點(diǎn)閱讀資源項(xiàng)目m、n可能存在多種層次相關(guān)路徑。例如閱讀資源項(xiàng)目e可以看成閱讀資源項(xiàng)目D1 的子節(jié)點(diǎn),閱讀資源項(xiàng)目D1是閱讀資源項(xiàng)目e的上一層級(jí)父節(jié)點(diǎn)。在利用圖3閱讀資源本體片段樹形結(jié)構(gòu)圖的基礎(chǔ)上,兩個(gè)知識(shí)點(diǎn)閱讀資源項(xiàng)目m、n相似度采用層次距離相識(shí)度來識(shí)別。具體計(jì)算方法如下:
公式(3)
其中,ANC(m,n)指的是閱讀推薦平臺(tái)樹狀閱讀資源中項(xiàng)目m、n距離最近的共同祖先,depth(m)表示從根節(jié)點(diǎn)開始到閱讀資源項(xiàng)目m上一級(jí)父節(jié)點(diǎn)的距離長度,depth(n) 表示從根節(jié)點(diǎn)開始到閱讀資源項(xiàng)目n上一級(jí)父節(jié)點(diǎn)的距離長度。由圖可知,ANC(e,n)是D1,ANC(e,f)是C1,ANC(n,f)是D2,ANC(m,n)是B,ANC(i,m)是D3。以閱讀資源項(xiàng)目m和項(xiàng)目n相似度、閱讀資源項(xiàng)目e和項(xiàng)目n相似度計(jì)算為例,依據(jù)公式(3)計(jì)算出兩者的層次距離相似度為:
通過計(jì)算結(jié)果看出,項(xiàng)目e和項(xiàng)目n可以作為同類閱讀資源互相推送的列表選項(xiàng)。如果數(shù)字圖書館平臺(tái)后續(xù)有新加入的閱讀資源,依據(jù)新加入閱讀資源在知識(shí)本體結(jié)構(gòu)圖所處的網(wǎng)狀位置計(jì)算該資源與其他資源的相似度。但是,這種算法只是找到了資源項(xiàng)目之間的相似度,是從知識(shí)本體領(lǐng)域考慮的,對(duì)于資源呈現(xiàn)方式未做考慮。因此,在具體實(shí)施推薦過程中,還需要參考前期學(xué)習(xí)風(fēng)格畫像構(gòu)建的結(jié)果,依據(jù)用戶學(xué)習(xí)風(fēng)格畫像選擇合適的資源呈現(xiàn)方式推送給用戶。
3.2 基于閱讀過程用戶畫像的個(gè)性化推薦
基于閱讀過程用戶畫像的個(gè)性化推薦需要重點(diǎn)考慮閱讀行為數(shù)據(jù),通過挖掘分析刻畫出個(gè)體畫像特征,同時(shí)需要采用聚類分析構(gòu)建群體畫像特征。本研究結(jié)合閱讀行為不斷完善和定期更新前期靜態(tài)數(shù)據(jù)調(diào)研獲取的學(xué)習(xí)風(fēng)格畫像,其中每個(gè)學(xué)習(xí)風(fēng)格維度中,“+”表示支持前一種類型學(xué)習(xí)風(fēng)格,“-”表示支持后一種類型學(xué)習(xí)風(fēng)格。例如,在信息加工維度,用戶訪問論壇的次數(shù)越多,則說明該用戶閱讀過程的活躍度越高,屬于活躍型用戶;在論壇回復(fù)的有效帖子越多,則說明該用戶善于對(duì)閱讀知識(shí)進(jìn)行分析討論,積極參與,也屬于活躍型。在閱讀過程中,用戶閱讀行為屬于動(dòng)態(tài)數(shù)據(jù),對(duì)于該數(shù)據(jù)進(jìn)行分析可以作為用戶學(xué)習(xí)風(fēng)格更新和完善的重要依據(jù)。在進(jìn)行具體閱讀行為模式分析時(shí),結(jié)合內(nèi)容瀏覽、內(nèi)容停留、論壇訪問、論壇發(fā)貼、交互協(xié)作等行為進(jìn)行更新。如在構(gòu)建信息感知維度畫像時(shí),用戶在閱讀案例有停留行為記錄,可以在感悟型維度進(jìn)行“+”標(biāo)記表示支持該類型;如果用戶在進(jìn)行閱讀知識(shí)測試過程中進(jìn)行多次嘗試,表示用戶缺乏冷靜思考感悟,屬于視覺型用戶,則在視覺型維度用“-”標(biāo)記表示支持該類型。
閱讀準(zhǔn)備狀態(tài)畫像和閱讀興趣偏好畫像屬于動(dòng)態(tài)變化數(shù)據(jù),所以用戶畫像需要在閱讀過程中動(dòng)態(tài)迭代更新。用戶狀態(tài)畫像是對(duì)于用戶閱讀路徑、閱讀進(jìn)度的刻畫,而閱讀興趣偏好畫像是關(guān)于用戶近期的偏好和偏好持續(xù)性問題進(jìn)行分析,這些信息可以完全了解用戶的閱讀學(xué)習(xí)位置和興趣偏好,體現(xiàn)了用戶隨著閱讀學(xué)習(xí)不斷推進(jìn)而發(fā)生改變的動(dòng)態(tài)信息。此外,結(jié)合用戶基本屬性畫像、修改完善后的學(xué)習(xí)風(fēng)格畫像構(gòu)建出用戶畫像。之后,可以采用相似度匹配,計(jì)算數(shù)字圖書館資源庫資源特征和用戶畫像特征的相似度。同時(shí),推薦過程也可以計(jì)算兩個(gè)用戶畫像之間的相似度,其相似度的計(jì)算方法類似。目前,研究中使用改進(jìn)后的Prefix Span算法篩選出具有相似特征的用戶,如公式4所示[24]。公式中,和表示用戶a和用戶b的畫像特征數(shù)據(jù),和表示用戶a和用戶b 畫像特征的數(shù)據(jù)均值。
公式(4)
利用相似度計(jì)算以及在閱讀行為模式進(jìn)行個(gè)體用戶畫像的修正等,這是基于用戶畫像實(shí)現(xiàn)個(gè)性化閱讀資源推薦服務(wù)的一部分。當(dāng)然,在個(gè)體用戶畫像構(gòu)建方面,有學(xué)者利用人工神經(jīng)網(wǎng)絡(luò)、蟻群算法等實(shí)現(xiàn)個(gè)性化閱讀推薦路徑。然而,這些研究都只是針對(duì)用戶個(gè)體畫像的推薦內(nèi)容。在實(shí)際推薦服務(wù)實(shí)施過程中,有時(shí)需要基于用戶群體分析,依據(jù)用戶群體特征提供差異化的閱讀學(xué)習(xí)支持服務(wù)進(jìn)而改善閱讀參與度。此外,需要通過構(gòu)建用戶群體畫像來對(duì)群體內(nèi)個(gè)體用戶進(jìn)行分析診斷,起到閱讀學(xué)習(xí)預(yù)警作用。
用戶群體畫像構(gòu)建常用的方法就是聚類分析,在聚類分析算法中,典型的就是K-Means算法。K-Means算法是基于距離的聚類函數(shù),距離越遠(yuǎn)其相似度越低[25]13。前期構(gòu)建出用戶個(gè)體畫像后,從用戶個(gè)體畫像庫中隨機(jī)抽取n個(gè)元素作為聚類時(shí)簇的中心,分別計(jì)算用戶個(gè)體畫像庫中其他所有個(gè)體畫像到n個(gè)簇的中心的距離,盡最大可能將個(gè)體畫像元素歸劃到離某個(gè)簇最近的類中。同時(shí),需要選取簇中所有元素各自維度的平均數(shù)作為n個(gè)簇各自的中心。隨后,采用反復(fù)循環(huán)聚類計(jì)算,每次計(jì)算是對(duì)于個(gè)體畫像庫中去除簇中心的元素后重新計(jì)算,直到最后的每一輪計(jì)算結(jié)果和上一輪計(jì)算結(jié)果差異性較小時(shí)即可完成,最終將聚類結(jié)果輸出。
用戶群體畫像構(gòu)建完成后,要實(shí)現(xiàn)個(gè)性化閱讀推薦服務(wù)就需要考慮用戶群體與數(shù)字圖書館平臺(tái)資源庫資源之間的相似度問題。在用戶群體推送上可以采用KNN算法,KNN算法的核心就是依據(jù)樣本群體特征將目標(biāo)項(xiàng)目產(chǎn)品直接分類對(duì)應(yīng)到樣本群體中[25]14。采用KNN算法可以將用戶個(gè)體畫像聚類后的群體畫像作為樣本特征集,然后抽取數(shù)字圖書館平臺(tái)資源庫中資源,計(jì)算樣本特征集每一個(gè)群體畫像樣本與圖書館資源庫中資源特征的相似度,然后將對(duì)應(yīng)用戶資源距離的遠(yuǎn)近形成推薦列表,選取TOP-N資源分類到用戶群體中作為基于用戶群體畫像推薦的閱讀學(xué)習(xí)資源內(nèi)容。
用戶群體畫像的構(gòu)建除了實(shí)現(xiàn)群體推薦服務(wù)外,還可以參照同一用戶群體內(nèi)某些特征對(duì)于用戶的閱讀狀態(tài)進(jìn)行預(yù)警分析。預(yù)警分析一般采用的方法就是離群數(shù)據(jù)挖掘與分析技術(shù)[26],而在本研究中只需要利用用戶閱讀群體聚類分析結(jié)果和上次結(jié)果對(duì)比分析即可,找出本次聚類不在該閱讀學(xué)習(xí)群體的用戶,針對(duì)這些用戶發(fā)出閱讀學(xué)習(xí)警示信息。如果在兩次以上聚類分析中發(fā)現(xiàn)某個(gè)用戶都不在這些群體內(nèi),就需要考慮該用戶閱讀學(xué)習(xí)可能存在危機(jī),未按時(shí)完成閱讀學(xué)習(xí)任務(wù),需要重點(diǎn)關(guān)注。當(dāng)然,也可以通過設(shè)定閾值等,低于目標(biāo)閾值時(shí)有針對(duì)性地給出閱讀學(xué)習(xí)預(yù)警,提供適合用戶特征的個(gè)性化干預(yù)方案,減少閱讀資源學(xué)習(xí)停滯行為或者缺失率高的現(xiàn)象發(fā)生。
4 結(jié)語
隨著數(shù)據(jù)挖掘、學(xué)習(xí)分析技術(shù)等不斷發(fā)展,為高校圖書館在線閱讀提供了更大的發(fā)展空間,特別是目前處在后疫情時(shí)代,部分高校仍采用線上教學(xué)的方式,涌現(xiàn)了大量的免費(fèi)閱讀學(xué)習(xí)資源。那么,用戶在閱讀過程就會(huì)面臨信息過載或者信息迷航的問題,如何在閱讀中滿足用戶的個(gè)性化資源需求是當(dāng)前后疫情時(shí)代需要高校數(shù)字圖書館平臺(tái)面對(duì)的重要挑戰(zhàn)。
本研究在分析了目前個(gè)性化推薦和用戶畫像研究的基礎(chǔ)上,引入用戶畫像技術(shù)從數(shù)據(jù)基礎(chǔ)層、數(shù)據(jù)處理層、畫像構(gòu)建層、畫像服務(wù)層四個(gè)層級(jí)設(shè)計(jì)探討用戶畫像的構(gòu)建流程,重點(diǎn)在用戶畫像構(gòu)建和畫像服務(wù)層面進(jìn)行闡述,同時(shí)從用戶基本屬性、閱讀準(zhǔn)備、學(xué)習(xí)風(fēng)格、閱讀興趣偏好四個(gè)維度構(gòu)建用戶多維畫像模型,并提出基于冷啟動(dòng)用戶畫像和閱讀過程用戶畫像的個(gè)性化推薦服務(wù)策略。然而,研究不足之處是如何針對(duì)用戶畫像進(jìn)行預(yù)測推薦在研究中僅僅依靠用戶群體來實(shí)現(xiàn),后續(xù)研究應(yīng)該考慮進(jìn)一步結(jié)合神經(jīng)網(wǎng)絡(luò)算法、機(jī)器學(xué)習(xí)等主流技術(shù),通過歷史數(shù)據(jù)的模型訓(xùn)練完成對(duì)于用戶未來的閱讀行為進(jìn)行預(yù)測,為用戶提供精準(zhǔn)的閱讀資源推薦服務(wù)。不論大數(shù)據(jù)支撐下的閱讀行為分析技術(shù)如何完美、個(gè)性化閱讀資源推薦服務(wù)如何精妙,整個(gè)分析過程終究是拿歷史數(shù)據(jù)來預(yù)測未來發(fā)展,但是通過大數(shù)據(jù)技術(shù)創(chuàng)建個(gè)性化定制閱讀是極具誘惑力、吸引力,同時(shí)在改善用戶閱讀滿意度等取得了顯著的效果,所以后續(xù)值得廣大圖書情報(bào)領(lǐng)域研究者繼續(xù)深入研究和探討。
參考文獻(xiàn):
廖運(yùn)平,盧明芳,楊思洛.大數(shù)據(jù)視域下智慧圖書館用戶畫像研究[J].國家圖書館學(xué)刊,2020,29(3):73-82.
金慧,王夢鈺,王陳欣.促進(jìn)教育創(chuàng)新的關(guān)鍵技術(shù)與應(yīng)用實(shí)踐:2015—2020《地平線報(bào)告》的分析與比較[J].遠(yuǎn)程教育雜志,2020,38(3):25-37.
尹婷婷,龔思怡,曾憲玉.基于用戶畫像技術(shù)的教育資源個(gè)性化推薦服務(wù)研究[J].數(shù)字圖書館論壇,2019(11):29-35.
RESNICK P,IAKOVOU N,SUSHAK M,et al[A].Grouplens:an open architecture for collaborative filtering of net news[C].Chapel hill:In Proceedings of CSCW94,1994.175-186.
郭雪梅.基于社會(huì)化標(biāo)簽的用戶標(biāo)注行為和時(shí)間因素的個(gè)性化推薦方法研究[J].情報(bào)科學(xué),2020,38(2):68-74.
孫立瑩. 基于組合推薦技術(shù)的個(gè)性化學(xué)習(xí)資料推薦的研究[D].大連:大連海事大學(xué),2010.
蘇慶,陳思兆,吳偉民,等.基于學(xué)習(xí)情況協(xié)同過濾算法的個(gè)性化學(xué)習(xí)推薦模型研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020,4(5):105-117.
雷秋雨.個(gè)性化推薦系統(tǒng)中冷啟動(dòng)問題研究[D].北京:北京交通大學(xué),2019.
徐朦.基于知識(shí)圖譜的個(gè)性化學(xué)習(xí)方法研究[D].貴陽:貴州師范大學(xué),2019.
申云鳳.基于多重智能算法的個(gè)性化學(xué)習(xí)路徑推薦模型[J].中國電化教育,2019(11):66-72.
熊回香,竇燕.基于LDA主題模型的標(biāo)簽混合推薦研究[J].圖書情報(bào)工作,2018,62(3):104-113.
JANNAC D, ZANKER M, FELFERNING A,et al. Recommender system: an introduction[M].蔣凡,譯.北京:人民郵電出版社,2013.
張海濤,崔陽,王丹,等.基于概念格的在線健康社區(qū)用戶畫像研究[J].情報(bào)學(xué)報(bào),2018,37(9):912-922.
吳加琪.我國用戶畫像研究的知識(shí)網(wǎng)絡(luò)與熱點(diǎn)領(lǐng)域分析[J].現(xiàn)代情報(bào),2018,38(8):130-135,143.
尹婷婷,曾憲玉.用戶畫像視角下數(shù)字圖書館個(gè)性化信息服務(wù)建模與分析[J].新世紀(jì)圖書館,2020(4):57-61.
劉海鷗,姚蘇梅,黃文娜,等.基于用戶畫像的圖書館大數(shù)據(jù)知識(shí)服務(wù)情境化推薦[J].圖書館學(xué)研究,2018(24):57-63,32.
張莉曼,張向先,吳雅威,等.基于小數(shù)據(jù)的社交類學(xué)術(shù)App用戶動(dòng)態(tài)畫像模型構(gòu)建研究[J].圖書情報(bào)工作,2020,64(5):50-59.
王順箐.以用戶畫像構(gòu)建智慧閱讀推薦系統(tǒng)[J].圖書館學(xué)研究,2018(04):92-96.
肖海清,朱會(huì)華.基于參與式用戶畫像的高校圖書館精準(zhǔn)閱讀推廣模式構(gòu)建[J].圖書館工作與究,2020(6):122-128.
陳丹,羅燁,吳智勤.基于大數(shù)據(jù)挖掘和用戶畫像的高校圖書館個(gè)性化服務(wù)研究[J].圖書館研究與工作,2019(4):50-53,59.
李寶,張文蘭.智慧教育環(huán)境下學(xué)習(xí)資源推送服務(wù)模型的構(gòu)建[J].遠(yuǎn)程教育雜志,2015,33(3):41-48.
張炎亮,張超,李靜.基于動(dòng)態(tài)用戶畫像標(biāo)簽的KNN分類推薦算法研究[J].情報(bào)科學(xué):1-5.
GANESAN P, GARCIA-MOLINA H, WIDOM J.Exploiting hierarchical domain structure to compute similarity[J].ACM Trans.Inf.Syst.,2003,21(1):64-93.
趙呈領(lǐng),陳智慧,黃志芳.適應(yīng)性學(xué)習(xí)路徑推薦算法及應(yīng)用研究[J].中國電化教育,2015(8):85-91.
張炎亮,張超,李靜.基于動(dòng)態(tài)用戶畫像標(biāo)簽的KNN分類推薦算法研究[J/OL].情報(bào)科:1-5[2020-06-12].http://kns.cnki.net/kcms/detail/22.1264.G2.20200521.1637.044.html.
金義富,吳濤,張子石,等.大數(shù)據(jù)環(huán)境下學(xué)業(yè)預(yù)警系統(tǒng)設(shè)計(jì)與分析[J].中國電化教育,2016(2):69-73.
李 寶 安康學(xué)院電子與信息工程學(xué)院講師。 陜西安康,725000。
(收稿日期:2020-06-15 編校:謝艷秋,陳安琪)