章群英,房書豪,章嘉愉,曾 瑩,王申奧
(嘉興學(xué)院,浙江 嘉興 314001)
數(shù)字經(jīng)濟(jì)時(shí)代,信息的冗余和過載現(xiàn)象日益凸顯,精準(zhǔn)定位用戶喜好并進(jìn)行個(gè)性化推薦的運(yùn)營方式成為大多數(shù)C 端企業(yè)的商業(yè)共識,可以有效地對信息進(jìn)行過濾和篩選,幫助用戶以個(gè)性化的方式來檢索符合其需求的信息資源,緩解信息過載的個(gè)性化推薦系統(tǒng)[1],也成為當(dāng)前的研究熱點(diǎn)。
個(gè)性化推薦系統(tǒng)是根據(jù)用戶對信息的反饋互動(dòng)行為來判斷用戶和信息之間的匹配程度,從而向用戶進(jìn)行信息推薦的一類數(shù)據(jù)分析系統(tǒng),它通過獲取用戶的歷史行為數(shù)據(jù),如網(wǎng)頁的瀏覽數(shù)據(jù)、購買記錄、社交網(wǎng)絡(luò)信息、用戶地理位置等,來推斷用戶偏好,并據(jù)此進(jìn)行推薦[2]。由此可知,個(gè)性化推薦系統(tǒng)往往與用戶本身的興趣強(qiáng)相關(guān),且興趣可以通過特定的行為來表現(xiàn)。這意味著用戶網(wǎng)絡(luò)行為產(chǎn)生的數(shù)據(jù)是推薦系統(tǒng)的重要數(shù)據(jù)源,換言之,推薦系統(tǒng)的推薦不精確問題,常常是因?yàn)闊o意義、偶發(fā)性且不能代表用戶偏好的數(shù)據(jù)所導(dǎo)致。
基于上述原因,本文通過分析偶發(fā)性用戶數(shù)據(jù)的產(chǎn)生原理,認(rèn)為此類數(shù)據(jù)的產(chǎn)生原因是用戶在體驗(yàn)系統(tǒng)服務(wù)的過程中發(fā)生的自身興趣的動(dòng)態(tài)變化。并利用此結(jié)論,以用戶的異常行為數(shù)據(jù)為基礎(chǔ),架構(gòu)了一個(gè)可以精確篩選異常數(shù)據(jù)、輔助系統(tǒng)優(yōu)化的理論模型。該模型可以在一定程度上提高傳統(tǒng)個(gè)性化推薦系統(tǒng)的推薦準(zhǔn)確程度,提升用戶在使用相關(guān)服務(wù)時(shí)的體驗(yàn)感。
偶發(fā)性用戶數(shù)據(jù)也稱之為異常行為數(shù)據(jù),是系統(tǒng)所捕捉到的用戶在使用系統(tǒng)時(shí)發(fā)生的用戶異常行為。這種行為往往不符合用戶在使用系統(tǒng)時(shí)的通常習(xí)慣,可以作為用戶興趣動(dòng)態(tài)變化的標(biāo)識,并由此進(jìn)一步優(yōu)化系統(tǒng)對用戶的精確推薦。本節(jié)將主要闡述興趣動(dòng)態(tài)變化與用戶異常行為之間的內(nèi)在聯(lián)系,討論哪些行為的捕捉對于系統(tǒng)分析用戶興趣更具有價(jià)值,并嘗試總結(jié)其行為規(guī)律。
個(gè)性化推薦系統(tǒng)的實(shí)質(zhì)是通過理解用戶的興趣和偏好幫助用戶過濾大量無效信息并獲取感興趣的信息或者物品的信息過濾系統(tǒng)[3],但由于影響興趣變化的因素眾多,且興趣動(dòng)態(tài)變化規(guī)律相對復(fù)雜,導(dǎo)致用戶異常行為也相應(yīng)地出現(xiàn)難預(yù)知性、突發(fā)性和無周期性等特征。合理分析用戶異常行為的特征,是模型篩選有價(jià)值信息的基礎(chǔ)。
1.1.1 定義與特征
用戶異常行為是用戶個(gè)體做出的不符合自身網(wǎng)絡(luò)社交活動(dòng)習(xí)慣的特殊行為,此類行為往往不符合用戶原有的喜好偏向,并表現(xiàn)為與原有喜好有較大差異甚至對立。譬如用戶點(diǎn)贊以往不喜歡的視頻類型,這一現(xiàn)象就會被視為異?,F(xiàn)象。
用戶異常行為具有一些重要的特征:在內(nèi)容上,表現(xiàn)為較強(qiáng)的難預(yù)知性。由于用戶異常行為的定義是用戶對“反常規(guī)偏好”做出的“反常規(guī)反饋”的反饋,因此在內(nèi)容上會出現(xiàn)與原有偏好的較大差異,內(nèi)容跳躍性強(qiáng)且無法被系統(tǒng)為用戶已建立的規(guī)律所感知。在時(shí)間上,表現(xiàn)為突發(fā)性、短時(shí)性、低頻性和無周期性。用戶異常行為的發(fā)生通常不會持續(xù)太長時(shí)間,既不會持續(xù)發(fā)生,也不會定期發(fā)生。
1.1.2 價(jià)值判斷推論
用戶異常行為可以具體細(xì)分為有價(jià)值和無價(jià)值兩種,異常行為的價(jià)值判斷取決于該行為數(shù)據(jù)對用戶自身的喜好分析是否具有實(shí)際意義。舉例而言,某用戶在短期內(nèi)重復(fù)性瀏覽具有相同內(nèi)容標(biāo)簽但并不屬于該用戶傳統(tǒng)興趣偏好內(nèi)容的信息,這有可能是因?yàn)樵撚脩舻呐d趣偏好的確出現(xiàn)變化,也有可能是因?yàn)橛脩翦e(cuò)誤操作(如忘記關(guān)閉APP、系統(tǒng)卡頓造成誤觸等)所導(dǎo)致。前者對于系統(tǒng)分析用戶興趣有優(yōu)化作用,故可稱為有價(jià)值的用戶異常行為,后者則稱為無價(jià)值的用戶異常行為。
推薦系統(tǒng)為用戶所推薦的內(nèi)容之所以時(shí)常出現(xiàn)某種偏差,核心就是因?yàn)閷Ξ惓P袨榈腻e(cuò)誤的價(jià)值衡量,從而導(dǎo)致在篩選數(shù)據(jù)時(shí)忽略了部分有價(jià)值行為數(shù)據(jù)或提取了無價(jià)值行為數(shù)據(jù)。
有價(jià)值的用戶異常行為有助于系統(tǒng)對用戶的內(nèi)容偏好做出更精確的判斷,因而在系統(tǒng)篩選行為數(shù)據(jù)時(shí),應(yīng)當(dāng)具有一個(gè)可靠穩(wěn)定的篩選機(jī)制來獲取這些有價(jià)值的用戶異常行為數(shù)據(jù)并加以處理。對于價(jià)值判斷而言,其實(shí)質(zhì)是判斷用戶的用戶異常行為是否滿足興趣動(dòng)態(tài)變化規(guī)律。興趣動(dòng)態(tài)變化規(guī)律分為興趣演化與興趣漂移兩種,相應(yīng)的,用戶異常行為的價(jià)值判斷同樣具有兩種:用戶精力變化判斷和用戶經(jīng)驗(yàn)累積判斷。
1.2.1 用戶精力變化判斷
用戶精力變化判斷是基于興趣漂移規(guī)律的異常行為價(jià)值判斷,其目的在于篩選出關(guān)于興趣漂移的異常行為。興趣漂移規(guī)律被定義為用戶隨時(shí)間的改變而不斷發(fā)生興趣的動(dòng)態(tài)變化,其主要方式是通過計(jì)算用戶隨時(shí)間的推移在其本身已有的不同偏好中分配的精力來推測用戶的主要興趣。基于此,用戶精力變化判斷的基本假設(shè)是:若用戶在其發(fā)生用戶異常行為前存在精力分配的變化趨勢,比如逐漸增加了導(dǎo)致用戶發(fā)生異常行為的偏好內(nèi)容的關(guān)注,則可以判定用戶的異常行為是基于興趣動(dòng)態(tài)變化現(xiàn)象所導(dǎo)致,故而可以判定其異常行為對于系統(tǒng)優(yōu)化有利。
根據(jù)興趣漂移規(guī)律,這類行為的判定一般基于時(shí)間的長短。用戶分配在新偏好上的時(shí)間越多,則用戶的主要偏好朝著新偏好發(fā)展的可能性就越大。因此,對于精力判斷而言,時(shí)間序列分析方法將是必要的,并需要考慮到用戶對新內(nèi)容的遺忘 程度。
1.2.2 用戶經(jīng)驗(yàn)累積判斷
經(jīng)驗(yàn)判斷則是與興趣演化相關(guān)。對于興趣演化規(guī)律,目前學(xué)界的基本假設(shè)是:用戶的興趣演化是伴隨一個(gè)可累積的因素的變化而產(chǎn)生的[4]。我們將這個(gè)可累積的因素總結(jié)為“經(jīng)驗(yàn)”。舉例而言,就是攝影愛好者隨著攝影經(jīng)驗(yàn)的增長而減少對非專業(yè)相機(jī)的偏好,轉(zhuǎn)而追求專業(yè)或?qū)<壹壪鄼C(jī)的情況。由此可以看出,精力變化判斷與經(jīng)驗(yàn)累積判斷的不同在于,前者考慮不同偏好的轉(zhuǎn)移,而后者考慮單個(gè)偏好內(nèi)的深化。
這一判斷的核心在于用戶是否在發(fā)生異常行為前存在單一領(lǐng)域內(nèi)經(jīng)驗(yàn)的增長進(jìn)而達(dá)到某種興趣的質(zhì)變,比如由于用戶接觸的知識水平的提高,用戶發(fā)生了對其偏好中更高層次的事物的喜好。同精力判斷一致,若確有此行為,則判定對系統(tǒng)優(yōu)化有利。依從興趣演化理論的假設(shè)來看,這類行為的判定可以基于某種可累積因素的變化而產(chǎn)生。從興趣演化的現(xiàn)象來看,其本質(zhì)應(yīng)該是由用戶的學(xué)習(xí)能力所影響。
模型分為數(shù)據(jù)篩選模塊和個(gè)性化推薦模塊兩部分。其中,模型將異常行為檢測機(jī)制與興趣動(dòng)態(tài)變化量化結(jié)合,從而提高數(shù)據(jù)篩選的準(zhǔn)確度。模型既考慮到了興趣的動(dòng)態(tài)變化也考慮到了時(shí)間效應(yīng)對于用戶興趣的影響,提高了模型的預(yù)測精度。
在推薦系統(tǒng)中考慮一系列因子,包括項(xiàng)目信息、用戶信息和用戶行為信息。項(xiàng)目信息包括項(xiàng)目的說明、標(biāo)簽等表征項(xiàng)目特征的信息;用戶信息包括用戶性別、語言偏好等;用戶行為信息包括用戶點(diǎn)贊、收藏、分享、評論等行為信息。
數(shù)據(jù)篩選細(xì)分為用戶異常行為檢測和興趣動(dòng)態(tài)變化的判斷。異常行為檢測模塊,利用項(xiàng)目信息、用戶信息和用戶行為信息的集成數(shù)據(jù)即預(yù)數(shù)據(jù)作為該模塊的輸入,最后輸出模型數(shù)據(jù)作為個(gè)性化推薦系統(tǒng)的輸入數(shù)據(jù)。
本文在模型訓(xùn)練階段通過引入目標(biāo)項(xiàng)目來訓(xùn)練異常行為檢測模塊以做出自主判斷的能力。通過將用戶的瞬時(shí)興趣ki與目標(biāo)項(xiàng)目ti串聯(lián)輸入到一個(gè)多層感知器MLP 中,多層感知器MLP 據(jù)此建模并輸出預(yù)測向量pi,若向量pi趨向于0,則用戶的瞬時(shí)興趣受到污染,即為異常行為數(shù)據(jù),反之為正常行為數(shù)據(jù)。然后將異常行為數(shù)據(jù)作為興趣動(dòng)態(tài)變化判斷模塊的輸入數(shù)據(jù)。
表1 模型模塊功能簡述
圖1 基于用戶異常行為的個(gè)性化推薦模型
圖2 用戶異常行為監(jiān)測示意圖
在興趣動(dòng)態(tài)變化判斷中,分別對用戶具體的學(xué)習(xí)狀態(tài)數(shù)據(jù)、具體的歷史數(shù)據(jù)以及訪問頻率進(jìn)行經(jīng)驗(yàn)和精力判斷。因用戶的評論行為可在多場景觸發(fā),若不對用戶評論的內(nèi)容進(jìn)行控制,則無法精準(zhǔn)地進(jìn)行經(jīng)驗(yàn)判斷。因此,本文采用自然語言處理方法(NLP)的意見挖掘進(jìn)行情感判斷,利用訓(xùn)練好的情感分類器對用戶評論的內(nèi)容進(jìn)行判斷。通過選取情感詞作為特征詞并統(tǒng)計(jì)各特征詞的詞頻,再利用情感分類器對文本進(jìn)行積極(正向)和消極(負(fù)向)的二分分類。例如,“華為手機(jī)非常好”表達(dá)的是正向情感,“華為手機(jī)使用起來很卡頓,不好用!”表達(dá)的是負(fù)向情感。
通過對比分析用戶的經(jīng)驗(yàn)和精力,從而區(qū)分有價(jià)值數(shù)據(jù)和無價(jià)值數(shù)據(jù)。若用戶在該領(lǐng)域上既無經(jīng)驗(yàn)也無精力,則為無價(jià)值數(shù)據(jù),反之則為有價(jià)值數(shù)據(jù)且需召回到正常行為的數(shù)據(jù)中。
通過研究用戶的點(diǎn)贊、分享等訪問行為實(shí)現(xiàn)用戶興趣點(diǎn)的檢測和推薦,點(diǎn)贊、分享等行為具有序列性,這對預(yù)測用戶的行為和興趣具有重要意義。但基于用戶興趣的特征,使得推薦系統(tǒng)要滿足動(dòng)態(tài)和適應(yīng)性強(qiáng)的特點(diǎn),且能考慮項(xiàng)目的時(shí)效性和用戶興趣的動(dòng)態(tài)變化,從而做出相應(yīng)的響應(yīng)。
因此,在個(gè)性化推薦模塊采用基于時(shí)間效應(yīng)和用戶興趣變化的模型,該模型分為信息時(shí)效性過濾和預(yù)測推薦兩部分。在信息時(shí)效性過濾部分,將艾賓浩斯遺忘曲線與傳統(tǒng)的協(xié)同過濾算法結(jié)合,對相似用戶集進(jìn)行時(shí)效性劃分以避免冗余用戶和項(xiàng)目對推薦結(jié)果的影響。在預(yù)測推薦部分,將通過項(xiàng)目時(shí)效性及用戶的動(dòng)態(tài)興趣變化計(jì)算得到的概率矩陣和隨機(jī)游走算法結(jié)合,從而實(shí)現(xiàn)對個(gè)性化推薦系統(tǒng)的優(yōu)化。
用戶網(wǎng)絡(luò)行為作為最能反映用戶興趣偏好的數(shù)據(jù),一直是推薦系統(tǒng)進(jìn)行推薦的主要依據(jù)。本文闡述了用戶異常行為帶來的數(shù)據(jù)偏差是推薦系統(tǒng)推薦不精準(zhǔn)的原因,并對興趣動(dòng)態(tài)變化與用戶異常行為進(jìn)行了概念梳理,提出了異常行為檢測與價(jià)值判斷串聯(lián)的方法?;诖耍疚耐ㄟ^整合興趣的動(dòng)態(tài)變化與時(shí)間效應(yīng)對于用戶興趣的影響,提出了一種基于興趣動(dòng)態(tài)變化的個(gè)性化推薦模型。該模型在理論上可以在一定程度上優(yōu)化個(gè)性化推薦系統(tǒng)的數(shù)據(jù)篩選能力,進(jìn)而提升系統(tǒng)對于用戶的精準(zhǔn)推薦能力。