楊瑞仙 黃書(shū)瑞 王彰奇
摘?要:[目的/意義]針對(duì)目前學(xué)術(shù)虛擬社區(qū)存在對(duì)核心用戶(hù)興趣變化關(guān)注不足的問(wèn)題,本文基于艾賓浩斯遺忘曲線(xiàn)構(gòu)建用戶(hù)興趣遷移模型,以準(zhǔn)確描述核心用戶(hù)的興趣遷移,提升對(duì)核心用戶(hù)個(gè)性化推薦結(jié)果的準(zhǔn)確率。[方法/過(guò)程]以“小木蟲(chóng)論壇”為研究對(duì)象,構(gòu)建用戶(hù)影響力評(píng)估指標(biāo)和問(wèn)答網(wǎng)絡(luò),分別利用熵權(quán)法和PageRank算法識(shí)別核心用戶(hù)。在此基礎(chǔ)上,基于艾賓浩斯遺忘曲線(xiàn)構(gòu)建核心用戶(hù)興趣遷移模型,并對(duì)此模型的適用性進(jìn)行驗(yàn)證。[結(jié)果/結(jié)論]本文所構(gòu)建的核心用戶(hù)興趣遷移模型能更好地反映核心用戶(hù)的興趣遷移。
關(guān)鍵詞:學(xué)術(shù)虛擬社區(qū);用戶(hù)興趣遷移模型;小木蟲(chóng);熵權(quán)法;PageRank算法;核心用戶(hù)識(shí)別;艾賓浩斯遺忘曲線(xiàn);協(xié)同過(guò)濾算法
DOI:10.3969/j.issn.1008-0821.2021.02.002
〔中圖分類(lèi)號(hào)〕G203?〔文獻(xiàn)標(biāo)識(shí)碼〕A?〔文章編號(hào)〕1008-0821(2021)02-0010-09
Abstract:[Objective/Meaning]Aiming at the current academic virtual community's insufficient attention to changes in core user interest,this paper builds a user interest transfer model based on the Ebbinghaus forgetting curve to accurately describe the core user's interest transfer and improve the accuracy of personalized recommendations for core users.[Method/Process]The paper took the“emuch BBS”as the research object,constructed user influence evaluation indicators and question-and-answer network,and then respectively used entropy method and PageRank algorithm to identify core users.On this basis,the core user interest transfer model was constructed based on the Ebbinghaus Forgetting Curve,and the applicability of this model was verified.[Results/Conclusions]The core user interest transfer model constructed in this paper could better reflect the core user's interest transfer.
Key words:academic virtual community;user interest migration model;emuch BBS;entropy weight method;PageRank algorithm;core user identification;ebbinghaus forgetting curve;collaborative filtering algorithm
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)空間發(fā)展理念逐漸由面向數(shù)據(jù)轉(zhuǎn)變?yōu)槊嫦蛴脩?hù)。如今,隨著社交媒體的出現(xiàn),經(jīng)管之家(原人大經(jīng)濟(jì)論壇)、科學(xué)網(wǎng)博客、小木蟲(chóng)學(xué)術(shù)科研互動(dòng)平臺(tái)(以下簡(jiǎn)稱(chēng)“小木蟲(chóng)論壇”)等學(xué)術(shù)虛擬社區(qū)逐漸成為科研人員涉足的非正式科研交流新場(chǎng)所。在學(xué)術(shù)虛擬社區(qū)中,用戶(hù)可以通過(guò)發(fā)文、點(diǎn)贊、回復(fù)以及轉(zhuǎn)發(fā)等形式發(fā)布與科研相關(guān)的知識(shí),社區(qū)內(nèi)的用戶(hù)可在短時(shí)間內(nèi)完成知識(shí)交流的過(guò)程,其時(shí)效性和交互性逐漸受到科研人員的青睞[1]。隨著用戶(hù)逐漸成為學(xué)術(shù)虛擬社區(qū)的核心,學(xué)術(shù)虛擬社區(qū)能夠吸引多少用戶(hù)成為該社區(qū)是否成功的一項(xiàng)重要衡量指標(biāo)。然而,信息的爆炸式增長(zhǎng)使得用戶(hù)在海量數(shù)據(jù)中獲取其感興趣內(nèi)容的需求難以滿(mǎn)足,進(jìn)而導(dǎo)致用戶(hù)對(duì)社區(qū)的關(guān)注度缺失[2]。在此背景下,學(xué)者們開(kāi)始關(guān)注從海量數(shù)據(jù)中挖掘具有潛在價(jià)值的信息和知識(shí)的研究,并提出了用戶(hù)個(gè)性化服務(wù)的概念。用戶(hù)個(gè)性化服務(wù)是以用戶(hù)為本,通過(guò)各種渠道收集、整理和分類(lèi)用戶(hù)的歷史行為數(shù)據(jù),了解用戶(hù)的興趣,向用戶(hù)推薦相關(guān)信息,以滿(mǎn)足用戶(hù)的信息需求。對(duì)用戶(hù)興趣的研究是精準(zhǔn)化推薦的重要基礎(chǔ),用戶(hù)興趣模型的好壞直接影響著相關(guān)分析和服務(wù)的準(zhǔn)確度。
學(xué)術(shù)虛擬社區(qū)中的核心用戶(hù)指在人際傳播中為他人提供信息,同時(shí)也對(duì)他人施加影響的“活躍分子”[3],他們既是信息傳播過(guò)程中的主要擴(kuò)散者,也是權(quán)威起源者,由此形成了社交網(wǎng)絡(luò)中的信息級(jí)聯(lián)傳播,這在社交網(wǎng)絡(luò)的知識(shí)傳播交流過(guò)程中發(fā)揮著至關(guān)重要的作用。由于學(xué)術(shù)虛擬社區(qū)信息資源的極大豐富和核心用戶(hù)在知識(shí)交流過(guò)程中的關(guān)鍵地位,識(shí)別學(xué)術(shù)虛擬社區(qū)中的核心用戶(hù),并根據(jù)他們的歷史行為信息了解他們的興趣偏好,以實(shí)現(xiàn)對(duì)核心用戶(hù)的個(gè)性化推薦,對(duì)社區(qū)的建設(shè)和發(fā)展而言顯得尤為重要。
協(xié)同過(guò)濾推薦算法可以根據(jù)用戶(hù)歷史行為數(shù)據(jù)挖掘用戶(hù)的興趣偏好,預(yù)測(cè)用戶(hù)可能感興趣的內(nèi)容并向其推薦,實(shí)現(xiàn)對(duì)用戶(hù)的個(gè)性化推薦,并在電子商務(wù)中得到了廣泛應(yīng)用[4]。本文通過(guò)協(xié)同過(guò)濾算法計(jì)算核心用戶(hù)興趣遷移模型推薦結(jié)果的準(zhǔn)確率,進(jìn)而評(píng)估模型性能。
在學(xué)術(shù)虛擬社區(qū)中,“小木蟲(chóng)論壇”擁有良好的交流氛圍及豐富的學(xué)術(shù)資源,已成為最具影響力的學(xué)術(shù)虛擬社區(qū)之一。為此,本文主要以“小木蟲(chóng)論壇”為研究對(duì)象,通過(guò)構(gòu)建用戶(hù)影響力評(píng)估指標(biāo)體系和問(wèn)答網(wǎng)絡(luò)識(shí)別學(xué)術(shù)虛擬社區(qū)中的核心用戶(hù);利用用戶(hù)的發(fā)帖相關(guān)信息構(gòu)建核心用戶(hù)興趣遷移模型;通過(guò)協(xié)同過(guò)濾算法驗(yàn)證該模型的合理性,為社區(qū)的建設(shè)和發(fā)展提供參考建議。
1?相關(guān)研究
相關(guān)學(xué)者通過(guò)文獻(xiàn)調(diào)研發(fā)現(xiàn),有關(guān)核心用戶(hù)興趣的研究是個(gè)性化信息服務(wù)的重要基礎(chǔ),深入分析核心用戶(hù)興趣是精準(zhǔn)化信息投放的有力保障。Koren Y和Liu J等[5-6]認(rèn)為用戶(hù)的興趣偏好可能隨時(shí)間變化,一些學(xué)者提出部分存儲(chǔ)模型描述用戶(hù)興趣隨時(shí)間變化的現(xiàn)象[7-8]。如于洪濤等[9]基于遺忘曲線(xiàn)提出了用戶(hù)興趣模型,認(rèn)為用戶(hù)所關(guān)注信息距離當(dāng)前時(shí)間越遠(yuǎn)越容易被遺忘,用戶(hù)關(guān)注某領(lǐng)域的信息越多,對(duì)該領(lǐng)域的興趣度越高;董晨露等[10]根據(jù)用戶(hù)評(píng)論將遺忘曲線(xiàn)引入傳統(tǒng)過(guò)濾算法中,利用遺忘曲線(xiàn)描述用戶(hù)興趣遷移;王占等[11]綜合用戶(hù)信任度、用戶(hù)相似度以及用戶(hù)興趣遷移,為目標(biāo)用戶(hù)推薦項(xiàng)目。相關(guān)研究表明,目前有關(guān)用戶(hù)興趣隨時(shí)間變化的研究大多從用戶(hù)在以往某個(gè)時(shí)刻與當(dāng)前時(shí)間的時(shí)間間隔角度計(jì)算用戶(hù)在不同主題方向的興趣度變化,有關(guān)用戶(hù)在相鄰時(shí)間窗興趣變化的研究尚顯不足,這不利于準(zhǔn)確把握用戶(hù)興趣隨時(shí)間的變化。此外,針對(duì)核心用戶(hù)興趣遷移的研究較為匱乏。
已有研究表明[12-14],用戶(hù)原創(chuàng)主題帖內(nèi)容豐富,能夠在很大程度上體現(xiàn)用戶(hù)的興趣方向,對(duì)用戶(hù)發(fā)帖信息進(jìn)行研究具有重要意義。由此,本文首先獲取“小木蟲(chóng)論壇”的相關(guān)數(shù)據(jù)項(xiàng),利用熵權(quán)法計(jì)算用戶(hù)的影響力,構(gòu)建用戶(hù)問(wèn)答網(wǎng)絡(luò),利用PageRank算法計(jì)算用戶(hù)在社交網(wǎng)絡(luò)中的重要性,進(jìn)而識(shí)別核心用戶(hù);同時(shí)基于艾賓浩斯遺忘曲線(xiàn)建立核心用戶(hù)興趣遷移模型。此研究為提高學(xué)術(shù)虛擬社區(qū)用戶(hù)粘性,促進(jìn)學(xué)術(shù)虛擬社區(qū)的建設(shè)和發(fā)展具有一定參考意義。
2?研究方法
本文主要采用熵權(quán)法計(jì)算用戶(hù)影響力,在此基礎(chǔ)上構(gòu)建用戶(hù)問(wèn)答網(wǎng)絡(luò),利用PageRank算法計(jì)算用戶(hù)在問(wèn)答網(wǎng)絡(luò)中的重要性,進(jìn)而識(shí)別核心用戶(hù)。在此基礎(chǔ)上,采用艾賓浩斯遺忘曲線(xiàn)計(jì)算不同時(shí)刻用戶(hù)在各主題方向的興趣度,構(gòu)建核心用戶(hù)興趣遷移模型,并通過(guò)實(shí)驗(yàn)驗(yàn)證此模型的性能。
2.1?核心用戶(hù)識(shí)別方法
2.1.1?熵權(quán)法
熵權(quán)法是一種以信息熵為權(quán)重標(biāo)準(zhǔn),計(jì)算各指標(biāo)權(quán)重的方法。熵是表征系統(tǒng)無(wú)序程度的一個(gè)度量,香農(nóng)最早將其引入信息論中。根據(jù)信息論的基本原理,信息是系統(tǒng)有序程度的一個(gè)度量,因此稱(chēng)熵的度量值為信息熵[15]。信息熵可用于度量隨機(jī)指標(biāo)的不確定程度,以解決信息量度量的問(wèn)題。某一指標(biāo)的信息熵越小,該指標(biāo)提供的信息量越大,在綜合評(píng)價(jià)中的作用越大,權(quán)重越高[16]。因而,可利用熵權(quán)法確定各指標(biāo)的權(quán)重,以減少主觀因素對(duì)指標(biāo)權(quán)重的影響,進(jìn)而使評(píng)價(jià)結(jié)果更為客觀。
本文利用熵權(quán)法確定各指標(biāo)權(quán)重的過(guò)程如下:
1)原始數(shù)據(jù)標(biāo)準(zhǔn)化。對(duì)原始數(shù)據(jù)的標(biāo)準(zhǔn)化處理公式見(jiàn)式(1):
式(1)中,xij表示原始數(shù)據(jù)第i個(gè)評(píng)價(jià)對(duì)象的第j個(gè)評(píng)價(jià)指標(biāo);yij表示標(biāo)準(zhǔn)化后第i個(gè)評(píng)價(jià)對(duì)象在第j個(gè)指標(biāo)的值。
2)計(jì)算指標(biāo)j的熵值,見(jiàn)式(2):
3)計(jì)算指標(biāo)j的權(quán)重。ej值越小,表明指標(biāo)效用價(jià)值越高,在評(píng)價(jià)指標(biāo)體系中所起的作用越大,權(quán)重也就越高。指標(biāo)j的權(quán)重見(jiàn)式(3):
4)各指標(biāo)加權(quán)計(jì)算綜合得分。利用加權(quán)和公式計(jì)算樣本的得分或評(píng)價(jià)值,見(jiàn)式(4):
2.1.2?PageRank算法
PageRank算法是一種由搜索引擎根據(jù)網(wǎng)頁(yè)間的超鏈接計(jì)算網(wǎng)頁(yè)重要性的技術(shù)。近年來(lái)大量研究都致力于利用改進(jìn)的PageRank算法挖掘社交網(wǎng)絡(luò)中的核心用戶(hù)[17]。本文利用PageRank算法網(wǎng)頁(yè)排名的這一特性體現(xiàn)問(wèn)答網(wǎng)絡(luò)中節(jié)點(diǎn)的相關(guān)性和重要性。
PageRank算法通過(guò)網(wǎng)絡(luò)的超鏈接關(guān)系確定一個(gè)頁(yè)面的等級(jí),把從A頁(yè)面到B頁(yè)面的鏈接解釋為A頁(yè)面給B頁(yè)面投票,根據(jù)投票來(lái)源和投票目標(biāo)的等級(jí)確定新的等級(jí)。簡(jiǎn)單地說(shuō),一個(gè)高等級(jí)頁(yè)面可以提升其他低等級(jí)頁(yè)面的等級(jí)。PageRank算法如下,假設(shè)有一個(gè)由A、B、C和D這4個(gè)頁(yè)面組成的小團(tuán)體,如果所有頁(yè)面均鏈向A,那么A的PageRank值(以下簡(jiǎn)稱(chēng)PR值)就是B、C、D的PR值之和,即PR(A)=PR(B)+PR(C)+PR(D)。假設(shè)B也有到C的鏈接,且D也有鏈接到包括A的3個(gè)頁(yè)面,由于一個(gè)頁(yè)面不能投票2次,所以B給每個(gè)頁(yè)面投半票。同理,D的投票只有1/3算到了A的PR值上,此時(shí)A的PR值為PR(A)=PR(B)2+PR(C)1+PR(D)3,即根據(jù)鏈出頁(yè)面的總數(shù)評(píng)估一個(gè)頁(yè)面的PR值,即如果L(X)表示從X鏈出頁(yè)面的數(shù)量,那么PR(A)=PR(B)L(B)+PR(C)L(C)+PR(D)L(D)。
為保證鏈出頁(yè)面的公平,本文規(guī)定阻尼系數(shù)(Damping Factoe)q為常規(guī)值0.85,其表示用戶(hù)在任意時(shí)刻達(dá)到某頁(yè)面后繼續(xù)向后瀏覽的概率。1-q表示用戶(hù)停止點(diǎn)擊,隨機(jī)跳轉(zhuǎn)到新頁(yè)面的概率。Google通過(guò)數(shù)學(xué)系統(tǒng)給每個(gè)頁(yè)面一個(gè)初始PR值,其計(jì)算過(guò)程如式(5)所示。
式(5)中,p1,p2,…,pN指被研究頁(yè)面,網(wǎng)絡(luò)中存在由頁(yè)面pj指向pi的鏈接,L(pj)是pj鏈出頁(yè)面的數(shù)量,N是所有頁(yè)面的數(shù)量,q為阻尼系數(shù)。
所有頁(yè)面的PR值是特殊矩陣中的特征向量,這個(gè)特征向量可表示為:
式(6)中,φ(pi,pj)=1L(pj),如果pj不鏈向pi,且對(duì)每個(gè)j都成立,那么φ(pi,pj)=0,且∑Ni=1φ(pi,pj)=1。
因此,一個(gè)頁(yè)面的PR值由其他頁(yè)面的PR值計(jì)算所得,如果每個(gè)頁(yè)面有一個(gè)隨機(jī)的PR值(非0),那么經(jīng)過(guò)不斷地重復(fù)計(jì)算,這些頁(yè)面的PR值會(huì)逐漸趨向于正常和穩(wěn)定。
2.2?遺忘曲線(xiàn)
在分析用戶(hù)興趣的背景下,遺忘曲線(xiàn)是指用戶(hù)興趣偏好程度隨時(shí)間逐漸衰減過(guò)程的數(shù)學(xué)函數(shù)[18]。德國(guó)心理學(xué)家Hermann E[19]通過(guò)對(duì)人類(lèi)大腦接觸新事物時(shí)的遺忘規(guī)律進(jìn)行系統(tǒng)實(shí)驗(yàn)和深入分析,提出了反映人類(lèi)中長(zhǎng)期記憶的艾賓浩斯遺忘曲線(xiàn),并對(duì)記憶時(shí)效隨時(shí)間的變化特征加以描述。艾賓浩斯遺忘曲線(xiàn)可以反映人們的興趣偏好或記憶隨時(shí)間增長(zhǎng)慢慢減弱的變化[20],有學(xué)者采用負(fù)指數(shù)曲線(xiàn)對(duì)其進(jìn)行擬合,其量化函數(shù)如式(7)所示。
式(7)中,p0為初始記憶量,k為遺忘速率,用以反映遺忘曲線(xiàn)衰減速度的差異[21]。
2.3?協(xié)同過(guò)濾算法
協(xié)同過(guò)濾推薦算法是根據(jù)其他用戶(hù)的觀點(diǎn)對(duì)目標(biāo)用戶(hù)推薦其感興趣話(huà)題的算法,它基于這樣一個(gè)假設(shè)[22]:如果用戶(hù)對(duì)一些項(xiàng)目的評(píng)分較為相似,則他們對(duì)其他項(xiàng)目的評(píng)分也較為相似。協(xié)同過(guò)濾推薦算法使用統(tǒng)計(jì)技術(shù)搜索目標(biāo)用戶(hù)的若干最近鄰居,然后根據(jù)最近鄰居對(duì)項(xiàng)目的評(píng)分預(yù)測(cè)目標(biāo)用戶(hù)對(duì)項(xiàng)目的評(píng)分,并產(chǎn)生對(duì)應(yīng)的推薦列表。為找到目標(biāo)用戶(hù)的最近鄰居,首先度量用戶(hù)間的相似性,然后選擇相似性最高的若干用戶(hù)作為目標(biāo)用戶(hù)的最近鄰居。目標(biāo)用戶(hù)最近鄰居查詢(xún)的準(zhǔn)確性直接關(guān)系到整個(gè)推薦系統(tǒng)的推薦質(zhì)量。
在推薦系統(tǒng)中,用戶(hù)對(duì)所有產(chǎn)品評(píng)價(jià)的數(shù)據(jù)庫(kù)中包含s個(gè)用戶(hù)的集合U={U1,U2,…,Us}和t個(gè)產(chǎn)品的集合I={I1,I2,…,It}。用戶(hù)評(píng)分?jǐn)?shù)據(jù)集表示為一個(gè)s×t階的矩陣,如表1所示。本文主要研究不同時(shí)刻用戶(hù)在各主題方向的興趣度,故將用戶(hù)發(fā)帖的主題方向視為產(chǎn)品評(píng)價(jià)中的產(chǎn)品,將某一時(shí)刻用戶(hù)在不同主題方向的興趣度視為用戶(hù)評(píng)分,在此基礎(chǔ)上展開(kāi)研究。
用戶(hù)—發(fā)帖主題方向興趣度矩陣中共有s行代表s個(gè)用戶(hù),t列代表t個(gè)發(fā)帖主題方向。假設(shè)某一用戶(hù)Ua對(duì)發(fā)帖主題Ij(其中Ua∈U,Ij∈I)的興趣度為Ra,j,這個(gè)興趣度體現(xiàn)了用戶(hù)Ua對(duì)主題方向Ij的興趣和偏好程度。
2.3.1?相似性度量方法
相似性計(jì)算可以是在用戶(hù)間的相似性計(jì)算,也可以是產(chǎn)品間的計(jì)算[23]。本節(jié)中以用戶(hù)間的相似性研究為例,即基于用戶(hù)的協(xié)同過(guò)濾算法。余弦相似性可通過(guò)向量間的余弦?jiàn)A角計(jì)算度量,其計(jì)算過(guò)程如式(8)所示。
式(8)中,Ra,k表示用戶(hù)Ua對(duì)主題方向Ik的興趣度,Sim(Ua,Ub)表示用戶(hù)間的相似性,它的取值范圍在[0,1]區(qū)間中,Sim(Ua,Ub)的值越大,表示用戶(hù)Ua和Ub間的相似性越大。
2.3.2?最近鄰(KNN)協(xié)同過(guò)濾算法
KNN協(xié)同過(guò)濾推薦算法是采用k個(gè)最相似的近鄰用戶(hù)預(yù)測(cè)興趣度的一種算法。通常推薦系統(tǒng)對(duì)某一用戶(hù)Ua主要有兩個(gè)任務(wù):
1)在用戶(hù)發(fā)帖主題集中,選擇某一用戶(hù)a未曾發(fā)過(guò)的主題方向Ij,Ij不屬于Ra,j。
2)在用戶(hù)未發(fā)過(guò)的主題帖中,預(yù)測(cè)用戶(hù)興趣度最大的N個(gè)主題方向(N≥1),選擇推薦給用戶(hù)。
通過(guò)計(jì)算用戶(hù)間的相似性,基于用戶(hù)的協(xié)同過(guò)濾算法為未知的Ij尋找k個(gè)近鄰,即與Ua最相似的k個(gè)用戶(hù),定義為:S(Ua)且S(Ua)=k,以預(yù)測(cè)用戶(hù)在某個(gè)主題方向的興趣度,該算法的實(shí)現(xiàn)過(guò)程如式(9)所示。
式(9)中,a、b分別表示用戶(hù)Ua、Ub對(duì)其他主題方向興趣度的均值,Rb,j表示用戶(hù)Ub對(duì)主題方向Ib的預(yù)測(cè)興趣度。
3?核心用戶(hù)興趣遷移模型構(gòu)建
3.1?核心用戶(hù)識(shí)別
在識(shí)別核心用戶(hù)前,本文首先根據(jù)用戶(hù)在學(xué)術(shù)虛擬社區(qū)中的行為信息,從用戶(hù)積極性和權(quán)威性?xún)蓚€(gè)維度構(gòu)建用戶(hù)影響力評(píng)估指標(biāo),然后采用熵權(quán)法計(jì)算用戶(hù)在學(xué)術(shù)虛擬社區(qū)中的影響力,并在此基礎(chǔ)上構(gòu)建用戶(hù)間的問(wèn)答網(wǎng)絡(luò),利用PageRank算法計(jì)算用戶(hù)在社交網(wǎng)絡(luò)中的重要性,識(shí)別社區(qū)中的核心用戶(hù)。
3.1.1?用戶(hù)影響力評(píng)估指標(biāo)構(gòu)建
本文在進(jìn)行學(xué)術(shù)虛擬社區(qū)用戶(hù)影響力計(jì)算前,首先構(gòu)造學(xué)術(shù)虛擬社區(qū)用戶(hù)影響力的評(píng)估指標(biāo),用戶(hù)影響力包括用戶(hù)積極性和權(quán)威性?xún)蓚€(gè)一級(jí)指標(biāo),其中用戶(hù)積極性包括用戶(hù)應(yīng)助數(shù)、散花數(shù)、發(fā)帖數(shù)、沙發(fā)數(shù)4個(gè)二級(jí)指標(biāo),用戶(hù)權(quán)威性包括聽(tīng)眾人數(shù)、紅花數(shù)、貴賓值、金幣數(shù)4個(gè)二級(jí)指標(biāo),如表2所示。
3.1.2?問(wèn)答網(wǎng)絡(luò)的構(gòu)建
在大多數(shù)識(shí)別核心用戶(hù)的文獻(xiàn)中,社交網(wǎng)絡(luò)分析法具有較為明顯的優(yōu)勢(shì)[24]。為了在學(xué)術(shù)虛擬社區(qū)中綜合性地識(shí)別核心用戶(hù),本文借鑒郭博等的研究思路[25],結(jié)合“小木蟲(chóng)論壇”的數(shù)據(jù)特征,利用學(xué)術(shù)虛擬社區(qū)中用戶(hù)間的問(wèn)答互動(dòng)行為信息,構(gòu)建了一個(gè)基于用戶(hù)間問(wèn)答關(guān)系的問(wèn)答網(wǎng)絡(luò)結(jié)構(gòu)。根據(jù)已建立的學(xué)術(shù)虛擬社區(qū)網(wǎng)絡(luò)結(jié)構(gòu),本文首先計(jì)算問(wèn)答網(wǎng)絡(luò)中每位用戶(hù)的影響力,在此基礎(chǔ)上結(jié)合用戶(hù)問(wèn)答網(wǎng)絡(luò)結(jié)構(gòu)利用PageRank算法計(jì)算社交網(wǎng)絡(luò)中每位用戶(hù)的重要性,以挖掘?qū)W術(shù)虛擬社區(qū)中的核心用戶(hù)。該研究過(guò)程及其框架如圖1所示:
3.1.3?用戶(hù)PageRank綜合值計(jì)算
PageRank算法是數(shù)據(jù)挖掘領(lǐng)域較常見(jiàn)的一種算法,該算法利用每一頁(yè)面的權(quán)威值評(píng)估網(wǎng)頁(yè)在網(wǎng)站中的重要性。頁(yè)面的權(quán)威值被定義為指向該頁(yè)面的其他頁(yè)面平均分配給該頁(yè)面的權(quán)威值之和,通過(guò)迭代計(jì)算可以得到該網(wǎng)頁(yè)最終等級(jí)劃分[26]。假設(shè)用戶(hù)在問(wèn)答網(wǎng)絡(luò)中均與其他用戶(hù)具有相應(yīng)的交互關(guān)系,本文將PageRank算法的思想用于計(jì)算社交網(wǎng)絡(luò)中每位用戶(hù)在社交網(wǎng)絡(luò)中的重要性。
學(xué)術(shù)虛擬社區(qū)中的問(wèn)答網(wǎng)絡(luò)為加權(quán)有向網(wǎng)絡(luò),由于問(wèn)答網(wǎng)絡(luò)需要考慮邊的權(quán)重,因此在計(jì)算時(shí)需要在每個(gè)頂點(diǎn)形成權(quán)威值的不對(duì)等傳遞,以真實(shí)地反映每位用戶(hù)的影響力。將兩個(gè)頂點(diǎn)之間的邊權(quán)重表示為式(10):
式(10)中,p(i)為利用熵權(quán)法根據(jù)用戶(hù)的積極性和權(quán)威性計(jì)算的用戶(hù)影響力,Nij為用戶(hù)i與用戶(hù)j在問(wèn)答關(guān)系中出現(xiàn)的頻次。本文根據(jù)傳統(tǒng)的PageRank算法式(7)將每個(gè)頂點(diǎn)i在問(wèn)答網(wǎng)絡(luò)中的綜合值QR(i)可以表示為式(11):
式(11)中,α為阻尼系數(shù),在大多數(shù)情況下α取值為0.85[27]。本文將控制迭代結(jié)束的參數(shù)e設(shè)定為10-7。
3.2?興趣遷移模型構(gòu)建
用戶(hù)興趣偏好隨時(shí)間的衰減過(guò)程與艾賓浩斯遺忘率的相關(guān)概念類(lèi)似[18],當(dāng)用戶(hù)剛接觸某類(lèi)別內(nèi)容時(shí),可認(rèn)為此刻用戶(hù)對(duì)該主題方向的興趣度最高,然而隨著時(shí)間的推移,若在一定時(shí)間內(nèi)沒(méi)有持續(xù)的刺激,用戶(hù)在該主題方向的興趣度將會(huì)持續(xù)衰減,直至用戶(hù)的整體興趣度保持在有效記錄時(shí)間窗外的長(zhǎng)期興趣度水平。在用戶(hù)興趣偏好變化理論的基礎(chǔ)上,本文通過(guò)定義遺忘曲線(xiàn)、時(shí)間窗與衰減率將時(shí)間因子與用戶(hù)興趣建立聯(lián)系。參照式(7)用戶(hù)興趣衰減階段,本文將以上過(guò)程用數(shù)學(xué)公式進(jìn)行描述,則用戶(hù)興趣度的量化函數(shù)如式(12)所示。
式(12)中,Wtn-1為處理本條記錄前一刻用戶(hù)的興趣度,θ是衰減因子,t0是有效記錄的起始時(shí)間。
同時(shí),在用戶(hù)興趣衰減的過(guò)程中,若在對(duì)應(yīng)興趣類(lèi)別下有新數(shù)據(jù)加入,即用戶(hù)在有效記錄時(shí)段多次發(fā)布此主題方向的內(nèi)容,根據(jù)式(12),用戶(hù)興趣度的變化情況如圖2所示。圖2中t1、t2、t3分別表示用戶(hù)3次發(fā)帖的主題方向內(nèi)容以及用戶(hù)興趣加入的時(shí)刻,整個(gè)興趣度變化呈現(xiàn)為分段函數(shù),每一階段均為1次新函數(shù)的衰減過(guò)程。以(t1,t2)和(t2,t3)的兩個(gè)衰減過(guò)程為例,兩衰減過(guò)程的主要區(qū)別是本階段的起始位置p1和p2,每次加入新條目后的增量h1和h2,以及衰減率θ,根據(jù)這些指標(biāo)即可計(jì)算任意時(shí)刻用戶(hù)的興趣度。
圖2?用戶(hù)興趣的變化趨勢(shì)圖
由圖2可知,在給定時(shí)間窗內(nèi),第n個(gè)衰減過(guò)程的起始位置pn是由上一衰減過(guò)程的剩余量rn-1與本次激勵(lì)下興趣度的增長(zhǎng)量hn疊加而成,其起始位置的計(jì)算方法如式(13)所示。
對(duì)于每次激勵(lì)下用戶(hù)的興趣度增長(zhǎng)量hn,因用戶(hù)在重復(fù)發(fā)表某一主題方向的內(nèi)容時(shí),每次提升的興趣度并不等量,隨著重復(fù)次數(shù)的增加,用戶(hù)在此方向的興趣度總量不斷增大,且這一增加過(guò)程逐漸趨于平緩,并最終收斂于某最大值。由此可知,在一定時(shí)間內(nèi),用戶(hù)所發(fā)布的特定主題方向的帖子記錄越多,每次興趣度的增量越少,可使用負(fù)指數(shù)函數(shù)對(duì)該過(guò)程進(jìn)行描述,則每次激勵(lì)下用戶(hù)興趣的增量如式(14)所示。
由式(7)、(12)~(14)可得用戶(hù)在任意衰減過(guò)程中的興趣度初始值,如式(15)所示。
用戶(hù)興趣度能體現(xiàn)出用戶(hù)對(duì)該主題方向的興趣程度,但從用戶(hù)發(fā)帖標(biāo)簽中提取的用戶(hù)興趣則需要考慮時(shí)效性。在實(shí)際分析過(guò)程中,研究人員通常以自分析時(shí)刻起,相鄰一段時(shí)間(如30天)的行為記錄作為用戶(hù)興趣偏好的分析目標(biāo)。p0為用戶(hù)興趣增量的初始值,衰減率θ設(shè)定為時(shí)間窗長(zhǎng)度的倒數(shù)。
4?實(shí)證研究
4.1?數(shù)據(jù)來(lái)源
本文以“小木蟲(chóng)論壇”為研究對(duì)象,首先利用Python程序分別獲取“小木蟲(chóng)論壇”中“有機(jī)交流”“第一性原理”“微米和納米”“金融投資”4個(gè)版塊所有用戶(hù)的url;然后訪(fǎng)問(wèn)獲取用戶(hù)的url,提取出用戶(hù)id、性別、生日、專(zhuān)業(yè)、分組等用戶(hù)背景信息,用戶(hù)應(yīng)助數(shù)、散花數(shù)、發(fā)帖數(shù)、沙發(fā)數(shù)等用戶(hù)積極性信息,用戶(hù)聽(tīng)眾人數(shù)、紅花數(shù)、貴賓值、金幣數(shù)等用戶(hù)權(quán)威性信息,以及用戶(hù)發(fā)帖內(nèi)容、發(fā)帖標(biāo)簽等用戶(hù)發(fā)帖信息,并將所獲取的數(shù)據(jù)項(xiàng)存入Postgres數(shù)據(jù)庫(kù)中。其中,用戶(hù)發(fā)帖內(nèi)容可用于表征用戶(hù)的興趣方向,用戶(hù)發(fā)帖標(biāo)簽可用于概括用戶(hù)發(fā)帖信息的內(nèi)涵,且根據(jù)“小木蟲(chóng)論壇”社區(qū)的版塊導(dǎo)航結(jié)構(gòu),可將發(fā)帖標(biāo)簽映射到16個(gè)主題方向上,用戶(hù)發(fā)帖標(biāo)簽在各主題方向的映射結(jié)構(gòu)(部分)如表3所示。為反映用戶(hù)的發(fā)帖信息特征,本文利用SQL腳本對(duì)所獲取的數(shù)據(jù)項(xiàng)進(jìn)行刪除殘缺項(xiàng)等清洗和整理操作,并將739名用戶(hù)在2015年1月1日—2020年1月1日的11 119條發(fā)帖信息作為本研究的數(shù)據(jù)集。
4.2?核心用戶(hù)識(shí)別
本文采用熵權(quán)法分別計(jì)算各級(jí)指標(biāo)的權(quán)重,分別得到用戶(hù)活躍性各指標(biāo)對(duì)應(yīng)的權(quán)重w和信息熵e如表4所示,用戶(hù)權(quán)威性各指標(biāo)對(duì)應(yīng)的權(quán)重w和信息熵e如表5所示,用戶(hù)影響力各指標(biāo)對(duì)應(yīng)的權(quán)重w和信息熵e如表6所示。
由表4可知,在用戶(hù)活躍性指標(biāo)中,用戶(hù)沙發(fā)數(shù)對(duì)用戶(hù)活躍性影響最大,權(quán)重為0.32,其次為應(yīng)助數(shù),權(quán)重為0.26,由此首先評(píng)論用戶(hù)發(fā)帖的用戶(hù)和主動(dòng)幫助他人解決問(wèn)題的用戶(hù)對(duì)用戶(hù)活躍性的影響最大,因此,社區(qū)管理者可通過(guò)激勵(lì)用戶(hù)成為帖子的首位評(píng)論者、鼓勵(lì)用戶(hù)積極幫助解答他人的求助問(wèn)題等方式提升學(xué)術(shù)虛擬社區(qū)用戶(hù)的積極性。由表5可知,用戶(hù)的貴賓值對(duì)用戶(hù)權(quán)威性影響最大,權(quán)重值為0.38,其次為聽(tīng)眾人數(shù)和紅花數(shù),權(quán)重值均為0.22。由表6可知,相比于用戶(hù)活躍性,用戶(hù)權(quán)威性對(duì)用戶(hù)影響力的影響最大,權(quán)重為0.55,因此用戶(hù)若想提升自身在學(xué)術(shù)虛擬社區(qū)中的影響力,應(yīng)該著重提升自身的權(quán)威性。
根據(jù)表4、表5和表6的計(jì)算結(jié)果,計(jì)算用戶(hù)的影響力。本文參照式(11)計(jì)算用戶(hù)在問(wèn)答網(wǎng)絡(luò)中的綜合值QR,進(jìn)而識(shí)別學(xué)術(shù)虛擬社區(qū)中的核心用戶(hù)。借鑒袁潤(rùn)等[27]將用戶(hù)影響力前25%的用戶(hù)作為高互動(dòng)影響力群體的結(jié)論,本文根據(jù)用戶(hù)的QR值對(duì)739名用戶(hù)進(jìn)行倒序排序,將排名前25%的185名用戶(hù)作為學(xué)術(shù)虛擬社區(qū)內(nèi)的核心用戶(hù),其影響力綜合值排名如表7所示。
其中這185名核心用戶(hù)在5年內(nèi)共計(jì)發(fā)文5 103條,平均每人每年發(fā)文5.5條。這一結(jié)果表明學(xué)術(shù)虛擬社區(qū)核心用戶(hù)的人均發(fā)文量較少,然而社區(qū)內(nèi)的核心用戶(hù)作為社區(qū)的中堅(jiān)力量,在鼓勵(lì)其他用戶(hù)積極參與社區(qū)活動(dòng)中發(fā)揮著至關(guān)重要的作用,因此對(duì)核心用戶(hù)興趣偏好的研究就顯得尤為重要。
4.3?核心用戶(hù)興趣遷移
根據(jù)3.2節(jié)基于艾賓浩斯遺忘曲線(xiàn)的用戶(hù)興趣建模結(jié)果,本文在計(jì)算用戶(hù)在不同時(shí)刻各主題方向的興趣度時(shí),將用戶(hù)興趣增量的初始值p0設(shè)置為0.8,時(shí)間窗口設(shè)置為180天,則用戶(hù)的衰減因子θ為1/180。因篇幅限制,本文從185名核心用戶(hù)中隨機(jī)挑選1名社區(qū)編號(hào)為“712283”的用戶(hù),對(duì)其在不同時(shí)間節(jié)點(diǎn)的7條發(fā)帖信息興趣度進(jìn)行展示,如表8所示。
由表8可知,用戶(hù)在某主題方向的初始興趣度值均為0.8,用戶(hù)在2015年3月26日首次發(fā)表“論壇事務(wù)區(qū)”相關(guān)主題帖,與在2019年8月22日第2次發(fā)表“論壇事務(wù)區(qū)”相關(guān)主題帖的時(shí)間間隔1 610天,興趣度由0.8衰減為0.6551,而用戶(hù)首次發(fā)表“版塊孵化區(qū)”相關(guān)主題帖的時(shí)間為2016年3月23日,與第2次在2016年5月28日發(fā)表“版塊孵化區(qū)”相關(guān)主題帖的時(shí)間間隔66天,興趣度由0.8上升為1.2094,這一結(jié)果符合艾賓浩斯遺忘曲線(xiàn)的假設(shè)情況。
4.4?個(gè)性化推薦實(shí)現(xiàn)
1)數(shù)據(jù)集
本文以185名核心用戶(hù)的5 103條發(fā)帖信息作為實(shí)驗(yàn)數(shù)據(jù)集,整個(gè)實(shí)驗(yàn)需要將實(shí)驗(yàn)數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。本文引入變量x,表示訓(xùn)練集在整個(gè)數(shù)據(jù)集的占比,如x=0.8表示隨機(jī)地將數(shù)據(jù)集中的80%作為訓(xùn)練集,20%作為測(cè)試集。在本文的所有實(shí)驗(yàn)中,均采用x=0.8作為實(shí)驗(yàn)基礎(chǔ)。
2)評(píng)價(jià)指標(biāo)
評(píng)價(jià)指標(biāo)反映一種推薦算法在運(yùn)行過(guò)程中的效果,準(zhǔn)確率反映系統(tǒng)推薦的主題帖內(nèi)容中有多少是用戶(hù)真正想要的,這是評(píng)價(jià)推薦系統(tǒng)優(yōu)劣性的一個(gè)重要指標(biāo)。推薦結(jié)果的準(zhǔn)確率計(jì)算公式如式(16)所示。
式(16)中,Precision指推薦結(jié)果的準(zhǔn)確率,R(u)是根據(jù)用戶(hù)在訓(xùn)練集中的行為為用戶(hù)推薦的列表,而T(u)是用戶(hù)在測(cè)試集上的行為列表。
3)實(shí)驗(yàn)結(jié)果
在基于用戶(hù)的協(xié)同過(guò)濾的推薦算法中,本文使用被推薦用戶(hù)的最近鄰進(jìn)行推薦,在實(shí)驗(yàn)中,本文使用該算法將最近鄰數(shù)k從2取到20,間隔為2進(jìn)行測(cè)試,利用Precision指標(biāo)分析算法的運(yùn)行效果,運(yùn)行結(jié)果如圖3所示。
由圖3可知,當(dāng)k=2時(shí),推薦結(jié)果的準(zhǔn)確率最高,達(dá)到了96.4%。隨著k值的增加,推薦結(jié)果的準(zhǔn)確率逐漸降低,當(dāng)k≥14時(shí),推薦結(jié)果的準(zhǔn)確率逐漸趨于平緩,并穩(wěn)定在93.7%上下,高于Lan等學(xué)者所提出模型的推薦結(jié)果準(zhǔn)確率[5]。故本文所構(gòu)建的核心用戶(hù)興趣遷移模型能夠更好地預(yù)估核心用戶(hù)的興趣變化,為核心用戶(hù)推薦其可能感興趣的主題帖,提升學(xué)術(shù)虛擬社區(qū)的用戶(hù)粘度。
5?結(jié)?語(yǔ)
本文以“小木蟲(chóng)論壇”為研究對(duì)象,獲取學(xué)術(shù)虛擬社區(qū)中的用戶(hù)信息數(shù)據(jù)項(xiàng),構(gòu)建學(xué)術(shù)虛擬社區(qū)用戶(hù)影響力的評(píng)估指標(biāo)體系,利用熵權(quán)法計(jì)算各級(jí)指標(biāo)的權(quán)重,計(jì)算用戶(hù)的影響力,在此基礎(chǔ)上構(gòu)建問(wèn)答網(wǎng)絡(luò),利用PageRank算法計(jì)算用戶(hù)在社交網(wǎng)絡(luò)中的重要性,識(shí)別核心用戶(hù)。在此基礎(chǔ)上,本文基于艾賓浩斯遺忘曲線(xiàn)計(jì)算核心用戶(hù)在不同時(shí)刻各主題方向的興趣度,構(gòu)建核心用戶(hù)興趣遷移模型,利用協(xié)同過(guò)濾算法驗(yàn)證此模型的合理性。結(jié)果顯示,此模型能夠更好地評(píng)估用戶(hù)的興趣變化,推薦結(jié)果的準(zhǔn)確率高達(dá)93.7%,有助于社區(qū)更好地根據(jù)核心用戶(hù)的歷史行為信息提供精準(zhǔn)的個(gè)性化推薦服務(wù),對(duì)于社區(qū)的建設(shè)和發(fā)展具有重要意義。
參考文獻(xiàn)
[1]Dietrich S.Internet:New Scientific Research Establishments[EB/OL].http://www.newso.org/ITNews/Trade/Internet-new-scientific-research-establishments/29eafd05-7352-451a-89bb-3d7c98495f6c,2020-08-19.
[2]Simon H A.Designing Organizations for an Information-rich World[J].Martin Greenberger Computers Communication & the Public Interest the Johns,1971,70:37-72.
[3]劉媛媛,張璇.新媒介時(shí)代微博意見(jiàn)領(lǐng)袖研究[J].新聞界,2016,(20):63-68.
[4]榮輝桂,火生旭,胡春華,等.基于用戶(hù)相似度的協(xié)同過(guò)濾推薦算法[J].通信學(xué)報(bào),2014,(2):16-24.
[5]Koren Y.Collaborative Filtering with Temporal Dynamics[J].Communications of the ACM,2010,53(4):89.
[6]Liu J,Deng G.Link Prediction in a User-object Network Based on Time-weighted Resource Allocation[J].Physica A:Statistical Mechanics and its Applications,2009,388(17):3643-3650.
[7]Michalski R S,Maloof M A.Incremental Learning with Partial Instance Memory[J].Artificial Intelligence:An International Journal,2004,154(1/2):95-126.
[8]Maloof M A,Michalski R S.A Method for Partial-memory Incremental Learning and Its Application to Computer Intrusion Detection[M].1995:392-397.
[9]于洪濤,崔瑞飛,董芹芹.基于遺忘曲線(xiàn)的微博用戶(hù)興趣模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,(10):3367-3372,3379.
[10]董晨露,柯新生.基于用戶(hù)興趣變化和評(píng)論的協(xié)同過(guò)濾算法研究[J].計(jì)算機(jī)科學(xué),2018,45(3):213-217,246.
[11]王占,林巖.基于信任與用戶(hù)興趣變化的協(xié)同過(guò)濾方法研究[J].情報(bào)學(xué)報(bào),2017,36(2):197-205.
[12]扈維,張堯?qū)W,周悅芝.基于社會(huì)化標(biāo)注的用戶(hù)興趣挖掘[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2014,54(4):502-507.
[13]何炎祥,劉續(xù)樂(lè),陳強(qiáng),等.社交網(wǎng)絡(luò)用戶(hù)興趣挖掘研究[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(11):2385-2389.
[14]Joachims T,F(xiàn)reitag D,Mitchell T.WebWatcher:A Tour Guide for the World Wide Web[M].Pollack M E.1997:770-775.
[15]王道平,王煦.基于AHP/熵值法的鋼鐵企業(yè)綠色供應(yīng)商選擇指標(biāo)權(quán)重研究[J].軟科學(xué),2010,24(8):117-122.
[16]程啟月.評(píng)測(cè)指標(biāo)權(quán)重確定的結(jié)構(gòu)熵權(quán)法[J].系統(tǒng)工程理論與實(shí)踐,2010,30(7):1225-1228.
[17]毛國(guó)君,謝松燕,胡殿軍.PageRank模型的改進(jìn)及微博用戶(hù)影響力挖掘算法[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(5):28-32,37.
[18]朱凱歌.面向個(gè)性化服務(wù)的用戶(hù)興趣挖掘方法研究與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2018.
[19]Ebbinghaus Hermann.Memory:A Contribution to Experimental Psychology[J].Annals of Neurosciences,2013,20(4).
[20]J.Bobadilla,F(xiàn).Ortega,A.Hernando,et al.Recommender systems survey.2013,46:109-132.
[21]曾東紅,汪濤,嚴(yán)水發(fā),等.一種基于指數(shù)遺忘函數(shù)的協(xié)同過(guò)濾算法[J].科技廣場(chǎng),2013,(7):10-15.
[22]Breese J S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C]//UAI'98,San Francisco,CA,USA,1998:43-52.
[23]黃創(chuàng)光,印鑒,汪靜,等.不確定近鄰的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2010,33(8):1369-1377.
[24]Yoganarasimhan H.Impact of Social Network Structure on Content Propagation:A Study Using YouTube Data[J].Quantitative Marketing & Economics,2012,10(1):111-150.
[25]郭博,許昊迪,雷水旺.知乎平臺(tái)用戶(hù)影響力分析與關(guān)鍵意見(jiàn)領(lǐng)袖挖掘[J].圖書(shū)情報(bào)工作,2018,62(20):122-132.
[26]Xing W,Ghorbani A A.Weighted Page-Rank Algorithm[C]//Proceeding of the Second Annual Conference on Communication Networks and Services Research,2004.
[27]袁潤(rùn),王琦.學(xué)術(shù)博客用戶(hù)畫(huà)像模型構(gòu)建與實(shí)證——以科學(xué)網(wǎng)博客為例[J].圖書(shū)情報(bào)工作,2019,63(22):13-20.
(責(zé)任編輯:陳?媛)