魏玲 權(quán)晨雪
關(guān)鍵詞:虛擬學(xué)術(shù)社區(qū);核心用戶;偏好融合;興趣漂移;群推薦
DOI:10.3969/j.issn.1008 -0821.2023.07.006
[中圖分類號]TP391.3 [文獻標識碼]A [文章編號]1008-0821(2023)07-0048-16
知識經(jīng)濟時代,學(xué)科間的交流與互動越來越頻繁,不同實體通過知識媒介在分解、共享、轉(zhuǎn)移、整合的過程中極大地促進了知識間的交叉協(xié)同與融合發(fā)展。虛擬社區(qū)是為用戶提供在線交流與互動的平臺,其中知識的流動與共享決定了虛擬社區(qū)的競爭力、生命力與創(chuàng)新力,問答社區(qū)、在線健康社區(qū)、虛擬學(xué)術(shù)社區(qū)中社交網(wǎng)絡(luò)與知識網(wǎng)絡(luò)相互交織,共同推動個人、學(xué)術(shù)機構(gòu)或商業(yè)組織前進。虛擬學(xué)術(shù)社區(qū)作為一種新興學(xué)術(shù)交流平臺,將具有相似興趣的科研人員聚集在一起,拓寬了學(xué)術(shù)交流的渠道,豐富了學(xué)術(shù)交流的形式與內(nèi)容。隨著用戶逐漸成為虛擬社區(qū)的核心,有研究表明在虛擬學(xué)術(shù)社區(qū)中用戶呈現(xiàn)差異化及中心化的特征,表現(xiàn)為社區(qū)中存在不同群體的區(qū)分,并且用戶群體出現(xiàn)逐漸中心化的動態(tài)演變,這種動態(tài)演變能夠促進交互行為的增加,其中核心用戶群體在知識交流中擔(dān)任信息級聯(lián)傳播的角色,實現(xiàn)對核心用戶的信息推薦服務(wù)有助于推動知識傳播速率。除此之外,虛擬學(xué)術(shù)社區(qū)中存在個體信息匱乏、用戶網(wǎng)絡(luò)稀疏以及缺乏資源整合等缺陷,在個性化推薦時難免會出現(xiàn)因用戶信息較少以及數(shù)據(jù)稀疏導(dǎo)致推薦工作量大且效率不佳的問題,又由于虛擬學(xué)術(shù)社區(qū)內(nèi)信息分散并且知識質(zhì)量良莠不齊,極大地影響用戶間的知識交流,從而激發(fā)了知識服務(wù)方式的創(chuàng)新和高效知識發(fā)現(xiàn)策略的需求。提高社區(qū)知識利用率最直接的方式就是對用戶信息及生成的內(nèi)容進行合理聚合,將其聚合為各個群組,既可以在推薦時實現(xiàn)知識資源的整合,又能盡可能地滿足群組中用戶對推薦內(nèi)容專業(yè)性的精準度要求,同時科研人員面對海量的學(xué)術(shù)資源需求亦有一定差異,因此本文結(jié)合用戶信息得到不同興趣群組,研究群組中成員動態(tài)興趣變化,及時跟蹤群組興趣變化過程以提高群組推薦效率,幫助社區(qū)管理者探索不同偏好群組中知識擴散與流動的相關(guān)規(guī)律,從而促進不同偏好用戶需求的有效匹配。
現(xiàn)有針對虛擬學(xué)術(shù)社區(qū)的知識推薦多為個體服務(wù),且忽略核心用戶群組在社群中對推動知識流轉(zhuǎn)帶來的影響,因此本文提出了一種融合多維特征與興趣漂移的虛擬學(xué)術(shù)社區(qū)群推薦模型,該模型基于社會網(wǎng)絡(luò)分析和引入屬性因子的PageRank法,運用改進的信息熵度量公式融合多維特征數(shù)據(jù)綜合識別核心用戶并聚類得到用戶群組,同時引入時間因素探究群組中用戶興趣漂移規(guī)律,挖掘連續(xù)時間窗下的群組動態(tài)偏好變化,通過考慮興趣漂移的群組協(xié)同過濾算法評估模型性能,有效提高群組推薦的準確性。
1相關(guān)研究
目前,國內(nèi)外學(xué)者圍繞虛擬學(xué)術(shù)社區(qū)的研究主要集中在知識流轉(zhuǎn)與共享、用戶交互特征、網(wǎng)絡(luò)結(jié)構(gòu)分析方面。知識流動可以發(fā)生在任何交互的環(huán)境中,Zhang J等認為,社交媒體使得虛擬社區(qū)成為知識交流的重要平臺,知識共享的數(shù)量和質(zhì)量對社區(qū)滿意度和忠誠度有顯著的正向影響。嚴煒煒等指出,學(xué)術(shù)社交網(wǎng)絡(luò)常被視為復(fù)雜異構(gòu)網(wǎng)絡(luò),其用戶行為依賴于由社交網(wǎng)絡(luò)與知識網(wǎng)絡(luò)交織而成的多維關(guān)系網(wǎng)絡(luò)。部分學(xué)者對用戶的識別與分析展開研究,許睿等依據(jù)用戶間的關(guān)注關(guān)系結(jié)合社會網(wǎng)絡(luò)分析,選取入度、中心性等指標識別社區(qū)中的意見領(lǐng)袖。陳彩蓉等利用圖結(jié)構(gòu)建模用戶間的信任關(guān)系,通過改進的PageRank法計算各用戶節(jié)點的權(quán)重來體現(xiàn)用戶影響力水平。王晰巍等從社交網(wǎng)絡(luò)中受認可度、情感聯(lián)系度和網(wǎng)絡(luò)傳播度3個方面構(gòu)建意見領(lǐng)袖節(jié)點影響力指數(shù)法。劉玉文等提取用戶多維特征構(gòu)建多特征遺傳的意見領(lǐng)袖識別方法。吳江等融合個人屬性、網(wǎng)絡(luò)特征、行為特征和文本特征構(gòu)建意見領(lǐng)袖識別的綜合指標體系。王曉梅從用戶輻射度、權(quán)威性、參與積極性、歷史影響力、話題動態(tài)特征5個維度構(gòu)建基于話題動態(tài)特征的微博意見領(lǐng)袖預(yù)測指標。以上關(guān)于意見領(lǐng)袖的挖掘在網(wǎng)絡(luò)社區(qū)的研究中也常被稱為核心用戶識別,李玉媛等進一步利用SNA和Topsis算法將用戶劃分為核心用戶與一般用戶。一般地,網(wǎng)絡(luò)社區(qū)中的核心用戶活躍度高、與其他用戶聯(lián)系緊密,并且表現(xiàn)出專業(yè)度高的特點,對信息傳播速度和廣度有著積極影響并起到重要的中介或過濾作用,對核心用戶進行研究將有助于社區(qū)的建設(shè)和可持續(xù)發(fā)展。
在社會化推薦系統(tǒng)的研究中較少考慮到由不同用戶組成群組的活動形式,隨著研究范圍的擴大,需要將大量具有共享性質(zhì)的項目推薦給某一用戶群組,并且當(dāng)為個體推薦較困難時,還需構(gòu)建虛擬群組進行推薦。學(xué)者們關(guān)于用戶群組的構(gòu)建主要通過相似度計算和聚類算法實現(xiàn)。席茜等提出了一種基于Hellinger距離的社會信任關(guān)系提取方法,將計算出的用戶相似度與分組信息相結(jié)合來識別群組。董偉等借助ATM模型,通過文本聚類識別用戶興趣偏好,引入用戶一文檔映射和海林格距離算法得到用戶興趣群組。進行群組推薦的首要步驟為偏好融合,通常有兩種實現(xiàn)方案:一是先對每個成員進行推薦,再利用融合策略聚合群組成員的推薦結(jié)果,即推薦融合,但在面對大規(guī)模群組時推薦效率低下且聚合結(jié)果工作量大;二是根據(jù)群組成員的偏好,通過融合策略直接生成群組的偏好模型,再進行推薦,即模型融合,如WangH等采用自注意力機制,從群組成員和項目之間的交互中自動學(xué)習(xí)每個群組成員的動態(tài)權(quán)重,同時聚合群組成員的偏好生成群組偏好。柯赟等利用LDA主題模型表征每個用戶的興趣偏好,聚合用戶偏好特征得到群組偏好。夏立新等通過獲取用戶情境信息提取單個用戶行為的偏好,實現(xiàn)群組聚類后融人情境信息挖掘群組行為特征,構(gòu)建群組行為偏好特征向量。在群組推薦系統(tǒng)中,核心問題為如何更好地融合群組偏好,而偏好融合的本質(zhì)則是用戶興趣偏好建模,對此的研究逐漸由靜態(tài)向動態(tài)發(fā)展。用戶興趣往往根據(jù)環(huán)境、時間、自身情況等因素的變化而不斷變化,并且這些變化隱藏在用戶行為信息中,這種現(xiàn)象被稱為興趣漂移。當(dāng)前關(guān)于興趣漂移的研究主要從兩個角度出發(fā),第一種認為用戶的興趣處于不斷變化的過程中,需要時刻更新用戶興趣模型,部分學(xué)者引入時間因子利用主題模型提取虛擬學(xué)術(shù)社區(qū)中用戶動態(tài)興趣演化過程,胡偉健等將時間懲罰函數(shù)引入到歐氏距離對用戶興趣的變化進行描述,提出一種結(jié)合用戶興趣變化的協(xié)同過濾推薦算法;第二種則需要準確定位至用戶發(fā)生興趣漂移的節(jié)點,由此進行用戶興趣建模,更加準確地捕捉興趣變化,如吳樹芳等在社交網(wǎng)絡(luò)用戶興趣挖掘的基礎(chǔ)上考慮興趣主題穩(wěn)定度,計算不同時間窗口下的興趣波動幅度實現(xiàn)對用戶興趣的挖掘。錢聰?shù)热诤吓d趣遺忘特征、出版物興趣重合度以及文本語義相似度等用戶不同時間段的偏好,以捕捉用戶在每個時間段的多重偏好變化提高知識推薦的準確性。蔣武軒等為探究用戶當(dāng)前的興趣關(guān)注與穩(wěn)定偏好,基于社交網(wǎng)絡(luò)結(jié)合遺忘曲線挖掘用戶不同時間窗口下的長短期興趣,依據(jù)滑動時間窗提高用戶興趣發(fā)現(xiàn)的準確性并進行推薦。
綜上所述,目前針對虛擬學(xué)術(shù)社區(qū)中核心用戶群體識別的研究較少,而現(xiàn)實中核心用戶的權(quán)威性及活躍性對知識信息的傳播會產(chǎn)生積極的影響作用。此外,在提升知識推薦服務(wù)水平方面和在信息資源不斷擴充與更新的背景下,對于核心用戶群組相鄰時間窗下動態(tài)興趣的推薦研究較為匱乏,這不利于精準挖掘其興趣變化,且在一定程度上影響推薦精度。為解決上述問題,本文從識別虛擬學(xué)術(shù)社區(qū)核心用戶群組的視角出發(fā),由于群組偏好與個人偏好具有相似性,將群組融合后的偏好視作一個偽用戶跟蹤其興趣變化,進一步研究群組動態(tài)興趣漂移為促進虛擬學(xué)術(shù)社區(qū)內(nèi)知識流動提供新視角。
2融合多維特征與興趣漂移的群推薦模型
2.1研究框架
本文以虛擬學(xué)術(shù)社區(qū)為研究對象構(gòu)建融合多維特征與興趣漂移的群推薦模型,總體框架如圖1所示。首先采集用戶信息數(shù)據(jù)集作為后續(xù)研究的基礎(chǔ);其次基于網(wǎng)絡(luò)傳播維度和網(wǎng)絡(luò)結(jié)構(gòu)維度分別得到用戶影響力排名,進而綜合識別核心用戶;第三結(jié)合用戶博文信息提取文本主題實現(xiàn)用戶一主題映射,并計算用戶的主題偏好相似度聚類得到群組,實現(xiàn)用戶偏好的識別和分類;第四通過模型融合將用戶偏好融合為群組興趣偏好,利用非線性遺忘曲線和連續(xù)滑動時間窗口發(fā)現(xiàn)群組興趣漂移過程:最后利用考慮群組動態(tài)興趣漂移的協(xié)同過濾群組推薦算法將感興趣的內(nèi)容推薦給目標群組用戶。
2.2融合多維特征的核心用戶識別
本文提出的核心用戶識別方法從網(wǎng)絡(luò)傳播和網(wǎng)絡(luò)結(jié)構(gòu)兩個維度構(gòu)建,網(wǎng)絡(luò)傳播維度主要考慮社交關(guān)系,基于社會網(wǎng)絡(luò)分析法得到整體網(wǎng)絡(luò)圖譜與用戶節(jié)點的中心性和重要程度,包括點度中心性、中介中心性和接近中心性3個指標;網(wǎng)絡(luò)結(jié)構(gòu)維度綜合考慮用戶自身屬性以及成員間的交互行為,構(gòu)建用戶屬性指標體系并將屬性因子引入PageRank算法中,得到基于網(wǎng)絡(luò)結(jié)構(gòu)的用戶影響力計算結(jié)果,并參考前人將信息論應(yīng)用于量化節(jié)點影響力的研究,借鑒OLEI指數(shù)構(gòu)建本文融合多維特征的核心用戶挖掘方法。
2.2.1網(wǎng)絡(luò)傳播維度的社會網(wǎng)絡(luò)分析法
社會網(wǎng)絡(luò)分析法(Social Network Analysis,SNA)是一種綜合應(yīng)用數(shù)學(xué)、圖論、計算機等多學(xué)科交叉的計量方法,對網(wǎng)絡(luò)中的個體關(guān)系模式進行測量、評估及可視化。虛擬學(xué)術(shù)社區(qū)中知識交流和共享行為內(nèi)嵌于社會關(guān)系網(wǎng)絡(luò)中,網(wǎng)絡(luò)結(jié)構(gòu)可以反映成員間關(guān)系的緊密程度和整體網(wǎng)絡(luò)密度。一般地,將其定義為一個三元組,G={V,E,W|v∈V,eij∈E},其中V表示節(jié)點集合,E表示節(jié)點間的連邊,W表示節(jié)點間邊的權(quán)重,在社會網(wǎng)絡(luò)中常用關(guān)系圖和關(guān)系矩陣表示,將用戶看作節(jié)點,用戶間的關(guān)注、訪問、點贊等視作節(jié)點的連邊,從網(wǎng)絡(luò)拓撲信息結(jié)構(gòu)的角度衡量網(wǎng)絡(luò)中節(jié)點的重要性,整體反映節(jié)點在網(wǎng)絡(luò)中的位置。節(jié)點中心度常被用來描述節(jié)點在無向網(wǎng)絡(luò)中的重要性,即人員在社會網(wǎng)絡(luò)關(guān)系圖中的地位,社會網(wǎng)絡(luò)分析中常用的指標有點度中心性、中介中心性和接近中心性,如表1所示。
2.2.2網(wǎng)絡(luò)結(jié)構(gòu)維度的改進PageRank法
本文使用訪客數(shù)、積分數(shù)以及活躍度3個指標構(gòu)建用戶屬性特征指標體系,訪客數(shù)即為所有到訪過該博客主頁的用戶數(shù),這可以在一定程度上反映用戶影響力,訪客數(shù)越多,其自身影響力可能越大;用戶積分數(shù)為總發(fā)帖數(shù)、精華帖數(shù)以及兌換的金幣數(shù)之和;用戶活躍度則通過用戶登錄頻次、回復(fù)數(shù)、搜索數(shù)和文字評論數(shù)等行為累計得到,即用戶在該社區(qū)中產(chǎn)生的行為越多、積分越高,越易吸引其他用戶參與知識資源的討論與傳播。
本文采用熵權(quán)法計算上述3個屬性指標的權(quán)重,首先對原始數(shù)據(jù)進行標準化處理,使所有數(shù)據(jù)映射在[0,1]范圍內(nèi),通過式(1)進行變換。
3實證研究
3.1數(shù)據(jù)收集與預(yù)處理
本文選取“科學(xué)網(wǎng)”為研究對象,科學(xué)網(wǎng)面向廣大科研工作者提供快捷權(quán)威的科學(xué)新聞報道、科學(xué)信息服務(wù),現(xiàn)已成為國內(nèi)頗具影響力的科研知識交流網(wǎng)絡(luò)社區(qū)平臺。為有效獲取數(shù)據(jù),選取“管理綜合”下的“管理科學(xué)與工程”“工商管理”“管理學(xué)”“宏觀管理與政策”“圖書館、情報與文獻學(xué)”5個領(lǐng)域的用戶數(shù)據(jù)作為數(shù)據(jù)源,借助OCTO-PUS采集器獲取近5年內(nèi)的所有數(shù)據(jù),包括用戶的基本信息、好友列表、博文數(shù)及博文內(nèi)容等,在剔除隱私用戶和好友信息不可見的數(shù)據(jù)項后,最終得到688條有效信息和14295條博文信息。其中部分用戶基本信息如表2所示。
3.2核心用戶識別
3.2.1社會網(wǎng)絡(luò)分析法
為得到整體網(wǎng)絡(luò)圖譜,需要將采集到的數(shù)據(jù)進一步處理,構(gòu)建用戶社交信息鄰接矩陣,由于科學(xué)網(wǎng)中的好友僅存在雙向鏈接關(guān)系,因此若二者相互關(guān)注,則在矩陣中填充1,否則為0,得到基于好友關(guān)系的鄰接矩陣,如表3所示。然后將構(gòu)建的鄰接矩陣和用戶對應(yīng)的好友數(shù)作為屬性值一并導(dǎo)入至UCINET軟件中,得到整體知識共享網(wǎng)絡(luò)分析結(jié)果,結(jié)果如表4所示。
網(wǎng)絡(luò)密度反映社區(qū)中成員間的聯(lián)系緊密程度和群體的結(jié)構(gòu)形態(tài),網(wǎng)絡(luò)結(jié)構(gòu)使每個實體均占據(jù)一定的位置并具有其獨有特征。由表4可得整體網(wǎng)絡(luò)密度為0. 015,即說明在科學(xué)網(wǎng)學(xué)術(shù)社區(qū)中,整體網(wǎng)絡(luò)較為稀疏,并且由于該社區(qū)具有很強的專業(yè)性,各領(lǐng)域間跨度大,因此成員間的交互程度一般;網(wǎng)絡(luò)平均度數(shù)為10.616,可以看出該網(wǎng)絡(luò)呈現(xiàn)多中心化的特點,存在一部分連線較多且充當(dāng)中介作用的節(jié)點,即網(wǎng)絡(luò)中出現(xiàn)多個核心用戶且他們之間的知識共享較為頻繁,而邊緣用戶多出現(xiàn)分布分散、交互程度較低的特點,此結(jié)論與黃微等對虛擬學(xué)術(shù)社區(qū)研究的結(jié)果表現(xiàn)一致。本文進一步借助Netdraw軟件進行可視化分析,繪制得到好友關(guān)系網(wǎng)絡(luò)圖譜如圖2所示。
從整體圖譜來說,共計688個節(jié)點和7325條邊,其中蘊含交錯復(fù)雜的關(guān)系。節(jié)點的大小代表用戶在網(wǎng)絡(luò)中的整體中心度,即節(jié)點越大對應(yīng)的連邊越多;連邊代表了用戶之間的關(guān)系紐帶,可以在一定程度上反映用戶是否處于整個網(wǎng)絡(luò)中的核心地位。由圖2可以看出,ID為1557、117288、842903、541012等用戶節(jié)點大,是網(wǎng)絡(luò)中的活躍分子,且與其他用戶連邊較為繁雜,在社區(qū)中享有較高的關(guān)注度,即中心度較高。在此基礎(chǔ)上,本文進一步從定量的角度度量網(wǎng)絡(luò)中的節(jié)點,各中心性指標計算結(jié)果如表5所示。
3.2.2改進的PageRank值計算
本文使用訪客數(shù)、積分數(shù)以及活躍度3個屬性指標對社區(qū)內(nèi)現(xiàn)有用戶做影響力評估,由于各指標具有不同的意義,需要在計算前利用式(1)進行標準化處理,結(jié)果如表6所示。然后利用熵權(quán)法依據(jù)式(4)得到各指標權(quán)重,如表7所示。
分析可得在評價用戶影響力的屬性指標中,用戶訪客數(shù)帶來的影響最大,權(quán)重為0.65,其次為積分數(shù),權(quán)重為0.25,這是由于積分數(shù)由總發(fā)帖數(shù)、精華帖數(shù)以及兌換的金幣數(shù)綜合計算得到,結(jié)合訪客數(shù)及積分數(shù)可以看到用戶的博文質(zhì)量是決定用戶影響力的關(guān)鍵因素,博文質(zhì)量的提高帶來精華帖及發(fā)帖數(shù)的增加,同時吸引好友或新用戶拜訪主頁,而活躍度權(quán)重僅為0.1,究其原因為該類社區(qū)內(nèi)用戶行為多為瀏覽、登錄帶來的活躍度累計,同時,社區(qū)內(nèi)部分成員間信任度較低,這共同導(dǎo)致了成員間的交互程度不高。因此,社區(qū)運營者可以通過有效的激勵機制,如鼓勵用戶發(fā)布博文、積極參與學(xué)術(shù)相關(guān)交流以增強虛擬學(xué)術(shù)社區(qū)知識共享的意愿和行為,同時完善社區(qū)的推薦功能,提升社區(qū)內(nèi)用戶交互的積極性,增強用戶粘性。
在得到各指標權(quán)重后依據(jù)式(5)得到用戶影響力值Ii,即用戶屬性權(quán)重wj,同時依據(jù)式(3)通過Java程序編寫計算這688名用戶的PageRank特征值,如表8所示。
3.2.3用戶綜合影響力排名
本節(jié)對3.2.1及3.2.2中得到的指標數(shù)據(jù)Min-Max標準化處理后,通過節(jié)點影響力指數(shù)OLEI式(7)得到用戶綜合排名,如表9所示,并根據(jù)結(jié)果選取排名前12%的87名用戶作為虛擬學(xué)術(shù)社區(qū)內(nèi)的核心用戶。
3.3核心用戶興趣群組識別
對識別出的87名核心用戶近5年內(nèi)的5 233條博文進行處理,科學(xué)網(wǎng)作為一個專業(yè)的科研知識交流社區(qū),其中用戶行為統(tǒng)稱為知識共享行為,所涉及的內(nèi)容多與其研究領(lǐng)域或當(dāng)前關(guān)注信息相關(guān),該社區(qū)內(nèi)的用戶博文同樣隱含用戶的潛在興趣與未來關(guān)注方向。對此進行分析將有助于發(fā)掘相同興趣愛好的用戶群組,以便更好地提供知識推薦服務(wù)。部分核心用戶博文數(shù)據(jù)如表10所示。
本研究使用Python中的PANDAS庫,結(jié)合停用詞表與詞典,對博文進行分詞。得到基于用戶博文的分詞結(jié)果,利用SKLEARN庫進行LDA主題挖掘訓(xùn)練,由式(8)和式(9)計算困惑度得到最優(yōu)主題數(shù)。訓(xùn)練過程中發(fā)現(xiàn),當(dāng)主題數(shù)K=5時,困惑度較低,由此得到最終的5個主題,如表11所示。可以看到在“科學(xué)網(wǎng)一管理科學(xué)”領(lǐng)域中,用戶所關(guān)注的主題大致可以分為5個方面:學(xué)者交流、科技管理、數(shù)據(jù)挖掘、學(xué)術(shù)論文以及圖書情報,并且主題分類得到的結(jié)果更為專業(yè)且聚焦,科技管理主題一特征詞包含企業(yè)、政策、市場和數(shù)字化等,緊跟當(dāng)前數(shù)字企業(yè)的最新動態(tài)方向,數(shù)據(jù)挖掘主題一特征詞包含機器學(xué)習(xí)、算法、人工智能、算法優(yōu)化等,聚焦于當(dāng)前算法的改進與優(yōu)化等方面,均與當(dāng)前該領(lǐng)域的關(guān)注點息息相關(guān)。
進一步分析用戶對不同主題的偏好程度,遍歷所有用戶與相應(yīng)文本,建立用戶一文檔映射表,其中部分映射關(guān)系如表12所示。用戶編號即用戶ID,文檔編號則是對所有用戶博文的排列順序。
基于用戶一文檔編碼以及主題一特征分布,利用式(10)通過Gibbs采樣構(gòu)建用戶—主題概率映射表,如表13所示,可以直觀得到在主題確定的情況下,不同用戶對各主題的偏好概率值,能夠大致得到用戶所屬的主題。
為準確識別核心用戶所屬的興趣群組,本研究采用Hellinger距離算法,通過式(11)和式(12)計算不同用戶間的文本語義相似度,分析用戶所屬的群組及所屬的偏好程度,得到群組劃分,結(jié)果如表14所示??梢园l(fā)現(xiàn),ID為583、3075、39723的用戶偏好程度分別與科技管理、數(shù)據(jù)挖掘和圖書情報的主題更為接近,與用戶583興趣相似的有用戶42818、38036、53483等。
3.4群組興趣漂移模型構(gòu)建
基于核心用戶群組識別的結(jié)果,為探究群組興趣漂移特征,本文結(jié)合滑動時間窗口法進行研究,以180天為固定時間窗口處理數(shù)據(jù)。隨機選取Croup3作為樣本進行分析,將興趣數(shù)定為5個,通過主題提取得到2021年8月-2022年7月這4個時間窗口下的群組興趣,表15展示了Group3在不同時間窗口下各主題—特征詞分布。
經(jīng)過訓(xùn)練得到用戶歸屬各個偏好主題的概率,通過式(13)對群組內(nèi)用戶偏好進行概率融合,得到群組興趣特征表示。以Tl時間窗口下Group3用戶偏好融合為群組偏好的過程為例,結(jié)果如表16所示,最終得到Croup3分別在4個連續(xù)時間窗口下融合后的興趣偏好特征向量,如表17所示。
根據(jù)前文構(gòu)建的興趣漂移發(fā)現(xiàn)算法,對選取的Croup3實證數(shù)據(jù)進行分析,通過式(14)計算得到T1時間窗下的5個初始興趣值及它們在連續(xù)時間窗口下的興趣衰減結(jié)果Wt,g,u如表18所示,可以看到隨著時間窗口的移動,對應(yīng)的興趣度在逐漸降低,這一結(jié)果符合人們的遺忘規(guī)律。同時,根據(jù)實證數(shù)據(jù)的特征,將判斷興趣是否發(fā)生漂移的閾值Rt,g,u設(shè)為0.2,即如果計算得出的興趣衰減結(jié)果小于0.2,則該興趣值在當(dāng)前時間窗口下處于較低狀態(tài),將被新的興趣所替代。
依據(jù)表14中T2時間窗下的興趣特征通過式(15)和式(16)計算Group3對5個初始興趣在T2時間窗口下的興趣衰減情況,如表19所示。從中可以看出,初始狀態(tài)下的興趣值Rt,g,u均出現(xiàn)衰減,但“智能控制科學(xué)”和“應(yīng)急管理”的興趣值仍處于一定水平,其余3個的衰減結(jié)果均低于本文設(shè)置的閾值0.2,將被替代。為了補充當(dāng)前時刻下產(chǎn)生的新興趣,分別計算T2窗口下的興趣與Tl窗口下5個興趣的相似度之和的均值,選擇結(jié)果最大的前3個興趣予以保留,作為T2時間窗下的興趣漂移結(jié)果,即“智能控制科學(xué)”“應(yīng)急管理”“數(shù)字化服務(wù)系統(tǒng)”“圖像神經(jīng)網(wǎng)絡(luò)”“系統(tǒng)仿真建?!?。在后續(xù)時間窗口下,對用戶的興趣漂移發(fā)現(xiàn)示意圖如圖3所示,其最終結(jié)果如表20所示。
3.5融合多維特征與興趣漂移的群組推薦
本文選取2022年8月—10月Group3群組中的用戶博文數(shù)據(jù)作為測試集,用以判斷群組興趣漂移過程模型的優(yōu)劣。通過興趣漂移模型可以得到在下一個時間窗口的漂移結(jié)果為:智能控制科學(xué)、數(shù)字化服務(wù)系統(tǒng)、圖像神經(jīng)網(wǎng)絡(luò)、系統(tǒng)仿真建模和人工智能決策,將其與下一時間窗中真實數(shù)據(jù)集的各個主題作對比,分別為平行智能與元宇宙、網(wǎng)絡(luò)合作機制、視頻文本主題分析、深度學(xué)習(xí)模型以及人工智能決策模型,計算語義相似度作為判斷依據(jù),可以使其預(yù)測準確率達到80%,且大多圍繞人工智能、深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等領(lǐng)域,與實際情況相符,由此可以得出本文提出的群組興趣漂移模型較為合理,且預(yù)測準確率較高。
同時對2017—2022年近5年的核心用戶博文數(shù)據(jù)隨機劃分為80%的訓(xùn)練集與20%的測試集,采取準確率(Precision)和均方根誤差(RMSE)用以評價群組推薦的效果。準確率是評價模型優(yōu)劣的重要指標,表示預(yù)測出的興趣主題與實際的興趣主題有多少是相符的,準確率的計算式(18)如下:
式中,Precision指推薦結(jié)果的準確率,R(g)是根據(jù)群組在訓(xùn)練集中的行為為群組推薦的列表,而T(g)是群組在測試集上的行為列表。
均方根誤差(RMSE)是計算預(yù)測內(nèi)容與真實內(nèi)容之間的偏差,該值越低,說明預(yù)測準確度越高,反之則說明推薦效果不佳,計算式(19)如下:
實驗1:群組數(shù)對推薦效果的影響
群組推薦算法的推薦基本單位是用戶群組,群組偏好源于組內(nèi)每名成員,因此群組規(guī)模數(shù)將對群組偏好的融合結(jié)果產(chǎn)生關(guān)鍵性的影響,為探究群組數(shù)量對推薦算法準確度的影響,實驗對比了本文提出的融合多維特征與興趣漂移的群組推薦模型在不同的群組數(shù)目下的推薦準確度,如圖4所示。
從中觀察群組數(shù)量對推薦效果的影響,可以看到隨著群組數(shù)量的增多,即群組規(guī)模的減少,算法準確度在不斷提高,當(dāng)組內(nèi)用戶數(shù)量不斷減少時,對群組的推薦可以視為對個體用戶進行推薦,組內(nèi)差異較小,融合后的群組偏好更接近組內(nèi)用戶真實偏好,故推薦效果好。但進行群組推薦時,組數(shù)劃分也不宜過小,不僅會失去劃分群組的意義,還會影響整體群組推薦效果;另外,選取合適的群組數(shù)目,將有助于推薦算法準確性的提高。
實驗2:不同推薦算法的對比實驗
為了進一步分析所融合的各因素對本文模型的影響,在數(shù)據(jù)集上進行消融對比實驗,將消融模型分為5組,第一組模型為傳統(tǒng)的協(xié)同過濾群推薦算法模型(CFGRA),第二組模型為僅考慮多維特征對核心用戶進行協(xié)同過濾群組推薦算法(CFGRA-MCU),第三組模型為僅考慮群組興趣偏好的協(xié)同過濾群組推薦算法(CFCRA-UIP),第四組模型為融合多維特征與考慮群組興趣偏好的協(xié)同過濾群推薦算法(CFGRA-MCU-UIP),第五組表示本文所提出的模型(CFGRA-MCU-UID)。實驗選擇群組數(shù)K=20,近鄰群組數(shù)在4-16之間,分別對這5種消融模型在Precision和RMSE下進行對比實驗,結(jié)果如圖5與圖6所示。
在逐步融合各因素的推薦算法對比實驗中可以看出隨著近鄰數(shù)K的增加,二者的值均逐漸降低并趨于穩(wěn)定,并且隨著算法中加入因素的增多,消融模型的整體推薦效能不斷提高且均優(yōu)于不考慮融合任何因素的傳統(tǒng)群組推薦模型(CFGRA)。在只考慮單一因素的模型算法中,推薦性能得到一定的提升但仍有待提高。由此在所有指標測試中,本文提出的模型效果最好,說明該算法模型可以提高推薦性能,很好地預(yù)估群組中用戶的興趣變化,產(chǎn)生更好的推薦結(jié)果。
4結(jié)語
本文首先從網(wǎng)絡(luò)傳播維度和網(wǎng)絡(luò)結(jié)構(gòu)維度出發(fā),基于信息熵相關(guān)理論結(jié)合點度中心性、接近中心性、中介中心性和引入屬性特征的PageRank值4個指標,借鑒OLEI指數(shù)融合多維特征數(shù)據(jù)綜合識別核心用戶;其次利用LDA模型、Gibbs采樣和Hellinger距離對核心用戶潛在群組聚類,得到群組劃分;最后挖掘連續(xù)時間窗口下群組動態(tài)興趣漂移規(guī)律,將群組興趣變化引入?yún)f(xié)同過濾群組推薦算法中進行推薦。通過采集“科學(xué)網(wǎng)”社區(qū)內(nèi)部分用戶信息并使用Python、Java程序進行模擬,以Precision和RMSE作為檢驗標準,發(fā)現(xiàn)該模型可以準確識別核心用戶,并且能夠較好地反映群組用戶興趣漂移過程,同時,對比傳統(tǒng)的群組協(xié)同過濾法及僅考慮單一因素的推薦算法,本文提出的算法準確率更高,且推薦準確度與群組數(shù)量呈正相關(guān),為后續(xù)研究確定最優(yōu)群組數(shù)提供依據(jù)。綜上所述,融合多維特征與興趣漂移的虛擬學(xué)術(shù)社區(qū)群推薦模型可以有效解決虛擬學(xué)術(shù)社區(qū)中知識推薦效率不佳的問題,進而帶來服務(wù)方式的創(chuàng)新,還可以促進高效的知識資源整合,進一步提升對核心用戶的知識服務(wù)質(zhì)量,同時彌補群組協(xié)同過濾算法中忽略群組興趣漂移帶來的缺陷,促進社區(qū)內(nèi)知識共享與流轉(zhuǎn)效率,實現(xiàn)社區(qū)的高質(zhì)量發(fā)展。