張興宇
(淮南職業(yè)技術(shù)學(xué)院, 安徽 淮南 232001)
隨著社交網(wǎng)絡(luò)的迅速發(fā)展,微博作為一種重要的社交媒體平臺,已成為人們獲取信息、分享觀點和交流互動的重要途徑。然而,微博平臺上信息的海量和多樣性也給用戶帶來了挑戰(zhàn),如何從眾多的微博中篩選出用戶感興趣的內(nèi)容,成為了亟待解決的問題。推薦系統(tǒng)作為一種有效的信息過濾和個性化服務(wù)技術(shù),已成為改善用戶體驗、提升平臺活躍度的重要手段。
在過去的幾年里,推薦系統(tǒng)的研究取得了長足的進展。協(xié)同過濾、基于內(nèi)容的推薦以及深度學(xué)習(xí)等技術(shù)被廣泛應(yīng)用于推薦系統(tǒng)中,取得了一定的成果。然而,針對微博這樣特殊的社交媒體平臺,傳統(tǒng)的推薦算法在面對一些挑戰(zhàn)時仍然存在一定的局限性。
首先,微博的內(nèi)容呈現(xiàn)高度的實時性和時效性,用戶感興趣的話題可能發(fā)生改變。傳統(tǒng)算法往往無法有效地捕捉到這種動態(tài)變化,導(dǎo)致推薦結(jié)果落后于用戶興趣的實時變化。其次,微博內(nèi)容的特點在于信息短小、碎片化,很多內(nèi)容并沒有明確的關(guān)鍵詞或標簽。這給推薦算法帶來了語義理解和推薦準確度的挑戰(zhàn)。再者,微博平臺上用戶之間的社交關(guān)系復(fù)雜多樣,用戶的興趣和行為受到多個因素的影響,包括關(guān)注的好友、話題、地理位置等。傳統(tǒng)的推薦算法往往未能充分利用這些社交關(guān)系信息,影響了推薦效果的精準性。
傳統(tǒng)的協(xié)同過濾算法雖然廣泛應(yīng)用于各種推薦系統(tǒng)中,但也存在一些缺點和局限性,這可能對推薦的個性化和多樣性產(chǎn)生重要影響。首先,數(shù)據(jù)稀疏性問題。 在大多數(shù)推薦系統(tǒng)中,用戶-物品評分矩陣是非常稀疏的,即大部分用戶只評分了少數(shù)物品。這導(dǎo)致很難找到足夠數(shù)量的相似用戶或物品,從而影響了推薦的準確性和覆蓋度。其次,冷啟動問題[1]。當推薦系統(tǒng)面對新用戶或新物品時,由于缺乏歷史行為數(shù)據(jù),傳統(tǒng)的協(xié)同過濾算法很難準確推薦給這些用戶或物品。第三,長尾物品問題[2]。在真實世界的推薦系統(tǒng)中,有很多物品被稱為“長尾物品”,即它們受歡迎程度較低,用戶評分較少。傳統(tǒng)的協(xié)同過濾算法往往對這些長尾物品推薦效果較差,因為缺乏足夠的相似性信息。最后,靈活性限制。傳統(tǒng)協(xié)同過濾算法主要依賴于用戶行為數(shù)據(jù)或物品特征信息,而很少考慮其他因素如時間、地理位置等。
協(xié)同過濾是一種常用的推薦算法,它屬于協(xié)作式過濾技術(shù)的一種[3]。協(xié)同過濾算法主要用于個性化推薦系統(tǒng),旨在預(yù)測用戶對未知物品的喜好或評分,并根據(jù)預(yù)測結(jié)果向用戶推薦他們可能感興趣的物品。協(xié)同過濾算法基于用戶行為數(shù)據(jù)或物品特征數(shù)據(jù)進行推薦。其核心思想是利用用戶——物品之間的相互作用,找到用戶之間或物品之間的相似性,從而推薦給用戶他們可能感興趣的物品。該算法的核心優(yōu)勢在于它不需要對用戶和物品進行顯式的特征工程,而是從用戶的歷史行為數(shù)據(jù)中學(xué)習(xí)到用戶興趣和物品特性。在基于用戶的協(xié)同過濾中,首先構(gòu)建一個用戶——物品評分矩陣,其中每個元素表示用戶對物品的評分或行為(如購買、點擊等)。然后,根據(jù)用戶之間的相似度,找到興趣最相近的用戶。最后,通過這些相似用戶對未評分物品的評分進行加權(quán)平均或其他預(yù)測方法,為目標用戶生成推薦列表。協(xié)同過濾算法簡單直觀,適用于推薦系統(tǒng)中的冷啟動問題,但也存在一些限制,比如稀疏性問題、冷啟動問題、可擴展性等[4]。因此,研究者們在實踐中不斷改進和優(yōu)化協(xié)同過濾算法,同時結(jié)合其他技術(shù)如深度學(xué)習(xí)等,以提高推薦系統(tǒng)的性能和用戶體驗。
TF-IDF(Term Frequency-Inverse Document Frequency)是一種常用的文本特征提取方法,廣泛應(yīng)用于信息檢索、文本挖掘和自然語言處理等領(lǐng)域,它用于衡量一次詞語在文本中的重要程度[5]。其中,TF(Term Frequency)指的是某個詞語在文檔中出現(xiàn)的頻率,表示一個詞在單個文檔中的重要性。
IDF(Inverse Document Frequency)指的是逆文檔頻率,衡量了一個詞語在整個文檔集合中的普遍重要性。
TF-IDF的計算方式為將TF與IDF相乘,得到一個詞語在文檔中的TF-IDF值,TF-IDF值高表示該詞在該文檔中頻繁出現(xiàn),且在整個文檔集合中較為罕見,因此具有較高的區(qū)分度和重要性。TF-IDF算法的優(yōu)點在于簡單有效,不需要復(fù)雜的訓(xùn)練過程,直接從文本中提取重要特征。它常被用于文本相似度計算、關(guān)鍵詞提取、文本分類、信息檢索等任務(wù)。在信息檢索領(lǐng)域,TF-IDF算法常用于對用戶輸入的關(guān)鍵詞進行加權(quán)排序,從而返回相關(guān)度較高的文檔。
推薦系統(tǒng)中的相似度計算是一個關(guān)鍵步驟,用于衡量用戶、物品或其他實體之間的相似性[6]。相似度計算在協(xié)同過濾、內(nèi)容推薦以及混合推薦等推薦算法中起著重要作用。在協(xié)同過濾中,相似度計算用于尋找與目標用戶興趣相似的其他用戶或與目標物品相似的其他物品。常用度量相似度的方法有:余弦相似度、皮爾遜相關(guān)系數(shù)、歐氏距離等。余弦相似度是基于用戶或物品的特征向量,衡量它們之間的夾角,值越接近1表示越相似。皮爾遜相關(guān)系數(shù)則考慮了用戶或物品評分的均值,用于消除用戶之間評分尺度的不同,值越接近1表示越相關(guān)。在內(nèi)容推薦中,相似度計算用于衡量不同物品之間的相似性,通常是通過比較它們的特征向量或文本表示。對于文本數(shù)據(jù),常用的相似度度量方法包括TF-IDF算法、Word2Vec等,它們可以計算文本之間的相似程度,從而為用戶推薦具有相似內(nèi)容的物品。余弦相似度計算算法如下:
通過爬取收集用戶微博的歷史數(shù)據(jù)可以獲取用戶的話題偏好,在對用戶的微博數(shù)據(jù)進行數(shù)據(jù)分析的時候,會發(fā)現(xiàn)微博本文用包含重復(fù)高頻的無意義詞和各種符號,例如:“的”、等,需要對這些無意義的詞進行過濾,留下有意義的微博特征詞。第一,微博特征詞向量(Weibo feature word Vector)。定義微博特征詞向量(Weibo feature word Vector)來表示微博話題的數(shù)據(jù)特征,使用TF-IDF公式來計算每一個特征詞的值,當大于一定的閾值,特征詞保留并將計算結(jié)果加入微博特征詞向量。WFWV={ω1,ω2,ω3,…ωm} 。計算微博特征詞向量里每一項,使用TF-IDF公式進行計算。話題a中第i個詞的TF-IDF值為:
第二,用戶興趣度向量(User interest vector)。為了表征微博話題特征詞在推薦用戶歷史數(shù)據(jù)的偏好程度,使用用戶興趣度系數(shù)來進行衡量。下面為用戶興趣度系數(shù)的公式:
UIV={γ1,γ2,γ3,…,γm}
式中N表示特征詞為用戶微博文本中出現(xiàn)的個數(shù),根據(jù)數(shù)學(xué)公式用戶興趣度系數(shù)的取值范圍在區(qū)間(0.5,1)中。
融合協(xié)同推薦和用戶興趣度的微博混合推薦算法
輸入:微博話題j
輸出:混合推薦話題集合RX
1:計算Wi,a;
2:if (Wi,a>K1);
3:將該話題加入推薦話題集合Rc;
4:else刪除該話題;
5:end if;
6:for(i=1;i 7:計算 NER oftopicc的Wi,a; 8:if (Wi,a>K2) 10:else 刪除該特征詞; 11:end if; 12:}; 13:end for; 14:for(i=0;i 15:計算NER oftopicc對于用戶興趣度系數(shù)γi 16:if(γi>K3) 18:else刪除該系數(shù); 19:end if; 20:}; 21:end for; 22: for( i = 1; i <=n; i++ ) 25:將話題加入待推薦話題集合Rx; 26:else刪除該話題;} 27:end if; 28:將Rx中內(nèi)容推薦給用戶; 構(gòu)建融合協(xié)同推薦和用戶興趣度的微博混合推薦算法的目的,旨在克服傳統(tǒng)推薦算法的局限性,提高微博推薦的準確性和多樣性。對比融合算法與傳統(tǒng)的單一推薦算法,改進算法在微博推薦效果表現(xiàn)較好。第一,提高了推薦準確性。通過融合協(xié)同推薦和用戶興趣度,能夠更全面地挖掘用戶的興趣偏好和社交關(guān)系,從而生成更準確的推薦結(jié)果。在實驗中,混合推薦算法的準確率明顯高于傳統(tǒng)的協(xié)同推薦算法。這表明混合推薦算法能夠更好地理解用戶的需求和興趣,提供更符合用戶實際喜好的推薦內(nèi)容。第二,擴大了推薦覆蓋率。傳統(tǒng)的協(xié)同推薦算法往往存在冷啟動問題,即對于新用戶或新微博的推薦效果較差。而混合推薦算法通過結(jié)合用戶興趣度向量,能夠更好地處理冷啟動問題,擴大推薦的覆蓋范圍。對比發(fā)現(xiàn),混合推薦算法的覆蓋率明顯高于傳統(tǒng)算法,為新用戶提供了更多的推薦話題。第三,增加了推薦多樣性。用戶在社交網(wǎng)絡(luò)中具有多樣的興趣和關(guān)系,因此推薦算法應(yīng)該能夠提供豐富多樣的推薦內(nèi)容。混合推薦算法通過綜合用戶的興趣偏好,能夠為用戶提供更多樣化的推薦結(jié)果。對比發(fā)現(xiàn),混合推薦算法的推薦內(nèi)容更具多樣性,用戶能夠看到更豐富的微博內(nèi)容,增強了用戶的滿意度和粘性。第四,改進了算法的適用性。融合協(xié)同推薦和用戶興趣度的混合算法在不同場景下都表現(xiàn)出了良好的適用性。不論是針對新用戶、活躍用戶還是長尾用戶,混合推薦算法都能夠提供個性化、準確的推薦服務(wù)。第五,加強了算法的實時性。在微博平臺上,用戶產(chǎn)生的數(shù)據(jù)和微博內(nèi)容更新非常迅速,因此推薦算法的實時性是至關(guān)重要的。對混合推薦算法進行了實時性測試,結(jié)果顯示混合推薦算法能夠在較短的時間內(nèi)為用戶生成推薦結(jié)果,滿足了實時推薦的要求。 融合協(xié)同推薦和用戶興趣度的混合推薦算法在微博平臺上,為用戶提供了更個性化、多樣化的內(nèi)容推薦服務(wù),對于推薦系統(tǒng)在利用協(xié)同推薦和用戶興趣度方面具有一定的創(chuàng)新和實踐價值,為推薦系統(tǒng)的優(yōu)化和發(fā)展提供了有益的啟示。未來的研究可以進一步探索其他融合方法和深度學(xué)習(xí)技術(shù),以進一步提高推薦系統(tǒng)的性能、改善用戶體驗。 淮南職業(yè)技術(shù)學(xué)院學(xué)報2023年4期四、混合推薦算法改進效果
五、結(jié)語
——以安徽省為例
——以淮南職業(yè)技術(shù)學(xué)院生物化學(xué)課程為例
——以“基礎(chǔ)會計”為例
——以安徽省淮南市為例
——以山西省臨汾市為例
——以揚州市為例