陳淑婷+胡美慧+郭江濤
摘要:隨著全球信息總量的爆炸式增長,信息超載問題無法避免且日趨嚴重化。個性化推薦系統是當前解決信息過載問題的有效技術。下文從概念層次樹入手,對基于概念層次樹的個性化推薦算法的整體流程進行了詳細分析和介紹,旨在為相關人員提供參考。
關鍵詞:概念層次樹;個性化推薦;算法
引言
在目前的電子商務中,產品信息呈指數級增長,個性化推薦技術應運而生,它通過分析消費者的歷史交易記錄,獲取消費者的興趣偏好,并推薦產品或服務,節(jié)省了消費者尋找合適商品的時間。在當前的個性化推薦系統中,協同過濾及其改進算法被大多數電子商務網站所采用?;诟拍顚哟螛涞膫€性化推薦算法就是傳統協同過濾經過改進后的算法之一,大大提升了個性化推薦的準確度,對個性化推薦技術的發(fā)展具有非常重要的意義。
1基于概念層次樹的個性推薦概述
概念層次樹是將數據庫中記錄的屬性字段根據一定的抽象程度進行歸類合并而形成的層次結構。面向屬性歸納方法利用概念層次技術進行概念提升,得到高度概括的表,進而將它轉換成用戶的特征需求,為用戶個性化服務提供依據。概念層次結構是表示抽象知識的重要手段,把原始數據泛化到較高層次,實現在不同概念層次上對數據的抽象。面向屬性歸納方法中用來進行概念泛化的技術稱為概念層次技術,用概念層次樹來表示用于泛化的背景知識,實現具體與抽象概念之間的轉化。
2概念層次樹的構建
根據關系數據庫中的數據(用戶年齡、受教育程度、收入、喜好等數據),為用戶的每個屬性構建概念層次樹,使具體的屬性值概化為抽象的知識并歸類合并,實現在不同概念層次上對數據的抽象。概念層次樹是通過樹結構的形式,將具體的屬性值分組,然后按照背景知識逐級提升概念。每個獨立節(jié)點表示一個基本概念,它可能是一個屬性的簡單組,也可能是若干屬性形成的復合組。概念層次樹的節(jié)點可以是同一屬性的不同抽象度的匯聚點,也可以是由一個概念包含的多個子概念,網站中用戶的性別、年齡、職業(yè)、教育程度、收入、喜歡的書等基本信息都不同程度上對用戶的興趣愛好產生一定的影響(具體概念層次樹結構圖如圖1-圖3所示)。所以需要把這些基本信息的概念層次樹構建出來,其中用戶興趣愛好這一基本信息是兩層的概念層次樹,與其職業(yè)相同。
3挖掘用戶喜歡的數據
3.1劃分項目種類子集
從概念層次樹中的結點屬性分析,根的各直接子樹包含的項目種類的屬性相對獨立,相互間關聯最小,根(用戶的興趣愛好,如喜好的電影、書籍等)的子樹——即用戶興趣愛好的分類(如電影分為ComeXy類電影、Aiction類電影、Sci-Fi類電影),它們各自包含的子類相互間差異都較大。因此對項目種類集合作如下劃分,即X={Root,Xn,X2...Xn}。Root為T的根結點,X(h=1,2,3...n)為Root的子樹Th中各結點(項目種類)組成的集合,n為Root的子樹棵數。
3.2尋找喜好種類的鄰居
本文需要判定用戶喜好的項目種類子集。對于用戶關注較少或從未關注過的項目種類,本算法將其視為用戶“不感興趣的種類”。根據實驗經驗值,若(訪問種類子集中的項目數÷訪問項目總數)<10%則視該項目種類子集為用戶不喜好的項目種類,算法將不再在其上尋找鄰居進行推薦,以節(jié)省系統的資源。判定用戶喜好的項目種類后,在各喜好的項目種類子集Xn上,依次計算用戶Ai和用戶Ax的在每個集合中的PeArson相關度,其中,Fi和Fk為用戶Ai和Ax對項目種類的評分,V1、V2是用戶Ai、B對X中所有項目種類的平均評分,根據計算出的PeAirson相關度,選擇與當前用戶B最相似的K個用戶作為用戶Ai在項目種類子集合X上的鄰居集。重復以上運算,找出當前用戶Ai在所有喜好的項目種類子集上的鄰居集。
4產生推薦
4.1評估候選項目
在喜好的項目種類子集Xn上,選取屬于該集合中的項目種類、被當前用戶Ai的鄰居所喜好、且未被B訪問過的項目,構成當前用戶Ai的候選推薦項目集,即算每個候選項目受當前用戶Ai關注的程度,用權重來表示。計算權重時,重點考慮的因素如下:(1)喜好bx的鄰居B與當前用戶Ai的相似程度。B的偏好與Ai的越相似,B的推薦可信度就越高;(2)B對bx的喜好程度。B對bx越喜好,bx所獲得的推薦權重就越高。在計算B對bx的喜好程度時可以進行如下處理:假定一個虛擬用戶C,R={bx},則B對bx的喜好程度=simn(B,C)。當B訪問過較多與bx同類的項目時,B對bx表現出較高的喜好程度。根據以上因素,定義候選項目權重計算公式,其中,Ai(bx)為用戶Ai的喜好bx的鄰居組成的集合;bx為其項目種類屬于Xn的項目。
4.2產生最終推薦
評估所有項目種類屬于用戶喜好項目種類子集的侯選項目后,按權重對bx進行降序排列,得到Xn上的候選項目的推薦列表。根據當前用戶Ai對不同項目種類的偏好,計算各喜好項目種類的侯選推薦項在最終推薦列表中所占比例,即numx=N*(Rix/Ri)其中,凡為喜好種類子集Xn上Ai訪問項目組成的集合;N即為產生的top-N推薦的推薦項目數。從各Ph中抽取numih個項目,將這些項目按用戶喜好程度的具體數值降序排列,形成對用戶Ai的最終top-N推薦Py={b1,b2...bx}。
結束語
基于概念層次樹的個性化推薦算法,相較于傳統協同過濾算法在準確性方面有了顯著提升,在推薦的多樣性上也有了明顯的改善。為了能夠使個性化推薦更加精準,滿足客戶的需求,實現精準營銷,相關人員可以將該算法部署到實際的推薦系統中,通過在線測試的方法獲取用戶對推薦數據的準確性和多樣性的滿意程度,進一步對當前的個性化推薦算法進行改進。
參考文獻:
[1]何佶星陳汶濱牟斌皓.流行度劃分結合平均偏好權重的協同過濾個性化推薦算法[J/OL].計算機科學,2018,(S1):50.
[2]陳潔敏,湯庸,李建國,蔡奕彬.個性化推薦算法研究[J].華南師范大學學報(自然科學版),2014,46(05):8-15.
[3]關遠.推薦網絡分析及個性化推薦算法研究[X].電子科技大學,2014.endprint