李佳穎,劉 靜
(1.廣州南洋理工職業(yè)學院 經(jīng)濟管理學院,廣東 廣州 510900;2.喀什大學 計算機科學與技術(shù)學院,新疆 喀什 844000)
跨境電商作為進出口貿(mào)易的重要組成部分,該行業(yè)的持續(xù)發(fā)展直接影響我國整體經(jīng)濟增速。[1]近年來,關(guān)于跨境電商產(chǎn)品采購預測、用戶分析、產(chǎn)品推薦等成為研究熱點,跨境電商產(chǎn)品推薦作為促進跨境電商產(chǎn)業(yè)高效發(fā)展的重要手段,在跨境電商研究中占據(jù)重要地位。[2]跨境電商平臺由于用戶文化差異、語言文本多樣化、用戶需求變化速度快等特點,要實現(xiàn)電商產(chǎn)品的高效精準推薦單靠一種策略很難完成,混合式協(xié)同推薦具備更穩(wěn)定的電商產(chǎn)品推薦性能。[3]
當前,關(guān)于電商產(chǎn)品推薦的研究較多,楊單等借助大數(shù)據(jù)分析技術(shù)進行用戶和商品的特征分析,以找到用戶和商品特征,從而為用戶定制化推薦產(chǎn)品;[4]張瑾等將異質(zhì)圖運用于用戶和產(chǎn)品的關(guān)聯(lián)分析,挖掘兩者共有特征然后實現(xiàn)產(chǎn)品推薦,兩者均采用單一策略對跨境電商產(chǎn)品推薦,其推薦性能均有一定提升空間。[5]本文將LFM與K-means算法結(jié)合,實現(xiàn)混合式協(xié)同推薦,有效提升推薦準確度,并借助Spark運算優(yōu)勢,保證混合式系統(tǒng)推薦的高效執(zhí)行。
電商產(chǎn)品推薦的實質(zhì)是找到用戶和商品屬性的內(nèi)在相似度,根據(jù)用戶和商品多維特征間的差異,搜索與用戶特征差異較小的商品,并推薦給用戶。
在電商產(chǎn)品推薦過程中,有兩個因素直接影響推薦的精準度,一方面,參與比較的用戶和商品特征,另一方面,特征比較算法。根據(jù)跨境電商平臺的用戶瀏覽及購買歷史,得到用戶和商品次數(shù)矩陣,通過矩陣可以為用戶推薦曾經(jīng)購買過的歷史產(chǎn)品。但若要為用戶推薦新產(chǎn)品,還需要根據(jù)用戶和商品的特征差異值,設參與特征對比的組數(shù)為N,每組特征差異函數(shù)為Si,則商品推薦的優(yōu)化函數(shù)為:
(1)
式(1)中ωi為權(quán)重。根據(jù)商品推薦優(yōu)化函數(shù),采用合適算法不斷求解特征差異最小值,選擇與用戶差異最小的商品作為候選推薦。
(2)
式(2)中ru1,p和ru2,p分別為u1和u2對第p個商品的評分。
假設跨境電商平臺的m個用戶為U={u1,u2,u3,…um},n個商品為I={i1,i2,i3,…in},根據(jù)u1和u2用戶相似度,則可以計算任意用戶對商品的評分。其中用戶j對商品k的評分為:
(3)
遍歷該用戶對所有資源的評分值,選擇較高評分值作為候選推薦商品。
設用戶u對隱含特征k的關(guān)注度為Puk,商品i在隱含特征k的重要程度為Qki,那么用戶u對商品i的評分為[6]:
(4)
式(4)中K為參與運算的所有特征。Pu和Qi分別為用戶u和商品i針對于所有隱含特征的關(guān)注度和重要度矩陣集合。
(5)
損失函數(shù)為[7]:
(6)
對上式加入正則項:
(7)
分別對關(guān)注度和重要程度求導得:
(8)
(9)
根據(jù)求得結(jié)果,不斷更新關(guān)注度和重要程度,更新方法為[8]:
(10)
(11)
當獲得穩(wěn)定的Pu和Qi,則可以確定LFM模型。
設空間中兩點i和j之間距離Sij為[9]:
(12)
設包含n維屬性的中心點為xi(xi1,xi2,xi3,…,xin),那么某個非中心點xj(xj1,xj2,xj3,…,xjn)和xi距離為[10]:
(13)
對比dij與距離閾值,當dij小于閾值表示xj與xi屬于相同類別。ε表示xi與該類中其他點的誤差。
(14)
N(xi)的含義為N個點中去除了xi的其他點,限制條件是∑j,xj∈N(xi)Sijxj=1,Sij≥0 。
化簡公式(14)得[11]:
(15)
那么K-means的聚類轉(zhuǎn)化為求解公式(16)[12]:
minε
(16)
鯨群優(yōu)化算法(WOA)通過鯨魚在捕食過程中的位置變化來搜尋規(guī)定范圍內(nèi)的最優(yōu)解,通過不同鯨魚角色的運動特點來完成最佳適應度個體的選擇。WOA個體的位置更新方法是[13]:
(17)
(18)
(19)
(20)
鯨魚螺旋攻擊方法為:
(21)
其中b為常量,l為rand[-1,1]。
鯨群獲得食物坐標后,采用概率p決定是采用包圍捕食還是螺旋攻擊:
(22)
每次更新位置后,都計算當前個體的適應度值,輸出適應度最優(yōu)個體。
將LFM和WOA-K-means算法相結(jié)合,通過LFM評分函數(shù)獲得候選商品推薦序列,然后通過WOA-K-means聚類獲得與用戶同類別的商品。最后綜合兩種策略獲得的商品序列,則作為混合式協(xié)同推薦的商品。
Spark作為大規(guī)模并行運算的常用處理方式,能夠有效提高電商產(chǎn)品的推薦效率。在混合式系統(tǒng)推薦過程中,LFM的關(guān)注度矩陣和重要度矩陣運算,K-means的類別誤差最小化求解,以及WOA的運動位置迭代更新,都需要強大的運算能力和運算效率的支持。通過多機并行及RDD運算,[15]可以有效增強跨境電商產(chǎn)品的混合式協(xié)同推薦。同時Spark MLlib庫[16]集成了多種深度學習庫,這也為混合式協(xié)同推薦提供了便利。LFM和WOA-K-means運算的Spark部署方法如圖1所示。
圖1 基于Spark平臺的混合式推薦部署
為驗證LFM和WOA-K-means混合式協(xié)同商品推薦算法的性能,分別對四家跨境電商平臺進行仿真分析,數(shù)據(jù)集如表1所示。首先,驗證LFM算法、K-means算法、LFM和K-means算法、LFM和WOA-K-means算法分別對四個跨境電商平臺的商品推薦性能,然后分別驗證單機和Spark平臺下的商品推薦效率。
表1 跨境電商平臺集
采用LFM和WOA-K-means 2種算法進行跨境電商產(chǎn)品的協(xié)同推薦,分別選擇不同的TOP推薦數(shù),統(tǒng)計其推薦指標如表2所示。
表2 LFM與WOA-K-means的協(xié)同推薦性能
從表2可知,采用LFM與WOA-K-means的協(xié)同跨境電商產(chǎn)品推薦中,三個推薦指標值隨著推薦商品數(shù)量的增多而增加。在推薦商品數(shù)量為TOP2時,其推薦的準確率等指標均在0.3左右,而當推薦數(shù)量上升至TOP10后,其跨境電商產(chǎn)品的推薦準確率均達到了0.83以上,而到達TOP15后,其產(chǎn)品推薦準確率達到了0.9以上。對于相同推薦商品數(shù),平臺C的推薦性能更優(yōu),這表明LFM與WOA-K-means協(xié)同推薦算法對平臺C的適用度最高。
采用單機進行LFM與WOA-K-means的混合式協(xié)同推薦,測試樣本數(shù)為2000,分別統(tǒng)計不同產(chǎn)品推薦數(shù)量下的推薦時間。
表3 LFM與WOA-K-means協(xié)同推薦時間
從表3可知,對相同平臺,其推薦TOP數(shù)量的改變對推薦時間影響較小,基本維持在90 s左右,這說明采用LFM與WOA-K-means的協(xié)同推薦,其算法穩(wěn)定時得到的推薦序列數(shù)與計算時間沒有較強的關(guān)聯(lián)。同時對比不同平臺發(fā)現(xiàn),在相同數(shù)量樣本的協(xié)同推薦中,電商平臺A和B的完成推薦耗時更少。
分別采用LFM算法、K-means算法、LFM和K-means算法、LFM和WOA-K-means算法進行跨境電商產(chǎn)品推薦,對比單一推薦和混合式協(xié)同推薦的性能差異。
圖2 LFM與WOA-K-means協(xié)同推薦準確率(TOP2)
圖3 LFM與WOA-K-means協(xié)同推薦準確率(TOP10)
圖4 LFM與WOA-K-means協(xié)同推薦準確率(TOP15)
從圖4可知,對相同的商品推薦數(shù)量,不同模型的推薦準確率存在較大差異。相比較而言,通過K-means的用戶和商品特征聚類得到的候選推薦序列并不是用戶期望得到推薦的商品,其推薦準確率均在0.35以下,而LFM挖掘用戶和商品特征語義得到的相似推薦準確率也不超過0.4,說明采用這兩種方法的獨立推薦其效果并不理想。而通過LFM和K-means協(xié)同完成推薦,其準確率均提升100%以上,再加入WOA算法對K-means優(yōu)化后,其推薦準確率值有了進一步提升。
對比不同推薦序列數(shù)量,在TOP2時,四種算法的電商產(chǎn)品推薦準確率均較低,這說明四種算法均不能實現(xiàn)電商產(chǎn)品的精準推薦。而當推薦序列達到TOP10以上后,協(xié)同推薦準確率上升明顯。
從四個跨境電商平臺中分別選擇不同數(shù)量的樣本構(gòu)成六個容量不同的數(shù)據(jù)集,分別是[S-100K,S-400K,S-1M,S-10M,S-100M,S-1G]。采用LFM與WOA-K-means協(xié)同推薦,計算單機和Spark模式下的推薦效率,Spark平臺包含三個節(jié)點,單機僅包含1節(jié)點。
圖5 單機和Spark的協(xié)同推薦效率
從圖5可知,對不同容量電商集,LFM與WOA-K-means協(xié)同推薦算法部署至單機與Spark平臺的推薦效率呈現(xiàn)不同結(jié)果。對于容量為100K和400K的樣本集,Spark的并行計算優(yōu)勢體現(xiàn)并不明顯,而當容量超過100MB時,Spark平臺的協(xié)同推薦相比于單機,其效率得到明顯提升。在容量為1GB時,單機需要400秒以上才能實現(xiàn)推薦序列生成,而Spark平臺僅需50多秒。
表4 不同算法的推薦效率
從表4可知,在樣本容量較小時,對于LFM算法,其單機推薦效率更高。因為采用Spark平臺節(jié)點間任務通信需要耗費時間,其他情況下,三種算法均在Spark平臺相比于單機更節(jié)省推薦時間。
采用LFM與WOA-K-means算法用于跨境電商產(chǎn)品的混合式協(xié)同推薦,可獲得較高跨境電商產(chǎn)品推薦準確度。并將LFM與WOA-K-means均部署至Spark平臺,提高了大規(guī)?;旌鲜絽f(xié)同推薦效率。