艾黎
〔摘 要〕淘寶網(wǎng)作為電子商務時代最大的網(wǎng)上零售平臺,為用戶提供越來越多的商品與服務的同時,也出現(xiàn)了信息過載等一系列問題。鑒于此,本文提出了基于商品屬性與用戶聚類的個性化服裝推薦方法,通過用戶個人信息與對商品的評價,計算用戶之間的相似度,進行聚類分析。與此同時,將商品化整為零,通過商品屬性來計算商品的相似度,得到top-N相似列表。以此,綜合商品與用戶兩者的權重值,實現(xiàn)為用戶提供個性化的商品推薦,解決用戶面對信息過載的難題,為用戶節(jié)省精力,提高用戶的購物體驗。針對某一淘寶網(wǎng)店鋪,本文提出了適合的混合推薦算法,并通過搜集實際數(shù)據(jù)進行了實證研究,對推薦結果進行準確性評價。
〔關鍵詞〕個性化;商品屬性;用戶聚類;混合推薦
DOI:10.3969/j.issn.1008-0821.2015.09.031
〔中圖分類號〕F71336 〔文獻標識碼〕A 〔文章編號〕1008-0821(2015)09-0165-06
〔Abstract〕As the largest online retail platform in the era of e-commerce,Taobao provides users with more and more goods and services,but it also has a series of problems such as information overload.In this view,the paper proposed a personalized clothing recommendation method based on commodities attributes and users clustering.According to users personal information and his or her comment of the commodity,the paper could calculate the similarities between users,then divide them into different clusters.Meanwhile,the paper described the commodity as a set of attributes and calculate similarities of the products.Then the paper got a list of top-N similar products.With the weights of commoditys similarities and user comments,it provided users with personalized commodity recommendations,solving the problem of information overload.Its aimed to save energy,improve the users shopping experience.Take the example of one Taobao shop,empirical research is carried out by collecting the actual data to evaluate the precision of hybrid recommendation algorithm.And the results were not bad.
〔Key words〕personalization;commodity attribute;user clustering;hybrid recommendation
隨著信息技術與互聯(lián)網(wǎng)規(guī)模的發(fā)展,中國網(wǎng)民數(shù)量急劇增加,截至2014年12月底,我國網(wǎng)民數(shù)量達到649個億[1]?;ヂ?lián)網(wǎng)的用戶基礎,給電子商務提供了發(fā)展的溫床。近10年來,電子商務呈現(xiàn)迅猛的發(fā)展態(tài)勢,中國即將進入全民網(wǎng)購的時代。根據(jù)艾瑞咨詢發(fā)布的網(wǎng)絡購物市場數(shù)據(jù)[2],2014年中國網(wǎng)絡購物市場交易規(guī)模達到28萬億,增長487%,占社會消費品零售總額的107%。但是,隨著越來越多的商家進入電子商務行業(yè),在線銷售市場更加的紛繁復雜。面對商品信息海洋,消費者在選購商品時需要采集、搜索大量的信息,才能做出最終的選擇。
信息過載問題使得消費者在進行網(wǎng)絡購物時,需要花費甚至多于在實體店購物的時間與精力,這在很大程度上將會打擊消費者的網(wǎng)購信心。為了節(jié)省消費者的購物精力,提高消費者的決策效率,電子商務網(wǎng)站的推薦系統(tǒng)應用而生。個性化推薦技術就是根據(jù)消費者的歷史行為數(shù)據(jù),預測消費者的興趣愛好,并向消費者推薦其可能感興趣的商品或服務,例如亞馬遜網(wǎng)站的書籍推薦系統(tǒng),蝦米網(wǎng)站的音樂推薦等。
作為亞洲最大的網(wǎng)絡零售商圈,截至2013年,淘寶網(wǎng)擁有近5億的注冊用戶數(shù),每天有超過6 000萬的固定訪客,每天同時在線商品數(shù)已經(jīng)超過了8億件,為消費者提供海量商品與服務的同時,也面臨著嚴重的信息過載問題。盡管,目前淘寶網(wǎng)也有實現(xiàn)簡單的個性化推薦的功能,不過更多的是為商家營銷服務。針對商品的個性化推薦問題,很多學者進行了研究,基于客戶聚類的商品推薦[3],根據(jù)客戶的瀏覽、點擊、收藏行為進行聚類,實現(xiàn)推薦;或是根據(jù)用戶對商品的評分矩陣,進行協(xié)同過濾推薦[4]。
1 研究現(xiàn)狀
個性化推薦是建立在海量數(shù)據(jù)挖掘基礎上的智能推薦平臺,以幫助電子商務網(wǎng)站為用戶提供個性化的購買決策支持與信息服務。一個完整的推薦系統(tǒng)主要包括3個模塊:用戶模型、推薦算法與推薦輸出[5]。其中,用戶模型,主要指通過收集用戶的各方面信息,如基本人口統(tǒng)計信息、行為信息,以提取出能夠描述用戶的屬性信息,并將用戶實體以結構化的形式表示出來。目前,用戶模型的表示技術主要包括:n維向量空間模型、神經(jīng)網(wǎng)絡、用戶-評分矩陣、案例、本體論5種形式[6]。endprint
根據(jù)國內(nèi)外的研究成果,推薦算法可以主要分為:基于內(nèi)容(Content-based,簡稱CB)、協(xié)同過濾(Collaborative Filtering,簡稱CF)和混合推薦[7]。
基于內(nèi)容的推薦算法,是信息資源領域的主要研究內(nèi)容。該算法通過分析資源或是商品的內(nèi)容屬性,計算商品、資源之間相似度。根據(jù)用戶過去選擇過的商品,從推薦商品中選擇屬性值相近的商品作為推薦結果。這一推薦技術首先分析并提取推薦對象中的內(nèi)容信息,建立推薦對象的檔案,和用戶模型中的偏好檔案進行匹配,相似度高的就可以作為推薦結果[8]。例如,蝦米音樂會根據(jù)用戶收聽過、收藏的音樂,分析出喜歡的音樂風格、類型、歌手等特征,再根據(jù)此推薦具有相同特征的音樂?;趦?nèi)容的推薦(CB)實現(xiàn)原理簡單、直觀,結果易于理解,不需要具備專業(yè)行業(yè)知識。而且,目前在信息研究領域,對文本的特征提取技術比較成熟,但是,對于互聯(lián)網(wǎng)時代涌現(xiàn)的各種多媒體信息,技術支持還有待提高。此外,基于內(nèi)容的推薦,只能根據(jù)用戶歷史偏好進行推薦,不能很好地發(fā)現(xiàn)用戶的新興趣。
相對來說,協(xié)同過濾算法是目前使用比較廣泛的新一代推薦技術。它基于用戶-評分矩陣來研究用戶的興趣模型:對同一項目評分相似的用戶,具有相類似的偏好。因此,對于任意一個用戶,首先可以根據(jù)其對項目的評分找到具有相似偏好的用戶。然后,根據(jù)相似用戶對其他項目的評分,預測該用戶對新項目的喜好程度,形成推薦結果。早在1992年,John Riedl和Paul Resnick開始創(chuàng)建基于協(xié)同過濾技術的新聞推薦系統(tǒng)GroupLens。該系統(tǒng)收集用戶對文章的評分,并預測用戶對其他文章的喜好程度。這是最早的自動化協(xié)同過濾系統(tǒng)推薦引擎之一。協(xié)同過濾(CF)算法能夠很好的應用于復雜、非結構化推薦對象,如電影、視頻等。而且,它并不依據(jù)推薦對象的內(nèi)容,推薦結果具有多樣性,能夠較好的挖掘出用戶的興趣動向[9]。
綜上所述,單個推薦算法都具有各自的優(yōu)點與局限,無論是基于內(nèi)容的推薦還是協(xié)同過濾都會存在冷啟動的問題。當有新用戶出現(xiàn)時,系統(tǒng)較難獲取用戶的偏好信息,也就無法為其提供精確的個性化推薦?;旌贤扑]算法在一定程度上能夠避免兩種算法的局限,最常使用的就是協(xié)同過濾與機器學習算法相結合。
由于商品種類的復雜性與非結構化,商品推薦存在各種適應性的問題,各大電子商務網(wǎng)站的商品推薦技術也不盡相同,更有很多學者對這一問題展開研究。商品推薦主要可以概括為兩大類:基于單一推薦算法或是推薦技術與數(shù)據(jù)挖掘技術的結合。C2C在線拍賣興起之時,李雪峰、劉魯?shù)忍岢龌趨f(xié)同過濾的拍賣商品推薦(2006)[10]。汲業(yè)、陳燕等引入知識工程的樹狀表示法,將商品推薦中的三要素轉(zhuǎn)化成描述樹進行表達,建立基于Prolog語言知識庫模型的個性化推薦(2010)[11]。溫廷新、唐小龍等提出基于商品內(nèi)容與基于用戶協(xié)同過濾的混合模式網(wǎng)絡超市商品推薦(2013)[12],其中商品的內(nèi)容特征提取太過寬泛,只有商品的外在屬性值如價格、重量、銷售量等。
2 理論基礎與模型
鑒于上述對推薦算法的研究分析,針對服裝商品,本文提出基于商品屬性內(nèi)容與用戶聚類的混合推薦模式。根據(jù)服裝商品的分類以及用戶在選購服裝時考慮的因素,提取商品的屬性特征,構建商品的模型。與此同時,采集用戶的基本個人信息如身高、體重、地區(qū)、性別等與歷史購買服裝的評價。通過分析評價,得出用戶對商品哪些屬性比較看重,并將這些屬性特征納入用戶模型。
實現(xiàn)混合推薦模式的過程如圖1所示:
(1)對于任何一個進入店鋪的用戶,根據(jù)用戶瀏覽的商品,基于商品屬性利用KNN函數(shù)找到最相近的TOP-N推薦候選集;
(2)基于構建的用戶模型,進行K均值聚類,得到用戶所屬的類;
(3)求出該用戶與類中其他用戶之間的相似度,將相似度作為權重值賦給用戶對商品的評分,綜合用戶的評分與權重值,對推薦候選集商品,進行喜好排序,得到最終的推薦列表;
(4)若判斷用戶為新用戶,則可以在步驟3中根據(jù)用戶所屬類,直接給出推薦列表。
圖1 混合推薦流程圖
該混合推薦模式的創(chuàng)新點在于,對用戶的購物評價進行分析,抽取出用戶的購物偏好屬性,并將屬性偏好加入用戶模型,更加生動、真實的描述一個用戶實體。通過對用戶的聚類,找到偏好相似的用戶,能夠很好地解決新用戶的冷啟動問題。雖然,該推薦過程中,也涉及用戶-評分矩陣,但并不依賴該信息得到推薦結果,而是作為一個提高推薦精準度的方式。
21 KNN算法
KNN算法相似近鄰的算法包括,固定數(shù)量的近鄰(KNN)與基于相似度的近鄰(Threshold-based Neighborhoods)。這里本文我們采用的就是前者,固定數(shù)量的近鄰,其中K就代表我們抽取的相似近鄰的數(shù)量。根據(jù)服裝行業(yè)商品的屬性描述以及選購經(jīng)驗,提取出商品的屬性特征,構建商品的檔案,用一個N維向量來表示,形式如{key,value}。對于任意兩個商品,分別用向量x,y表示,通過向量之間的余弦相似度,來度量商品的相似性。
其中,K表示商品模型中的屬性特征的數(shù)量,相似度越大,兩個商品的共性就越大。
依次計算其他商品與目標商品的相似度,并按照相似度值的高低排序,K個最相似的近鄰,得到top-N推薦結果。
22 K均值算法
K均值算法是典型的基于距離的聚類函數(shù),采用距離作為評判相似度的標準,認為距離越大,兩者之間的相似度越小。同樣的,我們根據(jù)用戶的基本信息與商品評價,提取用戶的屬性特征,用一個N維向量來表示。對于任意兩個用戶,分別用向量m,n表示,兩者間的距離采用歐幾里的方式測量:
d(m,n)=∑kj=1(uj,m-uj,n)2
(2)
其中,K表示用戶模型中的屬性特征的數(shù)量。進行K均值聚類時,首先從用戶群中隨機選取K個質(zhì)心,計算用戶到各個質(zhì)心的距離,并把該用戶歸于距離質(zhì)心最近的類,完成初步的聚類。然后,分別計算K類中的平均值,將平均值的點作為新的質(zhì)心。迭代上面兩步進行聚類,直到質(zhì)心不變或是變動的幅度小于一定的閾值,函數(shù)結束。根據(jù)歐幾里得距離,利用下面的公式轉(zhuǎn)換為相似度。endprint
sim(m,n)=11+d(m,n)
(3)
3 實證研究
本文的研究對象為特定用戶推薦個性化的服裝商品,目前淘寶網(wǎng)也有類似的功能推薦,如“看了又看”、“掌柜推薦”等,個性化不夠明顯,只是根據(jù)關鍵詞的簡單關聯(lián)推薦,推薦結果不夠精確。鑒于此,我們將對這一問題進行改善研究。
31 商品屬性提取
針對服裝這一特定推薦對象,查找服裝行業(yè)相關的類目信息,不同類目下的服裝商品屬性特征具有一定的差別。此外,通過研究服裝消費者的行為特點,從消費者的角度,找到最能描述商品的屬性,并摒除一些冗余的屬性特征。
王文興通過分析服裝消費者行為特點,對價格與非價格因素綜合定量分析,得到結論:在互聯(lián)網(wǎng)的環(huán)境下,影響女性服裝消費的非價格因素主要包括服裝的材料、品牌以及時尚[13]。梁建芳、 李筱勝等以女性網(wǎng)購消費者為研究對象,通過調(diào)查問卷方式,對網(wǎng)購群體、購買的服裝類別以及影響其購買的決策因素進行了統(tǒng)計分析。在分析在線服裝選購的主要影響因素中,作者發(fā)現(xiàn)947%的網(wǎng)購消費者首先會關注產(chǎn)品特征,其次才是商家屬性和信用風險。產(chǎn)品屬性的關注度由高到低依次為:服裝的款式、質(zhì)量、色彩、價格、品牌、潮流和產(chǎn)地[14]。鑒于此,我們對商品提取以下幾個屬性:寶貝描述、寶貝顏色、尺寸、風格以及適合的人群、季節(jié)等信息。其中,我們將顏色、尺寸、版型、適合年齡與季節(jié)這幾個屬性設置為尺度變量,屬性值之間存在著程度大小之分,圖案、面料與風格設置為分類變量,屬性值之間沒有大小之分。
色彩是人類感知的第一要素,也是吸引視覺感知的重要元素之一。色彩能夠激發(fā)人們的心理反應,并激發(fā)著人們對色彩的審美和商品的購買欲望和消費欲望。色彩學上根據(jù)心理感受,把顏色分為暖色調(diào)(紅、橙、黃)、冷色調(diào)(青、藍)和中性色調(diào)(紫、綠、黑、灰、白)。色彩的偏好與人的心理性格緊密相關,每個人都會有自己比較偏好的色彩系[15],如表1所示。
32 用戶建模
許明李在傳統(tǒng)的購買行為相關理論的基礎上,從經(jīng)營者的角度獲得影響消費者網(wǎng)上購買服裝的因素。自有平臺B2C經(jīng)營者認為人口統(tǒng)計特征、相關群體都會對網(wǎng)絡購物產(chǎn)生影響[16]。對于消費者來說,在選購服裝時合身是最重要的因素,即使再好看的衣服,若是不合身,消費者也會放棄購買。因此,我們對用戶提取基本人口特征信息,包括用戶名、身高、體重。通過分析服裝消費者在選購服裝時注重的服裝屬性特征,我們從評價中提取用戶所購買商品的尺寸顏色信息,以及店鋪中用戶對商品的評價信息,包括評價等級、評價內(nèi)容,如寶貝有無色差、是否合身等。其中,體重、身高、是否合身、有無色差、購買的顏色等屬性全部都為尺度變量,屬性值有著程度大小之分,如表2所示。
33 結果與評估
為了驗證算法的準確性,利用網(wǎng)頁數(shù)據(jù)采集軟件Gooseeker采集淘寶網(wǎng)上一家名為“柚子美衣”的店鋪所有的服裝信息和用戶信息。根據(jù),前面提取的商品、用戶特征屬性,進行數(shù)據(jù)處理,可以將數(shù)據(jù)存儲為3張數(shù)據(jù)表:商品信息表、用戶信息表和用戶評分表。
331 結果展示
選定編號為1的用戶進行檢驗,根據(jù)前面提取的商品屬性,該用戶瀏覽的商品表示為item(01,1,1,0,1,0)。將該商品輸入最近鄰KNN算法中,通過方法KnearestNeighbor(Listlist,double[] vec,int k)計算出K件最相似的商品。
取K=10,輸出10件與該商品最相近的商品,也就是初始的推薦列表,如表3所示。
對輸入的用戶進行聚類,經(jīng)過多次迭代后,函數(shù)結束。得到用戶所屬類為2,計算類中各個用戶與指定用戶的相似度,如表4所示。
用戶對商品會有一個評分,將用戶相似度作為權重值賦給商品評分,計算得到加權后的商品評分。按照評分的高低對初始推薦列表進行排序,得到最后的推薦結果。其中,編號為55的商品,加權分為0,是因為用戶的類中沒有用戶對該商品有過評分,如表5所示。
332 評估
絕大多數(shù)的推薦系統(tǒng)都利用準確度評價推薦算法的好壞,假設用戶可以對商品反饋喜歡或是不喜歡,那么準確度可以定義為推薦算法中預測的商品,用戶喜歡的商品數(shù)所占比例。由于系統(tǒng)實際應用不同,評價指標缺乏標準化?,F(xiàn)在已有的準確度指標主要有:預測準確度、分類準確度、排序準確度、距離標準化指標等[17]。
文中主要采用分類準確度來評估推薦系統(tǒng),其中分類準確度包括兩個評估指標,分別為準確率(precision)與召回率(recall)。準確率是指在系統(tǒng)的推薦列表中,用戶喜歡的商品數(shù)所占的比率;而召回率是指推薦列表中用戶喜歡的商品數(shù)占用戶所有喜歡的商品數(shù)量的比率,如表6所示。
我們都希望推薦系統(tǒng)的準確率與召回率兩者越高越好,但是,precision與recall指標兩者在一定情況下是相互矛盾的。因此,本文采用綜合指標F-Measure來評估。F-Measure是precision與recall的調(diào)和加權平均。
F1=2prp+r
(5)
通過設置推薦商品數(shù)N的不同,得到推薦系統(tǒng)在一系列推薦實踐下的評價指標準確率、召回率以及與F1的值。以此來驗證推薦系統(tǒng)的穩(wěn)定性與持久性,排除偶然的因素。如下是推薦商品數(shù)N—F1曲線,如圖2所示:
圖2 評價指標F1
我們可以看到雖然隨著推薦的商品數(shù)的變動,評價指標F1的值一直穩(wěn)定在04~06之間,沒有很大的波動??梢哉f,該推薦算法是比較穩(wěn)健的。
4 結論與展望
采用基于商品內(nèi)容與用戶聚類的混合推薦,能夠很好地解決推薦中的冷啟動問題。實現(xiàn)個性化的推薦,在提高用戶購物體驗的同時,也能為商家增強消費者粘性。在以后的研究中,可以進一步研究豐富用戶的特征信息,建立更加全面的用戶興趣偏好模型。本文使用的用戶特征信息,主要還是用戶的人口特征信息,并沒有涉及用戶對商品屬性的需求特征。未來,可以基于用戶對商品的評論內(nèi)容,對其進行文本分詞處理,提取用戶對商品屬性的需求的關鍵詞,并賦予一定的權重,以此得到更加豐富的用戶特征模型。進一步提高個性化推薦系統(tǒng)的精準度。endprint
參考文獻
[1]三川.CNNIC發(fā)布第35次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[J].中國遠程教育,2015,(2):31-31.
[2]張晶.關注兩會:聚焦電商未來發(fā)展[J].物流技術:裝備版,2015,34(3):18-22.
[3]唐曉波,樊靜.基于客戶聚類的商品推薦[J].情報雜志,2009,28(6):143-146.
[4]黃光球,靳峰,彭緒友.基于興趣度的協(xié)同過濾商品推薦系統(tǒng)模型[J].微電子學與計算機,2005,22(3):5-8.
[5]肖蕾.點餐平臺推薦系統(tǒng)模型設計[J].漳州師范學院學報:自然科學版,2013,(2):32-35.
[6]吳麗花,劉魯.個性化推薦系統(tǒng)用戶建模技術綜述[J].情報學報,2006,25(1):55-62.
[7]楊博,趙鵬飛.推薦算法綜述[J].山西大學學報:自然科學版,2011,(3):337-350.
[8]曾艷,麥永浩.基于內(nèi)容預測和項目評分的協(xié)同過濾推薦[J].計算機應用,2004,24(1):111-113.
[9]王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應用,2012,48(7):66-76.
[10]李雪峰,劉魯,張?.基于協(xié)同過濾的在線拍賣商品推薦[J].計算機工程,2006,32(23):18-20.
[11]汲業(yè),陳燕,屈莉莉,等.基于Prolog語言的商品推薦知識庫模型[J].計算機工程,2010,36(22):10-12.
[12]溫廷新,唐小龍,馬龍梅.基于混合模式的網(wǎng)絡超市商品推薦方法[J].現(xiàn)代情報,2013,33(12):45-51.
[13]王文興.服裝網(wǎng)絡營銷策略研究[D].上海:東華大學,2010.
[14]梁建芳,李筱勝.電子商務環(huán)境下女性服裝消費行為分析[J].浙江理工大學學報,2011,28(5):728-733.
[15]郭東.論個人形象設計中的色彩設計與性格的關系[J].美與時代:上半月,2009,(3):11-14.
[16]許明李.服裝消費者網(wǎng)上購買行為影響因素研究[D].上海:東華大學,2012.
[17]劉建國,周濤,郭強,等.個性化推薦系統(tǒng)評價方法綜述[J].復雜系統(tǒng)與復雜性科學,2009,6(3):1-10.
(本文責任編輯:郭沫含)endprint