顧徐斌
(上海市行知中學,上海 200431)
隨著后電商時代的到來,電商巨頭將競爭火力集中于下沉市場,網(wǎng)絡(luò)購物的普及率大大提升,成為了千家萬戶日常消費生活的標配。從數(shù)據(jù)來看,天貓“雙11”活動銷售額從2009年的5200萬元增長到了2020年的4982億元,增長了9581倍。2020年中國網(wǎng)民數(shù)量約為9.5億,故僅考慮天貓這一家電商平臺,網(wǎng)民人均消費就達到了524.42元,足以看出該市場的廣闊。在供給側(cè)改革的時代背景下,生產(chǎn)力已經(jīng)不再是限制人們消費的關(guān)鍵因素。電商平臺的消費者在產(chǎn)生購物需求時,面臨的選擇過多,反而難以尋找到自己需要的適合的商品,即產(chǎn)生了信息過載問題。
為了解決信息過載問題,提升用戶的購物效率,電商平臺均大力開發(fā)與迭代個性化推薦系統(tǒng)。電子商務(wù)個性化推薦系統(tǒng)就是根據(jù)用戶的行為數(shù)據(jù)和興趣模型,為用戶提供可能符合他們需求的特定商品信息,提升用戶購物體驗的同時促進消費,為平臺帶來更大的經(jīng)濟效益。如果說,用戶搜索商品是一種主動行為,那用戶接受個性化推薦則是一種被動化的行為,源于用戶被激發(fā)了弱化的、潛在的需求。需要關(guān)注的是,互聯(lián)網(wǎng)雖然在技術(shù)上能夠?qū)崿F(xiàn)去中心化,然而電商巨頭對流量入口的把持又重新塑造了一個中心化的世界,個性化推薦系統(tǒng)能夠推動多樣化的實現(xiàn),使得更多小而美的商家能夠被看見??偟膩碚f,個性化推薦系統(tǒng)無論對消費者還是商家,都是有一定的積極意義和現(xiàn)實價值,故本文重點研究不同電子商務(wù)平臺應用個性化推薦系統(tǒng)的現(xiàn)狀以及異同點,試圖挖掘出個性化系統(tǒng)還有待改進的部分,希望能夠為個性化推薦系統(tǒng)的完善提出建議。
20世紀末Tapestry作為第一個推薦系統(tǒng)誕生,隨著時代的飛速發(fā)展,現(xiàn)如今個性化推薦系統(tǒng)已經(jīng)滲入到人們生活的點點滴滴,如短視頻、電商平臺等。不同的學術(shù)研究者也就個性化推薦系統(tǒng)給出了自己的看法。Resnick(1997)認為個性化推薦系統(tǒng)就是為網(wǎng)購平臺上的消費者推薦適合他們的產(chǎn)品。朱巖(2009)認為個性化推薦系統(tǒng)是一種輔助工具,它幫助消費者減少檢索所耗費的時間,以及幫助消費者更快地做出決定。蒲彬(2016)則認為個性化推薦系統(tǒng)是平臺根據(jù)消費者的消費習慣、數(shù)據(jù)所得出的信息,再將此信息主動推送給消費者,幫助他們選取合適的商品。綜上所述,目前學界并沒有一個統(tǒng)一的定義,本文認為個性化推薦系統(tǒng)是基于消費者過往的消費記錄、個人數(shù)據(jù)等,利用多種算法構(gòu)建信息處理模型,從而主動為消費者提供符合他們需求的商品的一種系統(tǒng)。
個性化推薦系統(tǒng)是互聯(lián)網(wǎng)和電子商務(wù)發(fā)展的產(chǎn)物,最早在1995年3月,卡耐基梅隆大學的Robert Armstrong等學者在美國人工智能協(xié)會上提出了個性化導航系統(tǒng)Web Watcher,但受限于技術(shù),該系統(tǒng)的理論意義強于實踐價值。由于技術(shù)的限制,主要還是停留在理論探討階段。21世紀初,Google創(chuàng)新性地提出了個性化元素,不再單一分析用戶的搜索關(guān)鍵詞,而是利用用戶的瀏覽記錄開展更加精確的分析。此后,個性化推薦系統(tǒng)逐漸成為業(yè)界和學術(shù)界的研究熱點。2009年7月,北京百分點信息科技有限公司成立,其作為國內(nèi)首個個性化推薦系統(tǒng)科研團隊,構(gòu)建了個性化推薦引擎技術(shù)與數(shù)據(jù)平臺,匯聚一百多家知名電商及資訊類網(wǎng)站的信息,嘗試為消費者提供實時的商品推薦服務(wù)。2011年9月,百度將推薦引擎與云計算共同作為互聯(lián)網(wǎng)未來發(fā)展重要戰(zhàn)略,強調(diào)個性化,此后個性化推薦系統(tǒng)才真正成為電商平臺技術(shù)中的重要構(gòu)成。淘寶、天貓、京東、小紅書、蘇寧易購、唯品會等電商平臺,均推出自己的個性化推薦系統(tǒng),并不斷迭代發(fā)展。
(1)基于內(nèi)容的推薦
想要基于內(nèi)容來推薦商品,首先給商品劃分屬性,然后根據(jù)消費者可能感興趣的物品的屬性特征,給消費者推薦同一類別的商品。從現(xiàn)實場景來看,當用戶瀏覽了某一件休閑類女裝,那么可以向其推薦其他的休閑類女裝。當然在實際應用中,只根據(jù)內(nèi)容類型進行推薦,會有一些片面與不妥,比如未考慮用戶對于價格的敏感性、圖像中的顏色等信息,無法對其進行詳細地分類,有著很大的局限性,但基于內(nèi)容的推薦仍然是一種基礎(chǔ)且可靠的算法。
(2)協(xié)同過濾
協(xié)同過濾則是通過利用消費者的搜索記錄,以及相似消費者的記錄來向該用戶推薦可能所需求的商品。協(xié)同過濾的核心是根據(jù)用戶及相似用戶喜好來推薦該消費者可能感興趣的商品。對于同一類型的商品,不同消費者對其評價相一致,則被定為相似消費者,然后根據(jù)相似消費者對該商品評價的高低,從而決定是否推薦此商品給該消費者。協(xié)同過濾的優(yōu)勢在于當被分析及推薦的商品不存在明顯的基于內(nèi)容的分類、或者沒有固定的評判標準時,能發(fā)揮出較好的推薦效果。同時,來自于相似用戶群體的類似偏好時常在空間上具有聚集性特征,故也存在較為明顯的即時性特征。其不足之處在于,若某個產(chǎn)品是最新上架的、沒有積累足夠的評論數(shù)據(jù)時,其初期的推薦效果就會存在較大的偏差[5]。此外,當某一產(chǎn)品的用戶規(guī)模逐漸變大時,用戶的成分越來越駁雜,衡量用戶偏好的影響因素越來越多,反過來影響了面向最初精準定位用戶的推薦精度,降低了用戶體驗。
(3)混合過濾
在個性化推薦技術(shù)騰躍式發(fā)展的十多年之間,不論是基于內(nèi)容的推薦還是協(xié)同推薦算法,都存在各自的優(yōu)勢與局限性。尤其是當電商領(lǐng)域巨頭的用戶量達到了數(shù)億的規(guī)模后,其面臨的場景紛繁復雜,僅靠單一的推薦算法難以一次性解決所有的問題。因此,技術(shù)人員考慮將不同的算法組合起來,發(fā)揮不同算法各自的優(yōu)勢[2]。組合的基本思想分成3種:在協(xié)同過濾中加入基于內(nèi)容的過濾,在基于內(nèi)容的過濾中加入?yún)f(xié)同過濾,或者將兩者整合到一個推薦系統(tǒng)中。實踐當中,混合過濾大致可以分成加權(quán)式、切換式、級聯(lián)式、合并式、特征組合、特征遞增、元層混合等。目前各大電商平臺的個性化推薦算法都是不同形式的混合算法,且隨著用戶反饋不斷迭代更新。
個性化推薦系統(tǒng)的價值可以從用戶維度、產(chǎn)品維度和企業(yè)維度等多個角度來衡量。從用戶維度,個性化推薦系統(tǒng)可以提高購物效率,幫助用戶更快地找到自己感興趣的商品;從產(chǎn)品維度,更好的用戶體驗則會帶來更高的用戶粘性,提升產(chǎn)品的活躍度和整體流量;從企業(yè)角度,用戶的活躍度提升能夠吸引更多賣家入駐,從而提升廣告和傭金的收入。
拼多多是一個以“電商+平臺”為屬性的平臺,其挖掘出了下沉市場的巨大消費潛力,而從電商市場白熱化的競爭中脫穎而出,躋身電商三大巨頭之一。就其在個性化推薦領(lǐng)域的探索,其推出了所謂的“千人千面”,該系統(tǒng)大致經(jīng)歷了3個發(fā)展歷程。第一階段,“千人千面”考慮的因素包括商品類目和標題以及買家瀏覽記錄,用以定向推薦和做重定向標簽。第二階段,在原先基礎(chǔ)上增加了商品屬性和用戶興趣點,表現(xiàn)在系統(tǒng)加強相似商品的推薦,此外從買家行為中提取興趣點,定向推薦符合興趣點的商品。第三階段,拼多多全量開放最新客戶標簽庫構(gòu)成的DMP系統(tǒng),目前人群常見標簽包括人群屬性、行業(yè)偏好、消費能力以及用戶軌跡,并利用這些標簽設(shè)置更加精細的價格段。此外,拼多多給了用戶瀏覽、收藏、下單記錄等動態(tài)標簽更多的權(quán)重,而非不常改變的用戶信息等靜態(tài)標簽,故其推薦系統(tǒng)能夠保持較高的即時性特征。
小紅書是由毛文超和瞿芳所創(chuàng)立的一個以記錄生活方式為切入口的社交電商平臺。由于其吸引了大量年輕人,成為一大流量入口,故啟動電商模式僅僅五個月就突破了2億元營業(yè)額,到2017年5月,達成了近2000億元的驚人營收。在快速發(fā)展的過程中,小紅書的個性化推薦系統(tǒng)也經(jīng)歷了不斷的迭代過程,從最簡單的GBDT模型演進到了包含了千億參數(shù)的稀疏離散模型,包括GBDT+LR、GBDT+Deep&Wide等。同時小紅書的瀑布流頁面背后進行的是實時流計算,即根據(jù)用戶對已曝光的筆記是否點擊、是否點贊以及在該筆記頁面的停留時長記錄,反饋給LogServer(即日志服務(wù)器)系統(tǒng),接著將數(shù)據(jù)接入到Kafka系統(tǒng),隨之展開數(shù)據(jù)計算,系統(tǒng)構(gòu)建實時的初步用戶/筆記畫像,同時實時歸因,再次導入LogServer系統(tǒng)進行分析,根據(jù)訓練樣本導入Hive系統(tǒng)所得出的模型訓練作為參照,分析儲存實時指標,在Clickllouse系統(tǒng)進行數(shù)據(jù)落地,畫出最終的用戶畫像。因此,小紅書的算法推薦以用戶對筆記的消費行為為輸入,再將計算結(jié)果輸出,實時更新用戶標簽,為其推薦個性化的筆記。同時,預期模型與策略也包含在龐大的個性化推薦系統(tǒng)之中。當模型對象愈發(fā)龐雜時,小紅書將線上服務(wù)器拆分成獨立的集群,線下數(shù)據(jù)則通過Flink做實時的行為歸因,從而使得運營成本和系統(tǒng)復雜度隨之有所下降。
京東的個性化推薦系統(tǒng)起源于2012年,開發(fā)了“看了還看” “買了還買”等版塊,底層邏輯是簡單的關(guān)聯(lián)推薦,其準確程度并不是很高。到了2014年,京東順應國內(nèi)大數(shù)據(jù)的潮流,著手研發(fā)首頁猜你喜歡、購物車猜你喜歡、免運費湊單等個性化推薦版塊,在算法邏輯上逐漸向場景智能推薦過渡。從2016年至2017年,京東又推出了京東秒殺、智能賣場、陪伴計劃、我的618好貨、東家小院等多個類型的推薦,即不僅僅局限于商品,而是將其擴展到如活動、文章、清單等其他類型的個性化推薦。此外,京東還推出了所謂的多屏場景,以用戶興趣偏好為出發(fā)點,將推薦結(jié)果重新排序,便于用戶使用。即使是看似簡單的多屏整合,其背后涉及到了多種技術(shù)和復雜的計算能力,包括前端埋點、打造點擊流系統(tǒng)、多屏行為信息手機、實時流計算等。經(jīng)過了一系列整合和迭代之后,京東平臺推薦系統(tǒng)業(yè)務(wù)架構(gòu)包含系統(tǒng)架構(gòu)、模型服務(wù)、機器學習、數(shù)據(jù)平臺共4個部分。對于數(shù)據(jù)處理部分,包括離線數(shù)據(jù)預處理、機器學習模型訓練,以及在線實時行為的接入、實時特征計算;對于推薦平臺,它是用戶和平臺所推薦的個性化商品之間的交互,也是整個個性化推薦流程中的核心模塊;在模型服務(wù)層面,其主要通過線下的算法訓練,達到精確尋找個性化商品的目的;對于特征服務(wù)平臺,通過提取用戶與商品交互的場景特征,從而給推薦給該用戶的個性化商品進行排序;而在線學習功能則是即時性更強的深度學習,是大規(guī)模的個性化推薦平臺進行改進的主要方式。
盡管個性化推薦系統(tǒng)正在快速地發(fā)展,但整個行業(yè)也面臨著一定的瓶頸,其推薦效率和精度難以取得突破性的提升。該領(lǐng)域目前的主要挑戰(zhàn)在于數(shù)據(jù)稀疏性、冷啟動、大數(shù)據(jù)處理、社會化推薦等。
(1)數(shù)據(jù)稀疏性問題
隨著時間推移,個性化推薦系統(tǒng)的規(guī)模也是越來越大,變量甚至達到數(shù)千億的規(guī)模,但是用戶與用戶之間選擇的重疊非常少。用戶和商品關(guān)系之間可能存在的比例關(guān)系,也被稱為稀疏度,其實是非常疏松的,因為單一用戶在絕大多數(shù)變量上的取值均為0,只有購買過的商品才會取值為1,這也使得個性化推薦系統(tǒng)需要處理的數(shù)據(jù)矩陣是高階稀疏矩陣。一般而言,數(shù)據(jù)的規(guī)模越大,商品稀疏度就越低,過濾便越來越困難。由此,絕大部分基于關(guān)聯(lián)分析的算法的效果并不好。
(2)冷啟動問題
對于任何個性化推薦系統(tǒng)來說,冷啟動階段都難以有很好的推薦精度。因為新用戶罕有有價值的數(shù)據(jù)或行為信息,所以個性化推薦平臺只能通過注冊時填寫的用戶基本信息,如年齡、性別、居住城市、職業(yè)等,給出精確度較低的基本的商品推薦。然而,大多數(shù)新用戶能給一個電商APP的時間是比較有限的,如果使用效果不達預期,則留存率會隨之大大降低。
(3)大數(shù)據(jù)處理與增量計算
如今,一個電商平臺能夠提供的商品總數(shù)動輒幾千萬,乃至上億。當涉及到如此大規(guī)模的商品、商品標簽以及同樣龐大的用戶規(guī)模和實時產(chǎn)生的各類用戶數(shù)據(jù),如何在短時間內(nèi)高效地處理這些信息成為了一個難題。一個可能的解決方案是設(shè)計增量算法,即當產(chǎn)生新用戶、新商品和新的連接關(guān)系時,算法不再從整體上采集信息,而是從相連局部進行數(shù)據(jù)采樣,從而降低計算量。
(4)有關(guān)社會化推薦
由大數(shù)據(jù)分析可知,大部分消費者相較于電商平臺給出的個性化推薦商品,更希望聽取并采納來自好友的商品推薦。如果個性化推薦系統(tǒng)能夠?qū)⑸鐣P(guān)系考慮在內(nèi)[6],能夠大幅度提高推薦的精確度。目前社會化推薦的發(fā)展方向也存在三種挑戰(zhàn):一是如何利用社會化推薦給出精確的商品推薦,二是如何在社交網(wǎng)絡(luò)與個性化推薦系統(tǒng)之間建立更加有機的聯(lián)系,三是道德風險。根據(jù)技術(shù)接受理論,部分消費者可能認為過于精確的個性化推薦涉及侵犯到自己的隱私,反而引發(fā)用戶的抵觸心理。
大數(shù)據(jù)推薦及算法是有可拓展性的。目前各大電商平臺的個性化推薦系統(tǒng)不僅數(shù)據(jù)量大,而且新用戶新產(chǎn)品會不斷進入系統(tǒng),用戶也會生產(chǎn)出新的瀏覽、收藏、下單、評論等動態(tài)行為數(shù)據(jù)。此外,用戶除了會在購物環(huán)節(jié)有檢索需求外,在金融理財、休閑娛樂等不同領(lǐng)域也有同樣的個性化需求,因此在互聯(lián)網(wǎng)世界的探索過程中會積累形成其他能夠互補的數(shù)據(jù)信息[7]。電商平臺數(shù)據(jù)有望和其他領(lǐng)域的數(shù)據(jù)進行整合,形成跨領(lǐng)域推薦,實現(xiàn)更完善的個性化推薦,故跨領(lǐng)域推薦成為個性化推薦系統(tǒng)的一大發(fā)展趨勢。
在流量時代,用戶注意力是最為稀缺的資源,也是各大電商平臺所爭奪的重點。個性化推薦系統(tǒng),通過給用戶提供有可能感興趣的商品,來實現(xiàn)提高用戶留存率、活躍時間、下單金額的目的,因此受到了電商平臺的廣泛關(guān)注和更新迭代。當下商品規(guī)模,即使是同一類目的商品也有成千上萬種,做到精確的個性化推薦難度不言而喻,未來個性化推薦系統(tǒng)可能會以更高頻率的數(shù)據(jù)采集速度、更高效的算法模型、更多的數(shù)據(jù)來源,從而為用戶提供更加精準的個性化推薦。