李小敏
(國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作四川中心,四川 成都 610213)
本文主要對基于數(shù)據(jù)挖掘技術(shù)的商品推薦技術(shù)做一個梳理, 比較三類商品推薦技術(shù)的特點, 對各種方法的技術(shù)發(fā)展路線進行整理。 在專利數(shù)據(jù)庫對幾種商品推薦方法在國內(nèi)外的專利申請數(shù)量和時間分布進行一定的分析, 研究技術(shù)發(fā)展動向, 分析該領(lǐng)域的重點數(shù)據(jù)挖掘算法, 以及各個算法在具體專利申請技術(shù)方案中的運用。
基于數(shù)據(jù)挖掘的商品推薦技術(shù)發(fā)展依托于數(shù)據(jù)挖掘技術(shù)的發(fā)展, 早期的數(shù)據(jù)挖掘技術(shù)在應(yīng)用到商品推薦的電子商務(wù)領(lǐng)域之后, 取得了豐碩的商業(yè)成果。 在近年來,又結(jié)合云計算、大數(shù)據(jù)等新的技術(shù),展開了新的探索。 基于上述技術(shù)原理的學習和專利文獻以及非專利文獻的檢索, 對數(shù)據(jù)挖掘技術(shù)在商品推薦領(lǐng)域的發(fā)展進行分析和梳理,作出以下發(fā)展路線的歸納:
圖1 基于數(shù)據(jù)挖掘的商品推薦方法技術(shù)演進路線
為了進一步分析基于數(shù)據(jù)挖掘方法的商品推薦技術(shù)領(lǐng)域的專利申請情況, 在本節(jié)中基于關(guān)鍵詞和分類號等檢索方法在專利庫DWPI 對中外專利申請情況進行檢索,得到以下統(tǒng)計結(jié)果。 圖2 給出了自1998 年以來中國和全球每年的該領(lǐng)域?qū)@暾垟?shù)量
圖2 領(lǐng)域歷年專利申請量
從上圖可以看出, 關(guān)于商品推薦的技術(shù)特別是早期的算法理論起步較早, 但由于電商的發(fā)展和起步,基于數(shù)據(jù)挖掘的商品推薦在2000 年以前處于起步階段,而國內(nèi)由于起步較晚,06 年以前仍處于起步階段;進入2005 年以后, 由于電子商務(wù)技術(shù)的飛速發(fā)展,帶動了商品推薦領(lǐng)域技術(shù)的不斷進步, 該領(lǐng)域的專利申請量不斷提升, 在2013 年前后達到頂峰, 在08 年以后, 國內(nèi)的電商得到了快速的發(fā)展, 由于具有后發(fā)優(yōu)勢,整個行業(yè)發(fā)展迅速,專利的申請量也急劇增長。
圖3 全球各個國家申請量所占比例
圖3 展示了作為技術(shù)原創(chuàng)國申請專利數(shù)量占全球?qū)@麛?shù)量的份額比例, 從上圖分布可以看出, 作為最早的技術(shù)起源地, 美國的專利申請數(shù)量達到了一半以上; 由于近年來電子商務(wù)技術(shù)在國內(nèi)的蓬勃發(fā)展,中國內(nèi)地的專利申請數(shù)量緊隨其后, 占據(jù)了較大份額;此外, 日本、 韓國等國家在該領(lǐng)域的專利申請量也較高。
圖4 領(lǐng)域重要申請人申請專利數(shù)量
圖4 給出了領(lǐng)域重要申請人的申請數(shù)量,其中IBM作為最早研究關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘方法的商業(yè)巨頭,在領(lǐng)域的申請數(shù)量較大, 此外, 亞馬遜也是對基于數(shù)據(jù)挖掘的商品推薦應(yīng)用較廣且較早的商業(yè)公司, 其申請量也較高,也正印證了其發(fā)布的數(shù)據(jù)顯示“2010 年前后, 由于數(shù)據(jù)挖掘技術(shù)的作用, 使得亞馬遜公司的收益提升了30%”。 在國內(nèi)的申請人中,阿里巴巴和京東由于其商業(yè)平臺的巨大成功, 在數(shù)據(jù)挖掘領(lǐng)域也投入了較大的精力,其申請量在國內(nèi)居于首位。
協(xié)同過濾的方法與傳統(tǒng)的基于內(nèi)容過濾直接分析內(nèi)容進行推薦不同, 協(xié)同過濾分析用戶興趣, 在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價, 形成系統(tǒng)對該指定用戶對此信息的喜好程度預(yù)測。
索 尼 公 司 于 2005 年 提 出 的 PCT 專 利 申 請WO2006037139 針對一般協(xié)同過濾方法的冷開始問題和推薦主要集中在部分內(nèi)容的問題, 提出了一種基于協(xié)同過濾的推薦方法。 其中, 首先對待處理的對象進行一個聚類預(yù)處理, 使用分層聚類的方法, 對每個層次設(shè)置一個每個集群層和集群層中每個集群的特征的關(guān)鍵詞;以及聚類DB,用于保持樂曲的聚類結(jié)果。 盡管對于聚類可以使用任何方法, 但是為每個集群層選擇最佳聚類方法和距離測量。 接下來定義歐幾里德距離等距離測量,然后進行聚類。
基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法最早由IBM 的團隊研究應(yīng)用, 關(guān)聯(lián)規(guī)則最重要的就是發(fā)現(xiàn)共現(xiàn)關(guān)系 (挖掘 頻 繁 項 目 集), 經(jīng) 典 算 法 有 Apriori 算 法、FP -GROWTH 算法。
IBM 公司于1997 年提出的國際申請PCT/GB98/02928 是一種早期的基于在線的關(guān)聯(lián)規(guī)則挖掘的方法。 和通常的關(guān)聯(lián)規(guī)則挖掘算法一樣, 該方法也是分為兩個階段:預(yù)處理階段,以生成頻繁項目集;在線規(guī)則生成階段, 根據(jù)預(yù)處理階段獲取的規(guī)則數(shù)據(jù), 生成樹形規(guī)則結(jié)構(gòu)。 該方法同樣根據(jù)對大量數(shù)據(jù)設(shè)定多個定量和分類項目,用于提供定量相關(guān)規(guī)則。
基 于 內(nèi) 容 的 推 薦 算 法 Content -based Recommendations (CB),根據(jù)物品或內(nèi)容的元數(shù)據(jù),發(fā)現(xiàn)物品或內(nèi)容的相關(guān)性, 然后基于用戶以前的喜好記錄推薦給用戶相似的物品。
阿里巴巴2010 年的專利(CN102479366A)公開了一種商品推薦方法, 該方法通過獲取用戶的行為數(shù)據(jù),即用戶的點擊、 搜索等行為記錄來分析用戶可能關(guān)心的商品的種類和標簽。 在此基礎(chǔ)之上, 對商品進行分析確定類別,以確定要向用戶推薦的商品。
三種方法都有不同的特點: 關(guān)聯(lián)規(guī)則挖掘方法易于發(fā)現(xiàn)較為隱秘的間接關(guān)系, 但對于不常見的低頻數(shù)據(jù)不能有效的進行推薦; 基于內(nèi)容的推薦方法開始的時候?qū)ζ渌脩舻臄?shù)據(jù)具有較小的依賴性, 但需要其本身結(jié)構(gòu)具有較好的結(jié)構(gòu)性; 基于協(xié)同過濾的方法能夠處理較為復(fù)雜的內(nèi)容, 但在用戶的評價較為稀疏時,表現(xiàn)較差,依賴于用戶對商品的評價。 由于各有優(yōu)缺點, 因此, 在許多商品推薦的具體應(yīng)用場景中并不只是使用單一的一種方法, 同時, 幾種方法之間也并沒有絕對的界限, 許多基于以上三種基本推薦方法的改進方法也都結(jié)合了多種商品推薦方法來進行數(shù)據(jù)挖掘和商品推薦的。