廖慶軍
摘 要 基于網(wǎng)上購(gòu)物系統(tǒng),運(yùn)用數(shù)據(jù)挖掘技術(shù)通過(guò)對(duì)數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)的“相似性”的比對(duì),來(lái)找出具有相似愛(ài)好的同類(lèi)人群,從而可以為這些具有相同愛(ài)好的人群提供某些便利,本文從購(gòu)物網(wǎng)站數(shù)據(jù)挖掘的意義、步驟和算法三個(gè)方面研究數(shù)據(jù)挖掘在購(gòu)物網(wǎng)站中的應(yīng)用。
關(guān)鍵詞 數(shù)據(jù)挖掘 電子商務(wù) 數(shù)據(jù)分析 k-means 算法
中圖分類(lèi)號(hào):G358.1 文獻(xiàn)標(biāo)識(shí)碼:A
隨著信息技術(shù)的迅猛發(fā)展,參與到購(gòu)物網(wǎng)站的人越來(lái)越多,人們樂(lè)于在網(wǎng)絡(luò)中去分享自己的相關(guān)信息,拓展自己的人脈。企業(yè)甚至能通過(guò)社交平臺(tái)去直接影響客戶(hù),一切都似乎因?yàn)橘?gòu)物網(wǎng)站的出現(xiàn)而變的美好。
基于網(wǎng)上購(gòu)物系統(tǒng),運(yùn)用數(shù)據(jù)挖掘技術(shù)通過(guò)對(duì)數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)的“相似性”的比對(duì),來(lái)找出具有相似愛(ài)好的同類(lèi)人群,從而可以為這些具有相同愛(ài)好的人群提供某些便利:
(1)為具有相同愛(ài)好的人提供好友推薦,以供他們互相交流;
(2)通過(guò)對(duì)某位客戶(hù)往期所購(gòu)入的商品,通過(guò)數(shù)據(jù)挖掘,通過(guò)這些商品的類(lèi)別,價(jià)格,以及風(fēng)格上等的特征提取,為客戶(hù)在下次瀏覽商品時(shí)提供產(chǎn)品推薦服務(wù),以便顧客迅速找到心儀的產(chǎn)品;
(3)通過(guò)客戶(hù)購(gòu)買(mǎi)商品類(lèi)別、風(fēng)格等上的特征提取,以及評(píng)論的特征的提取,從而為店家提供一個(gè)營(yíng)銷(xiāo)方向。
購(gòu)物網(wǎng)站已經(jīng)成為了數(shù)據(jù)挖掘技術(shù)最恰當(dāng)?shù)膽?yīng)用領(lǐng)域。
1什么是數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining),又稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的原始數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程?;蛘哒f(shuō)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)有用的知識(shí)(KDD),并進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持的過(guò)程。
數(shù)據(jù)挖掘(Data Mining)是通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)分析、異常分析、特異群組分析和演變分析等。
2購(gòu)物網(wǎng)站數(shù)據(jù)挖掘的意義
通過(guò)購(gòu)物網(wǎng)站數(shù)據(jù)挖掘并加以分析,企業(yè)能獲得什么?
2.1潛在商機(jī)的發(fā)現(xiàn)
通過(guò)數(shù)據(jù)挖掘與分析,可以發(fā)現(xiàn)某個(gè)用戶(hù)的活動(dòng)商圈是否在企業(yè)的商圈覆蓋范圍內(nèi);可以知道某個(gè)用戶(hù)的消費(fèi)能力;可以知道某個(gè)用戶(hù)的喜好及最近的購(gòu)買(mǎi)習(xí)慣;可以知道某個(gè)用戶(hù)會(huì)購(gòu)買(mǎi)自己產(chǎn)品的概率;可以知道競(jìng)爭(zhēng)對(duì)手的策略。
寄生在Facebook這樣的社交網(wǎng)站上的社交游戲公司Zynga,它聰明的利用了用戶(hù)數(shù)據(jù),從中挖掘出大量商機(jī)。據(jù)《彭博商業(yè)周刊》披露,這個(gè)社交游戲巨頭大約每天要收集600億個(gè)數(shù)據(jù)點(diǎn),包括人們一般玩多久游戲,什么時(shí)候玩,喜歡購(gòu)買(mǎi)什么游戲物品等等。該公司的數(shù)學(xué)極客們用這些數(shù)據(jù)來(lái)分析哪些人喜歡逛自己朋友的農(nóng)場(chǎng)和城市(Zynga開(kāi)發(fā)的游戲),人們都喜歡買(mǎi)哪些虛擬物品以及他們給自己的朋友贈(zèng)送虛擬物品的頻率等。然后他們就會(huì)得出這樣一個(gè)重大的發(fā)現(xiàn):經(jīng)常收到朋友虛擬禮物的人會(huì)更喜歡玩游戲,收不到或不那么經(jīng)常收到的則不太喜歡玩游戲。Zynga的數(shù)據(jù)分析部門(mén)副總裁Ken Rudin表示:根據(jù)這個(gè)發(fā)現(xiàn),一群數(shù)學(xué)極客們又想出了解決辦法——那些不那么經(jīng)常收到禮物的玩家我們會(huì)讓他們更加容易的找到建城(Zynga游戲)的工具,這樣他們就不會(huì)過(guò)于依靠他人的禮物了。Zynga的意圖很明顯:分析用戶(hù)行為,揣摩用戶(hù)心理,然后適時(shí)為每個(gè)獨(dú)特行為習(xí)慣的用戶(hù)提供更有針對(duì)性的服務(wù)。
2.2危機(jī)預(yù)警
通過(guò)數(shù)據(jù)挖掘與分析,可以對(duì)一些網(wǎng)絡(luò)中突然發(fā)布的一條可能對(duì)企業(yè)產(chǎn)生危機(jī)的信息即時(shí)的監(jiān)控起來(lái)。并追蹤其傳播路徑,找到其中的關(guān)鍵節(jié)點(diǎn)。利用“亂石”打散其傳播軌跡。從而讓危機(jī)盡快消失。一個(gè)企業(yè)面對(duì)社交媒體中網(wǎng)民創(chuàng)造的成千上萬(wàn),甚至幾百萬(wàn)的討論內(nèi)容,想要通過(guò)人工去判斷哪些口碑對(duì)品牌有利,哪些將會(huì)成為品牌危機(jī)是個(gè)不可能完成的任務(wù)。而輿情監(jiān)測(cè)則可以圍繞某一監(jiān)測(cè)領(lǐng)域或事件,經(jīng)過(guò)科學(xué)部署的不間斷的數(shù)據(jù)收集與分析的過(guò)程,前期需要對(duì)收集范圍和關(guān)鍵詞群進(jìn)行設(shè)置,中期對(duì)采集的數(shù)據(jù)進(jìn)行過(guò)濾、分組、聚類(lèi)等預(yù)處理,后期對(duì)數(shù)據(jù)進(jìn)行分析,并以分析報(bào)告的形式讓品牌了解到自身的口碑狀況。我們發(fā)現(xiàn)百度指數(shù)顯示2011年以前沒(méi)有任何關(guān)于“輿情監(jiān)測(cè)”的搜索記錄,然而隨著社交媒體的發(fā)展,品牌逐漸意識(shí)危機(jī)公關(guān)的重要性,也更加深入地認(rèn)識(shí)到數(shù)據(jù)挖掘,數(shù)據(jù)分析在危機(jī)預(yù)警中不可忽視的作用。
2.3效果預(yù)測(cè)
通過(guò)數(shù)據(jù)挖掘與分析,可以通過(guò)對(duì)企業(yè)已掌控的圈子,消費(fèi)群體的黏著度,事件的時(shí)序,傳播的投入上去事先預(yù)測(cè)相關(guān)的效果。從而讓企業(yè)能花最少的錢(qián)得到最大的產(chǎn)出。在2010年,惠普實(shí)驗(yàn)室的研究人員Sitaram Asur和Bernardo Huberman發(fā)現(xiàn),通過(guò)Twitter可以了解人們興趣的變化,從而準(zhǔn)確預(yù)測(cè)電影票房收入。他們統(tǒng)計(jì)了一部電影名字在Twitter上出現(xiàn)的次數(shù),收集了3個(gè)月內(nèi)與電影相關(guān)的約300萬(wàn)個(gè)tweet,發(fā)現(xiàn)電影名字出現(xiàn)的頻率與電影的票房收入存在很強(qiáng)的相關(guān)性。Bernardo Huberman說(shuō):“我們的預(yù)測(cè)非常準(zhǔn)確?!币越┦稓⒊隹袢随?zhèn)》為例。研究小組預(yù)測(cè)這部影片在美國(guó)上映的首周票房為1680萬(wàn)美元,實(shí)際數(shù)字為1606萬(wàn)美元。我們分析推文并衡量推文產(chǎn)生的速度。并且認(rèn)為,關(guān)于某部電影的推文產(chǎn)生速度越快,大家越有可能去觀看這部電影。
3購(gòu)物網(wǎng)站數(shù)據(jù)挖掘的步驟
基于網(wǎng)購(gòu),對(duì)所牽涉的網(wǎng)購(gòu)數(shù)據(jù)庫(kù)中的毫無(wú)關(guān)聯(lián)的數(shù)據(jù),進(jìn)行相關(guān)特征上的比對(duì),從而找出“相似性”。
具體步驟如下:
(1)理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源(understanding);
(2)獲取相關(guān)知識(shí)與技術(shù)(acquisition);
(3)整合與檢查數(shù)據(jù)(integration and checking);
(4)去除錯(cuò)誤或不一致的數(shù)據(jù)(data cleaning);
(5)建立模型和假設(shè)(model and hypothesis development); (6)實(shí)際數(shù)據(jù)挖掘工作(data mining);
(7)測(cè)試和驗(yàn)證挖掘結(jié)果(testing and verification);
(8)解釋和應(yīng)用(interpretation and use)。
4購(gòu)物網(wǎng)站數(shù)據(jù)挖掘的的算法
通常我們所說(shuō)的數(shù)據(jù)挖掘的技術(shù)基礎(chǔ)就是人工智能。它使用了人工智能中一些已經(jīng)成熟的算法和技術(shù),如:人工神經(jīng)網(wǎng)絡(luò),遺傳算法,決策樹(shù),規(guī)則推理,模糊邏輯等,就問(wèn)題的復(fù)雜性和難度而言比人工智能要低。進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)挖掘,主要是對(duì)客戶(hù)的訪(fǎng)問(wèn)信息與詳細(xì)身份信息進(jìn)行挖掘,得到客戶(hù)的瀏覽行為模式,找到有價(jià)值的市場(chǎng)信息,從而有針對(duì)性的調(diào)整網(wǎng)頁(yè)設(shè)計(jì),提供個(gè)性化的服務(wù)。數(shù)據(jù)挖掘系統(tǒng)利用的技術(shù)越多,精確度就越高。數(shù)據(jù)挖掘的功能算法主要包括以下幾種:構(gòu)造關(guān)聯(lián)規(guī)則;發(fā)現(xiàn)分類(lèi)規(guī)則;數(shù)據(jù)聚類(lèi)分析;數(shù)據(jù)抽象總結(jié)。下面我們重點(diǎn)研究K-means算法。
1967年,MacQueen在伯克利第五屆數(shù)理統(tǒng)計(jì)年會(huì)上提出k-means算法。它是一種基于樣本間相似性度量的聚類(lèi)方法,是一種非監(jiān)督學(xué)習(xí)的方法。此算法以k為參數(shù),把n個(gè)對(duì)象分為k個(gè)聚類(lèi),以使聚類(lèi)內(nèi)具有較高的相似度,而且聚類(lèi)間的相似度較低。它是一種較典型的逐點(diǎn)修改迭代的動(dòng)態(tài)聚類(lèi)算法,其要點(diǎn)是以誤差平方和為準(zhǔn)則函數(shù)。
k-means算法接受輸入量k;然后將n個(gè)數(shù)據(jù)對(duì)象劃分為k個(gè)聚類(lèi)以便使得所獲得的聚類(lèi)滿(mǎn)足:同一聚類(lèi)中的對(duì)象相似度較高;而不同聚類(lèi)中的對(duì)象相似度較小。聚類(lèi)相似度是利用各聚類(lèi)中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”(引力中心)來(lái)進(jìn)行計(jì)算的。
基本步驟如下:
(1)從 n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類(lèi)中心;
(2)根據(jù)每個(gè)聚類(lèi)對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象與這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分;
(3)重新計(jì)算每個(gè)(有變化)聚類(lèi)的均值(中心對(duì)象);
(4)計(jì)算標(biāo)準(zhǔn)測(cè)度函數(shù),當(dāng)滿(mǎn)足一定條件,如函數(shù)收斂時(shí),則算法終止;如果條件不滿(mǎn)足則回到步驟。
當(dāng)有新的用戶(hù)訪(fǎng)問(wèn)時(shí),計(jì)算其和虛擬用戶(hù)的相近程度,如果和第一個(gè)虛擬用戶(hù)比較臨近,則將第一個(gè)虛擬用戶(hù)所感興趣的商品集推薦給這個(gè)新用戶(hù)。雖然實(shí)現(xiàn)了個(gè)性化推薦,但是在k-menas算法中,k個(gè)中心的選取一般為隨機(jī)選取或依賴(lài)于領(lǐng)域知識(shí),為了更好地選取k個(gè)中心以提高聚類(lèi)的質(zhì)量,需要以后對(duì)k-menas算法進(jìn)行更好的改進(jìn)。
參考文獻(xiàn)
[1] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小東等譯.北京:機(jī)械工業(yè)出版社,2004.
[2] 李明剛,劉文芳,等.電子商務(wù)原理與應(yīng)用開(kāi)發(fā)務(wù)實(shí)[J].清華大學(xué)出版社,2002.
[3] 劉軍,季常煦,等.電子商務(wù)系統(tǒng)的規(guī)劃與設(shè)計(jì)[J].人民郵電出版社,2001.
[4] 張洪瀚,姜嬌嬌,等.基于數(shù)據(jù)挖掘的電子商務(wù)商品推薦[J].中國(guó)信息解社,2007(9).
[5] 葉彩虹.Web挖掘在網(wǎng)上購(gòu)物中的應(yīng)用研究[D].安慶師范學(xué)院學(xué)報(bào),2004(11).