文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用

2016-11-24 16:28張建偉

商 2016年34期

摘要：本文提出了一種基于文本數(shù)據(jù)挖掘的個(gè)性化推薦算法，該算法在電子商務(wù)網(wǎng)站應(yīng)用中，通過對(duì)服務(wù)器日志進(jìn)行分析，跟蹤單一用戶的當(dāng)前的瀏覽偏好，并根據(jù)當(dāng)前偏好進(jìn)行個(gè)性化商品信息的推薦，能夠很好的解決傳統(tǒng)算法中推薦信息滯后的尷尬問題。

關(guān)鍵詞：文本挖掘；個(gè)性化推薦；層次聚類

一、引言

隨著WEB2.0產(chǎn)品形式的進(jìn)一步多樣化，用戶的行為可以更廣泛的被獲取并加以利用，所以使用文本挖掘方法的開始出現(xiàn)在電子商務(wù)網(wǎng)站的推薦中。此外，社交產(chǎn)品越來越受互聯(lián)網(wǎng)用戶的青睞，會(huì)產(chǎn)生大量的訪問日志，再加上大規(guī)模數(shù)據(jù)處理和分析技術(shù)的發(fā)展，使得使用文本數(shù)據(jù)挖掘來分析用戶個(gè)性化偏好變得更加現(xiàn)實(shí)。大數(shù)據(jù)的優(yōu)勢(shì)在于它能夠及時(shí)的對(duì)用戶行為數(shù)據(jù)進(jìn)行高效的分析處理，并且目前相關(guān)的專家學(xué)者在此方面已經(jīng)取得了突破性的成功[1]。本文在前人研究的基礎(chǔ)之上，嘗試結(jié)合電子商務(wù)網(wǎng)站，使用文本數(shù)據(jù)挖掘來對(duì)個(gè)性化推薦進(jìn)行研究。主要針對(duì)用戶的交易日志信息進(jìn)行關(guān)鍵詞提取，形成興趣的關(guān)聯(lián)規(guī)則，進(jìn)一步采用聚類分析，最終給出相應(yīng)的推薦結(jié)果。推薦結(jié)果的驗(yàn)證使用時(shí)效性、精準(zhǔn)率和召回率等指標(biāo)進(jìn)行驗(yàn)證[2]。

二、文本詞條獲取

（一）服務(wù)器日志挖掘

所謂在電子商務(wù)平臺(tái)上使用文本數(shù)據(jù)挖掘是指提取訪客的頁(yè)面訪問日志，在其基礎(chǔ)上對(duì)訪問的一系列相關(guān)頁(yè)面的核心主題關(guān)鍵詞進(jìn)行提取，以此來跟蹤訪客當(dāng)前的興趣行為偏好。首先對(duì)網(wǎng)站的頁(yè)面結(jié)構(gòu)進(jìn)行分析。一般的電子商務(wù)網(wǎng)站頁(yè)面有以下幾個(gè)模塊組成：菜單索引、商品詳細(xì)展示、購(gòu)物導(dǎo)航和服務(wù)信息說明等，在這些模塊中對(duì)于跟蹤訪客行為偏好最有幫助的是商品信息展示，因?yàn)槟壳皩?duì)詞條提取技術(shù)只對(duì)文本內(nèi)容進(jìn)行獲取，而這部分包含了商品的詳細(xì)介紹，并且為了使商品在平臺(tái)網(wǎng)站內(nèi)能夠更容易被檢索出，該部分內(nèi)容大都經(jīng)過了迎合爬蟲技術(shù)的優(yōu)化[3]，故該部分是被關(guān)注的重點(diǎn)。

其次是要對(duì)用戶的交易事務(wù)進(jìn)行提取，該部分主要包括數(shù)據(jù)過濾、用戶識(shí)別和會(huì)話識(shí)別。數(shù)據(jù)過濾主要是清洗掉一些錯(cuò)誤數(shù)據(jù)和一些無關(guān)的數(shù)據(jù)，比如訪客的網(wǎng)絡(luò)資源受限，請(qǐng)求的資源頁(yè)面失敗或者服務(wù)器并未將資源成功返回給訪客，這些數(shù)據(jù)的提前清洗有利于減輕后續(xù)關(guān)聯(lián)規(guī)則和聚類分析時(shí)的負(fù)荷。用戶的識(shí)別本文使用目前最為主流的cookie技術(shù)用來跟蹤單一訪客，該技術(shù)實(shí)現(xiàn)的可行性高，唯一的缺點(diǎn)是用戶有可能會(huì)關(guān)閉瀏覽器的cookie功能，如果這種情況出現(xiàn)，進(jìn)而采用SessionID技術(shù)，該技術(shù)會(huì)動(dòng)態(tài)的嵌入到訪客訪問中一個(gè)唯一標(biāo)識(shí)，但他無法記錄用戶是否重復(fù)訪問[4]。會(huì)話識(shí)別是指將用戶的單一訪問區(qū)分開來，目前的開發(fā)技術(shù)均使用的是單一訪問模式，當(dāng)用戶登錄后，服務(wù)器會(huì)自動(dòng)的獲取一個(gè)單一會(huì)話，并且服務(wù)器日志會(huì)跟蹤記錄該會(huì)話的活動(dòng)，若超越30分鐘無活動(dòng)，將自動(dòng)斷開。本文也基于服務(wù)器默認(rèn)的30分鐘為期限劃分會(huì)話。

（二）特征詞條提取

文本挖掘最核心的第一項(xiàng)任務(wù)就是文本特征詞條的提取，也就是對(duì)訪客訪問頁(yè)面中的核心詞匯的提取。例如，訪客連續(xù)訪問了一系列頁(yè)面A1，A2，A3，…，An，通過對(duì)n個(gè)頁(yè)面中每一個(gè)頁(yè)面的核心詞條的獲取，可以掌握用戶當(dāng)前的行為偏好和偏好的時(shí)時(shí)變化。獲取特征詞條的第一步涉及到中文的分詞技術(shù)。中文分詞最大的難度在于消除歧義，中文語法中不同的斷句會(huì)引來歧義。為了解決這一問題。目前中文分詞應(yīng)用最常規(guī)的方法是CRFs算法，他是在條件隨機(jī)域算法CRF的技術(shù)上演變過來的[5]。

該模型算法能夠很好的解決目前中文分詞中所遇到的相關(guān)問，而該問題的解決也為進(jìn)一步提取特征詞條打下了良好的基礎(chǔ)。由于詞條出現(xiàn)在頁(yè)面的不同位置，其重要程度具有很大差別，故需要提前劃分好相應(yīng)的位置權(quán)重。本文將一個(gè)完整的頁(yè)面分為3個(gè)域：標(biāo)題、內(nèi)容和meta描述標(biāo)簽，分別對(duì)應(yīng)的權(quán)重為0.5，0.3和0.2。進(jìn)一步獲取單一頁(yè)面的特征詞的加權(quán)排名，本文選取每個(gè)頁(yè)面中排名的前六的詞條來代表當(dāng)前頁(yè)面，過少的詞條不足以代表整體頁(yè)面，過多勢(shì)必會(huì)加大算法的執(zhí)行負(fù)荷。

三、特征詞條聚類分析

經(jīng)過對(duì)特征詞條提取后，一個(gè)完整的交易事務(wù)已經(jīng)轉(zhuǎn)變?yōu)樘卣髟~條表示的詞條組，多個(gè)交易事務(wù)放在一起會(huì)形成一個(gè)相關(guān)的矩陣。使用T={t1，t2，t3，…，tn}表示單一頁(yè)面的特征詞，一個(gè)完整的交易事務(wù)使用Page={p1，p2，p3，…，pm}表示，可以使用pi={tw，twtw，…tw，…tw}表示單一頁(yè)面對(duì)特種詞條的權(quán)重表示[6]。

聚類的目的是在相似性的基礎(chǔ)之上將目標(biāo)數(shù)據(jù)進(jìn)行分類，把相似性接近的數(shù)據(jù)凝集在一起。當(dāng)前的聚類方法有模糊聚類、層次聚類和密度聚類等，本文選擇使用層次聚類，它也是目前在文本數(shù)據(jù)挖掘中使用較為廣泛的一種方法[7]。算法描述如下。

第一步：假設(shè)共有類N個(gè)，每個(gè)類均有且僅有一個(gè)對(duì)象類成。按順序?yàn)槠渚幪?hào)m = 0，L（m）= 0。第二步：將距離矩陣命名為D，在D中尋找最小距離d[（r），（s）]= min d[（i），（j）]。第三步：將（r）和（s）合并成一個(gè)新類（r，s）；令m = m +1，L（m）= d[（r），（s）]。第四步：更新距離矩陣D：將表示類（r）和類（s）的行列刪除，同時(shí)加入表示新類（r，s）的行列；同時(shí)定義新類（r，s）與各舊類（k）的距離為d[（k），（r，s）]= min d[（k），（r）]，d[（k），（s）]。第五步：反復(fù)步驟二到四，直到將所有的對(duì)象合并成一個(gè)新類為止。

通過層次聚類分析后可以找到興趣點(diǎn)相近的用戶群，再根據(jù)相似度計(jì)算可以將興趣點(diǎn)相似的用戶購(gòu)買行為相互推薦。最后涉及到推薦結(jié)果排序的問題，首先推薦的結(jié)果中禁止出現(xiàn)用戶已經(jīng)購(gòu)買過的產(chǎn)品，解決的方法是比照用戶的購(gòu)買結(jié)果和已加入購(gòu)物車的商品清單，如有重復(fù)首先清洗。其次的推薦結(jié)果按照相似用戶群中商品的相似度高低進(jìn)行排序。為保證用戶的滿意度，選取適當(dāng)?shù)耐扑]數(shù)量即可，推薦商品數(shù)目過多，會(huì)導(dǎo)致推薦失真，過少會(huì)影響推薦結(jié)果的豐富程度。

四、總結(jié)

本文給出了一種基于文本數(shù)據(jù)挖掘的推薦算法，目的在于通過大數(shù)據(jù)分析處理來實(shí)時(shí)的跟蹤用戶行為，進(jìn)一步解決傳統(tǒng)基于關(guān)聯(lián)規(guī)則推薦算法在出現(xiàn)推薦信息之后的問題?；谖谋緮?shù)據(jù)挖掘的算法的優(yōu)勢(shì)在于它是通過分析服務(wù)器交易日志，進(jìn)一步對(duì)當(dāng)前用戶訪問頁(yè)面進(jìn)行特征詞條的獲取，進(jìn)而在層次聚類的基礎(chǔ)上計(jì)算相似度，進(jìn)行商品信息的推薦。這種方式不僅是電子商務(wù)平臺(tái)中適用，也可以一直到互聯(lián)網(wǎng)廣告的個(gè)性化推薦中。

參考文獻(xiàn)：

[1] 陳新中，李巖.Web挖掘研究[J].計(jì)算機(jī)工程與應(yīng)用，2002

[2] 項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].第1版.北京：人民郵電出版社，2012

[3] 張俊林.這就是搜索引擎：核心技術(shù)詳解[M].北京：電子工業(yè)出版社，2012

[4] 易明.基于Web挖掘的電子商務(wù)個(gè)性化推薦機(jī)理與方法研究[D].武漢：華中科技大學(xué)，2009

[5] 韓雪冬.基于CRFs的中文分詞算法研究與實(shí)現(xiàn)[D].北京：北京郵電大學(xué)，2010

[6] 邵康，張建偉.基于 BM25F 模型的 Web 文本挖掘個(gè)性化推薦研究[J].情報(bào)理論與實(shí)踐，2013

[7] 周翔翔，姚佩陽，王欣.基于改進(jìn)層次聚類法的指揮控制資源部署[J].系統(tǒng)工程與電子技術(shù)：2012

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用