許國(guó)迎, 張 寧
(上海理工大學(xué) 管理學(xué)院,上海 200093)
當(dāng)今時(shí)代,網(wǎng)絡(luò)的發(fā)展日益成為人們生活的重要組成部分.隨之而來(lái)的,網(wǎng)絡(luò)中的巨大數(shù)據(jù)資源亦得到了廣大學(xué)者越來(lái)越多的重視.因此,許多學(xué)者致力于數(shù)據(jù)挖掘技術(shù)與人類動(dòng)力學(xué)研究的結(jié)合,并應(yīng)用于實(shí)踐當(dāng)中.
學(xué)者Barabasi曾在《Nature》上提出了一個(gè)基于決策的優(yōu)先權(quán)模型[1],自此開(kāi)啟了人類動(dòng)力學(xué)方面的熱烈討論.隨后,Vazquez又得到了對(duì)該模型的精確解[2],這些模型都是從排隊(duì)論的任務(wù)模型角度來(lái)研究人類動(dòng)力學(xué)的.其實(shí),生活中的人類行為紛繁復(fù)雜,何止是完成任務(wù)這類行為.比如說(shuō)興趣愛(ài)好往往也是人類的一種重要行為去向,有學(xué)者就結(jié)合QQ群的聊天記錄[3],對(duì)單個(gè)用戶和群里所有用戶發(fā)言的時(shí)間間隔進(jìn)行了研究,證明了群體間這種網(wǎng)絡(luò)即時(shí)溝通行為具有人類動(dòng)力學(xué)特征.更有文獻(xiàn)從人類行為、復(fù)雜網(wǎng)絡(luò)和信息挖掘的角度給后續(xù)的研究和學(xué)習(xí)提供了不可多得的重要資料[4].
現(xiàn)階段,個(gè)性化推薦已經(jīng)成為了熱門的研究方向,特別體現(xiàn)在網(wǎng)絡(luò)購(gòu)物中,各商家都希望能夠獲取用戶最真實(shí)的興趣所在,并為之進(jìn)行準(zhǔn)確合適的個(gè)性化信息推薦.這些問(wèn)題都需要深入挖掘用戶興趣,也蘊(yùn)含了巨大的商業(yè)價(jià)值.由此,不難看出,如何得到用戶的興趣取向以及興趣的度量方式成為了至關(guān)重要的課題.
當(dāng)前挖掘用戶興趣行為的方式有兩種,一種是單純從用戶行為的歷史信息中發(fā)現(xiàn)其中所隱藏的規(guī)律,另一種是基于瀏覽內(nèi)容和行為相結(jié)合的方式[5]來(lái)研究用戶的興趣行為.事實(shí)上單純從一個(gè)方面來(lái)分析用戶的興趣是不夠的,應(yīng)該從各個(gè)角度,不同層面來(lái)建立用戶的興趣簇.因此本文根據(jù)用戶的網(wǎng)頁(yè)瀏覽記錄,利用文本分類技術(shù)提取出若干興趣關(guān)鍵詞,并進(jìn)行分類統(tǒng)計(jì)分析.在得到用戶訪問(wèn)量的基礎(chǔ)上,運(yùn)用歸一化的方法,實(shí)現(xiàn)用戶興趣的度量和相互比較的目標(biāo).
聚類分析就是將一組對(duì)象集合按照相似性分成若干類別,目的是使得同一類別的對(duì)象之間的相似度最大,而不同類別的對(duì)象間相似度最小.聚類的思想源于很多學(xué)科,如數(shù)學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、統(tǒng)計(jì)學(xué)和經(jīng)濟(jì)學(xué)等.在不同的領(lǐng)域里,這種技術(shù)都被用于描述數(shù)據(jù)、衡量數(shù)據(jù)源之間的相似性,并把數(shù)據(jù)源分類到不同的簇中.特別是在商業(yè)領(lǐng)域,經(jīng)常會(huì)通過(guò)聚類分析來(lái)發(fā)現(xiàn)不同類型的客戶群,進(jìn)而刻畫(huà)不同客戶群的特征,從而可以更好地幫助商家了解自己的客戶,向客戶提供更好的服務(wù).聚類分析的算法[6]主要包括層次聚類法、基于密度的方法、平面劃分方法、基于網(wǎng)格的方法和基于模型的方法.
層次聚類算法,又稱系統(tǒng)聚類法,是被廣泛應(yīng)用的算法之一.雖然復(fù)雜度較高,不適合大數(shù)據(jù)的計(jì)算,但操作步驟簡(jiǎn)單方便.本文利用層次聚類的方法,深入分析群體用戶的網(wǎng)頁(yè)瀏覽記錄,并從中得到相關(guān)的用戶興趣類.
在得到用戶興趣簇之后,綜合利用文本分類技術(shù)提取出用戶的興趣關(guān)鍵詞.首先對(duì)用戶瀏覽過(guò)的頁(yè)面進(jìn)行內(nèi)容分析,并根據(jù)主題信息對(duì)頁(yè)面再進(jìn)行聚類分析.在聚類的過(guò)程中除了考慮頁(yè)面內(nèi)容的相近程度外,還輔以頁(yè)面路徑進(jìn)行歸類判斷,從而得到網(wǎng)頁(yè)頁(yè)面的興趣簇.最后,本文為了較為準(zhǔn)確地反映用戶的真實(shí)興趣,將用戶的上網(wǎng)行為分為18類:搜索引擎、教育、新聞門戶、論壇博客、交友聊天、娛樂(lè)、網(wǎng)上購(gòu)物、生活相關(guān)、游戲、體育、電影音樂(lè)、web郵件、文學(xué)、財(cái)經(jīng)、求職招聘、房產(chǎn)裝修、股票交易和軍事.鑒于所選對(duì)象為高校師生,因此這18類興趣關(guān)鍵詞可基本代表了這一特定群體的主流興趣取向.
興趣度,就是用來(lái)衡量人們對(duì)某事物的感興趣程度.個(gè)性化推薦系統(tǒng)對(duì)于這種抽象的概念,一般是通過(guò)模型的方法,先給出相應(yīng)的興趣度定義,再加以數(shù)據(jù)的實(shí)證研究.目前主要有傳統(tǒng)的基于瀏覽內(nèi)容的興趣度模型[7-8]、基于用戶瀏覽行為的興趣度模型[9]和動(dòng)態(tài)變化的用戶興趣模型,這3種模型各有所長(zhǎng),代表了研究水平的不斷深入和提高.
基于瀏覽內(nèi)容的用戶興趣模型一般是考慮用戶在某一興趣類中的訪問(wèn)頻繁度,即興趣類頁(yè)面集的頁(yè)面總數(shù)或用戶會(huì)話總數(shù).如果某一興趣類的頁(yè)面總數(shù)最多,那么對(duì)該類興趣的傾向程度也就最高.然而,這種方法的不足之處是將用戶訪問(wèn)的所有頁(yè)面等同地看待,沒(méi)有分出主次輕重.事實(shí)上,每張頁(yè)面所包含的信息并非總是單一,用戶對(duì)頁(yè)面中不同內(nèi)容的興趣程度也有所區(qū)別.
基于用戶瀏覽行為的模型主要是分析用戶的行為模式,并結(jié)合用戶的瀏覽內(nèi)容,挖掘用戶的興趣及給出相應(yīng)的度量標(biāo)準(zhǔn)和計(jì)算方法.因?yàn)橛脩舻男枨蟛煌?,從而用戶的各種瀏覽行為也就體現(xiàn)出不同的興趣傾向.一般來(lái)說(shuō),用戶瀏覽行為有頁(yè)面標(biāo)記行為(包括增加書(shū)簽、刪除書(shū)簽、保持頁(yè)面和打印頁(yè)面行為)和頁(yè)面操作行為(包括復(fù)制、粘貼、剪切、拉動(dòng)滾動(dòng)條、點(diǎn)擊鏈接和移動(dòng)鼠標(biāo)行為).這種模型引入了用戶的瀏覽行為作為興趣度的變量,從而可以更準(zhǔn)確地度量用戶的興趣度.
不難發(fā)現(xiàn),上述兩種興趣度模型都是假設(shè)用戶的興趣不變,但實(shí)際生活中用戶的興趣卻是動(dòng)態(tài)變化的,既可以是逐漸增加,愈加感興趣,也可以是一時(shí)興起,繼而逐漸淡忘.因此,有學(xué)者提出了動(dòng)態(tài)變化的用戶興趣度模型,如蔣翀等[10]建立基于線性衰減的用戶興趣度模型,單蓉[11]建立了基于遺忘機(jī)制的用戶興趣度模型,兩者分別選用不同的數(shù)學(xué)方法來(lái)分析和量化用戶動(dòng)態(tài)變化的興趣.
本文中用戶興趣度是指用戶對(duì)某一興趣關(guān)鍵詞的感興趣程度,是對(duì)興趣的一個(gè)量化指標(biāo).綜合分析各種興趣度模型的優(yōu)缺點(diǎn)后,結(jié)合研究數(shù)據(jù)的特點(diǎn),本文選擇歸一化的方法來(lái)度量用戶的興趣度.計(jì)算公式為
其中,Li表示用戶對(duì)第i個(gè)興趣關(guān)鍵詞的興趣度,xi指用戶對(duì)第i個(gè)興趣關(guān)鍵詞的訪問(wèn)量,max(x1,x2,…,xn)表示訪問(wèn)量的最大值,min(x1,x2,…,xn)為訪問(wèn)量的最小值.
對(duì)每個(gè)興趣關(guān)鍵詞,選取典型個(gè)體用戶進(jìn)行網(wǎng)頁(yè)瀏覽記錄的統(tǒng)計(jì)分析.對(duì)于上述18個(gè)關(guān)鍵詞,本文選取了8位典型用戶的網(wǎng)頁(yè)瀏覽記錄加以分析,為表述方便,分別用英文字母A,B,…,H表示.統(tǒng)計(jì)出的用戶訪問(wèn)量變化規(guī)律如圖1~8所示.
圖2 用戶B的網(wǎng)頁(yè)瀏覽記錄(教育)Fig.2 Web browser log of the user B (education)
圖3 用戶C的網(wǎng)頁(yè)瀏覽記錄(新聞門戶)Fig.3 Web browser log of the user C (news portal)
圖4 用戶D的網(wǎng)頁(yè)瀏覽記錄(論壇博客)Fig.4 Web browser log of the user D (forum biog)
圖5 用戶E的網(wǎng)頁(yè)瀏覽記錄(交友聊天)Fig.5 Web browser log of the user E (online chatting)
圖6 用戶F的網(wǎng)頁(yè)瀏覽記錄(娛樂(lè))Fig.6 Web browser log of the user F (entertainment)
圖7 用戶G的網(wǎng)頁(yè)瀏覽記錄(網(wǎng)上購(gòu)物)Fig.7 Web browser log of the user G (online shopping)
圖8 用戶H的網(wǎng)頁(yè)瀏覽記錄 (生活相關(guān))Fig.8 Web browser log of the user H (life-related)
這8幅圖顯示的是典型用戶在14d時(shí)間內(nèi)的訪問(wèn)量曲線圖,以天為單位,分別以上述18類興趣關(guān)鍵詞作為統(tǒng)計(jì)對(duì)象,統(tǒng)計(jì)出用戶對(duì)這些興趣關(guān)鍵詞的訪問(wèn)量.從圖中可以看出,每個(gè)典型用戶都有自己特有的興趣傾向面,訪問(wèn)曲線也呈現(xiàn)出形態(tài)各異的波動(dòng)性.如從用戶A的瀏覽記錄里發(fā)現(xiàn)該用戶更多的是使用搜索引擎網(wǎng)站,常用的有百度、谷歌等熱門搜索引擎網(wǎng)站;用戶B和D表現(xiàn)出對(duì)某一個(gè)興趣關(guān)鍵詞有極大興趣,而對(duì)其它興趣類則很少瀏覽的特點(diǎn).因此,在個(gè)性化推薦系統(tǒng)中,像此類興趣單一型的用戶,可以從群體用戶中顯著地分離開(kāi)來(lái).另外,可設(shè)置個(gè)性化信息推送系統(tǒng),迎合該類特定用戶的興趣,有針對(duì)性地推薦信息,一定會(huì)達(dá)到事半功倍的效果.用戶C,E,F(xiàn),G和H則都表現(xiàn)出對(duì)某幾類興趣關(guān)鍵詞的較高關(guān)注.具體來(lái)說(shuō),用戶C關(guān)注新聞,用戶E喜歡交友聊天,用戶F更多的是瀏覽娛樂(lè)信息,用戶G在上網(wǎng)時(shí),傾向于瀏覽與網(wǎng)絡(luò)購(gòu)物相關(guān)的信息,用戶H喜歡與生活相關(guān)的內(nèi)容.這些性格多樣、興趣廣泛的用戶在群體用戶中占有相當(dāng)大的比重,可以對(duì)該類用戶作多樣性信息推薦.曲線圖的優(yōu)勢(shì)在于直觀,易分析出典型用戶的最大興趣關(guān)注領(lǐng)域,但對(duì)于其它興趣關(guān)鍵詞之間的區(qū)別如何、它們之間又有什么聯(lián)系,無(wú)法從圖中直接得知.為此,用戶興趣度的量化就顯得十分必要,這也是本文興趣度模型的重點(diǎn)所在.
針對(duì)典型個(gè)體用戶的網(wǎng)頁(yè)瀏覽記錄,運(yùn)用興趣度計(jì)算公式分別進(jìn)行歸一化處理,具體結(jié)果如表1所示.
表1 典型個(gè)體用戶的興趣度Tab.1 Degree of typical individual user’s interest
有了歸一化的度量結(jié)果后,就可以比較清晰地看出每一個(gè)用戶的興趣關(guān)鍵詞之間的區(qū)別和聯(lián)系.如用戶A對(duì)搜索引擎的興趣度是1.000,充分說(shuō)明了該用戶對(duì)搜索引擎網(wǎng)站的興趣度是最高的,對(duì)教育類信息的興趣度是0.021,而對(duì)游戲類信息的興趣度是0.100,新聞?lì)惡蛙娛骂愋畔⒌呐d趣度都是大于0.100.由此可以推斷,用戶A不僅傾向于用搜索引擎網(wǎng)站,還對(duì)新聞?lì)惡蛙娛骂愋畔⑾喈?dāng)關(guān)注,并且關(guān)注程度是高于游戲類信息的.不妨大膽預(yù)測(cè),這是一位朝氣蓬勃,喜歡軍事的年輕男性.綜合所選取的8位典型用戶,也只有該用戶表現(xiàn)出對(duì)軍事信息最高的興趣,非常具有代表意義.若是在個(gè)性化推薦系統(tǒng)中,這樣的用戶就可以作為典型的用戶類型,個(gè)性化地為其推送軍事相關(guān)的信息.用戶B則是非常個(gè)性化的典型個(gè)體用戶,在他的網(wǎng)頁(yè)瀏覽記錄中,幾乎全部瀏覽的是教育類信息,可見(jiàn)其對(duì)教育領(lǐng)域的關(guān)注程度是非常高的,甚至可以大膽推測(cè),該用戶極有可能是一位教師,非常關(guān)注國(guó)家的教育事業(yè).用戶C瀏覽新聞信息的興趣度為1.000,并且瀏覽教育信息的興趣度是0.664,除了這兩類興趣關(guān)鍵詞外,甚少瀏覽其它興趣關(guān)鍵詞的信息,說(shuō)明了該用戶是不僅關(guān)注新聞,尤其是關(guān)注教育領(lǐng)域新聞的人,他的興趣傾向也會(huì)更多地偏向于教育領(lǐng)域.從用戶聚類分析的角度,用戶B和C可以說(shuō)是歸于一類.用戶D瀏覽論壇博客新聞興趣度為1.000,其它興趣關(guān)鍵詞為0.000,充分展現(xiàn)了這是一個(gè)喜歡交友,喜歡網(wǎng)絡(luò)聊天的用戶,可以想見(jiàn),他對(duì)交友類信息會(huì)比他人更為敏感和關(guān)注.用戶E則是一個(gè)興趣較為廣泛的人,表現(xiàn)出喜歡看新聞、聽(tīng)音樂(lè)、交友聊天和網(wǎng)上購(gòu)物,而且興趣度相差不大.對(duì)于其他用戶,也可以通過(guò)類似的比較方法,發(fā)現(xiàn)不同用戶的不同興趣傾向,以及進(jìn)行相互之間的縱向比較.
可以展望,用上述興趣度計(jì)算方法,可以很好地定位互聯(lián)網(wǎng)中成千上萬(wàn)用戶的興趣傾向及興趣度,對(duì)網(wǎng)站的設(shè)計(jì)和建立個(gè)性化推薦系統(tǒng)有一定的參考意義.
從實(shí)證角度利用興趣聚類方法對(duì)網(wǎng)頁(yè)瀏覽日志中群體用戶的興趣進(jìn)行挖掘,分析提取出群體用戶的18類興趣關(guān)鍵詞,并運(yùn)用統(tǒng)計(jì)學(xué)方法,對(duì)8位典型用戶的網(wǎng)頁(yè)瀏覽記錄進(jìn)行分析,統(tǒng)計(jì)各自的興趣關(guān)鍵詞訪問(wèn)量.然后根據(jù)興趣度的計(jì)算公式,給出了用戶興趣的度量方法,得到了理論模型和實(shí)證結(jié)果.文章提供了一個(gè)尋找用戶興趣傾向、度量用戶興趣度的方法,從而為人類動(dòng)力學(xué)研究提供了一個(gè)切實(shí)可行的思路,并且對(duì)個(gè)性化推薦系統(tǒng)的研究也具有較好的指導(dǎo)意義.
[1]Barabasi A L.The origin of bursts and heavy tails in human dynamics[J].Nature,2005,435(7039):207-211.
[2]Vazqueza A.Exact results for the Barabasi model of human dynamics[J].Physical Review Letters,2005,95(24):248710.
[3]羅芳,楊建梅,李志宏.QQ群消息中的人類動(dòng)力學(xué)研究[J].華南理工大學(xué)學(xué)報(bào),2011,13(4):14-19.
[4]汪秉宏,周濤,周昌松.人類行為,復(fù)雜網(wǎng)絡(luò)及信息挖掘的統(tǒng)計(jì)物理研究[J].上海理工大學(xué)學(xué)報(bào),2012,34(2):103-117.
[5]趙銀春,付關(guān)友,朱征宇.基于 Web瀏覽內(nèi)容和行為相結(jié)合的用戶興趣挖掘[J].計(jì)算機(jī)工程,2005,31(12):93-94.
[6]Han J W,Kamber M.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[7]呂佳.基于興趣度的web用戶訪問(wèn)模式分析[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(10):2403-2407.
[8]郭巖.網(wǎng)絡(luò)日志中用戶興趣的挖掘及利用[D].北京:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,2004.
[9]王微微,夏秀峰,李曉明.一種基于用戶行為的興趣度建模[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(8):148-151.
[10]蔣翀,費(fèi)洪曉.基于線性衰減的用戶興趣建模[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(6):140-143.
[11]單蓉.用戶興趣模型的更新與遺忘機(jī)制研究[J].微型電腦應(yīng)用,2011,27(7):10-11.