張志強
(西安外事學(xué)院 陜西 西安 710077)
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)用戶興趣分類研究
張志強
(西安外事學(xué)院 陜西 西安 710077)
在移動互聯(lián)網(wǎng)發(fā)展快速的今天,數(shù)據(jù)是最寶貴的資源之一,如何利用海量數(shù)據(jù)完成特定應(yīng)用。本文基于數(shù)據(jù)挖掘技術(shù)實現(xiàn)網(wǎng)絡(luò)用戶興趣分類為用戶提供特定服務(wù),設(shè)定合理的用戶興趣模型確保個性化服務(wù)優(yōu)劣的核心。提出一種基于HITS算法通過用戶訪問量實現(xiàn)興趣分類的策略,通過網(wǎng)絡(luò)數(shù)據(jù)采集、模型分析完成對興趣數(shù)據(jù)的處理,得出了HITS在用戶興趣分類方面有較大的優(yōu)勢。
移動互聯(lián)網(wǎng);海量數(shù)據(jù);數(shù)據(jù)挖掘;興趣分類
數(shù)據(jù)挖掘的基礎(chǔ)技術(shù)研究已經(jīng)進展了將近十年,各類基于數(shù)據(jù)挖掘的應(yīng)用服務(wù)已經(jīng)得到了廣泛的推廣。對于互聯(lián)網(wǎng)的使用,如何實現(xiàn)面向用戶群的特定服務(wù)推廣是學(xué)者專家以及各類互聯(lián)網(wǎng)公司研究的熱點問題,本文提出了一種面向用戶興趣分類的移動互聯(lián)網(wǎng)數(shù)據(jù)分類算法。
數(shù)據(jù)挖掘技術(shù)的發(fā)展推進了移動互聯(lián)網(wǎng)應(yīng)用的廣泛推廣,根據(jù) CNNIC (China Internet Network Information Center)公布的統(tǒng)計結(jié)果表明,截止到2015年12月,中國網(wǎng)民規(guī)模達(dá)到6.88億,手機用戶也達(dá)到了1.27億,如何提升用戶上網(wǎng)感知度是當(dāng)前互聯(lián)網(wǎng)研究的熱點問題。
網(wǎng)絡(luò)用戶興趣分類是指根據(jù)互聯(lián)網(wǎng)用戶的訪問點擊量來實現(xiàn)自動分類推薦功能,常見有通過統(tǒng)計關(guān)鍵詞、點擊鏈接等方式來統(tǒng)計用戶的興趣熱點,比如用戶輸入關(guān)鍵詞“蘋果”,有些用戶關(guān)注水果“蘋果”方面的知識,有些用戶關(guān)注“IPhone”等系列電子產(chǎn)品的知識,通過這種方式形成個性化服務(wù)。利用數(shù)據(jù)挖掘技術(shù)完成個性化服務(wù)的研究[5]。
當(dāng)前對于興趣分類研究,國內(nèi)外學(xué)者已經(jīng)做了大量的研究工作,Cantador I[1]等人提出了一種從個人配置的語義信息文件中獲取用戶興趣的方法。主要策略是對用戶共享的這些語義信息文件進行聚類,得到若干類簇,并根據(jù)聚類結(jié)果,建立多層結(jié)果的興趣模型。Kramar T[2]等人提出了一種基于元數(shù)據(jù)的用戶興趣模型,其中元數(shù)據(jù)是由從用戶訪問的每個頁面提取的關(guān)鍵字,術(shù)語和標(biāo)記等詞組與擴展的詞組合而成的序列。當(dāng)用戶使用短語進行搜索時,可以根據(jù)這種擴展的詞組能準(zhǔn)確的獲取用戶所需要的信息。Liu Z,Chen X[3]等人針對微博用戶發(fā)表的信息的嘈雜性和詞語的多樣性,提出一種將基于轉(zhuǎn)化的方法和基于頻次的方法相結(jié)合的關(guān)鍵詞提取方法來挖掘用戶的興趣。
文中提出一種利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)網(wǎng)絡(luò)用戶興趣分類的應(yīng)用模型,首先介紹了經(jīng)典的HITS模型理論,從數(shù)據(jù)采集、理論分析等方面介紹模型的具體實現(xiàn)過程,并通過實驗分析了模型的性能特性。
在互聯(lián)網(wǎng)搜索領(lǐng)域中,HITS(Hypertext Induced Topic Search)算法是一種重要的基于權(quán)重排序的互聯(lián)網(wǎng)數(shù)據(jù)搜索算法,HITS算法的核心是利用網(wǎng)頁設(shè)計中兩個通用的值:hub值與authority值,所謂hub值是由頁面所指向的所有網(wǎng)頁的authority值構(gòu)成;而authority值由指向該頁面的所有網(wǎng)頁hub值構(gòu)成。在互聯(lián)網(wǎng)應(yīng)用中,通常采用較高權(quán)值的網(wǎng)頁更加傾向與其它相關(guān)網(wǎng)頁進行連接,換句話說,多個權(quán)值高的網(wǎng)頁若指向同一個未知網(wǎng)頁,那么該網(wǎng)頁具備更高權(quán)值的可能性會很大[5-7]。
HITS的邏輯實現(xiàn)過程如下公式如下所示,描述過程如下:假設(shè)在實際網(wǎng)絡(luò)中節(jié)點i在時刻t時的authority值由所有指向i節(jié)點在t-1時刻的hub值累加構(gòu)成,如公式(1)所示,而公式(2)中表示節(jié)點i在時刻t的hub值由節(jié)點i所指向的所有節(jié)點的t-1時刻的authority值累加構(gòu)成,而公式(3)和公式(4)是權(quán)值計算的迭代過程,經(jīng)過 n次迭代后實現(xiàn)authority值和hub值的歸一化,直到排序結(jié)果趨于穩(wěn)定后停止迭代。
文中針對HITS模型在實際互聯(lián)網(wǎng)應(yīng)用中存在的問題進行改進,傳統(tǒng)的HITS模型通常在網(wǎng)頁訪問中將hub中每一個指向的鏈接都將指定一個權(quán)重高的值,假若頁面中僅有1條鏈接,那么hub值會被傳遞給連接頁面的authority值,但如果一個頁面存在大量的連接時,將會有大量的hub值被傳遞給頁面的authority值,這顯然是不符合實際應(yīng)用情況的。為此本文對公式(2)提出進行了修改,如公式(5)所示,在模型中增加了網(wǎng)絡(luò)流的方向性,Oi,out表示用戶i的出度。
2.1 數(shù)據(jù)采集
數(shù)據(jù)采集主要完成模型數(shù)據(jù)的采集工作,通過對互聯(lián)網(wǎng)上所關(guān)注用戶-數(shù)據(jù)的抓取,利用文獻(xiàn)[4]中所提的HTML頁面數(shù)據(jù)收集算法,通過wireshark網(wǎng)絡(luò)工具采集具體的數(shù)據(jù)信息。采集結(jié)果如表1所示。
表1 數(shù)據(jù)采集結(jié)果
通過將用戶瀏覽的html頁面內(nèi)容表示成文本的特征向量形式,作為數(shù)據(jù)預(yù)處理的過程,便于后續(xù)模型的使用。
2.2 模型實現(xiàn)
文中通過Hadoop框架進行模型的實現(xiàn)設(shè)計,通過IE瀏覽器實現(xiàn)搜索引擎的連接,在Hadoop的編程框架中利用MapReduce函數(shù)匹配搜索引擎并進行分析處理[6]。在Map階段對數(shù)據(jù)進行預(yù)處理,去除字段不完整的記錄,按照設(shè)定的規(guī)則拆分相應(yīng)字段,用于匹配各個搜索引擎的Host字段,然后根據(jù)各個搜索引擎的特點,進行相應(yīng)的解碼[10]。采取這種處理模式,實現(xiàn)了對多個搜索引擎(也可認(rèn)為是多業(yè)務(wù)輸出的目的)的處理,偽代碼如下:
2.3 實驗驗證
在本節(jié)中,我們評估使用相應(yīng)的測試集本文提出的分類器的性能。該實驗基于SVM根據(jù)該信息在個人網(wǎng)站發(fā)布的用戶的消費意愿進行分類。本章中所使用的所有數(shù)據(jù)均來自Amazon.com。
在亞馬遜的網(wǎng)站有10個大類和60多萬的采購數(shù)據(jù),這些數(shù)據(jù)從數(shù)字設(shè)備選定表1所示。從所有的采購數(shù)據(jù),2 000條記錄,隨機拿起本實驗中使用amazon.com的數(shù)據(jù)類別。我們刪除了這些短信息,最后剩下的是第1 898個標(biāo)記后,我們獲得了990個消費意圖的信息和908個沒有信息消費的意圖[11-15]。
通過獲人工標(biāo)注的方法得測試數(shù)據(jù),我們從個人網(wǎng)站隨機抽取的發(fā)布信息的記錄。然后手動注明這些記錄是否與消費興趣相關(guān),依照本文提出的分類算法得出如表3所示的分類結(jié)果。
表2 測試數(shù)據(jù)
表3 改進的HITS分類性能
通過該測試結(jié)果顯示在本文提出HITS算法在網(wǎng)絡(luò)用戶興趣分類上有明顯的應(yīng)用效果。
文中利用數(shù)據(jù)挖掘的思想設(shè)計實現(xiàn)了用于解決互聯(lián)網(wǎng)用戶興趣分類的研究,利用經(jīng)典的HITS算法的迭代思想,對算法進行部分改進實現(xiàn),并且按照數(shù)據(jù)采集、模型實現(xiàn),采用Hadoop的挖掘框架完成整個模型的設(shè)計,實驗證明模型的性能的優(yōu)勢。
[1]Cantador I,Castells R.Extracting multilayered communities of Interest from semantic user profiles:Application to group modeling and hybrid recommendations[J].Computers in Human Behavior,201l,27(4):1321-1336.
[2]Kramar T,Barla M,Bielikovi M.Personalizing search using socially enhanced interest model builtfrom the stream of User’S activity[J].J.Web Eng.,2013,12(1&2):65-92.
[3]Liu Z,Chen X,Sun M.Mining the interests of Chinese microbloggers via keyword extraction[J],F(xiàn)rontiers of Computer Science,2012,6(1):76-87.
[4]梅佩.基于瀏覽內(nèi)容的用戶興趣研究[M].北京:北京交通大學(xué),2015.
[5]陳如明.大數(shù)據(jù)時代的挑戰(zhàn),價值與應(yīng)對策略[J].移動通信,2012(17):14-15.
[6]陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述 [J].計算機工程與科學(xué),2013,35(10):25-35.
[7]Liu C, Zhou W X.Heterogeneity in initial resource configurationsimproves a networkbasedhybrid recommendation algorithm[J].Physica A:Statistical Mechanics and itsApplications,2012,391(22):5704-5711.
[8]Nacher J C,Akutsu T.On the degree distribution of projected networks mapped frombipartite networks[J].Physica A:Statistical Mechanics and its Applications,2011,390(23):4636-4651.
[9]Pieter N,Michiel H.Mining twitter in the Cloud: A Case Study [C]//CLOUD 2010,Miami,F(xiàn)L,United states, IEEE Computer Society, 2010: 107-114.
[10]Abraham R,Martinez T.Twitter:Network properties analysis[C]//CONIELECOMP 2010,Cholula Puebla,Mexico,IEEE Computer Society,2010:180-184.
[11]余肖生,孫珊.基于網(wǎng)絡(luò)用戶信息行為的個性化推薦模型 [J].重慶理工大學(xué)學(xué)報自然科學(xué)版,2013,27(1):47-50.
[12]Garcia L M.Programming with Libpcap Sniffing the Network From OurOwn Application[J]. Hakin9-ComputerSecurityMagazine,2008:2-2008.
[13]XurenW,F(xiàn)amei H,An implement of broadband network monitoring system based on libnidsand winpcap [C]//New Trendsin Information and Service Science,2009-NISS!09.International Conference on.IEEE,2009:812-814.
Research on data mining classification based on user interest
ZHANG Zhi-qiang
(Xi'an International University,Xi'an 710077,China)
In today's rapid development of mobile Internet,data is the most precious resources,how to use the vast amounts of data to complete a specific application.Thispaperproposedthatthedata mining technology network user interest classification is to provide users with a particular service,andset a reasonable user interest model is to ensure that the core of personalized service merits.Also presenting a user views HITS algorithm to achieve the classification of interest policy,through the network data collection,analysis model to complete the processing of the data of interest,and by examples demonstrate obtain the advantages of the policy.
mobile Internet;vast amounts of data;data mining;classification of Interest
TN929.5
A
1674-6236(2017)10-0034-04
2016-07-18稿件編號:201607130
教育部信息管理中心項目(EIJYB2015053);西安市專項基金項目(16IN08)
張志強(1978—),男,河南許昌人,碩士,講師。研究方向:數(shù)據(jù)挖掘、云計算、計算機網(wǎng)絡(luò)。