国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Web挖掘與社會(huì)網(wǎng)絡(luò)分析的用戶聚類研究*

2014-09-30 01:48:34張敏劉海鵬李鵬西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院重慶400715
數(shù)字圖書館論壇 2014年3期
關(guān)鍵詞:聚類文獻(xiàn)算法

□ 張敏 劉海鵬 李鵬/西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院 重慶 400715

基于Web挖掘與社會(huì)網(wǎng)絡(luò)分析的用戶聚類研究*

□ 張敏 劉海鵬 李鵬/西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院 重慶 400715

Web用戶聚類對(duì)于個(gè)性化服務(wù)、網(wǎng)站結(jié)構(gòu)優(yōu)化等具有重要意義。文章從用戶的訪問路徑、項(xiàng)目評(píng)分等角度總結(jié)了用戶聚類方法及算法,指出當(dāng)前用戶聚類研究存在的不足,提出了結(jié)合Web挖掘與社會(huì)網(wǎng)絡(luò)分析方法的用戶聚類的模型,分析了兩者結(jié)合的必要性及結(jié)合策略,形成較為完善的用戶聚類機(jī)制。

Web挖掘,社會(huì)網(wǎng)絡(luò)分析,用戶聚類

1 引言

用戶聚類,是指將具有相似行為特征的大量個(gè)體用戶聚合劃分為一定的用戶群,使得同一群內(nèi)的用戶特征相似,而不同群間的用戶特征相異。當(dāng)前的用戶聚類,主要是指Web用戶聚類,與之相近的概念還有用戶聚合、社區(qū)劃分、社區(qū)發(fā)現(xiàn)等。

Web中的海量信息仍在不斷增長(zhǎng),新的Web服務(wù)形式不斷涌現(xiàn),Web環(huán)境中數(shù)據(jù)量巨大、數(shù)據(jù)類型豐富、網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜的特征極為明顯。進(jìn)入Web2.0時(shí)代后,Web環(huán)境更是呈現(xiàn)出新的特征:大量信息內(nèi)容由用戶生成(如博客、社會(huì)化標(biāo)簽、用戶上傳視頻等),用戶與系統(tǒng)之間、用戶與用戶之間的交互增強(qiáng)(如“關(guān)注”、“評(píng)論”、“回復(fù)”、“推薦”等功能),用戶在現(xiàn)實(shí)生活中的社會(huì)關(guān)系在Web中再生復(fù)現(xiàn)(SNS、網(wǎng)絡(luò)社群等),用戶行為呈現(xiàn)出群體化、協(xié)作化的特征(如維基百科、團(tuán)購(gòu)等)。因此,在這種人人參與、去中心化的Web2.0環(huán)境下,將具有相似信息行為特征的用戶聚合為用戶群,對(duì)于提高個(gè)性化信息服務(wù)、過濾與推薦服務(wù)、合作信息檢索效果、在線社區(qū)發(fā)現(xiàn)均有重要作用。

本文在分析已有用戶聚類研究現(xiàn)狀的基礎(chǔ)上,發(fā)現(xiàn)當(dāng)前用戶聚類研究還存在一些不足,提出了改進(jìn)的基于Web挖掘的用戶聚類機(jī)制。然而,單純的Web挖掘?qū)τ赪eb2.0環(huán)境中用戶行為的作用有限,極少考慮用戶在Web2.0環(huán)境中出現(xiàn)的社會(huì)性、交互性的新特征。在討論相關(guān)性與相似性關(guān)系的基礎(chǔ)上,提出結(jié)合Web挖掘和社會(huì)網(wǎng)絡(luò)分析方法的用戶聚類機(jī)制。

2 用戶聚類研究現(xiàn)狀

本文將從用戶聚類方法、用戶聚類具體算法、用戶聚類應(yīng)用幾個(gè)方面入手,分析目前用戶聚類研究的現(xiàn)狀。

2.1 用戶聚類方法

通過文獻(xiàn)調(diào)研發(fā)現(xiàn),目前的用戶聚類方法大體有兩類:一類是通過Web日志挖掘用戶訪問路徑,基于用戶訪問路徑相似性或者在用戶訪問路徑的基礎(chǔ)上抽取用戶興趣、用戶偏好的相似性聚類不同的用戶;另一類是基于不同用戶對(duì)項(xiàng)目評(píng)分的相似性對(duì)用戶進(jìn)行聚類,這一類方法主要用于協(xié)作過濾推薦系統(tǒng)。

2.1.1 基于訪問路徑的用戶聚類

基于訪問路徑的用戶聚類,一般是通過在對(duì)Web日志預(yù)處理的基礎(chǔ)上進(jìn)行用戶識(shí)別、會(huì)話識(shí)別和事物識(shí)別,使用用戶點(diǎn)擊次數(shù)、點(diǎn)擊頻率、相對(duì)訪問時(shí)間、停留時(shí)間、訪問頻率、訪問次序等變量構(gòu)筑用戶訪問模式、用戶訪問路徑相似矩陣或其等價(jià)矩陣等,對(duì)這些處理好的數(shù)據(jù)采用已有的聚類方法或者基于傳統(tǒng)聚類方法改進(jìn)算法進(jìn)行聚類,識(shí)別具有較高相似度的用戶群。具體的方法有:

使用幾個(gè)變量共同表征用戶興趣或用戶訪問模式從而進(jìn)行聚類。如文獻(xiàn)[1]在用戶聚類前,首先對(duì)用戶路徑進(jìn)行約簡(jiǎn),得到用戶感興趣的頁(yè)面,然后根據(jù)路徑相似度得到用戶相似度矩陣,在此矩陣中使用編網(wǎng)法直接進(jìn)行聚類得到最終的用戶集合。文獻(xiàn)[2]中提出改進(jìn)的用戶興趣模式聚類算法,綜合考慮了用戶訪問頁(yè)面順序,建立用戶瀏覽路徑相似度矩陣來獲得聚類結(jié)果。文獻(xiàn)[3]中通過數(shù)據(jù)預(yù)處理得到的用戶點(diǎn)擊流來表示用戶的訪問行為模式,并采用混沌蟻群算法(CAS-C算法)對(duì)用戶訪問矩陣進(jìn)行聚類分析。文獻(xiàn)[4]重新定義了相似性和聚類中心,綜合考慮用戶訪問的次序與頻率,提出了一種能對(duì)不規(guī)則用戶訪問路徑進(jìn)行訪問模式聚類的方法。文獻(xiàn)[5](通過頁(yè)面瀏覽順序與瀏覽時(shí)間表現(xiàn)用戶訪問興趣,采用結(jié)合了粗糙集的Leader方法進(jìn)行聚類。文獻(xiàn)[6]同時(shí)考慮用戶對(duì)URL的瀏覽時(shí)間和訪問次數(shù)對(duì)用戶進(jìn)行聚類。文獻(xiàn)[7]將反映用戶瀏覽行為的頁(yè)面點(diǎn)擊次數(shù)、停留時(shí)間、用戶偏好等因素用模糊多重集來刻畫用戶訪問站點(diǎn)的興趣度,建立模糊多重相似矩陣直接進(jìn)行聚類。文獻(xiàn)[8]對(duì)用戶特征進(jìn)行數(shù)學(xué)分析,將訪問點(diǎn)擊次數(shù)和訪問時(shí)間視為數(shù)值型參數(shù),并以這兩個(gè)參數(shù)定義Web資源偏愛度和關(guān)聯(lián)度,將訪問路徑視為過程型參數(shù),簡(jiǎn)化為無向圖,在此基礎(chǔ)上提出基于Kruskal的Web用戶聚類算法。

結(jié)合用戶訪問路徑與網(wǎng)頁(yè)內(nèi)容進(jìn)行聚類。如文獻(xiàn)[9]在分析用戶訪問模式的同時(shí),引入網(wǎng)頁(yè)內(nèi)容分析和瀏覽行為分析結(jié)果,通過對(duì)用戶訪問模式向量表示的改進(jìn),構(gòu)造基于網(wǎng)頁(yè)內(nèi)容和用戶訪問興趣的訪問模式相似性,最后采用蟻群混合聚類算法實(shí)現(xiàn)基于Web瀏覽內(nèi)容和行為的用戶聚類。文獻(xiàn)[10]分別從用戶瀏覽路徑的結(jié)構(gòu)和內(nèi)容兩個(gè)方面實(shí)現(xiàn)網(wǎng)絡(luò)用戶聚類。其中以用戶的會(huì)話作為用戶聚類的特征,實(shí)現(xiàn)基于瀏覽路徑結(jié)構(gòu)的聚類;引入目標(biāo)頁(yè)和導(dǎo)航頁(yè)的概念,先對(duì)目標(biāo)頁(yè)聚類,再利用其聚類結(jié)果進(jìn)行用戶聚類,實(shí)現(xiàn)基于瀏覽路徑內(nèi)容的用戶聚類。文獻(xiàn)[11]使用點(diǎn)擊率與相對(duì)瀏覽時(shí)間來定義用戶興趣度,同時(shí)綜合考慮網(wǎng)頁(yè)內(nèi)容的長(zhǎng)度,使用粗糙聚類方法對(duì)Web用戶聚類。

此外,對(duì)于基于訪問路徑的Web用戶聚類可進(jìn)一步細(xì)分。文獻(xiàn)[12]中提出:部分用戶聚類方法將用戶瀏覽的會(huì)話用矩陣的形式表示,可以稱之為基于矩陣的聚類算法BOM(Based On Matrix);而另外一些用戶聚類算法把用戶會(huì)話瀏覽序列用集合來表示,稱之為基于集合的聚類算法BOC(Based On Collection)。在文獻(xiàn)調(diào)研的基礎(chǔ)上,沿著這樣的分類思路,本文提出基于向量的聚類算法BOV(Based On Vector),即將用戶會(huì)話劃分,生成會(huì)話向量。如文獻(xiàn)[13]提出通過提取網(wǎng)絡(luò)會(huì)話信息,表述為會(huì)話向量,實(shí)現(xiàn)對(duì)匿名用戶的聚類;文獻(xiàn)[14]同樣采用了會(huì)話向量的方法。同時(shí),這兩個(gè)研究中都采用了利用頁(yè)面層次性對(duì)會(huì)話向量降維的方法。文獻(xiàn)[15]從會(huì)話向量中發(fā)掘頻繁數(shù)據(jù)集,歸一化為模式向量,采用SOFM模型進(jìn)行聚類。

2.1.2 基于項(xiàng)目評(píng)分的用戶聚類

基于項(xiàng)目評(píng)分的用戶聚類主要使用于基于合作的過濾推薦服務(wù)中。多數(shù)基于用戶聚類的合作過濾推薦均分為離線部分和在線部分,離線部分的主要任務(wù)就是將大量個(gè)體用戶聚合為具有一定相似度的用戶群。

文獻(xiàn)[16-19]均利用用戶對(duì)項(xiàng)目的評(píng)分進(jìn)行用戶聚類研究,從而用于過濾與推薦。文獻(xiàn)[17]將用戶評(píng)分看作數(shù)據(jù)流,提出利用金字塔框架進(jìn)行預(yù)處理,從而體現(xiàn)用戶興趣隨時(shí)間的變化;文獻(xiàn)[18]則利用用戶項(xiàng)目評(píng)分的概念分層實(shí)現(xiàn)多層相似性的用戶聚類;文獻(xiàn)[19]應(yīng)用模糊聚類技術(shù)將單個(gè)用戶對(duì)項(xiàng)目的評(píng)分轉(zhuǎn)為用戶相似群對(duì)項(xiàng)目的評(píng)分,構(gòu)建模糊評(píng)分矩陣實(shí)現(xiàn)聚類分析。

除了上述的基于訪問路徑和基于項(xiàng)目評(píng)分的用戶聚類方法外,文獻(xiàn)[20]將用戶聚類方法劃分為靜態(tài)方法和動(dòng)態(tài)方法兩類。同時(shí),有一些研究比較關(guān)注用戶聚類過程中的降維問題。如在上文中提到的文獻(xiàn)[13,14]利用頁(yè)面的層次性對(duì)會(huì)話向量降維,文獻(xiàn)[21]提出利用頁(yè)面規(guī)約的方法降維,文獻(xiàn)[22]提出基于方向相似性的蟻群聚類算法,文獻(xiàn)[23]提出了“比對(duì)降維”的思想,文獻(xiàn)[24]提出使用FCC(Filter Coefficient Clustering)算法解決“維災(zāi)難”問題。

2.2 用戶聚類算法

目前已有的用戶聚類研究中,采用的具體聚類算法存在以下三類情況:

(1)直接使用某一種聚類算法。如K-Means算法、K-Mediods算法、Chameleon算法、leader層次聚類算法[13]、SOFM聚類、模糊C均值FCM(Fuzzy C Means)算法[25]、遺傳算法、超圖聚類[21]、λ截聚類、非歐幾里得的關(guān)系模糊聚類方法(NERF)[14]等。

(2)結(jié)合使用幾種聚類算法。如文獻(xiàn)[9]采用蟻群算法與K-Means混合聚類算法,文獻(xiàn)[5]將粗糙聚集中的粗糙度的概念引入leader聚類算法中。

(3)基于一般聚類算法的改進(jìn)或設(shè)計(jì)新的適用于Web用戶聚類的算法。如文獻(xiàn)[17]在AntClass的基礎(chǔ)上引入金字塔框架設(shè)計(jì)的AntStream算法,文獻(xiàn)[10]提出的改進(jìn)的用戶瀏覽路徑聚類算法(UBPC),文獻(xiàn)[3]提出的混沌蟻群算法(CAS-C),文獻(xiàn)[26]提出的ISODATA(Interactive Self Organizing DATA)算法,文獻(xiàn)[7]的多重模糊集CAFM(Clustering Arithmetic based on Fuzzy Multisets)聚類算法,文獻(xiàn)[8]基于Krushal的Web用戶聚類算法(Krushal-Based Algorithm of Clustering Web-User,K-Bacer)等。

2.3 用戶聚類應(yīng)用

當(dāng)前Web用戶聚類主要用于:(1)協(xié)同過濾推薦。主要是電子商務(wù)網(wǎng)站、娛樂網(wǎng)站等基于用戶聚類的過濾與推薦,提高用戶服務(wù)質(zhì)量。(2)網(wǎng)站結(jié)構(gòu)優(yōu)化。如文獻(xiàn)[27]提出基于用戶聚類分析網(wǎng)站導(dǎo)航結(jié)構(gòu)的智能優(yōu)化問題。(3)個(gè)性化服務(wù)。如文獻(xiàn)[25]試圖利用用戶聚類結(jié)果實(shí)現(xiàn)圖書的個(gè)性化推薦。(4)改善人機(jī)交互,提高信息檢索效率。如文獻(xiàn)[28]提出以用戶為中心的用戶事務(wù)聚類方法,認(rèn)為聚類結(jié)果可用于分析和理解用戶可能的查詢意圖,在用戶查詢與搜索引擎返回結(jié)果的人機(jī)交互過程中,引導(dǎo)用戶更快速準(zhǔn)確定位自己所關(guān)注的內(nèi)容。文獻(xiàn)[29]中提出一種基于用戶行為聚類的搜索引擎,可以通過分析不同的用戶行為將搜索用戶聚類成不同的用戶組,為每組用戶返回其喜歡的結(jié)果,優(yōu)化查詢結(jié)果。

3 當(dāng)前用戶聚類研究中存在的不足

用戶的網(wǎng)絡(luò)行為產(chǎn)生于其信息需求的驅(qū)動(dòng)。而用戶的信息需求一般來源于兩個(gè)方面:解決任務(wù)或問題所需的信息和滿足用戶個(gè)人興趣、休閑所需的信息。對(duì)應(yīng)的信息行為主要有兩類:信息檢索行為與信息瀏覽行為,這兩者在一定程度上代表著用戶對(duì)不同信息資源的偏好和訪問模式的不同。而當(dāng)前用戶聚類研究中,一般只是直接利用Web日志挖掘用戶的訪問路徑模式,在預(yù)處理的過程中沒有對(duì)這些原始素材作出分類以完成不同目的的聚類分析。

用戶的興趣或者行為特征具有多樣性,因此其聚類結(jié)果有一定的模糊性,即用戶既可以屬于某一用戶群,也可以同時(shí)聚類到另外的用戶群。當(dāng)前的聚類算法多為硬聚類算法,聚類結(jié)果唯一,降低了聚類結(jié)果的準(zhǔn)確性和可用性。

用戶的行為特征會(huì)隨時(shí)間、任務(wù)、興趣變化等變化,新的用戶也在不斷涌現(xiàn)。目前多數(shù)用戶聚類實(shí)現(xiàn)研究中均未考慮到用戶聚類結(jié)果的更新問題,如何采用一定的方法保證用戶聚類數(shù)據(jù)有效地更新,是有待解決的一大問題。文獻(xiàn)[22]提出了一種基于用戶聚類模型維護(hù)庫(kù)的增量式用戶聚類方案。

用于表征用戶訪問路徑模式的變量有點(diǎn)擊次數(shù)、點(diǎn)擊頻率、相對(duì)訪問時(shí)間、停留時(shí)間、訪問頻率、訪問次序等,一般只是簡(jiǎn)單地將其中的幾種變量結(jié)合,未能對(duì)這些變量的可表征程度作出系統(tǒng)的分析,變量結(jié)合中未能給出對(duì)應(yīng)的權(quán)重等。

訪問路徑分析與頁(yè)面內(nèi)容分析結(jié)合不足。用戶訪問路徑模式在一定程度僅代表了用戶訪問網(wǎng)絡(luò)的一種使用習(xí)慣,而其所訪問的具體頁(yè)面(特別是內(nèi)容頁(yè))的具體內(nèi)容的語(yǔ)義才真正足以表述其興趣。

4 基于Web挖掘與社會(huì)網(wǎng)絡(luò)分析的用戶聚類

根據(jù)上文提出的當(dāng)前基于Web挖掘的用戶聚類研究的不足,本文提出了一種改進(jìn)的基于Web挖掘的用戶聚類機(jī)制。如圖1所示。

圖1 改進(jìn)的基于Web挖掘的用戶聚類

通過對(duì)Web日志的預(yù)處理,分別實(shí)現(xiàn)用戶識(shí)別、會(huì)話識(shí)別和事務(wù)識(shí)別。其中,在會(huì)話識(shí)別過程中采用綜合多重因素評(píng)價(jià)的方法,以期判別出用戶在一定的時(shí)間閾值(Timeout)內(nèi)訪問的頁(yè)面集,排除偶然點(diǎn)擊的鏈接等噪聲;在事務(wù)識(shí)別過程中,采用概率潛在語(yǔ)義分析,以期識(shí)別出最有代表性的語(yǔ)義概念,減少主題詞維度。預(yù)處理過后,利用獲得的頁(yè)面集合與事務(wù)集合構(gòu)建事務(wù)-頁(yè)面矩陣,用于表述用戶訪問路徑模式;同時(shí),對(duì)會(huì)話進(jìn)行文本分析,獲取用戶瀏覽興趣。最后,結(jié)合用戶訪問途徑模式與用戶瀏覽興趣,采用具有更好模糊性質(zhì)的軟聚類算法進(jìn)行用戶聚類,得到用戶聚類結(jié)果。

然而,這種改進(jìn)后的用戶聚類機(jī)制還是未能適應(yīng)Web2.0環(huán)境的特征。Web2.0的社會(huì)性、去中心化、群體性、用戶之間緊密的協(xié)作與聯(lián)系,使得Web2.0中客觀存在著這樣一些具有相關(guān)關(guān)系的用戶群。用戶與用戶之間的交互增強(qiáng)(如“關(guān)注”、“評(píng)論”、“回復(fù)”、“推薦”等功能),用戶之間越來越多地表現(xiàn)出協(xié)作共享行為,而這些相關(guān)用戶群中,較為穩(wěn)定的便是用戶所處的社會(huì)網(wǎng)絡(luò)。

本文認(rèn)為,相對(duì)于通過Web挖掘的用戶間的相似性而言,用戶在Web2.0環(huán)境中相關(guān)性是一種較強(qiáng)的“關(guān)系”或“連帶”,相似性是一種較弱的“關(guān)系”;相關(guān)性在一定程度上,是一種顯在的“關(guān)系”,極易浮出水面,而相似性是一種隱性的“關(guān)系”,需要通過一定的手段進(jìn)行挖掘[30,31]。Web2.0環(huán)境中用戶聚合而成的群體,或者稱用戶社群,在進(jìn)行形式化的描述時(shí)可以認(rèn)為是社會(huì)關(guān)系網(wǎng)絡(luò)與興趣圖譜的組合,即一個(gè)用戶與其他用戶的相關(guān)性中可能包含有興趣相似性。因此,僅僅通過Web挖掘手段識(shí)別用戶間的相似性來聚類用戶是不盡完善的。

(1)傳統(tǒng)的Web挖掘技術(shù),無論是基于用戶使用記錄或項(xiàng)目評(píng)分,都是通過內(nèi)容相似度計(jì)算,分析用戶之間的關(guān)聯(lián)(主要表現(xiàn)為興趣相似性或人口統(tǒng)計(jì)學(xué)相似性),從而進(jìn)行用戶聚類,主要體現(xiàn)的是一種基于內(nèi)容的聚類。Web2.0環(huán)境下,用戶之間的相互影響與作用機(jī)制更為明顯,用戶之間的關(guān)聯(lián)或者關(guān)系的內(nèi)涵表現(xiàn)得更加豐富,除興趣關(guān)系外,還有可能由交互行為產(chǎn)生相互影響關(guān)系(關(guān)注、鏈接、轉(zhuǎn)發(fā))等,單純的Web挖掘技術(shù)無法揭示更豐富的用戶關(guān)聯(lián)層次,而社會(huì)網(wǎng)絡(luò)分析關(guān)注的焦點(diǎn)是關(guān)系和關(guān)系的模式,有別于傳統(tǒng)的統(tǒng)計(jì)分析和數(shù)據(jù)處理方法,采取結(jié)構(gòu)分析路徑,著眼于行為體間的“位置及其相對(duì)關(guān)系”。社會(huì)網(wǎng)絡(luò)分析主要從結(jié)構(gòu)和用戶行為兩方面的因素進(jìn)行分析,其中測(cè)量用戶聚類節(jié)點(diǎn)重要性和節(jié)點(diǎn)間關(guān)系的常用方法主要有兩類:一類是中心性分析;另一類是拓?fù)滏溄咏Y(jié)構(gòu)分析[32-34]。通過與已經(jīng)存在于Web中的社會(huì)關(guān)系網(wǎng)絡(luò)的比對(duì),可以以一個(gè)用戶群內(nèi)某個(gè)用戶節(jié)點(diǎn)的中心勢(shì),確定聚類中心,刪除一些無關(guān)節(jié)點(diǎn),識(shí)別關(guān)鍵用戶聚類節(jié)點(diǎn)和核心用戶,改善用戶聚類效果。由此可見,相比于傳統(tǒng)的內(nèi)容聚類,社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)的方法是一種關(guān)系聚類,能從整體上把握社交網(wǎng)絡(luò)的總體特征和用戶交互情況,揭示用戶之間的關(guān)系結(jié)構(gòu)、關(guān)系性質(zhì)及強(qiáng)度。

(2)非社交網(wǎng)絡(luò)的網(wǎng)站中,例如電子商務(wù)網(wǎng)站,內(nèi)容內(nèi)在的聯(lián)系是很重要的聚類原則,因?yàn)橛脩粼L問內(nèi)容的數(shù)據(jù)相對(duì)穩(wěn)定,因此相似度不但計(jì)算量較小,同時(shí)也不必頻繁更新,因此傳統(tǒng)Web挖掘技術(shù)在性能與復(fù)雜度方面具有一定優(yōu)勢(shì),然而在對(duì)于新聞、博客或者微內(nèi)容等網(wǎng)絡(luò)系統(tǒng),用戶訪問內(nèi)容數(shù)量是海量的,同時(shí)也是更新頻繁的,所以從復(fù)雜度的角度看基于用戶關(guān)系的聚類更具優(yōu)勢(shì)。

(3)兩者的結(jié)合方式上,可以采用多重聚類或者層次聚類的方式。多重聚類即分別對(duì)內(nèi)容和關(guān)系結(jié)構(gòu)進(jìn)行Web挖掘和用戶關(guān)系分析,對(duì)用戶聚類的結(jié)果綜合分析對(duì)比。層次聚類即先通過Web挖掘,進(jìn)行用戶聚類分析,然后在聚類類別中采用社會(huì)網(wǎng)絡(luò)分析方法,分析成員的關(guān)系性質(zhì)、親密度、角色等。

圖2 基于Web挖掘與社會(huì)網(wǎng)絡(luò)分析的用戶聚類

基于這樣的思路,在改進(jìn)的基于Web挖掘的用戶聚類的基礎(chǔ)上構(gòu)建了如圖2所示的用戶聚類機(jī)制。圖中還需要說明的一點(diǎn)是,對(duì)于多數(shù)Web2.0用戶而言,為了能夠維持與其他用戶特別是出于自己的社會(huì)關(guān)系網(wǎng)絡(luò)中的用戶的聯(lián)系與交互,一般均為某些Web2.0服務(wù)的注冊(cè)用戶,因此很容易進(jìn)行用戶識(shí)別。然而,由于某些站點(diǎn)為了提高用戶體驗(yàn),匿名用戶在一定范圍內(nèi)也可以瀏覽。因此,經(jīng)過識(shí)別后將用戶區(qū)分為兩種,主要針對(duì)注冊(cè)用戶進(jìn)行社會(huì)網(wǎng)絡(luò)分析。社會(huì)網(wǎng)絡(luò)分析的數(shù)據(jù)源為這些Web2.0站點(diǎn)的服務(wù)器。

5 結(jié)語(yǔ)

本文在分析用戶聚類研究現(xiàn)狀的基礎(chǔ)上,提出了改進(jìn)的基于Web挖掘的用戶聚類機(jī)制。然而,改進(jìn)后的用戶聚類機(jī)制在作用于Web2.0環(huán)境中的用戶時(shí)仍有其局限性,因此進(jìn)一步提出結(jié)合Web挖掘和社會(huì)網(wǎng)絡(luò)分析的用戶聚類方法,同原有機(jī)制相比在理論上比較完善。本文的不足在于,沒有每一個(gè)關(guān)鍵步驟提供具體可行的算法,也未能利用一定的系統(tǒng)與實(shí)例進(jìn)行驗(yàn)證,有待進(jìn)一步的補(bǔ)充和驗(yàn)證。

[1] 王華,王治和,王平.Web用戶聚類研究[J].甘肅聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,24(1):79-82.

[2] 陳峰.基于Web日志的用戶興趣聚類研究[D].合肥:合肥工業(yè)大學(xué),2008.

[3] 郭曉磊.基于Web日志挖掘的網(wǎng)絡(luò)用戶聚類研究[D].北京:北京郵電大學(xué),2009.

[4] 楊彥玲,任燕,段隆振,等.基于不規(guī)則路徑聚類算法的用戶訪問模式挖掘[J].計(jì)算機(jī)與現(xiàn)代化,2010(4):91-93.

[5] 陳敏,苗奪謙,段其國(guó).基于用戶瀏覽行為聚類Web用戶[J].計(jì)算機(jī)科學(xué),2008,35(3):186-187,255.

[6] 宋江春,沈鈞毅.一種新的Web用戶群體和URL算法的研究[J].控制與決策,2007,22(3):284-288.

[7] 宋麟,王鎖柱.基于模糊多重集的Web頁(yè)面與用戶聚類算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(1):213-215.

[8] 吳躍進(jìn).綜合多重評(píng)價(jià)因素的Web用戶聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2006(28):147-149,210.

[9] 彭艷,王小玲.基于Web瀏覽內(nèi)容和行為的用戶聚類算法研究[J].計(jì)算機(jī)與信息技術(shù),2007(9):39-40,44.

[10] 付志濤.基于Web日志的網(wǎng)絡(luò)用戶聚類研究與實(shí)現(xiàn)[D].南京:南京理工大學(xué),2007.

[11] 紀(jì)洲鵬,周軍,何明.基于變精度粗糙集的Web用戶聚類方法[J].計(jì)算機(jī)工程,2010,36(3):44-46.

[12] 王凱麗.一種基于集合的Web用戶會(huì)話實(shí)時(shí)聚類算法[J].價(jià)值工程, 2010(13):182-183.

[13] 宋斌,王玲,張宏,等.基于Web日志的匿名用戶聚類算法研究[J].南京理工大學(xué)學(xué)報(bào),2006,30(5):583-586.

[14] 黃松,劉曉明,宋自林.基于歸納化會(huì)話的網(wǎng)絡(luò)用戶的聚類[J].計(jì)算機(jī)研究與發(fā)展,2001,38(10):1224-1228.

[15] 徐涌,陳恩紅,王熙法.基于神經(jīng)網(wǎng)絡(luò)的Web用戶行為聚類分析[J].小型微型計(jì)算機(jī)系統(tǒng),2001,22(6):699-702.

[16] 鄧曉懿,金淳,等.基于情境聚類和用戶評(píng)級(jí)的協(xié)同過濾推薦模型[J].系統(tǒng)工程理論與實(shí)踐,2013,33(11):2945-2953.

[17] 王衛(wèi)平,寇艷艷.基于AntStream用戶聚類的協(xié)同過濾推薦[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(12):180-184.

[18] 李濤,王建東.基于多層相似性用戶聚類的推薦算法[J].南京航空航天大學(xué)學(xué)報(bào),2006,38(6):717-721.

[19] 溫會(huì)平,陳俊杰.基于用戶模糊聚類的個(gè)性化推薦算法[J].計(jì)算機(jī)與數(shù)字工程,2008,36(2):13-17.

[20] 白雪,田雙亮.一種新的基于用戶瀏覽模式的聚類算法[J].楚雄師范學(xué)院學(xué)報(bào),2005,20(6):4-6.

[21] 楊明花,古志民.基于超圖聚類的用戶行為模式挖掘[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,24(4):163-166.

[22] 張斌,蘇一丹,曹波.基于蟻群聚類模型的增量式Web用戶聚類[J].微計(jì)算機(jī)信息(管控一體化),2008,24(15):231-233.

[23] 顏端武,羅勝陽(yáng),成曉.協(xié)同推薦中基于用戶-文檔矩陣的用戶聚類研究[J].現(xiàn)代圖書情報(bào)技術(shù),2007(3):25-28.

[24] 業(yè)寧,李威,梁作鵬,等.一種Web用戶行為聚類算法[J].小型微型計(jì)算機(jī)系統(tǒng),2004,25(7):1364-1367.

[25] 孫守義,王薇.一種基于用戶聚類的協(xié)同過濾個(gè)性化圖書推薦系統(tǒng)[J].現(xiàn)代情報(bào),2007(11):139-142.

[26] 劉國(guó)營(yíng).基于路徑聚類的Web用戶訪問模式發(fā)現(xiàn)算法[J].情報(bào)雜志,2005(7):18-20.

[27] 鄭玲霞,李大學(xué).基于用戶聚類分析的網(wǎng)站導(dǎo)航結(jié)構(gòu)智能優(yōu)化研究與實(shí)現(xiàn)[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,17(6):763-767.

[28] 唐曉兵,劉震,李盛恩.基于用戶特征的聚類方法在人機(jī)交互中的應(yīng)用研究[J].網(wǎng)絡(luò)與通信,2008(4):28-29.

[29] 鄭雙陽(yáng),林錦賢.基于用戶行為聚類的搜索[J].計(jì)算機(jī)與數(shù)字工程, 2009(12):28-30,75.

[30] 約翰?斯科特.社會(huì)網(wǎng)絡(luò)分析法[M].劉軍,譯.重慶大學(xué)出版社, 2007.

[31] 陳克寒,韓盼盼,等.基于用戶聚類的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2013(2):349-359.

[32] 王連喜,蔣盛益,等.微博用戶關(guān)系挖掘研究綜述[J].情報(bào)雜志, 2012(12):91-97.

[33] HANNON J, MCCARTHY K, SMYTH B. Finding useful users on twitter: twittomender the followee recommender [C]//Advances in Information Retrieval 33rd European Conference on IR Research, 2011.

[34] 張丹,何躍.基于聚類分析的SNS網(wǎng)絡(luò)研究[J].情報(bào)雜志, 2012(5):62-65.

User Clustering Based on Web Mining and Social Network Analysis

Zhang Min, Liu Haipeng, Li Peng/Computer and Information Science, Southwest University, Chongqing, 400715

Web user clustering has great significance in personalized service, website structure optimization, etc. In this paper, user clustering method and algorithm based on user access paths and item rating are summarized. The shortage of these studies is pointed out, and then an improved model combined with social network analysis and Web mining is put forward. With an analysis of the necessity and the application strategy, a relatively perfect mechanism of user clustering has come into being.

Web mining, Social network analysis, User clustering

2014-01-10)

10.3772/j.issn.1673—2286.2014.03.007

*本文為國(guó)家社會(huì)科學(xué)基金“網(wǎng)絡(luò)學(xué)術(shù)社區(qū)的信息聚合與共享模式研究”(編號(hào):11CTQ038)的研究成果。

張敏(1974- ),女,西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院副教授。E-mail: zhangwu@swu.edu.cn

劉海鵬(1989- ),男,西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院2013級(jí)圖書館學(xué)專業(yè)碩士研究生,研究方向:信息檢索與用戶研究。

李鵬(1987- ),男,西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院2010級(jí)情報(bào)學(xué)專業(yè)碩士研究生。

猜你喜歡
聚類文獻(xiàn)算法
Hostile takeovers in China and Japan
速讀·下旬(2021年11期)2021-10-12 01:10:43
基于MapReduce的改進(jìn)Eclat算法
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大東方(2019年12期)2019-10-20 13:12:49
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
基于DBSACN聚類算法的XML文檔聚類
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
商情(2017年1期)2017-03-22 16:56:36
一種改進(jìn)的整周模糊度去相關(guān)算法
基于改進(jìn)的遺傳算法的模糊聚類算法
巨鹿县| 方正县| 库伦旗| 海口市| 麟游县| 林口县| 无极县| 凭祥市| 阿拉善左旗| 阿拉善盟| 西吉县| 永兴县| 昌图县| 凤阳县| 钦州市| 洛川县| 思茅市| 定西市| 手游| 双城市| 吉安市| 牙克石市| 疏附县| 大新县| 黄山市| 临城县| 奉节县| 浦江县| 和政县| 霍邱县| 湘阴县| 林芝县| 敦化市| 宜春市| 类乌齐县| 东台市| 增城市| 长寿区| 泗水县| 安阳市| 扬中市|