基于網(wǎng)頁概率潛在語義信息的用戶興趣聚類＊

2014-01-24 06:55:46錢雪忠吳志媛

計(jì)算機(jī)工程與科學(xué) 2014年4期

關(guān)鍵詞：網(wǎng)頁語義聚類

錢雪忠，吳志媛

（江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院，江蘇無錫 214122)

基于網(wǎng)頁概率潛在語義信息的用戶興趣聚類＊

錢雪忠，吳志媛

（江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院，江蘇無錫 214122)

為了能準(zhǔn)確挖掘用戶興趣點(diǎn)，首先利用概率潛在語義分析PLSA模型將“網(wǎng)頁-詞”矩陣向量投影到概率潛在語義向量空間，并提出“自動(dòng)相似度閾值選擇”方法得到網(wǎng)頁間的相似度閾值，最后提出將平面劃分法與凝聚式層次聚類相結(jié)合的凝聚式層次k中心點(diǎn)HAK-medoids算法，實(shí)現(xiàn)用戶興趣點(diǎn)聚類。實(shí)驗(yàn)結(jié)果表明，與傳統(tǒng)的基于劃分的算法相比，HAK-medoids算法聚類效果更好。同時(shí)，提出的用戶興趣點(diǎn)聚類技術(shù)在個(gè)性化服務(wù)領(lǐng)域可提高個(gè)性化推薦和搜索的效率。

概率潛在語義分析；自動(dòng)相似度閾值選擇；用戶興趣點(diǎn)；凝聚式層次k中心點(diǎn)；個(gè)性化服務(wù)

1 引言

隨著Web 3.0時(shí)代的到來，人們對信息獲取手段和效率提出越來越高的要求。傳統(tǒng)互聯(lián)網(wǎng)的服務(wù)模式正在逐漸向主動(dòng)式、個(gè)性化、高效率轉(zhuǎn)變。目前的信息檢索方式主要是基于關(guān)鍵詞匹配的檢索方式，如向量空間模型 VSM（Vector Space Model)［1］、基于模糊語言的方法等，檢索系統(tǒng)多從檢索模型和信息加工過程來提高檢索的準(zhǔn)確性，并沒有對用戶給予更多的關(guān)注。特別是以網(wǎng)絡(luò)搜索引擎為例，不同背景的用戶使用相同的提問來查詢，得到的結(jié)果沒有區(qū)別，導(dǎo)致用戶不容易發(fā)現(xiàn)自己的最新興趣。個(gè)性化服務(wù)技術(shù)［2］的出現(xiàn)在一定程度上解決了Internet中信息海量增長與用戶獲取信息手段相對簡單之間的矛盾。以Google等為首的商業(yè)化互聯(lián)網(wǎng)公司也提出，下一代互聯(lián)網(wǎng)必將是智能化、個(gè)性化的。國內(nèi)外有很多研究者對個(gè)性化服務(wù)進(jìn)行分析研究，如：Schwab等通過觀察用戶對頁面的選擇獲取用戶感興趣的頁面作為訓(xùn)練樣本，而后以出現(xiàn)在感興趣頁面中指定位置的單字構(gòu)成用戶模型；文獻(xiàn)［3］提出了基于興趣子類的用戶興趣建模并將其用于多用戶協(xié)作推薦；文獻(xiàn)［4］等對用戶瀏覽過的網(wǎng)頁采用分類的方式建立用戶興趣模型。

本文研究的目的就是在對用戶瀏覽內(nèi)容進(jìn)行挖掘的基礎(chǔ)上，提出新的聚類算法確定用戶興趣點(diǎn)的個(gè)數(shù)來準(zhǔn)確表示用戶的偏好，從而為個(gè)性化服務(wù)打下堅(jiān)實(shí)的基礎(chǔ)。

2 網(wǎng)頁的概率潛在語義信息

2.1 網(wǎng)頁數(shù)據(jù)處理

根據(jù)用戶在一段時(shí)間內(nèi)對某個(gè)網(wǎng)站進(jìn)行訪問的歷史記錄，經(jīng)過頁面識別和關(guān)鍵詞提取等數(shù)據(jù)預(yù)處理后，建立瀏覽頁網(wǎng)頁集 D＝｛d1，d2，…，dM｝和詞集W＝｛w1，w2，…，wN｝。每個(gè)瀏覽頁面可以看成一個(gè) N 維向量di＝｛ai1，ai2，… ，aiN｝，aij描述了特征詞wj在文檔di中的權(quán)重。那么，所有的瀏覽頁面就可以用一個(gè)網(wǎng)頁－詞矩陣DW 來表示：DW＝｛aij｝（i＝1，2，…，M；j＝1，2，…，N)。

2.2 網(wǎng)頁的概率潛在語義信息

針對前文構(gòu)建的網(wǎng)頁－詞矩陣向量空間，提出能揭示用戶興趣的網(wǎng)頁的概率潛在語義信息WPLSI（Webpage Probabilistic Latent Semantic Information)算法。WPLSI算法通過 PLSA［5，6］模型將構(gòu)建的瀏覽頁面－特征詞矩陣向量空間投影到概率潛在語義向量空間PLSVS（Probabilistic Latent Semantic Vector Space)。

2.2.1 PLSA模型

概率潛在語義分析模型的定義如下：對于文檔集D＝｛d1，d2，…，dM｝和詞集 W ＝｛w1，w2，…，wN｝，用 Z＝｛z1，z2，…，zK｝表示潛在主題集合。假設(shè)在主題Z已知的前提下，詞－文檔對之間是條件獨(dú)立的，潛在主題在文檔或詞上的分布也是條件獨(dú)立的，則文檔與詞的聯(lián)合概率可表示為公式（1)：

E步驟（求期望)：

M步驟（使對數(shù)似然函數(shù)最大)：

2.2.2 概率潛在語義空間的網(wǎng)頁向量表示

2.2.3 相似度計(jì)算測量

本文用向量之間的夾角余弦來表示網(wǎng)頁文本間的相似程度。由k維的概率潛在語義向量空間PLSVS得到網(wǎng)頁的向量表示，則網(wǎng)頁間的相似度可表示如下：

3 自動(dòng)相似度閾值選擇

要挖掘出用戶的興趣點(diǎn)［8］（即用戶對什么樣的網(wǎng)頁感興趣)，首先得確定用戶的興趣點(diǎn)數(shù)，也就是某次聚類的聚類個(gè)數(shù)k值。因此，在確定聚類數(shù)之前，首先必須確定相似度閾值μ的值。

3.1 自動(dòng)發(fā)現(xiàn)相似度閾值的基本思想

在眾多相似度值中能否找到一個(gè)臨界值，相似度值大于此臨界值的，表示這對網(wǎng)頁相似，相反則反之，此臨界值即是數(shù)學(xué)中的閾值。自動(dòng)發(fā)現(xiàn)相似度閾值［9，10］的基本思想是：對于一個(gè)給定的網(wǎng)頁文本，如果將它與其他網(wǎng)頁文本的相似度值遞減排序，與其相似的文本（即與該文本在一個(gè)聚類簇的文本)之間的相似度較之與其不相似文本（與該文本不在一個(gè)聚類簇的文本)之間的相似度在總體上一定有一個(gè)比較大的區(qū)別。本文采用最小二乘多項(xiàng)式來擬合這些以相似度值為坐標(biāo)的點(diǎn)，通過求得擬合曲線的拐點(diǎn)確定相應(yīng)的閾值。

3.2 最小二乘擬合多項(xiàng)式

顯然，公式（7)是一個(gè)關(guān)于擬合系數(shù)a0、a1、…、an的n＋1元線性方程組。

定理1設(shè)數(shù)據(jù)點(diǎn)的橫坐標(biāo)x0、x1、…、xm互異，則方程組（7)的解存在且唯一。

3.3 網(wǎng)頁間相似度閾值

在一般情況下，n不宜過高。對于n值的確定，一般可以根據(jù)散點(diǎn)圖進(jìn)行直觀觀察，選擇幾個(gè)不同的n值曲線分別擬合，然后比較哪條曲線的最小二乘指標(biāo)最小，從而確定擬合的曲線。

本文在觀察分析以相似度值為坐標(biāo)的點(diǎn)的分布之后，決定用三次多項(xiàng)式方程來擬合以相似度為坐標(biāo)的點(diǎn)，解方程組（7)（n＝3)可得到擬合方程P3（x)，求該方程的二階導(dǎo)數(shù)并令其等于零，解得x即為曲線的拐點(diǎn)，用與該x值相對應(yīng)的y值作為閾值μ。用三次曲線擬合，當(dāng)網(wǎng)頁文本數(shù)目很多時(shí)可以按一定間隔取點(diǎn)進(jìn)行擬合計(jì)算，以提高時(shí)間效率。本文根據(jù)曲線多項(xiàng)式擬合技術(shù)提出的自動(dòng)發(fā)現(xiàn)閾值方法，不僅替代了用戶指定參數(shù)的過程，而且自動(dòng)獲得隨數(shù)據(jù)分布動(dòng)態(tài)變化的閾值，使聚類過程更加自動(dòng)化和智能化。

4 基于HAK-medoids的用戶興趣聚類

4.1 基于劃分的聚類算法

基于劃分的聚類［11，12］方法主要有k-means算法和k-medoids算法及他們的變種。k-means算法是隨機(jī)選擇k個(gè)對象，每個(gè)對象初始地代表一個(gè)簇的平均值；k-medoids算法是選用簇中位置最中心的對象來代表某個(gè)簇，也叫做中心點(diǎn)。但是，kmeans算法和k-medoids算法需要指定一些閾值參數(shù)，如聚類個(gè)數(shù)k。

4.2 適應(yīng)度函數(shù)確定

基于劃分的聚類思想是“距離最近”原則，在網(wǎng)頁聚類中的距離就是相似度值。將各聚類中心與歸入其類的網(wǎng)頁相似度之和的最大值作為適應(yīng)度函數(shù)，即：

其中，Ci表示聚成的k個(gè)類，p是屬于某個(gè)類Ci的網(wǎng)頁，mi是某個(gè)類Ci的聚類中心，sim（p，mi)是網(wǎng)頁p和mi的相似度。此式是使得最終聚類結(jié)果的各聚類簇中的網(wǎng)頁圍繞其聚類簇中心盡量緊湊，從而使整個(gè)聚類算法對所有網(wǎng)頁文本得到一個(gè)較為合理的劃分。

4.3 基于HAK-medoids算法的用戶興趣聚類

基于劃分的聚類算法是快速的，但收斂時(shí)只是達(dá)到一個(gè)局部最優(yōu)；層次聚類算法是全局較優(yōu)的，但效率比較低且需要較多的迭代次數(shù)，明顯的缺點(diǎn)是不具有再分配能力。

本文在分析了基于現(xiàn)有的聚類算法和實(shí)際應(yīng)用環(huán)境后，提出將基于劃分的算法與凝聚式層次聚類 HAC（Hierarchical Agglomerative Clustering)［13］相結(jié)合的 HAK-medoids算法：首先利用凝聚式層次聚類算法進(jìn)行初始聚類，確定初始聚類中心和聚類數(shù)k值；然后用k-medoids算法進(jìn)行聚類分析。HAK-medoids算法既可以解決算法效率的問題，又能解決數(shù)據(jù)點(diǎn)再分配的問題。HAK-medoids算法定義如下：

算法HAK-medoids

輸入：概率潛在語義向量空間PLSVS和自動(dòng)相似度閾值μ。

輸出：用戶感興趣的網(wǎng)頁聚類簇和聚類數(shù)k。

步驟1將概率潛在語義向量空間PLSVS中的每一行對象（即用戶瀏覽的網(wǎng)頁)看作是一個(gè)具有單個(gè)成員的聚類Ci＝｛｝，這些聚類構(gòu)成了PLSVS的一個(gè)聚類C＝｛C1，C2，…，Cn｝。

步驟2計(jì)算C中每對類（Ci，Cj)之間的相似度sim（Ci，Cj)，形成相似度矩陣S。

步驟3在相似度矩陣S中查找最大相似度值max＝MAX｛sim（Ci，Cj)｝，如果max≥μ，將Ci和Cj合并為一個(gè)新的類Ct＝Ci∪Cj，得到一個(gè)新的聚類C＝｛C1，C2，…，Cn－1｝。

步驟4重復(fù)步驟2和步驟3，直到max＜μ時(shí)層次聚類結(jié)束，得到有k個(gè)子類的聚類C′＝，，…，｝。

步驟5對PLSVS中的每一個(gè)對象依次計(jì)算它與各個(gè)聚類中心Cj′的相似度sim，)（j＝1，2，…，k)，形成相似度矩陣S′。

步驟6在矩陣S′中選擇具有最大相似度值的聚類中心，將歸入以為中心的類中。

步驟7計(jì)算新的聚類中心：新的聚類中心為適應(yīng)度函數(shù)取值最大時(shí)的那個(gè)聚類中心。對于每個(gè)聚類中心)，順序選取類中的任一個(gè)非中心對象，計(jì)算用代替后的E值，選擇E值最大的那個(gè)Cr′來代替作為新的聚類中心。

步驟8重復(fù)步驟5～步驟7，直到所有的對象計(jì)算完，所有的聚類中心點(diǎn)均不再變化。

步驟9算法結(jié)束。

通過HAK-medoids算法對用戶瀏覽過的所有歷史網(wǎng)頁集聚類，得到k個(gè)聚類簇（k是聚類中心數(shù)目)，聚類簇的頁面集體現(xiàn)了用戶的某類興趣。由此，當(dāng)用戶進(jìn)行個(gè)性化搜索［12，14］時(shí)，系統(tǒng)知道應(yīng)該向用戶推薦哪些網(wǎng)頁，從而提高系統(tǒng)的個(gè)性化服務(wù)效率和用戶的滿意度。

5 實(shí)驗(yàn)評估

5.1 數(shù)據(jù)集

本文下載了來自搜狐、雅虎等門戶網(wǎng)站的各相應(yīng)欄目下的10類網(wǎng)頁，每個(gè)類240張網(wǎng)頁，形成總測試集Ts2400。這10個(gè)類分別是下列主題：時(shí)尚（f)、體育（sp)、娛樂（e)、教育（ed)、汽車（a)、科技（tc)、社會(huì)（sc)、旅游（t)、軍事（m)和政治（p)。為了評價(jià)各算法，從Ts2400中選取五組網(wǎng)頁組成五個(gè)數(shù)據(jù)集T1～T5來做實(shí)驗(yàn)。如表1所示，k表示該數(shù)據(jù)集的類別數(shù)（即人為準(zhǔn)備的網(wǎng)頁聚類數(shù))，info列描述各類網(wǎng)頁所屬的名稱及其包含的網(wǎng)頁數(shù)。

Table 1 Experiment data set表1 實(shí)驗(yàn)數(shù)據(jù)集

5.2 三種聚類算法的實(shí)驗(yàn)分析

5.2.1 評價(jià)標(biāo)準(zhǔn)

在數(shù)據(jù)挖掘［14］中，通常采用召回率、精確率來評價(jià)分類算法的好壞。召回率是指在分類后某類別的網(wǎng)頁個(gè)數(shù)占分類前事先人為準(zhǔn)備的該類網(wǎng)頁數(shù)量的百分比；精確率是在分類后某類別的網(wǎng)頁個(gè)數(shù)占該類總的網(wǎng)頁個(gè)數(shù)的百分比。設(shè)分類后某類的Web頁面集合為RS，而分類前事先人為準(zhǔn)備的Web頁面集合為US。召回率recall和精確率precision分別采用以下公式計(jì)算：

但是，一般采用F-measure值來評判聚類算法的性能，F(xiàn)-measure值的計(jì)算公式如下：

其中，recall和precision分別是公式（10)的類別的召回率和精確率。由公式（11)可知，F(xiàn)-measure的評價(jià)標(biāo)準(zhǔn)既考慮了召回率又同時(shí)考慮了精確率，是一種比較科學(xué)的評價(jià)方法。

5.2.2三種聚類算法的實(shí)驗(yàn)分析

由于數(shù)據(jù)集T3中的娛樂類網(wǎng)頁個(gè)數(shù)只有10個(gè)，因此以T3為例詳細(xì)給出運(yùn)行結(jié)果。將三種聚類算法分別在T3上運(yùn)行一次，結(jié)果如表2所示。其中，iter表示迭代次數(shù)，F(xiàn)是F-measure評價(jià)值。

從表2中可以看出，網(wǎng)頁個(gè)數(shù)太少的娛樂類（e)，k-means、k-medoids算法的召回率和精確率都為0，原因是基于劃分的聚類算法不能在類形相差太大時(shí)進(jìn)行很好的聚類；從HAK-medoids算法的運(yùn)行結(jié)果可以看出，娛樂類（e)已經(jīng)形成一個(gè)類，說明HAK-medoids算法在處理類形相差較大的數(shù)據(jù)時(shí)產(chǎn)生了比較好的效果。

以數(shù)據(jù)集T3為例，將三種聚類算法分別運(yùn)行10次，實(shí)驗(yàn)結(jié)果如表3所示。其中，iter表示達(dá)到收斂時(shí)的平均迭代次數(shù)，F(xiàn)values表示算法每次運(yùn)行的F值，avgF表示10次Fvalues的平均值。

從表3的實(shí)驗(yàn)數(shù)據(jù)可知，k-means算法聚類效果的avgF值比k-medoids的好，且這兩種聚類算法迭代較少次數(shù)就可以收斂。相比基于劃分的算法，HAK-medoids算法在F-measure值上有較大提高，但需要較多的迭代次數(shù)。

從表4中各個(gè)聚類算法的平均效果可知：使用HAK-medoids算法來進(jìn)行網(wǎng)頁聚類，雖然其最終原理還是基于劃分的聚類算法的“最近距離”原則，但其比傳統(tǒng)的基于劃分的聚類算法在聚類效果上有較大的提高：比較五個(gè)測試集上的avgF值，HAK-medoids算法與k-means相比提高了約16%，與k-medoids相比提高了約19%。

Table 4 Average results for the 3clustering algorithms running 10times on data sets T1～T5表4 三個(gè)聚類算法在T1至T5上運(yùn)行10次的平均效果

5.2.3 三種聚類算法的性能分析

三種聚類的總時(shí)間主要包括PLSA模型的訓(xùn)練時(shí)間和聚類算法的執(zhí)行時(shí)間兩部分，如表5所示，分別列出了五個(gè)數(shù)據(jù)集上的算法總時(shí)間和各算法執(zhí)行的時(shí)間，計(jì)算每個(gè)數(shù)據(jù)集上運(yùn)行的總時(shí)間和HAK-mediods聚類算法時(shí)間的差，發(fā)現(xiàn)PLSA模型訓(xùn)練需要的時(shí)間很少，主要時(shí)間消耗為聚類算法。而且，HAK-mediods聚類比k-means和kmediods聚類需要更多的時(shí)間，約為后兩者之和。

Table 5 Runtime of the 3clustering algorithms on the 5data sets表5 三種聚類算法在5個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間 ms

Table 2 Running one time on data set T3for the 3clustering algorithms表2 三個(gè)聚類算法在T3上運(yùn)行一次的結(jié)果

Table 3 Running 10times on data set T3for the 3clustering algorithms表3 三個(gè)聚類算法在T3上運(yùn)行10次的結(jié)果

為了進(jìn)一步說明聚類時(shí)間與網(wǎng)頁數(shù)的關(guān)系，在數(shù)據(jù)集T4上做了實(shí)驗(yàn)，結(jié)果如圖1所示。實(shí)驗(yàn)結(jié)果表明，隨著網(wǎng)頁數(shù)目的增加，聚類算法的時(shí)間呈線性增長。

Figure 1 Relationship between runtime and webpages of the 3clustering algorithms圖1 三種算法的運(yùn)行時(shí)間與網(wǎng)頁數(shù)的關(guān)系

6 結(jié)束語

通過對傳統(tǒng)的用戶興趣點(diǎn)聚類算法進(jìn)行分析，本文提出了一種將平面劃分法與凝聚式層次聚類相結(jié)合的HAK-medoids算法。用PLSA模型訓(xùn)練完網(wǎng)頁數(shù)據(jù)集之后結(jié)合WPLSI算法揭示潛在語義信息，并生成概率潛在語義向量空間，用“自動(dòng)相似度閾值選擇”方法得到瀏覽網(wǎng)頁間的相似度閾值，利用 HAK-medoids算法實(shí)現(xiàn)用戶興趣點(diǎn)聚類，最后結(jié)合評價(jià)標(biāo)準(zhǔn)對提出的方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，本文提出的用戶興趣點(diǎn)聚類技術(shù)能有效準(zhǔn)確地發(fā)現(xiàn)用戶興趣。

本文的研究還有待于進(jìn)一步深入：一是對HAK-medoids算法的進(jìn)一步改進(jìn)，如減少迭代次數(shù)；二是在個(gè)性化服務(wù)時(shí)，提高用戶行為數(shù)據(jù)的收集、利用的全面性，以便更好地挖掘用戶興趣來提高個(gè)性化［15］搜索和推薦的效率。

［1］ Xiao Sheng，Hu Jin-zhu，Yao Shuang－yun，et al.Study on feature item extraction method based on ontology view ［J］.Application Research of Computers，2010，27（1)：42-44.（in Chinese)

［2］ Zeng Chun，Xing Chun-xiao，Zhou Li-zhu.A survey of personalization technology ［J］.Journal of Software，2002，13（10)：1952-1961.（in Chinese)

［3］ Zhu Zheng－yu，Zhang Xiao-lin，Xiong Qian，et al.An algorithm of collaborative recommendation based on user’s interest sub-class［J］.Computer Science，2005，32（10)：176-180.（in Chinese)

［4］ Pan Yan-jun.Personalized research combining with analysis of web user’s behavior based on the user’s behavior browsing content［D］.Tianjin：Tianjin University，2005.（in Chinese)

［5］ Hsieh Ya-chao，Huang Yu-tsun，Wang Chien-Chih，et al.Improved spoken document retrieval with dynamic key term lexicon and probabilistic latent semantic analysis（PLSA)［C］∥Proc of Acoustics，Speech and Signal Processing，2006：961-964.

［6］ Li Sheng，Hu He-ping.An effective retrieval method based on probabilistic latent semantic analysis［J］.Journal of Huazhong University of Science ＆ Technology（Natural Science Edition)，2010，38（11)：48-50.（in Chinese)

［7］ Li Yuan-yuan，Ma Yong－qiang.Text term weighting approach based on latent semantic indexing［J］.Computer Applications，2008，28（6)：1460-1462.（in Chinese)

［8］ Bhat V，Oates T，Shanbhag V，et al.Finding aliases on the web using latent semantic analysis ［J］.Data ＆Knowledge Engineering，2004，49（2)：129-143.

［9］ Chen Shu-ran.Personlization-based user interest modeling and its applying study［D］.Chongqing：Chongqing University，2007.（in Chinese)

［10］ Zhang Meng，Wang Da-ling，Yu Ge.A text clustering method based on auto-selected threshold［J］.Journal of Computer Research and Development，2004，10（41)：1748-1753.（in Chinese)

［11］ Ma Su-qin，Shi Hua-ji.Text density clustering algorithm with optimized threshold values［J］.Computer Engineering and Applications，2011，47（17)：134-136.（in Chinese)

［12］ Jia Rui-yu，Geng Jin-wei，Ning Zai-zao，et al.Fast clustering algorithm based on representative points［J］.Computer Engineering and Applications，2010，46（33)：121-123.（in Chinese)

［13］ Guo Jing-feng，Zhao Yu-yan，Bian Wei-feng，et al.A hierarchical clustering algorithm based on improved cluster cohesion and separation［J］.Journal of Computer Research and Development，2008，45（Z1)：202-206.（in Chinese)

［14］ Zhang Yu-fang，Zhu Jun，Xiong Zhong－yang.Improved text clustering algorithm of probabilistic latent with semantic analysis［J］.Journal of Computer Applications，2011，31（3)：674-676.（in Chinese)

［15］ Hochul J，Taehwan K，Joongmin C.Adaptive user profiling for personalized information retrieval［C］∥Proc of the 3rd International Conference on Convergence and Hybrid Information Technology，2008：836-841.

附中文參考文獻(xiàn)：

［1］肖升，胡金柱，姚雙云，等.基于本體視圖特征項(xiàng)抽取方法研究［J］.計(jì)算機(jī)應(yīng)用研究，2010，27（1)：42-44.

［2］曾春，邢春曉，周立柱.個(gè)性化服務(wù)技術(shù)綜述［J］.軟件學(xué)報(bào)，2002，13（10)：1952-1961.

［3］朱征宇，張小林，熊茜，等.基于用戶興趣子類的協(xié)作推薦算法［J］.計(jì)算機(jī)科學(xué)，2005，32（10)：176-180.

［4］潘延軍.基于用戶瀏覽內(nèi)容的 Web用戶瀏覽行為個(gè)性化研究［D］.天津：天津大學(xué)，2005.

［6］李勝，胡和平.一種基于PLSA的高效檢索方法［J］.華中科技大學(xué)學(xué)報(bào)（自然科學(xué)版)，2010，38（11)：48-50.

［7］李媛媛，馬永強(qiáng).基于潛在語義索引的文本特征詞權(quán)重計(jì)算方法［J］.計(jì)算機(jī)應(yīng)用，2008，28（6)：1460-1462.

［9］陳抒然.面向個(gè)性化服務(wù)的用戶興趣建模及應(yīng)用研究［D］.重慶：重慶大學(xué)，2007.

［10］張猛，王大玲，于戈.一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法［J］.計(jì)算機(jī)研究與發(fā)展，2004，10（41)：1748-1753.

［11］馬素琴，施化吉.閾值優(yōu)化的文本密度聚類算法［J］.計(jì)算機(jī)工程與應(yīng)用，2011，47（17)：134-136.

［12］賈瑞玉，耿錦威，寧再早，等.基于代表點(diǎn)的快速聚類算法［J］.計(jì)算機(jī)工程與應(yīng)用，2010，46（33)：121-123.

［13］張玉芳，朱俊，熊忠陽.改進(jìn)的概率潛在語義分析下的文本聚類算法［J］.計(jì)算機(jī)應(yīng)用，2011，31（3)：674-676.

［14］郭景峰，趙玉艷，邊偉峰，等.基于改進(jìn)的凝聚性和分離性的層次聚類算法［J］.計(jì)算機(jī)研究與發(fā)展，2008，45（Z1)：202-206.

User’s interest clustering based on webpage probabilistic latent semantic information

QIAN Xue-zhong，WU Zhi-yuan
（School of Internet of Things Engineering，Jiangnan University，Wuxi 214122，China)

To mine user’s interests accurately，probabilistic latent semantic analysis（PLSA)model is firstly used to project webpage-word matrix vector into probabilistic latent semantic vector space.A method of“auto-selected similarity threshold”is proposed to get web pages similarity threshold.At last，combined with divisiory algorithms and hierarchical agglomerative clustering，a hierarchical agglomerative k-medoids clustering algorithm is proposed to realize cluster user’s interests.The experimental results show that，compared with the traditional divisiory algorithms，the hierarchical agglomerative kmedoids algorithm has a better clustering effect.Furthermore，user’s interest clustering technique can improve the efficiency of personalized recommendation and search in user’personalized service fields.

probabilistic latent semantic analysis；auto-selected similarity threshold；user’s interest points；hierarchical agglomerative k-medoids；personalized service

TP274

10.3969/j.issn.1007-130X.2014.04.033

2012-09-24；

2013-03-29

國家自然科學(xué)基金資助項(xiàng)目（61103129)；江蘇省科技支撐計(jì)劃資助項(xiàng)目（BE2009009)

通訊地址：214122江蘇省無錫市蠡湖大道1800號江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院

Address：School of Internet of Things Engineering，Jiangnan University，1800Lihu Avenue，Wuxi 214122，Jiangsu，P.R.China

1007-130X（2014)04-0765-07

錢雪忠（1966-)，男，江蘇無錫人，碩士，副教授，研究方向?yàn)閿?shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘和網(wǎng)絡(luò)安全。E-mail：qxzvb＠163.com

QIAN Xue-zhong，born in 1966，MS，associate professor，his research interests include database technology，data mining，and network security.

吳志媛（1989-)，女，江蘇漣水人，碩士生，研究方向為數(shù) 據(jù) 挖掘。E-mail：wuzhiyuan0613＠163.com

WU Zhi-yuan，born in 1989，MS candidate，her research interest includes data mining.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于網(wǎng)頁概率潛在語義信息的用戶興趣聚類＊

1 引言

2 網(wǎng)頁的概率潛在語義信息

2.1 網(wǎng)頁數(shù)據(jù)處理

2.2 網(wǎng)頁的概率潛在語義信息

3 自動(dòng)相似度閾值選擇

3.1 自動(dòng)發(fā)現(xiàn)相似度閾值的基本思想

3.2 最小二乘擬合多項(xiàng)式

3.3 網(wǎng)頁間相似度閾值

4 基于HAK-medoids的用戶興趣聚類

4.1 基于劃分的聚類算法

4.2 適應(yīng)度函數(shù)確定

4.3 基于HAK-medoids算法的用戶興趣聚類

5 實(shí)驗(yàn)評估

5.1 數(shù)據(jù)集

5.2 三種聚類算法的實(shí)驗(yàn)分析

6 結(jié)束語