錢雪忠,吳志媛
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
基于網(wǎng)頁概率潛在語義信息的用戶興趣聚類*
錢雪忠,吳志媛
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
為了能準(zhǔn)確挖掘用戶興趣點(diǎn),首先利用概率潛在語義分析PLSA模型將“網(wǎng)頁-詞”矩陣向量投影到概率潛在語義向量空間,并提出“自動(dòng)相似度閾值選擇”方法得到網(wǎng)頁間的相似度閾值,最后提出將平面劃分法與凝聚式層次聚類相結(jié)合的凝聚式層次k中心點(diǎn)HAK-medoids算法,實(shí)現(xiàn)用戶興趣點(diǎn)聚類。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于劃分的算法相比,HAK-medoids算法聚類效果更好。同時(shí),提出的用戶興趣點(diǎn)聚類技術(shù)在個(gè)性化服務(wù)領(lǐng)域可提高個(gè)性化推薦和搜索的效率。
概率潛在語義分析;自動(dòng)相似度閾值選擇;用戶興趣點(diǎn);凝聚式層次k中心點(diǎn);個(gè)性化服務(wù)
隨著Web 3.0時(shí)代的到來,人們對信息獲取手段和效率提出越來越高的要求。傳統(tǒng)互聯(lián)網(wǎng)的服務(wù)模式正在逐漸向主動(dòng)式、個(gè)性化、高效率轉(zhuǎn)變。目前的信息檢索方式主要是基于關(guān)鍵詞匹配的檢索方式,如向量空間模型 VSM(Vector Space Model)[1]、基于模糊語言的方法等,檢索系統(tǒng)多從檢索模型和信息加工過程來提高檢索的準(zhǔn)確性,并沒有對用戶給予更多的關(guān)注。特別是以網(wǎng)絡(luò)搜索引擎為例,不同背景的用戶使用相同的提問來查詢,得到的結(jié)果沒有區(qū)別,導(dǎo)致用戶不容易發(fā)現(xiàn)自己的最新興趣。個(gè)性化服務(wù)技術(shù)[2]的出現(xiàn)在一定程度上解決了Internet中信息海量增長與用戶獲取信息手段相對簡單之間的矛盾。以Google等為首的商業(yè)化互聯(lián)網(wǎng)公司也提出,下一代互聯(lián)網(wǎng)必將是智能化、個(gè)性化的。國內(nèi)外有很多研究者對個(gè)性化服務(wù)進(jìn)行分析研究,如:Schwab等通過觀察用戶對頁面的選擇獲取用戶感興趣的頁面作為訓(xùn)練樣本,而后以出現(xiàn)在感興趣頁面中指定位置的單字構(gòu)成用戶模型;文獻(xiàn)[3]提出了基于興趣子類的用戶興趣建模并將其用于多用戶協(xié)作推薦;文獻(xiàn)[4]等對用戶瀏覽過的網(wǎng)頁采用分類的方式建立用戶興趣模型。
本文研究的目的就是在對用戶瀏覽內(nèi)容進(jìn)行挖掘的基礎(chǔ)上,提出新的聚類算法確定用戶興趣點(diǎn)的個(gè)數(shù)來準(zhǔn)確表示用戶的偏好,從而為個(gè)性化服務(wù)打下堅(jiān)實(shí)的基礎(chǔ)。
根據(jù)用戶在一段時(shí)間內(nèi)對某個(gè)網(wǎng)站進(jìn)行訪問的歷史記錄,經(jīng)過頁面識別和關(guān)鍵詞提取等數(shù)據(jù)預(yù)處理后,建立瀏覽頁網(wǎng)頁集 D={d1,d2,…,dM}和詞集W={w1,w2,…,wN}。每個(gè)瀏覽頁面可以看成一個(gè) N 維向量di={ai1,ai2,… ,aiN},aij描述了特征詞wj在文檔di中的權(quán)重。那么,所有的瀏覽頁面就可以用一個(gè)網(wǎng)頁-詞矩陣DW 來表示:DW={aij}(i=1,2,…,M;j=1,2,…,N)。
針對前文構(gòu)建的網(wǎng)頁-詞矩陣向量空間,提出能揭示用戶興趣的網(wǎng)頁的概率潛在語義信息WPLSI(Webpage Probabilistic Latent Semantic Information)算法。WPLSI算法通過 PLSA[5,6]模型將構(gòu)建的瀏覽頁面-特征詞矩陣向量空間投影到概率潛在語義向量空間PLSVS(Probabilistic Latent Semantic Vector Space)。
2.2.1 PLSA模型
概率潛在語義分析模型的定義如下:對于文檔集D={d1,d2,…,dM}和詞集 W ={w1,w2,…,wN},用 Z={z1,z2,…,zK}表示潛在主題集合。假設(shè)在主題Z已知的前提下,詞-文檔對之間是條件獨(dú)立的,潛在主題在文檔或詞上的分布也是條件獨(dú)立的,則文檔與詞的聯(lián)合概率可表示為公式(1):
E步驟(求期望):
M步驟(使對數(shù)似然函數(shù)最大):
2.2.2 概率潛在語義空間的網(wǎng)頁向量表示
2.2.3 相似度計(jì)算測量
本文用向量之間的夾角余弦來表示網(wǎng)頁文本間的相似程度。由k維的概率潛在語義向量空間PLSVS得到網(wǎng)頁的向量表示,則網(wǎng)頁間的相似度可表示如下:
要挖掘出用戶的興趣點(diǎn)[8](即用戶對什么樣的網(wǎng)頁感興趣),首先得確定用戶的興趣點(diǎn)數(shù),也就是某次聚類的聚類個(gè)數(shù)k值。因此,在確定聚類數(shù)之前,首先必須確定相似度閾值μ的值。
在眾多相似度值中能否找到一個(gè)臨界值,相似度值大于此臨界值的,表示這對網(wǎng)頁相似,相反則反之,此臨界值即是數(shù)學(xué)中的閾值。自動(dòng)發(fā)現(xiàn)相似度閾值[9,10]的基本思想是:對于一個(gè)給定的網(wǎng)頁文本,如果將它與其他網(wǎng)頁文本的相似度值遞減排序,與其相似的文本(即與該文本在一個(gè)聚類簇的文本)之間的相似度較之與其不相似文本(與該文本不在一個(gè)聚類簇的文本)之間的相似度在總體上一定有一個(gè)比較大的區(qū)別。本文采用最小二乘多項(xiàng)式來擬合這些以相似度值為坐標(biāo)的點(diǎn),通過求得擬合曲線的拐點(diǎn)確定相應(yīng)的閾值。
顯然,公式(7)是一個(gè)關(guān)于擬合系數(shù)a0、a1、…、an的n+1元線性方程組。
定理1設(shè)數(shù)據(jù)點(diǎn)的橫坐標(biāo)x0、x1、…、xm互異,則方程組(7)的解存在且唯一。
在一般情況下,n不宜過高。對于n值的確定,一般可以根據(jù)散點(diǎn)圖進(jìn)行直觀觀察,選擇幾個(gè)不同的n值曲線分別擬合,然后比較哪條曲線的最小二乘指標(biāo)最小,從而確定擬合的曲線。
本文在觀察分析以相似度值為坐標(biāo)的點(diǎn)的分布之后,決定用三次多項(xiàng)式方程來擬合以相似度為坐標(biāo)的點(diǎn),解方程組(7)(n=3)可得到擬合方程P3(x),求該方程的二階導(dǎo)數(shù)并令其等于零,解得x即為曲線的拐點(diǎn),用與該x值相對應(yīng)的y值作為閾值μ。用三次曲線擬合,當(dāng)網(wǎng)頁文本數(shù)目很多時(shí)可以按一定間隔取點(diǎn)進(jìn)行擬合計(jì)算,以提高時(shí)間效率。本文根據(jù)曲線多項(xiàng)式擬合技術(shù)提出的自動(dòng)發(fā)現(xiàn)閾值方法,不僅替代了用戶指定參數(shù)的過程,而且自動(dòng)獲得隨數(shù)據(jù)分布動(dòng)態(tài)變化的閾值,使聚類過程更加自動(dòng)化和智能化。
基于劃分的聚類[11,12]方法主要有k-means算法和k-medoids算法及他們的變種。k-means算法是隨機(jī)選擇k個(gè)對象,每個(gè)對象初始地代表一個(gè)簇的平均值;k-medoids算法是選用簇中位置最中心的對象來代表某個(gè)簇,也叫做中心點(diǎn)。但是,kmeans算法和k-medoids算法需要指定一些閾值參數(shù),如聚類個(gè)數(shù)k。
基于劃分的聚類思想是“距離最近”原則,在網(wǎng)頁聚類中的距離就是相似度值。將各聚類中心與歸入其類的網(wǎng)頁相似度之和的最大值作為適應(yīng)度函數(shù),即:
其中,Ci表示聚成的k個(gè)類,p是屬于某個(gè)類Ci的網(wǎng)頁,mi是某個(gè)類Ci的聚類中心,sim(p,mi)是網(wǎng)頁p和mi的相似度。此式是使得最終聚類結(jié)果的各聚類簇中的網(wǎng)頁圍繞其聚類簇中心盡量緊湊,從而使整個(gè)聚類算法對所有網(wǎng)頁文本得到一個(gè)較為合理的劃分。
基于劃分的聚類算法是快速的,但收斂時(shí)只是達(dá)到一個(gè)局部最優(yōu);層次聚類算法是全局較優(yōu)的,但效率比較低且需要較多的迭代次數(shù),明顯的缺點(diǎn)是不具有再分配能力。
本文在分析了基于現(xiàn)有的聚類算法和實(shí)際應(yīng)用環(huán)境后,提出將基于劃分的算法與凝聚式層次聚類 HAC(Hierarchical Agglomerative Clustering)[13]相結(jié)合的 HAK-medoids算法:首先利用凝聚式層次聚類算法進(jìn)行初始聚類,確定初始聚類中心和聚類數(shù)k值;然后用k-medoids算法進(jìn)行聚類分析。HAK-medoids算法既可以解決算法效率的問題,又能解決數(shù)據(jù)點(diǎn)再分配的問題。HAK-medoids算法定義如下:
算法HAK-medoids
輸入:概率潛在語義向量空間PLSVS和自動(dòng)相似度閾值μ。
輸出:用戶感興趣的網(wǎng)頁聚類簇和聚類數(shù)k。
步驟1將概率潛在語義向量空間PLSVS中的每一行對象(即用戶瀏覽的網(wǎng)頁)看作是一個(gè)具有單個(gè)成員的聚類Ci={},這些聚類構(gòu)成了PLSVS的一個(gè)聚類C={C1,C2,…,Cn}。
步驟2計(jì)算C中每對類(Ci,Cj)之間的相似度sim(Ci,Cj),形成相似度矩陣S。
步驟3在相似度矩陣S中查找最大相似度值max=MAX{sim(Ci,Cj)},如果max≥μ,將Ci和Cj合并為一個(gè)新的類Ct=Ci∪Cj,得到一個(gè)新的聚類C={C1,C2,…,Cn-1}。
步驟4重復(fù)步驟2和步驟3,直到max<μ時(shí)層次聚類結(jié)束,得到有k個(gè)子類的聚類C′=,,…,}。
步驟5對PLSVS中的每一個(gè)對象依次計(jì)算它與各個(gè)聚類中心Cj′的相似度sim,)(j=1,2,…,k),形成相似度矩陣S′。
步驟6在矩陣S′中選擇具有最大相似度值的聚類中心,將歸入以為中心的類中。
步驟7計(jì)算新的聚類中心:新的聚類中心為適應(yīng)度函數(shù)取值最大時(shí)的那個(gè)聚類中心。對于每個(gè)聚類中心),順序選取類中的任一個(gè)非中心對象,計(jì)算用代替后的E值,選擇E值最大的那個(gè)Cr′來代替作為新的聚類中心。
步驟8重復(fù)步驟5~步驟7,直到所有的對象計(jì)算完,所有的聚類中心點(diǎn)均不再變化。
步驟9算法結(jié)束。
通過HAK-medoids算法對用戶瀏覽過的所有歷史網(wǎng)頁集聚類,得到k個(gè)聚類簇(k是聚類中心數(shù)目),聚類簇的頁面集體現(xiàn)了用戶的某類興趣。由此,當(dāng)用戶進(jìn)行個(gè)性化搜索[12,14]時(shí),系統(tǒng)知道應(yīng)該向用戶推薦哪些網(wǎng)頁,從而提高系統(tǒng)的個(gè)性化服務(wù)效率和用戶的滿意度。
本文下載了來自搜狐、雅虎等門戶網(wǎng)站的各相應(yīng)欄目下的10類網(wǎng)頁,每個(gè)類240張網(wǎng)頁,形成總測試集Ts2400。這10個(gè)類分別是下列主題:時(shí)尚(f)、體育(sp)、娛樂(e)、教育(ed)、汽車(a)、科技(tc)、社會(huì)(sc)、旅游(t)、軍事(m)和政治(p)。為了評價(jià)各算法,從Ts2400中選取五組網(wǎng)頁組成五個(gè)數(shù)據(jù)集T1~T5來做實(shí)驗(yàn)。如表1所示,k表示該數(shù)據(jù)集的類別數(shù)(即人為準(zhǔn)備的網(wǎng)頁聚類數(shù)),info列描述各類網(wǎng)頁所屬的名稱及其包含的網(wǎng)頁數(shù)。
Table 1 Experiment data set表1 實(shí)驗(yàn)數(shù)據(jù)集
5.2.1 評價(jià)標(biāo)準(zhǔn)
在數(shù)據(jù)挖掘[14]中,通常采用召回率、精確率來評價(jià)分類算法的好壞。召回率是指在分類后某類別的網(wǎng)頁個(gè)數(shù)占分類前事先人為準(zhǔn)備的該類網(wǎng)頁數(shù)量的百分比;精確率是在分類后某類別的網(wǎng)頁個(gè)數(shù)占該類總的網(wǎng)頁個(gè)數(shù)的百分比。設(shè)分類后某類的Web頁面集合為RS,而分類前事先人為準(zhǔn)備的Web頁面集合為US。召回率recall和精確率precision分別采用以下公式計(jì)算:
但是,一般采用F-measure值來評判聚類算法的性能,F(xiàn)-measure值的計(jì)算公式如下:
其中,recall和precision分別是公式(10)的類別的召回率和精確率。由公式(11)可知,F(xiàn)-measure的評價(jià)標(biāo)準(zhǔn)既考慮了召回率又同時(shí)考慮了精確率,是一種比較科學(xué)的評價(jià)方法。
5.2.2三種聚類算法的實(shí)驗(yàn)分析
由于數(shù)據(jù)集T3中的娛樂類網(wǎng)頁個(gè)數(shù)只有10個(gè),因此以T3為例詳細(xì)給出運(yùn)行結(jié)果。將三種聚類算法分別在T3上運(yùn)行一次,結(jié)果如表2所示。其中,iter表示迭代次數(shù),F(xiàn)是F-measure評價(jià)值。
從表2中可以看出,網(wǎng)頁個(gè)數(shù)太少的娛樂類(e),k-means、k-medoids算法的召回率和精確率都為0,原因是基于劃分的聚類算法不能在類形相差太大時(shí)進(jìn)行很好的聚類;從HAK-medoids算法的運(yùn)行結(jié)果可以看出,娛樂類(e)已經(jīng)形成一個(gè)類,說明HAK-medoids算法在處理類形相差較大的數(shù)據(jù)時(shí)產(chǎn)生了比較好的效果。
以數(shù)據(jù)集T3為例,將三種聚類算法分別運(yùn)行10次,實(shí)驗(yàn)結(jié)果如表3所示。其中,iter表示達(dá)到收斂時(shí)的平均迭代次數(shù),F(xiàn)values表示算法每次運(yùn)行的F值,avgF表示10次Fvalues的平均值。
從表3的實(shí)驗(yàn)數(shù)據(jù)可知,k-means算法聚類效果的avgF值比k-medoids的好,且這兩種聚類算法迭代較少次數(shù)就可以收斂。相比基于劃分的算法,HAK-medoids算法在F-measure值上有較大提高,但需要較多的迭代次數(shù)。
從表4中各個(gè)聚類算法的平均效果可知:使用HAK-medoids算法來進(jìn)行網(wǎng)頁聚類,雖然其最終原理還是基于劃分的聚類算法的“最近距離”原則,但其比傳統(tǒng)的基于劃分的聚類算法在聚類效果上有較大的提高:比較五個(gè)測試集上的avgF值,HAK-medoids算法與k-means相比提高了約16%,與k-medoids相比提高了約19%。
Table 4 Average results for the 3clustering algorithms running 10times on data sets T1~T5表4 三個(gè)聚類算法在T1至T5上運(yùn)行10次的平均效果
5.2.3 三種聚類算法的性能分析
三種聚類的總時(shí)間主要包括PLSA模型的訓(xùn)練時(shí)間和聚類算法的執(zhí)行時(shí)間兩部分,如表5所示,分別列出了五個(gè)數(shù)據(jù)集上的算法總時(shí)間和各算法執(zhí)行的時(shí)間,計(jì)算每個(gè)數(shù)據(jù)集上運(yùn)行的總時(shí)間和HAK-mediods聚類算法時(shí)間的差,發(fā)現(xiàn)PLSA模型訓(xùn)練需要的時(shí)間很少,主要時(shí)間消耗為聚類算法。而且,HAK-mediods聚類比k-means和kmediods聚類需要更多的時(shí)間,約為后兩者之和。
Table 5 Runtime of the 3clustering algorithms on the 5data sets表5 三種聚類算法在5個(gè)數(shù)據(jù)集上的運(yùn)行時(shí)間 ms
Table 2 Running one time on data set T3for the 3clustering algorithms表2 三個(gè)聚類算法在T3上運(yùn)行一次的結(jié)果
Table 3 Running 10times on data set T3for the 3clustering algorithms表3 三個(gè)聚類算法在T3上運(yùn)行10次的結(jié)果
為了進(jìn)一步說明聚類時(shí)間與網(wǎng)頁數(shù)的關(guān)系,在數(shù)據(jù)集T4上做了實(shí)驗(yàn),結(jié)果如圖1所示。實(shí)驗(yàn)結(jié)果表明,隨著網(wǎng)頁數(shù)目的增加,聚類算法的時(shí)間呈線性增長。
Figure 1 Relationship between runtime and webpages of the 3clustering algorithms圖1 三種算法的運(yùn)行時(shí)間與網(wǎng)頁數(shù)的關(guān)系
通過對傳統(tǒng)的用戶興趣點(diǎn)聚類算法進(jìn)行分析,本文提出了一種將平面劃分法與凝聚式層次聚類相結(jié)合的HAK-medoids算法。用PLSA模型訓(xùn)練完網(wǎng)頁數(shù)據(jù)集之后結(jié)合WPLSI算法揭示潛在語義信息,并生成概率潛在語義向量空間,用“自動(dòng)相似度閾值選擇”方法得到瀏覽網(wǎng)頁間的相似度閾值,利用 HAK-medoids算法實(shí)現(xiàn)用戶興趣點(diǎn)聚類,最后結(jié)合評價(jià)標(biāo)準(zhǔn)對提出的方法進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的用戶興趣點(diǎn)聚類技術(shù)能有效準(zhǔn)確地發(fā)現(xiàn)用戶興趣。
本文的研究還有待于進(jìn)一步深入:一是對HAK-medoids算法的進(jìn)一步改進(jìn),如減少迭代次數(shù);二是在個(gè)性化服務(wù)時(shí),提高用戶行為數(shù)據(jù)的收集、利用的全面性,以便更好地挖掘用戶興趣來提高個(gè)性化[15]搜索和推薦的效率。
[1] Xiao Sheng,Hu Jin-zhu,Yao Shuang-yun,et al.Study on feature item extraction method based on ontology view [J].Application Research of Computers,2010,27(1):42-44.(in Chinese)
[2] Zeng Chun,Xing Chun-xiao,Zhou Li-zhu.A survey of personalization technology [J].Journal of Software,2002,13(10):1952-1961.(in Chinese)
[3] Zhu Zheng-yu,Zhang Xiao-lin,Xiong Qian,et al.An algorithm of collaborative recommendation based on user’s interest sub-class[J].Computer Science,2005,32(10):176-180.(in Chinese)
[4] Pan Yan-jun.Personalized research combining with analysis of web user’s behavior based on the user’s behavior browsing content[D].Tianjin:Tianjin University,2005.(in Chinese)
[5] Hsieh Ya-chao,Huang Yu-tsun,Wang Chien-Chih,et al.Improved spoken document retrieval with dynamic key term lexicon and probabilistic latent semantic analysis(PLSA)[C]∥Proc of Acoustics,Speech and Signal Processing,2006:961-964.
[6] Li Sheng,Hu He-ping.An effective retrieval method based on probabilistic latent semantic analysis[J].Journal of Huazhong University of Science & Technology(Natural Science Edition),2010,38(11):48-50.(in Chinese)
[7] Li Yuan-yuan,Ma Yong-qiang.Text term weighting approach based on latent semantic indexing[J].Computer Applications,2008,28(6):1460-1462.(in Chinese)
[8] Bhat V,Oates T,Shanbhag V,et al.Finding aliases on the web using latent semantic analysis [J].Data &Knowledge Engineering,2004,49(2):129-143.
[9] Chen Shu-ran.Personlization-based user interest modeling and its applying study[D].Chongqing:Chongqing University,2007.(in Chinese)
[10] Zhang Meng,Wang Da-ling,Yu Ge.A text clustering method based on auto-selected threshold[J].Journal of Computer Research and Development,2004,10(41):1748-1753.(in Chinese)
[11] Ma Su-qin,Shi Hua-ji.Text density clustering algorithm with optimized threshold values[J].Computer Engineering and Applications,2011,47(17):134-136.(in Chinese)
[12] Jia Rui-yu,Geng Jin-wei,Ning Zai-zao,et al.Fast clustering algorithm based on representative points[J].Computer Engineering and Applications,2010,46(33):121-123.(in Chinese)
[13] Guo Jing-feng,Zhao Yu-yan,Bian Wei-feng,et al.A hierarchical clustering algorithm based on improved cluster cohesion and separation[J].Journal of Computer Research and Development,2008,45(Z1):202-206.(in Chinese)
[14] Zhang Yu-fang,Zhu Jun,Xiong Zhong-yang.Improved text clustering algorithm of probabilistic latent with semantic analysis[J].Journal of Computer Applications,2011,31(3):674-676.(in Chinese)
[15] Hochul J,Taehwan K,Joongmin C.Adaptive user profiling for personalized information retrieval[C]∥Proc of the 3rd International Conference on Convergence and Hybrid Information Technology,2008:836-841.
附中文參考文獻(xiàn):
[1] 肖升,胡金柱,姚雙云,等.基于本體視圖特征項(xiàng)抽取方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(1):42-44.
[2] 曾春,邢春曉,周立柱.個(gè)性化服務(wù)技術(shù)綜述[J].軟件學(xué)報(bào),2002,13(10):1952-1961.
[3] 朱征宇,張小林,熊茜,等.基于用戶興趣子類的協(xié)作推薦算法[J].計(jì)算機(jī)科學(xué),2005,32(10):176-180.
[4] 潘延軍.基于用戶瀏覽內(nèi)容的 Web用戶瀏覽行為個(gè)性化研究[D].天津:天津大學(xué),2005.
[6] 李勝,胡和平.一種基于PLSA的高效檢索方法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,38(11):48-50.
[7] 李媛媛,馬永強(qiáng).基于潛在語義索引的文本特征詞權(quán)重計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2008,28(6):1460-1462.
[9] 陳抒然.面向個(gè)性化服務(wù)的用戶興趣建模及應(yīng)用研究[D].重慶:重慶大學(xué),2007.
[10] 張猛,王大玲,于戈.一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[J].計(jì)算機(jī)研究與發(fā)展,2004,10(41):1748-1753.
[11] 馬素琴,施化吉.閾值優(yōu)化的文本密度聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(17):134-136.
[12] 賈瑞玉,耿錦威,寧再早,等.基于代表點(diǎn)的快速聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(33):121-123.
[13] 張玉芳,朱俊,熊忠陽.改進(jìn)的概率潛在語義分析下的文本聚類算法[J].計(jì)算機(jī)應(yīng)用,2011,31(3):674-676.
[14] 郭景峰,趙玉艷,邊偉峰,等.基于改進(jìn)的凝聚性和分離性的層次聚類算法[J].計(jì)算機(jī)研究與發(fā)展,2008,45(Z1):202-206.
User’s interest clustering based on webpage probabilistic latent semantic information
QIAN Xue-zhong,WU Zhi-yuan
(School of Internet of Things Engineering,Jiangnan University,Wuxi 214122,China)
To mine user’s interests accurately,probabilistic latent semantic analysis(PLSA)model is firstly used to project webpage-word matrix vector into probabilistic latent semantic vector space.A method of“auto-selected similarity threshold”is proposed to get web pages similarity threshold.At last,combined with divisiory algorithms and hierarchical agglomerative clustering,a hierarchical agglomerative k-medoids clustering algorithm is proposed to realize cluster user’s interests.The experimental results show that,compared with the traditional divisiory algorithms,the hierarchical agglomerative kmedoids algorithm has a better clustering effect.Furthermore,user’s interest clustering technique can improve the efficiency of personalized recommendation and search in user’personalized service fields.
probabilistic latent semantic analysis;auto-selected similarity threshold;user’s interest points;hierarchical agglomerative k-medoids;personalized service
TP274
A
10.3969/j.issn.1007-130X.2014.04.033
2012-09-24;
2013-03-29
國家自然科學(xué)基金資助項(xiàng)目(61103129);江蘇省科技支撐計(jì)劃資助項(xiàng)目(BE2009009)
通訊地址:214122江蘇省無錫市蠡湖大道1800號江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院
Address:School of Internet of Things Engineering,Jiangnan University,1800Lihu Avenue,Wuxi 214122,Jiangsu,P.R.China
1007-130X(2014)04-0765-07
錢雪忠(1966-),男,江蘇無錫人,碩士,副教授,研究方向?yàn)閿?shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘和網(wǎng)絡(luò)安全。E-mail:qxzvb@163.com
QIAN Xue-zhong,born in 1966,MS,associate professor,his research interests include database technology,data mining,and network security.
吳志媛(1989-),女,江蘇漣水人,碩士生,研 究 方 向 為 數(shù) 據(jù) 挖 掘。E-mail:wuzhiyuan0613@163.com
WU Zhi-yuan,born in 1989,MS candidate,her research interest includes data mining.