耿宜鵬,鞠時(shí)光,蔡文鵬,章 恒
(江蘇大學(xué) 計(jì)算機(jī)科學(xué)與通信工程學(xué)院,江蘇 鎮(zhèn)江 212013)
文本信息處理作為自然語(yǔ)言處理的一個(gè)研究領(lǐng)域,其主要研究?jī)?nèi)容包含:文本分類、文本聚類和文本建模.網(wǎng)頁(yè)主題分類技術(shù)是文本信息處理的一個(gè)具體應(yīng)用,廣泛應(yīng)用于搜索引擎、主動(dòng)服務(wù)推送、信息過(guò)濾等領(lǐng)域,已成為管理和組織Web網(wǎng)頁(yè)信息的關(guān)鍵技術(shù)之一.隨著各站點(diǎn)數(shù)據(jù)井噴式的更新與增加,網(wǎng)頁(yè)主題類型也會(huì)不斷出現(xiàn)變化,同一站點(diǎn)的網(wǎng)頁(yè)主題在不同的時(shí)間段上會(huì)出現(xiàn)變遷.例如以騰訊體育官方新聞數(shù)據(jù)為例,2019年10月“CBA賽事”相關(guān)的網(wǎng)頁(yè)主題主要體現(xiàn)在“CBA季前賽”上,2019年11月相關(guān)的網(wǎng)頁(yè)主題已從“季前賽”變遷到“CBA常規(guī)賽”.這種主題變遷的研究將為服務(wù)推送、數(shù)據(jù)統(tǒng)計(jì)等相關(guān)領(lǐng)域提供有效的幫助.
國(guó)內(nèi)外已有研究人員從不同的角度對(duì)網(wǎng)頁(yè)主題分類和網(wǎng)頁(yè)主題變遷進(jìn)行了研究,使用的方法主要分為:基于字符串的方法[1-4]和基于語(yǔ)料庫(kù)的方法[5-8].
基于字符串的方法提出了一系列將字符與機(jī)器學(xué)習(xí)相結(jié)合的處理技術(shù),主要包括網(wǎng)頁(yè)表示、降維、Web網(wǎng)頁(yè)主題分類以及網(wǎng)頁(yè)主題分類的評(píng)估,這些技術(shù)被用于實(shí)現(xiàn)自動(dòng)網(wǎng)頁(yè)分類系統(tǒng)、自動(dòng)目錄維護(hù)系統(tǒng)等.
基于語(yǔ)料庫(kù)的方法提出了一系列將概率主題模型和機(jī)器學(xué)習(xí)、深度學(xué)習(xí)相結(jié)合的網(wǎng)頁(yè)分類策略,這些策略可以提取潛在頁(yè)面信息特征,提高了網(wǎng)頁(yè)主題分類的準(zhǔn)確性和可信度.
文獻(xiàn)[9]在主題分類時(shí)加入了主題時(shí)間分布的因素,根據(jù)網(wǎng)頁(yè)主題的流行趨勢(shì)提出了E-LDA模型,該模型通過(guò)挖掘潛在語(yǔ)義對(duì)網(wǎng)頁(yè)文本進(jìn)行主題分類,并完成不同時(shí)間分布上的主題分析.
綜上所述,近些年來(lái)研究人員已對(duì)網(wǎng)頁(yè)主題分類和網(wǎng)頁(yè)主題變遷進(jìn)行了相關(guān)探索與研究,但是仍然存在一些局限,主要包括以下方面:
1)基于字符串的網(wǎng)頁(yè)主題分類技術(shù)難以對(duì)網(wǎng)頁(yè)文本中潛在的語(yǔ)義特征進(jìn)行提取,致使提取的特征難以全面的刻畫主題分布,從而導(dǎo)致主題分類發(fā)生偏移;
2)基于語(yǔ)料庫(kù)的主題分類技術(shù)在提取特征時(shí)雖然考慮到了上下文之間的關(guān)系,但是在表示主題向量時(shí)使用了不可直接解釋的密集向量,不能被直接用來(lái)計(jì)算網(wǎng)頁(yè)變遷;
3)對(duì)于網(wǎng)頁(yè)主題變遷的研究尚不成熟,評(píng)價(jià)標(biāo)準(zhǔn)也不完善,需要人工對(duì)處理結(jié)果進(jìn)行評(píng)判.
鑒于以上分析,本文提出了一種整合時(shí)間維度和主題維度的策略,該策略在時(shí)間維度對(duì)網(wǎng)頁(yè)文本集進(jìn)行離散化,然后對(duì)離散時(shí)間窗口上的頁(yè)面信息進(jìn)行分析,挖掘潛在語(yǔ)義.該策略可以對(duì)頁(yè)面潛在語(yǔ)義信息特征進(jìn)行提取,自動(dòng)聚合語(yǔ)義相似的頁(yè)面,完成網(wǎng)頁(yè)主題分類;分析各時(shí)間窗口上的主題分布,計(jì)算主題分布間的相似度,可以推算主題類型的變遷.
網(wǎng)頁(yè)主題分類技術(shù)離不開(kāi)文本信息處理,其中與本文最直接相關(guān)的是文本建模.所謂的文本建模是指,通過(guò)一系列技術(shù)將人類語(yǔ)言轉(zhuǎn)化成計(jì)算機(jī)可以處理的形式[9],現(xiàn)階段的文本建模主要包括概率主題模型(Probabilistic Topic Model,PTM)和向量空間模型(Vector Space Model,VSM).向量空間模型的優(yōu)點(diǎn)在于其特征表示和權(quán)值計(jì)算可以根據(jù)具體情況進(jìn)行調(diào)整,但該類模型忽略了詞與詞之間的關(guān)系,只能從詞的表面進(jìn)行分析,不能深入挖掘詞的語(yǔ)義;概率主題模型是一種新的文本表示模型,能夠挖掘出文本中的隱含主題,廣泛應(yīng)用于信息分類和檢索領(lǐng)域.
本文在設(shè)計(jì)網(wǎng)頁(yè)主題分類方法時(shí),吸取了LDA主題模型的優(yōu)勢(shì),擴(kuò)展了Mikolov等人[10]的詞向量模型,提出了一種適用于網(wǎng)頁(yè)主題分類的Skip-PTM模型.Skip-PTM模型在Word2Vec的Skip-gram模型基礎(chǔ)上建模,由原來(lái)的使用詞向量預(yù)測(cè)上下文詞轉(zhuǎn)變?yōu)槭褂蒙舷挛南蛄縼?lái)預(yù)測(cè)上下文詞.上下文向量是指文本中一個(gè)詞的表示不僅與周圍詞相關(guān),還與文本集中所有的主題分布相關(guān).如圖1所示,在網(wǎng)頁(yè)文本W(wǎng)ebpagei中,詞Wj的表示不僅與該文本中的周圍詞W1,W2,…,Wk相關(guān),還與Webpagei所屬的網(wǎng)頁(yè)文本集WebpagesSet中所有的主題分布相關(guān).
圖1 詞的表示過(guò)程示意圖
Skip-PTM模型首先通過(guò)組合詞向量和網(wǎng)頁(yè)文本向量來(lái)構(gòu)建上下文向量,其次基于上下文向量預(yù)測(cè)上下文詞,最后得到主題及特征詞.結(jié)構(gòu)圖如圖2所示,該模型的訓(xùn)練結(jié)果是獲得一組稀疏文本權(quán)重向量以及易于解釋的網(wǎng)頁(yè)主題矩陣.其中,網(wǎng)頁(yè)文本權(quán)重向量代表不同主題向量的百分比,而網(wǎng)頁(yè)主題矩陣由不同主題向量組成.
圖2 Skip-PTM模型結(jié)構(gòu)圖
(1)
(2)
為了保證pjk的可解釋性,這里采用Softmax的方式保證其和為1且非負(fù),公式(3)給出了pjk的計(jì)算過(guò)程,由公式可知pjk的計(jì)算與Ld密切相關(guān).
Ld=λ∑jk(a-1)logpjk
(3)
其中,λ用于控制損失函數(shù)的權(quán)重;a用于控制主題分布權(quán)重的稀疏性,當(dāng)a>1時(shí),訓(xùn)練出來(lái)的權(quán)重較為稀疏,主題分布趨于集中.為了增強(qiáng)模型的可解釋性,這里取α=k-1,k表示主題的數(shù)量.
網(wǎng)頁(yè)主題類型變遷是指同一網(wǎng)站在連續(xù)的時(shí)間段中,網(wǎng)頁(yè)的主題類型會(huì)隨著時(shí)間的變化而發(fā)生變遷,這種變遷包含了主題的出現(xiàn)、發(fā)展與消失.Skip-PTM模型在處理網(wǎng)頁(yè)主題分類時(shí)能夠發(fā)揮有效的作用,但是在處理網(wǎng)頁(yè)主題類型變遷時(shí),則需要對(duì)該模型進(jìn)行一些改變.本文在Skip-PTM模型上加入時(shí)間信息,根據(jù)一定的時(shí)間粒度,將網(wǎng)頁(yè)文本集離散到時(shí)間窗口上,然后在獨(dú)立的時(shí)間窗口中,通過(guò)Skip-PTM模型獲取網(wǎng)頁(yè)的主題變遷趨勢(shì).
如圖3所示,本文通過(guò)將網(wǎng)頁(yè)文本集離散到時(shí)間窗口{T1,T2…Tn}上,對(duì)每個(gè)時(shí)間窗口T上的網(wǎng)頁(yè)文本集單獨(dú)使用Skip-PTM建模,從而得到每個(gè)時(shí)間窗口上的主題向量{P1,P2…Pn},其中P是由若干主題相關(guān)度組成.Skip-PTM模型在主題-詞分布獲取過(guò)程中,繼承了LDA模型中無(wú)先驗(yàn)知識(shí)的特點(diǎn),使得初始的主題-詞分布的生成過(guò)程主要依賴于Dirichlet分布參數(shù)β.由于Dirichlet分布中各分量間的弱相關(guān)性,所以主題-詞的概率分布接近隨機(jī)[13,14],而網(wǎng)頁(yè)主題的分布在時(shí)間維度上是連續(xù)變化的,假設(shè)同一主題的特征在不同的時(shí)間窗口上變化不大,則在相鄰的兩個(gè)時(shí)間段內(nèi),同一主題的主題-詞分布變化相對(duì)較小.
圖3 增加時(shí)間信息的Skip-PTM模型
本文根據(jù)圖4所示的先驗(yàn)概率估計(jì)來(lái)設(shè)置當(dāng)前時(shí)間窗口的先驗(yàn)概率.在時(shí)間窗口T上,計(jì)算所有的主題相關(guān)度,若該窗口上的某一主題不是新主題,且該主題的相關(guān)度小于一定值,則刪除其對(duì)應(yīng)的詞分布,該分布被標(biāo)記為φtemp,如公式(4)所示.
φT=(φtemp|δ)
(4)
其中,δ表示通過(guò)隨機(jī)抽樣的主題-詞分布,將φT擴(kuò)展到Nt,Nt表示時(shí)間窗口t中的預(yù)估主題數(shù).從特征詞的分布φt中采樣,生成詞wk的多項(xiàng)式分布如公式(5)所示.
wk=multi(φt)
(5)
其他訓(xùn)練過(guò)程與Skip-PTM模型相同.
使用L表示Skip-PTM模型中的全局損失函數(shù),該損失函數(shù)表示為Skip-gram負(fù)采樣損失函數(shù)與Dirichlet似然下文本權(quán)重?fù)p失函數(shù)[15]的和,如公式(6)所示.
(6)
(7)
其中,cj,wi,wl,wj分別表示為上下文向量、預(yù)測(cè)目標(biāo)詞向量、負(fù)采樣向量和中心詞向量.
單獨(dú)時(shí)間窗口上的Skip-PTM模型可以挖掘潛在語(yǔ)義信息、區(qū)分主題,并將網(wǎng)頁(yè)主題聚類在指定的時(shí)間維度上.在時(shí)間窗口{T1,T2…Tn}上分別獨(dú)立使用Skip-PTM模型訓(xùn)練各網(wǎng)頁(yè)文本集,得到各時(shí)間窗口對(duì)應(yīng)的主題向量{P1,P2…Pn}.由于主題向量{P1,P2…Pn}之間不具有明顯的相關(guān)性,因此本文對(duì)訓(xùn)練后的主題向量進(jìn)行處理,使用馬爾可夫過(guò)程來(lái)分析主題變遷,發(fā)現(xiàn)新的主題.
利用馬爾可夫過(guò)程[15,16]的思想,假設(shè)一個(gè)時(shí)間窗口內(nèi)的主題分布只與前一個(gè)時(shí)間段內(nèi)的主題分布相關(guān).比較時(shí)間窗口Ti和時(shí)間窗口Ti+1內(nèi)的主題分布,在主題分布中若兩主題的相似度小于預(yù)定閾值,則認(rèn)為這兩個(gè)主題為同一主題;若時(shí)間窗口Ti中的主題與時(shí)間窗口Ti+1中的任何主題都不相似,則視為新的主題.
主題的表示是與詞空間中詞分布相關(guān)的[11],所以主題間的相似性可以轉(zhuǎn)化為詞空間中向量間的相似性,這里使用余弦距離作為相似度的計(jì)算公式,如公式(8)所示:
(8)
其中,Zr,Zs表示待比較的兩個(gè)主題,wi表示主題中的詞向量.為了計(jì)算網(wǎng)頁(yè)文本的新主題的分布,我們假設(shè)該時(shí)間窗口上的主題-詞分布是固定的,即負(fù)采樣公式[17]是不變的,其余的過(guò)程與Skip-PTM模型訓(xùn)練過(guò)程相同,主要步驟如下:
1)參數(shù)初始化:為網(wǎng)頁(yè)文本中的每個(gè)單詞w指定一個(gè)主題標(biāo)識(shí)z.
2)根據(jù)負(fù)采樣公式對(duì)網(wǎng)頁(yè)文本中每個(gè)單詞的主題進(jìn)行抽樣,并對(duì)網(wǎng)頁(yè)文本進(jìn)行更新.
3)重復(fù)2),直到負(fù)采樣收斂到一定的時(shí)間窗口.
4)計(jì)算網(wǎng)頁(yè)文本的主題分布,即主題共現(xiàn)頻率矩陣.
5)計(jì)算網(wǎng)頁(yè)文本中前K個(gè)主題所占比例,如果這些主題的比例小于閾值Q,則認(rèn)為該網(wǎng)頁(yè)文本出現(xiàn)了新主題.
由于改進(jìn)的Skip-PTM模型是按照時(shí)間窗口來(lái)劃分網(wǎng)頁(yè)文本集的,因此時(shí)間窗口長(zhǎng)度的選擇是模型的關(guān)鍵點(diǎn).如果時(shí)間窗口長(zhǎng)度太長(zhǎng),就很難發(fā)現(xiàn)新的主題,比如突發(fā)新聞.但是如果長(zhǎng)度太短,時(shí)間窗口中的網(wǎng)頁(yè)文本集可能不足以訓(xùn)練模型,為了解決這個(gè)問(wèn)題,本文將長(zhǎng)度設(shè)置為一個(gè)固定的值.
本文利用搜狗實(shí)驗(yàn)室語(yǔ)料數(shù)據(jù)和新聞數(shù)據(jù)進(jìn)行實(shí)驗(yàn),通過(guò)數(shù)據(jù)預(yù)處理得到以下格式的文檔集:
在數(shù)據(jù)預(yù)處理基礎(chǔ)之上進(jìn)一步對(duì)數(shù)據(jù)格式進(jìn)行清洗,本文使用Stanford CoreNLP對(duì)這些網(wǎng)頁(yè)信息進(jìn)行處理,處理內(nèi)容包括刪除特殊字符、去除標(biāo)點(diǎn)和中文分詞等工作.本文所有代碼都是由Python編寫的,運(yùn)行在Ubuntu系統(tǒng)上.
Skip-PTM模型中網(wǎng)頁(yè)信息聚類方法的核心部分是LDA模型,因此首先利用LDA來(lái)驗(yàn)證聚類分析的效果.Fan等[8]人利用搜狗實(shí)驗(yàn)室語(yǔ)料庫(kù)中近8000條新聞數(shù)據(jù)進(jìn)行實(shí)驗(yàn),這些報(bào)道被手動(dòng)標(biāo)注為9個(gè)類別.在LDA模型中,設(shè)置主題數(shù)K=9,參數(shù)α=0.5,β=0.1進(jìn)行1000次的迭代.在相同的數(shù)據(jù)集中,本使用Skip-PTM模型進(jìn)行實(shí)驗(yàn),取各自的實(shí)驗(yàn)結(jié)果中相似的五條主題-詞分布作對(duì)比.
實(shí)驗(yàn)結(jié)果如表1所示,根據(jù)表中主題-詞分布不難發(fā)現(xiàn),主題分別代表教育、科技、旅游、經(jīng)濟(jì)、醫(yī)療.從分布中可以看出,Skip-PTM模型下的部分詞權(quán)重有所變化,并且潛在的特征詞也被挖掘出來(lái).例如 “topic 3”中的“機(jī)票”作為“旅游”主題潛在特征也被挖掘出來(lái).將實(shí)驗(yàn)結(jié)果與人工標(biāo)注的結(jié)果進(jìn)行比較,使用誤報(bào)率(False Alarm Rate,F(xiàn)A)和漏檢率(Missed Detection Rate,MD)作為模型結(jié)果的評(píng)價(jià)指標(biāo),其中誤報(bào)率和漏檢率的計(jì)算過(guò)程見(jiàn)公式(9)和公式(10).
表1 LDA模型和Skip-PTM模型下的主題-詞分布比較
Table 1 Comparison of Topic-Word distribution between LDA model and Skip-PTM model
Topic1Topic2Topic3Topic4Topic5專業(yè)(0.014433)公司(0.018203)旅游(0.018122)市場(chǎng)(0.020114)醫(yī)院(0.019543)學(xué)生(0.012514)技術(shù)(0.013301)游客(0.006070)國(guó)家(0.016701)患者(0.018360)大學(xué)(0.010961)企業(yè)(0.012376)北京(0.004961)發(fā)展(0.016653)治療(0.012501)LDA模型學(xué)校(0.009819)創(chuàng)新(0.012092)城市(0.004882)經(jīng)濟(jì)(0.010572)吃(0.004848)考生(0.009687)產(chǎn)品(0.008412)旅行社(0.004088)中國(guó)(0.006540)病人(0.004676)教育(0.009314)網(wǎng)絡(luò)(0.006893)酒店(0.003744)企業(yè)(0.005124)出現(xiàn)(0.004498)工作(0.009141)科學(xué)(0.006476)游(0.003693)問(wèn)題(0.004914)藥(0.004188)職業(yè)(0.006145)業(yè)務(wù)(0.005580)中國(guó)(0.003643)政府(0.004694)疾病(0.004030)學(xué)生(0.014673)創(chuàng)新(0.017639)旅游(0.017491)市場(chǎng)(0.019044)醫(yī)院(0.017369)專業(yè)(0.014528)公司(0.016955)游客(0.008657)經(jīng)濟(jì)(0.017120)治療(0.015742)學(xué)校(0.012116)企業(yè)(0.014954)機(jī)票(0.008350)建設(shè)(0.016225)患者(0.015262)Skip-PTM模型大學(xué)(0.011965)產(chǎn)品(0.011923)城市(0.005672)企業(yè)(0.010452)病(0.004916)課程(0.009531)科技(0.010358)旅行(0.004588)財(cái)政(0.008797)病人(0.004825)教育(0.009093)科學(xué)(0.009347)酒店(0.003938)政府(0.005246)???0.004751)考試(0.007644)發(fā)展(0.007809)客棧(0.003184)問(wèn)題(0.004242)藥(0.004338)學(xué)歷(0.006924)方法(0.005858)團(tuán)購(gòu)(0.003007)公司(0.003911)醫(yī)護(hù)(0.004113)
FA=FP/(TP+FP)
(9)
MD=FN/(TP+FN)
(10)
其中FP表示把非主題錯(cuò)誤檢測(cè)為正確主題的數(shù)量;FN表示把正確主題檢測(cè)為錯(cuò)誤主題的數(shù)量;TP表示正確檢測(cè)主題的數(shù)量.
誤報(bào)率反映了檢測(cè)器檢測(cè)到的某類別目標(biāo)中,誤檢目標(biāo)數(shù)量所占比例;漏檢率則反映了遺漏檢測(cè)目標(biāo)數(shù)量所占比例.誤報(bào)率和漏檢率的對(duì)比圖分別如圖5和圖6所示,從這兩個(gè)比較圖中可以發(fā)現(xiàn),Skip-PTM模型的主題分類效果比LDA模型效果有所提高,但由于Skip-PTM模型是由LDA模型改進(jìn)而來(lái),所以實(shí)驗(yàn)結(jié)果繼承了LDA模型的分布趨勢(shì).
目前,關(guān)于新主題發(fā)現(xiàn)與主題類型變遷的評(píng)價(jià)標(biāo)準(zhǔn)尚不完善,只能依靠人工來(lái)處理.本文從中國(guó)的各大門戶網(wǎng)站上抓取了500多篇文章和最近熱門主題的評(píng)論.這些材料從2019年6月到10月,分為五個(gè)時(shí)間段,每個(gè)時(shí)間段一個(gè)月,計(jì)算后得到的主題分布如表2所示,表中列出了“5G”和“貿(mào)易戰(zhàn)”的相關(guān)詞匯.
根據(jù)同一主題在不同時(shí)間段的詞匯分布,可以看出主題的發(fā)展趨勢(shì).例如,在“5G”的主題上,焦點(diǎn)從6月的“5G牌照的發(fā)放”變遷到10月的“5G套餐的發(fā)布”,其中,詞匯分布上第一個(gè)詞“5G”表示了主題,其他詞表示了主題的發(fā)展;在“貿(mào)易戰(zhàn)”的主題上,焦點(diǎn)從6月的“特朗普提出了加征關(guān)稅”發(fā)展到7、8月份的“貿(mào)易談判與升級(jí)”,最后到10月份的“重回正軌”,其中詞匯分布上“中美”、“貿(mào)易”是表示了主題,其他詞匯表示了主題的變遷.
圖5 誤報(bào)率比較圖
圖6 漏檢率比較圖
本文計(jì)算了每個(gè)時(shí)間窗口上五個(gè)主題所占比的值,從而得到了如圖7所示的變遷趨勢(shì)圖,圖中可以發(fā)現(xiàn)一些可解釋的現(xiàn)象:“英國(guó)脫歐”主題在十月份熱度回升,對(duì)應(yīng)于最近的英國(guó)脫歐再次延期;“區(qū)塊鏈”主題在十月份出現(xiàn)階梯式上升,對(duì)應(yīng)于最近國(guó)家提出的“把區(qū)塊鏈作為核心技術(shù)自主創(chuàng)新重要突破口”相關(guān)政策.
表2 “5G”和“貿(mào)易戰(zhàn)”的相關(guān)詞匯表
Table 2 “5G”and “trade war” related words
六月七月八月九月十月5G5G5G5G5G商用商用通信基站手機(jī)工信部芯片手機(jī)通信套餐5G芯片通信芯片手機(jī)網(wǎng)絡(luò)通信物聯(lián)網(wǎng)電信電信移動(dòng)終端終端首款芯片營(yíng)業(yè)廳基站基站元年終端終端中美中美中美中美中美貿(mào)易貿(mào)易貿(mào)易貿(mào)易貿(mào)易特朗普劉鶴特朗普新一輪談判貿(mào)易戰(zhàn)關(guān)稅重啟股市關(guān)稅特朗普逆差經(jīng)濟(jì)關(guān)稅特朗普磋商出口特朗普談判反制重回經(jīng)濟(jì)談判升級(jí)磋商推遲
圖7 主題變遷趨勢(shì)圖
本文結(jié)合LDA模型和Word2Vce中Skip-gram模型優(yōu)勢(shì),提出了一種適用于網(wǎng)頁(yè)主題分類的Skip-PTM模型,該模型能夠挖掘網(wǎng)頁(yè)信息隱含語(yǔ)義,實(shí)現(xiàn)網(wǎng)頁(yè)主題分類.針對(duì)網(wǎng)頁(yè)主題類型實(shí)時(shí)變遷的問(wèn)題,本文改進(jìn)了Skip-PTM模型,將網(wǎng)頁(yè)文本集離散到不同的時(shí)間窗口,在各時(shí)間窗口上使用Skip-PTM模型獨(dú)立建模,分析各時(shí)間窗口上各主題相似度,實(shí)現(xiàn)網(wǎng)頁(yè)主題類型變遷的研究.實(shí)驗(yàn)表明,該模型能夠有效地聚類語(yǔ)義相關(guān)的頁(yè)面信息,實(shí)現(xiàn)網(wǎng)頁(yè)主題分類,完成主題類型變遷的分析與研究.針對(duì)網(wǎng)頁(yè)主題分類變遷的應(yīng)用可以涉及多個(gè)領(lǐng)域,例如,通過(guò)用戶瀏覽頁(yè)面變化,可以掌握用戶在一段時(shí)間內(nèi)的興趣轉(zhuǎn)變,這種轉(zhuǎn)變可以提高運(yùn)營(yíng)商主動(dòng)服務(wù)推送的準(zhǔn)確性.
在未來(lái)的工作中,將繼續(xù)對(duì)挖掘出來(lái)的網(wǎng)頁(yè)類型變遷趨勢(shì)做進(jìn)一步的分析,力求獲得較高的實(shí)用性價(jià)值.