国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA和Word2vec的微博標簽生成算法

2021-12-18 01:19生佳根
計算機與現(xiàn)代化 2021年12期
關鍵詞:主題詞文檔標簽

陳 瀛,生佳根

(江蘇科技大學計算機學院,江蘇 鎮(zhèn)江 212100)

0 引 言

近年來,隨著現(xiàn)代信息技術的不斷進步,以Twitter、新浪微博為代表的網(wǎng)絡平臺也得到了快速發(fā)展,由于其信息共享便捷迅速的特點,在吸引大量用戶的同時也產(chǎn)生了海量的用戶數(shù)據(jù)[1]。從用戶數(shù)據(jù)中挖掘出的用戶興趣特征,可以協(xié)助平臺為用戶提供更加個性化的服務,也能為相關行業(yè)或企業(yè)精準定位用戶,該項研究具有豐富的商業(yè)價值和社會價值。

標簽是網(wǎng)絡信息資源組織方式之一,用戶可以自由地定義關鍵詞,即用標簽對網(wǎng)絡中的各種資源進行標注,包括用戶本身的興趣特征。微博平臺中也為用戶提供了標簽功能,標簽作為微博用戶的自定義描述,可以直觀地反映用戶的興趣偏好。

目前,有許多研究者利用LDA主題模型提取微博文本文檔中的潛在主題,以表示用戶的興趣特征,并被證實取得一定的成效。在國內,王雅靜等人[2]以微博用戶的點贊文本為數(shù)據(jù)源,使用LDA主題模型提取用戶主題;嚴長春等人[3]通過LDA主題模型提取熱門微博的主題;高永兵等人[4]將微博用戶簡介、認證信息以及詞匯的語義作為先驗知識引入傳統(tǒng)LDA主題模型中,基于改進的LDA主題模型提取微博用戶主題;馮勇等人[5]引入可變時間窗口對傳統(tǒng)LDA主題模型做出改進,利用改進后的TIF-LDA主題模型提取微博主題。在國外,也有研究人員使用LDA主題模型對Twitter進行主題提取。Negara等人[6]通過LDA主題模型對Twitter中的推文進行主題建模。這說明LDA主題模型在提取微博文本方面具有較強的適用性和可操作性。然而,傳統(tǒng)的基于LDA主題模型生成微博標簽算法忽略了部分詞語對用戶興趣的影響,導致了對用戶的興趣描述不夠準確,同時匹配度計算方法受到同義詞詞林大小的限制?;诖?,本文提出一種基于LDA主題嵌入表示的微博用戶標簽生成算法TopicERP,引入Word2vec詞嵌入模型對用戶興趣主題進行全面描述,并對匹配度計算方法進行改進,使得生成的標簽更加貼合用戶興趣。

1 相關理論

1.1 標簽生成

標簽中包含了非常有價值的用戶描述信息,能夠簡明扼要地描述用戶興趣特征[7]。然而,由于過度自由的特性以及大部分用戶沒有使用標簽的習慣,導致系統(tǒng)中出現(xiàn)標簽稀疏的現(xiàn)象,使得用戶的興趣難以被挖掘。而強制用戶使用標簽會降低用戶好感,標簽自動生成機制應運而生。

目前,標簽生成的方法可以分為2種,一種是基于關鍵詞的生成方法[8-9],另一種是基于圖的生成方法[10-11]。基于關鍵詞的標簽生成方法是通過關鍵詞提取算法從文本數(shù)據(jù)中提取出可以表達用戶興趣偏好的關鍵詞作為用戶標簽?;趫D的標簽生成方法主要集中在用戶、項目和標簽之間的關系上,通常使用標簽傳播算法實現(xiàn)標簽生成。

1.2 LDA主題模型

潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)是一種文檔主題生成模型,它可以將一篇文檔建模為多個主題的概率分布,每個主題通過若干個主題詞來描述,如圖1所示,文檔到主題、主題到主題詞都服從多項分布[12]。

圖1 LDA文檔建模

LDA主題模型的核心思想來源于一個基本假設:文檔是由多個隱含主題構成,這些隱含主題由若干個特定特征詞表示。文檔中的每個詞是通過“以一定的概率選擇某個主題,并從這個主題中以一定概率選擇某個詞語”來得到。文檔中每個詞出現(xiàn)的概率都可以通過公式(1)來計算。

(1)

LDA是一個完備的主題模型,該模型生成文本的方式可由圖2的貝葉斯網(wǎng)絡圖來表示。LDA采用Dirichlet分布作為概率主題模型多項分布的先驗分布,該模型中K代表主題的數(shù)量,V代表文檔中詞的數(shù)量,M代表文檔的數(shù)量,α是文檔-主題概率分布θ的先驗分布超參數(shù),β是主題-主題詞概率分布φ的先驗分布超參數(shù),z為主題變量,文本中的詞w是唯一可觀測的變量。

圖2 LDA貝葉斯圖模型

由于LDA主題模型是一種無監(jiān)督的學習算法,因此該方法生成的主題本質是單詞模糊聚類,聚集到一類的詞語表示一個潛在的主題。故LDA能對文本的潛在語義信息進行挖掘,并通過一系列的詞語來表示文檔中隱含的主題信息。

1.3 詞嵌入模型

隨著深度學習的不斷發(fā)展,自然語言處理技術得到了極大的改善。Bengio等人[13]在2003年提出了神經(jīng)網(wǎng)絡語言模型,該模型可以將詞語嵌入到語義空間中,把詞語表示為向量形式。但神經(jīng)網(wǎng)絡語言模型存在靈活性不足以及訓練效率低的問題,在此基礎上,Mikolov等人[14]通過適當?shù)母倪M措施在2013年提出了Word2vec詞嵌入模型。該模型具有高效實用的特點,現(xiàn)已廣泛應用于自然語言處理的各個領域中,并且與之相關的各種研究仍在不斷深入。

根據(jù)訓練詞向量方式的不同,Word2vec的訓練模型主要分為連續(xù)詞袋(Continuous Bag-Of-Words, CBOW)模型和Skip-gram模型2種。其中,CBOW模型將詞語的上下文作為輸入以預測詞語的語義信息;而Skip-gram模型則是通過詞語本身作為輸入來預測其上下文信息[15]。相比較而言,Skip-gram訓練模型學習的詞向量更加細致,因此當語料庫中數(shù)據(jù)量較少或者含有有大量低頻詞時,使用Skip-gram訓練模型學習詞向量比較合適。

2 算法優(yōu)化

2.1 基于LDA主題模型的標簽生成算法

傳統(tǒng)基于LDA主題模型的標簽生成算法的主要步驟如下:

1)用戶主題建模。使用Gibbs采樣方法[16]來對文檔-主題分布概率θ,主題-主題詞分布概率φ的先驗參數(shù)進行估計,如公式(2)和公式(3):

(2)

(3)

2)主題表示。根據(jù)詞語在主題中可能出現(xiàn)概率值大小,選取用戶興趣主題下前5個主題詞代表用戶興趣主題。

3)匹配度計算?;谕x詞林計算候選標簽與主題詞的相似度,將得到的相似度與每個詞語在主題中出現(xiàn)的概率進行乘法運算并求和,將求得的和記為匹配度。將預選標簽與每個主題的匹配度進行求均值運算,求得的均值為最終主題與候選標簽的匹配度。選取匹配度大于閾值的候選標簽作為用戶標簽。

2.2 主題表示方法改進

傳統(tǒng)基于LDA的標簽生成算法僅選用主題下的幾個詞語表示主題,而忽略剩下的詞語對用戶興趣的影響,這導致對用戶興趣描述不夠準確。因此本文使用Word2vec詞嵌入模型將用戶每個興趣主題下每個詞語轉換為詞向量的形式,并使用加權平均的方式對用戶興趣主題進行全面描述。

基于微博文本短小簡潔的特點,本文選用在維基百科中文語料庫中訓練后的Skip-gram訓練模型,對每個主題下所有主題詞進行學習,并生成對應的詞向量。由于Skip-gram模型被設計用于預測當前詞語wt的上下文詞語,故需要使模型中的平均對數(shù)似然概率最大化[17],其值計算公式為:

(4)

其中,c表示詞匯窗口的大小,一般情況下,c值越高,模型訓練時間越長,效果越好。T表示訓練數(shù)據(jù)集的大小。

該模型的參數(shù)可以通過分層Softmax或負采樣方法確定。當使用Softmax函數(shù)時,詞匯概率的計算公式為:

(5)

其中v′wo和vwi分別表示詞w的輸入和輸出向量。

根據(jù)上述原理獲取主題中每個主題詞的詞向量,將主題下所有主題詞的詞向量進行加權平均得出主題向量,生成的主題向量類似于聚類的中心。預先訓練好的詞向量使得主題詞在語義級別上已經(jīng)量化,因此使用聚類的中心來表示主題向量是合理的[18]。主題向量計算公式為:

(6)

其中,P(w|z)表示主題z下的主題詞的分布概率,vec(w)表示主題詞的向量,vec(z)表示主題的向量。N(z)表示主題下主題詞的集合。

2.3 匹配度計算方法改進

傳統(tǒng)基于LDA的標簽生成算法中利用人為定義的同義詞林衡量主題詞與標簽的相似度,并對相似度求均值作為匹配度,有一定的局限性。因此本文使用余弦相似度方法衡量主題和候選標簽的相似度,不受詞林大小的限制,能夠計算所有文檔中出現(xiàn)的候選標簽和主題的相似度,并且引入條件概率與相似度值相乘作為匹配度,使得生成的用戶興趣標簽更加準確。

在進行匹配度計算之前,需要為用戶選取候選標簽。本文從用戶微博文檔中選取詞語作為用戶標簽候選詞,將微博文本中預處理后得到的特征詞作為用戶的候選標簽tag,并為每個候選標簽生成對應的向量。主題向量與候選標簽向量的相似度計算公式為:

(7)

然后將主題和候選標簽tag的相似度值sim(tag,z)替換文檔中主題-主題詞分布,把主題在文檔中可能出現(xiàn)的概率值作為該主題向量和候選標簽向量的相似度的系數(shù),以此計算候選標簽與文檔內容之間的匹配程度,語義空間中最接近主題的候選標簽可以獲得更高的分值,最終標簽匹配分值的計算公式為:

(8)

其中,P(z|d)表示文檔d中主題的分布概率,sim(tag,z)表示候選標簽向量和主題向量的相似度值,N(d)表示文檔中主題的集合。最后,將tag的score值降序排序,選取Top-Q個候選標簽tag作為用戶的標簽。

2.4 改進算法流程

改進后的微博標簽生成算法首先利用LDA主題模型提取微博用戶文檔中的潛在主題,生成K個用戶興趣主題,這些主題由一系列詞語構成。然后利用Word2vec詞嵌入模型為主題中的每個詞語生成對應的詞向量,將每個詞在主題下對應的概率作為對應詞向量的權值,對這些詞向量進行加權平均計算得出一個主題向量。其次將微博用戶文檔中的特征詞作為候選標簽,將候選標簽轉化為對應的標簽向量。最后利用余弦相似度方法計算主題向量和標簽向量的相似度,將主題在文檔中可能出現(xiàn)的概率值乘以該主題向量和候選標簽向量的相似度,以此衡量候選標簽與文檔內容之間的匹配程度,并選取分值為Top-Q的候選標簽作為微博用戶標簽。

改進后的算法流程如圖3所示。

圖3 標簽生成算法流程圖

3 實驗及結果分析

3.1 數(shù)據(jù)預處理

為驗證算法的準確性,本文使用UCI官網(wǎng)的MicroblogPCU數(shù)據(jù)集進行實驗驗證,該數(shù)據(jù)集包含用戶782名,用戶發(fā)布、轉發(fā)的微博48814條,其中262位用戶帶有自定義標簽,標簽的總數(shù)為144個。將數(shù)據(jù)集中80%的用戶微博數(shù)據(jù)作為訓練輸入語料,20%作為測試集測試算法性能,并使用5折交叉平均實驗結果以減少誤差。

本文將每個微博原創(chuàng)和轉發(fā)的微博文本合成一篇長文檔,使用Jieba分詞技術對文檔進行分詞,并使用哈工大的停用詞表過濾掉無意義的詞語,最終得到可以表示用戶微博文本的特征詞,以此作為LDA主題模型的輸入。

3.2 實驗結果及評價標準

在進行用戶LDA主題建模前,需要先確定主題的個數(shù)K。本文采用基于困惑度(Perplexity)的方式對模型主題數(shù)K的取值進行確定。其計算公式為:

(9)

困惑度取值越小,文本的似然估計就越高,表示模型的生成性能越好[19]。對主題數(shù)K分別取值[1,15],Dirichlet超參數(shù)設置為α=50/K,β=0.05,迭代1000次對應的困惑度值如圖4所示。

圖4 主題數(shù)K對困惑度的影響

從圖4可以看出,在主題個數(shù)K=20時困惑度最低,因此,為每個微博用戶生成20個興趣主題。

為了驗證標簽生成個數(shù)Top-Q對算法性能的影響,分別選取{1,3,5,7,9,11}個候選標簽作為用戶標簽,計算平均準確率P值[20]、平均召回率R值[21]以及平均F值[22]這3個評估指標,并進行相關實驗對比分析,進而確定標簽生成個數(shù)Top-Q的值。

計算公式如下:

(10)

(11)

(12)

如圖5所示,隨著標簽生成個數(shù)的增加,算法的總體性能也逐漸增加。當標簽擴充個數(shù)大于9時,算法的總體性能不增反降。這是由于隨著標簽生成個數(shù)的增大,一些排名靠后的標簽并不能很好地表示用戶的興趣或愛好。并且當Q=7或9時,算法的總體性能并無明顯增加且算法的性能達到最佳狀態(tài),因此,取7和9的均值8作為標簽生成個數(shù)Q的值。

圖5 標簽生成個數(shù)對算法性能的影響

當標簽生成個數(shù)為8時,將本文算法與LDA[23]和改進的TextRank[24]等標簽生成算法的性能以及效果進行對比,結果如表1所示。

表1 標簽生成算法性能對比

如表1所示,相較于另2種標簽生成算法,本文提出的標簽生成算法在準確率、召回率和總體性能(F值)方面均有所提升,證明了主題和嵌入學習聯(lián)合的有效性。改進TextRank的算法受微博文本長度的影響,生成詞圖過小導致準確率不高。基于LDA的微博標簽生成方法性能優(yōu)于改進TextRank的算法,但受用戶興趣表示方法以及候選標簽的的限制,對用戶興趣描述的個性化程度不足。TopicERP算法在LDA主題模型的基礎上引入Word2vec詞嵌入模型全面描述用戶興趣主題,并對匹配度計算方法進行改進,使得匹配度結果更加精準,從而生成高質量的用戶標簽。

本文從數(shù)據(jù)集中隨機抽取2名微博用戶,根據(jù)其對應的微博內容文檔,分別利用不同的標簽生成算法為他們生成標簽,結果如表2所示。

表2 不同算法生成標簽的效果對比

從表2中不同算法生成的用戶標簽可以看出,用戶1主要對電影領域相關內容感興趣,用戶2主要對美術繪畫領域相關內容感興趣。改進的TextRank算法為用戶生成的標簽主要是一些在電影、美術領域中共現(xiàn)頻率高的名詞或動詞,對用戶興趣描述的準確度不高?;贚DA算法為用戶生成的標簽中包含一些過于寬泛的詞語,如影視、藝術等,不能夠精準描述用戶的興趣,因為這些標簽在包含用戶的興趣領域的同時也涵蓋了其他的領域,導致了用戶標簽的個性化程度不足。而本文提出的TopicERP算法為用戶生成的標簽能夠更加全面具體地表現(xiàn)出用戶1的興趣主題與電影領域中的喜劇方向相關,以及用戶2的興趣主題與美術領域中的插畫方向相關,在保證準確率的同時能夠滿足用戶的個性化需求。

4 結束語

本文在LDA主題模型的基礎上引入了Word2vec詞嵌入模型,提出了一種基于主題嵌入表示的標簽生成算法。首先將預處理后得到的用戶微博文本中的特征詞作為候選標簽;然后利用LDA主題模型對用戶微博進行潛在語義的分析,提取出能夠描述用戶興趣特征的用戶主題,并通過Word2vec詞嵌入模型將主題轉換為可直接應用于計算的主題向量;最后利用余弦相似度和文檔中主題的條件概率計算用戶候選標簽和主題之間的匹配度大小,選取能夠表示微博用戶興趣偏好且質量較高的標簽。經(jīng)過分析發(fā)現(xiàn),TopicERP算法生成的用戶標簽能夠較為準確地描述用戶的興趣特征。下一步的研究工作可以引入用戶的社交信息,以進一步提升標簽生成算法的準確度和全面性;同時還可以將其應用于融合標簽的個性化微博推薦或好友推薦中。

猜你喜歡
主題詞文檔標簽
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
基于RI碼計算的Word復制文檔鑒別
標簽化傷害了誰
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
科學家的標簽
我校學報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
我校學報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞