国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于有監(jiān)督雙詞主題模型的短文本分類方法

2024-12-31 00:00:00衛(wèi)紅敏
現(xiàn)代信息科技 2024年10期

摘" 要:針對短文本存在的語義稀疏及語義模糊等問題,提出一種有監(jiān)督的雙詞主題模型(Su-BTM),將其應(yīng)用于短文本分類。在BTM主題模型的基礎(chǔ)上引入主題-類別分布參數(shù),識別主題-類別語義信息,建立主題與類別的準(zhǔn)確映射,并提出Su-BTM-Gibbs主題采樣方法,對每個(gè)詞的隱含主題進(jìn)行采樣。在兩個(gè)中英文短文本數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法相比經(jīng)典模型具有更優(yōu)的分類效果。

關(guān)鍵詞:語義稀疏;BTM主題模型;隱含主題;短文本分類

中圖分類號:TP181" " 文獻(xiàn)標(biāo)識碼:A" " " 文章編號:2096-4706(2024)10-0056-04

A Short Text Classification Method Based on Supervised Biterm Topic Model

WEI Hongmin

(Shandong Huayu University of Technology, Dezhou" 253034, China)

Abstract: In response to the problems of semantic sparsity and ambiguity in short texts, this paper proposes a Supervised Biterm Topic Model (Su-BTM) and applies it to short text classification. Based on the BTM topic model, distribution parameter between topic and category is introduced to identify semantic information between topic and category, accurate mapping between topic and category is established, and a Su-BTM-Gibbs topic sampling method is proposed to sample the implied topics of each word. Comparative experiments are conducted on two datasets of Chinese and English short texts, and the results show that this method has better classification performance compared to classical models.

Keywords: semantic sparsity; BTM topic model; implied topic; short text classification

0" 引" 言

短文本分類是自然語言處理領(lǐng)域的一項(xiàng)重要任務(wù),廣泛應(yīng)用于社交媒體監(jiān)控、情感分析[1]、產(chǎn)品評論分類[2]等場景。近年來,隨著現(xiàn)代信息科技及互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,微信、微博等社交網(wǎng)絡(luò)平臺飛速發(fā)展,短文本的數(shù)量逐漸增多[3,4]。由于短文本存在數(shù)據(jù)量少[5]、語義特征稀疏[6]、類別不平衡[7]等問題,導(dǎo)致了短文本分類的精度不高。

黃佳佳等人提出潛在狄利克雷分布模型(Latent Dirichlet Allocation, LDA)[8],得到文檔-主題和主題-詞分布,從而提高文本分類的精度。之后,雙詞主題模型(Biterm Topic Model, BTM)被提出[9],通過詞對的結(jié)合擴(kuò)大語料庫,對短文本語義稀疏的問題進(jìn)行改進(jìn)。BTM和BERT模型[10]通過綜合考慮文本主題特征信息和全局語義信息,增強(qiáng)了文本語義,從而解決了語義特征稀疏的問題。

鑒于此,本文提出了一種Su-BTM主題模型用于短文本分類。Su-BTM主題模型利用語料庫中的類別標(biāo)記信息,在BTM主題模型的基礎(chǔ)進(jìn)行改進(jìn)。1)引入主題-類別分布參數(shù),由此來識別主題與類別之間的語義關(guān)系,將主題與類別進(jìn)行精確的映射,以完成文檔的主題分類。2)采用Su-BTM-Gibbs采樣方法,對語料庫中所有共現(xiàn)詞對的隱含主題進(jìn)行采樣,在同類別的文檔中進(jìn)行采樣。3)主題-類別分布參數(shù)可以將主題進(jìn)行分類,更準(zhǔn)確地計(jì)算出單詞-主題的概率,提高短文本分類的準(zhǔn)確度。

1" Su-BTM的概率圖

Su-BTM的概率圖模型如圖1所示,在短文本語料庫中,| B |為語料庫中由兩個(gè)單詞組成詞對的總數(shù),其中B = {b1, b2, …, bn},b = {wi, wj}為一個(gè)詞對,Z為的是所有的詞對的主題分布。θ為全局主題分布參數(shù),φ為主題-詞分布參數(shù),δ為主題-類別分布參數(shù)。

在Su-BTM模型中,θ、φ和δ服從Dirichlet分布,為多項(xiàng)式參數(shù)分別生成主題、詞和類別,α、β和γ為相應(yīng)的Dirichlet分布的先驗(yàn)參數(shù)。Su-BTM模型語料庫中所包含的詞對生成過程如下:

步驟1:每一個(gè)主題z生成一個(gè)服從φz~Dir(β)的主題-詞分布。

步驟2:整個(gè)語料庫生成一個(gè)服從θ~Dir(α)的全局主題分布。

步驟3:每個(gè)主題z生成一個(gè)服從α~Dir(γ)的主題-類別分布。

步驟4:每一個(gè)詞對b ∈ | B |。

從全局主題分布θ中抽取出服從z~Multi(θ)的主題z。

從主題z中抽取出服從(wi, wj)~Multi(φz)的詞對(wi, wj)。

按照上述生成過程,詞對b的聯(lián)合概率如式(1)所示:

其中,p(z) = θz為主題z的概率;p(wi | z) = φi | z為主題z下詞wi出現(xiàn)的概率;p(wj | z) = φj | z為主題z下詞wj出現(xiàn)的概率。

因此,生成詞對語料庫的概率如式(2)所示:

文檔主題推斷的公式如式(3)所示:

其中,p(z | d)為文檔d的主題概率,基于Su-BTM中估計(jì)的參數(shù) p(z | b)可以通過貝葉斯公式計(jì)算,如式(4)所示:

其中,p(z | (wi, wj)) = θz φi|z φj|z,文檔中單詞對的條件概率p(b | d),計(jì)算如式(5)所示:

其中,n(b)為詞對b在文檔d中出現(xiàn)的次數(shù),且p(b | d)為均勻分布。

2" Su-BTM模型參數(shù)估計(jì)

Su-BTM主題模型中,求得以下參數(shù):主題概率θ、主題-詞分布φ和主題-類別分布δ?;贐TM-Gibbs采樣算法,Su-BTM的Gibbs采樣算法得到了極大的改進(jìn)。其中所求參數(shù)不需要直接計(jì)算,而是對每個(gè)詞對b的隱含主題進(jìn)行采樣,再通過Dirichlet的先驗(yàn)參數(shù)α、β和γ進(jìn)行計(jì)算。對詞對b的概率分布進(jìn)行抽樣,從而得到隱含主題參數(shù)z。

依據(jù)Su-BTM-Gibbs,每個(gè)詞對b的條件概率的計(jì)算公式如式(6)所示:

其中,除了詞對b以外的其他詞對的主題分布為z?b,nz為詞對b屬于主題z的次數(shù),nw|z為單詞w屬于主題z的次數(shù),nb|z為詞對b在主題z中出現(xiàn)的次數(shù),詞對b與其所包含的wi, wj屬于同一個(gè)主題。

主題-詞概率分布φ,全局主題概率分布θ,主題-類別概率分布δ的概率估計(jì)如式(7)~(9)所示:

Su-BTM模型的Gibbs采樣算法描述如Algorithm1所示:

Algorithm1:Gibbs sampling algorithm for Su-BTM

Input:topic number K,hyper parameters α、β、γ、|B|

1.rondomly initialize topic assignments for all the biterms

2.for 1 to ni do

3." " " "for i ∈ | B | do

4." " " " " get zb from Eq(6)

5. update nz、、

6." end

7.end

8. computer φ in Eq(7)and θ in Eq(8)and δ in Eq(9)

Output:θ、φ、δ

如Algorithm1所示,對語料庫中所有詞對b進(jìn)行初始化。然后在每次迭代時(shí),對于語料庫中的每一個(gè)詞對b,通過式(6)計(jì)算得到詞對b的主題zb,并更新以下參數(shù):nz、、。最后通過式(7)至式(9)得到主題-詞概率分布φ,全局主題概率分布θ,主題-類別概率分布δ。

3" 實(shí)驗(yàn)分析

3.1" 數(shù)據(jù)集描述

實(shí)驗(yàn)選取中文搜狗新聞標(biāo)題短文本數(shù)據(jù)集(sogou)和英文亞馬遜評論短文本數(shù)據(jù)集(AMAZON),隨機(jī)抽取部分文檔并構(gòu)建訓(xùn)練集。具體描述如下:選取sogou數(shù)據(jù)集中的5類文檔:體育、教育、科學(xué)、科技和汽車;選取AMAZON數(shù)據(jù)集中的5類文檔:Digital_Product、Baby_Product、AMAZON_FASHION、Professional_Books和Clothing。其中測試樣本與訓(xùn)練樣本的比例為2:8,實(shí)驗(yàn)數(shù)據(jù)集如表1所示。

為驗(yàn)證了基于Su-BTM主題模型的短文本分類方法的有效性,與SVM、BTM和LDA模型進(jìn)行實(shí)驗(yàn)比較。

3.2" 實(shí)驗(yàn)結(jié)果及分析

3.2.1" Su-BTM主題推斷與類別映射

對Su-BTM模型進(jìn)行主題推斷,在搜狗數(shù)據(jù)集上,類別和主題之間的相似度以及與主題最相關(guān)的前5個(gè)詞的概率分布如表2、表3所示。其中類別C = 5、主題數(shù)K = 6,其中,α、β和γ的值設(shè)為0.01。

如表2、表3所示,在sogou數(shù)據(jù)集上,主題0的映射類別為“教育”,主題1的映射類別為“科技”,主題2的映射類別為“房產(chǎn)”,其他主題與類別之間準(zhǔn)確映射,映射的相似度大于99%。如表3所示,主題0的前5個(gè)特征詞,都與主題“教育”有關(guān),概率最大的詞“教育”的概率為0.037 0。同樣的,在其他主題下,特征詞都與對應(yīng)的主題相關(guān)。

3.2.2" 短文本分類結(jié)果

通過短文本分類,來驗(yàn)證Su-BTM主題模型的有效性。BTM、LDA是利用BTM、LDA主題模型直接進(jìn)行分類,SVM指采用LDA主題模型的K個(gè)主題為特征的SVM分類算法。在AMAZON數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4所示。

如表4所示,在AMAZON數(shù)據(jù)集上,當(dāng)類別為“Digital_Product”時(shí),LDA的Precision、Recall和F1分別為52.9%、52.3%和63.5%,SVM的分別為63.7%、69.7%和66.2%,BTM的分別為73.5%、70.3%和69.7%,Su-BTM的分別為95.8%、92.4%和90.4%,Su-BTM比BTM的三種分類結(jié)果分別高了22.3%,22.1%,20.7%,Su-BTM比SVM的三種分類結(jié)果分別高了32.1%,22.7%,24.2%,Su-BTM比LDA的三種分類結(jié)果分別高了42.9%,40.1%,26.9%。在其他類別上也是如此,基于Su-BTM的短文本分類算法的分類結(jié)果均優(yōu)于其他經(jīng)典模型。

在sogou數(shù)據(jù)集上,對比分析Su-BTM、BTM、LDA和SVM模型在不同的主題數(shù)下,分類的Macro-F1、Macro-Recall和Macro-Precision,實(shí)驗(yàn)結(jié)果如圖2所示。

如圖2所示,縱坐標(biāo)表示分類的Macro-F1、Macro-Recall和Macro-Precision,橫坐標(biāo)表示主題的數(shù)目。從圖中可以看出,隨著主題數(shù)的增加,分類的各種指標(biāo)逐漸升高并趨于穩(wěn)定。當(dāng)K = 10時(shí),Macro-Precision的值達(dá)到最高,LDA為64.8%,SVM為76.8%,BTM為83.6%,明顯的低于Su-BTM。在Macro-Recall和Macro-F1分類指標(biāo)上,基于Su-BTM模型的分類精度更高。

4" 結(jié)" 論

本文在BTM模型的基礎(chǔ)上引入主題-類別分布參數(shù),結(jié)合Su-BTM-Gibbs主題采樣方法,從而識別出主題-類別語義信息,將主題與類別進(jìn)行映射,來完成文檔的主題分類任務(wù)。綜合實(shí)驗(yàn)表明,基于Su-BTM的短文本分類方法能明顯提高分類精度。

參考文獻(xiàn):

[1] 鄧入菡,張清華,黃帥帥,等.基于多粒度特征融合的新型圖卷積網(wǎng)絡(luò)用于方面級情感分析 [J].計(jì)算機(jī)科學(xué),2023,50(10):80-87.

[2] 喻濤,羅可.結(jié)合產(chǎn)品特征的評論情感分類模型 [J].計(jì)算機(jī)工程與應(yīng)用,2019,55(16):108-114.

[3] 關(guān)慧,宗福焱,曲盼.基于BTM和長文本語義增強(qiáng)的用戶評論分類 [J].計(jì)算機(jī)技術(shù)與發(fā)展,2023,33(7):181-187.

[4] 張志昌,曾揚(yáng)揚(yáng),龐雅麗.融合語義角色和自注意力機(jī)制的中文文本蘊(yùn)含識別 [J].電子學(xué)報(bào),2020,48(11):2162-2169.

[5] 段丹丹,唐加山,溫勇,等.基于BERT模型的中文短文本分類算法 [J].計(jì)算機(jī)工程,2021,47(1):79-86.

[6] 王李冬,魏寶剛,袁杰.基于概率主題模型的文檔聚類 [J].電子學(xué)報(bào),2012,40(11):2346-2350.

[7] 馬慧芳,邢玉瑩,王雙,等.融合詞語共現(xiàn)距離和類別信息的短文本特征提取方法 [J].計(jì)算機(jī)工程與科學(xué),2018,40(9):1689-1695.

[8] 黃佳佳,李鵬偉,彭敏,等.基于深度學(xué)習(xí)的主題模型研究 [J].計(jì)算機(jī)學(xué)報(bào),2020,43(5):827-855.

[9] 劉良選,黃夢醒.融合詞向量特征的雙詞主題模型 [J].計(jì)算機(jī)應(yīng)用研究,2017,34(7):2055-2058.

[10] 付文杰,楊迪,馬紅明,等.融合BTM和BERT的短文本分類方法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2022,43(12):3421-3427.

作者簡介:衛(wèi)紅敏(1997—),女,漢族,山東德州人,助教,碩士,研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。

四平市| 定安县| 鲜城| 乌兰察布市| 娄底市| 楚雄市| 永修县| 正宁县| 罗定市| 霸州市| 康马县| 扶风县| 宝应县| 元阳县| 广南县| 巴马| 漠河县| 永川市| 宁国市| 濉溪县| 土默特左旗| 新余市| 怀柔区| 六枝特区| 北海市| 鸡东县| 定边县| 旺苍县| 上虞市| 那曲县| 林甸县| 玉林市| 海晏县| 新昌县| 施甸县| 天祝| 丰镇市| 峨边| 昌吉市| 武威市| 衡南县|