国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合LDA與Self-Attention的短文本情感分類方法

2020-09-15 04:47朱翌民余宇新
關(guān)鍵詞:主題詞短文向量

陳 歡,黃 勃 ,2,朱翌民,俞 雷,余宇新

1.上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620

2.江西省經(jīng)濟(jì)犯罪偵查與防控技術(shù)協(xié)同創(chuàng)新中心,南昌 330103

3.上海外國語大學(xué) 國際金融貿(mào)易學(xué)院,上海 201620

1 引言

隨著Web2.0時(shí)代的到來,以微博、電商為首的平臺(tái)的快速發(fā)展,網(wǎng)民可以快速地在網(wǎng)絡(luò)平臺(tái)上表達(dá)自己的觀點(diǎn)和看法。其中短文本逐漸成為網(wǎng)絡(luò)文本信息的主體,與其他網(wǎng)絡(luò)文本相比其在數(shù)量上有著巨大的優(yōu)勢。挖掘短文本中的情感信息和觀點(diǎn)態(tài)度,實(shí)現(xiàn)對文本的情感分類有著重要的現(xiàn)實(shí)意義。文本情感分類包括分詞、文本表示、特征提取、分類四個(gè)過程。

傳統(tǒng)的文本情感分類模型對文本進(jìn)行one-hot 編碼,利用TF-IDF[1]、交叉熵[2]等進(jìn)行特征提取,然后使用SVM[3]、Random Forest[4]等分類器進(jìn)行分類。LDA[5](Latent Dirichlet Allocation)模型在經(jīng)歷了LSI[6(]Latent Semantic Indexing)、PLSI[7(]Probabilistic Latent Semantic Indexing)等技術(shù)的發(fā)展后,被廣泛用于文本特征提取。例如吳江等人[8]使用LDA模型進(jìn)行主題特征詞選取,組成特征詞庫進(jìn)行特征提取。胡勇軍等人[9]針對短文本特征稀疏、噪聲大的缺點(diǎn),使用LDA模型將概率大于某一閾值的主題詞分布的高頻詞擴(kuò)展到文本中,以降低短文本分類時(shí)噪聲和稀疏性的影響。近年來,深度學(xué)習(xí)算法的快速發(fā)展給文本情感分類帶來了新的思路。其中基于注意力機(jī)制和LSTM(Long Short Term Memory network)的一類算法成為了主流的文本情感分類算法。其中LSTM用于獲取文本的上下文依賴關(guān)系,注意力機(jī)制對LSTM 編碼后的文本進(jìn)行權(quán)重分配,然后進(jìn)行情感分類[10-12]。例如吳小華等[11]針對分詞的準(zhǔn)確性問題提出了基于字向量的表示方法并使用Self-Attention和Bi-LSTM進(jìn)行中文短文本情感分類。陶志勇等[12]使用Bi-LSTM網(wǎng)絡(luò)進(jìn)行特征提取,將雙向長短時(shí)記憶網(wǎng)絡(luò)的兩個(gè)方向的輸入獨(dú)立輸入到注意力機(jī)制進(jìn)行全局權(quán)重分配。

基于LDA的文本特征提取方法作為一種概率主題模型,雖然能夠獲得文檔之間的關(guān)系,然而在建模過程中卻忽略了文檔的上下文依賴關(guān)系,導(dǎo)致了語義信息的丟失。深度學(xué)習(xí)算法基于序列建模的方法彌補(bǔ)了LDA的不足。如吳彥文等[13]使用詞嵌入對LDA 獲得的文檔特征詞進(jìn)行表示,然后和LSTM 編碼后的文本進(jìn)行拼接,用于解決數(shù)據(jù)稀疏問題。張群等人[14]通過拼接相加平均合成的詞向量和經(jīng)過LDA 特征擴(kuò)展的短文本向量,利用kNN進(jìn)行分類。

從上述可知,在短文本情感分類的過程中可以使用LDA進(jìn)行特征擴(kuò)展,用于解決短文本數(shù)據(jù)稀疏問題,然而現(xiàn)有的方法都是通過word2vec對主題特征擴(kuò)展后的文本進(jìn)行表示,弱化了主題特征的作用。針對這個(gè)問題,本文提出一種基于LDA 和Self-Attention 機(jī)制的短文本情感分類方法。通過使用LDA獲得評論的主題詞分布,并將主題詞和評論文本進(jìn)行拼接輸入到word2vec模型進(jìn)行訓(xùn)練,得到包含主題信息的詞向量,然后使用Self-Attention機(jī)制對文本進(jìn)行動(dòng)態(tài)權(quán)重分配,最后通過softmax層輸出進(jìn)行情感分類。通過在譚松波酒店評論數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法與當(dāng)前主流的短文本分類情感方法相比,有效地提高了分類性能。

2 相關(guān)工作

2.1 LDA

LDA 模型是一種文檔生成模型,其概率圖模型如圖1所示,它將文檔表示為主題的概率分布,而主題表示成詞的概率分布,因此LDA 可以被用來進(jìn)行文本特征提取。LDA 的輸入是文本的one-hot 編碼,輸出是文檔的主題分布、主題的詞分布[5]。LDA模型可以描述如下:

(1)文檔的主題先驗(yàn)分布服從參數(shù)為α的Dirichlet分布,其中文檔d的主題分布為θd=Dirichlet(α)。

(2)主題中的詞的先驗(yàn)分布服從參數(shù)β的先驗(yàn)分布,其中主題k的詞分布為φk=Dirichlet(β)。

(3)文檔d中的第n個(gè)詞,從主題分布獲得其主題編號(hào)分布為zdn=multi(θd)。

(4)文檔d中的第n個(gè)詞分布wdn的分布為wdn=multi(φzdn)。

圖1 中D是訓(xùn)練數(shù)據(jù)集的大小,N是一條訓(xùn)練數(shù)據(jù)的大小,K是主題數(shù)。

圖1 LDA概率圖模型

從模型假設(shè)可知,已知每個(gè)文檔的文檔主題的Dirichlet 分布與主題編號(hào)的多項(xiàng)式分布滿足Dirichletmulti 共軛,使用貝葉斯推斷的方法得到文檔主題的后驗(yàn)分布。同樣已知主題詞的Dirichlet 分布與主題編號(hào)的多項(xiàng)式分布滿足Dirichlet-multi 共軛,通過貝葉斯推斷得到主題詞的后驗(yàn)分布。然后通過使用Gibbs采樣的方法去獲得每個(gè)文檔的主題分布和每個(gè)主題的詞分布。

2.2 word2vec模型

文本信息需要被編碼成數(shù)字信息才能進(jìn)行計(jì)算處理。傳統(tǒng)的模型使用基于one-hot 編碼的方法的BOW(Bag of Words)模型,該方法通過構(gòu)建詞典,統(tǒng)計(jì)文本的詞頻信息,對文本進(jìn)行編碼。然而,one-hot模型的編碼方法孤立了每個(gè)詞,無法表達(dá)出詞之間的關(guān)系,導(dǎo)致語義信息的丟失。而且,當(dāng)詞的種類過多時(shí),還會(huì)帶來維度爆炸的問題。因此,提出了詞的分布式表示,將經(jīng)過one-hot編碼的詞,映射到一個(gè)低維空間,并保留詞之間的語義信息。word2vec 模型是目前主流詞分布式表示模型,word2vec包含兩種模型,分別是CBOW與Skip-Gram。CBOW 模型通過輸入中心詞相關(guān)的詞的詞向量,輸出中心詞的詞向量。Skip-Gram則相反,通過輸入中心詞的詞向量,輸出上下文的詞向量[15]。兩種模型的結(jié)構(gòu)如圖2所示。

2.3 attention模型

注意力機(jī)制是一種權(quán)重分配機(jī)制,通過模仿生物觀察行為的過程,將內(nèi)部經(jīng)驗(yàn)和外部感覺對齊從而增強(qiáng)觀察行為的精細(xì)度,在數(shù)學(xué)模型上表達(dá)為通過計(jì)算注意力的概率分布來突出某個(gè)關(guān)鍵的輸入對輸出的影響[16-17]。其首先被提出應(yīng)用于圖像特征提取過程,而后被Bahdanau等人[10]引入到自然語言處理領(lǐng)域。如公式(1)所示,其中k(ikey)與v(ivalue)一一對應(yīng),通過計(jì)算qt(query)和各個(gè)ki的內(nèi)積,求得與各個(gè)vi的相似度,然后進(jìn)行加權(quán)求和與歸一化。

圖2 word2vec模型結(jié)構(gòu)

其中,Z是歸一化因子,為輸入詞嵌入向量的維度,起到調(diào)節(jié)因子的作用,使得內(nèi)積不至于過大。

3 模型描述

本章介紹了本文提出的短文本情感分類方法,主要包括四個(gè)部分:第一部分,訓(xùn)練LDA 模型,得到每條評論的主題詞分布,設(shè)置主題數(shù)、主題詞提取閾值,進(jìn)行主題詞提?。坏诙糠郑瑢⑶笆鎏崛〉降闹黝}詞和原有評論內(nèi)容進(jìn)行拼接輸入到word2vec 模型進(jìn)行訓(xùn)練;第三部分,使用Self-Attention 機(jī)制進(jìn)行動(dòng)態(tài)注意力更新;第四部分,通過softmax層進(jìn)行情感分類,根據(jù)情感分類準(zhǔn)確率確定最佳主題數(shù)和主題詞選取閾值。研究框架如圖3所示。

3.1 評論主題信息提取

統(tǒng)計(jì)語料集的詞頻信息建立字典,對文本進(jìn)行BOW編碼,輸入到LDA 模型中,獲得每條評論的主題分布d_t=[z1,z2,…,zK],其中z為每個(gè)主題編號(hào)的概率。然后找到每個(gè)主題的詞分布t_w=[w1,w2,…,wN],其中w為字典中每個(gè)詞的分布概率。則每條評論的主要特征詞可以表示為如公式(2)所示:

圖3 研究框架

通過設(shè)置閾值,選取D_W中超過閾值的詞作為評論文本的主要詞特征。

3.2 文本向量化

為了更好地實(shí)現(xiàn)對評論文本進(jìn)行聚類,本模型將主題信息融合到評論文本詞向量訓(xùn)練的過程。使用LDA獲得該條評論的主題信息,和原有的評論內(nèi)容進(jìn)行拼接,作為評論與主題信息結(jié)合后的向量表達(dá)。將前述得到的融合主題信息的評論文本作為輸入,訓(xùn)練CBOW模型。假設(shè)詞向量的維數(shù)為dk,每條評論文本可以表示為一個(gè)行數(shù)是詞向量的維度dk,列數(shù)是評論文本長度N與主題特征詞的個(gè)數(shù)l之和的文本矩陣W=<w,wz >。其中w為評論文本的詞向量表示,wz為通過LDA 獲得該評論文本的主題特征的詞向量表示。CBOW模型損失函數(shù)如公式(3)、(4)、(5)所示[15,18]。

其中,wi為某個(gè)中心詞,s為中心詞左右窗口大小,P(wi|wi-s,…,wi+s)已知上下文中心詞為wi的概率大小計(jì)算方法如下:

其中w0是wi上下文詞向量的均值,dict為字典。

通過在評論文本中融合主題的特征信息,從而使得編碼后的詞向量在高維空間同類信息之間的余弦距離更小,使得相同主題評論文本在向量空間的聚類效果更好。

3.3 Self-Attention機(jī)制

傳統(tǒng)的注意力機(jī)制通過計(jì)算源端的每個(gè)詞與目標(biāo)端的每個(gè)詞之間的依賴關(guān)系來更新訓(xùn)練參數(shù),Self-Attention機(jī)制僅通過關(guān)注自身信息更新訓(xùn)練參數(shù),不需要添加額外的信息。將前述通過CBOW模型得到的融合主題特征的評論文本向量輸入到Self-Attention層,通過公式(6)計(jì)算權(quán)重分布:

3.4 模型訓(xùn)練

使用交叉熵作為損失函數(shù),利用Adam更新網(wǎng)絡(luò)參數(shù)。公式(7)計(jì)算評論文本向量γx屬于類別yx的概率,n_c為類別的數(shù)目。以公式(8)為損失函數(shù),通過迭代更新參數(shù),最小化監(jiān)督標(biāo)簽gx和預(yù)測標(biāo)簽之間的交叉熵。

3.5 模型描述

本文提出的模型可以描述如下:

輸入:帶標(biāo)簽短文本數(shù)據(jù)集。

輸出:訓(xùn)練好的分類模型。

步驟1對數(shù)據(jù)集進(jìn)行分詞、去停用詞等預(yù)處理過程,得到處理后的數(shù)據(jù)集doc。

步驟2將數(shù)據(jù)集doc輸入到LDA 模型,得到每個(gè)短文本的主題概率分布和每個(gè)主題的詞語的概率分布,根據(jù)公式(2)構(gòu)建每條評論的主題特征詞矩陣D_W。

步驟3根據(jù)步驟2 的結(jié)果選取每條評論的主題特征詞,并和原評論進(jìn)行拼接輸入到word2vec 模型進(jìn)行訓(xùn)練,構(gòu)建融合主題信息的詞向量模型,得到每條評論與主題特征詞的詞向量表示W(wǎng)。

步驟4添加Self-Attention層,根據(jù)公式(6),對步驟3的向量表示的評論結(jié)果,進(jìn)行自注意力計(jì)算。

步驟5根據(jù)分類準(zhǔn)確率選擇LDA 模型的主題數(shù)K,主題詞選取閾值。

步驟6通過迭代訓(xùn)練更新模型參數(shù),進(jìn)行文本分類。

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)的硬件和軟件的配置保證著實(shí)驗(yàn)的順利進(jìn)行,本文實(shí)驗(yàn)的環(huán)境如表1所示。

表1 實(shí)驗(yàn)環(huán)境配置

4.2 實(shí)驗(yàn)數(shù)據(jù)

本文使用哈工大譚松波老師整理的酒店評論數(shù)據(jù)集,共6 000條,其中正向情感評論3 000條,負(fù)向情感評論3 000 條,數(shù)據(jù)類別分布均衡。對數(shù)據(jù)集中評論的長度進(jìn)行統(tǒng)計(jì)得到評論長度分布如圖4所示。其中,共有6 000條數(shù)據(jù),評論的長度30以下的有3 198條,在20以下的有1 601條。因此,如何對評論文本中的短文本數(shù)據(jù)進(jìn)行合理的處理,使得短文本情感分類成為研究的重點(diǎn)。

圖4 數(shù)據(jù)集長度分布

對分詞后的數(shù)據(jù)用詞云表示如圖5 所示,其中“服務(wù)”“入住”“早餐”等為酒店評論的熱點(diǎn)詞匯。

圖5 數(shù)據(jù)集詞云

4.3 參數(shù)設(shè)置

深度學(xué)習(xí)模型參數(shù)設(shè)置十分關(guān)鍵,該模型主要由三部分參數(shù)組成,分別是LDA、word2vec、Self-Attention三個(gè)模型的參數(shù),參數(shù)大小設(shè)置如表2所示。

4.4 LDA主題詞提取

將酒店評論語料集經(jīng)過預(yù)處理后輸入到LDA 模型,得到語料庫的主題詞概率分布和每條評論的主題概率分布。使用公式(2)計(jì)算添加到每條評論中的主要詞特征。根據(jù)情感分類準(zhǔn)確率選擇主題詞選取閾值為0.03,對添加到評論中的主題詞進(jìn)行統(tǒng)計(jì),在指定LDA主題總數(shù)為30、35、40、45時(shí),評論中滿足閾值條件的主題詞如表3所示,其中包含了酒店評論中的軟硬件配置以及顧客的情感態(tài)度和服務(wù)水平等各種信息。

表2 實(shí)驗(yàn)參數(shù)設(shè)置

表3 LDA提取主題詞示例

為了研究情感分類過程中準(zhǔn)確率、添加到文本中的主題詞數(shù)目以及主題詞種類之間的變化關(guān)系(主題詞數(shù)目表示總共添加多少詞到模型訓(xùn)練中、主題詞種類表示總共添加了多少個(gè)不一樣的主題詞到文本中)。

設(shè)置主題數(shù)目變化范圍為K∈[0:100],以5 為步長,繪制準(zhǔn)確率、主題詞數(shù)目、主題詞種類隨著主題數(shù)的變化曲線。其中為了便于觀察,對實(shí)驗(yàn)結(jié)果進(jìn)行了歸一化處理。如圖6所示,主題詞的種類隨著主題數(shù)的增加而不斷增加;主題詞數(shù)目先隨著主題數(shù)不斷上升,在主題數(shù)為30達(dá)到了最大,而后不斷下降并趨于穩(wěn)定;準(zhǔn)確率剛開始隨著主題數(shù)不斷上升,在主題數(shù)為35,準(zhǔn)確率達(dá)到了最高,而后開始下降,并在一定范圍內(nèi)波動(dòng)。

圖6 準(zhǔn)確率及主題信息隨主題數(shù)K 變化曲線

由此可以看出,模型分類的準(zhǔn)確率與添加到評論中主題詞總數(shù)和LDA 模型的主題總數(shù)相關(guān),但可以直接由LDA 模型的主題總數(shù)進(jìn)行確定,且不會(huì)隨著添加到評論中主題詞的種類的增加而增加。

4.5 評價(jià)指標(biāo)選取

本文采用Precision、Recall、F1-Score對實(shí)驗(yàn)結(jié)果進(jìn)行評測[19]。Precision用來描述所有預(yù)測該類別的測試數(shù)據(jù)中,真正是該類別的數(shù)據(jù)所占的比率。Recall用來描述所有該類別的測試數(shù)據(jù)中,預(yù)測為該類別數(shù)據(jù)所占的比率。F1-Score綜合了Precision和Recall兩個(gè)指標(biāo),定義如下:

TP表示將真實(shí)正樣本預(yù)測為正樣本,F(xiàn)N表示將真實(shí)正樣本預(yù)測為負(fù)樣本,TN表示將真實(shí)負(fù)樣本預(yù)測為負(fù)樣本,F(xiàn)P表示將真實(shí)負(fù)樣本預(yù)測為正樣本。

如表4所示,本文選取了五種基于詞向量、LSTM和Self-Attention相結(jié)合的算法[10,20]進(jìn)行復(fù)雜度和準(zhǔn)確率的對比分析。由于五種模型都使用了word2vec 詞向量,因此word2vec模型復(fù)雜度可以忽略。因此對比模型可以劃分為4種基于LSTM的模型和1種基于Self-Attention的模型。根據(jù)文獻(xiàn)[21],LSTM單層的復(fù)雜度為O(n×d2),Self-Attention單層復(fù)雜度為O(n2×d),其中n為序列長度,d為詞向量的維度。當(dāng)n <d時(shí),Self-Attention模型單層復(fù)雜度低于基于LSTM 模型單層復(fù)雜度。本文使用的LDA 模型的復(fù)雜度為O(K×N),其中K為主題數(shù),N為字典的大小。因此本文提出的模型復(fù)雜度低于基于LSTM 模型,而高于只使用Self-Attention 的模型。與基于LSTM 的模型相比,不僅降低了模型復(fù)雜度,而且提高了分類準(zhǔn)確率。與只使用Self-Attention的模型相比,本文提出的添加了主題信息的情感分類模型提高了情感分類的準(zhǔn)確率。

表4 酒店評論數(shù)據(jù)集評測結(jié)果對比 %

5 結(jié)語

本文提出了基于注意力機(jī)制的評論文本情感分類方法,使用LDA獲取評論文本的主題信息,將文本的主題信息和評論文本進(jìn)行拼接融合,輸入到CBOW 模型進(jìn)行詞向量訓(xùn)練,實(shí)現(xiàn)詞向量在高維空間的主題信息聚類,使用Self-Attention 機(jī)制進(jìn)行動(dòng)態(tài)權(quán)重分配,有效地避免了由于文本長度過短導(dǎo)致文本情感分類準(zhǔn)確率降低的問題,實(shí)驗(yàn)證明了本文提出的情感分類方法優(yōu)于主流的短文本情感分類方法。其中主題信息的提取是決定本文提出的情感分類方法準(zhǔn)確性的重要因素,無效的主題信息不僅不能提高分類的準(zhǔn)確性,還會(huì)降低分類的準(zhǔn)確性。本文通過人工篩選的方式提取主題信息,但人工的方式帶來了工作量大的問題,因此下一步研究的重點(diǎn)是如何自動(dòng)提取有效的主題信息。

猜你喜歡
主題詞短文向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
《中國醫(yī)學(xué)計(jì)算機(jī)成像雜志》2020 年第26 卷主題詞索引
KEYS
Keys
向量垂直在解析幾何中的應(yīng)用
《中國骨與關(guān)節(jié)雜志》2016 年第五卷英文主題詞索引
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
中山市| 开原市| 电白县| 临沧市| 察隅县| 禹州市| 江永县| 江源县| 库尔勒市| 耒阳市| 本溪| 余干县| 甘泉县| 友谊县| 兴业县| 深水埗区| 长岛县| 吉木乃县| 封丘县| 奉节县| 小金县| 汶川县| 定安县| 洛宁县| 勃利县| 湟中县| 同德县| 三台县| 新乡市| 扶余县| 斗六市| 什邡市| 平遥县| 永川市| 潍坊市| 长治市| 梁山县| 克拉玛依市| 美姑县| 贡嘎县| 阿勒泰市|