国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LERT和雙通道模型的微博評論情感分析研究

2023-10-23 02:58:32
計算機時代 2023年10期
關(guān)鍵詞:雙通道卷積向量

荀 竹

(湖北工業(yè)大學理學院,湖北 武漢 430068)

0 引言

在信息化背景下,對社交媒體下的網(wǎng)民評論進行情感分析有助于相關(guān)機構(gòu)監(jiān)管網(wǎng)絡環(huán)境、掌握輿論走向、加強網(wǎng)絡輿情引導,具有非常重要的現(xiàn)實意義。

情感分析最早由Nasukawa[1]等人提出,此后出現(xiàn)了大量研究,隨著研究的不斷深入,基于深度學習的情感分析方法[2-4]已成為主流的研究方向,并逐漸由詞向量技術(shù)演變?yōu)轭A訓練語言模型。為了更好地理解中文文本的情感傾向,一些學者引入依存句法分析技術(shù)來輔助模型分析。杜啟明[5]等人提出一種依存關(guān)系感知的嵌入表示,針對性地挖掘不同依存路徑對情感分析任務的貢獻權(quán)重。代祖華[6]等人使用圖神經(jīng)網(wǎng)絡分別獲取詞的句法結(jié)構(gòu)特征表示和融合外部知識庫信息的詞特征表示。張文豪[7]等人用層次詞匯圖代替普通的依存句法樹,更關(guān)注詞匯之間的共現(xiàn)關(guān)系。先前的工作大多是將語言知識結(jié)構(gòu)與復雜模型結(jié)合,而Cui[8]等人提出一種語言學信息增強的預訓練模型LERT(Linguistically-motivated bidirec-tional Encoder Representation from Transformer),不需要增加模型的復雜程度,而且在同等訓練規(guī)模下的訓練效果更好。

因此,本文構(gòu)建了LERT-BiGRU-TextCNN 模型對評論文本進行情感分析,主要貢獻如下:

⑴提出一種基于LERT 語義向量的情感分析模型,該模型預訓練階段使用了Transformer 結(jié)構(gòu)中的encoder部分對文本進行詞性標注、命名實體識別以及依存句法分析標注,生成深層的雙向語言表征。

⑵基于LERT得到的基礎語義向量,設計BiGRU和TextCNN的雙通道結(jié)構(gòu),進一步對語義特征進行優(yōu)化融合,得到可用于情感分析的高質(zhì)量情感語義特征。

⑶ 在數(shù)據(jù)集SMP2020-EWEC 上的實驗結(jié)果表明,LERT-BiGRU-TextCNN 模型具有更高的準確率和F1值,體現(xiàn)了該模型的有效性。

1 LERT-BiGRU-TextCNN 模型

與傳統(tǒng)文本情感分析模型不同的是,本文提出的模型使用LERT預訓練模型作為embedding層,能夠包含更多的語言信息,并且在對該模型進行訓練時,可以只訓練BiGRU、TextCNN 部分的參數(shù),大大降低了模型訓練成本,提升了模型的訓練效率。如圖1所示,模型分為三個部分:首先通過LERT 預訓練模型得到文本中詞的向量表示,再將詞向量序列分別輸入到BiGRU、TextCNN 模型中進一步提取語義信息,最后通過全連接層輸出情感分類結(jié)果。

圖1 LERT-BiGRU-TextCNN模型結(jié)構(gòu)

1.1 LERT預訓練模型

LERT 是一種語言學信息增強的預訓練模型,在掩模語言模型的基礎上結(jié)合語言基礎平臺(LTP)對評論文本進行訓練。如圖2 所示,其流程主要分為語言分析和模型預訓練兩個部分。

圖2 LERT框架

⑴語言分析。使用LTP 對輸入的文本進行詞性標注(POS)、命名實體識別(NER)和依存句法分析(DEP)標注,生成語言學標簽。

⑵模型預訓練。LERT 只對掩碼位置進行預測,將每個輸入投影到相應的POS、NER 和DEP 中使用LTP進行標注。

比如,網(wǎng)絡中Transformer 的最后一個隱藏層為H∈RN×d(N為輸入的文本向量長度,d為隱藏層大小),用來表示掩碼特征信息的向量為Hl∈H,輸入的詞嵌入矩陣為E∈RV×d(V為語言標簽數(shù)量)。對于任一語言分析任務(POS、NER 和DEP),其歸一化概率pi計算如下:

1.2 雙通道深度學習模型

1.2.1 BiGRU通道

考慮到詞語與上下文之間的聯(lián)系,本文使用BiGRU 網(wǎng)絡提取特征信息,從文本序列前、后兩個方向完成遍歷,挖掘隱含特征。BiGRU 由前向GRU和反向GRU 組成,在計算自身隱藏狀態(tài)時相互獨立,其結(jié)構(gòu)如圖3所示。

圖3 BiGRU結(jié)構(gòu)

BiGRU 在t 時刻的隱藏層狀態(tài)gt由前向GRU 隱藏狀態(tài)-1和反向GRU 隱藏狀態(tài)-1加權(quán)求和得到,計算如下:

1.2.2 TextCNN通道

TextCNN融合了CNN網(wǎng)絡結(jié)構(gòu)的優(yōu)點,同時解決了詞袋模型的稀疏性問題,其結(jié)構(gòu)分為四個部分:

⑴嵌入層將訓練好的詞向量輸入到網(wǎng)絡中,并用矩陣表示輸入的文本序列,如下:

其中,k為序列所含詞個數(shù);xi為第i個詞的詞向量;⊕為拼接操作符。

⑵卷積層使用多個不同大小的卷積窗口同時提取文本信息,再通過非線性激活函數(shù)f得到特征映射矩陣C=[c1,c2,???,cn,],特征公式為:

其中,ci為第i次卷積值;Cj為第j個卷積核通過卷積得到的矩陣;H為卷積核;h為卷積核大?。籦為偏置參數(shù);n為卷積核個數(shù)。

⑶池化層通過最大池化法得到一個定長的向量表示,并實現(xiàn)矩陣降維,防止過擬合現(xiàn)象的發(fā)生。

⑷全連接層在全連接層使用dropout 函數(shù),以減少網(wǎng)絡對連接的過度依賴。

2 實驗結(jié)果與分析

2.1 實驗數(shù)據(jù)

為了評估LERT-BiGRU-TextCNN模型的有效性,使用SMP2020-EWECT 微博評論數(shù)據(jù)集進行實驗。首先將數(shù)據(jù)分為積極評論和消極評論兩大類,使用HarvestText 和Pyhanlp 清洗評論文本,刪除網(wǎng)頁鏈接與冗余符號,但保留“?”“!”等具有情感色彩的標點符號,經(jīng)整理得到的有效數(shù)據(jù)統(tǒng)計信息如表1所示。

表1 實驗數(shù)據(jù)統(tǒng)計表

2.2 實驗環(huán)境與參數(shù)

針對本文使用的模型,選擇LeakyReLU 作為激活函數(shù),以避免ReLU 函數(shù)的神經(jīng)元死亡問題;采用隨機梯度下降法更新權(quán)重,優(yōu)化器選用Adam 算法;模型的損失函數(shù)為CrossEntropyLoss。模型參數(shù)設置見表2。

表2 模型參數(shù)設置

2.3 對比實驗

為驗證LERT-BiGRU-TextCNN 模型的有效性,選用以下四個模型作為基線進行對比實驗。

BiRNN:該模型能夠獲取文本序列的上下文信息。

TextCNN:該模型使用多個尺寸的卷積核同時提取特征,并通過池化層聚合重要特征、降低特征維度。

BiGRU:一種雙向循環(huán)神經(jīng)網(wǎng)絡模型。在門控遞歸單元的基礎上,采用雙向結(jié)構(gòu)進行情感分析。

BERT-TextCNN-BiGRU:在BERT 基礎上,添加了融合TextCNN和BiGRU的雙通道神經(jīng)網(wǎng)絡結(jié)構(gòu)。

2.4 實驗結(jié)果及分析

本文使用準確率和F1值作為模型性能評估指標,實驗結(jié)果如表3所示,本文所用模型為LERT-BiGRUTextCNN。

表3 模型實驗結(jié)果對比(%)

由表3 可以看出:本文模型在數(shù)據(jù)集上的表現(xiàn)均優(yōu)于對比實驗模型。這是因為BiRNN、TextCNN 和BiGRU 模型無法解決文本時序特征的問題,容易發(fā)生梯度爆炸。BERT-BiGRU-TextCNN 模型基于Transformer 結(jié)構(gòu)并行計算,解決了傳統(tǒng)情感分析模型的梯度爆炸問題,因此在對比實驗中具有較高準確率。本文提出的模型使用LTP 對文本進行POS、NER和DEP 標注,能夠包含更多語言信息,更適用于處理含有大量中文的微博評論數(shù)據(jù),因而擁有更高的準確率和F1值。

3 結(jié)束語

本文提出了一種基于LERT 預訓練語言模型和BiGRU-TextCNN 雙通道的情感分析方法。使用LERT 進行語義標注,將語義信息輸入到雙通道模型中進行訓練。對比現(xiàn)有的研究方法,本文方法具有更高的準確率和F1值,模型訓練效果更顯著。接下來還需要考慮融入方面詞特征,結(jié)合LERT 表征情感詞的多義性,以提高文本情感分析模型的識別精度。

猜你喜歡
雙通道卷積向量
向量的分解
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
近端胃切除雙通道重建及全胃切除術(shù)用于胃上部癌根治術(shù)的療效
聚焦“向量與三角”創(chuàng)新題
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
桐柏县| 当阳市| 札达县| 武山县| 三台县| 东台市| 呈贡县| 东至县| 东安县| 灵璧县| 海丰县| 太白县| 临泉县| 顺昌县| 江安县| 巧家县| 长白| 天等县| 田林县| 吴川市| 台前县| 句容市| 南投县| 洪湖市| 房山区| 云安县| 永福县| 南汇区| 宜兰市| 浮梁县| 西畴县| 青冈县| 德格县| 德惠市| 邵阳县| 彰化市| 宝应县| 南阳市| 诏安县| 东辽县| 陇南市|