国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙向預訓練語言模型的文本情感分類

2020-04-09 07:18:48王璐琳
西安郵電大學學報 2020年5期

馬 力,王璐琳

(西安郵電大學 計算機學院,陜西 西安 710121)

文本情感分類是自然語言處理領域中的一項重要研究任務,一般是對用戶生成的帶有情感色彩的文本進行情感分析,從而得到文本的情感傾向,現(xiàn)已被廣泛應用在產品分析、民意調查和電影推薦等各個領域[1-2]。

文本向量化是將文本數(shù)據(jù)表示成稠密、低維的實數(shù)向量,是文本情感分類任務中的基礎工作[3],而詞的分布式[4]奠定了文本詞語建模的發(fā)展理論基礎。隨著深度學習的發(fā)展和應用,基于神經網(wǎng)絡的文本向量化表示逐漸成為自然語言處理方面的研究熱點[5-6]。神經網(wǎng)絡語言模型[7](nerural network language model,NNLM)利用神經網(wǎng)絡、softmax分類及反向傳播算法預測了詞的概率分布并得到了詞的向量表示;Word2vec模型包含了跳字 (skip-gram)和連續(xù)詞袋(continuous bag of word,CBOW)兩種模型[8-9];基于全局詞頻統(tǒng)計的詞表征工具[10](global vectors for word representation,GloVe)融入了全局統(tǒng)計信息,既能夠加快模型的訓練速度,又可以控制各個詞的權重;FastText文本分類工具引入了字符級n-gram特征,將幾個字符的n-gram向量進行疊加表示某個單詞[11]。但是,Word2vec和GloVe等詞向量模型共同存在無法學習不同上下文中的詞匯多義性問題,如英文單詞中的“play”,既有“玩耍”的意思,也可以用作名詞表示“劇本”,上述模型無法分辨這種一詞多義[12]。

近年來,在自然語言處理領域中,使用預訓練語言模型的方法在多項自然語言處理任務上都取得了不錯的進展,逐漸成為一種新的研究和發(fā)展方向。基于語言模型的詞向量表示[13](embedding from language model,ELMo)的網(wǎng)絡結構采用兩層雙向長短期記憶網(wǎng)絡(bidirectional long short-term memory,biLSTM),能夠學習詞的復雜特征(如語法和語義)以及單詞在不同語境中的變化,從而解決了一詞多義問題。生成式的預訓練語言模型[14](generative pre-training,GPT)使用Transformer代替了LSTM,對特征的提取能力強于LSTM,但GPT采用的是單向的語言模型?;赥ransformer的雙向編碼器表征的預訓練語言模型[15](bidirectional encoder representation from transformer,BERT)對特征的融合能力要優(yōu)于GPT,因此,擬提出一種基于BERT模型的文本情感分類方法,在文本情感分類的任務語料上對預訓練好的BERT模型進行微調,利用該模型進行文本情感分類,以期提升分類的準確性。

1 相關理論

1.1 Transformer模型

循環(huán)神經網(wǎng)絡(recurrent neural network,RNN)的計算受時間順序的限制,只能從左到右或者從右到左依次計算,導致模型訓練非常緩慢。而Transformer模型不需要循環(huán),可并行處理序列中的所有單詞或符號,訓練速度比RNN快很多,引入的自注意力機制(self-attention)和多頭注意力機制(multi-head attention),讓源序列和目標序列自關聯(lián)起來,使得源序列和目標序列自身的詞向量表示所蘊含的信息更加豐富。Transformer模型使用全attention的結構代替了RNN。

Transformer模型主要分為左邊編碼層和右邊解碼層兩個部分,結構如圖1所示。編碼層由6個相同的編碼器組成,每層包含兩個子層。第1層為多頭注意力機制層,用來計算輸入的自注意力;第2層是一個全連接層。每個子層都需進行殘差連接和歸一化處理。解碼層由6個相同的解碼器組成,每層包含3個子層。第1層為掩蔽的多頭自注意力機制層,用來計算輸入的自注意力。生成過程只能獲取到當前時刻之前的輸入,因此只對t時刻之前的輸入信息進行attention計算,掩蔽操作就是將t時刻之后的輸入信息變?yōu)?;第2子層為注意力層,對編碼層的輸入進行attention計算;第3子層是全連接層。

圖1 Transformer模型結構

BERT是一種新型深度語境化語言模型,通過在大型語料庫上聯(lián)合調節(jié)所有層中的上下文,對詞的復雜特征和詞在語言語境中的變化進行建模,從而為單詞學習一個好的特征表示,其模型結構如圖2所示,其中“Trm”為Transformer模型的編碼器結構,E1…EN為輸入的詞嵌入向量,T1…TN為輸出的特征向量。

自注意力機制是Transformer模型用來將其他相關單詞的“理解”轉換成正在處理的單詞的一種思路。自注意力機制分數(shù)值決定了在編碼某個位置i的單詞時,對輸入句子其他部分的關注程度。具體處理過程如下。

例2 (2016.煙臺中考)美國心理學家桑代克通過對動物行為的大量觀察和實驗提出了“嘗試與錯誤”學習理論。下列觀點是在對動物行為研究基礎上形成的,其中應用歸納法獲得的結論是( )

為了訓練深度雙向Transformer表示,在將單詞序列輸入BERT模型之前,隨機掩蓋部分輸入詞,然后基于其上下文預測被掩蓋單詞的原始詞匯。在訓練過程中,MLM從輸入的每個序列中隨機地掩蓋15%的單詞,掩蓋規(guī)則為80%的概率用“MASK”替換,10%的概率用錯誤的單詞替換,10%的概率使用正確的單詞。

1)計算查詢向量Q、鍵向量K和值向量V等3個維度為64的新向量。3個向量分別是由1個512維的詞向量X和3個隨機初始化的權值矩陣WQ、WK和WV相乘得到,矩陣的維度均為(512,64),其值在反向傳播的過程中會進行更新。

2)將Q和K點乘的結果除以權值矩陣第一個維度d的開方,然后把得到的結果進行softmax計算,其結果即為每個詞對于當前位置i的詞的相關性大小。

3)用V和softmax得到的值進行點乘運算并相加,結果即為當前節(jié)點的自注意力機制分數(shù)值,計算表達式為

(1)

其中,N為輸入詞的個數(shù)。

分布式儲能一般安裝于工商業(yè)用戶端或園區(qū),主要服務于電費管理,幫助用戶降低需量電費和電量電費。企業(yè)主要生產非晶合金變壓器,用電量較大且用電負荷主要集中在白天時段,晚上生產負荷較小。根據(jù)2016年企業(yè)用電量統(tǒng)計數(shù)據(jù),每月平均用電量在60萬kWh,全部從電網(wǎng)購買。結合企業(yè)用電特點,參照上海市分時電價政策,利用峰谷電價差,考慮建設分布式儲能示范項目,降低企業(yè)用電成本、提高供電可靠性。圖1為該企業(yè)2016年典型月用電量統(tǒng)計圖。

1.1.2 多頭注意力機制

除濕控制采用Fuzzy-PID復合控制算法,即將模糊控制與PID控制算法相結合,在濕度偏差較大時采用模糊控制算法,即室內環(huán)境濕度遠高于設定濕度時,壓縮機保持當前頻率運行,開啟除濕電磁閥除濕;在濕度偏差較小時采用PID控制算法,通過電子膨脹閥調節(jié)蒸發(fā)溫度,進而調節(jié)除濕量。

多頭注意力機制是通過h個不同的線性變換對Q、K和V進行投影,然后將不同的attention結果拼接起來。多頭注意力機制擴展了模型專注于不同位置的能力,并給出了注意力層的多個表示子空間。

將每一時序上的向量長度等分成n份數(shù)據(jù),分別通過不同的權重矩陣(WQi,WKi,WVi)映射得到新的Q、K、V值;其次對映射后的n份數(shù)據(jù)計算相應的attention值;最后按照之前分割的形式將數(shù)據(jù)重新拼接起來并通過權值矩陣WO映射到原始的向量維度,得到多頭注意力機制分數(shù)值,其計算表達式為

M(Q,K,V)=Concat(h1,...,hn)WO,

(2)

hi=Attention(QWQi,KWKi,VWVi)。

《基礎教育課程改革綱要(試行)》中明確指出:教師應尊重學生的人格,關注個體差異,滿足不同學生的學習需要,創(chuàng)設能引導學生主動參與的教育環(huán)境,激發(fā)學生的學習積極性,培養(yǎng)學生掌握和運用知識的態(tài)度和能力,使每個學生都能得到充分的發(fā)展。小學數(shù)學階段是對學生的數(shù)學教育進行基礎鞏固的階段,是培養(yǎng)學生數(shù)學綜合能力的關鍵時期,分層異步教學作為小學數(shù)學的重要教學方式,能夠逐漸平衡學生之間的差異,提升整體學生的綜合能力,提高教師的教學質量,對不同程度的學生進行針對性地指導,依照學生的實際情況,尊重學生的個體差異,能夠照顧到不同學習水平的學生,對小學數(shù)學教師的教學效果具有很大的提高作用。

(1) 當形容詞或者else修飾復合不定代詞something ,everything ,everyone 等時,形容詞或else必須放在這些不定代詞之后;如:

1.2 BERT模型

1.1.1 自注意力機制

圖2 BERT模型結構

BERT模型采用多層雙向Transformer的網(wǎng)絡結構,通過attention機制將任意位置的兩個單詞的距離轉換成1,有效地解決了長期依賴問題,并能更徹底地捕捉語句中的雙向關系。利用掩蓋的語言模型(masked language model,MLM)預訓練目標函數(shù),以減小的概率隨機掩蓋輸入中的一些詞,并在預訓練過程中對其進行預測,使得模型能夠學習到融合了上下文信息的表征。為了使模型更好地理解兩個句子之間的關系,隨機替換一些句子,在訓練時利用上一句對下一句進行預測,增加了下一句預測(next sentence prediction,NSP)任務。

BERT模型的網(wǎng)絡結構有簡單和復雜兩種模型結構,其對應的超參數(shù)[15]分別為

其中,n為多頭注意力機制的頭數(shù),權值矩陣WO的維度為(512,512)。

BERTBASE:L=12,H=768,A=12,

BERTLARGE:L=24,H=1024,A=16。

其中:L表示網(wǎng)絡層數(shù),即Transformer模塊的個數(shù);H表示隱藏層大??;A表示多頭注意力機制的頭數(shù)。本文采用BERTBASE模型結構。

圖4中Tok表示輸入的單詞,E為詞嵌入向量,Ti表示第i個單詞經過BERT處理之后得到的特征向量。在訓練集上將每個單詞的詞塊嵌入、位置嵌入和分割嵌入3個特征向量相加,得到詞嵌入向量ECLS,E1,…,EN,將該向量輸入到BERT模型中,得到對應隱藏層輸出的特征向量C,T1,…,TN,C為模型在“CLS”位置的輸出。

(1)臨沂城區(qū)道路灰塵中 Pb、Cd、Cu、Zn、Cr、Ni 6種重金屬均呈現(xiàn)出明顯的累積特征。與國內其他城市相比,臨沂市道路灰塵重金屬含量水平整體偏高。殘渣態(tài)是其主要的賦存形態(tài),各重金屬生物可利用性順序為Zn>Cu>Pb>Cd>Ni>Cr。

給定N個輸入詞的序列t1,t2,…,tN,MLM對序列t1,…,ti-1,ti+1,…,tN進行建模,計算字符ti的概率

(3)

我校是城鄉(xiāng)結合部學校,學校現(xiàn)有12個教學班,教師31人,學生520人。其中,體育教師3人,兼職體育教師3人。學校運動設施完善,有標準籃球場2個、田徑運動場及健身區(qū)約1200平方米、室內羽毛球場1個、室外羽毛球場7個,這些場地能夠充分保證學生在校開展羽毛球運動。但我校啟動羽毛球普及較遲,學生的技術基礎有待提高,這要求我們開發(fā)出適合我校推廣的器材設施。

在訓練時Transformer編碼器不知道要預測哪些單詞,即,不知道哪些單詞已被替換,因此必須對每個輸入詞保持分布式的上下文表示。同時,在所有詞當中,每個單詞被隨機替換的概率只有1.5%,則不會影響模型對于語言的理解能力。

1.2.2 下一句預測

在訓練BERT模型時,將MLM和NSP同時訓練,使得兩個任務的組合損失函數(shù)最小。

為了使模型能夠區(qū)分開訓練中的兩個句子,對模型的輸入進行處理。在第一個句子的開頭插入“CLS”標記,在每個句子的末尾插入“SEP”標記;將表示句子A或句子B的一個句子嵌入添加到每個標記上;給每個標記添加一個位置嵌入表示其在序列中的位置。

本文基于“沒有最好的技術,只有最適合的技術”的思路,給出一種選型策略參考模型。移動應用開發(fā)技術的選型是一個多因素權衡的過程,本文僅提供一種基于開發(fā)技術的選型思路。面對眾多的開源組件和框架,開發(fā)人員需有效識別需求,選擇最適合的開發(fā)技術,完成開發(fā)模式和技術棧選型。

在BERT模型訓練過程中,將接收成對的句子作為輸入,學習預測這對句子中的第二句是否為原文檔中的第二句。其中,50%的輸入是一對輸入,第二句是原文檔中的第二句,而在另外50%的輸入當中,從語料庫中隨機抽取一個句子作為第二句。

2 基于BERT模型的文本情感分類

利用BERT模型進行文本情感分類,采用12層雙向Transformer網(wǎng)絡結構預訓練和微調語言模型,使模型能夠學習單詞在不同上下文中的語義并提高對特征的融合能力,從而進行文本情感分類。

根據(jù)韓禮德系統(tǒng)功能語言學中的觀點,語法隱喻可分為概念隱喻、人際隱喻和語篇隱喻。語法隱喻中的人際隱喻又可以分為語氣隱喻和情態(tài)隱喻。范文芳(2000:29)指出:“通常情況下,語氣系統(tǒng)中用于體現(xiàn)陳述的是陳述語氣,體現(xiàn)疑問的是疑問語氣,體現(xiàn)命令的是祈使語氣。但在語言的使用中,語法類型和語義類型之間并非簡單的一一對應關系。一種言語功能可以用幾種不同的語氣來體現(xiàn),即從一個語氣域到另一個語氣域的轉換。”

2.1 BERT模型的輸入

BERT模型的輸入編碼向量是詞塊、位置和分割等3個嵌入特征的單位和。詞塊嵌入是將單詞劃分成一組有限的公共子詞單元,在單詞的有效性和字符的靈活性之間取折中平衡;位置嵌入是將單詞的位置信息編碼成特征向量,以此向模型中引入單詞位置關系;分割嵌入用于區(qū)分兩個句子,對于句子對,第一個句子的特征值為0,第二個句子的特征值為1。BERT模型的結構如圖3所示。其中“CLS”表示該特征用于分類模型;“SEP”表示分句符號,用于斷開輸入語料中的兩個句子。

圖3 BERT模型的輸入特征

2.2 文本情感分類方法

BERT模型采用多層雙向Transformer結構,能夠有效解決長期依賴問題,并能更徹底地捕捉語句中的雙向關系。同時采用掩蓋的語言模型進行預訓練,使模型能夠學習到融合了上下文信息的表征,提高模型對特征的融合能力。因此,基于BERT的文本情感分類方法首先在大型通用語料庫上利用BERT模型進行無監(jiān)督的訓練,得到預訓練語言模型;其次在預訓練語言模型的輸出層之上加一層softmax網(wǎng)絡,在文本情感分類的任務語料上對模型進行微調;最后利用該模型進行文本情感分類。

基于BERT的文本情感分類方法主要分為輸入層、隱含層和輸出層等3個部分,其結構如圖4所示。

首先對礦石樣品進行X射線熒光光譜分析,根據(jù)分析結果,篩選銣、鈮、鉭以及其他含量較高的主要元素進行了化學分析,分析結果見表1。由表可知,礦石中達到礦產資源工業(yè)利用品位的僅有銣,鈮鉭僅達到邊界品位,其他元素均不具有工業(yè)利用價值,所以本次工作主要針對銣的賦存狀態(tài)進行研究。

圖4 基于BERT的文本情感分類方法的結構

1.2.1 掩蓋的語言模型

得到模型在“CLS”位置輸出的文本特征向量C后,為了得到情感類別的預測值,使用softmax函數(shù)進行情感分類,得到測試文本的情感分布為

育苗階段是水稻生長過程中最為重要的階段,需要對其精細的管理,首先需要對種子的生長狀態(tài)進行細心觀察,并將生長質量高的植株作為栽植的首選,選擇生長質量較好的植株栽植,能夠在較大程度上提高水稻種植質量。此外,在育苗階段還需要保證土壤的疏松柔軟,使幼苗在生長過程中充分呼吸,并且根部生長更好。除此之外,還需要把握好澆水與施肥用量,這在較大程度上可避免病害的發(fā)生。

(4)

C′=CWT。

式中:Y表示情感類別總數(shù);W為模型輸出層的權值矩陣;Py表示模型預測的文本d歸于類別y的概率,將d歸到Py最大的類別y中。

為了優(yōu)化網(wǎng)絡模型,采用Adam優(yōu)化算法[16]計算模型損失函數(shù)的梯度并更新模型參數(shù),從而達到收斂。模型采用交叉熵函數(shù)作為損失函數(shù),并加入L2正則以防模型過擬合,損失函數(shù)的計算表達式為

(5)

3 實驗與分析

3.1 實驗數(shù)據(jù)集

實驗數(shù)據(jù)集選取SST-2和Yelp14兩個數(shù)據(jù)集[17],將每個數(shù)據(jù)集按8∶1∶1的比例分為訓練集、驗證集和測試集。SST-2數(shù)據(jù)集主要針對電影評論,分為正面和負面兩種評價。Yelp14為Yelp數(shù)據(jù)庫中2014年的評論,評分等級為1星至5星,星級越高代表用戶對產品的滿意度越高。數(shù)據(jù)集分布情況如表1所示。

元祐七年(1092)三月,蘇東坡赴任揚州知府。蘇東坡來,米芾走。本來在揚州做官的米芾,奉調雍丘任縣令。蘇東坡于是做東,招待朋友,順便為米芾餞行。蘇東坡雖然官做得不是很大,但人緣極好。聽說蘇東坡請客,一時名士云集,高朋滿座。大家盡興而來,乘興而飲。米芾喝得有點高。他端著酒杯走到蘇東坡面前,問:“世人都說我是個癲子,今天我要當面問一問蘇大哥,請您來評一評,我到底是不是癲子?”(“世人皆以芾為顛,愿質之子瞻!”)

表1 數(shù)據(jù)集分布情況

3.2 實驗環(huán)境及參數(shù)設置

采用Python編程語言和TensorFlow深度學習框架,運行環(huán)境為Windows 10系統(tǒng)、Intel(R) Xeon(R) CPU E5-262 v4@ 2.10 GHz處理器,顯卡為NVIDIA Tesla P100 GPU。

利用測試數(shù)據(jù)驗證基于BERT的文本情感分類方法的分類效果,并根據(jù)結果對模型參數(shù)進行調整,最終得出最優(yōu)的模型參數(shù)。具體的參數(shù)設置如表2所示。

表2 參數(shù)設置

3.3 基準實驗及結果分析

根據(jù)精確率、準確率、召回率以及F1-score評價指標,設計兩組基準實驗驗證基于BERT的文本情感分類方法的有效性。第1組實驗對比不同詞向量模型對分類結果的影響;第2組實驗比較將BERT的輸出作為詞向量輸入到其他網(wǎng)絡模型中和直接利用BERT模型進行情感分類的分類效果。

3.3.1 不同詞向量模型的分類結果對比

分別對比“Word2vec+biLSTM”“GloVe+biLSTM”“ELMo+biLSTM”、GPT和BERT等5種詞向量模型在SST-2和Yelp14數(shù)據(jù)集上的文本情感分類效果,結果分別如表3和表4所示。其中,“Word2vec+biLSTM”表示使用Word2vec將單詞轉換為詞向量,作為biLSTM網(wǎng)絡模型的輸入特征;“GloVe+biLSTM”表示使用GloVe將單詞轉換為詞向量,作為biLSTM網(wǎng)絡模型的輸入特征;“ELMo+biLSTM”表示使用ELMo模型生成上下文相關的動態(tài)詞向量,作為biLSTM網(wǎng)絡模型的輸入特征;GPT表示使用預訓練語言模型GPT在訓練集上對模型進行微調,在模型的輸出層添加softmax層;BERT表示使用預訓練語言模型BERT在訓練集上對模型進行微調,在模型的輸出層添加softmax層。

利用SPSS 16.0軟件對49個樣點土壤的8項養(yǎng)分指標進行主成分分析,并對各土壤樣品的綜合得分以歐式距離為衡量土壤間差異大小的指標,采用類平均法進行系統(tǒng)聚類。主成分分析的主要運算步驟包括[7]:

表3 不同模型在SST-2數(shù)據(jù)集上的評價結果

表4 不同模型在Yelp14數(shù)據(jù)集上的評價結果

由表3和表4結果可以看出,“GloVe+biLSTM”比“Word2vec+biLSTM”的分類效果好,這是因為Word2vec僅考慮了上下文窗口內的局部文本信息,而GloVe在考慮上下文信息的同時還融入了全局先驗統(tǒng)計信息,能夠控制詞的相對權重。ELMo動態(tài)詞向量模型可對詞的復雜特征和詞在不同語境中的變化進行建模,相較于GloVe模型,其能夠更好地學習詞匯多義性,因此分類效果優(yōu)于GloVe模型。對比ELMo+biLSTM和GPT的結果可以看出,利用深度Transformer語言模型進行預訓練和微調,得到的分類結果要優(yōu)于雙向LSTM語言模型,原因在于Transformer模型能夠有效解決長期依賴問題,并且它對特征的提取能力比LSTM更強。而BERT模型利用雙向Transformer模型能更徹底地捕捉語句中的雙向關系,對特征的融合能力更強,在兩個數(shù)據(jù)集上都得到了最好的分類效果,準確率比GPT模型分別提高了1.8%和1.4%,因此,基于BERT的文本情感分類方法更適合文本情感分類。

3.3.2 不同分類模型的分類結果對比

分別對比“BERT+SVM”“BERT+CNN”“BERT+biLSTM”和BERT等4種分類模型在SST-2和Yelp14數(shù)據(jù)集上的文本情感分類效果,結果分別如表5和表6所示。其中,“BERT+SVM”表示將BERT網(wǎng)絡模型的輸出作為詞向量特征,輸入到SVM分類模型中;“BERT+CN”表示將BERT網(wǎng)絡模型的輸出作為詞向量特征,輸入到CNN分類模型中;“BERT+biLSTM”表示將BERT網(wǎng)絡模型的輸出作為詞向量特征,輸入到biLSTM分類模型中;BERT表示使用預訓練語言模型Bert在訓練集上對模型進行微調,在模型的輸出層之上添加softmax層進行文本情感分類。

表5 在SST-2數(shù)據(jù)集上的評價結果

表6 在Yelp14數(shù)據(jù)集上的評價結果

由表5和表6的結果可以看出,基于CNN分類模型的分類效果優(yōu)于傳統(tǒng)機器學習分類模型的分類效果,因為CNN是深層網(wǎng)絡模型,對特征的學習和抽象能力更強。biLSTM網(wǎng)絡考慮了上下文關聯(lián),相比于CNN網(wǎng)絡來說可更好地捕捉雙向語義依賴,分類效果更好。而對比BERT+biLSTM和BERT的結果能夠得出,直接利用BERT預訓練模型在訓練集上進行微調,比將BERT模型的輸出作為詞向量輸入到其他模型中得到的分類效果要好,更適用于文本情感分類。

3.4 不同參數(shù)設置對分類效果的影響

基于BERT的文本情感分類方法在SST-2數(shù)據(jù)集上訓練時,其他參數(shù)設置不變,當參數(shù)batch_size和12Reg_lambda設置不同時,對模型文本情感分類準確率的影響結果分別如表7和表8所示。

表7 batch_size對分類準確率的影響結果

從表7可以看出,當batch_size較小時,模型的分類準確率相對較低,這是因為batch_size太小,即一次訓練選取的樣本數(shù)過少會引入較大的隨機性,使模型計算得到的梯度值差別較大,進而導致網(wǎng)絡難以收斂,分類準確率較低。隨著batch_size的增大,使得梯度下降方向變得越來越準確,從而模型分類準確率也得到提升。但當batch_size過大時,模型分類準確率又會出現(xiàn)小幅度的下降,這是因為batch_size增大到一定程度時,梯度已經非常準確,不會再得到提升,但會減少單個循環(huán)中的迭代次數(shù),導致參數(shù)的調整速率變慢,從而影響到模型的分類效果。如果模型要得到相同的分類準確率,則需要增大循環(huán)次數(shù)。

表8 12Reg_lambda對分類準確率的影響結果

從表8可以看出,當L2正則化系數(shù)l2Reg_lambda較大時,其對模型中較大的權值的懲罰程度不夠,導致模型產生過擬合,沒有很好的泛化能力,進而影響到模型分類的準確率。隨著l2Reg_lambda的減小,對較大權值的懲罰力度變大,能夠有效地防止模型過擬合,使模型的分類性能得到了提升。但當l2Reg_lambda過小時,其對較大權值的懲罰過大,會讓模型失去一些重要的特征,產生欠擬合,導致模型的分類準確率降低。因此,參數(shù)batch_size和12Reg_lambda的設置應根據(jù)模型的分類結果進行適當?shù)恼{整,不應設置的過大或過小,否則會影響模型的分類效果。

4 結語

基于BERT的文本情感分類方法在預訓練好的BERT語言模型的輸出層之上添加一層softmax層,利用訓練數(shù)據(jù)集對模型進行微調,最后進行情感分類。實驗結果表明,該方法具有較好的分類效果,雙向Transformer模型能夠更好地學習單詞在不同上下文中的詞匯多義性,并提高模型對特征的融合能力。

门头沟区| 昆山市| 阿坝县| 垣曲县| 宜黄县| 扬州市| 威远县| 漠河县| 隆德县| 平顶山市| 正蓝旗| 双峰县| 高雄市| 喀喇沁旗| 绥宁县| 萨迦县| 河间市| 临城县| 石楼县| 平潭县| 孝感市| 东明县| 江都市| 曲阳县| 花莲市| 灌阳县| 石城县| 司法| 遂溪县| 包头市| 静宁县| 宁河县| 诸城市| 论坛| 赣州市| 桂林市| 基隆市| 喀什市| 万荣县| 张家口市| 宽城|