国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

HRTNSC: 基于混合表示的藏文新聞主客觀句子分類模型

2022-02-03 13:12孔春偉呂學(xué)強(qiáng)
中文信息學(xué)報 2022年12期
關(guān)鍵詞:主客觀藏文音節(jié)

孔春偉,呂學(xué)強(qiáng),張 樂

(1. 青海師范大學(xué) 計算機(jī)學(xué)院,青海 西寧 810008;2. 北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101)

0 引言

主客觀文本分類,是分析文本表達(dá)的觀點(diǎn)、產(chǎn)品、服務(wù)、事件、主題及其屬性主客觀性的研究領(lǐng)域,一般通過理解文本內(nèi)容判斷其主客觀性,文本分析技術(shù)是主要的研究方法。主客觀文本分類本質(zhì)上是基于語義的分類任務(wù),目的在于將文本劃分為表達(dá)對人物、產(chǎn)品、事件的想法、看法的主觀文本,以及基于事實(shí)描述服務(wù)、事件、對象的客觀文本[1]。主客觀文本分類是文本情感分析的上游任務(wù),通過挖掘文本的主客觀信息,可以提高文本情感分析的針對性。但是隨著文本規(guī)模的急劇膨脹,僅靠人工已經(jīng)難以完成主客觀文本分類工作。因此,使用計算機(jī)進(jìn)行高效、準(zhǔn)確的主客觀文本分類具有重要的價值。

進(jìn)入大數(shù)據(jù)時代,藏文官方新聞也爆炸式、多樣式增長,信息過載現(xiàn)象嚴(yán)重,快速從繁雜的藏文官方新聞中獲得所需信息成為了一種重要需求[2]。藏文官方新聞數(shù)據(jù)中蘊(yùn)含大量體現(xiàn)國家意志的領(lǐng)導(dǎo)人講話、事件評論、紀(jì)念賀詞等評論信息,主動挖掘評論信息的主觀傾向,是落實(shí)國家意志、踐行為民服務(wù)理念的具體行動,是引導(dǎo)藏區(qū)群眾樹立良好社會風(fēng)氣、維護(hù)和諧穩(wěn)定發(fā)展環(huán)境的必然要求。

針對上述需求,本文以藏文新聞文本數(shù)據(jù)為研究對象,提出基于混合表示的藏文新聞主客觀句子分類模型。首先,根據(jù)特征粒度的不同,將特征分為音節(jié)級特征、包含當(dāng)前音節(jié)的單詞級特征。音節(jié)級特征采用Word2Vec向量、BERT向量表示。在單詞級特征獲取過程中,通過單詞特征提取方法獲得音節(jié)的BMES單詞集合,應(yīng)用注意力機(jī)制計算BMES集合中單詞向量的權(quán)重,通過加權(quán)求和BMES集合中單詞向量并拼接加權(quán)求和結(jié)果,獲得音節(jié)的單詞級特征。其次,將音節(jié)級特征向量和單詞級特征向量拼接后輸入到BiLSTM+CNN網(wǎng)絡(luò)進(jìn)行語義提取。最后,采用Softmax分類器實(shí)現(xiàn)句子的主客觀分類。同時,分析音節(jié)和單詞的不同特征組合對主客觀句子分類性能的影響,探索出最優(yōu)的特征組合。測試結(jié)果表明,HRTNSC模型在Word2Vec向量+BERT向量+注意力機(jī)制加權(quán)的單詞特征向量組合下F1值達(dá)到90.84%,表現(xiàn)出了較好的分類效果。

本文的貢獻(xiàn)歸納如下:

(1) 提出了基于混合表示的藏文新聞主客觀句子分類模型HRTNSC,采用音節(jié)級特征融合單詞級特征方式,增強(qiáng)序列語義理解,通過特征提取和分類網(wǎng)絡(luò)實(shí)現(xiàn)藏文新聞主客觀句子分類。

(2) 提出了藏文音節(jié)序列的詞嵌入表征方法,通過融合Word2Vec音節(jié)向量、BERT音節(jié)向量、單詞向量得到特征表達(dá)充分的序列向量,分類效果優(yōu)于音節(jié)向量,實(shí)驗(yàn)證明了特征融合對藏文新聞主客觀句子分類的有效性。

(3) 提出了單詞向量靜態(tài)加權(quán)與動態(tài)加權(quán)方式,分析兩種加權(quán)方式對藏文新聞主客觀句子分類性能的影響,實(shí)驗(yàn)證明了動態(tài)加權(quán)方式比靜態(tài)加權(quán)方式更加有效。

1 相關(guān)工作

當(dāng)前主客觀文本分類的研究主要分為三種方法: 基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。基于規(guī)則的方法[3]通常要求人工編寫分類規(guī)則,根據(jù)滿足的規(guī)則條件,輸出主客觀類別。例如,張曉梅等[4]通過組合特征選擇方法,融合內(nèi)容、單詞信息,得到主客觀分類特征。在新浪微博數(shù)據(jù)集上測試結(jié)果證明,特征融合算法的分類效果優(yōu)于單一特征選擇方法,其F1值達(dá)到69.35%?;谝?guī)則的方法具有分類準(zhǔn)確、易于理解、直觀高效等優(yōu)勢,不足之處是分類規(guī)則的編寫需要消耗大量的時間與人力,有時由于背景知識的匱乏或者文本表達(dá)的多樣性,存在規(guī)則無法覆蓋全部語言現(xiàn)象的問題。此外,規(guī)則的方法忽略了文本的上下文語義信息,無法從語義理解的角度解釋分類問題。

基于機(jī)器學(xué)習(xí)的方法[5-6]通過預(yù)先標(biāo)注的數(shù)據(jù)獲取文本的詞匯、句法、語義等特征,然后構(gòu)造分類器(如支持向量機(jī)[7-8]、條件隨機(jī)場[9]、樸素貝葉斯[10-12]等)實(shí)現(xiàn)分類。例如,張樂[13]通過獲取文本的語義、語法和符號特征,選用不同的特征組合,運(yùn)用樸素貝葉斯分類器完成主客觀分類。分類效果證明,結(jié)合上述三類特征可獲得較好的分類性能,其F1值達(dá)到84.20%。基于機(jī)器學(xué)習(xí)的方法擅長小樣本數(shù)據(jù)集的分類,其在具體應(yīng)用中可大幅度降低規(guī)則的使用。缺點(diǎn)是文本特征的提取耗時耗力,且特征提取的優(yōu)劣嚴(yán)重影響分類效果,特征提取過程中大量自然語言處理工具的使用,會引入新的錯誤。

近年來,神經(jīng)網(wǎng)絡(luò)在語音、圖像等領(lǐng)域的成功應(yīng)用,為文本主客觀分類任務(wù)采用基于深度學(xué)習(xí)的方法開展研究提供了一種新思路[14]。例如,王劍等[15]提出在BiLSTM(Bi-directional Long-short Memory Neural Network)網(wǎng)絡(luò)中融入關(guān)聯(lián)特征的漢越雙語主觀句識別方法。首先利用漢越雙語句子的情感和事件要素構(gòu)建關(guān)聯(lián)圖,并采用TextRank算法獲得句子關(guān)聯(lián)特征,然后通過BiLSTM網(wǎng)絡(luò)將漢越雙語文本映射到同一語義空間,最后融合句子關(guān)聯(lián)特征和編碼特征,通過分類網(wǎng)絡(luò)實(shí)現(xiàn)主觀句識別。

注意力機(jī)制是自然語言處理領(lǐng)域引入的一個重要概念,其核心是對觀察到的數(shù)據(jù)分配權(quán)重,通過權(quán)重分配達(dá)到提取文本核心語義信息的目的。Bahdanau等[16]率先在機(jī)器翻譯領(lǐng)域應(yīng)用注意力機(jī)制,其后,黃彪[17]將注意力機(jī)制和神經(jīng)網(wǎng)絡(luò)結(jié)合,開展主客觀文本分類研究。林思琦等[18]提出融合多特征的漢越雙語主觀句識別方法;首先,針對漢語和越語標(biāo)注語料不平衡的問題,構(gòu)建漢越雙語詞向量模型,采用漢文標(biāo)注資源補(bǔ)充越語標(biāo)注資源的不足;其次,在詞向量和注意力機(jī)制中分別融入句子的主題、位置和情感特征,實(shí)現(xiàn)句子語義信息與上述特征的結(jié)合。測試表明,上述方法能有效地檢測出越語主觀句,準(zhǔn)確率達(dá)到了64.50%。

使用深度學(xué)習(xí)進(jìn)行主客觀文本分類,除需要選擇合適的神經(jīng)網(wǎng)絡(luò)分類模型之外,獲得合適的詞向量表示同樣十分重要。詞語的表征最早使用one-hot、bag-of-words等離散表示,后來基于神經(jīng)網(wǎng)絡(luò)的詞嵌入方法被用來生成詞語的緊致連續(xù)表示,代表方法有Word2Vec[19]和GloVe[20]。由于此類方法不需要先驗(yàn)知識,只需提供文本語料就能訓(xùn)練出有效的語義表示,因此逐漸成為主流。

基于現(xiàn)代藏文文法,參考英文和漢文句子的識別及分類成果,對藏文句子的識別及分類方法進(jìn)行了研究,為藏文句子的自動識別及分類提供了理論依據(jù)。當(dāng)前,針對藏文句子自動識別及分類的研究只見數(shù)篇零散的文獻(xiàn)報道。柔特等[21]研究了基于循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的藏文句類分類模型,該模型在陳述句、疑問句、祈使句、感嘆句分類任務(wù)上取得了較好的分類效果。Ban等[22]研究了基于短語特征的藏文疑問句分類模型,分類準(zhǔn)確率達(dá)到了96.98%。然而,針對藏文句子主客觀分類任務(wù)的研究目前未見相關(guān)文獻(xiàn) 。

2 藏文新聞主客觀句子分類模型(1)https://gitee.com/wellkong112/tibetan-soclassify.git

模型首先對爬取的藏文新聞文本進(jìn)行預(yù)處理,然后把按音節(jié)和單詞切分的文本映射成向量表示,把音節(jié)級特征向量和利用注意力機(jī)制獲得的單詞級特征向量拼接起來,并將拼接后的向量輸入到BiLSTM+CNN網(wǎng)絡(luò)進(jìn)行語義提取。最后通過全連接層和分類層實(shí)現(xiàn)藏文新聞句子的主客觀分類,其模型結(jié)構(gòu)圖如圖1所示。

圖1 混合表示的藏文新聞主客觀句子分類模型結(jié)構(gòu)圖

2.1 預(yù)處理

2.1.1 刪除非藏文字符

由于藏文文本中含有一定數(shù)量的阿拉伯?dāng)?shù)字、英文字母、中英文標(biāo)點(diǎn)符號等非藏文字符,但模型輸入需為純藏文字符,因此需將文本數(shù)據(jù)中非藏文字符全部刪除。

2.1.2 藏文分詞

藏文沒有空格等形式的自然分隔符,但本文研究涉及藏文單詞的語義理解,因此在預(yù)處理環(huán)節(jié)需對文本進(jìn)行分詞處理,本文采用青海師范大學(xué)Tibetan_sgm_utf[23]藏文分詞器實(shí)現(xiàn)分詞,其在封閉數(shù)據(jù)集上的分詞正確率可達(dá)到95.70%。

2.1.3 藏文音節(jié)切分

為了緩解藏文分詞操作對主客觀分類任務(wù)的影響,本文采用音節(jié)作為模型的輸入單元,因此預(yù)處理操作需根據(jù)音節(jié)分隔符完成對藏文文本的切分。

2.2 網(wǎng)絡(luò)結(jié)構(gòu)

2.2.1 嵌入層

模型在嵌入層將預(yù)處理的文本以向量形式表示,具體通過Word2Vec框架和BERT預(yù)訓(xùn)練模型[24-25]轉(zhuǎn)化成文本特征為恒定維數(shù)的緊密向量,然后運(yùn)用拼接的方法融合音節(jié)級特征向量和單詞級特征向量,進(jìn)而獲得輸入語義學(xué)習(xí)層的向量。

(1) 音節(jié)級特征

其中,es表示使用Word2Vec框架訓(xùn)練得到的音節(jié)向量查找表。BERT表示BERT預(yù)訓(xùn)練模型音節(jié)向量查找表。

(2) 單詞級特征

通過分析發(fā)現(xiàn),音節(jié)級特征融入單詞級特征,將有益于提升模型的分類效果。本文在嵌入層實(shí)現(xiàn)音節(jié)級特征和單詞級特征的融合,音節(jié)的單詞級特征定義為包含當(dāng)前音節(jié)的單詞集合的特征,集合中單詞的獲取通過詞表L實(shí)現(xiàn)。詞表L約定為本文藏文新聞熱點(diǎn)事件句子原始語料分詞結(jié)果去重后得到的單詞列表。

音節(jié)的單詞特征提取方法描述如下: 首先,運(yùn)用詞表得到藏文音節(jié)序列中所有的單詞;然后,根據(jù)音節(jié)出現(xiàn)在某個單詞的開頭、中間、結(jié)尾和音節(jié)本身單獨(dú)成詞四種情形,分別將單詞加入B、M、E、S單詞集合。如果BMES集合中不存在匹配單詞,則填充None標(biāo)識?;贐MES的單詞特征提取方法示意圖如圖2所示。

圖2 基于BMES的單詞特征提取方法示意圖

在獲得音節(jié)對應(yīng)的單詞后,音節(jié)si的四個單詞集合表示如式(3)~式(6)所示。

其中,L為本文所用詞表。

在得到音節(jié)的BMES單詞集合后,接下來加權(quán)求和單詞向量,即可得到單詞集合向量。為了得到合理的單詞集合向量,本文分別探索靜態(tài)單詞向量加權(quán)方式和動態(tài)單詞向量加權(quán)方式。兩種加權(quán)方式的性能對比如表4所示。

靜態(tài)加權(quán)方式采用單詞詞頻表示單詞向量權(quán)重。單詞w的靜態(tài)加權(quán)方式如式(7)、式(8)所示。

其中,Vw(B∪M∪E∪S)是單詞w的靜態(tài)加權(quán)表示,z(w)是單詞w在詞表L中的詞頻,Z是B∪M∪E∪S集合中所有單詞在詞表L中的詞頻之和。ew(w)是單詞w在向量查找表ew中的詞向量。上述方法中,由于詞表L固定,因此,單詞詞頻為靜態(tài)值,可以離線獲取,且當(dāng)單詞w被詞表中另一個單詞覆蓋時其頻率不會增加,這可大大加快單詞權(quán)重的計算效率。

(9)

(10)

(11)

其中,n表示藏文句子序列O中的音節(jié)個數(shù),Wo,bo為訓(xùn)練參數(shù)。

其次,計算BMES單詞集合中單詞的向量表示,本文僅給出單詞集合M中單詞向量的獲取方法,集合B、E、S的單詞向量可類比表示。集合M中第j個單詞的向量xj計算如式(12)所示。

xj=ew(wj),wj∈M

(12)

其中,ew表示運(yùn)用Word2Vec框架訓(xùn)練獲得的單詞向量查找表。

接下來,計算集合M中單詞與藏文句子序列O的語義關(guān)聯(lián)程度。集合M中第j個單詞與藏文句子序列O的語義關(guān)聯(lián)程度aj,O計算方法如式(13)所示。

(13)

其中,m表示集合M中的單詞個數(shù)?!辄c(diǎn)乘運(yùn)算,用于計算向量內(nèi)積。

最后,加權(quán)求和集合M中的單詞向量得到集合向量VM,VM計算方法如式(14)所示。

(14)

(15)

其中,VB(si)、VM(si)、VE(si)、VS(si)分別表示音節(jié)i的單詞集合B、M、E、S的向量。

將音節(jié)的單詞級特征向量融合至對應(yīng)的音節(jié)級向量,獲得融合后的向量為xi,xi計算方法如式(16)所示。

(16)

2.2.2 語義學(xué)習(xí)層

將上述嵌入層獲得的融合向量輸入至語義學(xué)習(xí)層進(jìn)行特征提取,語義學(xué)習(xí)層由BiLSTM+CNN兩重網(wǎng)絡(luò)構(gòu)成,下面對BiLSTM網(wǎng)絡(luò)和CNN(Convolution Neural Network,CNN)網(wǎng)絡(luò)分別進(jìn)行介紹。

(1) BiLSTM網(wǎng)絡(luò)

藏文的音節(jié)之間存在時序關(guān)系,為了學(xué)習(xí)音節(jié)的語義依賴,本文采用BiLSTM作為語義學(xué)習(xí)層的第一重特征提取網(wǎng)絡(luò)。BiLSTM由正反兩個LSTM(Long-short Memory Neural Network,LSTM)網(wǎng)絡(luò)構(gòu)成,實(shí)現(xiàn)從正反兩個方向提取序列的詞匯、語義信息,進(jìn)而達(dá)到提高藏文新聞主客觀句子分類效果的目的。

下面對正向LSTM網(wǎng)絡(luò)的特征提取過程進(jìn)行定義,如式(17)、式(18)所示。

其中,X表示t時刻的輸入,如式(19)所示,wc,bc為模型參數(shù)。it、ft、ot分別代表輸入門、遺忘門、輸出門的激活值,如式(19)~式(22)所示,σ表示Sigmoid函數(shù)。

(2) CNN網(wǎng)絡(luò)

在文本特征提取領(lǐng)域,CNN因稀疏交互、參數(shù)共享、計算高效等優(yōu)點(diǎn)被廣泛應(yīng)用。本文選用CNN作為語義學(xué)習(xí)層的第二重特征提取網(wǎng)絡(luò),CNN網(wǎng)絡(luò)主要包含卷積和池化兩種操作。采用多個卷積核與BiLSTM網(wǎng)絡(luò)的輸出進(jìn)行卷積計算,通過卷積網(wǎng)絡(luò)自動挖掘音節(jié)序列的深層特征,再將卷積結(jié)果拼接,得到CNN網(wǎng)絡(luò)的輸出。

卷積過程中特征音節(jié)mi的計算如式(23)所示。

mi=f(w·xi:i +h -1+b)

(23)

其中,f是非線性激活函數(shù),b為偏置參數(shù),w是卷積核權(quán)重,xi:i+h-1為音節(jié)向量矩陣,h為卷積核感受野大小。

包含l個音節(jié)的句子序列{x1:h,x2:h,…,xl-h+1:h}經(jīng)過卷積處理后得到特征圖M,M計算如式(24)所示。

M=[m1,m2,…,ml-h+1]

(24)

(25)

拼接最大池化結(jié)果,得到池化后的輸出h,其計算如式(26)所示。

(26)

其中,k為卷積核個數(shù)。

2.2.3 分類層

分類層將語義學(xué)習(xí)層提取的特征放入分類器進(jìn)行擬合和測試。擬合過程中將特征和類別傳入網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),當(dāng)訓(xùn)練數(shù)據(jù)全部擬合完畢,使用測試數(shù)據(jù)對擬合好的模型進(jìn)行檢驗(yàn)。本文將前一層得到的藏文新聞句子的最終表示h,通過全連接網(wǎng)絡(luò)輸入至Softmax分類模塊,經(jīng)分類得到最終的類別。分類計算如式(27)所示。

Y=softmax(Wh+b)

(27)

其中,Y代表分類層輸出,表示文本屬于主觀文本、客觀文本的概率。W∈Rd×2為網(wǎng)絡(luò)權(quán)重矩陣,b∈R2為網(wǎng)絡(luò)偏置。

采用交叉熵?fù)p失函數(shù)衡量真實(shí)分布和預(yù)測分布之間的差距,利用反向傳播方式對模型中的參數(shù)進(jìn)行更新。交叉熵?fù)p失函數(shù)如式(28)所示。

(28)

其中,D為訓(xùn)練數(shù)據(jù)集大小,j表示分類類別,YPi,j表示第i個樣本對應(yīng)第j個類別的期望輸出概率,Yi,j表示第i個樣本對應(yīng)第j個類別的模型實(shí)際輸出概率。在模型訓(xùn)練過程中,采用Dropout方法隨機(jī)控制網(wǎng)絡(luò)中部分隱層節(jié)點(diǎn)停止工作,防止模型過擬合。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

在藏文新聞主客觀句子分類領(lǐng)域,尚無公開的測試數(shù)據(jù)集。本文通過網(wǎng)絡(luò)爬蟲抓取并經(jīng)預(yù)處理整理出2020年8月至2021年8月,在人民網(wǎng)藏文、中國西藏網(wǎng)、中國西藏新聞網(wǎng)、中國藏族網(wǎng)通、青海藏語網(wǎng)絡(luò)廣播電視臺中的原始藏文新聞熱點(diǎn)事件句子60 000條。定義熱點(diǎn)事件為持續(xù)在同一網(wǎng)站報道或者在不同網(wǎng)站多次報道的新聞事件,例如同時在上述五家藏文網(wǎng)站報道的“習(xí)近平視察海軍陸戰(zhàn)部隊(duì)”“習(xí)近平祝賀‘?dāng)[脫貧困、政黨責(zé)任’國際學(xué)術(shù)研討會召開”“深圳經(jīng)濟(jì)特區(qū)建立四十周年慶祝大會舉行”等事件。采用人工方式從原始數(shù)據(jù)中抽取出5 000條主觀句子和5 000條客觀句子進(jìn)行標(biāo)注作為實(shí)驗(yàn)數(shù)據(jù)集,Word2Vec向量直接通過原始數(shù)據(jù)訓(xùn)練獲得,BERT音節(jié)向量采用BERT-BOD預(yù)訓(xùn)練模型得到[24]。

3.2 評價指標(biāo)

為了評價基于混合表示的藏文新聞主客觀句子分類模型的有效性,本文選用正確率(Precision,P)、召回率(Recall,R)和F1值作為性能評價指標(biāo),具體如式(29)~式(31)所示。

其中,TP為正確分類的主觀句子數(shù),F(xiàn)P為錯誤分類的主觀句子數(shù),F(xiàn)N為錯誤分類的客觀句子數(shù)。

3.3 實(shí)驗(yàn)參數(shù)設(shè)置

為了有效開展實(shí)驗(yàn),本文運(yùn)用Gensim工具獲得Word2Vec向量,設(shè)置上下文窗口尺寸為5,向量維度為50,最小出現(xiàn)頻次為1,其余參數(shù)均為默認(rèn)值。在訓(xùn)練模型時,固定上述參數(shù)且凍結(jié)Word2Vec向量查找表。模型的輸入以每批次中最長句子為基準(zhǔn),同一批次中其余句子通過標(biāo)識符填充。參數(shù)采用Adamax優(yōu)化,模型的其余超參數(shù)設(shè)置如表1所示。

表1 模型超參數(shù)

3.4 對比實(shí)驗(yàn)設(shè)置

為了驗(yàn)證HRTNSC模型的優(yōu)勢,本文從兩個維度開展對比實(shí)驗(yàn)。橫向維度上,HRTNSC模型與其他3種分類模型進(jìn)行對比測試。對比分類模型介紹如下:

基于CNN的分類模型模型輸入及特征融合與本文方法相同,然后運(yùn)用卷積、最大池化等操作學(xué)習(xí)語義特征,最后采用Softmax激勵實(shí)現(xiàn)主客觀分類。其中,設(shè)置卷積核感受野大小為3,卷積核數(shù)為300。

基于BiLSTM+ATT的分類模型模型輸入及特征融合與CNN模型相同,通過BiLSTM網(wǎng)絡(luò)學(xué)習(xí)句子時序及語義信息,運(yùn)用注意力機(jī)制加權(quán)輸出向量,最后通過Softmax分類網(wǎng)絡(luò)實(shí)現(xiàn)主客觀分類。其中,設(shè)置LSTM網(wǎng)絡(luò)隱層維數(shù)為300維。

基于Transformer的分類模型模型輸入及特征融合與CNN模型相同,采用基于多頭自注意力機(jī)制的網(wǎng)絡(luò)提取音節(jié)序列的語義特征,通過Softmax激活網(wǎng)絡(luò)實(shí)現(xiàn)主客觀分類。其中設(shè)置多頭個數(shù)為4。

縱向維度上,通過六個不同的特征組合探究音節(jié)和單詞的融合方式對主客觀句子分類性能的影響。對比實(shí)驗(yàn)的特征組合設(shè)置如表2所示。

表2 對比實(shí)驗(yàn)的特征組合

3.5 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)的模型在服務(wù)器上運(yùn)用GPU訓(xùn)練,GPU型號選用NVIDIA Tesla V100。在訓(xùn)練模型時,將標(biāo)注數(shù)據(jù)均勻切分為10份,按7∶2∶1比例分為訓(xùn)練集、驗(yàn)證集、測試集,使用交叉驗(yàn)證方法訓(xùn)練每個模型3次,最后將實(shí)驗(yàn)結(jié)果取平均值得到最終結(jié)果。

3.5.1 橫向維度實(shí)驗(yàn)結(jié)果

根據(jù)評價準(zhǔn)則,HRTNSC模型和對比模型分別采用s_w2v+s_bert+w_att特征組合在本文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表3所示。

表3 橫向維度對比實(shí)驗(yàn)結(jié)果

分析表3的實(shí)驗(yàn)結(jié)果不難發(fā)現(xiàn),HRTNSC模型在F1值上均取得了最優(yōu)性能,并且明顯高于第2好的基于CNN的分類模型,相比基于BiLSTM+ATT的分類模型,F(xiàn)1值提高了3.67%?;赥ransformer的分類模型F1值最低,僅為81.40%,這是因?yàn)椴匚男侣勚骺陀^句子分類任務(wù)中音節(jié)位置信息的引入有益于分類性能的提升。BiLSTM網(wǎng)絡(luò)由于循環(huán)運(yùn)算的結(jié)構(gòu)天然地獲得了音節(jié)序列的位置信息,而Transformer網(wǎng)絡(luò)則要運(yùn)用增加絕對位置編碼方式獲得音節(jié)序列的位置信息。由于本文實(shí)驗(yàn)的訓(xùn)練集數(shù)據(jù)規(guī)模較小,導(dǎo)致Transformer的絕對位置編碼難以準(zhǔn)確獲得音節(jié)序列位置信息,進(jìn)而導(dǎo)致分類效果的不理想。

對比基于BiLSTM+ATT的分類模型和基于CNN的分類模型可知,這兩種模型的F1值差別不大,而且基于CNN的分類模型正確率還高于基于BiLSTM+ATT的分類模型。這是因?yàn)镃NN網(wǎng)絡(luò)使用的卷積是一維卷積,類似于獲取句子中N-gram的特征表示,其重點(diǎn)關(guān)注音節(jié)序列中有利于主客觀分類的重要局部特征,重要局部特征的引入增強(qiáng)了對句子序列語義的理解,進(jìn)而提高了藏文新聞主客觀句子分類的正確率。

本文提出的HRTNSC模型采用BiLSTM+CNN的兩重特征提取網(wǎng)絡(luò)學(xué)習(xí)音節(jié)序列的語義信息。第一重網(wǎng)絡(luò)運(yùn)用BiLSTM結(jié)構(gòu)有效捕獲音節(jié)序列的位置信息,增強(qiáng)對序列語義的理解。第二重網(wǎng)絡(luò)采用CNN結(jié)構(gòu)在第一重網(wǎng)絡(luò)BiLSTM的基礎(chǔ)上,重點(diǎn)提取序列中的重要局部特征,進(jìn)一步強(qiáng)化對序列語義的理解。因此,融合基于BiLSTM+ATT的分類模型和基于CNN的分類模型優(yōu)勢的HRTNSC模型獲得了最優(yōu)性能。

3.5.2 縱向維度實(shí)驗(yàn)結(jié)果

縱向維度上,HRTNSC模型和對比模型在表2的特征組合下進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。

表4 縱向維度對比實(shí)驗(yàn)結(jié)果

通過表4將對比實(shí)驗(yàn)從縱向維度觀察,可以看出當(dāng)各模型的嵌入層特征組合僅為s_w2v時,分類結(jié)果的F1值均較低,表明特征融合擁有一定的提升空間。當(dāng)特征組合為s_w2v+s_bert時,各模型的F1值都得到一定提升,證明BERT音節(jié)向量在增強(qiáng)序列語義理解方面具有積極價值,但本實(shí)驗(yàn)中BERT音節(jié)向量的作用并不顯著,這是因?yàn)楸疚氖褂玫牟匚腂ERT預(yù)訓(xùn)練模型是一個自制的小型模型,規(guī)模偏小,性能不及當(dāng)前的中英文BERT預(yù)訓(xùn)練模型。

進(jìn)一步觀察不同特征組合下各模型的分類效果,可以看出s_w2v+s_bert+w_bmes組合下,所有模型的F1值較s_w2v+s_bert均有相對明顯的提升。分析原因可知,s_w2v+s_bert+w_bmes組合在s_w2v+s_bert的基礎(chǔ)上融入了單詞信息,單詞信息的引入增強(qiáng)了模型對句子語義的理解,進(jìn)而提升了模型的主客觀分類性能。

除去上述情況,通過圖3分析s_w2v+s_bert+w_count、s_w2v+s_bert+w_att組合下單詞向量加權(quán)方式對藏文新聞主客觀句子分類效果的影響,可以得出除基于Transformer的分類模型外,本文模型和其他對比模型在動態(tài)單詞向量加權(quán)方式下的F1值較靜態(tài)加權(quán)方式有較明顯提升。原因在于模型通過注意力機(jī)制動態(tài)表示單詞向量權(quán)重時,能夠比詞頻加權(quán)方式更加有效地增強(qiáng)影響文本主客觀分類的重點(diǎn)單詞的語義表達(dá),從而表現(xiàn)出更好的分類效果?;赥ransformer的分類模型難以在小數(shù)據(jù)集下表現(xiàn)出多頭注意力的特征提取優(yōu)勢,因此,在本文數(shù)據(jù)集下Transfomer分類模型未表現(xiàn)出與其他模型一致的特點(diǎn)。

圖3 縱向維度對比實(shí)驗(yàn)結(jié)果

s_w2v+s_bert+w_count+w_att特征組合展示了靜態(tài)加權(quán)方式和動態(tài)加權(quán)方式同時作用于單詞向量的情形,實(shí)驗(yàn)數(shù)據(jù)表明,分類結(jié)果的F1值并未疊加增長,反而表現(xiàn)出了總體低于單一加權(quán)方式的特點(diǎn),說明在藏文新聞主客觀句子分類任務(wù)中,盲目疊加單詞加權(quán)效果,有時不僅不會帶來模型性能的疊加式提升,甚至?xí)趸瘑我患訖?quán)方式的分類性能。

4 總結(jié)與展望

針對藏文新聞主客觀分類的現(xiàn)實(shí)需求,本文提出基于混合表示的藏文新聞主客觀句子分類模型。根據(jù)特征粒度的不同,將特征分為音節(jié)級特征、包含當(dāng)前音節(jié)的單詞級特征。音節(jié)級特征采用Word2Vec向量表示、BERT向量表示。計算單詞級特征時,通過特征提取算法獲得音節(jié)的BMES單詞集合,運(yùn)用注意力機(jī)制動態(tài)表示BMES集合中單詞向量權(quán)重,通過加權(quán)求和BMES集合中單詞向量并拼接加權(quán)求和結(jié)果,得到音節(jié)的單詞級特征。將音節(jié)級特征向量和單詞級特征向量融合后輸入BiLSTM+CNN網(wǎng)絡(luò)實(shí)現(xiàn)語義提取,運(yùn)用Softmax分類器得到分類結(jié)果。同時,本文分析音節(jié)和單詞的不同特征組合對主客觀句子分類效果的影響。測試結(jié)果表明,HRTNSC模型在Word2Vec向量+BERT向量+注意力機(jī)制加權(quán)的單詞特征向量組合下能夠較為有效地分類藏文新聞主客觀句子,分類效果優(yōu)于對比方法,具有一定的應(yīng)用價值。

由于HRTNSC模型采用的BiLSTM+CNN特征提取網(wǎng)絡(luò)已經(jīng)較為常見,未來工作中,我們將嘗試對HRTNSC模型本身進(jìn)行一定程度的改良與創(chuàng)新,進(jìn)一步增強(qiáng)是語義學(xué)習(xí)能力,進(jìn)而提升藏文新聞主客觀句子的分類性能。

猜你喜歡
主客觀藏文音節(jié)
基于主客觀評價的減振器異響問題規(guī)避方法
敦煌本藏文算書九九表再探
西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
拼拼 讀讀 寫寫
黑水城和額濟(jì)納出土藏文文獻(xiàn)簡介
基于條件隨機(jī)場的藏文人名識別研究
看音節(jié)說句子
Outdoor air pollution as a possible modifiable risk factor to reduce mortality in post-stroke population
特大型高鐵車站高架候車廳聲環(huán)境主客觀評價研究
木管樂器“音節(jié)練習(xí)法”初探
楚雄市| 黄龙县| 玛沁县| 泾阳县| 高陵县| 宿州市| 台北县| 横峰县| 麦盖提县| 霸州市| 钦州市| 博乐市| 新乡市| 夏河县| 靖江市| 乐山市| 凤庆县| 苏州市| 东宁县| 涞水县| 黑河市| 大名县| 报价| 乌鲁木齐市| 平山县| 榆林市| 伊川县| 泊头市| 美姑县| 武汉市| 同江市| 乐至县| 阿巴嘎旗| 峨山| 广丰县| 靖宇县| 湾仔区| 泽州县| 寿宁县| 鹰潭市| 鄱阳县|