謝宇欣 肖克晶 曹少中 張寒 姜丹
收稿日期:2023-08-24
基金項(xiàng)目:基于深度學(xué)習(xí)的虛假新聞檢測(cè)關(guān)鍵技術(shù)研究(27170123034)
DOI:10.19850/j.cnki.2096-4706.2024.07.029
摘? 要:為了促進(jìn)旅游行業(yè)的消費(fèi)和經(jīng)濟(jì)發(fā)展,對(duì)游客在線(xiàn)上平臺(tái)發(fā)表的景區(qū)評(píng)論文本進(jìn)行分析,深入挖掘其中的細(xì)粒度情感信息,以更好地迎合游客的偏好。在實(shí)際場(chǎng)景中,一個(gè)句子會(huì)涉及多個(gè)實(shí)體詞,致使難以準(zhǔn)確識(shí)別它們對(duì)應(yīng)的情感屬性關(guān)系;且旅游場(chǎng)景下的數(shù)據(jù)集存在稀缺和樣本不平衡問(wèn)題。由此構(gòu)建了基于深度學(xué)習(xí)和提示知識(shí)的預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)構(gòu)建離散提示模板聯(lián)合訓(xùn)練兩個(gè)子任務(wù),并對(duì)數(shù)據(jù)集中的少數(shù)樣本進(jìn)行了數(shù)據(jù)增強(qiáng)處理,同時(shí)在訓(xùn)練階段為損失函數(shù)設(shè)置不同的權(quán)重。實(shí)驗(yàn)結(jié)果顯示,模型在旅游評(píng)論文本數(shù)據(jù)集和公開(kāi)數(shù)據(jù)集SemEval2014_Restaruant上取得了顯著效果,F(xiàn)1值分別達(dá)到了80.81%和83.71%,有助于旅游機(jī)構(gòu)實(shí)現(xiàn)對(duì)每個(gè)城市景點(diǎn)的個(gè)性化分析。
關(guān)鍵詞:語(yǔ)言模型;提示學(xué)習(xí);方面級(jí)情感分析;預(yù)訓(xùn)練模型
中圖分類(lèi)號(hào):TP391.1;TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)07-0141-06
Aspect-based Sentiment Analysis Research of Tourism Review Text Based on
Pre-trained Language Models
XIE Yuxin, XIAO Kejing, CAO Shaozhong, ZHANG Han, JIANG Dan
(Beijing Institute of Graphic Communication, Beijing? 102600, China)
Abstract: In order to promote consumption in the tourism industry and economic development, we analyze the scenic spot comment texts published by tourists on online platforms, and deeply explore the fine-grained emotional information in them, in order to better cater to the preferences of tourists. In actual scenarios, a sentence may involve multiple entity words, making it difficult to accurately identify their corresponding emotional attribute relationships. Moreover, there are issues of scarcity and imbalanced samples in the dataset of tourism scenarios. A pre-trained language model based on Deep Learning and prompt knowledge is constructed. Two sub tasks are jointly trained by constructing a discrete prompt template, and data augmentation is performed on a few samples in the dataset. At the same time, different weights are set for the loss function during the training phase. The experimental results show that the model has achieved significant results on the tourism review text dataset and the public dataset SemEval2014-Restarantt, with F1 values reaching 80.81% and 83.71%, respectively, which helps tourism institutions to achieve personalized analysis of each city's scenic spots.
Keywords: language model; prompt learning; aspect-based sentiment analysis; pre-trained model
0? 引? 言
隨著國(guó)內(nèi)旅游市場(chǎng)逐步放開(kāi),國(guó)內(nèi)旅游市場(chǎng)在短時(shí)間內(nèi)已經(jīng)迅速?gòu)?fù)蘇。因此,如何挖掘城市熱點(diǎn)并吸引游客成為各地旅游機(jī)構(gòu)的首要任務(wù)。對(duì)游客在線(xiàn)上平臺(tái)發(fā)表的觀(guān)點(diǎn)和評(píng)論文本,進(jìn)一步進(jìn)行文本情感分析是非常必要的,這不僅可以幫助各級(jí)旅游部門(mén)和市場(chǎng)主體對(duì)旅游產(chǎn)業(yè)進(jìn)行合理規(guī)劃,還能更好地推進(jìn)旅游目的地建設(shè)。傳統(tǒng)的文本情感分析研究主要是對(duì)句子級(jí)和篇章級(jí)進(jìn)行情感預(yù)測(cè),即識(shí)別整個(gè)句子或文檔的整體情感極性。在預(yù)測(cè)過(guò)程中,通常假設(shè)在給定的文本中只對(duì)單個(gè)實(shí)體表達(dá)了唯一的情感,然而在實(shí)際應(yīng)用中可能并非如此。辨別更加細(xì)致的方面級(jí)意見(jiàn)和情感需求,即方面級(jí)情感分析(Aspect-Based Sentiment Analysis, ABSA),在實(shí)際應(yīng)用中具有更大的意義。2000年初,Hu [1]等人建立了基于規(guī)則的細(xì)粒度情感分析模型,推動(dòng)了該領(lǐng)域技術(shù)方法的發(fā)展;2010年Thet [2]等人明確定義了方面級(jí)情感分析(ABSA)的概念,并將評(píng)論對(duì)象“方面”定義為實(shí)體的屬性或組成部分;2012年Liu [3]等人進(jìn)一步明確給出了觀(guān)點(diǎn)的定義:“從相關(guān)文本中識(shí)別出文本項(xiàng)(text item)的情感元素,可以是單個(gè)或多個(gè)情感元素,它們之間存在依賴(lài)關(guān)系”,這為方面級(jí)情感分析研究指明了方向。
針對(duì)端到端的ABSA復(fù)合任務(wù),許多研究模型通常采用并行訓(xùn)練策略,在復(fù)合任務(wù)學(xué)習(xí)框架中同時(shí)訓(xùn)練兩個(gè)獨(dú)立的子任務(wù),然后將兩個(gè)子任務(wù)的輸出進(jìn)行結(jié)合,以獲得最終的預(yù)測(cè)結(jié)果。然而采用單獨(dú)訓(xùn)練方式并未有效地加強(qiáng)兩個(gè)子任務(wù)之間的關(guān)聯(lián)性,也忽視了實(shí)體識(shí)別和方面情感分類(lèi)任務(wù)之間的相互影響與關(guān)系。特別是在處理句子中存在多個(gè)實(shí)體的情況下,在對(duì)本文所涉及的旅游文本數(shù)據(jù)集進(jìn)行分析時(shí),我們發(fā)現(xiàn)在真實(shí)場(chǎng)景中,一個(gè)句子往往包含多個(gè)實(shí)體,而且不同實(shí)體可能涉及相同或相關(guān)的情感屬性。面對(duì)這種情況,準(zhǔn)確地識(shí)別句子中的多個(gè)實(shí)體及其對(duì)應(yīng)的情感屬性成為一個(gè)關(guān)鍵問(wèn)題,如果句子的結(jié)構(gòu)復(fù)雜或存在歧義,可能會(huì)導(dǎo)致屬性識(shí)別變得困難,從而影響后續(xù)的情感分類(lèi)過(guò)程。
由此本文提出了實(shí)體識(shí)別和方面情感分類(lèi)任務(wù)聯(lián)合訓(xùn)練的模型框架:將實(shí)體識(shí)別和情感屬性識(shí)別作為聯(lián)合任務(wù)來(lái)進(jìn)行訓(xùn)練,促使模型學(xué)習(xí)到實(shí)體和屬性之間的關(guān)聯(lián)規(guī)律,同時(shí)將實(shí)體識(shí)別的輸出內(nèi)容生成離散提示模板(Discrete Prompt Template),作為提示知識(shí)融入情感屬性分類(lèi)任務(wù)中,幫助模型在處理屬性關(guān)系時(shí)獲得更好的表示和推理能力。另外,由于旅游領(lǐng)域的評(píng)論文本具有特殊性,存在著樣本缺乏和不平衡的問(wèn)題,直接使用通用數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),模型會(huì)傾向于預(yù)測(cè)多數(shù)類(lèi)別,模型更容易在訓(xùn)練過(guò)程中學(xué)習(xí)到這些類(lèi)別的特征。因此,在本文中,我們采用數(shù)據(jù)增強(qiáng)的方法構(gòu)建句子中包含多個(gè)實(shí)體詞的數(shù)據(jù)集。在訓(xùn)練過(guò)程中,為不同類(lèi)別設(shè)置不同的權(quán)重,以使模型更專(zhuān)注于學(xué)習(xí)少數(shù)類(lèi)別樣本,從而提高模型對(duì)少數(shù)類(lèi)別情感分類(lèi)的準(zhǔn)確率。同時(shí),通過(guò)數(shù)據(jù)增強(qiáng)技術(shù)增加少數(shù)類(lèi)別樣本的數(shù)量,實(shí)現(xiàn)數(shù)據(jù)集中不同類(lèi)別樣本的平衡,進(jìn)一步改善模型在少數(shù)類(lèi)別上的性能。
1? 相關(guān)技術(shù)
1.1? ATE和ATSC
假設(shè)給定一組訓(xùn)練樣本中的第i個(gè)句子,,其中n是句子中B、I、O等標(biāo)記的個(gè)數(shù);方面實(shí)體提?。ˋTE)任務(wù)的目的是提取方面實(shí)體詞的集合 ,其中m是句子si中方面實(shí)體的個(gè)數(shù)。方面實(shí)體提取任務(wù)可以表示為Ai = PLMATE(Si),其中PLM指的是預(yù)訓(xùn)練的語(yǔ)言模型,訓(xùn)練時(shí)將第i個(gè)句子si作為輸入傳遞給模型,句子中對(duì)應(yīng)的方面項(xiàng)Ai為輸出標(biāo)簽。
1.2? Prompt機(jī)制
在本文的聯(lián)合訓(xùn)練模型中,利用實(shí)體識(shí)別的輸出結(jié)果構(gòu)建生成離散提示模板,將其作為提示知識(shí)融入情感屬性分類(lèi)任務(wù)中,離散提示模板是一種用于文本相關(guān)任務(wù)的模板或指令,可以提供結(jié)構(gòu)化的方式來(lái)引導(dǎo)文本的內(nèi)容,以滿(mǎn)足特定的需求或約束。離散提示模板在生成文本時(shí)強(qiáng)制要求模型遵循一些指定的規(guī)則、主題或格式,這有助于控制生成的文本,使其更加符合特定的語(yǔ)境和目標(biāo)。然后將生成的提示指令符(Instruct prompt)和句子同時(shí)作為方面實(shí)體情感分類(lèi)(ATSC)任務(wù)的輸入。引導(dǎo)模型更好地學(xué)習(xí)實(shí)體和屬性之間的關(guān)聯(lián)信息,提示指令符作為一種特定的文本輸入,用于指導(dǎo)模型生成特定類(lèi)型的輸出,由此通過(guò)引入提示指令符來(lái)告知模型當(dāng)前需要執(zhí)行的任務(wù),即識(shí)別出提示的實(shí)體詞對(duì)應(yīng)的情感屬性。
2? 模型設(shè)計(jì)
本文提出了一種新的基于深度學(xué)習(xí)和提示學(xué)習(xí)的模型,用于對(duì)旅游景點(diǎn)相關(guān)評(píng)論文本的句子進(jìn)行方面詞抽取,將實(shí)體識(shí)別任務(wù)的結(jié)果生成提示指令符,再和原始句子一起輸入到情感分類(lèi)任務(wù)中,由此達(dá)到增強(qiáng)對(duì)句子中方面實(shí)體的關(guān)注度的目的。如圖1所示,該模型分為三部分,分別是實(shí)體抽取部分、提示指令符部分和方面詞情感分類(lèi)部分。
2.1? 提示指令符部分
BERT模型并沒(méi)有直接處理標(biāo)簽序列的機(jī)制,它僅根據(jù)上下文預(yù)測(cè)每個(gè)標(biāo)記的標(biāo)簽。在這種情況下,BERT模型可能會(huì)在生成標(biāo)簽時(shí)忽略標(biāo)簽之間的順序關(guān)系。因此本文加入CRF特征[4]提高模型在BIO標(biāo)注數(shù)據(jù)上的準(zhǔn)確性,CRF模型可以利用實(shí)體之間的依賴(lài)關(guān)系和上下文信息,以全局一致性的方式進(jìn)行標(biāo)注,從而得到更準(zhǔn)確地實(shí)體識(shí)別結(jié)果,避免了“I”出現(xiàn)在“E”之前的情況,同時(shí)也可以更好地處理BIO標(biāo)注中的順序關(guān)系,并提高標(biāo)注的準(zhǔn)確性。
提示指令符的設(shè)計(jì)需要根據(jù)本文的具體任務(wù)和數(shù)據(jù)集的特點(diǎn)來(lái)確定,同時(shí)還需要注意避免提示指令符過(guò)于復(fù)雜或冗長(zhǎng),以免對(duì)模型的學(xué)習(xí)和泛化產(chǎn)生負(fù)面影響[5]。在本文中,模板任務(wù)是凸顯句子中的實(shí)體詞,生成提示模板:“實(shí)體是_?!?。生成的文本將根據(jù)填充的內(nèi)容來(lái)組成,同時(shí)保留了特定的結(jié)構(gòu)。離散提示模板可以在一定程度上控制生成文本的主題等,同時(shí)減少模型輸出的不確定性。這對(duì)于本文需要確保實(shí)體詞和情感屬性的一致性的場(chǎng)景非常有用。在本文實(shí)體識(shí)別和情感屬性識(shí)別的聯(lián)合訓(xùn)練中,加入提示指令符[6]可以引導(dǎo)模型更好地學(xué)習(xí)實(shí)體和屬性之間的關(guān)聯(lián),本文的創(chuàng)新之處在于將實(shí)體識(shí)別的輸出結(jié)果作為特定的提示之令符,用于指導(dǎo)模型生成特定實(shí)體對(duì)應(yīng)的情感屬性。圖2是用于ATSC子任務(wù)的Instruct ABSA模型[7]示例,輸入由指令提示和原句子組成,輸出標(biāo)簽是對(duì)應(yīng)方面的情感極性。
通過(guò)構(gòu)建提示指令可以引導(dǎo)模型提取出更多信息,為了使BERT預(yù)訓(xùn)練模型能夠獲取語(yǔ)義信息,本文設(shè)計(jì)了“aspect is [MASK]”樣式的提示指令模板作為輸出,構(gòu)建了由具體詞匯組成的離散模板,適用于小樣本的文本情感分類(lèi)任務(wù),使用預(yù)先定義的模板將需要預(yù)測(cè)的每個(gè)輸入進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換成一個(gè)新的token序列。每個(gè)token表示一個(gè)文本單元或[MASK]等補(bǔ)充符號(hào)。式(1)可以將原始句子x和提示指令模板Tn結(jié)合在一起得到新的輸入 :
(1)
在一個(gè)句子中,可能存在多個(gè)實(shí)體和情感屬性,而它們之間的關(guān)系可能是復(fù)雜的。還可以為模型提供一些先驗(yàn)知識(shí)和指導(dǎo)信息,幫助模型更好地學(xué)習(xí)實(shí)體和屬性之間的關(guān)聯(lián)信息。通過(guò)加入提示指令符,可以明確指定當(dāng)前要處理的實(shí)體和屬性,從而減少歧義,增強(qiáng)模型對(duì)于兩個(gè)子任務(wù)的專(zhuān)注度和準(zhǔn)確性,避免模糊的任務(wù)定義和錯(cuò)誤的關(guān)聯(lián),提高模型的學(xué)習(xí)效率和準(zhǔn)確性。
2.2? 情感分類(lèi)部分
給定訓(xùn)練樣本中第i個(gè)句子,用? 表示訓(xùn)練樣本中第i個(gè)句子的情感極性,其中m表示句子中方面實(shí)體項(xiàng)的個(gè)數(shù),從文本中識(shí)別和提取到方面實(shí)體后,要對(duì)與每個(gè)方面相關(guān)的情感極性進(jìn)行分類(lèi)。基于指令的訓(xùn)練會(huì)將明確的提示指令符合并到訓(xùn)練數(shù)據(jù)中,如圖1所示,將實(shí)體識(shí)別任務(wù)的輸出和定義好的提示指令符模板輸入情感分類(lèi)模型,即指示了模型要預(yù)測(cè)的方面實(shí)體,模型從這些指令中學(xué)習(xí)。
本文模型使用BERT編碼器對(duì)語(yǔ)義向量進(jìn)行語(yǔ)義特征編碼,采用全連接層和自注意力機(jī)制對(duì)情感向量進(jìn)行情感特征編碼,并計(jì)算聯(lián)合損失函數(shù)。通過(guò)兩種文本表示方法:CDW(Contextual Document Window)和CDM(Contextual Document Matrix),捕捉文本的語(yǔ)義信息,以便更好地表示文本內(nèi)容。對(duì)于圖4中的示例句子,首先定義一個(gè)上下文窗口,這是一個(gè)固定大小的窗口,包含目標(biāo)詞語(yǔ)及其周?chē)脑~語(yǔ),假設(shè)目標(biāo)詞語(yǔ)的向量表示為vtarget,上下文窗口中的詞語(yǔ)向量分別為v1、v2、v3(按照順序)。那么,CDW方法生成的文本向量可以表示為:
(2)
其中,n表示上下文窗口中詞語(yǔ)的數(shù)量。這個(gè)公式表示將目標(biāo)詞語(yǔ)與上下文詞語(yǔ)的向量進(jìn)行加權(quán)平均,得到最終的文本向量表示。CDM文本表示方法通過(guò)考慮文本之間的語(yǔ)義相似性和相關(guān)性,生成文本的表示矩陣。假設(shè)有兩個(gè)文檔矩陣A和B,其中A表示文檔A的詞向量矩陣,B表示文檔B的詞向量矩陣??梢允褂糜嘞蚁嗨贫葋?lái)計(jì)算文檔之間的語(yǔ)義相似度,如式(3)所示:
(3)
其中,A和B分別表示文檔A和文檔B的詞向量矩陣。然后,通過(guò)設(shè)置一個(gè)閾值θ,判斷文檔之間是否相關(guān),根據(jù)相關(guān)性判斷,可以生成一個(gè)文本表示矩陣,其中矩陣元素為1表示相關(guān),為0表示不相關(guān)。由于BERT模型[8]沒(méi)有顯式的位置信息,可以添加自注意力機(jī)制幫助模型關(guān)注重要的上下文信息,從而更好地捕捉實(shí)體和情感屬性之間的語(yǔ)義關(guān)系[9]。假設(shè)全連接層的輸出為gt,其中包含了編碼后的情感信息,自注意力機(jī)制允許模型關(guān)注不同詞語(yǔ)之間的關(guān)系,并為每個(gè)詞語(yǔ)分配一個(gè)注意力權(quán)重,以反映其重要性。通過(guò)tanh激活函數(shù),計(jì)算每個(gè)gt的隱含狀態(tài)ut,隱含狀態(tài)將用于計(jì)算每個(gè)詞語(yǔ)的自注意力權(quán)重,使用自注意力算式(4)計(jì)算每個(gè)詞語(yǔ)的注意力權(quán)重αt:
(4)
其中,ut表示詞語(yǔ)t的隱含狀態(tài),αw表示權(quán)重參數(shù),n表示詞語(yǔ)的總數(shù)。通過(guò)將每個(gè)詞語(yǔ)的自注意力權(quán)重αt與全連接網(wǎng)絡(luò)的輸出gt進(jìn)行加權(quán)求和,得到特征向量E。這個(gè)特征向量E將捕捉詞語(yǔ)之間的上下文語(yǔ)義關(guān)系,能夠更好地捕捉情感信息的關(guān)聯(lián)性,提高情感分析的效果。
3? 結(jié)果分析
3.1? 實(shí)驗(yàn)數(shù)據(jù)集
本文在公開(kāi)數(shù)據(jù)集SemEval2014 Task4 [10]和基于社交媒體的北京旅游景區(qū)評(píng)論數(shù)據(jù)集上分別進(jìn)行對(duì)比實(shí)驗(yàn)。SemEval2014 Task4數(shù)據(jù)集包含Restaurant、Laptop和Car幾個(gè)領(lǐng)域的評(píng)論數(shù)據(jù),其中原始的樣本格式由評(píng)論語(yǔ)句、語(yǔ)句中的方面實(shí)體詞以及對(duì)應(yīng)的情感類(lèi)別數(shù)值組成,經(jīng)過(guò)預(yù)處理后,剔除了異常數(shù)據(jù)且將原始文本合并成單行格式。基于社交媒體的北京旅游景區(qū)評(píng)論數(shù)據(jù)集(PTS)是針對(duì)中文旅游方面的評(píng)論文本,但此數(shù)據(jù)集是對(duì)網(wǎng)頁(yè)文本的簡(jiǎn)單爬取,無(wú)法直接用于實(shí)驗(yàn),因此對(duì)5 000條數(shù)據(jù)進(jìn)行重復(fù)和無(wú)效文本剔除,對(duì)其中的表情符號(hào)、評(píng)價(jià)標(biāo)簽、顏文字、時(shí)間信息、標(biāo)點(diǎn)符號(hào)等內(nèi)容進(jìn)行數(shù)據(jù)清洗,得到的數(shù)據(jù)集按照8:1:1的比例隨機(jī)切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練過(guò)程中,需要提前試驗(yàn)以確定Epoch的大小,以免造成分類(lèi)準(zhǔn)確率低或者過(guò)擬合的現(xiàn)象。因此本文選取了10%的訓(xùn)練集數(shù)據(jù)進(jìn)行Epoch實(shí)驗(yàn),并記錄了每次訓(xùn)練的Accuracy值和損失函數(shù)值,如圖3所示。
3.2? 實(shí)驗(yàn)設(shè)置和評(píng)價(jià)指標(biāo)
本文的實(shí)驗(yàn)用的是Huggingface開(kāi)源社區(qū)發(fā)布的預(yù)訓(xùn)練模型,Transformer是一個(gè)通用接口,支持PyTorch框架,相當(dāng)于加載預(yù)訓(xùn)練模型的基座,使用Bert-Base-Chinese語(yǔ)言模型實(shí)現(xiàn)。實(shí)驗(yàn)超參數(shù)如表1所示。
本文用測(cè)試集數(shù)據(jù)對(duì)模型進(jìn)行評(píng)估,在前面的實(shí)驗(yàn)中分別預(yù)測(cè)了實(shí)體標(biāo)簽和某個(gè)實(shí)體對(duì)應(yīng)的情感分類(lèi),并且計(jì)算了聯(lián)合損失,需要根據(jù)實(shí)體的預(yù)測(cè)值解析出對(duì)應(yīng)的實(shí)體位置,并預(yù)測(cè)實(shí)體對(duì)應(yīng)的情感分類(lèi),再跟真實(shí)實(shí)體對(duì)進(jìn)行對(duì)比,計(jì)算出準(zhǔn)確率A(Accuracy)、召回率R(Recall)和F1值(F-score)這幾個(gè)評(píng)價(jià)指標(biāo),計(jì)算式為:
(5)
(6)
(7)
其中,TP、TN分別表示預(yù)測(cè)正確的正向類(lèi)別數(shù)和負(fù)向類(lèi)別數(shù);FP、FN分別表示預(yù)測(cè)錯(cuò)誤的正向類(lèi)別數(shù)和負(fù)向類(lèi)別數(shù);A和R分別表示精確率和召回率,P表示Precision,加上EPS這樣一個(gè)很小的值來(lái)避免分母為零的情況。
3.3? 分類(lèi)模型對(duì)比實(shí)驗(yàn)
為了評(píng)估本文的模型性能,本研究與幾個(gè)其他相關(guān)研究的方面級(jí)情感分析模型進(jìn)行了對(duì)比實(shí)驗(yàn),表2展示了本文模型在特定旅游評(píng)論數(shù)據(jù)集上與其他預(yù)訓(xùn)練模型的準(zhǔn)確率、召回率和F1值的對(duì)比,實(shí)驗(yàn)結(jié)果表明,本文模型取得了比其他模型更好的分類(lèi)效果,對(duì)于旅游領(lǐng)域的評(píng)論數(shù)據(jù)集文本,本文模型的準(zhǔn)確率和F1值分別達(dá)到了81.01%和80.81%,相較于Bert-LSTM [11]模型提升了4.89%和5.2%,驗(yàn)證了本文提出方法的有效性。
由表2可以看出,與BERT的其他基準(zhǔn)模型相比,本文提出的結(jié)合指令提示符的改進(jìn)模型在旅游領(lǐng)域的數(shù)據(jù)集上取得了較好的效果,但在實(shí)驗(yàn)中遇到了幾個(gè)問(wèn)題:一是在初始調(diào)試階段將BERT模型中的參數(shù)“requires_grad”屬性設(shè)置為“False”,保持預(yù)訓(xùn)練的BERT權(quán)重固定,可以加快訓(xùn)練過(guò)程并防止模型過(guò)度擬合特定任務(wù)的有限數(shù)據(jù)。但凍結(jié)BERT模型的參數(shù)時(shí),模型無(wú)法根據(jù)特定任務(wù)的數(shù)據(jù)進(jìn)行微調(diào)和更新,這樣會(huì)限制模型適應(yīng)任務(wù)特定的特征和模式,從而導(dǎo)致了模型性能下降。二是實(shí)驗(yàn)的輸出結(jié)果差異變小,這是因?yàn)樵诰€(xiàn)性層(linear層)加了一個(gè)Sigmoid函數(shù),可以對(duì)輸出結(jié)果進(jìn)行歸一化,并將輸出范圍限制在0到1之間,這樣得到較小的輸出差異意味著可以提高模型在情感分類(lèi)任務(wù)上的準(zhǔn)確性、可解釋性和置信度,使得模型的分類(lèi)結(jié)果更穩(wěn)定、一致且易于理解,有助于更好地應(yīng)用于文本情感分析場(chǎng)景??偟膩?lái)說(shuō),本文提出的模型在旅游評(píng)論文本數(shù)據(jù)集上取得了更好的效果,證明了此方法的可行性。
表3展示了在公開(kāi)數(shù)據(jù)集SemEval2014的Restaurant領(lǐng)域上,本文模型與其他幾個(gè)基準(zhǔn)模型的性能對(duì)比。由表3可以看出,單一的結(jié)合注意力機(jī)制來(lái)捕捉文本中信息的IAN模型效果一般;Bert-CNN模型結(jié)合了BERT預(yù)訓(xùn)練模型和卷積神經(jīng)網(wǎng)絡(luò)(CNN),對(duì)輸入文本進(jìn)行編碼后傳遞給卷積層進(jìn)行特征提取,其模型準(zhǔn)確率有了一定的提升;針對(duì)句對(duì)任務(wù)的模型Bert-pair是對(duì)輸入進(jìn)行編碼后,通過(guò)額外的任務(wù)特定層來(lái)處理,但在文本的情感分類(lèi)任務(wù)上效果不如Bert-LSTM模型,Bert-LSTM模型將文本編碼信息傳遞給LSTM層,以建立上下文信息和序列建模;本文提出的模型在輸入中結(jié)合了提示指令符,模型先對(duì)句子進(jìn)行方面詞抽取,將該子任務(wù)的結(jié)果作為提示指令符,再和原句子一起輸入進(jìn)方面詞情感分類(lèi)任務(wù)中,由此達(dá)到增強(qiáng)對(duì)句子中方面實(shí)體的關(guān)注度的目的,由準(zhǔn)確率來(lái)看可以有效地說(shuō)明該模型在文本情感分類(lèi)任務(wù)上的性能良好。
3.4? 降采樣對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文模型在訓(xùn)練樣本較少的旅游評(píng)論數(shù)據(jù)集上效果仍然優(yōu)于其他模型,通過(guò)降采樣方法,分別取PTS數(shù)據(jù)集數(shù)量的80%(PTS0.8)、50%(PTS0.5)、20%(PTS0.2)作為降采樣后的數(shù)據(jù)集進(jìn)行對(duì)比。降采樣后的標(biāo)簽分布與原數(shù)據(jù)集保持一致,選擇分類(lèi)模型對(duì)比實(shí)驗(yàn)中效果較好的模型進(jìn)行對(duì)比。
降采樣實(shí)驗(yàn)的對(duì)比結(jié)果如表4所示。由對(duì)比結(jié)果可以看出,面對(duì)特定領(lǐng)域的小樣本數(shù)據(jù),本文提出的通過(guò)構(gòu)建特定領(lǐng)域的離散提示模板,聯(lián)合訓(xùn)練兩個(gè)子任務(wù)的訓(xùn)練模型準(zhǔn)確率比Bert-LSTM模型的準(zhǔn)確率高了2.07%,且本文的模型受數(shù)據(jù)量驟減的影響最小,分類(lèi)準(zhǔn)確率波動(dòng)幅度更小,說(shuō)明本文提出的方法面對(duì)旅游評(píng)論文本的使用效果最好,驗(yàn)證了本文方法的有效性。
4? 結(jié)? 論
本文提出了基于預(yù)訓(xùn)練模型和提示學(xué)習(xí)的方面級(jí)情感分類(lèi)模型,使其更好的應(yīng)用于真實(shí)應(yīng)用場(chǎng)景,并提升模型面對(duì)多實(shí)體句子的分類(lèi)性能。綜合利用提示指令符和聯(lián)合訓(xùn)練技術(shù),可以幫助模型更好地學(xué)習(xí)實(shí)體和屬性之間的關(guān)聯(lián),從而提高方面級(jí)文本情感分析的性能。針對(duì)此應(yīng)用場(chǎng)景下的數(shù)據(jù)集句子出現(xiàn)多實(shí)體屬性難以對(duì)應(yīng)的問(wèn)題,本文提出的融入提示指令符方法和聯(lián)合訓(xùn)練框架可以幫助模型在處理屬性關(guān)系時(shí)獲得更好的表示和推理能力,達(dá)到精準(zhǔn)提取文本中的多個(gè)實(shí)體的情感信息的目的;針對(duì)缺乏樣本和樣本不平衡問(wèn)題,本文通過(guò)數(shù)據(jù)增強(qiáng),可以增加少數(shù)類(lèi)別的樣本數(shù)量,使得數(shù)據(jù)集中不同類(lèi)別的樣本更加均衡,從而改善模型在少數(shù)類(lèi)別上的性能。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文所提出的模型在文本情感分析的準(zhǔn)確率、召回率以及F1值等評(píng)價(jià)指標(biāo)上都優(yōu)于其他四種方法,由此論證了本文模型的有效性。本文的主要貢獻(xiàn)如下:一是構(gòu)建了一個(gè)新的文本情感分析的深度學(xué)習(xí)模型架構(gòu),加強(qiáng)了兩個(gè)子任務(wù)之間的聯(lián)系,比較所提出的模型與其他四種情感分析模型的性能。二是模型針對(duì)句子中包含多個(gè)方面實(shí)體的文本情感分析具有可用性,可以為不同城市的旅游機(jī)構(gòu)和企業(yè)提供啟發(fā)性的建議,使其能夠抓住機(jī)遇快速發(fā)展。三是為未來(lái)的研究提供了一些方向。
參考文獻(xiàn):
[1] HU M Q,LIU B. Mining and Summarizing Customer Reviews [C]//Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining.Seattle:Association for Computing Machinery,2004:168-177.
[2] THET T T,NA J C,KHOO C S G. Aspect-Based Sentiment Analysis of Movie Reviews on Discussion Boards.Journal of Information Science,2010,36(6),823-848.
[3] LIU B. Sentiment Analysis and Opinion Mining [M].[S.I.]:Morgan & Claypool Publishers,2012.
[4] 劉斐,文中,吳藝.基于BERT-BILSTM-CRF模型的電力行業(yè)事故文本智能分析 [J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2023,19(1):209-215.
[5] 王昱婷,劉一伊,張儒清,等.基于提示學(xué)習(xí)的文本隱式情感分類(lèi) [J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2023,46(3):509-517.
[6] 張心月,劉蓉,魏馳宇,等.融合提示知識(shí)的方面級(jí)情感分析方法 [J].計(jì)算機(jī)應(yīng)用,2023,43(9):2753-2759.
[7] WANG Y Z,MISHRA S,ALIPOORMOLABASHI P. Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks [J/OL].arXiv:2204.07705 [cs.CL].[2023-07-20].https://doi.org/10.48550/arXiv.2204.07705.
[8] ZHANG J W,QI H. Data Mining and Spatial Analysis of Social Media Text Based on the BERT-CNN Model to Achieve Situational Awareness: a Case Study of COVID-19 [J].Journal of Geodesy and Geoinformation Science,2022,5(2):38-48.
[9] 高佳希,黃海燕.基于TF-IDF和多頭注意力Transformer模型的文本情感分析 [J].華東理工大學(xué)學(xué)報(bào):自然科學(xué)版,2024,50(1):129-136.
[10] dIGO999. SemEval-2014 Task 4: Aspect Based Sentiment Analysis [EB/OL].[2023-07-21].https://github.com/Diego999/SemEval-2014-Task-4-ABSA.
[11] SONG Y W,WANG J H,LIANG Z W,et al. Utilizing BERT Intermediate Layers for Aspect Based Sentiment Analysis and Natural Language Inference [J].arXiv:2002.04815 [cs.CL].[2023-07-26].https://arxiv.org/abs/2002.04815.
作者簡(jiǎn)介:謝宇欣(1999—),女,漢族,湖北襄陽(yáng)人,碩士研究生在讀,研究方向:自然語(yǔ)言處理;通訊作者:肖克晶(1991—),女,漢族,河南信陽(yáng)人,講師,博士研究生,研究方向:自然語(yǔ)言處理。