国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向在線健康社區(qū)的生成式方面級情感分析

2024-10-08 00:00韓普葉東宇
現(xiàn)代情報 2024年10期

關(guān)鍵詞: 生成式模型; 方面級情感分析; 情感三元組; 在線健康社區(qū)

DOI:10.3969 / j.issn.1008-0821.2024.10.012

〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 10-0142-12

隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展, 在線健康社區(qū)已成為醫(yī)生和患者群體間的重要溝通交流渠道, 積累了海量的用戶生成內(nèi)容(User Generated Content,UGC)[1] 。這些具有豐富情感信息的UGC 不僅為健康服務(wù)質(zhì)量評價提供數(shù)據(jù)來源, 而且為醫(yī)療服務(wù)創(chuàng)新提供了新的契機[2-4] 。傳統(tǒng)的粗粒度情感分析主要面向句子或篇章級的情感極性判斷, 難以深入挖掘文本數(shù)據(jù)中包含的細粒度情感信息。隨著醫(yī)療健康領(lǐng)域精準知識服務(wù)需求的推動, 如何從UGC 中更為精準地進行細粒度情感信息分析已成為當前情感分析研究的重點和難點[5-7] 。

作為細粒度情感分析的一種, 方面級情感分析(Aspect Based Sentiment Analysis, ABSA)旨在抽取文本中的方面實體和評論實體并判斷相應情感極性。相較于傳統(tǒng)的粗粒度情感分析, ABSA 涉及方面實體抽取、評論實體抽取和情感極性判斷, 其子任務(wù)方面實體抽取、情感對抽取和情感三元組抽取更具挑戰(zhàn)性[8] 。盡管相關(guān)研究采用序列標注和多分類方法能夠較好地處理ABSA 中的情感分類任務(wù), 然而, 這些方法在情感三元組抽取任務(wù)上的效果仍不夠理想, 難以準確對齊各方面實體和評論實體[9] 。尤其在健康領(lǐng)域, UGC 語義信息復雜且包含了對診療和康復等過程的多方面評價。如何深入理解其中復雜的語義信息, 進而準確抽取種類繁雜的方面、評論實體和情感極性對用戶精準需求分析具有重要意義[8] 。生成式模型由于其獨特的單向自回歸結(jié)構(gòu),能夠根據(jù)復雜情境靈活地生成文本, 在這些復雜的自然語言處理任務(wù)上具有天然優(yōu)勢?;诖?, 為充分理解上下文語義信息并有效對齊UGC 中各方面實體和評論實體, 本文將在線健康社區(qū)ABSA 轉(zhuǎn)換為文本生成任務(wù), 構(gòu)建端到端的生成式模型BERTWWM-GPT,探究其在方面級情感分析任務(wù)上的效果。具體而言, 首先利用具有雙向Transformer 結(jié)構(gòu)的BERT-WWM-ext 抽?。眨牵?中方面情感的上下文語義信息; 其次利用單向自回歸結(jié)構(gòu)的GPT[10] 模型解碼語義信息并生成情感三元組序列以對齊方面和評價實體; 最終通過基于規(guī)則的方式過濾和篩選出有效的情感三元組。

1相關(guān)研究

1.1方面級情感分析研究

方面級情感分析旨在抽取文本中有關(guān)特定方面的情感信息, 主要包括方面實體抽取、評論實體抽取和情感分類3個子任務(wù)。相較于傳統(tǒng)的單一情感分類任務(wù), ABSA中的多個子任務(wù)通常是同時進行的, 因此難度更大, 復雜度更高?;谒捎玫难芯糠椒ǎ?ABSA可以分為序列標注方法和多分類的方法。

基于序列標注的方法將ABSA 視為序列標注問題, 利用BiLSTM-CRF[11] 等模型對文本中單詞或短語的標簽進行分類, 進而抽取方面實體、評論實體和情感極性。為利用位置感知信息, Xu L 等[12]提出一種能夠聯(lián)合提取情感三元組的端到端模型;為利用全局和局部上下文信息, Yang H 等[13] 提出一種多任務(wù)學習情感分析模型, 能夠同步提取方面詞和情感極性; Wang W 等[14] 提出一種融合依存句法信息的多層耦合注意力網(wǎng)絡(luò), 實現(xiàn)了對方面詞和觀點術(shù)語的協(xié)同抽??; 為聚焦鄰近文本的語義信息, 肖宇晗等[15] 提出一種基于語境窗口自注意力機制的深度學習模型進行方面實體抽??; Zhao M等[16] 基于實體與上下文的定向依賴關(guān)系提出了一種新型依賴增強圖卷積網(wǎng)絡(luò); 王登雄等[17] 構(gòu)建了一種結(jié)合句法和語義知識的跨領(lǐng)域方面詞抽取框架,以降低源域和目標域數(shù)據(jù)之間差異性帶來的影響?;谛蛄袠俗⒎椒ǖ哪P鸵子谠O(shè)計且結(jié)構(gòu)簡單, 但隨著文本中方面實體的增多, 數(shù)據(jù)標注難度也越來越大且模型難以對齊方面與評論實體[18] 。

基于多分類的方法將ABSA視為多分類問題,即對文本中多個連續(xù)片段及其關(guān)系進行分類, 該方法不僅可以實現(xiàn)情感極性分類, 也可以實現(xiàn)方面和評論實體對齊。Wu Z 等[19] 提出一個端到端的網(wǎng)格標記模型, 并利用評論之間的相互指示作用抽取情感三元組; Zhang C 等[20] 提出一種基于多任務(wù)學習的方面實體和評論實體抽取框架, 并通過雙仿射評分器解析兩者之間的情感依賴關(guān)系; Xu L 等[21] 利用目標方面詞和觀點交互信息提出一種跨度級情感三元組抽取模型; 郭榮榮等[22] 構(gòu)建了一種融合BERT和多特征提取的圖卷積神經(jīng)網(wǎng)絡(luò)模型, 并使用雙仿射注意力模塊獲取文本中詞對之間的關(guān)系概率分布;Jiang B 等[23] 提出了一種基于BERT 和圖卷積神經(jīng)網(wǎng)絡(luò)的情感三元組抽取框架, 實現(xiàn)了方面和觀點實體之間的信息交互; Gao L 等[24] 構(gòu)建了一個基于問答的機器閱讀理解任務(wù)用于抽取方面和評論實體對。

1.2在線健康社區(qū)情感分析研究

在線健康社區(qū)情感分析較早的相關(guān)研究主要采用基于規(guī)則[25-26] 、基于詞典[27] 和基于機器學習[28-30]的方法, 然而, 這些方法高度依賴專家知識且特征工程龐大[31] 。近期研究主要是基于深度學習的方法, 效果較早期的情感分析方法有較大提升[32-33] 。Yadav S 等[34] 、Jelodar H 等[1] 將傳統(tǒng)機器學習和深度學習方法進行對比, 發(fā)現(xiàn)基于深度學習的方法在健康社區(qū)情感分析任務(wù)中取得了顯著改進; 葉艷等[35]采用LDA 模型和BiLSTM 分析了在線醫(yī)療評論中負面服務(wù)質(zhì)量評價產(chǎn)生的原因; Min Z[36] 結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和BiL?STM 在挖掘文本局部和全局特征上的優(yōu)勢, 對在線健康社區(qū)的評論進行情感分析; Colón-Ruiz C等[37] 、Biseda B 等[38] 對在線藥物評論進行情感分析發(fā)現(xiàn), 將預訓練雙向編碼表征網(wǎng)絡(luò)(BidirectionalEncoder Representation from Transformers, BERT)作為模型的嵌入層可進一步提升情感分析效果; Ar?bane M 等[39] 提出一種改進的BiLSTM 模型用于對社交媒體中有關(guān)健康問題的用戶生成內(nèi)容進行情感分析; Cao Y 等[40] 、Shah A M 等[41] 提出了融合多模態(tài)數(shù)據(jù)的情感分析模型并對在線醫(yī)療評論進行情感分析, 研究發(fā)現(xiàn)多模態(tài)情感分析效果較單一模態(tài)具有顯著提升。

隨著精準知識服務(wù)需求推進, 情感分析逐漸轉(zhuǎn)向更為細粒度的ABSA。Gui L 等[42] 對網(wǎng)絡(luò)平臺的在線醫(yī)療評論進行情感分析, 提出一種可同時進行句子級方面詞提取和文檔級情感分類的聯(lián)合學習框架; Shan Y X 等[43] 采用對抗學習訓練在線醫(yī)療評論中的情感詞表征, 并通過注意力機制將情感特征向量與結(jié)構(gòu)化語義相結(jié)合, 進而模型能夠更加關(guān)注文本中特定的方面信息; Han Y 等[44] 提出一種預訓練多任務(wù)學習模型, 該模型通過兩個BiGRU 網(wǎng)絡(luò)生成特定藥物評論目標的語義表征, 并利用多任務(wù)遷移學習短文本藥物評論中的領(lǐng)域知識; ?unic'A 等[45] 提出一種基于依存句法信息的方面級情感分析模型, 該模型通過圖卷積神經(jīng)網(wǎng)絡(luò)對給定方面進行情感分類; Praveen S V 等[46] 使用BERT 模型和主題建模方法分析了醫(yī)療保健領(lǐng)域的學者對生成式模型ChatGPT 的情緒。從上述研究可以發(fā)現(xiàn),細粒度ABSA 已成為當前在線健康社區(qū)情感分析的研究重點。

1.3生成式模型應用進展

近年來, 生成式模型在眾多領(lǐng)域取得了令人矚目的成果。在計算機視覺領(lǐng)域, 變分自編碼器[47]結(jié)合了自編碼器的結(jié)構(gòu)和概率圖模型的思想, 通過學習數(shù)據(jù)的潛在分布, 使得模型能夠生成多樣性的新樣本; 生成對抗網(wǎng)絡(luò)[48] 利用對抗訓練的方式使得生成器不斷提高生成樣本質(zhì)量, 判別器則不斷提高辨別真?zhèn)蔚哪芰?。在自然語言處理領(lǐng)域, 基于Transformer 架構(gòu)的單向自回歸GPT[10] 模型能夠?qū)W習文本長距離依賴關(guān)系, 進而自動生成文本。隨著預訓練模型的發(fā)展, 生成式模型逐漸應用于文本摘要生成、機器翻譯和智能問答等自然語言處理任務(wù)。在文本摘要生成研究中, 全安坤等[49] 發(fā)現(xiàn), 利用生成式模型融合圖片和文本特征能更好地定位關(guān)鍵內(nèi)容, 生成的摘要更具有概括性和可讀性; 李紅蓮等[50] 通過融合情感和主題雙通道信息并利用指針網(wǎng)絡(luò)生成文本評論摘要; 鄧露等[51] 基于端到端生成式模型提出一種知識增強的生成式摘要方法。在機器翻譯研究中, 申影利等[52] 提出一種基于多任務(wù)學習和Transformer 架構(gòu)的生成式機器翻譯模型;為提高模型對文本的表征能力, Kumar A 等[53] 結(jié)合注意力和卷積神經(jīng)網(wǎng)絡(luò)提出一種新的生成對抗網(wǎng)絡(luò); 劉婉月等[54] 提出一種加標簽融合多種亞詞序列的生成式機器翻譯模型。在智能問答研究中, 為提高問題和答案的語義匹配度, 劉杰等[55] 構(gòu)建了基于答案引導的問答對聯(lián)合生成模型; Bidgoly A J等[56] 提出了以低資源語言生成式問答框架以解決訓練數(shù)據(jù)不足的問題; Francis S 等[57] 利用生成式問答框架結(jié)合上下文信息生成與問題相關(guān)的回答。在情感分析領(lǐng)域, 余傳明等[58] 為解決目標語言標注語料資源匱乏問題, 使用生成對抗網(wǎng)絡(luò)和SVM對文本的情感極性分類; 龔振凱等[59] 為提取句子的方面詞、情感詞和情感極性, 提出一種硬約束限制下的情感文本生成方法; Hosseini-Asl E 等[60] 借助具有單向注意力機制的生成語言模型進行方面詞抽取和情感極性分類任務(wù); Li Z 等[61] 構(gòu)建多模態(tài)生成框架UniSA 以提升模型的多模態(tài)情感感知能力及子任務(wù)間通用情感知識的學習能力。

通過上述研究可知, 針對在線健康社區(qū)的情感分析已取得了較大進展, 近年來其研究焦點逐漸轉(zhuǎn)向更細粒度的ABSA。已有研究大多采用序列標注方法或多分類方法進行特定方面的實體抽取和情感極性分類任務(wù), 但當句中存在多重情感三元組時,現(xiàn)有方法仍然難以有效解決方面實體、評論實體和相應情感極性的對齊問題[8,15] 。盡管已有研究表明生成式模型在解決此類復雜ABSA 子任務(wù)的潛力,但尚未深入探索生成式模型抽取多重情感三元組的效果?;诖?, 本文將ABSA 任務(wù)轉(zhuǎn)換成序列生成任務(wù), 進一步探究生成式模型對在線健康社區(qū)進行方面級情感分析的效果。

2基于生成式的在線健康社區(qū)方面級情感分析模型

2.1模型設(shè)計

為充分理解上下文語義信息并有效對齊UGC中各方面實體和評論實體,本文提出一種端到端的生成式方面級情感分析模型BERT-WWM-GPT。所提模型由雙向Transformer 結(jié)構(gòu)的編碼器和單向自回歸結(jié)構(gòu)的解碼器組成, 通過編碼器抽取上下文語義信息, 解碼器對此解碼生成情感三元組序列,模型具體結(jié)構(gòu)如圖1 所示。模型中編碼器采用具有雙向Transformer結(jié)構(gòu)的BERT-WWM-ext 預訓練模型, 主要包括雙向多頭注意力機制、前饋神經(jīng)網(wǎng)絡(luò)、層歸一化和殘差鏈接網(wǎng)絡(luò)機制; 解碼器采用單向自回歸結(jié)構(gòu)的GPT 預訓練模型, 主要包括單向多頭注意力機制、前饋神經(jīng)網(wǎng)絡(luò)、層歸一化和殘差鏈接網(wǎng)絡(luò)機制。

由于推理階段僅存在用戶評論文本T,而標準序列G 未知, 為使模型盡可能準確地預測在線健康社區(qū)文本的情感信息, 推理策略是通過Decoder解碼Encoder 的語義向量進而生成預測序列P, 并依據(jù)P 內(nèi)單個位置的預測得分使得整體預測準確性最大化。具體而言, 首先通過Encoder端得到文本的上下文表示H; 其次在Decoder使用特殊任務(wù)標志符“<tri>”作為任務(wù)的觸發(fā)器, 依據(jù)不斷生成的序列迭代預測下一個字符, 直到生成特殊的標志符“<end>”;然后利用集束算法優(yōu)化生成序列,避免模型陷入局部最優(yōu)陷阱;最終通過基于規(guī)則的方式過濾和篩選出有效的情感三元組表達。模型的推理階段如圖2所示。

3實驗設(shè)計

3.1實驗流程

為了利用生成式模型靈活解決在線健康社區(qū)中多重情感三元組抽取任務(wù)上的優(yōu)勢, 本文通過構(gòu)建基于端到端的生成式模型實現(xiàn)方面實體、評論實體和相應情感極性的對齊, 以提升在線健康社區(qū)中ABSA 效果, 實驗流程如圖3 所示。具體來說, 首先從在線健康社區(qū)收集用戶評論數(shù)據(jù), 并對數(shù)據(jù)進行清洗和預處理; 其次搭建深度學習模型BERTWWM-GPT, 并在編碼器通過嵌入層獲取包含上下文語意信息的詞向量; 然后在解碼器對詞向量解碼,利用單項的自回歸結(jié)構(gòu)生成預測序列; 最終從預測序列中篩選出有效的情感三元組。

3.2數(shù)據(jù)準備

中文領(lǐng)域目前尚未有公開的中文在線健康社區(qū)ABSA 任務(wù)數(shù)據(jù)集, 為驗證所提模型在在線健康社區(qū)ABSA任務(wù)上的有效性, 本文選擇好大夫網(wǎng)站作為實驗數(shù)據(jù)來源構(gòu)建數(shù)據(jù)集。好大夫網(wǎng)是中國使用較為廣泛的醫(yī)患交流平臺, 其中包括了對醫(yī)生、醫(yī)院的評論, 以及對藥物、治療和康復狀況的評論。本文利用爬蟲程序獲?。玻埃玻?年1 月—2023 年8 月該網(wǎng)站的用戶評論, 初步清洗后得到7000條數(shù)據(jù)。為確保數(shù)據(jù)標注質(zhì)量, 本研究一方面對實驗數(shù)據(jù)采取了去重、降噪以及刪除低質(zhì)量數(shù)據(jù)等操作; 另一方面通過兩位標注員分別標注, 第三位標注員對不確定數(shù)據(jù)進行統(tǒng)一標注的方式以確保標注結(jié)果的準確性, 并對方面實體和評論實體以及相應的情感極性進行標注。最終構(gòu)建了包含4 000條數(shù)據(jù)的數(shù)據(jù)集, 數(shù)據(jù)集統(tǒng)計結(jié)果和樣例如表1 和表2所示。

3.3實驗設(shè)計

為驗證BERT-WWM-GPT 模型在健康社區(qū)方面級情感分析任務(wù)ASPE 和ASOTE 上的有效性,本文設(shè)計了3 組對照實驗, 每組實驗均采用五折交叉驗證, 并按7∶1∶2 將數(shù)據(jù)集劃分為訓練集、驗證集和測試集。具體實驗設(shè)計如下:

實驗一:對比基準模型在ABSA任務(wù)中的實驗效果。探究采用基于序列標注方法、基于多分類方法和單解碼器結(jié)構(gòu)的生成式模型GPT 在ASPE 和ASOTE任務(wù)上的效果。

實驗二:探究不同生成式模型在ABSA任務(wù)中的實驗效果。本實驗將在實驗一基礎(chǔ)上探究不同生成式模型和編碼器對實驗效果的影響; 同時探究集束搜索算法中不同集束寬對實驗效果的影響。

實驗三:檢驗模型的領(lǐng)域泛化能力。在實驗二基礎(chǔ)上利用公共數(shù)據(jù)進行實驗, 以探究生成式模型BERT-WWM-GPT的泛化能力。

在實驗一中,為驗證所提模型的有效性, 本文采用ABSA 領(lǐng)域主流的基線模型進行對比實驗?;€模型介紹如表3所示。

3.4實驗環(huán)境

本文實驗環(huán)境如下: 實驗模型均采用Python3.8.0 和Pytorch深度學習框架1.9.0 版本, 操作系統(tǒng)為Ubuntu,GPU型號為GeForce RTX3090 GPU,內(nèi)存24GB。表4給出了模型的各超參數(shù)值及解釋,所有實驗均在此環(huán)境下運行。

3.5評估指標

本文采用準確率(Accuracy)、召回值(Recall)、精確率(Precision)和F1 值作為所有模型的評估指標, 以下簡稱P、R 和F1。具體計算如式(9) ~(11) 所示:

其中TP表示正類被預測為正類的數(shù)量; FN表示正類被預測為負類的數(shù)量; FP 表示負類被預測為正類的數(shù)量。

4實驗結(jié)果與分析

4.1基準實驗對比

為驗證基準模型在健康社區(qū)方面級情感分析任務(wù)上的效果, 第一組實驗采用序列標注方法, 如BiLSTM-CRF、LCF 和PAT、CMLA、HAST; 第二組實驗采用基于多分類方法, 如GTS、OTE-MTL和SPAN-ASTE;第三組實驗采用具有解碼器結(jié)構(gòu)的生成式模型GPT。實驗結(jié)果如表5所示。

從表5可以發(fā)現(xiàn), 在抽?。挤矫鎸嶓w,情感極性>對任務(wù)ASPE 中:①序列標注模型HAST 和LCF模型的F1值分別為60.73%和59.71%, 相較于BiLSTM-CRF 和CMLA 模型均有明顯提升, 主要原因在于HAST和LCF 模型采用多任務(wù)學習共享情感極性分類和方面實體抽取任務(wù)的參數(shù), 使得單個任務(wù)學習到更多信息,進一步優(yōu)化了ASPE 任務(wù)結(jié)果。②多分類模型在ASPE 任務(wù)上效果優(yōu)于序列標注模型。其中OTE-MTL 模型在多分類模型中表現(xiàn)最優(yōu),F1 值達到77.12%, 較HAST 模型提升了16.39%,這是由于OTE-MTL 模型利用多任務(wù)學習在ASPE任務(wù)中引入評論實體抽取任務(wù), 更加關(guān)注與評論實體相關(guān)的方面實體和情感極性信息, 進一步提高了模型在ASPE 任務(wù)上的效果。③單解碼器生成式模型GPT 在ASPE 任務(wù)上F1 值為77.93%,較OTEMTL模型僅提升了0.81%。進一步分析可知,GPT模型雖然能夠自回歸地生成情感三元組序列, 但其單向自回歸結(jié)構(gòu)的解碼器未能有效捕獲文本上下文語義信息, 因此, 相較于OTE-MTL 模型在ASPE任務(wù)上提升效果不顯著。

在抽取<方面實體,評論實體, 情感極性>三元組任務(wù)ASOTE 中:①生成式GPT 模型在ASOTE 任務(wù)上表現(xiàn)最優(yōu), F1@ All 值為80.69%, 較多分類模型GTS 提高了7 71%。這表明將ABSA 任務(wù)轉(zhuǎn)化為生成任務(wù)是可行的, 且生成式模型在ABSA 任務(wù)上的表現(xiàn)明顯優(yōu)于基于序列標注和多分類的方法。②序列標注和多分類模型在ASOTE 任務(wù)上的F1@4 明顯低于F1@ 1,而生成式模型F1@ 4 比F1@ 1高4.22%, 這表明生成式模型更適合處理具有多重情感三元組表達的復雜文本。主要原因在于將情感三元組預測任務(wù)轉(zhuǎn)換成序列生成任務(wù)后, 生成式模型能夠更好地利用情感三元組序列的上下文語義信息, 進而有效地處理ASOTE 任務(wù)。③生成式模型在ASPE任務(wù)上F1值為77.93%, 低于在ASOTE任務(wù)上的F1值80.69%,而多分類模型和序列標注模型在ASPE 任務(wù)上F1 值高于ASOTE 任務(wù), 這表明生成式模型能夠更好地處理方面級情感分析中的復雜任務(wù)。進一步分析可以發(fā)現(xiàn), 序列標注和多分類模型需要對預測結(jié)果進一步解碼生成情感三元組, 存在錯誤傳播的現(xiàn)象, 而生成式模型在訓練和推理階段按照“方面, 評論, 情感極性” 格式對齊方面實體和評論實體并聯(lián)合抽取情感三元組, 減少了錯誤序列的生成。

4.2生成式模型對比

由4.1小節(jié)可知, 生成式模型GPT 在基準實驗對比中效果最優(yōu)。因此, 本實驗將在GPT 模型基礎(chǔ)上探究不同編碼器和集束寬度對在線健康社區(qū)情感三元組抽取的影響。其中, Glove-GPT 是在GPT 模型的基礎(chǔ)上使用Glove 詞向量; BERT-GPT是采用BERT[62] 作為嵌入層; BERT-WWM-GPT采用BERT-WWM-ext[63] 作為詞嵌入層。實驗結(jié)果如表6 所示。

從表6 可以發(fā)現(xiàn), ①Glove-GPT模型在ASOTE任務(wù)上的F1@ All為80.80%,相較于GPT模型僅提升0.11%,這是由于靜態(tài)詞向量Glove無法準確捕獲字符在不同上下文的語義信息, 因此, 在復雜的ASOTE 任務(wù)中不適用于生成式模型的編碼器。②BERT-GPT 和BERT-WWM-GPT 模型相較于GPT在ASOTE任務(wù)上的F1 值分別提升了2.49%和3.57%,表明預訓練模型BERT 和BERT-WWM-ext 作為編碼器對實驗效果提升較大,其中BERT-WWM-ext模型對實驗效果提升更為明顯。主要原因在于BERTWWM-ext相較于BERT 采用了更大的語料庫和全字掩蔽預訓練任務(wù),能夠讓模型充分學習詞語的語義信息, 進而有助于提升三元組抽取效果。③使用集束搜索后,BERT-WWM-GPT模型在AOSTE任務(wù)上的F1@2、F1@3 和F1@4 總體上隨著集束寬度增大而提高, 當提高集束寬度為4 時F1@ All 值較GTS 模型提升了12.25%, F1@ 2、F1@ 3 和F1@ 4分別提升了1.32%、1.01%和1.76%。這是由于模型使用集束算法生成序列時考慮了多個備選項, 在一定程度上避免陷入局部最優(yōu)解。當集束寬度增大至5 時, 實驗效果出現(xiàn)了下降。進一步分析可知,模型對預測序列上每個字符的預測并不完全準確,導致選擇的備選項不一定是最佳備選項, 因此, 過度增大集束寬度可能會生成錯誤序列。

4. 3模型領(lǐng)域泛化能力驗證

為驗證基于端到端的生成式模型的泛化能力,本文選取方面級情感分析領(lǐng)域的5 份中文公共數(shù)據(jù)進行實驗, 其中Camera、Car、Phone 和Notebook數(shù)據(jù)集[13] 是電子商務(wù)平臺的商品評價數(shù)據(jù), 標注了方面實體和情感極性, 4份數(shù)據(jù)集共包含6 432條數(shù)據(jù); Food[64] 數(shù)據(jù)集包含了27 835條數(shù)據(jù),標注了餐飲行業(yè)在線評論的方面、評論實體和相應的情感極性, 每條數(shù)據(jù)最多包含19對情感三元組。其中,Camera、Car、Phone 和Notebook數(shù)據(jù)集均未標注評論實體,因此主要進行ASPE 實驗; Food數(shù)據(jù)集標注了方面、評論實體和相應的情感極性,可以進行ASOTE 實驗。為保證各實驗的可比較性,均采用F1 值評價指標對實驗結(jié)果進行評價,實驗結(jié)果如表7所示。

由表7可以發(fā)現(xiàn),①由于Camera、Car、hone和Notebook數(shù)據(jù)集語料表述較為簡單, 每條數(shù)據(jù)僅包含一個方面的評價, 因此ASPE 任務(wù)整體實驗效果較好。所提模型BERT-WWM-GPT 在4 個數(shù)據(jù)集的ASPE 任務(wù)上效果均達到最優(yōu), F1 值分別為76.85%、80.80%、83.52%和79.48%, 較OTEMTL模型分別提升了3.75%、13.57%、10.86%和8.59%。LCF、OTE-MTL、GPT 和BERT-WWMGPT模型在ASPE 任務(wù)上的F1 值逐漸遞增, 這與實驗一和實驗二的結(jié)論相吻合, 表明生成式模型在ASPE 任務(wù)上的效果優(yōu)于序列標注和多分類模型,且基于預訓練的BERT-WWM-ext 編碼器對ASPE任務(wù)具有較好的提升效果。②由于Food 數(shù)據(jù)集存在大量具有多重情感三元組的數(shù)據(jù), 增加了情感三元組抽取的難度, 因此ASOTE 任務(wù)整體實驗效果較低。其中, MuG RoBERTa-large模型較OTE -MTL 模型在F1 值上僅提升了0.28%, 主要原因在于OTE-MTL模型和MuG RoBERTa-large 模型均采用多分類的方法處理情感三元組抽取任務(wù), 因此實驗結(jié)果相近。而生成式模型BERT-WWM-GPT 較MuG RoBERTa-large 在F1 值上提升了7.22%, 在ASOTE任務(wù)上效果最佳, 這進一步表明了所提模型BERT-WWM-GPT優(yōu)秀的泛化能力, 且在抽取多重情感三元組任務(wù)中更具有優(yōu)勢。

4.4案例分析

為進一步理解BERT-WWM-GPT在健康領(lǐng)域ABSA 任務(wù)上的效果, 本文選取了3 個代表性案例進行分析。其中案例一句式簡單, 包含3個情感三元組和兩種不同的情感極性; 案例二存在3 個情感三元組, 但僅有兩個方面實體, 即關(guān)系重疊現(xiàn)象,且同一方面實體存在兩種不同情感極性的評論實體; 案例三句式復雜且存在6 個情感三元組, 不僅存在關(guān)系重疊現(xiàn)象, 且存在隱性情感表達現(xiàn)象。表8給出了案例介紹與模型的抽取結(jié)果。

通過案例分析可知,BERT-WWM-GPT 模型完整地抽取了案例一與案例二中的情感三元組。案例二中方面實體“王醫(yī)生” 存在兩種不同情感極性的評論實體,BERT-WWM-GPT 不僅完整地抽取了相關(guān)的方面與評論實體對, 還準確預測了兩種不同的情感極性, 這表明所提模型針對具有多重情感三元組的文本有較好的抽取能力。

案例三句式較為復雜, 其方面實體“刀口” 的評論實體“很小” 和“基本看不到” 屬于隱性情感表達, 針對不同方面有不同情感極性。例如, 方面實體“手術(shù)效果” 的評論同樣是“很小”, 但表達的情感極性卻完全相反, BERT-WWM-GPT模型未能準確識別情感極性; 此外, 當方面實體的表達較為復雜, 例如“告知注意事項” 由動詞和名詞組成, BERT-WWM-GPT 未能正確識別實體邊界。這表明所提模型未能較好地分析隱性情感和抽取復雜實體信息, 未來可通過遷移學習引入外部知識解決此類問題。

5結(jié)論

通過實現(xiàn)方面實體和評論實體對齊進而更為準確地抽取在線健康社區(qū)文本中的多重情感三元組,提出了一種基于端到端的生成式模型BERT-WWMGPT。研究結(jié)果表明: ①單解碼器生成式模型GPT相較于序列標注和多分類模型更適合處理具有多重情感三元組表達的復雜文本, 其F1值較基準模型GTS提升了7.71%。②預訓練模型相較于靜態(tài)詞向量更加適合作為生成式模型的編碼器, 且BERTWWM相較于BERT 在F1@ All值上提升了1.08%。③在5 份中文公開數(shù)據(jù)集和自建數(shù)據(jù)集上的實驗結(jié)果表明, 所提模型BERT-WWM-GPT 能較好地抽取在線健康社區(qū)多重情感三元組, 且具有良好的泛化能力。目前在線健康社區(qū)中用戶評論表述復雜且包含大量隱性情感信息, 如何對隱性情感表達進行有效抽取和情感極性分類是本文未來研究的重點。