国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種建立在GPT-2模型上的數(shù)據(jù)增強方法

2024-04-09 01:42:22張小川陳盼盼邢欣來楊昌萌滕達
智能系統(tǒng)學(xué)報 2024年1期
關(guān)鍵詞:語義分類樣本

張小川,陳盼盼,邢欣來,楊昌萌,滕達

(重慶理工大學(xué) 兩江人工智能學(xué)院, 重慶 401135)

句子分類[1](sentence classification,SC)是最基本和常見的自然語言處理(natural language process,NLP)任務(wù)之一,廣泛應(yīng)用于NLP的很多子領(lǐng)域,如意圖識別、情感分析、問題分類等。當(dāng)給定一個句子作為輸入時,其任務(wù)是將其分配給一個預(yù)定義標(biāo)簽。深度神經(jīng)網(wǎng)絡(luò)往往需要大規(guī)模的高質(zhì)量標(biāo)記的訓(xùn)練數(shù)據(jù)來實現(xiàn)高性能,然而在特定領(lǐng)域,由于人工標(biāo)注數(shù)據(jù)集代價昂貴,常常只有少量樣本可供使用。本文研究在數(shù)據(jù)匱乏情況下的句子分類任務(wù)準(zhǔn)確率較低的問題,訓(xùn)練數(shù)據(jù)的不足使得句子分類任務(wù)模型無法得到有效的訓(xùn)練,從而導(dǎo)致泛化能力差。為解決這一問題,數(shù)據(jù)增強是一種有效的方法。

通常,數(shù)據(jù)生成的語義一致性和多樣性對目標(biāo)任務(wù)至關(guān)重要[2],語義保留即前后語義保持一致是數(shù)據(jù)增強最基本的要求,訓(xùn)練樣本的豐富表達能使神經(jīng)網(wǎng)絡(luò)更好地學(xué)習(xí)權(quán)重。一些學(xué)者的研究工作已經(jīng)開始注重數(shù)據(jù)的多樣性和質(zhì)量。如在計算機視覺中,文獻[3]使用代理網(wǎng)絡(luò)來學(xué)習(xí)如何增強多樣性。孫曉等[4]利用生成對抗網(wǎng)絡(luò)生成同一個人的不同面部表情實現(xiàn)數(shù)據(jù)增強。NLP中的一些研究[5]對原句進行隨機替換、隨機交換、插入和刪除操作實現(xiàn)增強數(shù)據(jù)的多樣性,為了避免簡單數(shù)據(jù)增強方法(easy data augmentation,EDA)方法引入過多噪聲,一種更簡單的數(shù)據(jù)增強方法(an easier data augmentation, AEDA)[6]將隨機插入token改為隨機插入標(biāo)點符號,一定程度上緩解了噪聲引起的語義偏差問題,然而隨機插入標(biāo)點符號可能會不恰當(dāng)?shù)財嗑洌Z義保留和多樣性仍無法同時有效控制。隨著大規(guī)模預(yù)訓(xùn)練語言模型的問世,一些研究將其應(yīng)用于數(shù)據(jù)增強,Anaby等[7]提出基于語言模型的數(shù)據(jù)增強方法(language-model-based data augmentation, LAMBADA),采用訓(xùn)練數(shù)據(jù)微調(diào)GPT-2模型[8],在訓(xùn)練過程中將相應(yīng)的標(biāo)簽拼接到每個樣本,以便為該類生成新數(shù)據(jù),在句子分類方面取得了顯著的改進。然而,該方法采用top-k和top-p采樣的方式增加多樣性,這種方式很有可能會導(dǎo)致累計誤差的產(chǎn)生,使得生成句子質(zhì)量低下。

從本質(zhì)上講,語義一致性和多樣性的目標(biāo)其實是相互沖突的,即生成多樣性高的樣本更可能導(dǎo)致語義發(fā)生變化,因此,需要同時考慮多樣性與語義一致性,對生成數(shù)據(jù)進行控制,得到較為平衡的數(shù)據(jù)。本文提出一種引入懲罰項的數(shù)據(jù)增強方法(punishing generative pre-trained transformer for data augmentation, PunishGPT-DA),用于生成增強數(shù)據(jù)來改進句子分類任務(wù)。此方法的數(shù)據(jù)增強過程建立在預(yù)訓(xùn)練語言模型GPT-2基礎(chǔ)上,通過設(shè)計懲罰項、超參數(shù),使用雙向編碼器表征模型(bidirectional encoder representations from transformers,BERT)[9]作為過濾器完成數(shù)據(jù)增強。實驗結(jié)果表明了該方法的有效性。

1 數(shù)據(jù)增強相關(guān)工作

從增強數(shù)據(jù)的多樣性來看,數(shù)據(jù)增強方法可以大致分為基于復(fù)述的方法、基于噪聲的方法和基于采樣的方法3類。

基于復(fù)述的方法包括在詞匯、短語、句子層面的重寫。Zhang等[10]首先利用詞庫(a electronic lexical database, WordNet)替換句子中的同義詞應(yīng)用于數(shù)據(jù)增強;條件BERT(conditional bert, CBERT)[11]掩蓋句子的部分字符,由BERT生成替換詞;Jiao等[12]使用數(shù)據(jù)增強來獲得特定任務(wù)的蒸餾訓(xùn)練數(shù)據(jù),利用BERT將單詞標(biāo)記為多個單詞片段,并形成候選集;回譯以生成的方式重寫整個句子,被應(yīng)用于低資源句子分類[13],使用不同的二級語言提高了分類精度,Hou等[14]通過L層變換器對串聯(lián)的多個輸入話語進行編碼,利用重復(fù)感知注意和面向多樣性的正則化生成更多樣化的句子。Kober等[15]使用對抗生成網(wǎng)絡(luò)(generative adversarial network, GAN)生成與原始數(shù)據(jù)非常相似的樣本。

基于噪聲的方法添加微弱噪聲,使其適當(dāng)偏離原始句子。EDA[5]通過隨機插入、刪除、替換、交換操作得到增強數(shù)據(jù)。Peng等[16]通過刪除對話語句中的槽值來獲得更多的組合;Sahin等[17]通過依賴樹變形對句子進行旋轉(zhuǎn)。Sun等[18]將混合技術(shù)應(yīng)用到基于Transformer的預(yù)訓(xùn)練模型中進行數(shù)據(jù)增強(Mixup-Transformer),將Mixup與基于Transformer的預(yù)訓(xùn)練結(jié)構(gòu)相結(jié)合,進行數(shù)據(jù)增強;Feng等[19]在提示部分隨機刪除、交換和插入文本字符,用于微調(diào)文本生成器;Andreas[20]提出了一種簡單的數(shù)據(jù)增強規(guī)則,通過采用出現(xiàn)在一個類似環(huán)境中的其他片段替換真實的訓(xùn)練樣本的某個片段,來合成新的樣本。Guo等[21]提出一種序列到序列模型的混合方法(sequence-level mixed sample data augmentation,SeqMix),通過組合訓(xùn)練集中的輸入輸出序列來創(chuàng)建新的合成樣本。丁家杰等[22]通過對原始數(shù)據(jù)集中的噪聲進行處理擴充數(shù)據(jù)集,在問答任務(wù)上實現(xiàn)了良好效果。

基于采樣的方法掌握數(shù)據(jù)分布,并在其中采樣新的樣本。大型語言模型(large language models, LLMs)的出現(xiàn)為生成類似于人類標(biāo)注的文本樣本創(chuàng)造了新的條件。LLMs的參數(shù)空間允許它們存儲大量知識,大規(guī)模預(yù)訓(xùn)練使得LLMs能夠編碼用于文本生成的豐富知識。如生成式預(yù)訓(xùn)練語言模型(generative pre-trained transformer, GPT)系列,GPT~GPT-3[8,23-24]采用預(yù)訓(xùn)練+微調(diào)的方式,其中預(yù)訓(xùn)練階段通過大規(guī)模的無標(biāo)注數(shù)據(jù)對模型進行訓(xùn)練,使其學(xué)習(xí)到通用的語言表示和語義理解能力,微調(diào)階段利用有標(biāo)注數(shù)據(jù)進行監(jiān)督學(xué)習(xí),使模型能夠適應(yīng)特定的任務(wù)要求,提高性能和準(zhǔn)確度。GPT系列目前已經(jīng)發(fā)展到4.0, 聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器(chat generative pre-trained transformer, ChatGPT)遵循指導(dǎo)生成預(yù)訓(xùn)練轉(zhuǎn)換器(instruct generative pre-trained transformer,InstructGPT)[25]的訓(xùn)練方式,利用帶有人類反饋的強化學(xué)習(xí)(reinforcement learning from human feedback, RLHF),使其在對話領(lǐng)域能夠?qū)斎氘a(chǎn)生更豐富的響應(yīng)。這些最先進的模型也被廣泛地用來進行數(shù)據(jù)增強,Abonizio等[26]通過連接樣本中的3個隨機token作為GPT-2模型生成階段的前綴生成樣本。Kumar等[27]研究了不同類型的基于Transformer的預(yù)訓(xùn)練語言模型,表明將類標(biāo)簽處理到文本序列為微調(diào)預(yù)訓(xùn)練模型進行數(shù)據(jù)增強提供了一種簡單有效的方法;Bayer等[28]設(shè)計了一種基于GPT-2的方法,通過設(shè)計不同的前綴分別處理短文本和長文本的生成,在短文本任務(wù)和長文本任務(wù)上都取得了很好的改進。類似的,Claveau等[29]使用特定于類的數(shù)據(jù)微調(diào)GPT-2模型,并從原始文本中輸入一個隨機單詞進行生成。然后應(yīng)用分類器對生成的數(shù)據(jù)樣本進行過濾。Liu[30]凍結(jié)GPT-2模型softmax之前的層,采用強化學(xué)習(xí)對softmax之后的層進行微調(diào)。隨著ChatGPT的問世,Dai等[31]提出了ChatAug,利用ChatGPT為文本生成增強數(shù)據(jù),獲得了顯著提升。

引入噪聲的方法可以有效提升數(shù)據(jù)的多樣性,利用預(yù)訓(xùn)練語言模型的數(shù)據(jù)增強方法可以更好地學(xué)習(xí)到語言規(guī)律和語義信息,因此,基于上述工作,本文提出懲罰生成式預(yù)訓(xùn)練語言模型的數(shù)據(jù)增強方法(punishing generative pre-trained transformer for data augmentation, PunishGPT-DA),通過設(shè)計損失函數(shù)微調(diào)預(yù)訓(xùn)練語言模型GPT-2,有效保證增強數(shù)據(jù)的質(zhì)量。

2 PunishGPT-DA

2.1 方法概述

句子分類是一種基于句子數(shù)據(jù)進行分類的任務(wù),屬于監(jiān)督學(xué)習(xí)問題的一個實例。給定訓(xùn)練集Dtrain=,包含N個訓(xùn)練樣本,其中xi是由{xi1,xi2,···,xip}組成的文本序列,包含p個字符,li∈{1, 2, ···,q}表示在含有q個標(biāo)簽的集合中,樣本xi對應(yīng)的標(biāo)簽。xi∈X,X代表整個樣本空間,假設(shè)對于所有N,存在函數(shù)f,使li=f(xi),監(jiān)督學(xué)習(xí)的目標(biāo)是在僅給定數(shù)據(jù)集Dtrain的情況下在整個X上近似f,從Dtrain的域推廣到整個X,即在Dtrain上訓(xùn)練分類算法F,使其能夠近似f,然而如果Dtrain非常小,將顯著地影響算法F的性能。數(shù)據(jù)增強試圖通過合成額外的訓(xùn)練數(shù)據(jù)來解決這個問題,給定訓(xùn)練集Dtrain和算法F,本文的目標(biāo)是生成Daug=,Daug=Dtrain∪Dfilter,其中Dfilter是方法每次迭代后生成的數(shù)據(jù),Daug是最終數(shù)據(jù)集,包含T個樣本,yj是由{yj1,yj2,···,yjm}組成的文本序列,包含m個字符,對應(yīng)標(biāo)簽為lj。

為此,本文提出了一種面向句子分類的數(shù)據(jù)增強方法PunishGPT-DA。PunishGPT-DA由生成器Gθ和過濾器F2個模塊組成。圖1說明了本方法的步驟:1)通過改進的損失函數(shù)微調(diào)生成器的語言模型,訓(xùn)練生成器學(xué)習(xí)在原始句子的基礎(chǔ)上合成新樣本,得到參數(shù)被微調(diào)之后的生成器Gθ。2)對Dtrain進行處理作為Gθ的輸入生成數(shù)據(jù)Dsyn,Dsyn相較于原損失函數(shù)訓(xùn)練出的生成器生成的數(shù)據(jù)擁有更高的多樣性,但也不可避免地引入了噪聲。3)針對此問題,采用原始數(shù)據(jù)Dtrain微調(diào)過濾器F,將每次迭代生成的樣本Dsyn由F過濾,丟棄低質(zhì)量的樣本,得到過濾后的增強樣本Dfilter,Dfilter并入原始數(shù)據(jù)集中作為新的Dtrain進行下一次迭代,經(jīng)過一定次數(shù)的迭代后得到最終的數(shù)據(jù)集Daug。

圖1 PunishGPT-DA數(shù)據(jù)增強過程Fig.1 PunishGPT-DA data augmentation process

2.2 生成器

PunishGPT-DA采用預(yù)訓(xùn)練語言模型GPT-2生成數(shù)據(jù),GPT-2是一個在海量數(shù)據(jù)集上訓(xùn)練的語言模型,采用“預(yù)訓(xùn)練+微調(diào)”的二段式訓(xùn)練策略,它利用龐大的語料庫進行預(yù)訓(xùn)練,語料庫被處理成由token組成的長序列,由U=w1,w2,···,wj,···,wT表示,生成模型采用無監(jiān)督自回歸訓(xùn)練的方式,以最大化生成目標(biāo)序列的概率為目標(biāo),根據(jù)極大似然估計,可以最大化目標(biāo)序列U出現(xiàn)的概率,即最大化P(U),根據(jù)條件概率的鏈?zhǔn)椒▌t,可以將生成目標(biāo)序列的概率表示為條件概率的乘積:

將式(1)取對數(shù)并加上負(fù)號,得到負(fù)對數(shù)似然損失函數(shù)為

在數(shù)據(jù)增強任務(wù)中,同預(yù)訓(xùn)練一致,以句子自身指導(dǎo)模型的微調(diào),即以最大化生成目標(biāo)序列的概率為目標(biāo),因此,以負(fù)對數(shù)似然函數(shù)作為損失函數(shù)的生成模型鼓勵生成與原數(shù)據(jù)相似的句子,使生成的文本趨于重復(fù)和“枯燥”,當(dāng)以此為目標(biāo)訓(xùn)練得非常好時,甚至?xí)膳c輸入句子完全一致的樣本數(shù)據(jù)。

為了關(guān)注生成數(shù)據(jù)的多樣性,本文引入懲罰項來中和現(xiàn)有的損失函數(shù),同時為了平衡多樣性與語義一致性,引入超參數(shù)α,改進后的損失函數(shù)為

式(3)是一種加權(quán)損失函數(shù),由Jθ和exp(-Jθ)2部分組成。其中Jθ,即式(2)是負(fù)對數(shù)似然損失,用于衡量生成的序列和目標(biāo)序列之間的差距;exp(-Jθ)將其視為懲罰項,用于懲罰過度相似的生成結(jié)果,這意味著,如果生成器產(chǎn)生與目標(biāo)序列中過于相似的token,它將受到懲罰。本文擬通過添加exp(-Jθ),使模型會在給定上下文條件下,根據(jù)語言的語法和語義規(guī)則,更加關(guān)注可能性較小但仍然有一定意義與合理性的輸出。這些輸出可能是預(yù)測概率較小但仍然合理的單詞、短語、句子結(jié)構(gòu)等,在某些情況下可能會提供更有趣、更具創(chuàng)造性的文本。α是一個用于控制Jθ和exp(-Jθ)2部分在損失函數(shù)中重要程度的超參數(shù),當(dāng)α較小時,exp(-Jθ)的影響更大,從而鼓勵生成多樣性更高的樣本。相反,當(dāng)α較大時,Jθ的影響更大,從而鼓勵生成語義一致性更高的樣本。因此,式(3)可以看作在保證生成序列準(zhǔn)確的基礎(chǔ)上,通過懲罰過度自信的生成結(jié)果來鼓勵生成更多的多樣性,通過調(diào)整α的值,可以在一致性和多樣性之間進行平衡,獲得高質(zhì)量的生成結(jié)果。

此外,在預(yù)測階段,通常采用序列的前i個字符作為前綴提示后續(xù)詞語的生成,然而,Dtrain中存在多個序列前i個字符相同,以相同的前綴作為提示會導(dǎo)致原本不同標(biāo)簽的2個句子對應(yīng)的增強樣本可能相同,使得增強樣本語義標(biāo)簽不明。因此,本文為每條訓(xùn)練數(shù)據(jù)添加了數(shù)字序號作為該數(shù)據(jù)的唯一標(biāo)志,數(shù)字序號隨訓(xùn)練數(shù)據(jù)一起參與訓(xùn)練。在預(yù)測階段,數(shù)字序號與前i個字符一起作為前綴,確保了前綴的唯一性,并為生成器提供了額外的上下文,形式為(〈SOS〉,w1,w2,···,wi),其中〈SOS〉是數(shù)字序號,(w1,w2,···,wi)是樣本的前i個字符。這種操作確保了增強樣本彼此不同,但仍然基于實際數(shù)據(jù)。

2.3 過濾器

使用增強樣本的一個障礙是它可能引入的噪聲和誤差。雖然在微調(diào)生成器時同時考慮了語義保留和豐富表達,避免了模型過度生成低頻詞,但自然語言具有復(fù)雜性,有可能微小的改動便會影響句子的語義,導(dǎo)致增強數(shù)據(jù)集中的低質(zhì)量樣本對下游任務(wù)模型的性能產(chǎn)生影響。為此,如圖1所示,本文使用基于BERT的過濾器F對其進行過濾選擇,過濾器F包括BERT層、線性層、ReLU激活函數(shù)層。輸入數(shù)據(jù)首先經(jīng)過BERT層獲取特征表示,其次通過Dropout技術(shù)進行正則化處理,以減少過擬合風(fēng)險,然后將Dropout層的輸出輸入到一個具有786個輸入特征和類別數(shù)量輸出特征的線性變換層,將特征表示映射到分類標(biāo)簽的空間,最后經(jīng)過ReLU激活函數(shù)得到最終的分類結(jié)果。對于生成的樣本 (y,l),驗證是否F(y)=l,若分類正確則保留,不正確舍棄。因此,每一次完整的迭代后會得到增強數(shù)據(jù)集Dfilter,Dfilter并入原始集作為新的訓(xùn)練集。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

本文共使用了3個公開的句子分類數(shù)據(jù)集,分別是由法國公司SNIPS在人機交互過程中收集的數(shù)據(jù)集SNIPS,包含7個意圖類別共14 484條數(shù)據(jù)。由文本檢索會議(text retrieval conference, TERC)標(biāo)注的細粒度問題分類數(shù)據(jù)集TREC,包含6種問題類型共5 952條數(shù)據(jù)。由斯坦福大學(xué)自然語言處理組標(biāo)注的情感分析數(shù)據(jù)集(stanford sentiment treebank v2, SST-2), SST-2屬于電影評論情感分類的數(shù)據(jù)集,用2個標(biāo)簽(positive和negative)標(biāo)注,共8 741條數(shù)據(jù)。

3.2 實驗設(shè)置

根據(jù)先前工作[25]模擬用于句子分類少樣本場景的設(shè)置,本文針對每個任務(wù)的訓(xùn)練集進行子采樣,每個類隨機選擇10個樣本,每個數(shù)據(jù)增強模型均對其進行16倍擴充。為避免數(shù)據(jù)集的隨機性帶來誤差,本文一個任務(wù)下的對比實驗均采用相同的子數(shù)據(jù)集。為更好地測試模型的性能,本文的驗證集和測試集采用完整的數(shù)據(jù)集。

在微調(diào)GPT-2階段,設(shè)置批量大小為2,迭代次數(shù)為100,學(xué)習(xí)率設(shè)定為1×10-5,樣本最大長度為20,超過則截斷;生成數(shù)據(jù)時每條句子的提示為“i w1w2”。BERT在大量數(shù)據(jù)上進行預(yù)訓(xùn)練,并在幾個句子分類任務(wù)上表現(xiàn)出最先進的性能。因此,本文使用BERT模型構(gòu)建過濾器及句子分類器,本文使用“BERT-Base-Uncased” 模型,該模型有12層,768個隱藏狀態(tài)和12個頭。PunishGPT-DA使用BERT模型第1個特殊字符([CLS])的輸出作為句子的特征表示,在傳入下一層進行分類之前,以0.1的dropout設(shè)置應(yīng)用于句子表示。訓(xùn)練過程采用自適應(yīng)矩估計算法(adaptive moment estimation,Adam)進行優(yōu)化,學(xué)習(xí)率設(shè)置為4×10-5,本文對模型進行100個epoch的訓(xùn)練,并在驗證集上選擇表現(xiàn)最好的模型進行評估。

所有的實驗均在Intel Core i5-9 500 3.00 GHz處理器,GeForce RTX 2028 SUPER顯卡,Ubuntu 20.04.4 LTS,python 3.8.0下進行。

本文實驗將與以下模型進行對比:

1) GPT-2[7]:為驗證本文提出損失函數(shù)的有效性,本文以GPT-2作為基準(zhǔn)模型,該模型以式(1)為損失函數(shù),其余條件與PunishGPT-DA保持一致。

2) EDA[4]:以詞替換、交換、插入和刪除為基礎(chǔ)的數(shù)據(jù)增強方法。

3) AEDA[5]:在句子中隨機插入標(biāo)點符號實現(xiàn)數(shù)據(jù)增強。

4) GPTcontext[25]:采用文獻[6]中的方式,將標(biāo)簽與序列連接起來構(gòu)造訓(xùn)練集:y1SEPx1EOSy2, ···,ynSEPxnEOS。在此基礎(chǔ)上以yiSEPw1, ···,wk作為生成階段的提示,生成增強數(shù)據(jù)。

3.3 實驗結(jié)果與分析

本文對比了在意圖識別、問題分類及情感分析任務(wù)少樣本情景下的數(shù)據(jù)增強策略,表1總結(jié)了多種數(shù)據(jù)增強方法下同一模型在不同數(shù)據(jù)集中的分類準(zhǔn)確率。

表1 不同增強策略下的模型準(zhǔn)確率Table 1 Model accuracy under different augmentation strategies%

如表1所示,與基線模型GPT-2相比,本文提出的數(shù)據(jù)增強方法在3個數(shù)據(jù)集上的準(zhǔn)確率相對提升了1.1%、4.9%和8.7%,這說明本文提出的損失函數(shù)能有效提升增強數(shù)據(jù)的質(zhì)量;相較于EDA、AEDA和GPTcontex方法,本文提出的數(shù)據(jù)增強方法在3個數(shù)據(jù)集上的準(zhǔn)確率均有提升,表明了本文增強方法的普遍性。

本文對比了不同超參數(shù)α設(shè)置下PunishGPTDA的性能,采用SNIPS 的子采樣后的數(shù)據(jù)集,每個類別包含10個樣本,對其進行16倍擴充。如圖2所示,α=0.3之前模型準(zhǔn)確率較低,這是因為在超參數(shù)控制下增強數(shù)據(jù)多樣性較強,為數(shù)據(jù)集引入了過多的噪聲;隨著α增大,曲線逐漸上升,直到α=0.45時下游任務(wù)模型準(zhǔn)確率達到最高,此時生成模型能夠很好地控制數(shù)據(jù)多樣性和一致性之間的平衡,使模型準(zhǔn)確率達到最好的效果;隨著α繼續(xù)增大,一致性占據(jù)優(yōu)勢,使得生成數(shù)據(jù)相較于原數(shù)據(jù)只有微小的改動,致使模型準(zhǔn)確率下降,趨于平緩。這表明,本文提出的損失函數(shù)能夠同時控制語義和多樣化的表達,有效平衡數(shù)據(jù)的一致性和多樣性。

圖2 不同超參數(shù)下模型準(zhǔn)確率Fig.2 Model accuracy under different hyperparameters

本文研究了過濾機制對PunishGPT-DA性能的影響,分別在3個子采樣后的數(shù)據(jù)集上進行了消融實驗。實驗結(jié)果如表2所示,刪除了過濾機制后,模型準(zhǔn)確率均有下降。這表明過濾器對整個增強過程至關(guān)重要。

表2 過濾機制對PunishGPT-DA的影響Table 2 Influence of filtering mechanism on PunishGPT-DA%

此外,本文還研究了在不同數(shù)據(jù)集大小情況下PunishGPT-DA對下游任務(wù)模型性能的影響。表3為模型在SNIPS 數(shù)據(jù)集上進行實驗的結(jié)果,每種意圖類別分別取為5、10、20、50、100條數(shù)據(jù)作為訓(xùn)練樣本,構(gòu)成少樣本數(shù)據(jù)集,并進行16倍擴充。如表3所示,隨著訓(xùn)練數(shù)據(jù)的增多,本文的數(shù)據(jù)增強方法對下游任務(wù)模型性能的提升作用越來越弱。這表明在少樣本情境下,本文所提出的數(shù)據(jù)增強方法可以有效提升句子分類任務(wù)模型性能,當(dāng)訓(xùn)練數(shù)據(jù)較為充足時,已經(jīng)能為下游任務(wù)模型提供較為豐富的信息,數(shù)據(jù)增強帶來的效益也就隨之減弱。

表3 PunishGPT-DA在不同數(shù)據(jù)集大小下的準(zhǔn)確率Table 3 Accuracy of PunishGPT-DA under different dataset sizes%

為了更加明確損失函數(shù)的作用機制,本文分別對采用2種損失函數(shù)生成的數(shù)據(jù)進行了探索,如表4所示,本文分別摘取了部分?jǐn)?shù)據(jù)。通過觀察損失函數(shù)式(3)生成的數(shù)據(jù)及過濾后的數(shù)據(jù)可以發(fā)現(xiàn),數(shù)據(jù)較原始數(shù)據(jù)有較大的多樣性,但大體上符合標(biāo)簽語義;采用損失函數(shù)式(2)生成的數(shù)據(jù)較原始數(shù)據(jù)只有個別單詞的變化,多樣性引入不足。由此可以發(fā)現(xiàn)本文提出損失函數(shù)的有效性。

表4 生成數(shù)據(jù)示例Table 4 Generate data samples

4 結(jié)束語

針對少樣本句子分類任務(wù)中訓(xùn)練數(shù)據(jù)不足的問題,本文提出一種平衡語義一致性和多樣性的數(shù)據(jù)增強方法PunishGPT-DA,與當(dāng)前主流方法相同,此方法建立在大規(guī)模的預(yù)訓(xùn)練語言模型的基礎(chǔ)上,同時又區(qū)別于當(dāng)前主流方法修改提示指導(dǎo)生成模型生成階段的做法,本文提出的方法從訓(xùn)練角度指導(dǎo)模型生成數(shù)據(jù)。實驗結(jié)果表明,在小樣本情景下,本文方法可以更有效地保證數(shù)據(jù)質(zhì)量,有效提高句子分類模型的分類準(zhǔn)確率。盡管本文解決了增強樣本質(zhì)量不高的問題,然而通過損失函數(shù)控制數(shù)據(jù)的生成,可能會導(dǎo)致語法不可控地變化,不符合人類正常的閱讀習(xí)慣,因此,在句子結(jié)構(gòu)多樣性方面還有一定的提升空間。下一步將探索句子結(jié)構(gòu)方面的改進,使其更加自然流暢。

猜你喜歡
語義分類樣本
分類算一算
用樣本估計總體復(fù)習(xí)點撥
語言與語義
分類討論求坐標(biāo)
推動醫(yī)改的“直銷樣本”
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
隨機微分方程的樣本Lyapunov二次型估計
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
村企共贏的樣本
玉环县| 青神县| 绵阳市| 岗巴县| 宾阳县| 绩溪县| 霍林郭勒市| 大庆市| 石棉县| 融水| 汝城县| 响水县| 汶川县| 嘉峪关市| 濉溪县| 双牌县| 奉节县| 会理县| 阳东县| 沅陵县| 洪雅县| 治县。| 金溪县| 邵武市| 绥滨县| 甘孜| 田林县| 赤壁市| 原平市| 中卫市| 得荣县| 霍林郭勒市| 平陆县| 嘉鱼县| 三河市| 炎陵县| 阿拉善盟| 胶州市| 东山县| 濉溪县| 壶关县|