国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合標(biāo)簽關(guān)聯(lián)的隱空間數(shù)據(jù)增強(qiáng)多標(biāo)簽文本分類方法

2023-12-18 08:58:32苗育華李格格線巖團(tuán)
現(xiàn)代電子技術(shù) 2023年24期
關(guān)鍵詞:空間數(shù)據(jù)基線標(biāo)簽

苗育華, 李格格, 線巖團(tuán)

(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院, 云南 昆明 650500;2.昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室, 云南 昆明 650500)

0 引 言

多標(biāo)簽文本分類是文本分類的子任務(wù),是從標(biāo)簽集合中選中具體標(biāo)簽,為每個(gè)實(shí)例分配最相關(guān)的類標(biāo)簽子集,目前已廣泛應(yīng)用在信息檢索[1]、情感計(jì)算[2]、情感分析[3]、郵件垃圾郵件檢測[4]和多模態(tài)情感分析[5]等領(lǐng)域。多標(biāo)簽文本分類比單標(biāo)簽分類更復(fù)雜,每個(gè)實(shí)例都涉及到一個(gè)或多個(gè)類別,且類別數(shù)量不固定,部分類別之間往往是相互關(guān)聯(lián)的,因此多標(biāo)簽文本分類是自然語言處理中一個(gè)重要而又具有挑戰(zhàn)性的課題。

現(xiàn)如今在多標(biāo)簽文本分類的任務(wù)中,標(biāo)簽分類變得極為復(fù)雜,很多時(shí)候都出現(xiàn)了“長尾”分布,也就是標(biāo)簽不平衡。所謂的標(biāo)簽不平衡問題,就是指數(shù)據(jù)集頭部標(biāo)簽有很多的實(shí)例,但是在尾標(biāo)簽中較少存在甚至只有幾個(gè)實(shí)例,導(dǎo)致標(biāo)簽下的數(shù)據(jù)嚴(yán)重不平衡,即可以理解為標(biāo)簽“長尾”的問題。面對(duì)標(biāo)簽不平衡問題,在數(shù)據(jù)層面,主要的方法中根據(jù)數(shù)據(jù)本身進(jìn)行一些替換,構(gòu)造噪聲數(shù)據(jù);在集成算法層面,包括樣本采樣方法、代價(jià)敏感學(xué)習(xí)方法[6]等,主要是在模型訓(xùn)練階段對(duì)訓(xùn)練實(shí)例的樣本進(jìn)行采樣訓(xùn)練。

本文從標(biāo)簽聯(lián)系和數(shù)據(jù)增強(qiáng)的角度出發(fā),利用隱空間數(shù)據(jù)增強(qiáng)的思想,提出一種融合標(biāo)簽關(guān)聯(lián)的隱空間數(shù)據(jù)增強(qiáng)的多標(biāo)簽文本分類方法。首先計(jì)算出各個(gè)標(biāo)簽相互出現(xiàn)的次數(shù),通過對(duì)訓(xùn)練數(shù)據(jù)的挖掘,發(fā)現(xiàn)各類標(biāo)簽聯(lián)系的先驗(yàn)知識(shí)。在隱空間中,通過標(biāo)簽之間的聯(lián)系來匹配數(shù)據(jù),并將標(biāo)簽的先驗(yàn)知識(shí)和文本特征相結(jié)合,創(chuàng)建出一條隱空間下的合成樣本,進(jìn)而解決類別下數(shù)據(jù)不平衡的問題。

本文將Mixup 數(shù)據(jù)增強(qiáng)的方法引入到多標(biāo)簽文本分類的任務(wù)中,在隱空間下通過原始數(shù)據(jù)和其他相關(guān)數(shù)據(jù)進(jìn)行結(jié)合,有效地提高了多標(biāo)簽文本分類模型的泛化能力。同時(shí),提出了融合標(biāo)簽關(guān)聯(lián)的先驗(yàn)知識(shí)來進(jìn)行數(shù)據(jù)策略增強(qiáng),利用先驗(yàn)知識(shí)改進(jìn)合成策略,在文本的表示空間下擴(kuò)增了低頻標(biāo)簽樣本,提高了多標(biāo)簽文本分類的效果。實(shí)驗(yàn)結(jié)果表明,該方法能應(yīng)用于一些強(qiáng)大的基礎(chǔ)模型上,并在每種情況下性能都有一定的提升,在具有挑戰(zhàn)性的AAPD 和RCV1-V2 兩個(gè)數(shù)據(jù)集上的微平均F1值分別達(dá)到了74.86%和89.05%,相較于基線模型取得了較好的提升。

1 相關(guān)工作

討論常見的多標(biāo)簽文本分類方法,主要包括機(jī)器學(xué)習(xí)算法和現(xiàn)在比較成熟的神經(jīng)網(wǎng)絡(luò)方法,還討論了當(dāng)前對(duì)多標(biāo)簽文本分類下標(biāo)簽不平衡問題的解決方法。

1.1 問題轉(zhuǎn)換方法

多標(biāo)簽文本分類是單標(biāo)簽分類的分支,在二分類任務(wù)中的技術(shù)已經(jīng)相當(dāng)成熟。問題轉(zhuǎn)換方法就是將復(fù)雜的問題轉(zhuǎn)化為一個(gè)更簡單的問題。在這種思想下,將原始多標(biāo)簽文本分類問題轉(zhuǎn)換為多個(gè)二分類問題或者多類分類的問題。二元相關(guān)性算法(Binary Relevance,BR)[7]就是典型的問題轉(zhuǎn)換方法。LP(Label Powerset)[8]為每一個(gè)可能的標(biāo)簽組合提供一個(gè)獨(dú)特的類,將任務(wù)轉(zhuǎn)換為標(biāo)簽組合的多類分類問題?;诜诸惼麈湥–C)的方法[9]是對(duì)BR 算法的一個(gè)改進(jìn),將任務(wù)轉(zhuǎn)化為二元分類問題鏈。但是該方法的問題就是通過分類鏈的順序和先前分類器的預(yù)測得到標(biāo)簽的預(yù)測準(zhǔn)確度,對(duì)模型性能有著很大的影響,而且不能預(yù)測沒有出現(xiàn)在當(dāng)前標(biāo)簽組合內(nèi)的標(biāo)簽。

1.2 算法自適應(yīng)方法

基于算法自適應(yīng)的方法擴(kuò)展了傳統(tǒng)的標(biāo)簽分類技術(shù),采用合適的算法直接處理多個(gè)標(biāo)簽數(shù)據(jù)來解決多標(biāo)簽文本分類。ML-DT[10]算法借鑒了決策樹根據(jù)信息增益篩選特征生成分類器的思想來解決多標(biāo)簽分類。Elisseeff 等人提出排名支持向量機(jī)(Ranking Support Vector Machine, Rank-SVM),使用一個(gè)新的度量,采用支持向量機(jī)訓(xùn)練來處理多標(biāo)簽問題[11]。ML-KNN(Multi-Label K-Nearest-Neighbor)[12]算法是在內(nèi)部構(gòu)建一個(gè)BR分類器,通過K 近鄰的方法處理多標(biāo)簽數(shù)據(jù),然后計(jì)算每個(gè)標(biāo)簽的先驗(yàn)概率和條件概率。

1.3 神經(jīng)網(wǎng)絡(luò)方法

深度學(xué)習(xí)方法發(fā)展快速,在自然語言處理領(lǐng)域內(nèi)的任務(wù)中得到了廣泛的應(yīng)用。G.Kurata 提出使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行分類[13],J.Nam 等人基于RNN 的Seq2Seq 來建模,借助RNN 依次產(chǎn)生的標(biāo)簽序列來捕獲標(biāo)簽之間的相關(guān)性[14]。Chen 等人將CNN 和RNN 進(jìn)行了融合[15],Yang 等人提出了SGM 方法,將注意力機(jī)制融入Seq2Seq 框架[16]。雖然有一些方法提出了改進(jìn),但是能否學(xué)到標(biāo)簽之間的相關(guān)性還有待商榷。 隨著Transformer 和BERT 的提出,Sun 等人將BERT 應(yīng)用到文本分類中,介紹了一些調(diào)參和改進(jìn)的方法,進(jìn)一步挖掘BERT 在文本分類中的應(yīng)用[17]。深度學(xué)習(xí)算法大大提高了多標(biāo)簽文本的分類效果,但仍有很大的提升空間。

1.4 解決標(biāo)簽不平衡策略

數(shù)據(jù)增強(qiáng)方法在解決數(shù)據(jù)不平衡方面有著一定的改進(jìn)。數(shù)據(jù)擴(kuò)展是一種范圍從基于規(guī)則到基于可學(xué)習(xí)的生成方法,而且上述所有方法基本上都保證了擴(kuò)展數(shù)據(jù)[18]的有效性。文獻(xiàn)[19]僅用于對(duì)文本分類的數(shù)據(jù)增強(qiáng)的綜述。Zhang 等人將敘詞表應(yīng)用于數(shù)據(jù)增強(qiáng),使用來自WordNet 的同義詞典,根據(jù)它們的相似性對(duì)同義詞進(jìn)行分類[20]。Min 等人交換數(shù)據(jù)的主語和賓語,而且還將謂語動(dòng)詞轉(zhuǎn)換成被動(dòng)語態(tài),以此來達(dá)到數(shù)據(jù)增強(qiáng)的目的[21]。V.Verma 等人提出一種在嵌入空間中生成偽樣本(x~,y~)的Manifold Mixup 方法[22]。

2 模 型

面對(duì)多標(biāo)簽文本分類任務(wù),已有方法沒有很好地解決標(biāo)簽不平衡問題。本文從標(biāo)簽聯(lián)系和數(shù)據(jù)增強(qiáng)的角度出發(fā),利用隱空間數(shù)據(jù)增強(qiáng)的思想,提出了一種融合標(biāo)簽關(guān)聯(lián)的隱空間數(shù)據(jù)增強(qiáng)的多標(biāo)簽文本分類方法。模型整體框架如圖1 所示。

圖1 模型整體框架

2.1 符號(hào)表示

2.2 模型架構(gòu)

2.2.1 編碼層

本文模型的編碼層包括詞嵌入層、編碼層和結(jié)構(gòu)化注意力層,詞嵌入層使得詞序列xi= (w1,w2,…,wk,…,wn)經(jīng)過詞嵌入了詞序列的低維向量E= (e1,e2,…,ek,…,en),其中ek∈Rd表示第k個(gè)詞元素,為驗(yàn)證數(shù)據(jù)增強(qiáng)方法的適用性,分別以Bi-LSTM 和Bert 作為模型的編碼器,將E作為輸入,傳入編碼器,通過訓(xùn)練得到數(shù)據(jù)集對(duì)應(yīng)的隱狀態(tài)H= (h1,h2,…,hk,…,hn),其中hk表示每條數(shù)據(jù)的隱狀態(tài)。在編碼后,利用結(jié)構(gòu)化自注意力機(jī)制將隱狀態(tài)H作為輸入,得到:

式 中:注 意 力 權(quán) 重 矩 陣A∈Rr×n;Ws1∈Rda×(2u+d);Ws2∈Rr×d是注意力層的參數(shù)。da、r為模型的超參數(shù),da為注意力層的隱狀態(tài)維度,r為注意力機(jī)制的個(gè)數(shù)。

由文本詞序列的隱狀態(tài)表示H和注意力權(quán)重矩陣A得到句子的嵌入矩陣M=AH,最終通過M中的r個(gè)向量拼接得到文本的向量X= (X1,X2,…,Xi,…,XN)。

2.2.2 隱空間數(shù)據(jù)增強(qiáng)

為融入標(biāo)簽之間的關(guān)系,通過對(duì)數(shù)據(jù)集的分析,統(tǒng)計(jì)出各個(gè)標(biāo)簽相互出現(xiàn)的次數(shù),其中標(biāo)簽對(duì)自身的影響為0,構(gòu)建矩陣L=[L1,L2,…,Li,…,Lk],其維度為k×k,其中k為標(biāo)簽類別數(shù)量。為計(jì)算出標(biāo)簽之間的影響,對(duì)Li按行進(jìn)行歸一化操作,其長度為k,表示其他標(biāo)簽對(duì)當(dāng)前第i個(gè)標(biāo)簽的影響得分,最終得到得分矩陣L~ =[L~1,L~2,…,L~i,…,L~k]。

本文借鑒Manifold Mixup 方法的思想,在文本的隱藏空間中合成偽樣本。在此基礎(chǔ)上,提出融合標(biāo)簽關(guān)聯(lián)的隱空間下的數(shù)據(jù)增強(qiáng)策略。在合成樣本時(shí)采用標(biāo)簽匹配策略,通過對(duì)每條訓(xùn)練數(shù)據(jù)的標(biāo)簽yi與數(shù)據(jù)集中的所有數(shù)據(jù)的標(biāo)簽集合Y= (Y1,Y2,…,Yi,…,YN)進(jìn)行計(jì)算。其中yi的長度為標(biāo)簽類別長度k,Y的維度為N×k,通過式(2)得到與原始數(shù)據(jù)(xi,yi)匹配的數(shù)據(jù)(xj,yj)。

式中:D( )x,y為數(shù)據(jù)集的文本及標(biāo)簽特征表示的集合;F(·)表示隨機(jī)取出與原始樣本的標(biāo)簽相近的數(shù)據(jù)位置。對(duì)訓(xùn)練樣本(xi,yi)和匹配樣本(xj,yj)進(jìn)行結(jié)合,得出偽樣本,公式如下:

式中:λ∈[0,1]為樣本的混合因子,由Beta(α,α)分布采樣得到;α為超參數(shù);f(yj,yi)表示匹配標(biāo)簽特征yj對(duì)于訓(xùn)練標(biāo)簽特征yi中每類標(biāo)簽不一樣的位置;m表示將標(biāo)簽出現(xiàn)在yj但不在yi中的位置記為1,其他標(biāo)簽位置記為0;k為 標(biāo)簽個(gè)數(shù);g(m,L~)表示在序列m為1 的位置上,通過得分矩陣L~,得出其他為1 的標(biāo)簽對(duì)當(dāng)前標(biāo)簽影響的概率,最終通過伯努利分布得出m對(duì)應(yīng)位置具體標(biāo)簽分配;G(·)表示將標(biāo)簽特征集合進(jìn)行融合,得出偽數(shù)據(jù)的標(biāo)簽特征。

2.2.3 損失函數(shù)

在計(jì)算損失函數(shù)時(shí),借鑒Circle Loss 思想[23],基于深度特征學(xué)習(xí)對(duì)相似度優(yōu)化的觀點(diǎn),以類內(nèi)相似度sp最大、類之間相似度sn最小為目標(biāo)。再結(jié)合蘇劍林提出的“softmax +交叉熵”的思想[24],得到:

式中:Ωneg和Ωpos分別代表樣本的正負(fù)類別集合;si為非目標(biāo)類中第i類的得分;sj為目標(biāo)類中第j類的得分,對(duì)于額外的0 類得分s0,使其閾值為0。對(duì)于訓(xùn)練樣本和偽樣本,通過損失函數(shù)得到最終的混合損失:

式中:?~1為訓(xùn)練數(shù)據(jù)的損失;?~2為偽數(shù)據(jù)的損失;α∈[0,1]為損失結(jié)合的超參數(shù)。

3 實(shí) 驗(yàn)

介紹用于實(shí)驗(yàn)的兩個(gè)數(shù)據(jù)集、評(píng)價(jià)指標(biāo)和基線方法,并且展示在兩個(gè)不同的編碼器下的實(shí)驗(yàn)結(jié)果,驗(yàn)證所提方法的有效性。

3.1 數(shù)據(jù)集

采用以下兩個(gè)數(shù)據(jù)集進(jìn)行試驗(yàn)驗(yàn)證:

1) Arxiv Academic Paper Dataset(AAPD)[25]:是 由Yang 等人創(chuàng)建的,考慮到一篇論文可能涉及到一個(gè)或者多個(gè)學(xué)科,最終共收集了54 種學(xué)科共計(jì)55 840 篇論文的摘要。

2) Reuters Corpus Volume I(RCV1-V2)[26]:是 由Lewis 等人收集路透社新聞專欄報(bào)道得到的,共計(jì)103 個(gè)主題和804 414 篇報(bào)道。

3.2 評(píng)價(jià)指標(biāo)

基于已有研究[25,27-28],采用漢明損失(HL)和微平均下的F1得分作為主要的評(píng)價(jià)指標(biāo),同時(shí)測試微平均下的準(zhǔn)確率和召回率。

3.3 基線模型

本文方法將與以下幾個(gè)基線模型進(jìn)行比較:

1) LSTM:應(yīng)用長短期記憶網(wǎng)絡(luò)來考慮文本的順序結(jié)構(gòu),以及減輕爆炸和消失梯度的問題。

2) Bert:使用以Transformer 為主要框架的雙向編碼表征模型。使用了大量的語料庫進(jìn)行訓(xùn)練,在許多自然語言處理的任務(wù)中實(shí)現(xiàn)了很高的性能。

3) BR、CC、LP、CNN-RNN、SGM 的結(jié)果在之前的論文中被引用,其他基線的結(jié)果由本文實(shí)現(xiàn),所有算法都遵循相同的數(shù)據(jù)劃分。

4 實(shí)驗(yàn)結(jié)果和分析

4.1 對(duì)比實(shí)驗(yàn)

本文提出的基于標(biāo)簽先驗(yàn)知識(shí)的數(shù)據(jù)增強(qiáng)方法,分別基于Bi-LSTM 和BERT 兩種編碼器對(duì)AAPD 和RCV1-V2 兩個(gè)數(shù)據(jù)集進(jìn)行處理。將本文方法與基線模型進(jìn)行對(duì)比,結(jié)果如表1 和表2 所示。從表1 和表2 可以看出,在使用Mixup 方法后,對(duì)基線模型的性能都有一定的提升。

表1 數(shù)據(jù)集AAPD 在每個(gè)算法上的性能

表2 數(shù)據(jù)集RCV1-V2 在每個(gè)算法上的性能

由表1 可知,在處理AAPD 數(shù)據(jù)集時(shí),對(duì)于基線方法中最好的BERT 方法,本文方法基于BERT 編碼的微平均F1值提高了4.2%,漢明損失值0.021 4 較SGM 值0.025 1 提高14.7%。在表2 中,隨著RCV1-V2 的數(shù)據(jù)集實(shí)例數(shù)量的增加,不同的基線方法都獲得了一定的提升,可見數(shù)據(jù)規(guī)模對(duì)模型也有著一定的影響。其中基于BERT 編碼方式的本文方法的微平均F1值最高,為0.890 5。對(duì)于兩個(gè)數(shù)據(jù)集同時(shí)使用本文方法,發(fā)現(xiàn)基于BERT 編碼方式優(yōu)于基于LSTM 方式,在AAPD 數(shù)據(jù)集上提升了3.62%,在RCV1-V2 的數(shù)據(jù)集上提升了4.29%。表1中展示的兩個(gè)數(shù)據(jù)集實(shí)驗(yàn)結(jié)果,證實(shí)了本文方法比已有處理大型數(shù)據(jù)集的方法都具有顯著的優(yōu)勢。

4.2 消融實(shí)驗(yàn)

標(biāo)簽先驗(yàn)知識(shí)的數(shù)據(jù)增強(qiáng)策略是本文方法的重要組成部分,為驗(yàn)證對(duì)多標(biāo)簽文本分類模型的影響,本文進(jìn)行兩組消融實(shí)驗(yàn)。第一組實(shí)驗(yàn)在隱空間數(shù)據(jù)增強(qiáng)構(gòu)建合成數(shù)據(jù)的過程中,移除標(biāo)簽先驗(yàn)知識(shí)對(duì)合成標(biāo)簽的影響,標(biāo)記為(raw_mix);第二組實(shí)驗(yàn)在模型訓(xùn)練過程中移除了隱空間數(shù)據(jù)增強(qiáng)策略,標(biāo)記為(att)。數(shù)據(jù)集AAPD 和RCV1-V2 加入Mixup 方法性能前后對(duì)比的結(jié)果如表3 所示。

表3 數(shù)據(jù)集AAPD 和RCV1-V2 加入Mixup方法前后性能對(duì)比結(jié)果

由表3 可知,在移除標(biāo)簽先驗(yàn)知識(shí)對(duì)合成標(biāo)簽的影響后,基于BERT 編碼時(shí),AAPD 和RCV1-V2 兩個(gè)數(shù)據(jù)集融入隱空間數(shù)據(jù)增強(qiáng)方法對(duì)于性能有著一定的提升,且在數(shù)據(jù)集實(shí)例較少的AAPD 上,宏平均F1值從0.564 2到0.594 0,上升了約3 個(gè)百分點(diǎn)。

在移除隱空間數(shù)據(jù)增強(qiáng)策略后,基于LSTM 編碼方式下在AAPD 數(shù)據(jù)集上微平均F1提升了2.5%,基于LSTM 編碼方式在AAPD 數(shù)據(jù)集上宏平均F1值提升了2.98%。但隨著數(shù)據(jù)規(guī)模的增大,在RCV1-V2 數(shù)據(jù)集上整體提升較小。

5 結(jié) 語

本文提出一種利用標(biāo)簽之間的先驗(yàn)知識(shí)在隱空間進(jìn)行數(shù)據(jù)增強(qiáng)的方法,以解決多標(biāo)簽文本分類任務(wù)中類別不平衡的問題。相比于其他解決標(biāo)簽不平衡方法,本文方法摒棄了傳統(tǒng)的數(shù)據(jù)增強(qiáng)的思想,無需額外的人工標(biāo)注和對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)建,也不用降采樣或過采樣,只在模型的隱空間中的特征層進(jìn)行拼接數(shù)據(jù)的創(chuàng)建,以及通過對(duì)長尾標(biāo)簽下的數(shù)據(jù)進(jìn)行一定的構(gòu)建。實(shí)驗(yàn)結(jié)果表明,在具有挑戰(zhàn)性的多標(biāo)簽數(shù)據(jù)集上隱空間Mixup 優(yōu)于有競爭力的基線,也驗(yàn)證了本文提出方法的合理性。在未來的任務(wù)中,Mixup 思想可以進(jìn)一步應(yīng)用于其他自然語言處理的分類任務(wù)。

猜你喜歡
空間數(shù)據(jù)基線標(biāo)簽
適用于MAUV的變基線定位系統(tǒng)
航天技術(shù)與甚長基線陣的結(jié)合探索
科學(xué)(2020年5期)2020-11-26 08:19:14
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
一種改進(jìn)的干涉儀測向基線設(shè)計(jì)方法
標(biāo)簽化傷害了誰
元數(shù)據(jù)驅(qū)動(dòng)的多中心空間數(shù)據(jù)同步方法研究
基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
技術(shù)狀態(tài)管理——對(duì)基線更改的控制
航天器工程(2014年5期)2014-03-11 16:35:50
基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲(chǔ)與組織研究
金乡县| 马边| 永安市| 灵宝市| 平舆县| 香港 | 红桥区| 和静县| 新蔡县| 临漳县| 邵阳市| 凤冈县| 陇南市| 连云港市| 大田县| 滕州市| 布拖县| 安宁市| 白玉县| 清远市| 公主岭市| 新巴尔虎左旗| 手游| 大方县| 泰宁县| 普兰县| 凤城市| 乐至县| 青阳县| 水富县| 江源县| 灌阳县| 灵丘县| 东明县| 榆林市| 顺平县| 鄱阳县| 唐河县| 慈溪市| 稷山县| 德令哈市|