国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于XLNet-BiGRU-Attention的行業(yè)分類方法

2022-08-02 01:40佘祥榮陳健鵬
計算機技術(shù)與發(fā)展 2022年7期
關(guān)鍵詞:語義分類模型

陳 鋼,佘祥榮,陳健鵬

(長三角信息智能創(chuàng)新研究院,安徽 蕪湖 241000)

0 引 言

行業(yè)分類對于國民經(jīng)濟統(tǒng)計、市場監(jiān)督管理等領(lǐng)域具有重要作用。企業(yè)所屬行業(yè)通常從其經(jīng)營范圍描述來推斷,但經(jīng)營范圍往往涉及到多個行業(yè)的描述,人工對行業(yè)分類存在效率低下、可靠性不高等問題?;谏窠?jīng)網(wǎng)絡(luò)的方法通常使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)[1]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[2]、長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM)[3]自動完成經(jīng)營范圍文本特征提取和行業(yè)分類任務(wù)。相比行業(yè)門類,屬于不同行業(yè)小類的企業(yè)在經(jīng)營范圍描述上存在很多相似性,利用神經(jīng)網(wǎng)絡(luò)方法很難發(fā)現(xiàn)這種微小的差異,較難做出正確的判斷。

Word2vec、glove等經(jīng)典詞向量模型可以通過將自然語言中的詞轉(zhuǎn)換為稠密的詞向量,從大量的未標記語料中學習文本的語義信息,但卻無法處理自然語言文本當中一詞多義的情況[4]。隨著遷移學習的廣泛應(yīng)用,Bert[5]成功用于大規(guī)模未標記數(shù)據(jù)的語言表示學習領(lǐng)域。雖然Bert可以有效抓取文本的上下文語義信息,但它沒有考慮到在訓(xùn)練過程中屏蔽的單詞與未屏蔽的單詞之間的關(guān)系。廣義自回歸語言模型XLNet[6]避免了BERT的缺點,它利用排列組合的原理實現(xiàn)了新的雙向編碼,具備強大的語義表征能力。雙向門控循環(huán)單元(BiGRU)適合對文本建模、獲取文本全局的結(jié)構(gòu)信息。注意力機制(Attention)可以對經(jīng)營范圍中重要的詞賦予更高的權(quán)重,可以更好地提取關(guān)鍵信息。

為克服基于機器學習和基于神經(jīng)網(wǎng)絡(luò)的行業(yè)分類方法的缺點,該文提出一種基于XLNet-BiGRU-Attention的行業(yè)分類方法。該方法通過XLNet網(wǎng)絡(luò)從經(jīng)營范圍文本中獲取具有上下文特征信息的語義表征向量,構(gòu)建基于BiGRU和Attention的候選集生成網(wǎng)絡(luò)來進一步提取上下文相關(guān)特征,通過構(gòu)建鍵值對嵌入網(wǎng)絡(luò)來進一步挖掘企業(yè)其他標簽對于行業(yè)分類的提升效果,最后將融合后的特征向量輸入到分類器完成企業(yè)行業(yè)分類。

1 相關(guān)工作

文本分類作為自然語言處理的經(jīng)典任務(wù),主要包括文本預(yù)處理、文本特征提取及分類器設(shè)計等過程,在情感分析[7]、垃圾郵件識別[8]、閱讀理解[9]等多個領(lǐng)域均具有廣泛應(yīng)用。文獻[10]提出了一種基于BiGRU和貝葉斯分類器的文本分類方法,利用BiGRU神經(jīng)網(wǎng)絡(luò)提取文本特征,通過TF-IDF算法權(quán)重賦值,采用貝葉斯分類器判別分類,縮短了模型訓(xùn)練時間,提高了文本分類效率。文獻[11]利用TextRank算法對企業(yè)的經(jīng)營范圍進行了關(guān)鍵詞提取,得到了企業(yè)的經(jīng)營范圍標簽,先后嘗試了多項樸素貝葉斯分類器、邏輯回歸分類器、隨機梯度下降這三個分類器對企業(yè)行業(yè)進行分類。

文獻[12]利用Jieba工具對企業(yè)經(jīng)營范圍內(nèi)容進行分詞,再采用簡單的貝葉斯文本分類模型,以Chi作為特征選擇的基礎(chǔ),對經(jīng)營范圍的多維特征進行選擇和重新加權(quán),再利用余弦相似度進行計算后完成行業(yè)分類。文獻[13]提出了一種基于互聯(lián)網(wǎng)簡歷大數(shù)據(jù)的行業(yè)分類方法,通過使用從專業(yè)社交網(wǎng)絡(luò)收集的在線簡歷大數(shù)據(jù)構(gòu)建勞動力流動網(wǎng)絡(luò),通過分層可擴展的社區(qū)檢測算法在勞動力流動網(wǎng)絡(luò)上實現(xiàn)了企業(yè)群體的發(fā)現(xiàn)。文獻[14]提出了一種基于文本挖掘的行業(yè)分類方法,結(jié)合機器學習技術(shù)從財務(wù)報告中的業(yè)務(wù)描述中提取不同特征,該方法在對相似企業(yè)進行行業(yè)分類時可以有效減少詞向量的維數(shù)。

文獻[15]在微軟語料庫MPRC上從影響計算特性的各因素出發(fā)比較了Bert和XLNet的性能,研究表明這兩種模型除了對目標位置的感知表示和XLNet在相對位置具有特性編碼之外,其他計算特性非常相似,但XLNet能夠獲得更好的性能。文獻[16]通過分析物聯(lián)網(wǎng)實體的語義特征及需求,構(gòu)建了基于XLNet+Bi-LSTM+Attention+CRF的命名實體識別模型,并與其他語言模型作對比分析。文獻[17]利用顯性知識從知識圖譜中匹配知識事實,在不改變Transformer結(jié)構(gòu)的前提下直接添加知識命令層,提升了預(yù)訓(xùn)練語言模型的性能。文獻[18]在XLNet基礎(chǔ)上增加LSTM網(wǎng)絡(luò)層和Attention機制,提出了XLNet-LSTM-Att情感分析優(yōu)化模型。采用XLNet預(yù)訓(xùn)練模型學習到的詞向量比以往模型獲得更多的上下文語義信息,將XLNet預(yù)訓(xùn)練模型的潛力充分挖掘成為研究人員目前的新工作[19]。

2 模型結(jié)構(gòu)

XLNet在語言表義方面具有較好的優(yōu)勢,可以更好地實現(xiàn)中文詞的語義嵌入,BiGRU可以有效獲取上下文依賴關(guān)系和文本特征,而Attention機制可以凸顯特征對最終分類任務(wù)的重要程度,從而提高模型的準確率和效率?;诖?,該文提出的行業(yè)分類模型主要由XLNet網(wǎng)絡(luò)、候選集生成網(wǎng)絡(luò)和鍵值對嵌入網(wǎng)絡(luò)構(gòu)成,如圖1所示。

圖1 XLNet-BiGRU-Attention模型結(jié)構(gòu)

XLNet網(wǎng)絡(luò)對輸入的企業(yè)經(jīng)營范圍文本進行語義信息提取,獲得具有上下文特征信息的語義表征向量。候選集生成網(wǎng)絡(luò)中的BiGRU層對語義表征向量進行進一步篩選,補充遺忘信息并生成隱藏狀態(tài)提供給Self-Attention層。候選集生成網(wǎng)絡(luò)中的Self-Attention層對BiGRU層輸出的隱藏狀態(tài)進行處理,凸顯重要性高的語義特征,并結(jié)合softmax函數(shù)生成行業(yè)分類候選集。鍵值對嵌入網(wǎng)絡(luò)對企業(yè)信息進行處理,使模型更關(guān)注對行業(yè)分類貢獻度高的特征,以提高最終行業(yè)分類的準確率。

2.1 XLNet網(wǎng)絡(luò)

XLNet的核心思想是在Transformer中通過Attention Mask矩陣對輸入序列重排列,通過學習不同排序的序列特征信息實現(xiàn)其雙向預(yù)測的目標,同時不會改變原始詞順序,有效優(yōu)化了Bert中Mask機制下的信息缺失問題。

2.2 候選集生成網(wǎng)絡(luò)

2.2.1 BiGRU層

GRU是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)模型類似于LSTM模型,可以解決梯度消失和梯度爆炸的問題。GRU由重置門和更新門兩個門結(jié)構(gòu)構(gòu)成,如圖2所示。

圖2 GRU單元結(jié)構(gòu)

各個門控單元計算公式如下:

(1)重置門rj控制過去狀態(tài)信息對候選狀態(tài)的貢獻度:

(1)

(2)更新門zj控制保留多少過去的信息和添加多少新信息:

(2)

(3)

(4)

當重置門rj趨于0時,隱藏狀態(tài)會強行忽略前一步隱藏狀態(tài),僅使用當前的輸入進行重置。這有效地實現(xiàn)了隱藏狀態(tài)丟棄任何將來不相關(guān)的信息。更新門控制有多少信息將從以前的隱藏狀態(tài)轉(zhuǎn)移到當前的隱藏狀態(tài)。

在單向的GRU網(wǎng)絡(luò)結(jié)構(gòu)中,狀態(tài)是從前往后輸出的,僅能獲取文本前文信息,難以獲取整個文本的上下文信息。然而在文本分類中,當前時刻的輸出可能與前一時刻的狀態(tài)和后一時刻的狀態(tài)都存在相關(guān)性。雙向門控循環(huán)單元可以有效獲取文本的上下文信息,為此使用BiGRU網(wǎng)絡(luò)作為信息提取網(wǎng)絡(luò),為輸出層提供輸入序列中每一個點的完整上下文信息。BiGRU結(jié)構(gòu)如圖3所示。

圖3 BiGRU結(jié)構(gòu)

雙向GRU由兩個方向的多個GRU單元組成,分為前向GRU和反向GRU。前向GRU能依據(jù)文本的上文信息來預(yù)測下文的輸出,而反向GRU則可以依據(jù)文本的下文信息來預(yù)測上文的輸出,從而實現(xiàn)文本上下文信息提取。

2.2.2 Self-Attention層

注意力機制通過將關(guān)注點聚集在焦點區(qū)域,從而獲得輸入文本的關(guān)鍵信息。自注意力機制是注意力機制的一種變體,利用注意力機制計算輸入特征中不同位置之間的權(quán)重,降低了對外部信息的依賴。同時,借由注意力機制對關(guān)鍵信息的跳躍捕捉,提高關(guān)鍵信息的傳遞效率,使得自注意力機制更擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。在企業(yè)經(jīng)營范圍描述信息中,對于企業(yè)行業(yè)分類任務(wù)價值較高信息往往集中于部分關(guān)鍵詞上,因此引入自注意力機制對企業(yè)經(jīng)營范圍信息中的關(guān)鍵內(nèi)容進行提取。

在計算Self-Attention的過程中,對輸入的每一個部分進行編碼后形成語義編碼Iembedding,通過建立參數(shù)矩陣WQ、WK和WV,將語義編碼線性映射到特征空間中,形成Q、K、V三個向量:

Q=WQ*Iembedding

(5)

K=WK*Iembedding

(6)

V=WV*Iembedding

(7)

之后針對Query和Key進行相似度計算,得到計算注意力權(quán)重,并對得到的權(quán)值進行歸一化操作,最后將權(quán)重與Value進行加權(quán)求和得到最終的注意力得分Vout,整體機制實現(xiàn)如圖4所示。

圖4 鍵值對嵌入網(wǎng)絡(luò)

(8)

(9)

2.3 鍵值對嵌入網(wǎng)絡(luò)

除了經(jīng)營范圍描述外,企業(yè)還包含大量其他相關(guān)性的標簽,單純利用某一類標簽,可能存在難以理解某些模糊描述的情況,理解層次偏低。因此在完成候選集生成后,該文通過BiGRU網(wǎng)絡(luò)結(jié)合KV-Attention層構(gòu)建了一個基于企業(yè)其他標簽(企業(yè)名稱、行政許可、知識產(chǎn)權(quán)、招聘信息、招投標信息等)的鍵值對嵌入網(wǎng)絡(luò)來提高分類模型的理解層次。企業(yè)其他標簽處理成如下鍵值對(key-value)列表形式:

L=[(s1,v1),(s2,v2),…,(sn,vn)]

其中,si表示企業(yè)標簽名稱(例如企業(yè)名稱),vi表示對應(yīng)企業(yè)標簽的具體內(nèi)容(例如安徽XXX公司)。鍵值對嵌入網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

(10)

(11)

(12)

(13)

2.4 行業(yè)類別預(yù)測

(14)

p=softmax(WVconcat+b)

(15)

其中,W、b是可學習參數(shù),p是各類別的分類預(yù)測概率。

使用正確類別的負對數(shù)似然作為訓(xùn)練損失函數(shù):

(16)

其中,j是企業(yè)E的分類類別。

3 實驗結(jié)果與分析

3.1 實驗環(huán)境與參數(shù)設(shè)置

該文使用基于CUDA 9.0的深度學習框架PyTorch 1.1.0搭建網(wǎng)絡(luò)模型,操作系統(tǒng)為Ubuntu 18.04,硬盤為1 TB,內(nèi)存為32 GB,CPU為Intel(R)Core(TM)i7-7700CPU@3.60 GHz,GPU為GeForce GTX 1080 Ti。

在超參數(shù)的設(shè)置上,XLNet語言模型的嵌入維度為768維,多頭注意力機制的設(shè)置為12個注意力頭,隱藏層維度同樣設(shè)置為768維,隱藏層層數(shù)設(shè)置為12,GRU的隱藏層維度設(shè)置為128。在訓(xùn)練設(shè)置上,批處理大小設(shè)置為16,批處理以token為單位,每個輸入文本的token個數(shù)設(shè)置為200。同時,模型使用學習率為1e-5的Adam優(yōu)化器。訓(xùn)練輪數(shù)設(shè)置為10輪(epoch=10)。

3.2 數(shù)據(jù)集

根據(jù)2017版《國民經(jīng)濟行業(yè)分類》標準規(guī)定,國民經(jīng)濟行業(yè)分類共有20個門類和1 380個小類。為了評估該行業(yè)分類方法的有效性,構(gòu)建了兩個由企業(yè)數(shù)據(jù)組成的數(shù)據(jù)集。數(shù)據(jù)集1包含60 000條數(shù)據(jù)(10個門類,100個小類,訓(xùn)練集50 000條,驗證集5 000條、測試集5 000條),數(shù)據(jù)集2包含80 000條數(shù)據(jù)(20個門類,200個小類,訓(xùn)練集64 000條,驗證集8 000條、測試集8 000條)。每條數(shù)據(jù)包括企業(yè)名稱、注冊資本、成立時間、經(jīng)營范圍、行業(yè)類別、行政許可、產(chǎn)品信息、專利信息、軟件著作權(quán)信息、招聘信息等維度。

3.3 基線方法對比

該文采用微平均F1值和宏平均F1值作為行業(yè)分類性能評價指標。為了驗證文中分類方法的性能,與多種基線方法進行了對比。在基線方法中,文獻[11]、文獻[12]和文獻[14]使用textRank、TF-IDF等作為文本特征提取方法,并使用多項樸素貝葉斯、支持向量機等傳統(tǒng)機器學習方法作為分類器對行業(yè)進行分類。文獻[1]、文獻[2]和文獻[20]使用神經(jīng)網(wǎng)絡(luò)方法對文本進行分類。文獻[1]使用卷積核窗口大小分別為2、3、4的3個卷積層和相應(yīng)的池化層提取特征并進行拼接,以此來獲得更豐富、不同粒度的特征信息。文獻[2]使用經(jīng)過詞嵌入之后的詞向量作為輸入并經(jīng)過RNN網(wǎng)絡(luò)和池化層完成文本分類。文獻[20]使用基于單詞層面注意力機制的BiGRU模型和基于句子層面注意力機制的BiGRU模型提取文本多層面的特征進行文本分類。實驗對比結(jié)果如圖5和圖6所示。

圖5 數(shù)據(jù)集1上基線方法分類對比結(jié)果

圖6 數(shù)據(jù)集2上基線方法分類對比結(jié)果

可見,文中的行業(yè)分類方法在兩個數(shù)據(jù)集上均取得了比其他基線方法更好的分類效果?;谏窠?jīng)網(wǎng)絡(luò)的方法在分類效果上明顯優(yōu)于傳統(tǒng)機器學習的方法,因為機器學習方法僅簡單的對文本中的詞向量進行加權(quán)平均,沒有使用文本更深層次的語義信息,而CNN和RNN可以獲取更深層次的語義信息從而得到更好的分類效果。然而,CNN無法獲取文本的上下文信息,RNN不能很好提取句子的局部特征,XLNet能有效提取文本的語義信息和上下文信息,因此其分類效果高于CNN和RNN方法。可以看出,文中行業(yè)分類方法在XLNet的基礎(chǔ)上增加了候選集生成網(wǎng)絡(luò)和鍵值對嵌入網(wǎng)絡(luò),有效提升了行業(yè)分類的性能。

3.4 消融實驗

3.4.1 候選集生成網(wǎng)絡(luò)有效性

為說明候選集生成網(wǎng)絡(luò)的有效性,定量比較了是否使用候選集生成網(wǎng)絡(luò)的實驗結(jié)果(將未使用候選集生成網(wǎng)絡(luò)的模型命名為XLNetwithoutCGN),對比結(jié)果如表1所示??梢姡琗LNet-BiGRU-Attention在兩個數(shù)據(jù)集上的行業(yè)分類效果都優(yōu)于XLNetwithoutCGN。

表1 候選集生成網(wǎng)絡(luò)消融實驗結(jié)果 %

3.4.2 鍵值對嵌入網(wǎng)絡(luò)有效性

為說明鍵值對嵌入網(wǎng)絡(luò)的有效性,定量比較了是否使用鍵值對嵌入網(wǎng)絡(luò)的實驗結(jié)果(將未使用鍵值對嵌入網(wǎng)絡(luò)的模型命名為XLNetwithoutKVE),對比結(jié)果如表2所示??梢姡琗LNet-BiGRU-Attention在兩個數(shù)據(jù)集上的行業(yè)分類效果都優(yōu)于XLNetwithoutKVE。

表2 鍵值對嵌入網(wǎng)絡(luò)消融實驗結(jié)果 %

3.5 分類準確率比較

從圖7可以看出,提出的行業(yè)分類方法的分類準確率優(yōu)于其他分類方法。

圖7 不同方法在部分類別上的分類準確性比較

4 結(jié)束語

提出了一種基于XLNet-BiGRU-Attention企業(yè)行業(yè)分類方法。該方法將企業(yè)經(jīng)營范圍文本信息輸入到XLnet網(wǎng)絡(luò)生成語義表征向量,通過基于BiGRU和Attention的候選集生成網(wǎng)絡(luò)來有效獲取上下文依賴關(guān)系和文本特征,并構(gòu)建基于企業(yè)其他標簽的鍵值對嵌入網(wǎng)絡(luò)來進一步提升行業(yè)分類的效果,將鍵值對向量和語義表征向量進行拼接得到融合的特征向量輸入到分類器,最終完成企業(yè)行業(yè)預(yù)測。實驗結(jié)果表明該方法相較于其他幾種基線方法都取得了更好的行業(yè)分類效果,消融實驗說明了該方法所構(gòu)建的候選集生成網(wǎng)絡(luò)和鍵值對嵌入網(wǎng)絡(luò)的有效性。

猜你喜歡
語義分類模型
自制空間站模型
按需分類
教你一招:數(shù)的分類
模型小覽(二)
說說分類那些事
圓周運動與解題模型
離散型隨機變量分布列的兩法則和三模型
給塑料分分類吧
漢語依憑介詞的語義范疇
长泰县| 建水县| 太原市| 公安县| 兴和县| 天等县| 布尔津县| 石嘴山市| 建昌县| 会泽县| 留坝县| 滁州市| 来凤县| 邵阳市| 威信县| 卓资县| 满洲里市| 溧阳市| 本溪市| 于田县| 白河县| 连州市| 灌云县| 乳源| 巴东县| 福鼎市| 浑源县| 富源县| 响水县| 楚雄市| 淳安县| 新源县| 仁化县| 大名县| 资兴市| 镇赉县| 沅陵县| 木里| 科技| 贺兰县| 沙湾县|