国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習的文本分類方法研究綜述

2021-06-03 03:28:20萬家山吳云志
天津理工大學學報 2021年2期
關(guān)鍵詞:文檔向量分類

萬家山,吳云志

(1.安徽信息工程學院 大數(shù)據(jù)與人工智能學院,蕪湖 241000;2.安徽農(nóng)業(yè)大學 信息與計算機學院,合肥 230036;3.安徽省北斗精準農(nóng)業(yè)信息工程實驗室,合肥 230036)

文本分類作為信息管理和應用的一種有效手段,主要是根據(jù)目標文檔的主題或內(nèi)容,將大量文本按照一定的分類體系或標準,依次歸屬到一個或多個類別的過程.在支撐主題抽取[1]、情感分析[2]、輿情分析[3]、垃圾郵件過濾[4]、智能問答[5]和推薦系統(tǒng)[6]等方面起著重要的作用.傳統(tǒng)機器學習[7-8]的文本分類問題,通常采用提取詞頻或者詞袋特征,然后通過分類器進行訓練得到分類結(jié)果.深度學習與傳統(tǒng)機器學習文本分類存在著相似之處,但兩者在文本特征表示和分類預測等方面存在較大的區(qū)別.

1 傳統(tǒng)機器學習文本分類方法

文本分類主要涵蓋文本特征表示(包含文本預處理、特征提取、文本表示三個部分)、分類器選擇與訓練、分類結(jié)果的評價與反饋等過程.分類器選擇與訓練作為文本分類的核心問題之一,在傳統(tǒng)機器學習方法中,通常提取詞頻或者詞袋特征,由模型進行訓練.具有代表性的傳統(tǒng)機器學習的分類方法,如樸素貝葉斯[9]、支持向量機[10]等.

目前,傳統(tǒng)機器學習表現(xiàn)出的分類效果相對較低,這是因為傳統(tǒng)機器學習是淺層次的特征提取,對于文本背后的語義、結(jié)構(gòu)、序列和上下文理解不夠,模型的表征能力有限.然而,深度學習分類模型表現(xiàn)出了相對較好的分類效果,這是得益于該類模型在文本表示和復雜特征提取方面有著更為強大的能力.在此,本文將重點針對深度學習在文本分類領(lǐng)域的研究進展情況進行綜述.

2 基于深度學習的文本分類方法

自2006年以來,深度學習在圖像處理等眾多領(lǐng)域取得了突破性進展,對于文本分類也有很好的借鑒意義,“如何把深度學習方法遷移到文本分類領(lǐng)域”成為了眾多學者的研究方向.本文聚焦深度學習在文本分類領(lǐng)域的詞嵌入向量化、上下文機制、記憶存儲機制、注意力機制和語言模型相關(guān)研究方向展開綜述.

2.1 基于詞向量的深度學習文本分類模型

傳統(tǒng)的向量空間模型假設(shè)特征項之間相互獨立,這與實際情況不相符,為了解決此問題,采用文本的詞向量表示方式,把文本表示成類似圖像和語音的連續(xù)、稠密的數(shù)據(jù).詞向量不僅能夠考慮詞語間的相關(guān)性,而且可以兼顧詞語在文本中的相對位置,眾多實踐結(jié)果表明,詞向量提升了在分類任務(wù)中的準確率.早期Bengio等人利用詞向量進行表示,分別提出了神經(jīng)網(wǎng)絡(luò)語言模型NNLM[11]和其改進的模型[12].然而,讓詞向量真正引起廣泛關(guān)注的是Google的Mikolov等人提出的word2vec[13-14],文中基于預測的方法,構(gòu)建了CBOW和Skip-gram兩個模型結(jié)構(gòu).CBOW全稱Continuous Bag of Words,即連續(xù)詞袋模型,核心的思想是利用當前詞的上下文來預測目標詞語,而Skip-gram方法則和CBOW方法相反,即使用出現(xiàn)的詞來預測其上下文的詞.

圖1 CBOW和Skip-gram模型結(jié)構(gòu)Fig.1 Model architectureof CBOW and Skip-gram

快速文本分類FastText模型[15]是基于CBOW模型基礎(chǔ)上提出的,與CBOW模型架構(gòu)類似但任務(wù)不同,即前者預測分類標簽而后者預測的是中心詞.FastText最大特點是模型簡單、訓練速度快,能夠處理樣本數(shù)量大、類別標簽多的任務(wù).將文本內(nèi)容按照N個字節(jié)大小的窗口進行滑動,最終形成窗口為Ngram的字節(jié)片段序列.FastText的核心思想就是:將整篇文檔的詞及N-gram向量疊加得到文檔向量,然后使用文檔向量進行分類.

卷積網(wǎng)絡(luò)文本分類模型TextCNN.此前卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱CNN)在機器視覺領(lǐng)域常被提及,直至Kim在CNN基礎(chǔ)上提出了TextCNN文本分類模型[16].與傳統(tǒng)圖像的CNN網(wǎng)絡(luò)相比,TextCNN保持原有網(wǎng)絡(luò)結(jié)構(gòu),簡化了卷積層.TextCNN網(wǎng)絡(luò)結(jié)構(gòu)簡單,因此,參數(shù)數(shù)目少、計算量少、訓練速度快.缺點是模型可解釋型不強,在調(diào)優(yōu)模型的時候,很難根據(jù)訓練的結(jié)果去針對性的調(diào)整具體特征,所以很難去評估每個特征的重要程度.

2.2 基于上下文機制的深度學習文本分類模型

傳統(tǒng)的特征表示方法往往忽略文本中的上下文信息或詞序,對于捕捉詞的語義效果不佳.雖然N-gram或更復雜的表示結(jié)構(gòu)(如:Bergsma等人提出的樹結(jié)構(gòu)[17]和Yao等人提出的異構(gòu)文本圖[18])被設(shè)計用于捕獲更多的上下文信息和單詞序列,但它們的性能很大程度上取決于文本樹或圖結(jié)構(gòu)的性能.當模型遇到長句或文檔時非常耗時,不適合對長句或文檔建模,并且句子之間的關(guān)系很難用樹結(jié)構(gòu)來表示,這嚴重影響了分類的準確性.

在循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,簡稱RNN)和卷積神經(jīng)網(wǎng)絡(luò)特性基礎(chǔ)上,Lai[19]提出了一種循環(huán)卷積神經(jīng)網(wǎng)絡(luò)分類方法(Recurrent Convolutional Neural Networks,簡稱RCNN).該模型采用一個雙向的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),替代傳統(tǒng)基于窗口的神經(jīng)網(wǎng)絡(luò),降低了噪聲,從而最大程度地捕捉上下文信息,使模型在學習文本表示時可以保留更大范圍的詞序,并采用池化層(max-pooling)捕獲文本中的關(guān)鍵組件,以提取文本中的關(guān)鍵信息.模型結(jié)合了RNN的結(jié)構(gòu)和最大池化層,利用了循環(huán)神經(jīng)模型和卷積神經(jīng)模型的優(yōu)點,得到最終分類的概率.

近年來,隨著社交網(wǎng)絡(luò)帶來的大量短文本形式信息的涌入,這對文本分類帶來了新的挑戰(zhàn).針對短文本數(shù)據(jù)特征少、有效信息有限.面對新的挑戰(zhàn),有學者提出改進現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型,對現(xiàn)有RCNN模型進行改進,通過去除池化層操作,采用串并行卷積結(jié)構(gòu),多角度的提取文本特征,獲取局部上下文信息作為RNN的輸入;也有學者提出優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過利用群體智能優(yōu)化算法來調(diào)節(jié)卷積網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)訓練效果自動進行網(wǎng)絡(luò)參數(shù)標定,大幅度提高樣本效率較高.這些改進都是為了持續(xù)提高現(xiàn)有模型的泛化能力,以期能夠用于不同類型的自然語言處理任務(wù).

圖2 RCNN模型結(jié)構(gòu)Fig.2 Model architecture of RCNN

2.3 基于記憶存儲機制的深度學習文本分類模型

循環(huán)神經(jīng)網(wǎng)絡(luò)具有短期記憶[20],在處理較長的序列數(shù)據(jù)時,很難將信息傳遞到較遠層.學者們提出了長短期記憶網(wǎng)絡(luò)[21](Long Short-Term Memory,簡稱LSTM)和門控循環(huán)單元[22](Gated Recurrent Unit,簡稱GRU)作為解決方案,用以解決RNN短期記憶問題.

在LSTM中分別定義了遺忘門、輸入門和輸出門三個函數(shù),分別來控制輸入值、記憶值和輸出值.

其中,遺忘門ft決定哪些數(shù)據(jù)是需要保留或丟棄,輸入門it主要是處理輸入信息,最終經(jīng)過遺忘門作用后的前一時刻記憶單元-1,累加后得到當前時刻的記憶單元.

輸出門后的信息ot會作用到當前記憶單元Ct上,從而控制當前記憶單元信息可以傳遞到隱藏層的隱藏狀態(tài)ht中.

GRU與LSTM非常相似,它較LSTM網(wǎng)絡(luò)的結(jié)構(gòu)更加簡單.而在GRU模型中只有更新和重置兩個門,GRU更新門和重置門的作用與LSTM的遺忘門和輸入門類似,主要控制應該丟棄哪些原信息以及需要添加哪些新信息.

其中,zt和rt分別表示更新門和重置門.更新門zt控制著前一狀態(tài)信息被帶入當前狀態(tài)的程度,值的大小表示信息帶入的多少.重置門則是控制前一狀態(tài)信息被寫入到當前的候選集h~t上,值越小表示信息寫入的越少.總之,RNN常用于處理序列數(shù)據(jù)以進行預測,但卻受到短期記憶的影響.LSTM和GRU是作為一種門機制來緩解短期記憶的痛點而創(chuàng)建,GRU參數(shù)更少、收斂更容易,但在大規(guī)模數(shù)據(jù)集下,LSTM表達性能更好.

2.4 基于注意力機制的深度學習文本分類模型

注意力(Attention)機制最先應用在圖像處理中,后來逐步被引入到自然語言處理領(lǐng)域.在采用問題和答案對(Answer Selection,簡稱AS)任務(wù)建模時,可以根據(jù)AS關(guān)系設(shè)計Attention機制.與文本分類任務(wù)相比則稍有不同,文本分類建模方式為標簽,通過引入注意力機制來提取具有重要意義的詞匯來對句子進行表示,并將這些信息詞匯的表征聚合起來形成句子向量[23].同樣,為獎勵對文檔進行正確分類的線索句,可再次使用注意力機制,來衡量句子的重要性得到文檔向量,據(jù)此進行文檔分類,下面介紹幾種常見的注意力機制,見表1.

表1 幾種常見的注意力機制Tab.1 Several common attentional mechanisms

以層次注意力機制網(wǎng)絡(luò)為例,Yang等人[24]提出了一種用于文檔分類的層次注意力機制網(wǎng)絡(luò)(Hierarchical Attention Networks for Document Classification,簡稱HAN).該模型在句子和文檔級別提出了兩層注意力機制,使模型在構(gòu)建文檔時能夠根據(jù)內(nèi)容重要程度來賦予不同的權(quán)重,且可以緩解RNN在捕捉文檔的序列信息產(chǎn)生的梯度消失問題.

HAN模型是根據(jù)文檔結(jié)構(gòu)是由單詞形成句子、句子構(gòu)成文檔所形成,所以建模時也分這兩部分進行.鑒于單詞和句子之間的信息量不同,不能單純的統(tǒng)一而論,所以引入Attention機制,來提高模型精度.實踐表明引入Attention機制不僅可以提高模型精度,而且能夠?qū)卧~、句子重要性進行分析和可視化,這有助于加深我們對文本分類內(nèi)部實現(xiàn)過程的了解.

2.5 基于語言模型的深度學習文本分類模型

詞向量一直作為自然語言處理的核心表征技術(shù),具有深遠的影響力.但隨著深度學習技術(shù)在自然語言處理領(lǐng)域的應用不斷深入,詞向量在語義表示、消除歧義及模型訓練等方面存在著諸多局限性.受到圖像學習的啟發(fā),涌現(xiàn)出一大批語言模型,如:Glove、ELMO、ULMFiT及BERT模型,見表2.

表2 常見的語言模型Tab.2 Several common language models

在此,本文選擇具有代表性的語言模型,以Google提出的BERT模型為例.

BERT是基于語言模型的動態(tài)詞向量,突破了靜態(tài)詞向量無法解決一詞多義的問題,能夠準確地理解語句的語義,且模型無需針對具體任務(wù)做大篇幅修改,即可適用于廣泛的任務(wù).ALBERT模型[25]是BERT的改進版,模型尺寸遠小于BERT,更適合在硬件平臺(云和端)部署,改進后的ALBERT模型在BERT模型基礎(chǔ)上,分解了嵌入?yún)?shù),實現(xiàn)了跨層參數(shù)共享.改進后模型不僅減少了人力成本,而且在文本分類、語義相似度匹配和互聯(lián)網(wǎng)情感分析等領(lǐng)域均有較好的應用成效.

圖4 BERT模型結(jié)構(gòu)Fig.4 Model architectureof BERT

2.6 應用比較

基于深度學習的文本分類方法越來越廣泛應用于文本分類領(lǐng)域,包括主題劃分、情感分析、垃圾郵件、智能問答和推薦系統(tǒng)等自然語言處理領(lǐng)域.但是不同類型的方法在文本數(shù)據(jù)領(lǐng)域、深度學習模型和文本表示等方面都存在著較大差異.表3列出了這五類深度學習文本分類方法在不同領(lǐng)域的應用對比,以及各方法的優(yōu)點和難點問題.

表3 深度學習文本分類模型的應用Tab.3 Application of deep learning text classification models

3 基于深度學習的文本分類研究趨勢展望

隨著深度學習技術(shù)在各領(lǐng)域的深耕應用,基于深度學習在文本分類領(lǐng)域的研究已經(jīng)成為熱點.但是基于上面的討論可以看到,目前深度學習在文本分類領(lǐng)域尚處于摸索階段,將來會有更廣泛、更令人期待的嘗試.以下總結(jié)了五個可能的研究方向.

1)基于現(xiàn)有深度學習文本分類模型的改進.結(jié)合多任務(wù)聯(lián)合學習[26-29],優(yōu)化現(xiàn)有深度學習模型,Sun等人[30]發(fā)布“連續(xù)增量式多任務(wù)學習”的創(chuàng)新技術(shù),考慮在情感分析、語義相似度匹配和文本分類等相關(guān)領(lǐng)域的相似性,通過學習一個任務(wù)的特性,實施多個任務(wù)聯(lián)合訓練,以便該模型可以開發(fā)更加通用的語言表達形式,而不是將自身限制到一個特定的任務(wù)上.將這種特性遷移到相關(guān)領(lǐng)域中,尋找出最優(yōu)的參數(shù)組合.

2)借助外部知識庫先預訓練再微調(diào)語言模型.隨著對BERT和ELMO等語言不斷的優(yōu)化,將訓練出更強的預訓練模型,針對預訓練語言模型基于大規(guī)模語料庫進行預訓練和結(jié)合特定語料庫進行微調(diào),以滿足不同的NLP任務(wù).Zhang等人[31]結(jié)合大規(guī)模語料庫和知識圖譜來增強BERT表示,訓練出增強版的語言表征模型(ERNIE),該模型可以充分利用詞匯、句法和知識信息,結(jié)果表明增強后的模型在實體類型和關(guān)系分類方面性能優(yōu)于BERT.這種引入特征擴展思想,是結(jié)合外部知識庫和知識圖譜(如:維基百科),來拓展、優(yōu)化文本表示和預訓練過程,再利用一些小規(guī)模特定領(lǐng)域的語料庫進行微調(diào),以提高其文本分類效果.

3)深度學習的遷移學習將發(fā)揮更大的作用.遷移學習(Transfer Learning)最初用于解決計算機視覺問題,近年來在自然語言處理任務(wù)中被頻繁的提出.現(xiàn)有的文本類型復雜多樣,如新聞文本、微博社區(qū)互動文本、評論文本和其它混合類型的全文文本等,如何在不同領(lǐng)域都能具有較好的應用效果,模型遷移學習能力成了制約模型應用的重要因素.Malte等人[32]提出借助于遷移學習,可以在通用任務(wù)上對模型主要參數(shù)進行預訓練,當采用該模型來解決具體的自然語言處理任務(wù)時,只需要將預訓練后的模型在小數(shù)據(jù)集上進行微調(diào)即可,從而保證模型具有較快的收斂速度,且在特定領(lǐng)域的訓練數(shù)據(jù)量較小情況下,就能達到較好的模型效果.

4)Transformer架構(gòu)的發(fā)布為深度學習文本分類方法創(chuàng)建了一個新的基線.建立在Transformer架構(gòu)基礎(chǔ)上更多新的模型和方法將被創(chuàng)建[33-34],如:Lan等人[25]提出的ALBERT模型在保留原有Transformer編碼器架構(gòu)基礎(chǔ)上,實現(xiàn)跨層參數(shù)共享,改進后模型效果全面超越了BERT.Dai等[35]提出了Transformer-XL,為解決BERT不能夠?qū)⒄恼乱淮涡暂斎脒M行編碼存在的上下文碎片問題,Transformer-XL采用句子、段落兩個層次的循環(huán)機制和相對位置編碼方案.這意味著輸入序列不需要被分割成任意固定的長度,而是可以遵循自然的語言邊界,如句子和段落.這不僅有助于理解多個句子、段落和可能更長文本的深層上下文,從而實現(xiàn)了在更大的數(shù)據(jù)集上進行訓練.

5)深度學習文本分類模型的可解釋性被要求.深度學習一直被認為是黑盒模型,撇開對這些模型的完全可解釋性的要求,對模型內(nèi)部結(jié)構(gòu)的理解可以指導未來的結(jié)構(gòu)設(shè)計.Sarthak等人[36]在訓練好的文本分類模型中假設(shè)分析注意力機制的重要性,盡管注意力機制在某些方面對模型結(jié)構(gòu)非常重要,但在許多方面并沒有影響模型預測,反而其他替代性的指標可能更有效地解釋模型決策過程.Jawahar等人[37]探究了BERT學習到的語言結(jié)構(gòu),發(fā)現(xiàn)BERT的中間層編碼了一個豐富的語言信息層次,表層特征在底層,語法特征在中層,語義特征在頂層.

總的來說,深度學習方法在文本分類領(lǐng)域得到了許多關(guān)注,本文從改進現(xiàn)有深度學習模型、微調(diào)語言模型、提出遷移學習、依托Transformer架構(gòu)和模型可解釋性問題五個方面對未來的研究方向進行展望,相信這些研究方向?qū)τ谀P透钊氲膽糜兄匾囊饬x.

4 結(jié)論

在移動互聯(lián)網(wǎng)高速發(fā)展的時代,網(wǎng)絡(luò)上文本數(shù)據(jù)日益增長,面對多元化文本數(shù)據(jù)特征如何提取、表示和分類已成為當前自然語言處理領(lǐng)域的研究熱點.本文通過對比傳統(tǒng)機器學習和深度學習在文本分類的特點,總結(jié)并分析了基于深度學習文本分類方法的研究現(xiàn)狀,并結(jié)合最新研究進展,給出了未來可能的發(fā)展方向,希望能夠為相關(guān)領(lǐng)域的學者和技術(shù)人員提供有益的思考方向.雖然深度學習技術(shù)已經(jīng)在圖像處理和語音識別等領(lǐng)域取得了重大突破,但作為人工智能皇冠上的明珠,自然語言處理需要走的路還很漫長,目前,主要存在的問題:缺乏高質(zhì)量的開放語料來源,尤其是在專門用途語料庫方面仍然十分欠缺;如何有效解決語義普遍存在著同義性和多義性的問題;如何進一步提高模型的遷移學習能力.相信隨著各領(lǐng)域語料的不斷建立健全,算法和模型的不斷優(yōu)化,未來在文本分類領(lǐng)域仍有廣闊的發(fā)展前景.

猜你喜歡
文檔向量分類
向量的分解
有人一聲不吭向你扔了個文檔
分類算一算
聚焦“向量與三角”創(chuàng)新題
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于RI碼計算的Word復制文檔鑒別
向量垂直在解析幾何中的應用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
年辖:市辖区| 库车县| 丰宁| 读书| 桃园市| 宣汉县| 诸城市| 井陉县| 政和县| 卢龙县| 封丘县| 蒲城县| 金门县| 塔城市| 常州市| 洛宁县| 威信县| 庆阳市| 牙克石市| 常德市| 定安县| 湘乡市| 光泽县| 文登市| 利辛县| 洮南市| 武强县| 吉木乃县| 四会市| 沿河| 宁都县| 个旧市| 汪清县| 通山县| 多伦县| 文山县| 阿城市| 平度市| 久治县| 鹿泉市| 天峻县|