李 猛,李艷玲,林 民
內(nèi)蒙古師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,呼和浩特 010022
命名實(shí)體識(shí)別(named entity recognition,NER)是自然語言處理(natural language processing,NLP)的一項(xiàng)非常重要的基礎(chǔ)任務(wù),旨在自動(dòng)檢測文本中的命名實(shí)體并將其分類為預(yù)定義實(shí)體類型,例如人名、地名、組織機(jī)構(gòu)名等,是人機(jī)對話系統(tǒng)、機(jī)器翻譯、關(guān)系抽取等的前置任務(wù)[1]。傳統(tǒng)以及深度NER[2-6]方法已經(jīng)取得了非常高的識(shí)別精度,但是訓(xùn)練模型需要大規(guī)模標(biāo)注數(shù)據(jù),模型性能與標(biāo)注數(shù)據(jù)量成正比,在訓(xùn)練語料匱乏的特定領(lǐng)域(如醫(yī)學(xué)、生物等)和小語種(如蒙古語、維吾爾語等)上,性能差強(qiáng)人意。由于訓(xùn)練集和測試集要求獨(dú)立同分布,因此導(dǎo)致將已有的模型運(yùn)用到其他領(lǐng)域或者語言上性能差強(qiáng)人意。
遷移學(xué)習(xí)旨在利用源域中大量標(biāo)注數(shù)據(jù)和預(yù)訓(xùn)練模型提高目標(biāo)任務(wù)學(xué)習(xí)性能,憑借其對數(shù)據(jù)、標(biāo)注依賴性小和放寬了獨(dú)立同分布約束條件等優(yōu)點(diǎn)[7-8],已經(jīng)成為解決資源匱乏NER 的強(qiáng)大工具。NER 的遷移學(xué)習(xí)方法早期工作主要集中在基于數(shù)據(jù)的方法,利用并行語料庫、雙語詞典等作為橋梁將知識(shí)(如標(biāo)注、特征表示等)從高資源語言投影到低資源語言,主要用于跨語言NER 遷移。后來研究者將源模型部分參數(shù)或特征表示遷移到目標(biāo)模型上,不需要額外的對齊信息,實(shí)現(xiàn)了跨領(lǐng)域和跨應(yīng)用NER 遷移并取得了非常好的效果。最近NER 對抗遷移學(xué)習(xí)受到越來越多研究人員的關(guān)注,引入由生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[9]啟發(fā)的對抗技術(shù),生成一種“域無關(guān)特征”,進(jìn)而實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移,幫助目標(biāo)任務(wù)提高學(xué)習(xí)性能,同時(shí)有效緩解了負(fù)遷移問題。
劉瀏等人[10]從NER 定義、評測會(huì)議、主流研究方法等角度,介紹了NER 任務(wù)的發(fā)展歷程;Li 等人[11]詳細(xì)地總結(jié)和分析了NER 的深度學(xué)習(xí)方法,以及深度NER任務(wù)面臨的挑戰(zhàn)和未來發(fā)展方向。Pan和Yang[12]的綜述是一項(xiàng)開創(chuàng)性工作,對遷移學(xué)習(xí)進(jìn)行了定義和分類,并回顧了2010 年之前的研究進(jìn)展;Weiss 等人[13]介紹并總結(jié)了許多同構(gòu)和異構(gòu)遷移學(xué)習(xí)方法;Zhuang 等人[8]從數(shù)據(jù)和模型角度對40 多種具有代表性的遷移學(xué)習(xí)模型進(jìn)行了介紹和對比。以上綜述都是對NER 或遷移學(xué)習(xí)單方面的闡述,沒有詳細(xì)地介紹兩者結(jié)合的方法。本文從基于數(shù)據(jù)遷移學(xué)習(xí)、基于模型遷移學(xué)習(xí)、對抗遷移學(xué)習(xí)這三方面對目前NER 任務(wù)的遷移學(xué)習(xí)方法進(jìn)行了研究和調(diào)查。
傳統(tǒng)的NER 方法大致有三類:基于規(guī)則、無監(jiān)督學(xué)習(xí)和基于特征的有監(jiān)督學(xué)習(xí)[1,12]。基于規(guī)則的方法依賴語言學(xué)家和領(lǐng)域?qū)<沂止ぶ贫ǖ恼Z義語法規(guī)則,通過規(guī)則匹配識(shí)別各種類型的命名實(shí)體,基于規(guī)則的方法雖然能夠在特定語料上(字典詳盡且大小有限)獲得很好的效果,但是構(gòu)建這些規(guī)則不僅耗時(shí),難以覆蓋所有規(guī)則,而且可擴(kuò)展性和可移植性比較差。無監(jiān)督學(xué)習(xí)方法利用在大型語料庫上獲得的詞匯資源、詞匯模型和統(tǒng)計(jì)信息,使用聚類[14]推斷命名實(shí)體類型?;谔卣鞯挠斜O(jiān)督學(xué)習(xí)方法通過監(jiān)督學(xué)習(xí),將NER 任務(wù)轉(zhuǎn)換為序列標(biāo)注任務(wù),根據(jù)標(biāo)注數(shù)據(jù),將每個(gè)訓(xùn)練樣本用精心設(shè)計(jì)的特征表示出來,然后利用機(jī)器學(xué)習(xí)算法訓(xùn)練模型,從看不見的數(shù)據(jù)中學(xué)習(xí)相似的模式,其缺點(diǎn)是需要大量人工標(biāo)注訓(xùn)練數(shù)據(jù)和人為構(gòu)造、選擇的有效特征[15]。
基于規(guī)則的方法主要有LaSIE-Ⅱ[16]、NetOwl[17]、Facile[18]?;谔卣鞯挠斜O(jiān)督學(xué)習(xí)算法主要有隱馬爾可夫模型(hidden Markov model,HMM)[19]、決策樹(decision trees)[20]、最大熵模型(maximum entropy model,MEM)[21]、支持向量機(jī)(support vector machines,SVM)[22]、條件隨機(jī)場(conditional random fields,CRF)[23]等。
近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的迅猛發(fā)展,NER 的深度學(xué)習(xí)方法已成為主流。深度學(xué)習(xí)有三個(gè)優(yōu)勢:(1)深度神經(jīng)網(wǎng)絡(luò)可以進(jìn)行非線性變換,進(jìn)而從數(shù)據(jù)中學(xué)習(xí)到更復(fù)雜的特征;(2)深度學(xué)習(xí)可以從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征;(3)深度NER 模型屬于端到端模型[8]。
NER的深度學(xué)習(xí)方法一般分為三個(gè)階段[8],如圖1所示,分別是分布式表示、特征提取器和標(biāo)簽解碼器。分布式表示把單詞或字符映射到低維實(shí)值密集向量中,其中每個(gè)維度代表一個(gè)隱藏特征,它可以自動(dòng)從文本中學(xué)習(xí)語義和句法特征,分布式表示有三種:詞向量(word embedding)[24]、字符向量(character embedding)[15]和混合表示[3]。特征提取器通過接收上一層的向量對上下文特征表示進(jìn)行學(xué)習(xí),常用的特征提取器有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[2]、Transformer[25]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[26]以及它的兩種變體門控循環(huán)單元(gated recurrent unit,GRU)[27]和長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[3]。標(biāo)簽解碼器是最后一個(gè)階段,以上下文特征為輸入,生成標(biāo)簽序列,常見的解碼方式有Softmax[24]、CRF、RNN。
Fig.1 Deep learning for NER flowchart圖1 NER 深度學(xué)習(xí)流程圖
(1)資源匱乏。深度學(xué)習(xí)需要大規(guī)模標(biāo)注數(shù)據(jù)才能很好地訓(xùn)練模型,但數(shù)據(jù)標(biāo)注非常耗時(shí)且昂貴,尤其對于許多資源匱乏的語言和特定領(lǐng)域,如蒙古語、醫(yī)學(xué)、軍事領(lǐng)域。當(dāng)標(biāo)注數(shù)據(jù)較少時(shí),由于無法充分學(xué)習(xí)隱藏特征,深度學(xué)習(xí)的性能會(huì)大大降低,而且深度學(xué)習(xí)模型可移植性很差,無法將已有數(shù)據(jù)和模型應(yīng)用到資源匱乏領(lǐng)域[7]。因此,采用半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)資源的自動(dòng)構(gòu)建和補(bǔ)足,以及遷移學(xué)習(xí)等方法都可作為解決該問題的研究方向[28]。
(2)非正式文本。非正式文本即表達(dá)不符合書面語法規(guī)范的文本,如人機(jī)對話系統(tǒng)用戶提問、Twitter 和微博等社交媒體上的文章評論等用戶生成文本,由于其語句簡短、口語化、內(nèi)容寬泛、語意含糊、包含諧音字,使NER 變得非常困難,甚至無法識(shí)別。例如:“我中獎(jiǎng)了”寫成“我中了”;“杯具”表示“悲劇”;“xswl”代表“笑死我了”。Li等人使用主動(dòng)學(xué)習(xí)將微博文本NER 的F1 值提高到了67.23%,但是仍需要人工標(biāo)記[29]。可以使用注意力機(jī)制和遷移學(xué)習(xí)結(jié)合深度學(xué)習(xí)完成對非正式文本的識(shí)別。
(3)命名實(shí)體多樣性。隨著信息化時(shí)代的來臨,移動(dòng)互聯(lián)網(wǎng)的普及,數(shù)據(jù)規(guī)模海量化,命名實(shí)體及其類型趨于多樣化,同時(shí)也在不斷演變[30]。傳統(tǒng)的實(shí)體類型只有人名、地名和組織機(jī)構(gòu)名,但是現(xiàn)實(shí)生活中實(shí)體類型復(fù)雜多樣,不同領(lǐng)域存在不同的實(shí)體類型,需要識(shí)別更詳細(xì)的實(shí)體類型,例如交通查詢領(lǐng)域,需要出發(fā)地、目的地、時(shí)間、交通工具等實(shí)體類型??梢允褂眠w移學(xué)習(xí)技術(shù),重復(fù)利用已有數(shù)據(jù)和模型,實(shí)現(xiàn)細(xì)粒度NER。
(4)命名實(shí)體歧義性。自然語言中存在大量歧義問題,這給NER 帶來很大挑戰(zhàn)。在不同文化、背景、領(lǐng)域下,同一實(shí)體可能含有不同的含義,例如:“香格里拉”可能是“香格里拉市”也有可能是“香格里拉酒店”。因此需要充分理解上下文語義關(guān)系進(jìn)行識(shí)別,可以使用實(shí)體鏈接、注意力機(jī)制、特征融合、圖神經(jīng)網(wǎng)絡(luò)等方法,挖掘更詳細(xì)、更深層次的語義信息,從而消除命名實(shí)體的歧義性[28]。
(5)實(shí)體嵌套。實(shí)體嵌套指實(shí)體內(nèi)部有一個(gè)或多個(gè)其他實(shí)體,例如:“中國駐俄羅斯大使館”這一組織機(jī)構(gòu)名中包含了“中國”和“俄羅斯”兩個(gè)地名。嵌套實(shí)體中包含了實(shí)體與實(shí)體之間豐富的語義關(guān)系,充分利用嵌套實(shí)體的嵌套信息,可以幫助人們更詳細(xì)、更深層次地理解文本。Xu 等人使用SVM 和CNN抽取中文嵌套實(shí)體的語義關(guān)系[31]。Xia 等人使用MGNER(multi-grained NER)模型,重構(gòu)了命名實(shí)體識(shí)別的流程,對嵌套實(shí)體進(jìn)行識(shí)別[32]。
隨著信息化時(shí)代的來臨,傳統(tǒng)機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)已經(jīng)取得了巨大的成功,并已經(jīng)應(yīng)用到許多實(shí)際生活中。但是它們嚴(yán)重依賴于大量具有相同數(shù)據(jù)分布的標(biāo)記訓(xùn)練數(shù)據(jù),然而實(shí)際應(yīng)用中,收集足夠的訓(xùn)練數(shù)據(jù)是非常困難的。半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)可以放寬對大量標(biāo)注數(shù)據(jù)的需求進(jìn)而可以解決部分問題,但是訓(xùn)練的模型性能不盡如人意[8]。遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)中解決訓(xùn)練數(shù)據(jù)不足這一基本問題的重要方法,旨在利用來自源域的知識(shí)提高目標(biāo)任務(wù)學(xué)習(xí)性能[8]。它放寬了機(jī)器學(xué)習(xí)中的兩個(gè)基本假設(shè):(1)用于學(xué)習(xí)的訓(xùn)練樣本與新測試樣本滿足獨(dú)立同分布條件;(2)必須有足夠可利用的訓(xùn)練樣本才能學(xué)習(xí)得到一個(gè)性能不錯(cuò)的模型[33]。在遷移學(xué)習(xí)中,給定源域DS(含有大量標(biāo)注數(shù)據(jù),如英語、新聞?lì)I(lǐng)域等)和源任務(wù)TS,目標(biāo)域DT(只有少量或完全沒有標(biāo)注數(shù)據(jù),如蒙古語、社交媒體領(lǐng)域、醫(yī)學(xué)領(lǐng)域等)和目標(biāo)任務(wù)TT,其中DS≠DT或者TS≠TT。遷移學(xué)習(xí)已經(jīng)廣泛地應(yīng)用于NLP、計(jì)算機(jī)視覺等領(lǐng)域,是當(dāng)前機(jī)器學(xué)習(xí)中的研究熱點(diǎn)。
傳統(tǒng)遷移學(xué)習(xí)方法分為基于數(shù)據(jù)和基于模型的方法。基于數(shù)據(jù)方法主要使用實(shí)例加權(quán)和特征轉(zhuǎn)換,以減小源域樣本和目標(biāo)域樣本之間的分布差異。Dai 等人提出了TrAdaboost[34],將Adaboost 算法擴(kuò)展到了遷移學(xué)習(xí)中,提高可用源域?qū)嵗龣?quán)重,降低不可用源域?qū)嵗龣?quán)重。Huang 等人提出核均值匹配法(kernel mean matching,KMM),通過再生核希爾伯特空間(reproducing kernel Hilbert space,RKHS)中匹配源域和目標(biāo)域?qū)嵗g的均值,估計(jì)源域和目標(biāo)域概率分布,使得帶權(quán)源域和目標(biāo)域概率分布盡可能相近[35]。Pan 等人提出遷移成分分析(transfer component analysis,TCA)[36],采用最大均值誤差(maximum mean discrepancy,MMD)[37]作為度量準(zhǔn)則測量邊緣分布差異,以分散矩陣作為約束條件,將源域和目標(biāo)域之間的分布差異最小化。
基于模型方法是指利用源域和目標(biāo)域之間的相似性和相關(guān)性,將已訓(xùn)練好的部分源域模型或特征表示遷移到目標(biāo)模型上,以提高目標(biāo)模型的性能。Duan等人提出領(lǐng)域自適應(yīng)機(jī)(domain adaptation machine,DAM)通用框架,借助在多個(gè)源域上分別預(yù)先訓(xùn)練的基本分類器,為目標(biāo)域構(gòu)造一個(gè)魯棒的分類器[38]。為了解決分類問題,Tommasi 等人提出了一種單模型知識(shí)遷移方法(single-model knowledge transfer,SMKL),該方法基于最小二乘SVM,從源域選擇一個(gè)預(yù)先獲得的二進(jìn)制決策函數(shù),然后遷移其參數(shù)到目標(biāo)模型[39]。Yao 等人在TrAdaBoost 的基礎(chǔ)上做了多源擴(kuò)展,提出了TaskTrAdaBoost,首先在每個(gè)源域上執(zhí)行AdaBoost構(gòu)造一組候選分類器,然后每次迭代挑選出在目標(biāo)域上具有最低分類誤差的候選分類器并為其分配權(quán)重,最后將所選分類器組合產(chǎn)生最終預(yù)測[40]。
深度學(xué)習(xí)目前是機(jī)器學(xué)習(xí)領(lǐng)域最流行的方法,許多研究者利用深度學(xué)習(xí)技術(shù)構(gòu)建遷移學(xué)習(xí)模型,已經(jīng)成為解決深度學(xué)習(xí)數(shù)據(jù)依賴和訓(xùn)練數(shù)據(jù)不足等問題的重要方法。深度遷移學(xué)習(xí)分為兩類:非對抗方法和對抗方法。
非對抗方法復(fù)用在源域中預(yù)先訓(xùn)練好的部分深度神經(jīng)網(wǎng)絡(luò),將其遷移至目標(biāo)模型中。Tzeng 等人提出深度域混淆(deep domain confusion,DDC)解決深度網(wǎng)絡(luò)的自適應(yīng)問題,在源域與目標(biāo)域之間添加了一層適應(yīng)層和MMD,讓深度遷移網(wǎng)絡(luò)在學(xué)習(xí)如何分類的同時(shí),減小源域?qū)嵗c目標(biāo)域?qū)嵗g的分布差異[41]。Long 等人對DDC 進(jìn)行了擴(kuò)展,提出了深度自適應(yīng)網(wǎng)絡(luò)(deep adaptation network,DAN)[42],在深度神經(jīng)網(wǎng)絡(luò)中加入多層適應(yīng)層和表征能力更好的MK-MMD[43]。Long 等人在DAN 網(wǎng)絡(luò)的基礎(chǔ)上又提出了聯(lián)合自適應(yīng)網(wǎng)絡(luò)(joint adaptation network,JAN),相比于DAN 只考慮邊緣分布自適應(yīng),JAN 使用效果更好的多層聯(lián)合分布自適應(yīng)[44]。
對抗方法引入由GAN 網(wǎng)絡(luò)啟發(fā)的對抗技術(shù),使模型無法識(shí)別特征來自源域還是目標(biāo)域,進(jìn)而完成源域知識(shí)到目標(biāo)域的遷移,同時(shí)有效緩解了負(fù)遷移問題。Ganin 等人提出了結(jié)構(gòu)簡單的領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)(domain-adversarial neural networks,DANN)[45],其由特征提取器、標(biāo)簽預(yù)測器和領(lǐng)域分類器組成,特征提取器的作用類似于GAN 網(wǎng)絡(luò)生成器,其目的是生成“域無關(guān)”的特征表示,領(lǐng)域分類器起著類似于判別器的作用,試圖檢測提取的特征是來自源域還是目標(biāo)域,通過在領(lǐng)域分類器和特征提取器之間使用對抗技術(shù),學(xué)習(xí)一種“域無關(guān)特征”。Tzeng 等人提出了一種對抗領(lǐng)域自適應(yīng)的通用框架ADDA(adversarial discriminative domain adaptation)[46],利用判別模型、無條件權(quán)重共享和GAN 損失,解決領(lǐng)域之間的數(shù)據(jù)分布問題。Zhang等人提出了一種部分領(lǐng)域自適應(yīng)的方法,稱為基于重要性加權(quán)對抗網(wǎng)絡(luò)的領(lǐng)域自適應(yīng)(importance weighted adversarial nets-based domain adaptation,IWANDA)[47],不再使用一個(gè)共享特征提取器,而是分別為源域和目標(biāo)域提供特定域的特征提取器。
NER 的基于數(shù)據(jù)遷移學(xué)習(xí)方法大多利用額外高資源語言標(biāo)注數(shù)據(jù)作為遷移學(xué)習(xí)的弱監(jiān)督訓(xùn)練,以對齊信息作為橋梁,如雙語詞典[48]、并行語料庫[49]和單詞對齊[50]等,將知識(shí)(標(biāo)注、詞向量、特征表示等)從高資源語言投影到低資源語言?;跀?shù)據(jù)方法在跨語言NER 中顯示出相當(dāng)大的優(yōu)越性,但是對高資源語言標(biāo)注數(shù)據(jù)和對齊信息的規(guī)模和質(zhì)量非常敏感,并且僅限于跨語言遷移。
3.1.1 標(biāo)注和表示投影法
為了提高跨語言NER 的性能以及針對目標(biāo)語言中沒有人工標(biāo)注,Ni 等人提出兩種弱監(jiān)督跨語言NER 方法[49]標(biāo)注和表示投影法,以及兩種共解碼方案基于排除-O 置信度和基于等級(jí)的共解碼方案。
標(biāo)注投影法利用并行語料庫、翻譯等對齊語料,將高資源語言中的標(biāo)注遷移到對應(yīng)目標(biāo)語言上,并開發(fā)了一種獨(dú)立于語言的數(shù)據(jù)選擇方案,可以從嘈雜的數(shù)據(jù)中選擇高質(zhì)量標(biāo)注投影數(shù)據(jù)。給定目標(biāo)語言句子y,以及質(zhì)量得分閾值q和實(shí)體數(shù)量閾值n,其投影質(zhì)量得分q(y),如式(1)所示:
式中,e代表y中的每個(gè)實(shí)體,代表e用投影標(biāo)注l′(e)標(biāo)記的相對頻率,n(y)是y中的實(shí)體總數(shù)。數(shù)據(jù)選擇方案必須滿足q(y)≥q,n(y)≥n。
表示投影法,首先使用以詞向量為輸入的前饋神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練英語NER 系統(tǒng),然后將目標(biāo)語言的詞向量通過線性映射M f→e投影到英語向量空間中;最后使用訓(xùn)練好的英語NER 系統(tǒng)對目標(biāo)語言進(jìn)行標(biāo)記。可通過加權(quán)最小二乘法得到線性映射M f→e,如式(2)所示:
其中,wi表示訓(xùn)練詞典中英語目標(biāo)語言單詞對(xi,yi)的權(quán)重,ui、vi分別表示英語單詞xi和目標(biāo)語言單詞yi的詞向量。
共解碼方案可以有效地結(jié)合兩種投影法的輸出,提高識(shí)別精度?;谂懦?O 置信度的共解碼方案是選擇置信度分?jǐn)?shù)較高的標(biāo)注投影法或表示投影法生成的標(biāo)簽,優(yōu)先選擇一種方法的非O 標(biāo)簽(即實(shí)體標(biāo)簽)?;诘燃?jí)的共解碼方案,給予標(biāo)注投影法更高優(yōu)先級(jí),即組合輸出包括標(biāo)注投影法檢測到的所有實(shí)體,以及與標(biāo)注投影法不沖突的所有表示投影法檢測到的實(shí)體。當(dāng)標(biāo)注投影法為一段x都生成了O 標(biāo)簽,則表示投影法檢測到x的實(shí)體標(biāo)簽不會(huì)與標(biāo)注投影沖突。例如:標(biāo)注投影法的輸出標(biāo)簽序列為(B-PER,O,O,O,O),表示投影法的輸出標(biāo)簽序列為(B-ORG,I-ORG,O,B-LOC,I-LOC),那么基于等級(jí)的共解碼方案合并輸出為(B-PER,O,O,B-LOC,ILOC)。
Ni 的貢獻(xiàn)在于為標(biāo)注投影法開發(fā)了一種語言無關(guān)數(shù)據(jù)選擇方案,以及兩種共解碼方案,有效地提高了NER 的識(shí)別精度。兩種投影法都具有較高靈活性,但是容易受到雙語單詞對的對齊準(zhǔn)確率和英語NER 系統(tǒng)準(zhǔn)確率的影響。
3.1.2 雙語詞典特征表示遷移法
為了豐富低資源語言的語義表示以及緩解詞典外單詞問題,F(xiàn)eng 等人提出了雙語詞典特征表示遷移法,將雙語詞典特征表示和詞級(jí)實(shí)體類型分布特征作為目標(biāo)NER 模型的額外輸入,并設(shè)計(jì)一個(gè)詞典擴(kuò)展策略估計(jì)詞典外單詞的特征表示[51]。
雙語詞典特征表示:根據(jù)來自高資源語言的翻譯,對每個(gè)低資源語言單詞的所有翻譯詞向量使用雙向長短時(shí)記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)或注意力機(jī)制提取特征表示veci。每個(gè)翻譯項(xiàng)目T都由一個(gè)或多個(gè)高資源語言單詞組成,例如:中文單詞“美國”有四個(gè)英文翻譯“America”“United States”“USA”和“The United States of America”。
詞典擴(kuò)展策略,用于估計(jì)詞典外單詞的雙語詞典特征表示。給定低資源語言單詞xi及其對應(yīng)詞向量wi和雙語詞典特征表示veci。使用線性映射函數(shù),如式(3)所示,作為兩個(gè)語義空間之間的轉(zhuǎn)換,最小化式(4)以優(yōu)化映射矩陣M,在獲得M之后,對每個(gè)詞典外單詞oi用式(5)估算其特征表示veoi:
單詞實(shí)體類型的分布特征是每個(gè)單詞被標(biāo)記為每種實(shí)體類型的概率。實(shí)驗(yàn)中只使用了三種最常見的命名實(shí)體類型,即P(人名)、L(地名)、O(組織名)以及隨機(jī)生成一個(gè)表示非實(shí)體的類型N,因此構(gòu)造了四個(gè)實(shí)體類型向量{EP,EO,EL,EN},Ej∈Rd。然后,使用標(biāo)準(zhǔn)余弦函數(shù)計(jì)算低資源詞向量wi與實(shí)體類型向量Ej之間的語義相關(guān)性,如式(6)所示。最后,每個(gè)低資源和高資源語言單詞都分配有一個(gè)維數(shù)為4 的實(shí)體類型分布特征,eij={eP,eO,eL,eN}。
最后,將低資源詞向量wi、低資源字符向量ci、雙語詞典翻譯特征veci或veoi以及實(shí)體類型分布特征eij的連接詞向量Wi={wi,ci,veci,eij}作為BiLSTMCRF 模型的輸入。
該方法開創(chuàng)性地使用雙語詞典特征表示和單詞實(shí)體類型的分布特征表示,豐富了低資源語言的語義表示,并設(shè)計(jì)了一種詞典擴(kuò)展策略,有效地緩解了詞典外單詞問題,在低資源NER 性能上取得很大的提升。該方法具有非常好的可擴(kuò)展性,可以將高資源語言的其他知識(shí)(例如:WordNet、知識(shí)圖譜等)整合到體系結(jié)構(gòu)中,還可以擴(kuò)展到其他NLP 任務(wù)(例如:意圖識(shí)別、情感分析)。
NER 的基于模型遷移學(xué)習(xí)不需要額外的高資源語言對齊信息,主要利用源域和目標(biāo)域之間的相似性和相關(guān)性,將源模型部分參數(shù)或特征表示遷移到目標(biāo)模型,并自適應(yīng)地調(diào)整目標(biāo)模型[52]。例如:Ando和Zhang[53]提出了一種遷移學(xué)習(xí)框架,該框架在多個(gè)任務(wù)之間共享結(jié)構(gòu)參數(shù),并提高了包括NER 在內(nèi)多種任務(wù)的性能。Collobert等人[2]提出一個(gè)獨(dú)立于任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),并采用聯(lián)合訓(xùn)練將知識(shí)從NER 和詞性標(biāo)注(part-of-speech tagging,POS)任務(wù)遷移到組塊識(shí)別任務(wù)。Wang 等人[54]利用標(biāo)簽感知MMD 完成特征遷移,實(shí)現(xiàn)了跨醫(yī)學(xué)專業(yè)NER 系統(tǒng)。Lin 等人[55]在現(xiàn)有的深度遷移神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上引入單詞和句子適應(yīng)層,彌合兩個(gè)輸入空間之間的間隙,在LSTM 和CRF 層之間也引入了輸出適應(yīng)層,以捕獲兩個(gè)輸出空間中的變化。考慮到目標(biāo)數(shù)據(jù)的領(lǐng)域相關(guān)性差異,Yang 等人[56]受知識(shí)蒸餾(knowledge distillation,KD)的啟發(fā),提出了一種用于序列標(biāo)記領(lǐng)域自適應(yīng)的細(xì)粒度知識(shí)融合模型,首先對目標(biāo)域句子和單詞的領(lǐng)域相關(guān)性進(jìn)行建模,然后在句子和單詞級(jí)別上對源域和目標(biāo)域進(jìn)行知識(shí)融合,有效平衡了目標(biāo)模型從目標(biāo)域數(shù)據(jù)學(xué)習(xí)和從源模型學(xué)習(xí)之間的關(guān)系。
3.2.1 基于RNN 的遷移學(xué)習(xí)
RNN 及其變體已被大量應(yīng)用于NER 任務(wù),并取得了非常高的識(shí)別精度。Yang 等人利用神經(jīng)網(wǎng)絡(luò)通用性,提出了一種基于RNN的序列標(biāo)注遷移學(xué)習(xí)框架(RNN-based transfer learning,RNN-TL)[52],通過源任務(wù)和目標(biāo)任務(wù)之間共享模型參數(shù)和特征表示,提高目標(biāo)任務(wù)的學(xué)習(xí)性能。并利用不同級(jí)別的共享方案,在一個(gè)統(tǒng)一的模型框架下處理跨域、跨應(yīng)用和跨語言遷移。
Fig.2 RNN-based transfer learning model圖2 基于RNN 的遷移學(xué)習(xí)模型
該遷移方法在一個(gè)統(tǒng)一的RNN-CRF 框架下,在低資源跨域、跨應(yīng)用和跨語言的序列標(biāo)注任務(wù)上取得了不錯(cuò)的效果,尤其是在跨領(lǐng)域方面。但是還存在一定不足:跨語言遷移只能是字母相似的語言;對于遷移的參數(shù)和特征表示沒有進(jìn)行任何篩選工作,這使得負(fù)遷移對模型性能產(chǎn)生消極影響。
3.2.2 參數(shù)和神經(jīng)適應(yīng)器遷移
NER 的實(shí)體類型隨時(shí)間在不斷變化,為了解決目標(biāo)領(lǐng)域出現(xiàn)新的實(shí)體類型而導(dǎo)致重新標(biāo)注數(shù)據(jù)和訓(xùn)練模型的問題,Chen 等人[57]提出了一種解決方案:在目標(biāo)模型的輸出層添加新的神經(jīng)元并遷移源模型部分參數(shù),然后在目標(biāo)數(shù)據(jù)上進(jìn)行微調(diào)(fine-tuned),此外還設(shè)計(jì)一種神經(jīng)適應(yīng)器學(xué)習(xí)源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的標(biāo)簽分布差異,遷移過程如圖3 所示。
Fig.3 Parameters and neural adapter transfer model圖3 參數(shù)和神經(jīng)適應(yīng)器遷移模型
在目標(biāo)模型輸出層擴(kuò)展nM個(gè)神經(jīng)元用于學(xué)習(xí)新實(shí)體類型,其中n取決于數(shù)據(jù)集標(biāo)簽格式(例如:如果數(shù)據(jù)集為BIO 格式,則n=2,因?yàn)閷τ诿總€(gè)命名實(shí)體類型,將有兩種輸出標(biāo)簽B-NE 和I-NE),M是新命名實(shí)體類型的數(shù)量。遷移源模型參數(shù)時(shí),目標(biāo)模型輸出層參數(shù)用正態(tài)分布X~N(μ,σ2)得出的權(quán)重進(jìn)行初始化;其他參數(shù)都用源模型中相對應(yīng)參數(shù)進(jìn)行初始化。
神經(jīng)適應(yīng)器使用BiLSTM 實(shí)現(xiàn),將源模型輸出層輸出連接到目標(biāo)模型相應(yīng)輸出上,作為目標(biāo)CRF 的附加輸入。可以為目標(biāo)模型學(xué)習(xí)兩個(gè)任務(wù)之間的標(biāo)簽分布差異,以減少數(shù)據(jù)標(biāo)簽不一致的影響。
該方案使用源模型的參數(shù)和神經(jīng)適應(yīng)器實(shí)現(xiàn)模型遷移,是一種非常簡單的遷移方法,解決了目標(biāo)領(lǐng)域出現(xiàn)新實(shí)體類型而導(dǎo)致重新標(biāo)注數(shù)據(jù)和訓(xùn)練模型的問題。同時(shí)神經(jīng)適應(yīng)器可以解決標(biāo)簽不一致,且具有提高遷移模型性能的能力。
NER 的基于模型遷移學(xué)習(xí)方法雖然取得了很好的性能,但是還存在以下問題有待解決:(1)沒有考慮資源間的差異,強(qiáng)制在語言或領(lǐng)域之間共享模型參數(shù)和特征表示;(2)資源數(shù)據(jù)不平衡,高資源語言或領(lǐng)域的訓(xùn)練集規(guī)模通常比低資源訓(xùn)練集規(guī)模大得多[58],忽略了領(lǐng)域間的這些差異,導(dǎo)致泛化能力差。因此研究者引入受GAN 網(wǎng)絡(luò)啟發(fā)的對抗技術(shù),學(xué)習(xí)一種“域無關(guān)特征”,實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移,同時(shí)有效緩解了負(fù)遷移問題。
NER 的對抗遷移學(xué)習(xí)流程如圖4 所示。對抗鑒別器選擇有利于提高目標(biāo)任務(wù)性能的源任務(wù)特征,同時(shí)防止源任務(wù)的特定信息進(jìn)入共享空間。訓(xùn)練完成之后,對抗鑒別器和共享特征提取器達(dá)到平衡:對抗鑒別器無法區(qū)分共享特征提取器中的特征表示來自源域還是目標(biāo)域。但是訓(xùn)練達(dá)到這個(gè)平衡點(diǎn)需要花費(fèi)大量時(shí)間,還有可能發(fā)生模型崩潰。
Fig.4 NER adversarial transfer learning flowchart圖4 NER 對抗遷移學(xué)習(xí)流程圖
3.3.1 自注意力機(jī)制對抗遷移網(wǎng)絡(luò)
取96孔板,加入100 μL不同濃度(0.625、1.250、2.500、5.000、10.000、20.000、40.000 mg/mL)的揮發(fā)油乙醇溶液,然后再分別加入100 μL新配制的ABTS工作液,室溫條件下靜置反應(yīng)10 min后,用酶標(biāo)儀在波長405 nm下測定其吸光度。分別以無水乙醇和維生素C作為空白和陽性對照,每個(gè)揮發(fā)油濃度重復(fù)3次。
Cao 等人首次將對抗遷移學(xué)習(xí)應(yīng)用于NER 任務(wù),提出自注意力機(jī)制的中文NER 對抗遷移學(xué)習(xí)模型[59]。充分利用中文分詞(Chinese word segmentation,CWS)任務(wù)更加豐富的詞邊界信息,并通過任務(wù)鑒別器和對抗損失函數(shù)過濾中文分詞任務(wù)的特有信息,以提高中文NER 任務(wù)性能。同時(shí)在BiLSTM 層后加入自注意力機(jī)制明確捕獲兩個(gè)字符之間的長距離依賴關(guān)系并學(xué)習(xí)句子內(nèi)部結(jié)構(gòu)信息。
任務(wù)鑒別器,通過Maxpooling 層和softmax 層識(shí)別特征來自哪個(gè)領(lǐng)域,可以表示為式(7)、式(8):
其中,H表示共享自注意力的輸出,θd表示任務(wù)鑒別器的參數(shù),Wd∈RK×2dh和bd∈RK是可訓(xùn)練參數(shù),K是任務(wù)數(shù)。
通過引入對抗損失函數(shù)LAdv,如式(9)所示,防止中文分詞任務(wù)的特定信息進(jìn)入共享空間。LAdv訓(xùn)練共享特征提取器以產(chǎn)生共享特征,使得任務(wù)鑒別器無法可靠地判斷特征的領(lǐng)域。通過在softmax 層下方添加一個(gè)梯度反轉(zhuǎn)層完成minimax 優(yōu)化,使共享BiLSTM 生成一個(gè)特征表示來誤導(dǎo)任務(wù)鑒別器。
式中,θs表示共享特征提取器可訓(xùn)練參數(shù),Es表示共享特征提取器,Tk是任務(wù)k訓(xùn)練實(shí)例的數(shù)量,是任務(wù)k的第i個(gè)實(shí)例。
該模型首次將對抗遷移學(xué)習(xí)應(yīng)用于NER 任務(wù),在WeiboNER 數(shù)據(jù)集[60]和SighanNER 數(shù)據(jù)集[61]上,將F1 值分別從BiLSTM-CRF 模型的51.01%和89.13%提高到了53.08%和90.64%,并通過實(shí)驗(yàn)驗(yàn)證了遷移學(xué)習(xí)、對抗訓(xùn)練、自注意力機(jī)制各個(gè)方法對于模型的有效性。
3.3.2 雙重對抗遷移網(wǎng)絡(luò)
Zhou 等人提出了雙重對抗遷移網(wǎng)絡(luò)(dual adversarial transfer network,DATNet)[58],在通用深度遷移單元上引入兩種對抗學(xué)習(xí):一是用廣義資源對抗鑒別器(generalized resource-adversarial discriminator,GRAD),解決資源數(shù)據(jù)不均衡和資源差異問題;二是對抗訓(xùn)練,分別在字符向量和詞向量層添加以一個(gè)小范數(shù)? 為界的擾動(dòng),以提高模型的泛化能力和魯棒性。
DATNet 根據(jù)特征提取器的差異,有兩種體系結(jié)構(gòu):一是特征提取器有共享BiLSTM 和資源相關(guān)BiLSTM 的DATNet-F;二是特征提取器只有共享BiLSTM 而沒有資源相關(guān)BiLSTM 的DATNet-P。
GRAD 通過權(quán)重α平衡高低資源的訓(xùn)練規(guī)模差異較大的影響,使源域和目標(biāo)域中提取的特征表示更加兼容,共享BiLSTM 的輸出與領(lǐng)域無關(guān),并為每個(gè)樣本提供自適應(yīng)權(quán)重,從而使模型訓(xùn)練的重點(diǎn)放在困難樣本上。為了計(jì)算GRAD 的損失函數(shù),如式(10)所示,共享BiLSTM 的輸出序列首先通過自注意力機(jī)制編碼為單個(gè)向量,然后通過線性變換投影到標(biāo)量r:
式中,Ii∈DS和Ii∈DT是標(biāo)識(shí)函數(shù),分別表示特征來自源域還是目標(biāo)域;參數(shù)γ衡量困難和簡單樣本損失貢獻(xiàn)對比,通過測量預(yù)測值與真實(shí)標(biāo)簽之間的差異控制各個(gè)樣本的損失貢獻(xiàn)。權(quán)重α和分別減少了高資源樣本和簡單樣本的損失貢獻(xiàn)。
對抗訓(xùn)練就是在原始樣本的基礎(chǔ)上添加以一個(gè)小范數(shù)?為界的擾動(dòng)ηx,計(jì)算如式(11)所示:
其中,Θ是當(dāng)前模型參數(shù)集。ηx按照文獻(xiàn)[62]中的策略,通過如下線性化方法近似估算,g=?xlogp(y|Θ;x),?可在驗(yàn)證集上確定。在每個(gè)訓(xùn)練步驟中,由Θ參數(shù)化當(dāng)前模型找到的擾動(dòng)ηx,并通過xadv=x+ηx構(gòu)造一個(gè)對抗樣本,然后進(jìn)行原始樣本和對抗樣本混合訓(xùn)練以提高模型泛化能力。對抗訓(xùn)練損失函數(shù)lAT的計(jì)算如式(12)所示:
其中,logp(y|Θ;x)、logp(y|Θ;xadv)分別表示原始樣本及其對抗樣本的損失。DATNet 分別在字符級(jí)和詞級(jí)向量層使用對抗訓(xùn)練,可以根據(jù)式(11)計(jì)算字符向量擾動(dòng)ηc、源域詞向量擾動(dòng)ηWS和目標(biāo)域詞向量擾動(dòng)ηWT。
DATNet 很好地解決了表示差異和數(shù)據(jù)資源不平衡的問題,提高了模型的泛化能力,并在跨語言和跨域NER 遷移上取得顯著改進(jìn)。通過實(shí)驗(yàn),DATNet-P 架構(gòu)更適合具有相對更多訓(xùn)練數(shù)據(jù)的跨語言遷移,而DATNet-F 架構(gòu)更適合具有極低資源和跨域遷移的跨語言遷移。
目前,NER 最常用的評價(jià)標(biāo)準(zhǔn)有精確率(Precision)、召回率(Recall)和F1 值(F1-score)等。
精確率,在給定數(shù)據(jù)集中,標(biāo)注正確實(shí)體數(shù)占所有被標(biāo)注實(shí)體數(shù)的比例,如式(13)所示:
召回率,在給定數(shù)據(jù)集中,標(biāo)注正確實(shí)體數(shù)占數(shù)據(jù)集中所有實(shí)體數(shù)的比例,如式(14)所示:
Table 1 Statistics of NER datasets表1 NER 數(shù)據(jù)集統(tǒng)計(jì)信息
F1 值,同時(shí)考慮精確率和召回率,是平衡精確率和召回率的綜合指標(biāo),如式(15)所示:
其中,TP(true positive)表示真陽性,識(shí)別出的正確實(shí)體數(shù);FP(false positive)表示假陽性,識(shí)別出的錯(cuò)誤實(shí)體數(shù);FN(false negative)表示假陰性,未被識(shí)別出的實(shí)體數(shù)。
為了驗(yàn)證遷移學(xué)習(xí)模型的性能,通常是在同一數(shù)據(jù)集下,將實(shí)驗(yàn)?zāi)P团c深度神經(jīng)網(wǎng)絡(luò)模型、其他遷移學(xué)習(xí)模型的精確率、F1 值等進(jìn)行比較。
為了評估NER 遷移學(xué)習(xí)方法的性能,本文以CoNLL2003 英語NER 數(shù)據(jù)集[63]為源域,CoNLL2002西班牙語和荷蘭語NER 數(shù)據(jù)集[64]以及WNUT-2017英語Twitter NER 數(shù)據(jù)集[65]為目標(biāo)域進(jìn)行實(shí)驗(yàn)。這些數(shù)據(jù)集的統(tǒng)計(jì)信息如表1 所示,使用官方的訓(xùn)練集、驗(yàn)證集和測試集的劃分方法。實(shí)驗(yàn)中使用30 維字符向量、50 維詞向量,LSTM 隱狀態(tài)的數(shù)量設(shè)置為100 維。
表2 是一些NER 方法的F1 值比較,可以看出雙語詞典特征表示在跨語言遷移方面取得了非常好的效果,相比于LSTM-CRF 在西班牙語和荷蘭語上的F1 值分別提升了3.01 個(gè)百分點(diǎn)和6.65 個(gè)百分點(diǎn),由于領(lǐng)域之間沒有標(biāo)準(zhǔn)的對齊信息,該方法無法進(jìn)行跨領(lǐng)域遷移;DATNet 的兩個(gè)變體優(yōu)于其他方法,在3個(gè)數(shù)據(jù)集上都有很大提升,DATNet-P 更適合跨域遷移,而DATNet-F 在跨語言上更有優(yōu)勢。與多任務(wù)學(xué)習(xí)[66]相比,遷移學(xué)習(xí)最關(guān)心的是目標(biāo)任務(wù),而不是同時(shí)提升所有的源任務(wù)和目標(biāo)任務(wù)。
Table 2 NER method performance comparison(F1-score)表2 NER 方法性能比較(F1 值)%
本文主要對應(yīng)用于NER 任務(wù)的遷移學(xué)習(xí)方法從基于數(shù)據(jù)、基于模型和對抗遷移學(xué)習(xí)三方面進(jìn)行了歸納總結(jié)。遷移學(xué)習(xí)對于解決NER 任務(wù)的資源匱乏、實(shí)體類型多樣化等問題,取得了非常好的效果。基于數(shù)據(jù)遷移學(xué)習(xí)在跨語言遷移任務(wù)中取得很大成功,但也僅限于跨語言遷移?;谀P瓦w移學(xué)習(xí)不需要額外的高資源語言表示,將源模型的部分參數(shù)和特征遷移到目標(biāo)模型上。對抗遷移學(xué)習(xí)以其獨(dú)特的對抗訓(xùn)練思想,生成一種“域無關(guān)特征”,實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移,幫助目標(biāo)任務(wù)提高學(xué)習(xí)性能,同時(shí)有效緩解了負(fù)遷移問題,是目前發(fā)展?jié)摿ψ畲蟮腘ER 遷移學(xué)習(xí)方法,也是今后的研究重點(diǎn)。
隨著對NER 遷移學(xué)習(xí)的深入研究,還有一些新的問題需要解決:
(1)負(fù)遷移是遷移學(xué)習(xí)道路上最大的阻礙,雖然尋找源域和目標(biāo)域之間相關(guān)性衡量標(biāo)準(zhǔn)以及對抗遷移學(xué)習(xí)可以緩解該問題,但是這些方法都有其自身的局限性。如何更好地解決負(fù)遷移問題,有待進(jìn)一步深入研究。
(2)對于多步傳導(dǎo)式遷移學(xué)習(xí),如何尋找一個(gè)或幾個(gè)既能照顧到目標(biāo)域也能照顧到源域的中間領(lǐng)域,幫助相關(guān)性不大的兩個(gè)領(lǐng)域之間實(shí)現(xiàn)遷移學(xué)習(xí),以達(dá)到充分利用已有的大量數(shù)據(jù),是遷移學(xué)習(xí)未來的一個(gè)研究方向。
(3)在NER 對抗遷移學(xué)習(xí)中如何構(gòu)建更加強(qiáng)大的對抗鑒別器,幫助共享特征提取器和對抗鑒別器之間更快達(dá)到平衡點(diǎn),處理多源域NER 對抗遷移學(xué)習(xí)任務(wù),以及更好地解決負(fù)遷移問題,是下一步研究的主要工作。