命名實(shí)體識(shí)別的遷移學(xué)習(xí)研究綜述

2021-02-05 18:10李艷玲

計(jì)算機(jī)與生活 2021年2期

李猛，李艷玲，林民

內(nèi)蒙古師范大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，呼和浩特 010022

命名實(shí)體識(shí)別（named entity recognition，NER）是自然語言處理（natural language processing，NLP）的一項(xiàng)非常重要的基礎(chǔ)任務(wù)，旨在自動(dòng)檢測文本中的命名實(shí)體并將其分類為預(yù)定義實(shí)體類型，例如人名、地名、組織機(jī)構(gòu)名等，是人機(jī)對話系統(tǒng)、機(jī)器翻譯、關(guān)系抽取等的前置任務(wù)[1]。傳統(tǒng)以及深度NER[2-6]方法已經(jīng)取得了非常高的識(shí)別精度，但是訓(xùn)練模型需要大規(guī)模標(biāo)注數(shù)據(jù)，模型性能與標(biāo)注數(shù)據(jù)量成正比，在訓(xùn)練語料匱乏的特定領(lǐng)域（如醫(yī)學(xué)、生物等）和小語種（如蒙古語、維吾爾語等）上，性能差強(qiáng)人意。由于訓(xùn)練集和測試集要求獨(dú)立同分布，因此導(dǎo)致將已有的模型運(yùn)用到其他領(lǐng)域或者語言上性能差強(qiáng)人意。

遷移學(xué)習(xí)旨在利用源域中大量標(biāo)注數(shù)據(jù)和預(yù)訓(xùn)練模型提高目標(biāo)任務(wù)學(xué)習(xí)性能，憑借其對數(shù)據(jù)、標(biāo)注依賴性小和放寬了獨(dú)立同分布約束條件等優(yōu)點(diǎn)[7-8]，已經(jīng)成為解決資源匱乏NER 的強(qiáng)大工具。NER 的遷移學(xué)習(xí)方法早期工作主要集中在基于數(shù)據(jù)的方法，利用并行語料庫、雙語詞典等作為橋梁將知識(shí)（如標(biāo)注、特征表示等）從高資源語言投影到低資源語言，主要用于跨語言NER 遷移。后來研究者將源模型部分參數(shù)或特征表示遷移到目標(biāo)模型上，不需要額外的對齊信息，實(shí)現(xiàn)了跨領(lǐng)域和跨應(yīng)用NER 遷移并取得了非常好的效果。最近NER 對抗遷移學(xué)習(xí)受到越來越多研究人員的關(guān)注，引入由生成對抗網(wǎng)絡(luò)（generative adversarial networks，GAN）[9]啟發(fā)的對抗技術(shù)，生成一種“域無關(guān)特征”，進(jìn)而實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移，幫助目標(biāo)任務(wù)提高學(xué)習(xí)性能，同時(shí)有效緩解了負(fù)遷移問題。

劉瀏等人[10]從NER 定義、評測會(huì)議、主流研究方法等角度，介紹了NER 任務(wù)的發(fā)展歷程；Li 等人[11]詳細(xì)地總結(jié)和分析了NER 的深度學(xué)習(xí)方法，以及深度NER任務(wù)面臨的挑戰(zhàn)和未來發(fā)展方向。Pan和Yang[12]的綜述是一項(xiàng)開創(chuàng)性工作，對遷移學(xué)習(xí)進(jìn)行了定義和分類，并回顧了2010 年之前的研究進(jìn)展；Weiss 等人[13]介紹并總結(jié)了許多同構(gòu)和異構(gòu)遷移學(xué)習(xí)方法；Zhuang 等人[8]從數(shù)據(jù)和模型角度對40 多種具有代表性的遷移學(xué)習(xí)模型進(jìn)行了介紹和對比。以上綜述都是對NER 或遷移學(xué)習(xí)單方面的闡述，沒有詳細(xì)地介紹兩者結(jié)合的方法。本文從基于數(shù)據(jù)遷移學(xué)習(xí)、基于模型遷移學(xué)習(xí)、對抗遷移學(xué)習(xí)這三方面對目前NER 任務(wù)的遷移學(xué)習(xí)方法進(jìn)行了研究和調(diào)查。

1 命名實(shí)體識(shí)別

1.1 傳統(tǒng)NER 方法

傳統(tǒng)的NER 方法大致有三類：基于規(guī)則、無監(jiān)督學(xué)習(xí)和基于特征的有監(jiān)督學(xué)習(xí)[1,12]。基于規(guī)則的方法依賴語言學(xué)家和領(lǐng)域?qū)＜沂止ぶ贫ǖ恼Z義語法規(guī)則，通過規(guī)則匹配識(shí)別各種類型的命名實(shí)體，基于規(guī)則的方法雖然能夠在特定語料上（字典詳盡且大小有限）獲得很好的效果，但是構(gòu)建這些規(guī)則不僅耗時(shí)，難以覆蓋所有規(guī)則，而且可擴(kuò)展性和可移植性比較差。無監(jiān)督學(xué)習(xí)方法利用在大型語料庫上獲得的詞匯資源、詞匯模型和統(tǒng)計(jì)信息，使用聚類[14]推斷命名實(shí)體類型?；谔卣鞯挠斜O(jiān)督學(xué)習(xí)方法通過監(jiān)督學(xué)習(xí)，將NER 任務(wù)轉(zhuǎn)換為序列標(biāo)注任務(wù)，根據(jù)標(biāo)注數(shù)據(jù)，將每個(gè)訓(xùn)練樣本用精心設(shè)計(jì)的特征表示出來，然后利用機(jī)器學(xué)習(xí)算法訓(xùn)練模型，從看不見的數(shù)據(jù)中學(xué)習(xí)相似的模式，其缺點(diǎn)是需要大量人工標(biāo)注訓(xùn)練數(shù)據(jù)和人為構(gòu)造、選擇的有效特征[15]。

基于規(guī)則的方法主要有LaSIE-Ⅱ[16]、NetOwl[17]、Facile[18]?；谔卣鞯挠斜O(jiān)督學(xué)習(xí)算法主要有隱馬爾可夫模型（hidden Markov model，HMM）[19]、決策樹（decision trees）[20]、最大熵模型（maximum entropy model，MEM）[21]、支持向量機(jī)（support vector machines，SVM）[22]、條件隨機(jī)場（conditional random fields，CRF）[23]等。

1.2 深度NER 方法

近年來，隨著深度神經(jīng)網(wǎng)絡(luò)的迅猛發(fā)展，NER 的深度學(xué)習(xí)方法已成為主流。深度學(xué)習(xí)有三個(gè)優(yōu)勢：（1）深度神經(jīng)網(wǎng)絡(luò)可以進(jìn)行非線性變換，進(jìn)而從數(shù)據(jù)中學(xué)習(xí)到更復(fù)雜的特征；（2）深度學(xué)習(xí)可以從原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征；（3）深度NER 模型屬于端到端模型[8]。

NER的深度學(xué)習(xí)方法一般分為三個(gè)階段[8]，如圖1所示，分別是分布式表示、特征提取器和標(biāo)簽解碼器。分布式表示把單詞或字符映射到低維實(shí)值密集向量中，其中每個(gè)維度代表一個(gè)隱藏特征，它可以自動(dòng)從文本中學(xué)習(xí)語義和句法特征，分布式表示有三種：詞向量（word embedding）[24]、字符向量（character embedding）[15]和混合表示[3]。特征提取器通過接收上一層的向量對上下文特征表示進(jìn)行學(xué)習(xí)，常用的特征提取器有卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）[2]、Transformer[25]、循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）[26]以及它的兩種變體門控循環(huán)單元（gated recurrent unit，GRU）[27]和長短時(shí)記憶網(wǎng)絡(luò)（long short-term memory，LSTM）[3]。標(biāo)簽解碼器是最后一個(gè)階段，以上下文特征為輸入，生成標(biāo)簽序列，常見的解碼方式有Softmax[24]、CRF、RNN。

Fig.1 Deep learning for NER flowchart圖1 NER 深度學(xué)習(xí)流程圖

1.3 深度NER 的難點(diǎn)

（1）資源匱乏。深度學(xué)習(xí)需要大規(guī)模標(biāo)注數(shù)據(jù)才能很好地訓(xùn)練模型，但數(shù)據(jù)標(biāo)注非常耗時(shí)且昂貴，尤其對于許多資源匱乏的語言和特定領(lǐng)域，如蒙古語、醫(yī)學(xué)、軍事領(lǐng)域。當(dāng)標(biāo)注數(shù)據(jù)較少時(shí)，由于無法充分學(xué)習(xí)隱藏特征，深度學(xué)習(xí)的性能會(huì)大大降低，而且深度學(xué)習(xí)模型可移植性很差，無法將已有數(shù)據(jù)和模型應(yīng)用到資源匱乏領(lǐng)域[7]。因此，采用半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)資源的自動(dòng)構(gòu)建和補(bǔ)足，以及遷移學(xué)習(xí)等方法都可作為解決該問題的研究方向[28]。

（2）非正式文本。非正式文本即表達(dá)不符合書面語法規(guī)范的文本，如人機(jī)對話系統(tǒng)用戶提問、Twitter 和微博等社交媒體上的文章評論等用戶生成文本，由于其語句簡短、口語化、內(nèi)容寬泛、語意含糊、包含諧音字，使NER 變得非常困難，甚至無法識(shí)別。例如：“我中獎(jiǎng)了”寫成“我中了”；“杯具”表示“悲劇”；“xswl”代表“笑死我了”。Li等人使用主動(dòng)學(xué)習(xí)將微博文本NER 的F1 值提高到了67.23%，但是仍需要人工標(biāo)記[29]。可以使用注意力機(jī)制和遷移學(xué)習(xí)結(jié)合深度學(xué)習(xí)完成對非正式文本的識(shí)別。

（3）命名實(shí)體多樣性。隨著信息化時(shí)代的來臨，移動(dòng)互聯(lián)網(wǎng)的普及，數(shù)據(jù)規(guī)模海量化，命名實(shí)體及其類型趨于多樣化，同時(shí)也在不斷演變[30]。傳統(tǒng)的實(shí)體類型只有人名、地名和組織機(jī)構(gòu)名，但是現(xiàn)實(shí)生活中實(shí)體類型復(fù)雜多樣，不同領(lǐng)域存在不同的實(shí)體類型，需要識(shí)別更詳細(xì)的實(shí)體類型，例如交通查詢領(lǐng)域，需要出發(fā)地、目的地、時(shí)間、交通工具等實(shí)體類型?？梢允褂眠w移學(xué)習(xí)技術(shù)，重復(fù)利用已有數(shù)據(jù)和模型，實(shí)現(xiàn)細(xì)粒度NER。

（4）命名實(shí)體歧義性。自然語言中存在大量歧義問題，這給NER 帶來很大挑戰(zhàn)。在不同文化、背景、領(lǐng)域下，同一實(shí)體可能含有不同的含義，例如：“香格里拉”可能是“香格里拉市”也有可能是“香格里拉酒店”。因此需要充分理解上下文語義關(guān)系進(jìn)行識(shí)別，可以使用實(shí)體鏈接、注意力機(jī)制、特征融合、圖神經(jīng)網(wǎng)絡(luò)等方法，挖掘更詳細(xì)、更深層次的語義信息，從而消除命名實(shí)體的歧義性[28]。

（5）實(shí)體嵌套。實(shí)體嵌套指實(shí)體內(nèi)部有一個(gè)或多個(gè)其他實(shí)體，例如：“中國駐俄羅斯大使館”這一組織機(jī)構(gòu)名中包含了“中國”和“俄羅斯”兩個(gè)地名。嵌套實(shí)體中包含了實(shí)體與實(shí)體之間豐富的語義關(guān)系，充分利用嵌套實(shí)體的嵌套信息，可以幫助人們更詳細(xì)、更深層次地理解文本。Xu 等人使用SVM 和CNN抽取中文嵌套實(shí)體的語義關(guān)系[31]。Xia 等人使用MGNER（multi-grained NER）模型，重構(gòu)了命名實(shí)體識(shí)別的流程，對嵌套實(shí)體進(jìn)行識(shí)別[32]。

2 遷移學(xué)習(xí)

隨著信息化時(shí)代的來臨，傳統(tǒng)機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)已經(jīng)取得了巨大的成功，并已經(jīng)應(yīng)用到許多實(shí)際生活中。但是它們嚴(yán)重依賴于大量具有相同數(shù)據(jù)分布的標(biāo)記訓(xùn)練數(shù)據(jù)，然而實(shí)際應(yīng)用中，收集足夠的訓(xùn)練數(shù)據(jù)是非常困難的。半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)可以放寬對大量標(biāo)注數(shù)據(jù)的需求進(jìn)而可以解決部分問題，但是訓(xùn)練的模型性能不盡如人意[8]。遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)中解決訓(xùn)練數(shù)據(jù)不足這一基本問題的重要方法，旨在利用來自源域的知識(shí)提高目標(biāo)任務(wù)學(xué)習(xí)性能[8]。它放寬了機(jī)器學(xué)習(xí)中的兩個(gè)基本假設(shè)：（1）用于學(xué)習(xí)的訓(xùn)練樣本與新測試樣本滿足獨(dú)立同分布條件；（2）必須有足夠可利用的訓(xùn)練樣本才能學(xué)習(xí)得到一個(gè)性能不錯(cuò)的模型[33]。在遷移學(xué)習(xí)中，給定源域DS（含有大量標(biāo)注數(shù)據(jù)，如英語、新聞?lì)I(lǐng)域等）和源任務(wù)TS，目標(biāo)域DT（只有少量或完全沒有標(biāo)注數(shù)據(jù)，如蒙古語、社交媒體領(lǐng)域、醫(yī)學(xué)領(lǐng)域等）和目標(biāo)任務(wù)TT，其中DS≠DT或者TS≠TT。遷移學(xué)習(xí)已經(jīng)廣泛地應(yīng)用于NLP、計(jì)算機(jī)視覺等領(lǐng)域，是當(dāng)前機(jī)器學(xué)習(xí)中的研究熱點(diǎn)。

2.1 傳統(tǒng)遷移學(xué)習(xí)方法

傳統(tǒng)遷移學(xué)習(xí)方法分為基于數(shù)據(jù)和基于模型的方法。基于數(shù)據(jù)方法主要使用實(shí)例加權(quán)和特征轉(zhuǎn)換，以減小源域樣本和目標(biāo)域樣本之間的分布差異。Dai 等人提出了TrAdaboost[34]，將Adaboost 算法擴(kuò)展到了遷移學(xué)習(xí)中，提高可用源域?qū)嵗龣?quán)重，降低不可用源域?qū)嵗龣?quán)重。Huang 等人提出核均值匹配法（kernel mean matching，KMM），通過再生核希爾伯特空間（reproducing kernel Hilbert space，RKHS）中匹配源域和目標(biāo)域?qū)嵗g的均值，估計(jì)源域和目標(biāo)域概率分布，使得帶權(quán)源域和目標(biāo)域概率分布盡可能相近[35]。Pan 等人提出遷移成分分析（transfer component analysis，TCA)[36]，采用最大均值誤差（maximum mean discrepancy，MMD）[37]作為度量準(zhǔn)則測量邊緣分布差異，以分散矩陣作為約束條件，將源域和目標(biāo)域之間的分布差異最小化。

基于模型方法是指利用源域和目標(biāo)域之間的相似性和相關(guān)性，將已訓(xùn)練好的部分源域模型或特征表示遷移到目標(biāo)模型上，以提高目標(biāo)模型的性能。Duan等人提出領(lǐng)域自適應(yīng)機(jī)（domain adaptation machine，DAM）通用框架，借助在多個(gè)源域上分別預(yù)先訓(xùn)練的基本分類器，為目標(biāo)域構(gòu)造一個(gè)魯棒的分類器[38]。為了解決分類問題，Tommasi 等人提出了一種單模型知識(shí)遷移方法（single-model knowledge transfer，SMKL），該方法基于最小二乘SVM，從源域選擇一個(gè)預(yù)先獲得的二進(jìn)制決策函數(shù)，然后遷移其參數(shù)到目標(biāo)模型[39]。Yao 等人在TrAdaBoost 的基礎(chǔ)上做了多源擴(kuò)展，提出了TaskTrAdaBoost，首先在每個(gè)源域上執(zhí)行AdaBoost構(gòu)造一組候選分類器，然后每次迭代挑選出在目標(biāo)域上具有最低分類誤差的候選分類器并為其分配權(quán)重，最后將所選分類器組合產(chǎn)生最終預(yù)測[40]。

2.2 深度遷移學(xué)習(xí)方法

深度學(xué)習(xí)目前是機(jī)器學(xué)習(xí)領(lǐng)域最流行的方法，許多研究者利用深度學(xué)習(xí)技術(shù)構(gòu)建遷移學(xué)習(xí)模型，已經(jīng)成為解決深度學(xué)習(xí)數(shù)據(jù)依賴和訓(xùn)練數(shù)據(jù)不足等問題的重要方法。深度遷移學(xué)習(xí)分為兩類：非對抗方法和對抗方法。

非對抗方法復(fù)用在源域中預(yù)先訓(xùn)練好的部分深度神經(jīng)網(wǎng)絡(luò)，將其遷移至目標(biāo)模型中。Tzeng 等人提出深度域混淆（deep domain confusion，DDC）解決深度網(wǎng)絡(luò)的自適應(yīng)問題，在源域與目標(biāo)域之間添加了一層適應(yīng)層和MMD，讓深度遷移網(wǎng)絡(luò)在學(xué)習(xí)如何分類的同時(shí)，減小源域?qū)嵗c目標(biāo)域?qū)嵗g的分布差異[41]。Long 等人對DDC 進(jìn)行了擴(kuò)展，提出了深度自適應(yīng)網(wǎng)絡(luò)（deep adaptation network，DAN）[42]，在深度神經(jīng)網(wǎng)絡(luò)中加入多層適應(yīng)層和表征能力更好的MK-MMD[43]。Long 等人在DAN 網(wǎng)絡(luò)的基礎(chǔ)上又提出了聯(lián)合自適應(yīng)網(wǎng)絡(luò)（joint adaptation network，JAN），相比于DAN 只考慮邊緣分布自適應(yīng)，JAN 使用效果更好的多層聯(lián)合分布自適應(yīng)[44]。

對抗方法引入由GAN 網(wǎng)絡(luò)啟發(fā)的對抗技術(shù)，使模型無法識(shí)別特征來自源域還是目標(biāo)域，進(jìn)而完成源域知識(shí)到目標(biāo)域的遷移，同時(shí)有效緩解了負(fù)遷移問題。Ganin 等人提出了結(jié)構(gòu)簡單的領(lǐng)域?qū)股窠?jīng)網(wǎng)絡(luò)（domain-adversarial neural networks，DANN）[45]，其由特征提取器、標(biāo)簽預(yù)測器和領(lǐng)域分類器組成，特征提取器的作用類似于GAN 網(wǎng)絡(luò)生成器，其目的是生成“域無關(guān)”的特征表示，領(lǐng)域分類器起著類似于判別器的作用，試圖檢測提取的特征是來自源域還是目標(biāo)域，通過在領(lǐng)域分類器和特征提取器之間使用對抗技術(shù)，學(xué)習(xí)一種“域無關(guān)特征”。Tzeng 等人提出了一種對抗領(lǐng)域自適應(yīng)的通用框架ADDA（adversarial discriminative domain adaptation）[46]，利用判別模型、無條件權(quán)重共享和GAN 損失，解決領(lǐng)域之間的數(shù)據(jù)分布問題。Zhang等人提出了一種部分領(lǐng)域自適應(yīng)的方法，稱為基于重要性加權(quán)對抗網(wǎng)絡(luò)的領(lǐng)域自適應(yīng)（importance weighted adversarial nets-based domain adaptation，IWANDA）[47]，不再使用一個(gè)共享特征提取器，而是分別為源域和目標(biāo)域提供特定域的特征提取器。

3 命名實(shí)體識(shí)別的遷移學(xué)習(xí)方法

3.1 基于數(shù)據(jù)遷移學(xué)習(xí)

NER 的基于數(shù)據(jù)遷移學(xué)習(xí)方法大多利用額外高資源語言標(biāo)注數(shù)據(jù)作為遷移學(xué)習(xí)的弱監(jiān)督訓(xùn)練，以對齊信息作為橋梁，如雙語詞典[48]、并行語料庫[49]和單詞對齊[50]等，將知識(shí)（標(biāo)注、詞向量、特征表示等）從高資源語言投影到低資源語言?；跀?shù)據(jù)方法在跨語言NER 中顯示出相當(dāng)大的優(yōu)越性，但是對高資源語言標(biāo)注數(shù)據(jù)和對齊信息的規(guī)模和質(zhì)量非常敏感，并且僅限于跨語言遷移。

3.1.1 標(biāo)注和表示投影法

為了提高跨語言NER 的性能以及針對目標(biāo)語言中沒有人工標(biāo)注，Ni 等人提出兩種弱監(jiān)督跨語言NER 方法[49]標(biāo)注和表示投影法，以及兩種共解碼方案基于排除-O 置信度和基于等級(jí)的共解碼方案。

標(biāo)注投影法利用并行語料庫、翻譯等對齊語料，將高資源語言中的標(biāo)注遷移到對應(yīng)目標(biāo)語言上，并開發(fā)了一種獨(dú)立于語言的數(shù)據(jù)選擇方案，可以從嘈雜的數(shù)據(jù)中選擇高質(zhì)量標(biāo)注投影數(shù)據(jù)。給定目標(biāo)語言句子y，以及質(zhì)量得分閾值q和實(shí)體數(shù)量閾值n，其投影質(zhì)量得分q(y)，如式（1）所示：

式中，e代表y中的每個(gè)實(shí)體，代表e用投影標(biāo)注l′(e)標(biāo)記的相對頻率，n(y)是y中的實(shí)體總數(shù)。數(shù)據(jù)選擇方案必須滿足q(y)≥q，n(y)≥n。

表示投影法，首先使用以詞向量為輸入的前饋神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練英語NER 系統(tǒng)，然后將目標(biāo)語言的詞向量通過線性映射M f→e投影到英語向量空間中；最后使用訓(xùn)練好的英語NER 系統(tǒng)對目標(biāo)語言進(jìn)行標(biāo)記。可通過加權(quán)最小二乘法得到線性映射M f→e，如式（2）所示：

其中，wi表示訓(xùn)練詞典中英語目標(biāo)語言單詞對(xi,yi)的權(quán)重，ui、vi分別表示英語單詞xi和目標(biāo)語言單詞yi的詞向量。

共解碼方案可以有效地結(jié)合兩種投影法的輸出，提高識(shí)別精度?；谂懦?O 置信度的共解碼方案是選擇置信度分?jǐn)?shù)較高的標(biāo)注投影法或表示投影法生成的標(biāo)簽，優(yōu)先選擇一種方法的非O 標(biāo)簽（即實(shí)體標(biāo)簽）?；诘燃?jí)的共解碼方案，給予標(biāo)注投影法更高優(yōu)先級(jí)，即組合輸出包括標(biāo)注投影法檢測到的所有實(shí)體，以及與標(biāo)注投影法不沖突的所有表示投影法檢測到的實(shí)體。當(dāng)標(biāo)注投影法為一段x都生成了O 標(biāo)簽，則表示投影法檢測到x的實(shí)體標(biāo)簽不會(huì)與標(biāo)注投影沖突。例如：標(biāo)注投影法的輸出標(biāo)簽序列為（B-PER，O，O，O，O），表示投影法的輸出標(biāo)簽序列為（B-ORG，I-ORG，O，B-LOC，I-LOC），那么基于等級(jí)的共解碼方案合并輸出為（B-PER，O，O，B-LOC，ILOC）。

Ni 的貢獻(xiàn)在于為標(biāo)注投影法開發(fā)了一種語言無關(guān)數(shù)據(jù)選擇方案，以及兩種共解碼方案，有效地提高了NER 的識(shí)別精度。兩種投影法都具有較高靈活性，但是容易受到雙語單詞對的對齊準(zhǔn)確率和英語NER 系統(tǒng)準(zhǔn)確率的影響。

3.1.2 雙語詞典特征表示遷移法

為了豐富低資源語言的語義表示以及緩解詞典外單詞問題，F(xiàn)eng 等人提出了雙語詞典特征表示遷移法，將雙語詞典特征表示和詞級(jí)實(shí)體類型分布特征作為目標(biāo)NER 模型的額外輸入，并設(shè)計(jì)一個(gè)詞典擴(kuò)展策略估計(jì)詞典外單詞的特征表示[51]。

雙語詞典特征表示：根據(jù)來自高資源語言的翻譯，對每個(gè)低資源語言單詞的所有翻譯詞向量使用雙向長短時(shí)記憶網(wǎng)絡(luò)（bi-directional long short-term memory，BiLSTM）或注意力機(jī)制提取特征表示veci。每個(gè)翻譯項(xiàng)目T都由一個(gè)或多個(gè)高資源語言單詞組成，例如：中文單詞“美國”有四個(gè)英文翻譯“America”“United States”“USA”和“The United States of America”。

詞典擴(kuò)展策略，用于估計(jì)詞典外單詞的雙語詞典特征表示。給定低資源語言單詞xi及其對應(yīng)詞向量wi和雙語詞典特征表示veci。使用線性映射函數(shù)，如式（3）所示，作為兩個(gè)語義空間之間的轉(zhuǎn)換，最小化式（4）以優(yōu)化映射矩陣M，在獲得M之后，對每個(gè)詞典外單詞oi用式（5）估算其特征表示veoi：

單詞實(shí)體類型的分布特征是每個(gè)單詞被標(biāo)記為每種實(shí)體類型的概率。實(shí)驗(yàn)中只使用了三種最常見的命名實(shí)體類型，即P（人名）、L（地名）、O（組織名）以及隨機(jī)生成一個(gè)表示非實(shí)體的類型N，因此構(gòu)造了四個(gè)實(shí)體類型向量{EP,EO,EL,EN}，Ej∈Rd。然后，使用標(biāo)準(zhǔn)余弦函數(shù)計(jì)算低資源詞向量wi與實(shí)體類型向量Ej之間的語義相關(guān)性，如式（6）所示。最后，每個(gè)低資源和高資源語言單詞都分配有一個(gè)維數(shù)為4 的實(shí)體類型分布特征，eij={eP,eO,eL,eN}。

最后，將低資源詞向量wi、低資源字符向量ci、雙語詞典翻譯特征veci或veoi以及實(shí)體類型分布特征eij的連接詞向量Wi={wi,ci,veci,eij}作為BiLSTMCRF 模型的輸入。

該方法開創(chuàng)性地使用雙語詞典特征表示和單詞實(shí)體類型的分布特征表示，豐富了低資源語言的語義表示，并設(shè)計(jì)了一種詞典擴(kuò)展策略，有效地緩解了詞典外單詞問題，在低資源NER 性能上取得很大的提升。該方法具有非常好的可擴(kuò)展性，可以將高資源語言的其他知識(shí)（例如：WordNet、知識(shí)圖譜等）整合到體系結(jié)構(gòu)中，還可以擴(kuò)展到其他NLP 任務(wù)（例如：意圖識(shí)別、情感分析）。

3.2 基于模型遷移學(xué)習(xí)

NER 的基于模型遷移學(xué)習(xí)不需要額外的高資源語言對齊信息，主要利用源域和目標(biāo)域之間的相似性和相關(guān)性，將源模型部分參數(shù)或特征表示遷移到目標(biāo)模型，并自適應(yīng)地調(diào)整目標(biāo)模型[52]。例如：Ando和Zhang[53]提出了一種遷移學(xué)習(xí)框架，該框架在多個(gè)任務(wù)之間共享結(jié)構(gòu)參數(shù)，并提高了包括NER 在內(nèi)多種任務(wù)的性能。Collobert等人[2]提出一個(gè)獨(dú)立于任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)，并采用聯(lián)合訓(xùn)練將知識(shí)從NER 和詞性標(biāo)注（part-of-speech tagging，POS）任務(wù)遷移到組塊識(shí)別任務(wù)。Wang 等人[54]利用標(biāo)簽感知MMD 完成特征遷移，實(shí)現(xiàn)了跨醫(yī)學(xué)專業(yè)NER 系統(tǒng)。Lin 等人[55]在現(xiàn)有的深度遷移神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上引入單詞和句子適應(yīng)層，彌合兩個(gè)輸入空間之間的間隙，在LSTM 和CRF 層之間也引入了輸出適應(yīng)層，以捕獲兩個(gè)輸出空間中的變化。考慮到目標(biāo)數(shù)據(jù)的領(lǐng)域相關(guān)性差異，Yang 等人[56]受知識(shí)蒸餾（knowledge distillation，KD）的啟發(fā)，提出了一種用于序列標(biāo)記領(lǐng)域自適應(yīng)的細(xì)粒度知識(shí)融合模型，首先對目標(biāo)域句子和單詞的領(lǐng)域相關(guān)性進(jìn)行建模，然后在句子和單詞級(jí)別上對源域和目標(biāo)域進(jìn)行知識(shí)融合，有效平衡了目標(biāo)模型從目標(biāo)域數(shù)據(jù)學(xué)習(xí)和從源模型學(xué)習(xí)之間的關(guān)系。

3.2.1 基于RNN 的遷移學(xué)習(xí)

RNN 及其變體已被大量應(yīng)用于NER 任務(wù)，并取得了非常高的識(shí)別精度。Yang 等人利用神經(jīng)網(wǎng)絡(luò)通用性，提出了一種基于RNN的序列標(biāo)注遷移學(xué)習(xí)框架（RNN-based transfer learning，RNN-TL）[52]，通過源任務(wù)和目標(biāo)任務(wù)之間共享模型參數(shù)和特征表示，提高目標(biāo)任務(wù)的學(xué)習(xí)性能。并利用不同級(jí)別的共享方案，在一個(gè)統(tǒng)一的模型框架下處理跨域、跨應(yīng)用和跨語言遷移。

Fig.2 RNN-based transfer learning model圖2 基于RNN 的遷移學(xué)習(xí)模型

該遷移方法在一個(gè)統(tǒng)一的RNN-CRF 框架下，在低資源跨域、跨應(yīng)用和跨語言的序列標(biāo)注任務(wù)上取得了不錯(cuò)的效果，尤其是在跨領(lǐng)域方面。但是還存在一定不足：跨語言遷移只能是字母相似的語言；對于遷移的參數(shù)和特征表示沒有進(jìn)行任何篩選工作，這使得負(fù)遷移對模型性能產(chǎn)生消極影響。

3.2.2 參數(shù)和神經(jīng)適應(yīng)器遷移

NER 的實(shí)體類型隨時(shí)間在不斷變化，為了解決目標(biāo)領(lǐng)域出現(xiàn)新的實(shí)體類型而導(dǎo)致重新標(biāo)注數(shù)據(jù)和訓(xùn)練模型的問題，Chen 等人[57]提出了一種解決方案：在目標(biāo)模型的輸出層添加新的神經(jīng)元并遷移源模型部分參數(shù)，然后在目標(biāo)數(shù)據(jù)上進(jìn)行微調(diào)（fine-tuned），此外還設(shè)計(jì)一種神經(jīng)適應(yīng)器學(xué)習(xí)源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的標(biāo)簽分布差異，遷移過程如圖3 所示。

Fig.3 Parameters and neural adapter transfer model圖3 參數(shù)和神經(jīng)適應(yīng)器遷移模型

在目標(biāo)模型輸出層擴(kuò)展nM個(gè)神經(jīng)元用于學(xué)習(xí)新實(shí)體類型，其中n取決于數(shù)據(jù)集標(biāo)簽格式（例如：如果數(shù)據(jù)集為BIO 格式，則n=2，因?yàn)閷τ诿總€(gè)命名實(shí)體類型，將有兩種輸出標(biāo)簽B-NE 和I-NE），M是新命名實(shí)體類型的數(shù)量。遷移源模型參數(shù)時(shí)，目標(biāo)模型輸出層參數(shù)用正態(tài)分布X～N(μ,σ2)得出的權(quán)重進(jìn)行初始化；其他參數(shù)都用源模型中相對應(yīng)參數(shù)進(jìn)行初始化。

神經(jīng)適應(yīng)器使用BiLSTM 實(shí)現(xiàn)，將源模型輸出層輸出連接到目標(biāo)模型相應(yīng)輸出上，作為目標(biāo)CRF 的附加輸入。可以為目標(biāo)模型學(xué)習(xí)兩個(gè)任務(wù)之間的標(biāo)簽分布差異，以減少數(shù)據(jù)標(biāo)簽不一致的影響。

該方案使用源模型的參數(shù)和神經(jīng)適應(yīng)器實(shí)現(xiàn)模型遷移，是一種非常簡單的遷移方法，解決了目標(biāo)領(lǐng)域出現(xiàn)新實(shí)體類型而導(dǎo)致重新標(biāo)注數(shù)據(jù)和訓(xùn)練模型的問題。同時(shí)神經(jīng)適應(yīng)器可以解決標(biāo)簽不一致，且具有提高遷移模型性能的能力。

3.3 對抗遷移學(xué)習(xí)

NER 的基于模型遷移學(xué)習(xí)方法雖然取得了很好的性能，但是還存在以下問題有待解決：（1）沒有考慮資源間的差異，強(qiáng)制在語言或領(lǐng)域之間共享模型參數(shù)和特征表示；（2）資源數(shù)據(jù)不平衡，高資源語言或領(lǐng)域的訓(xùn)練集規(guī)模通常比低資源訓(xùn)練集規(guī)模大得多[58]，忽略了領(lǐng)域間的這些差異，導(dǎo)致泛化能力差。因此研究者引入受GAN 網(wǎng)絡(luò)啟發(fā)的對抗技術(shù)，學(xué)習(xí)一種“域無關(guān)特征”，實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移，同時(shí)有效緩解了負(fù)遷移問題。

NER 的對抗遷移學(xué)習(xí)流程如圖4 所示。對抗鑒別器選擇有利于提高目標(biāo)任務(wù)性能的源任務(wù)特征，同時(shí)防止源任務(wù)的特定信息進(jìn)入共享空間。訓(xùn)練完成之后，對抗鑒別器和共享特征提取器達(dá)到平衡：對抗鑒別器無法區(qū)分共享特征提取器中的特征表示來自源域還是目標(biāo)域。但是訓(xùn)練達(dá)到這個(gè)平衡點(diǎn)需要花費(fèi)大量時(shí)間，還有可能發(fā)生模型崩潰。

Fig.4 NER adversarial transfer learning flowchart圖4 NER 對抗遷移學(xué)習(xí)流程圖

3.3.1 自注意力機(jī)制對抗遷移網(wǎng)絡(luò)

取96孔板,加入100 μL不同濃度(0.625、1.250、2.500、5.000、10.000、20.000、40.000 mg/mL)的揮發(fā)油乙醇溶液,然后再分別加入100 μL新配制的ABTS工作液,室溫條件下靜置反應(yīng)10 min后,用酶標(biāo)儀在波長405 nm下測定其吸光度。分別以無水乙醇和維生素C作為空白和陽性對照,每個(gè)揮發(fā)油濃度重復(fù)3次。

Cao 等人首次將對抗遷移學(xué)習(xí)應(yīng)用于NER 任務(wù)，提出自注意力機(jī)制的中文NER 對抗遷移學(xué)習(xí)模型[59]。充分利用中文分詞（Chinese word segmentation，CWS）任務(wù)更加豐富的詞邊界信息，并通過任務(wù)鑒別器和對抗損失函數(shù)過濾中文分詞任務(wù)的特有信息，以提高中文NER 任務(wù)性能。同時(shí)在BiLSTM 層后加入自注意力機(jī)制明確捕獲兩個(gè)字符之間的長距離依賴關(guān)系并學(xué)習(xí)句子內(nèi)部結(jié)構(gòu)信息。

任務(wù)鑒別器，通過Maxpooling 層和softmax 層識(shí)別特征來自哪個(gè)領(lǐng)域，可以表示為式（7）、式（8）：

其中，H表示共享自注意力的輸出，θd表示任務(wù)鑒別器的參數(shù)，Wd∈RK×2dh和bd∈RK是可訓(xùn)練參數(shù)，K是任務(wù)數(shù)。

通過引入對抗損失函數(shù)LAdv，如式（9）所示，防止中文分詞任務(wù)的特定信息進(jìn)入共享空間。LAdv訓(xùn)練共享特征提取器以產(chǎn)生共享特征，使得任務(wù)鑒別器無法可靠地判斷特征的領(lǐng)域。通過在softmax 層下方添加一個(gè)梯度反轉(zhuǎn)層完成minimax 優(yōu)化，使共享BiLSTM 生成一個(gè)特征表示來誤導(dǎo)任務(wù)鑒別器。

式中，θs表示共享特征提取器可訓(xùn)練參數(shù)，Es表示共享特征提取器，Tk是任務(wù)k訓(xùn)練實(shí)例的數(shù)量，是任務(wù)k的第i個(gè)實(shí)例。

該模型首次將對抗遷移學(xué)習(xí)應(yīng)用于NER 任務(wù)，在WeiboNER 數(shù)據(jù)集[60]和SighanNER 數(shù)據(jù)集[61]上，將F1 值分別從BiLSTM-CRF 模型的51.01%和89.13%提高到了53.08%和90.64%，并通過實(shí)驗(yàn)驗(yàn)證了遷移學(xué)習(xí)、對抗訓(xùn)練、自注意力機(jī)制各個(gè)方法對于模型的有效性。

3.3.2 雙重對抗遷移網(wǎng)絡(luò)

Zhou 等人提出了雙重對抗遷移網(wǎng)絡(luò)（dual adversarial transfer network，DATNet）[58]，在通用深度遷移單元上引入兩種對抗學(xué)習(xí)：一是用廣義資源對抗鑒別器（generalized resource-adversarial discriminator，GRAD），解決資源數(shù)據(jù)不均衡和資源差異問題；二是對抗訓(xùn)練，分別在字符向量和詞向量層添加以一個(gè)小范數(shù)? 為界的擾動(dòng)，以提高模型的泛化能力和魯棒性。

DATNet 根據(jù)特征提取器的差異，有兩種體系結(jié)構(gòu)：一是特征提取器有共享BiLSTM 和資源相關(guān)BiLSTM 的DATNet-F；二是特征提取器只有共享BiLSTM 而沒有資源相關(guān)BiLSTM 的DATNet-P。

GRAD 通過權(quán)重α平衡高低資源的訓(xùn)練規(guī)模差異較大的影響，使源域和目標(biāo)域中提取的特征表示更加兼容，共享BiLSTM 的輸出與領(lǐng)域無關(guān)，并為每個(gè)樣本提供自適應(yīng)權(quán)重，從而使模型訓(xùn)練的重點(diǎn)放在困難樣本上。為了計(jì)算GRAD 的損失函數(shù)，如式（10）所示，共享BiLSTM 的輸出序列首先通過自注意力機(jī)制編碼為單個(gè)向量，然后通過線性變換投影到標(biāo)量r：

式中，Ii∈DS和Ii∈DT是標(biāo)識(shí)函數(shù)，分別表示特征來自源域還是目標(biāo)域；參數(shù)γ衡量困難和簡單樣本損失貢獻(xiàn)對比，通過測量預(yù)測值與真實(shí)標(biāo)簽之間的差異控制各個(gè)樣本的損失貢獻(xiàn)。權(quán)重α和分別減少了高資源樣本和簡單樣本的損失貢獻(xiàn)。

對抗訓(xùn)練就是在原始樣本的基礎(chǔ)上添加以一個(gè)小范數(shù)?為界的擾動(dòng)ηx，計(jì)算如式（11）所示：

其中，Θ是當(dāng)前模型參數(shù)集。ηx按照文獻(xiàn)[62]中的策略，通過如下線性化方法近似估算，g=?xlogp(y|Θ;x)，?可在驗(yàn)證集上確定。在每個(gè)訓(xùn)練步驟中，由Θ參數(shù)化當(dāng)前模型找到的擾動(dòng)ηx，并通過xadv=x+ηx構(gòu)造一個(gè)對抗樣本，然后進(jìn)行原始樣本和對抗樣本混合訓(xùn)練以提高模型泛化能力。對抗訓(xùn)練損失函數(shù)lAT的計(jì)算如式（12）所示：

其中，logp(y|Θ;x)、logp(y|Θ;xadv)分別表示原始樣本及其對抗樣本的損失。DATNet 分別在字符級(jí)和詞級(jí)向量層使用對抗訓(xùn)練，可以根據(jù)式（11）計(jì)算字符向量擾動(dòng)ηc、源域詞向量擾動(dòng)ηWS和目標(biāo)域詞向量擾動(dòng)ηWT。

DATNet 很好地解決了表示差異和數(shù)據(jù)資源不平衡的問題，提高了模型的泛化能力，并在跨語言和跨域NER 遷移上取得顯著改進(jìn)。通過實(shí)驗(yàn)，DATNet-P 架構(gòu)更適合具有相對更多訓(xùn)練數(shù)據(jù)的跨語言遷移，而DATNet-F 架構(gòu)更適合具有極低資源和跨域遷移的跨語言遷移。

4 評價(jià)指標(biāo)及NER 方法比較

4.1 命名實(shí)體識(shí)別評價(jià)指標(biāo)

目前，NER 最常用的評價(jià)標(biāo)準(zhǔn)有精確率（Precision）、召回率（Recall）和F1 值（F1-score）等。

精確率，在給定數(shù)據(jù)集中，標(biāo)注正確實(shí)體數(shù)占所有被標(biāo)注實(shí)體數(shù)的比例，如式（13）所示：

召回率，在給定數(shù)據(jù)集中，標(biāo)注正確實(shí)體數(shù)占數(shù)據(jù)集中所有實(shí)體數(shù)的比例，如式（14）所示：

Table 1 Statistics of NER datasets表1 NER 數(shù)據(jù)集統(tǒng)計(jì)信息

F1 值，同時(shí)考慮精確率和召回率，是平衡精確率和召回率的綜合指標(biāo)，如式（15）所示：

其中，TP（true positive）表示真陽性，識(shí)別出的正確實(shí)體數(shù)；FP（false positive）表示假陽性，識(shí)別出的錯(cuò)誤實(shí)體數(shù)；FN（false negative）表示假陰性，未被識(shí)別出的實(shí)體數(shù)。

4.2 遷移學(xué)習(xí)評價(jià)指標(biāo)

為了驗(yàn)證遷移學(xué)習(xí)模型的性能，通常是在同一數(shù)據(jù)集下，將實(shí)驗(yàn)?zāi)Ｐ团c深度神經(jīng)網(wǎng)絡(luò)模型、其他遷移學(xué)習(xí)模型的精確率、F1 值等進(jìn)行比較。

4.3 NER 方法性能比較

為了評估NER 遷移學(xué)習(xí)方法的性能，本文以CoNLL2003 英語NER 數(shù)據(jù)集[63]為源域，CoNLL2002西班牙語和荷蘭語NER 數(shù)據(jù)集[64]以及WNUT-2017英語Twitter NER 數(shù)據(jù)集[65]為目標(biāo)域進(jìn)行實(shí)驗(yàn)。這些數(shù)據(jù)集的統(tǒng)計(jì)信息如表1 所示，使用官方的訓(xùn)練集、驗(yàn)證集和測試集的劃分方法。實(shí)驗(yàn)中使用30 維字符向量、50 維詞向量，LSTM 隱狀態(tài)的數(shù)量設(shè)置為100 維。

表2 是一些NER 方法的F1 值比較，可以看出雙語詞典特征表示在跨語言遷移方面取得了非常好的效果，相比于LSTM-CRF 在西班牙語和荷蘭語上的F1 值分別提升了3.01 個(gè)百分點(diǎn)和6.65 個(gè)百分點(diǎn)，由于領(lǐng)域之間沒有標(biāo)準(zhǔn)的對齊信息，該方法無法進(jìn)行跨領(lǐng)域遷移；DATNet 的兩個(gè)變體優(yōu)于其他方法，在3個(gè)數(shù)據(jù)集上都有很大提升，DATNet-P 更適合跨域遷移，而DATNet-F 在跨語言上更有優(yōu)勢。與多任務(wù)學(xué)習(xí)[66]相比，遷移學(xué)習(xí)最關(guān)心的是目標(biāo)任務(wù)，而不是同時(shí)提升所有的源任務(wù)和目標(biāo)任務(wù)。

Table 2 NER method performance comparison(F1-score)表2 NER 方法性能比較（F1 值）%

5 總結(jié)與展望

本文主要對應(yīng)用于NER 任務(wù)的遷移學(xué)習(xí)方法從基于數(shù)據(jù)、基于模型和對抗遷移學(xué)習(xí)三方面進(jìn)行了歸納總結(jié)。遷移學(xué)習(xí)對于解決NER 任務(wù)的資源匱乏、實(shí)體類型多樣化等問題，取得了非常好的效果。基于數(shù)據(jù)遷移學(xué)習(xí)在跨語言遷移任務(wù)中取得很大成功，但也僅限于跨語言遷移?；谀Ｐ瓦w移學(xué)習(xí)不需要額外的高資源語言表示，將源模型的部分參數(shù)和特征遷移到目標(biāo)模型上。對抗遷移學(xué)習(xí)以其獨(dú)特的對抗訓(xùn)練思想，生成一種“域無關(guān)特征”，實(shí)現(xiàn)源域知識(shí)到目標(biāo)域的遷移，幫助目標(biāo)任務(wù)提高學(xué)習(xí)性能，同時(shí)有效緩解了負(fù)遷移問題，是目前發(fā)展?jié)摿ψ畲蟮腘ER 遷移學(xué)習(xí)方法，也是今后的研究重點(diǎn)。

隨著對NER 遷移學(xué)習(xí)的深入研究，還有一些新的問題需要解決：

（1）負(fù)遷移是遷移學(xué)習(xí)道路上最大的阻礙，雖然尋找源域和目標(biāo)域之間相關(guān)性衡量標(biāo)準(zhǔn)以及對抗遷移學(xué)習(xí)可以緩解該問題，但是這些方法都有其自身的局限性。如何更好地解決負(fù)遷移問題，有待進(jìn)一步深入研究。

（2）對于多步傳導(dǎo)式遷移學(xué)習(xí)，如何尋找一個(gè)或幾個(gè)既能照顧到目標(biāo)域也能照顧到源域的中間領(lǐng)域，幫助相關(guān)性不大的兩個(gè)領(lǐng)域之間實(shí)現(xiàn)遷移學(xué)習(xí)，以達(dá)到充分利用已有的大量數(shù)據(jù)，是遷移學(xué)習(xí)未來的一個(gè)研究方向。

（3）在NER 對抗遷移學(xué)習(xí)中如何構(gòu)建更加強(qiáng)大的對抗鑒別器，幫助共享特征提取器和對抗鑒別器之間更快達(dá)到平衡點(diǎn)，處理多源域NER 對抗遷移學(xué)習(xí)任務(wù)，以及更好地解決負(fù)遷移問題，是下一步研究的主要工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡