張文韓 劉小明,4 楊 關(guān),2 劉 杰
1 (中原工學(xué)院計(jì)算機(jī)學(xué)院 鄭州 450007)
2 (河南省網(wǎng)絡(luò)輿情監(jiān)測(cè)與智能分析重點(diǎn)實(shí)驗(yàn)室(中原工學(xué)院) 鄭州 450007)
3 (北方工業(yè)大學(xué)信息學(xué)院 北京 100144)
4 (國(guó)家語(yǔ)委中國(guó)語(yǔ)言智能研究中心(首都師范大學(xué)) 北京 102206)(2020107234@zut.edu.cn)
命名實(shí)體識(shí)別是文本處理和信息抽取中的一個(gè)基本任務(wù),其作用是識(shí)別文本中具有特殊意義的實(shí)體,是知識(shí)圖譜、實(shí)體關(guān)系抽取、人機(jī)對(duì)話系統(tǒng)等的前置任務(wù)[1-2].由于特定目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)難以獲取,領(lǐng)域之間存在數(shù)據(jù)分布和標(biāo)注類型的差異,源領(lǐng)域上訓(xùn)練好的模型難以直接被應(yīng)用于目標(biāo)領(lǐng)域.所以,能夠?qū)⒛P蛻?yīng)用于數(shù)據(jù)資源匱乏的跨域命名實(shí)體識(shí)別(cross-domain named-entity recognition,CD-NER)引起了廣泛關(guān)注[3].
CD-NER 任務(wù)主要面臨2 個(gè)問(wèn)題:1)數(shù)據(jù)資源匱乏導(dǎo)致模型無(wú)法充分學(xué)習(xí)隱藏的特征表示;2)由于不同領(lǐng)域中相同實(shí)體代表不同的含義,實(shí)體歧義導(dǎo)致模型遷移時(shí)出現(xiàn)負(fù)遷移.為了解決領(lǐng)域數(shù)據(jù)資源匱乏導(dǎo)致的模型效果不佳問(wèn)題,Jia 等人[4]設(shè)計(jì)了一個(gè)利用語(yǔ)言模型的參數(shù)生成網(wǎng)絡(luò)作為跨域之間的領(lǐng)域自適應(yīng)來(lái)執(zhí)行跨域之間的知識(shí)遷移,同時(shí)通過(guò)學(xué)習(xí)相關(guān)領(lǐng)域的知識(shí)來(lái)增強(qiáng)模型的泛化能力;Wang 等人[5]提出了一個(gè)跨領(lǐng)域的標(biāo)簽感知雙遷移學(xué)習(xí)框架,通過(guò)少量標(biāo)記數(shù)據(jù)將訓(xùn)練好的模型應(yīng)用于特定目標(biāo)領(lǐng)域.為解決實(shí)體歧義性問(wèn)題,Jia 等人[6]設(shè)計(jì)了一個(gè)多細(xì)胞組成的長(zhǎng)短期記憶(multi-cell compositional long short-term memory,multi-cell LSTM)網(wǎng)絡(luò),對(duì)不同實(shí)體類型分別建模處理,在實(shí)體層面進(jìn)行跨域知識(shí)的遷移.另有相關(guān)學(xué)者使用預(yù)訓(xùn)練與微調(diào)相結(jié)合、參數(shù)分享[7-8]等方法實(shí)現(xiàn)跨域遷移,也取得了顯著效果.但是,文獻(xiàn) [4-8]的方法通常利用語(yǔ)義特征之間的域不變知識(shí)來(lái)實(shí)現(xiàn)跨領(lǐng)域知識(shí)的遷移,對(duì)語(yǔ)義特征中的結(jié)構(gòu)化知識(shí)未能很好地利用.
關(guān)于結(jié)構(gòu)化知識(shí),其在很多領(lǐng)域已有廣泛研究[9].例如,化合物和分子建模[10]、大腦連通性[11]、社交網(wǎng)絡(luò)[12]中都包含了結(jié)構(gòu)化知識(shí).另外,Yang 等人[13]提出遷移學(xué)習(xí)的一個(gè)關(guān)鍵問(wèn)題是如何識(shí)別并利用不同領(lǐng)域中共性的結(jié)構(gòu)化知識(shí)來(lái)提升遷移的效果.如Alvarez-Melis 等人[14]將結(jié)構(gòu)化信息融入最優(yōu)傳輸?shù)目蚣?,且框架利用特征表示中的結(jié)構(gòu)化信息,在USPS 和MNIST 數(shù)字分類任務(wù)上取得了明顯的提升.Chen 等人[15]認(rèn)為好的模型不僅需要考慮域之間的節(jié)點(diǎn)關(guān)系(特征信息),還應(yīng)該考慮域內(nèi)實(shí)體特征間的關(guān)系(結(jié)構(gòu)化信息).
本文認(rèn)為文本表示中的結(jié)構(gòu)化信息可以促進(jìn)跨域任務(wù)中相關(guān)知識(shí)的遷移,同時(shí)提出將結(jié)構(gòu)化語(yǔ)義知識(shí)應(yīng)用于跨域命名實(shí)體識(shí)別任務(wù),設(shè)計(jì)一種基于多層結(jié)構(gòu)化語(yǔ)義知識(shí)增強(qiáng)的跨領(lǐng)域命名實(shí)體識(shí)別(multi-level structured semantic knowledge enhanced cross-domain named entity recognition,MSKE-CDNER)模型.具體而言,在MSKE-CDNER 架構(gòu)中,構(gòu)建多層結(jié)構(gòu)化對(duì)齊機(jī)制,在不同層中將具有相似結(jié)構(gòu)的文本特征進(jìn)行對(duì)齊,充分獲取語(yǔ)義特征的結(jié)構(gòu)化信息.對(duì)齊機(jī)制如圖1 所示,模型在嵌入層對(duì)文本的語(yǔ)義和句法特征進(jìn)行對(duì)齊,獲取和遷移結(jié)構(gòu)化的語(yǔ)義表示;在隱藏層對(duì)上下文特征進(jìn)行結(jié)構(gòu)化的對(duì)齊,獲取和遷移領(lǐng)域之間結(jié)構(gòu)化的域不變知識(shí),進(jìn)一步提高目標(biāo)領(lǐng)域?qū)嶓w識(shí)別能力.
Fig.1 Multi-level structural alignment mechanism for feature representation圖1 特征表示的多層結(jié)構(gòu)化對(duì)齊機(jī)制
綜上所述,本文的主要貢獻(xiàn)有3 點(diǎn):
1) 提出一種利用文本序列中蘊(yùn)含的結(jié)構(gòu)化知識(shí)增強(qiáng)跨領(lǐng)域?qū)嶓w識(shí)別模型遷移能力的方法,利用結(jié)構(gòu)化知識(shí)跨領(lǐng)域不變的穩(wěn)定性促進(jìn)跨領(lǐng)域知識(shí)的遷移.
2) 設(shè)計(jì)一個(gè)基于多層結(jié)構(gòu)化語(yǔ)義知識(shí)增強(qiáng)的跨領(lǐng)域命名實(shí)體識(shí)別模型.對(duì)于多層結(jié)構(gòu)化對(duì)齊機(jī)制,模型在嵌入層設(shè)計(jì)了結(jié)構(gòu)特征表示模塊,使用圖最優(yōu)傳輸(graph optimal transport,GOT)[15]獲取實(shí)體特征的結(jié)構(gòu)化知識(shí),充分挖掘文本原語(yǔ)義信息;在隱藏層設(shè)計(jì)了潛層對(duì)齊模塊,利用對(duì)齊度量準(zhǔn)則獲取結(jié)構(gòu)化域不變知識(shí),促進(jìn)實(shí)體識(shí)別能力向目標(biāo)領(lǐng)域遷移.
3) 通過(guò)在5 個(gè)英文數(shù)據(jù)集和特定的跨域NER 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),表明利用特征表示中的結(jié)構(gòu)化語(yǔ)義信息可以促進(jìn)跨域命名實(shí)體識(shí)別中知識(shí)的遷移,驗(yàn)證了所提模型的有效性.
本節(jié)將從跨域命名實(shí)體識(shí)別、領(lǐng)域自適應(yīng)和結(jié)構(gòu)化知識(shí)3 個(gè)方面介紹相關(guān)工作.
跨域命名實(shí)體識(shí)別旨在利用從標(biāo)注數(shù)據(jù)豐富的源領(lǐng)域中學(xué)習(xí)到的知識(shí)來(lái)提高目標(biāo)領(lǐng)域的實(shí)體識(shí)別能力,因其可以緩解深度學(xué)習(xí)中數(shù)據(jù)依賴和訓(xùn)練數(shù)據(jù)不足的問(wèn)題,引起了眾多學(xué)者的關(guān)注.例如,張晗等人[16]通過(guò)引入生成式對(duì)抗網(wǎng)絡(luò)和文檔層面的全局變量,來(lái)解決領(lǐng)域內(nèi)標(biāo)注數(shù)據(jù)匱乏和實(shí)體歧義性問(wèn)題.Jia 等人[4]設(shè)計(jì)了一個(gè)新的參數(shù)生成網(wǎng)絡(luò),將從命名實(shí)體識(shí)別或者語(yǔ)言模型任務(wù)中獲得的參數(shù)分解成一個(gè)由元參數(shù)與任務(wù)嵌入向量和一個(gè)域嵌入向量組成的集合,通過(guò)域向量和任務(wù)向量之間的相似性來(lái)學(xué)習(xí)各個(gè)域和任務(wù)之間的相關(guān)性,進(jìn)而在域之間進(jìn)行知識(shí)的遷移.Li 等人[17]結(jié)合元學(xué)習(xí)和對(duì)抗學(xué)習(xí)的策略,獲取序列標(biāo)注中穩(wěn)健、通用和可轉(zhuǎn)移的特征,并用于領(lǐng)域自適應(yīng).該策略的主要優(yōu)勢(shì)在于它能夠通過(guò)域中少量的數(shù)據(jù)快速適應(yīng)新的領(lǐng)域.Chen 等人[18]將數(shù)據(jù)特征表示從高資源轉(zhuǎn)移到低資源,從而達(dá)到利用高資源數(shù)據(jù)特征的目的,在低資源環(huán)境下取得了顯著的提升.但是,文獻(xiàn)[16-18]的方法僅考慮了序列的特征信息,對(duì)于特征信息中的結(jié)構(gòu)化信息未能很好地利用.
領(lǐng)域自適應(yīng)是遷移學(xué)習(xí)中的一個(gè)熱點(diǎn),其中學(xué)習(xí)域不變知識(shí)是無(wú)監(jiān)督場(chǎng)景中的一個(gè)主流方法.由于實(shí)現(xiàn)預(yù)期質(zhì)量和數(shù)量的標(biāo)注數(shù)據(jù)消耗過(guò)高,所以領(lǐng)域自適應(yīng)對(duì)于許多NLP 任務(wù)非常重要.例如Hao等人[19]提出了一個(gè)半監(jiān)督的解耦框架,通過(guò)使用3種互信息正則化項(xiàng),分別最大化域特定潛變量和域不變潛變量與原始嵌入之間的互信息、最小化域特定潛變量與域不變潛變量之間的互信息,將特定域信息和域不變信息進(jìn)行分解.Nozza 等人[20]提出了一種適應(yīng)詞嵌入的方法,通過(guò)增加用于源領(lǐng)域到目標(biāo)領(lǐng)域特征空間適應(yīng)的語(yǔ)義信息,來(lái)提高模型的領(lǐng)域自適應(yīng)能力.李鑫等人[21]提出一個(gè)更穩(wěn)定的訓(xùn)練風(fēng)險(xiǎn)函數(shù)來(lái)分離出更優(yōu)的真實(shí)特征,提高模型的泛化能力.Gu 等人[22]通過(guò)引入公共的編碼器以及解碼器、特定的編碼器以及解碼器來(lái)對(duì)領(lǐng)域內(nèi)公共信息和特定領(lǐng)域信息進(jìn)行顯式建模,以便在域內(nèi)訓(xùn)練時(shí)利用域外數(shù)據(jù)增強(qiáng)模型的泛化能力.Dong 等人[23]針對(duì)多模態(tài)中存在的語(yǔ)義差異和領(lǐng)域差異提出一個(gè)多級(jí)對(duì)齊網(wǎng)絡(luò),通過(guò)多級(jí)對(duì)齊網(wǎng)絡(luò)減少相關(guān)差異、提高領(lǐng)域自適應(yīng)能力.Zhang 等人[24]提出一種利用詞級(jí)和篇章級(jí)域不變特征的領(lǐng)域自適應(yīng)提取方法,并以漸進(jìn)式的預(yù)訓(xùn)練模型提高域不變特征的提取能力,從而實(shí)現(xiàn)知識(shí)遷移.但是,該方法缺少對(duì)文本結(jié)構(gòu)化知識(shí)的提取和利用.本文認(rèn)為,跨領(lǐng)域遷移時(shí),不僅要利用詞匯、語(yǔ)句和篇章等各級(jí)的域不變特征,還應(yīng)該進(jìn)一步利用各層級(jí)的結(jié)構(gòu)化域不變知識(shí).因此,本文針對(duì)特征之間的結(jié)構(gòu)差異和領(lǐng)域之間的差異設(shè)計(jì)了2 個(gè)對(duì)齊模塊,通過(guò)利用各層級(jí)的域不變知識(shí)來(lái)增強(qiáng)模型的領(lǐng)域自適應(yīng)能力.
結(jié)構(gòu)化知識(shí)因其具有穩(wěn)定的跨領(lǐng)域不變性,可用于促進(jìn)跨域知識(shí)的遷移[13].例如,Swarup 等人[25]使用一個(gè)多層、稀疏連接的神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)任務(wù)間的結(jié)構(gòu)表示,促進(jìn)跨域知識(shí)的遷移.Lee 等人[26]利用表示學(xué)習(xí)識(shí)別圖的結(jié)構(gòu)化知識(shí),然后遷移源領(lǐng)域中的結(jié)構(gòu)化知識(shí),構(gòu)造一個(gè)不需要收集和重新訓(xùn)練數(shù)據(jù)的目標(biāo)領(lǐng)域模型.Yang 等人[13]基于3 種遞進(jìn)形式的實(shí)驗(yàn),將復(fù)雜的結(jié)構(gòu)化知識(shí)從源領(lǐng)域遷移到目標(biāo)領(lǐng)域,充分證實(shí)了結(jié)構(gòu)化知識(shí)可以促進(jìn)跨域知識(shí)的遷移.Zheng 等人[27]提出一種標(biāo)簽結(jié)構(gòu)遷移的跨域NER 新方法,在源標(biāo)簽空間和目標(biāo)標(biāo)簽空間中構(gòu)造圖,將跨域問(wèn)題表示為圖匹配問(wèn)題,從而解決標(biāo)簽不匹配問(wèn)題.但是,該方法僅利用了標(biāo)簽中的結(jié)構(gòu)化知識(shí),對(duì)于特征表示中的結(jié)構(gòu)化知識(shí)未能很好地利用.Courty 等人[28]指出,在進(jìn)行領(lǐng)域自適應(yīng)時(shí),使用結(jié)構(gòu)化信息約束可以將相同結(jié)構(gòu)的特征匹配到目標(biāo)空間中的緊湊區(qū)域,而不是不相交的區(qū)域.Chen 等人[15]提出了一個(gè)使用最優(yōu)傳輸(optimal transport,OT)的跨域?qū)R框架圖最優(yōu)傳輸,在框架內(nèi)同時(shí)使用2 種不同類型的OT 距離,將跨域?qū)R問(wèn)題轉(zhuǎn)化為圖匹配問(wèn)題,實(shí)現(xiàn)更好的跨域?qū)R.以視覺(jué)問(wèn)答(visual question answering,VQA),任務(wù)為例,將GOT 應(yīng)用于跨模態(tài)對(duì)齊,可以學(xué)習(xí)到圖像和問(wèn)題之間的潛在對(duì)齊關(guān)系,更好地理解圖像和問(wèn)題的上下文.在VQA 中使用GOT將跨模態(tài)對(duì)齊轉(zhuǎn)化為圖匹配問(wèn)題,圖匹配作為一個(gè)有效的正則化項(xiàng)來(lái)促進(jìn)VQA 的語(yǔ)義理解.圖像和文本屬于跨域問(wèn)題中不同的領(lǐng)域,所以,在跨域任務(wù)中使用圖最優(yōu)傳輸可以進(jìn)一步促進(jìn)跨域知識(shí)的遷移.因此,在本文中引入GOT 來(lái)獲取并利用特征表示中的結(jié)構(gòu)化知識(shí),促進(jìn)跨域知識(shí)的遷移,進(jìn)而提高目標(biāo)領(lǐng)域?qū)嶓w識(shí)別能力.
跨領(lǐng)域序列標(biāo)注:分別從源領(lǐng)域和目標(biāo)領(lǐng)域中獲取對(duì)應(yīng)的數(shù)據(jù)集DSrc=和DTgt=(x(j),,其中NSrc和NTgt分 別為數(shù)據(jù) 集DSrc和DTgt的 樣本數(shù)量.對(duì)于任意的數(shù)據(jù)樣本 (x(i),y(i))∈DSrc,定義符號(hào)序列x(i)=(x1,x2,…,xt)作 為輸入,標(biāo)簽序列y(i)=(y1,y2,…,yt)作為對(duì)應(yīng)的輸出,其中下標(biāo)t為數(shù)據(jù)樣本的長(zhǎng)度.
針對(duì)CD-NER 任務(wù),通常先在源領(lǐng)域DSrc上訓(xùn)練出一個(gè)實(shí)體識(shí)別模型MSrc,任務(wù)的目標(biāo)是在目標(biāo)領(lǐng)域數(shù)據(jù)集DTgt上 對(duì)MSrc進(jìn)行訓(xùn)練,得到一個(gè)目標(biāo)領(lǐng)域上的實(shí)體識(shí)別模型MTgt.模型MTgt能在給定輸入序列和模型參數(shù)的情況下最大化標(biāo)簽序列中的條件概率分布,即
其中YSrc,YTgt為 經(jīng)過(guò)最大化標(biāo)簽之后的輸出序列,ySrc,xSrc代 表 源 領(lǐng) 域 的 輸 出 序 列 與 輸 入 序 列,yTgt,xTgt代表目標(biāo)領(lǐng)域的輸出序列和輸入序列.
本文提出了MSKE-CDNER,在文本表示的詞嵌入層利用GOT 獲取特征表示中的結(jié)構(gòu)化語(yǔ)義信息,并在潛層空間中利用結(jié)構(gòu)化對(duì)齊度量準(zhǔn)則獲取結(jié)構(gòu)化域不變知識(shí),在多個(gè)層級(jí)通過(guò)結(jié)構(gòu)化對(duì)齊促進(jìn)跨域知識(shí)的遷移,進(jìn)而提高模型對(duì)結(jié)構(gòu)化信息的利用.
如圖2 所示,MSKE-CDNER 架構(gòu)分為4 層:第1層為輸入層,由源領(lǐng)域、目標(biāo)領(lǐng)域的數(shù)據(jù)集組成;第2 層為結(jié)構(gòu)特征表示層,包括特征表示層和結(jié)構(gòu)對(duì)齊層,用于將詞向量進(jìn)行編碼并進(jìn)行結(jié)構(gòu)化對(duì)齊,獲取文本的結(jié)構(gòu)化語(yǔ)義表示;第3 層為模型的主體部分,由編碼器、潛層結(jié)構(gòu)化對(duì)齊等組成,用于將文本的結(jié)構(gòu)化語(yǔ)義表示對(duì)齊獲取結(jié)構(gòu)化域不變知識(shí);第4 層為解碼層,對(duì)源領(lǐng)域和目標(biāo)領(lǐng)域采取不同條件隨機(jī)場(chǎng)來(lái)獲取最優(yōu)的結(jié)果.
Fig.2 Overall framework of MSKE-CDNER圖2 MSKE-CDNER 整體框架
為了更好地識(shí)別、遷移特征表示中的結(jié)構(gòu)化域不變知識(shí),MSKE-CDNER 利用多層結(jié)構(gòu)化對(duì)齊機(jī)制,分別在嵌入層和隱藏層對(duì)特征表示進(jìn)行結(jié)構(gòu)化對(duì)齊.
3.2.1 結(jié)構(gòu)特征表示層
特征表示結(jié)構(gòu)化對(duì)齊如圖3 所示.在對(duì)齊時(shí),不僅對(duì)相似的實(shí)體特征進(jìn)行對(duì)齊(黑色實(shí)線對(duì)齊部分為節(jié)點(diǎn)對(duì)齊,其中節(jié)點(diǎn)指的是句子中的實(shí)體),而且對(duì)相似的特征關(guān)系也進(jìn)行對(duì)齊(灰色虛點(diǎn)線對(duì)齊部分為邊對(duì)齊,其中邊指的是句子中實(shí)體和實(shí)體之間的相關(guān)信息),使得模型在獲取實(shí)體特征信息時(shí)能夠獲取到實(shí)體特征之間的結(jié)構(gòu)化信息,從而學(xué)習(xí)到更能代表原語(yǔ)義信息的特征表示.
Fig.3 Features represent structural alignment圖3 特征表示結(jié)構(gòu)化對(duì)齊
模型在嵌入層使用GOT[15]作為一種結(jié)構(gòu)化對(duì)齊方法,獲取特征表示中的結(jié)構(gòu)化知識(shí),如圖4 所示.圖最優(yōu)傳輸針對(duì)跨域?qū)R結(jié)合了2 種形式的最優(yōu)傳輸距離,一種用于節(jié)點(diǎn)(實(shí)體)匹配的沃瑟斯坦距離(Wasserstein distance,WD),一種用于邊(結(jié)構(gòu))匹配的GWD(Gromov-WD)[29],使用2 種結(jié)合的最優(yōu)傳輸框架將跨域遷移轉(zhuǎn)換為從一個(gè)域分布到另一個(gè)域分布的轉(zhuǎn)移嵌入表示,實(shí)現(xiàn)自我標(biāo)準(zhǔn)化對(duì)齊,進(jìn)而提高特征信息的可解釋性.首先,模型分別將源領(lǐng)域數(shù)據(jù)和目標(biāo)領(lǐng)域數(shù)據(jù)送入嵌入層,獲取到對(duì)應(yīng)的源領(lǐng)域語(yǔ)義特征和目標(biāo)領(lǐng)域語(yǔ)義特征,在結(jié)構(gòu)對(duì)齊模塊中,對(duì)和進(jìn)行規(guī)格化處理得到和,計(jì)算規(guī)格化后的向量和原始特征向量的余弦相似度,得到相似度矩陣CSrc和CTgt.相似度矩陣包含實(shí)體和實(shí)體之間的關(guān)聯(lián)信息,因此,將其看作文本的結(jié)構(gòu)化表示.之后構(gòu)建對(duì)應(yīng)的圖結(jié)構(gòu) Gx(Vx,Ex),其中節(jié)點(diǎn)i∈Vx代 表一個(gè)特征向量xi,添加圖中節(jié)點(diǎn)之間的余弦相似性(相似度矩陣)作為邊Ex.為獲取源領(lǐng)域和目標(biāo)領(lǐng)域之間的相似性,將源領(lǐng)域特征和目標(biāo)領(lǐng)域特征進(jìn)行余弦相似性計(jì)算,得到跨域相似度矩陣CST.具體計(jì)算為:
Fig.4 Structural alignment layers圖4 結(jié)構(gòu)對(duì)齊層
其中 ?設(shè) 置為1E-12, max(‖·‖2,?)代表向量 的2 范數(shù).然后,WD 通過(guò)測(cè)量節(jié)點(diǎn)之間的距離,用于對(duì)語(yǔ)義特征進(jìn)行節(jié)點(diǎn)對(duì)齊;GWD 通過(guò)測(cè)量圖中邊之間的距離,用于邊節(jié)點(diǎn)對(duì)齊.對(duì)于WD 的計(jì)算有:
其中 (xi,x′i)和 (yj,y′j)分別 代表源領(lǐng)域和目 標(biāo)領(lǐng)域中不同節(jié)點(diǎn)之間的邊結(jié)構(gòu),L(·)是評(píng)估不同域之間2 對(duì)節(jié)點(diǎn) (xi,x′i)和(yj,y′j)結(jié) 構(gòu) 相 似 性 的 消 耗 函 數(shù),例 如L(xi,yj,x′i,y′j)=‖‖c1(xi,x′i)-c2(yj,y′j)‖‖,c1和c2是 在 同一個(gè)圖中評(píng)測(cè)節(jié)點(diǎn)相似性的函數(shù),在此處選取余弦函數(shù),矩陣為學(xué)習(xí)得到.綜上所述,將圖最優(yōu)傳輸中計(jì)算得到的2 種距離作為結(jié)構(gòu)化對(duì)齊的損失函數(shù)LCDA,具體計(jì)算為
3.2.2 潛層對(duì)齊層
MSKE-CDNER 編碼器使用雙向門控循環(huán)單元(gate recurrent unit,GRU)神經(jīng)網(wǎng)絡(luò)提取文本序列中上下文特征表示,同時(shí)編碼器也適用于Transformer Encoder 等通用方法.為了在實(shí)驗(yàn)對(duì)比中更加公平地證明多層結(jié)構(gòu)化對(duì)齊方法與現(xiàn)有方法對(duì)比的有效性,在本文模型中未采用Transformer Encoder 作為模型編碼器.為獲取文本序列中的結(jié)構(gòu)化域不變知識(shí),將獲取的特征表示在潛層空間中利用WD 進(jìn)行度量對(duì)齊.即把編碼器獲取的上下文特征hSrc,hTgt映射到潛層空間,在潛層空間中利用WD 減少源領(lǐng)域、目標(biāo)領(lǐng)域特征分布和標(biāo)準(zhǔn)正態(tài)分布之間的差異,促進(jìn)不同領(lǐng)域中共性知識(shí)的對(duì)齊,從而獲取域之間的不變知識(shí).特別地,為了方便計(jì)算,使用最大均值差異(maximum mean discrepancy,MMD)來(lái)近似WD.以源域?yàn)槔?,具體計(jì)算公式為:
其中zSrc是 通過(guò)將hSrc映射到潛層空間中獲得的,p(zS rc)為 先驗(yàn)假設(shè)的標(biāo)準(zhǔn)正態(tài)分布p(zSrc)=N(0,1),q(zSrc)表 示 為q(zSrc)=N(μzSrc,σ2zSrc), μzSrc=f(Wμhn+bμ),σ2zSrc=f(Wσhn+b2σ).[Wμ;bμ], [Wσ;bσ]分 別 表 示 μzSrc和σ2zSrc可訓(xùn)練的參數(shù).
在潛層空間中,模型通過(guò)重構(gòu)后的潛變量hz獲取含有域不變知識(shí)的上下文語(yǔ)義特征表示.即q(zSrc)在潛層空間中經(jīng)過(guò)重新參數(shù)化獲取到新的潛變量z,將z通過(guò)映射得到新的隱變量hz,然后將獲取到的隱變量hz和編碼器的基本輸出再次送入編碼器GRU,重新學(xué)習(xí)獲取序列的上下文特征表示,從而獲取含有結(jié)構(gòu)化信息的域不變知識(shí).具體計(jì)算公式為:
其中[WzSrc;bzSrc]為hzSrc可 訓(xùn)練的參數(shù),bzSrc為偏差.
模型的解碼層針對(duì)源領(lǐng)域和目標(biāo)領(lǐng)域采用不同標(biāo)準(zhǔn)的條件隨機(jī)場(chǎng)(conditional random field,CRF)[30].CRF 是一個(gè)序列標(biāo)注算法,通過(guò)增強(qiáng)標(biāo)簽之間的約束,獲取序列全局最優(yōu)解碼[31].采用標(biāo)準(zhǔn)條件隨機(jī)場(chǎng)中的負(fù)對(duì)數(shù)似然損失作為損失函數(shù),具體計(jì)算有:
不同領(lǐng)域的實(shí)體類型不同,但是邊界信息是一樣的,可以適應(yīng)于任何領(lǐng)域.所以,在實(shí)體識(shí)別任務(wù)中增加邊界預(yù)測(cè)任務(wù)來(lái)學(xué)習(xí)共享知識(shí)中的邊界信息.對(duì)于實(shí)體邊界預(yù)測(cè)的輔助任務(wù)使用交叉熵作為損失函數(shù),將其表示為L(zhǎng)bio,具體計(jì)算有:
綜上所述,模型相關(guān)損失函數(shù)可以定義為
MSKE-CDNER 的整體損失函數(shù)表示為
其中 α , β , γ分別代表相關(guān)任務(wù)的權(quán)重.
算法1.MSKE-CDNER 的優(yōu)化算法.
輸入:源領(lǐng)域和目標(biāo)領(lǐng)域數(shù)據(jù)集Sner,Tner;
輸出:適應(yīng)于目標(biāo)領(lǐng)域的模型MTgt.
① while 訓(xùn)練步驟沒(méi)有結(jié)束
② forDinSner,Tnerdo
③X,Y←D;
④ forxi,yjinX,Ydo
/*計(jì)算域內(nèi)節(jié)點(diǎn)相似性*/
⑤[CSrc]ij=cos(xi,xj);/*式(3)(5)*/
⑥[CTgt]ij=cos(yi,yj);/*式(4)(6)*/
⑦ [CST]ij=cos(xi,yj);/*式(7)*/
/*計(jì)算域外相似性*/
⑧ 計(jì)算LCDA; /*式(8)~(10)*/
⑨ end for
⑩ forxt,ytinX,Y
? {ht,ct}=fencoder(e1:N);
? end for
?{hz,cz}←{qz}←{hn,cn}
?X′=(x′1,x′2,···,xn)←{hz,cz}
? ifDisSnerthen
? else ifDisTnerthen
? 計(jì)算;/*式(13)*/
? end if
? 計(jì)算Lbio;/*式(14)*/
? 計(jì)算LMMD;/*式(11)*/
? 計(jì)算Lner,Lbio;/*式(15)(16)*/
?L←Lner+α×Lbio+β×LMMD+γ×LCDA;
? end for
? 根據(jù)L更新網(wǎng)絡(luò)參數(shù) θ ;
? end while
為了驗(yàn)證本文方法MSKE-CDNER 對(duì)于CD-NER的有效性,在5 個(gè)英文數(shù)據(jù)集和專門的跨域數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).分別從消融實(shí)驗(yàn)、顯著性檢測(cè)、參數(shù)分析、細(xì)粒度分析4 個(gè)方面進(jìn)行實(shí)驗(yàn)分析并展示實(shí)驗(yàn)效果.
5 個(gè) 英 文 數(shù) 據(jù) 集 分 別 為CoNLL-2003(Conll03),Twitter(T), Broad Twitter(BT), BioNLP13PC(PC),BioNLP13CG(CG).其 中CoNLL-2003,Twitter,Broad Twitter 數(shù)據(jù)集是相似的領(lǐng)域,實(shí)體類型大致類似,都包含人名(person,PER)、地名(location,LOC)、組織(organization,ORG),其 中CoNLL-2003 比Twitter 多含有其他(miscellaneous,MISC)實(shí)體.BioNLP13PC 數(shù)據(jù)集和BioNLP13CG 數(shù)據(jù)集屬于醫(yī)療和生物領(lǐng)域,實(shí)體類型主要包含簡(jiǎn)單化學(xué)(simple chemical,CHEM)、細(xì)胞成分(cellular component,CC)、基因和基因產(chǎn)物(gene and gene product,GGP),BioNLP13CG 中還包括了物種(species,SPE)和細(xì)胞(cell,CELL),具體的數(shù)據(jù)集統(tǒng)計(jì)信息如表1 所示.跨域數(shù)據(jù)集為L(zhǎng)iu 等人[1]提出的專門跨域NER 數(shù)據(jù)集CrossNER,其包含5 個(gè)領(lǐng) 域, 分 別 為 政 治(politics)、 自 然 科 學(xué)(natural science)、音樂(lè)(music)、文學(xué)(literature)和人工智能(artificial intelligence,AI),每個(gè)領(lǐng)域中含有特定的實(shí)體類型,具體的數(shù)據(jù)集統(tǒng)計(jì)信息如表2 所示.
Table 1 English Dataset Statistics表1 英文數(shù)據(jù)集統(tǒng)計(jì)信息
Table 2 CrossNER Dataset Statistic表2 CrossNER 數(shù)據(jù)集統(tǒng)計(jì)信息
根據(jù)數(shù)據(jù)集中實(shí)體類型的不同以及相關(guān)領(lǐng)域的差異,可分為2 組實(shí)驗(yàn).第1 組:從5 個(gè)英文數(shù)據(jù)集中選取與Jia 等人[6]相同的實(shí)驗(yàn)分組,例如,當(dāng)Twitter,Broad Twitter 作為目標(biāo)領(lǐng)域數(shù)據(jù)集時(shí),選用CoNLL-2003 作為源領(lǐng)域數(shù)據(jù).當(dāng)BioNLP13PC,作為目標(biāo)領(lǐng)域數(shù)據(jù)集時(shí),選用CoNLL-2003 作為源領(lǐng)域數(shù)據(jù)集,從不同領(lǐng)域和相似領(lǐng)域之間進(jìn)行實(shí)驗(yàn)來(lái)驗(yàn)證MSKECDNER 在不同領(lǐng)域差異之間遷移的效果.第2 組:選用與CrossNER 中相同的實(shí)驗(yàn)分組將5 個(gè)不同的特定領(lǐng)域數(shù)據(jù)作為目標(biāo)領(lǐng)域數(shù)據(jù)集,CoNLL-2003 作為源領(lǐng)域數(shù)據(jù).
對(duì)于5 個(gè)公開的英文數(shù)據(jù)集,參照NCRF++[36]中模型的參數(shù)進(jìn)行初始化設(shè)置.隨著不同組實(shí)驗(yàn)中源領(lǐng)域和目標(biāo)領(lǐng)域數(shù)據(jù)集的改變,模型的參數(shù)也隨之改變.例如,源領(lǐng)域?yàn)锽ioNLP13PC、目標(biāo)領(lǐng)域?yàn)锽ioNLP13CG 時(shí),優(yōu)化器選用SGD 算法,學(xué)習(xí)率設(shè)置為0.005,學(xué)習(xí)率衰退設(shè)置為0.01,批次大小設(shè)置為10,隱狀態(tài)維度為250,潛變量維度為200,為防止過(guò)擬合將dropout 設(shè)置為0.5.在實(shí)驗(yàn)中采用與Jia 等人[6]相同的初始化詞向量和字符向量的方法.Twitter,Broad Twitter 作為目標(biāo)領(lǐng)域數(shù)據(jù)集時(shí),使用Glove 100-dim[37]進(jìn)行初始化獲取詞向量(word vector)的特征表示;當(dāng)BioNLP13PC 和BioNLP13CG 作為目標(biāo)領(lǐng)域時(shí),詞向量選用PubMed 200-dim[38]進(jìn)行初始化.字符向量(char vector)采用隨機(jī)初始化的形式,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取字符特征表示,最后將獲取到的單詞特征表示和字符特征表示進(jìn)行拼接得到最終特征表示.
基于CrossNER 數(shù)據(jù)集,參照5 個(gè)英文數(shù)據(jù)集上參數(shù)進(jìn)行初始化設(shè)置,經(jīng)過(guò)參數(shù)調(diào)整發(fā)現(xiàn),在大多數(shù)領(lǐng)域中使用相同參數(shù)時(shí),MSKE-CDNER 性能已較優(yōu),證明模型魯棒性較強(qiáng).同時(shí),在某些域中模型參數(shù)隨著目標(biāo)域數(shù)據(jù)集的改變而微調(diào)時(shí),模型性能進(jìn)一步提升.例如,在Music 域中優(yōu)化器選用SGD 算法,學(xué)習(xí)率設(shè)置為0.003,學(xué)習(xí)率衰退設(shè)置為0.03,批次大小為32,隱狀態(tài)維度為250,潛變量維度為200,為防止過(guò)擬合將dropout設(shè)置為0.5.在實(shí)驗(yàn)中均使用Glove 100-dim[37]進(jìn)行初始化獲取詞向量(word vector)的特征表示,Bert 優(yōu)化獲取到的詞向量特征表示.字符向量采用隨機(jī)初始化的形式,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取字符特征表示,將獲取到的單詞特征表示和字符特征表示進(jìn)行拼接作為最終特征表示.
特別地,在5 個(gè)英文數(shù)據(jù)集的實(shí)驗(yàn)訓(xùn)練過(guò)程中,當(dāng)獲取到目標(biāo)領(lǐng)域的結(jié)束信號(hào)時(shí)標(biāo)志著一個(gè)批次結(jié)束.源領(lǐng)域數(shù)據(jù)的讀取操作不會(huì)因?yàn)榕蔚慕Y(jié)束而進(jìn)行重置,它會(huì)繼續(xù)加載數(shù)據(jù),直至加載到源領(lǐng)域數(shù)據(jù)的結(jié)束符號(hào)時(shí)再進(jìn)行重置.在CrossNER 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)時(shí),一個(gè)批次的結(jié)束替換為同時(shí)讀取到源領(lǐng)域和目標(biāo)領(lǐng)域數(shù)據(jù)中的結(jié)束符號(hào).
本文采用與文獻(xiàn)[4,6]等一致的評(píng)測(cè)指標(biāo),該指標(biāo)認(rèn)為只有當(dāng)實(shí)體的類型與邊界都識(shí)別正確時(shí)才認(rèn)定預(yù)測(cè)準(zhǔn)確.采用準(zhǔn)確率(precision,P)、召回率(recall,R)和F1 值計(jì)算最終得分.具體計(jì)算方式為:
其中TP代表識(shí)別正確的實(shí)體個(gè)數(shù),F(xiàn)P代表識(shí)別錯(cuò)誤的實(shí)體個(gè)數(shù),F(xiàn)N代表未識(shí)別出的實(shí)體個(gè)數(shù).
為了驗(yàn)證MSKE-CDNER 在跨域NER 上的效果,在不同的數(shù)據(jù)集上與相關(guān)模型進(jìn)行對(duì)比實(shí)驗(yàn).
1)BILSTM-CRF.BILSTM-CRF[39]結(jié) 合 雙 向LSTM 和條件隨機(jī)場(chǎng)進(jìn)行命名實(shí)體識(shí)別,將源領(lǐng)域數(shù)據(jù)和目標(biāo)領(lǐng)域數(shù)據(jù)結(jié)合,共同訓(xùn)練模型.
2)Coach.Liu 等人[40]提出了一個(gè)用NER 域適配的框架Coach,它將任務(wù)分為2 個(gè)階段,首先檢測(cè)出實(shí)體,然后對(duì)實(shí)體進(jìn)行分類來(lái)解決特定領(lǐng)域數(shù)據(jù)稀缺問(wèn)題.
3)MULTI-TASK+PGN.Jia 等人[4]在源領(lǐng)域和目標(biāo)領(lǐng)域中集成語(yǔ)言模型任務(wù)來(lái)執(zhí)行跨域知識(shí)的遷移,從而解決模型無(wú)法在無(wú)監(jiān)督環(huán)境下進(jìn)行訓(xùn)練的問(wèn)題.
4)MULTI-TASK+GRAD.Zhou 等 人[41]提 出 一 種新的傳輸方法,通過(guò)對(duì)抗傳輸網(wǎng)絡(luò)來(lái)進(jìn)行高資源和低資源下特征的融合,同時(shí)引入廣義資源對(duì)抗判別器來(lái)提高模型的泛化能力.
5)MULTI-CELL-LSTM.Jia 等人[6]基于Bert 表示提出了一個(gè)多細(xì)胞LSTM 結(jié)構(gòu),針對(duì)不同實(shí)體類型分別建模,在實(shí)體層面進(jìn)行跨域知識(shí)的遷移,解決實(shí)體在不同領(lǐng)域中含義不同的問(wèn)題.
在5 個(gè)英文數(shù)據(jù)集和CrossNER 數(shù)據(jù)集上將MSKECDNER 和其他相關(guān)方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如表3和表4 所示.整體來(lái)看, MSKE-CDNER 在不同數(shù)據(jù)集中都取得了不錯(cuò)的結(jié)果.
Table 3 F1 Experimental Results of the English Datasets表3 英文數(shù)據(jù)集F1 實(shí)驗(yàn)結(jié)果 %
Table 4 F1 Experiments Results of CrossNER Dataset表4 CrossNER 數(shù)據(jù)集F1 實(shí)驗(yàn)結(jié)果 %
如表3 所示,MULTI-TASK(LSTM)相比于單任務(wù)的BILSTM 在Conll03→T 上F1值提高了2.37%,在Conll03→BT 上F1值 提高了0.86%,在PC→CG 上F1值提高了1.82%,說(shuō)明多任務(wù)架構(gòu)可以提高CD-NER中實(shí)體識(shí)別能力.MULTI-TASK+PGN、MULTI-TASK+GRAD 和MULTI-CELL-LSTM 相比于MULTI-TASK(LSTM)在PC→CG 上F1值分別提升了0.11%,0.57%,0.95%,說(shuō)明充分學(xué)習(xí)、利用特征間的域不變知識(shí)可以緩解因數(shù)據(jù)資源缺乏導(dǎo)致的模型效果不佳問(wèn)題.MSKE-CDNER 相比于當(dāng)前熱門模型MULTI-CELL-LSTM 在PC→CG 上F1值提高了0.92%,說(shuō)明結(jié)構(gòu)化語(yǔ)義知識(shí)可以促進(jìn)跨域知識(shí)的遷移,緩解實(shí)體歧義性的問(wèn)題.其中,在Broad Twitter 域中模型效果不佳,考慮是因?yàn)锽road Twitter 屬于Twitter 中的新聞?lì)I(lǐng)域,Conll03 也屬于新聞?lì)I(lǐng)域,領(lǐng)域之間的差異性較小,在進(jìn)行跨域?qū)R時(shí)圖匹配對(duì)領(lǐng)域遷移之間的約束性較差,導(dǎo)致遷移效果不佳.而在Conll03→PC 這組實(shí)驗(yàn)中,BioNLP13PC 屬 于 醫(yī) 療 領(lǐng) 域, Conll03 數(shù) 據(jù) 和BioNLP13PC 這兩者之間的數(shù)據(jù)差異性較大,在進(jìn)行跨域遷移時(shí)圖匹配對(duì)其約束性較好.實(shí)驗(yàn)對(duì)比表明:領(lǐng)域之間差異性越大,模型遷移效果越好,這也更能說(shuō)明語(yǔ)義特征中的結(jié)構(gòu)化信息能夠促進(jìn)跨域知識(shí)的遷移,領(lǐng)域差異越大,結(jié)構(gòu)化知識(shí)的約束作用越強(qiáng),遷移效果越佳.然而,現(xiàn)有研究方法中缺少對(duì)該類信息的挖掘和利用,MSKE-CDNER 的多層次結(jié)構(gòu)遷移方法,可以利用結(jié)構(gòu)化信息實(shí)現(xiàn)了對(duì)模型跨領(lǐng)域遷移能力的增強(qiáng).
在特定的CD-NER 數(shù)據(jù)集CrossNER 上進(jìn)行驗(yàn)證,結(jié)果如表4 所示.MULTI-CELL-LSTM 相比BILSTMCRF 在5 個(gè)不同領(lǐng)域中的F1值均有所提升,F(xiàn)1 平均值提升了18.96%.由于BILSTM-CRF 為單任務(wù)模型,不能很好地利用源域中跨域不變的知識(shí),而MULTICELL-LSTM 以多任務(wù)架構(gòu)為基礎(chǔ)搭建網(wǎng)絡(luò),能夠充分地利用源域中跨域不變的知識(shí),所以構(gòu)建MSKECDNER 時(shí)采用多任務(wù)學(xué)習(xí)范式為基礎(chǔ)框架.相比MULTI-CELL-LSTM,MSKE-CDNER 在5 個(gè)不同領(lǐng)域中F1值 均有明顯提升.其中在Politics 中F1值提高了0.69%,在Science 中F1值 提高了0.60%,在Music 中F1值提高了2.55%,在Litera 中F1值提高了0.91%,在AI 中F1值 提高了2.61%,F(xiàn)1平均值提高了1.47%.由于MULTI-CELL-LSTM 僅考慮實(shí)體層面的特征信息,忽略了特征信息中的結(jié)構(gòu)化知識(shí),而MSKE-CDNER能夠有效地利用特征信息中的結(jié)構(gòu)化知識(shí),從而取得更優(yōu)的性能.
為了更好地檢驗(yàn)?zāi)P偷目煽啃?,在不同?shù)據(jù)集上采用與Baziotis 等人[42]一樣的方式,重復(fù)3 次實(shí)驗(yàn),記錄實(shí)驗(yàn)結(jié)果的平均值和標(biāo)準(zhǔn)差,結(jié)果如表3 和表4中MSKE-CDNER*行所示.對(duì)比現(xiàn)有的跨域方法,MSKE-CDNER 在2 個(gè)不同的數(shù)據(jù)集下整體實(shí)驗(yàn)結(jié)果優(yōu)于對(duì)比方法,說(shuō)明學(xué)習(xí)、利用特征的結(jié)構(gòu)化知識(shí)可以促進(jìn)跨域知識(shí)的遷移.
在本節(jié)中,選取PC→CG 這組實(shí)驗(yàn)從消融實(shí)驗(yàn)、顯著性檢驗(yàn)、參數(shù)分析以及細(xì)粒度4 個(gè)方面對(duì)實(shí)驗(yàn)進(jìn)行分析.PC,CG 數(shù)據(jù)集屬于醫(yī)療領(lǐng)域,領(lǐng)域中已標(biāo)注的實(shí)體資源較少,選取這組實(shí)驗(yàn)進(jìn)行分析更能說(shuō)明MSKE-CDNER 在數(shù)據(jù)資源匱乏領(lǐng)域下實(shí)體識(shí)別的有效性.
4.6.1 消融實(shí)驗(yàn)
為了驗(yàn)證多級(jí)結(jié)構(gòu)化對(duì)齊機(jī)制的有效性,在PC→CG 這組實(shí)驗(yàn)中進(jìn)行消融實(shí)驗(yàn),得到的對(duì)比結(jié)果如表5 所示,可以看出機(jī)制中3 個(gè)模塊對(duì)實(shí)體識(shí)別性能提升均有所幫助, Δ代表消融不同方法后F1值的對(duì)比差值.
Table 5 Ablation Study on PC→CG Dataset表5 在PC→CG 數(shù)據(jù)集上的消融實(shí)驗(yàn) %
表5 中 -Lbio代表消去邊界檢測(cè)模塊時(shí)得到的結(jié)果,P下降了0.06%,R下降了0.93%,F(xiàn)1值下降了0.37%,其中R在3 個(gè)消融實(shí)驗(yàn)中下降最多,說(shuō)明學(xué)習(xí)共性邊界信息能幫助模型正確地識(shí)別實(shí)體類型,提升模型的性能,加入此模塊可以改善跨域命名實(shí)體識(shí)別的效果.同樣地, -Lmmd表示消去潛層對(duì)齊模塊的實(shí)驗(yàn)結(jié)果,P下降了0.01%,R下降了0.4%,F(xiàn)1值下降了0.21%,表明遷移源領(lǐng)域和目標(biāo)領(lǐng)域中的共性知識(shí)可以促進(jìn)實(shí)體識(shí)別能力跨領(lǐng)域遷移.-LCDA代表消去結(jié)構(gòu)化對(duì)齊模塊的結(jié)果,P下降了0.55%,R下降了0.21%,F(xiàn)1值下降了0.51%,其中F1值在3 個(gè)消融實(shí)驗(yàn)中下降最多.因?yàn)榻Y(jié)構(gòu)化對(duì)齊模塊在獲取特征表示的同時(shí)獲取到了結(jié)構(gòu)化知識(shí),在進(jìn)行遷移時(shí)結(jié)構(gòu)化信息因其跨域穩(wěn)定性可以顯著地提升目標(biāo)領(lǐng)域的實(shí)體識(shí)別性能.
4.6.2 顯著性檢驗(yàn)
在PC→CG 實(shí)驗(yàn)中進(jìn)行顯著性檢驗(yàn),結(jié)果如表6所示.其中表中P值為Prob>F,當(dāng)P≤0.05 時(shí),說(shuō)明PC 和CG 之間有顯著性差異.表6 中P= 0.027 7,表明MSKE-CDNER 有顯著性差異;F為檢驗(yàn)的統(tǒng)計(jì)量;P為用于檢驗(yàn)的P值.
Table 6 ANOVA of MSKE-CDNER on PC→CG Dataset表6 MSKE-CDNER 在PC→CG 數(shù)據(jù)集上的方差分析
4.6.3 參數(shù)分析
為探討結(jié)構(gòu)化表示模塊中參數(shù) λ1, λ2對(duì)實(shí)驗(yàn)的影響,設(shè)置不同的參數(shù)值進(jìn)行多輪試驗(yàn),PC→CG 這組實(shí)驗(yàn)的參數(shù)調(diào)優(yōu)如圖5 所示.在結(jié)構(gòu)化表示模塊中,Loss值由WD 的距離和GWD 的距離共同組成,其中λ1代 表WD 的權(quán)重, λ2代表GWD 的權(quán)重,我們對(duì)其占比進(jìn)行參數(shù)調(diào)優(yōu),對(duì)于 λ1和 λ2,取值分別設(shè)置為0.1,1,10,100.從圖5 中可以明顯地看出,當(dāng) λ1值固定時(shí),隨著 λ2值的增加,結(jié)構(gòu)化信息的比值在整個(gè)特征表示中的比值也在增加.此時(shí),可以看出隨著結(jié)構(gòu)化信息權(quán)重的增加,模型識(shí)別能力也隨之提高,模型性能越來(lái)越好,說(shuō)明結(jié)構(gòu)化信息可以促進(jìn)跨域知識(shí)的遷移,在λ2=100 時(shí)取得最優(yōu)結(jié)果.經(jīng)過(guò)參數(shù)調(diào)優(yōu),最終選取λ1= 0.1, λ2=100 作為PC→CG 這組實(shí)驗(yàn)中的最優(yōu)參數(shù).同理,選取 λ1= 100, λ2=1 作為Conll03→PC 這組實(shí)驗(yàn)的最優(yōu)參數(shù).
Fig.5 Parameter analysis in the graph optimal transmission圖5 圖最優(yōu)傳輸中的參數(shù)分析
4.6.4 細(xì)粒度分析
表7 統(tǒng)計(jì)了MSKE-CDNER 在PC→CG 這組實(shí)驗(yàn)中的細(xì)粒度實(shí)驗(yàn)結(jié)果,表7 中記錄了相關(guān)實(shí)體的準(zhǔn)確率、召回率與F1值.由于相關(guān)數(shù)據(jù)集中的實(shí)體種類較多,為便于討論,隨機(jī)選取實(shí)體類型進(jìn)行示例說(shuō)明.與當(dāng)前的跨域模型相比所有模型的F1值均有所提升,總體F1值提升了近0.92%,證實(shí)了MSKE-CDNER 的有效性.
Table 7 Fine-Grained Analysis on PC→CG Dataset表7 PC→CG 數(shù)據(jù)集上的細(xì)粒度分析 %
為了能夠清晰地對(duì)比出MSKE-CDNER 在實(shí)體類型級(jí)別取得更優(yōu)的結(jié)果,在不同類型的實(shí)體中將其與原模型進(jìn)行細(xì)粒度分析對(duì)比,結(jié)果如圖6 所示.在相同的實(shí)體類型下,MSKE-CDNER 結(jié)果明顯優(yōu)于其他2 種方法,這得益于實(shí)體內(nèi)部的結(jié)構(gòu)化知識(shí)在進(jìn)行跨域遷移時(shí)有效緩解了不同域中實(shí)體歧義性的問(wèn)題.
本文提出了一種基于多層結(jié)構(gòu)化語(yǔ)義知識(shí)增強(qiáng)的跨領(lǐng)域命名實(shí)體識(shí)別模型MSKE-CDNER,設(shè)計(jì)了多級(jí)結(jié)構(gòu)化對(duì)齊機(jī)制,利用文本序列的結(jié)構(gòu)化語(yǔ)義信息,分別將嵌入層獲取的特征表示和隱藏層獲取的上下文特征表示以結(jié)構(gòu)化的形式對(duì)齊,通過(guò)獲取、遷移不同層次的結(jié)構(gòu)化知識(shí),促進(jìn)模型實(shí)體識(shí)別能力的跨領(lǐng)域遷移.在5 個(gè)英文數(shù)據(jù)集以及CrossNER數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并與當(dāng)前跨域方法相比,結(jié)果表明,MSKE-CDNER 在跨域任務(wù)中取得了較好的結(jié)果,表明學(xué)習(xí)和利用結(jié)構(gòu)化知識(shí)能夠更好地促進(jìn)跨域知識(shí)的遷移.在將來(lái)的工作中,我們會(huì)對(duì)域不變知識(shí)和特定域知識(shí)進(jìn)行更優(yōu)的解耦,來(lái)獲取更優(yōu)的特征表示.
作者貢獻(xiàn)聲明:張文韓調(diào)研文獻(xiàn)、設(shè)計(jì)實(shí)驗(yàn)、撰寫和修訂論文;劉小明提出研究思路、模型框架、內(nèi)容規(guī)劃、指導(dǎo)意見(jiàn)和修訂論文;楊關(guān)負(fù)責(zé)實(shí)驗(yàn)指導(dǎo)、修訂論文;劉杰提出指導(dǎo)意見(jiàn)、審閱和修訂論文.