国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自動弱標注數(shù)據(jù)的跨領域命名實體識別

2022-04-19 09:27方曄瑋王銘濤陳文亮張熠天
中文信息學報 2022年3期
關鍵詞:語料標簽實體

方曄瑋,王銘濤,陳文亮, 張熠天,張 民

(1.蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006;2.國家工業(yè)信息安全發(fā)展研究中心,北京 100043)

0 引言

命名實體識別(Named Entity Recognition,NER)是信息抽取和自然語言理解中的基礎任務之一。近年來,神經(jīng)網(wǎng)絡方法顯著提高了命名實體識別的性能[1-3]。但是,在實際應用場景下,當文本所屬領域不同于訓練語料時,深度神經(jīng)網(wǎng)絡模型往往展現(xiàn)出較弱的知識泛化能力[4]。因此,跨領域命名實體識別仍是一項具有挑戰(zhàn)性的工作。

現(xiàn)有工作探索的方法大多假設目標領域有一定量的標注數(shù)據(jù)[5-6]。有些人借助多任務學習的方式,學習不同領域文本之間的共有特征[7-8],有些人用源領域的模型參數(shù)初始化目標領域的模型[9-10]。但是,有時目標領域標注數(shù)據(jù)的獲取代價非常高昂,無法應用上述方法進行領域遷移。因此,這是一種更困難的場景: 源領域有大量人工標注數(shù)據(jù),而目標領域僅有無標注數(shù)據(jù)。本文主要關注這一場景。

命名實體識別的領域自適應主要有以下兩方面困難: ①實體名多樣,目標領域會出現(xiàn)大量源領域中未出現(xiàn)過的新實體; ②語言表達差異較大,不同于新聞領域規(guī)范的語言表達,各領域語料的數(shù)據(jù)分布迥異,如社交文本口語化現(xiàn)象嚴重,醫(yī)療領域的文本則帶有大量的專業(yè)術語和表達。針對第一點,本文引入一個實體詞典作為外部知識,輔助模型的判斷。針對第二點,本文提出一種有效且易于實現(xiàn)的方法,快速自動地生成目標領域的弱標注語料,并在該弱標注語料上訓練模型,從而避免模型擬合源領域數(shù)據(jù)分布。

在本文方法中,為了提高弱標注語料的準確率,我們使用實體詞典和源領域數(shù)據(jù)訓練的模型同時對目標領域的無標注數(shù)據(jù)進行標注。由于兩者的標注結果都存在很多錯誤信息,我們僅保留高置信度的標簽,對于不確定位置采用特殊標簽,得到局部標注語料。我們應用局部標注學習在這個新構建的語料上訓練模型參數(shù)。

綜上,本文貢獻如下:

(1)針對目標領域無任何人工標注語料的跨領域場景,本文提出了一種快速自動構建目標領域弱標注數(shù)據(jù)的方法。主要特點是采用兩種類型標簽來表示置信度的高低,自動構建局部標注語料。并基于此提出了一種簡單有效的命名實體識別領域適應方法。

(2)本文第一次將局部標注學習應用到跨領域命名實體識別任務中,使用自動構建的局部標注語料進行訓練。實驗證明,本文方法的領域自適應能力顯著優(yōu)于基線方法。并且在使用ELMo和BERT語言模型的條件下,所提方法仍然表現(xiàn)出較好性能。

1 相關工作

1.1 跨領域命名實體識別

近些年,神經(jīng)網(wǎng)絡被成功地應用到命名實體識別任務中,并且獲得了到目前為止的最優(yōu)性能。不同于英文,中文中的詞沒有天然界限,并且Liu等[11]證明了中文命名實體識別任務中,基于字是更好的選擇。因此,本文采用基于字的BiLSTM-CRF模型作為基礎模型。

現(xiàn)存的跨領域命名實體識別工作大多數(shù)設置在有監(jiān)督場景下,即源領域和目標領域都存在人工標注數(shù)據(jù)。Yang等[8]借助多任務學習框架,嘗試共享目標領域模型和源領域模型的表示層和編碼層,聯(lián)合學習任務相關、領域無關的特征來實現(xiàn)知識的遷移。Lin等[9]假設不同領域的特征空間是異構的,通過在模型的層間添加適應層,使得模型訓練在同一個特征空間中進行,改進了簡單的多任務學習方法和參數(shù)初始化方法(用源領域模型的參數(shù)初始化目標領域模型)。在目標領域沒有人工標注數(shù)據(jù)時,這些方法由于缺乏對目標領域無標注數(shù)據(jù)的利用,都退化為了僅在源領域數(shù)據(jù)上訓練模型,無法進行有效的領域遷移。而本文提出的模型同時利用了源領域的標注數(shù)據(jù)和目標領域的無標注數(shù)據(jù)。

Ruder等[12]從數(shù)據(jù)角度入手,使用自舉的方法,利用模型本身對無標注語料的預測值,來獲得更多訓練時可用的額外信息,從而迭代地提高目標領域的序列標注模型性能。基于自舉的方法常常會受制于錯誤傳播,尤其是當初始數(shù)據(jù)不足以訓練一個好的模型時。所以,本文沒有選擇迭代自舉方法。

1.2 局部標注學習

Yang等[13]第一次將局部標注學習應用到命名實體識別任務中,用于解決噪聲訓練數(shù)據(jù)的問題。Greenberg等[14]在生物命名實體識別中,證明了在不完全標注數(shù)據(jù)的情況下,相比于簡單粗暴地置為單標簽,局部標注學習的建模方式更有效。局部標注學習在分詞的領域適應上已經(jīng)得到了成功的應用[15-16]。雖然分詞和命名實體識別同為序列標注任務,但是在領域遷移的場景下,超鏈接、標記等能提供天然標注的分詞邊界,命名實體識別中天然標注的獲取則要困難得多。據(jù)我們所知,本文是第一個將局部標注學習應用到跨領域命名實體識別中的工作。

2 基于BiLSTM-CRF的序列標注模型

本文采用Lample等[1]的做法,將BiLSTM-CRF模型作為基礎模型。模型的整體結構如圖1所示。

圖1 BiLSTM-CRF模型

2.1 表示層

給定句子C=(c1,c2,…,cn),表示層根據(jù)字向量映射表,將離散的字映射為連續(xù)的向量表示(x1,x2,…,xn)。映射表以預訓練字向量初始化,并在模型訓練過程中作為參數(shù)更新。為了控制預訓練的可變性,本文統(tǒng)一使用Li等[17]提出的通用中文字向量。

2.2 編碼層

作為RNN的一個變種,LSTM[18]在保留RNN長距離依賴抓取能力的同時,解決了RNN梯度消失的問題。在第t個時間步,LSTM單元的更新公式如式(1)~式(6)所示。

其中,σ()是sigmoid函數(shù),“·”表示向量點積。xt表示第t個時間步的輸入,即第t個字的字向量。ht表示第t個時間步的隱狀態(tài),即LSTM對第t個字的編碼表示。it、ot、ft、ct分別表示t時刻的輸入門、輸出門、遺忘門和單元狀態(tài)向量。Ui、Uf、Uo、Uc表示應用于xt的不同門的權重矩陣,Wi、Wo、Wf、Wc表示應用于ht-1的不同門的權重矩陣,bi、bo、bf、bc表示不同門的偏置向量。

(7)

2.3 分類層

我們將編碼層的輸出作為分類層的輸入,根據(jù)式(8)計算得出句子中每個字對應各標簽的概率P。

P=Wmlpht+bmlp

(8)

其中,Wmlp和bmlp表示分類層的參數(shù)。

2.4 CRF層

在訓練語料全標注的情況下,句子中的每個字都有一個明確的標簽。若句子的標簽序列y=(y1,y2,…,yn),則定義該句的得分為

(9)

其中,A是記錄轉(zhuǎn)移分數(shù)的矩陣,Ai,j表示從標簽i轉(zhuǎn)移到標簽j的分數(shù)。P是分類層輸出,Pi,yi表示第i個位置標記為標簽yi的分數(shù)。訓練時,模型優(yōu)化參數(shù)以最大化正確標簽序列的可能性,即

(10)

其中,yr表示正確的標注序列,YC表示輸入為C的情況下所有可能序列的集合。解碼時,根據(jù)式(11)求解模型的預測序列,即

(11)

3 基于局部標注學習的方法

為了減小數(shù)據(jù)分布不同帶來的遷移困難,本文采用兩種手段同時標注目標領域的無標注數(shù)據(jù),交叉對比后,生成高置信度的弱標注語料。弱標注語料包含不確定標簽,普通CRF層無法對其建模,本文引入局部CRF來解決這個問題。

3.1 自動標注

3.1.1 實體詞典

在命名實體識別任務中,詞典是一種重要的外部知識。本文在利用外部詞典時,借助兩種匹配機制來尋找句子中可能出現(xiàn)的實體。

第一種匹配方式是簡單的前向最大匹配,和中文分詞中使用的正向最大匹配非常類似。算法從左到右掃描整個句子,對于句子的每個位置,嘗試找到與詞典條目匹配的最長子串。如果匹配成功,則將該子串標記為實體;如果匹配失敗,則將該字標記為“O”。第二種匹配方式是逆向最大匹配,等價于將句子逆序,將詞典中的詞逆序,進行正向最大匹配。

為了減少單一匹配機制可能帶來的錯誤,我們僅保留兩種匹配機制匹配結果達成一致的完整實體作為目標領域無標注語料的詞典標注結果。

3.1.2 源領域模型

在領域遷移的場景下,通常源領域的訓練數(shù)據(jù)是較為充足的。因此,我們在源領域數(shù)據(jù)上訓練得到一個模型,作為領域遷移時的先驗知識。

在遷移到其他領域時,不需要重新訓練源領域模型,直接利用該模型標注目標領域的無標注文本,作為源領域知識在目標領域上的體現(xiàn)。

3.1.3 交叉對比

基于詞典匹配的方法具有兩個缺點。第一,實體形式多樣,實體詞典對文本內(nèi)實體的覆蓋度不可能達到很高;第二,詞典匹配不考慮上下文限制,僅進行簡單的字符串匹配,中文的多義性會給匹配結果帶來較多的錯誤標注。同時,由于領域改變,數(shù)據(jù)分布、上下文特征等等都發(fā)生了變化,源領域模型在預測目標領域文本時,性能也會嚴重下降。

為了降低錯誤的影響,我們對比兩個標注結果,保留兩種方法達成一致的標簽;把產(chǎn)生沖突的位置標為“U”,意為“Unknown”,即這個字的標簽不確定,可以是任何可能的標簽。所得結果就是最終的目標領域弱標注語料。

表1展示了目標領域為社交媒體時各個方法的標注結果。詞典中不存在“孫仲謀”,所以無法標注出人名“孫仲謀”。而新聞領域語料訓練的模型沒有見過多符號的語法錯誤語句,將“/”標注為了人名。交叉對比間接地過濾掉了這兩處錯誤標注,最終生成的弱標注語料中,確定的標簽都是完全正確的。當然在實際匹配中,確定標簽也可能會存在錯誤。

表1 自動標注方法示例

3.2 基于局部標注的命名實體識別

在局部標注數(shù)據(jù)中,有些位置的標簽值確定,有些位置的標簽可以為多個值,因此,句子的正確標簽序列可能不止一條。如圖2所示,句子對應的局部標注數(shù)據(jù)形式為({B},{B,I,E,O,S},{B,I,E,O,S},{O},{O},{O},{O},{O}),認為正確的標簽序列一共有5×5=25條。

圖2 局部標注示例

我們遵循Tsuboi等[19]的方法對局部標注數(shù)據(jù)的邊緣概率建模。給定句子C=(c1,c2,…,cn),假設對應的局部標注序列L=(L1,L2,…,Ln),其中,Li是標簽集合的非空子集,包含ci可能對應的標簽。定義YL為所有正確序列的集合,YC為所有可能序列的集合。“所有正確序列”指序列中的一部分標簽是已知確定的,其余位置可以是任意標簽,例如,圖2中YL大小為52;“所有可能序列”指序列的每個位置都可以是任意標簽,例如,圖2中YC大小為58。若y=(y1,y2,…,yn)為YL中的某一條,則

?y∈YL,yi∈Li

(12)

與全標注數(shù)據(jù)的訓練目標類似,在訓練基于局部標注數(shù)據(jù)的模型時,我們希望最大化所有正確序列分數(shù)之和的概率,如式(13)、式(14)所示。

解碼時,應用維特比算法尋找分數(shù)最高的序列作為模型預測結果。

該損失函數(shù)仍然適用于全標注數(shù)據(jù)。當集合YL大小為1時,即只有一條正確序列,對應全標注數(shù)據(jù)的情況。因此,模型可以同時處理全標注數(shù)據(jù)和局部標注數(shù)據(jù)。

4 實驗

我們在新聞領域到社交領域和新聞領域到金融領域的遷移實驗中驗證本文方法的有效性。評價指標采用標準的準確率P、召回率R和F1值。

4.1 實驗數(shù)據(jù)

源領域設置為新聞領域,采用MSRA數(shù)據(jù)集[20]作為源領域標注數(shù)據(jù)。

目標領域設置為微博文本和金融人物簡歷文本。社交領域的標注數(shù)據(jù)來自Weibo NER[21],我們從新浪微博網(wǎng)頁(1)https://www.weibo.com中爬取額外的數(shù)據(jù)(共1 200 000句),從中隨機抽取40 000句作為目標領域無標注數(shù)據(jù)。Weibo NER人工標注的測試數(shù)據(jù)集較小,結果存在不穩(wěn)定現(xiàn)象,所以除了在常見數(shù)據(jù)劃分(Weibo-STD)上進行實驗外,我們重新劃分了該數(shù)據(jù),擴大測試集,命名為“Weibo-Recut”。由于在領域自適應實驗中不需要目標領域的人工標注訓練語料,我們將Weibo-STD的訓練集、開發(fā)集和測試集順序混合,把序號為偶數(shù)的句子作為Weibo-Recut的開發(fā)集,序號為奇數(shù)的句子作為Weibo-Recut的測試集。

金融領域的標注數(shù)據(jù)來自Resume-NER[22],我們使用標準劃分的測試集進行評價,從新浪財經(jīng)網(wǎng)頁(2)https://finance.sina.com.cn/爬取額外的數(shù)據(jù),作為目標領域無標注數(shù)據(jù)。

類別由于MSRA和Weibo NER之間存在標注規(guī)范差異,我們僅選取規(guī)范較為一致的類別作為實驗對象,即MSRA內(nèi)的人名(PER)類別和Weibo NER內(nèi)的PER.NAM類別。上述人名(PER)主要針對中文形式的人名,包括外國人名的中文音譯,如“克林頓”“馬拉多納”。

我們還選取MSRA內(nèi)的組織機構名(ORG)類別和ResumeNER內(nèi)的ORG類別作為實驗對象。最終數(shù)據(jù)集統(tǒng)計如表2所示。

表2 數(shù)據(jù)集統(tǒng)計

詞典我們收集百度百科內(nèi)有關人物的詞條名,設計一些規(guī)則對詞條名清洗后得到最終的人名詞典。該詞典共包含987 309條人名。

組織機構名詞典來自Company-Names-Corpus(3)https://github.com/wainshine/Company-Names-Corpus,共包含6 220 471條公司名和機構名。

4.2 實驗設置

Dict_Based: 使用3.1.1節(jié)介紹的方法進行詞典匹配。(基線方法)

Source_Train: 源領域的訓練集作為訓練數(shù)據(jù)。(基線方法)

Source_Pred: 源領域模型對目標領域無標注數(shù)據(jù)的預測結果作為訓練數(shù)據(jù)。(基線方法)

Unlabel_Part: 目標領域的弱標注數(shù)據(jù)作為訓練數(shù)據(jù)。

Mix: 混合目標領域的弱標注數(shù)據(jù)和源領域的訓練集作為訓練數(shù)據(jù)。

Train+Pred: 混合源領域的訓練集和源領域模型對目標領域無標注數(shù)據(jù)的預測結果作為訓練數(shù)據(jù)。

+ELMo: 按照式(15)得到ELMo[23]對句子的特征表示,拼接至表示層的輸出,作為編碼層的輸入。

(15)

+BERT: 按照式(16)得到BERT[24]對句子的特征表示,拼接上表示層的輸出,作為編碼層的輸入。

(16)

超參: +ELMo的模型采用Adam優(yōu)化器,學習率設置為0.001。其他全部實驗采用如表3所示的超參數(shù),并依據(jù)開發(fā)集表現(xiàn)實行早停策略。

表3 超參數(shù)設置

開發(fā)集: MSRA沒有包含開發(fā)集,因此本文把MSRA的測試集當作開發(fā)集,在Weibo-STD、Weibo-Recut和Resume的測試集上測評結果。

4.3 實驗結果

最終實驗結果如表4所示。從表4中,我們可以發(fā)現(xiàn)如下現(xiàn)象:

表4 領域適應實驗結果

Source_Pred使用源領域模型自動標注的目標領域文本訓練,沒有產(chǎn)生任何額外標注成本。但是,Source_Pred的性能甚至比人工標注的源領域數(shù)據(jù)(Source_Train)還要好??梢?,當領域間數(shù)據(jù)分布差異非常大時,相比于在源領域數(shù)據(jù)上訓練,在目標領域數(shù)據(jù)上訓練更能捕捉到目標領域的特征,即使目標領域數(shù)據(jù)是自動生成的。

Unlabel_Part的性能在所有方法中最好,證明了本文方法能顯著減少錯標的情況。雖然一些標簽被置為“U”,但是多條可能路徑的建模方式給予了模型更多的聯(lián)想空間,模型通過猜測這些部分的標簽分布,可以減少指定錯誤標簽的影響。最終,相較于基線模型(Source_Train),在不加入語言模型特征時,Unlabel_Part在三個數(shù)據(jù)集上分別提高了5.85%、6.12%和7.71%。

Mix始終優(yōu)于基線,在不加入語言模型特征時,在三個數(shù)據(jù)集上分別提高了3.98%、6.72%和4.64%。證明了即使最簡單直接地混合數(shù)據(jù),本文方法也能夠有效地補充源領域數(shù)據(jù)缺失的目標領域知識。Mix結果高于Source_Train和Source_Pred,但是在多數(shù)情況下低于Unlabel_Part。Mix混合了源領域和目標領域的標注數(shù)據(jù),兩種領域數(shù)據(jù)分布存在差異,使得模型訓練時會在一定程度上受到源領域數(shù)據(jù)分布的干擾,最終導致性能略低于僅使用目標領域的弱標注數(shù)據(jù)。多數(shù)情況下Train+Pred高于Source_Train和Source_Pred,但低于Mix。

4.4 語言模型特征集成的實驗結果

集成語言模型特征的實驗結果如表5所示。語言模型對文本的表征能力都是非常強的,但是強擬合能力的代價可能是較弱的泛化能力。我們使用的ELMo是在新聞語料上訓練的(News ELMo),無法學習到目標領域的知識。并且,在訓練語料為新聞語料(Source_Train)時,層權重和模型參數(shù)都會更傾向于擬合源領域的數(shù)據(jù)分布,削弱了模型向目標領域的泛化能力。所以,相比于不加ELMo,添加News ELMo后的模型表現(xiàn)甚至更差。

表5 語言模型特征集成的實驗結果

在加入News ELMo的實驗中,Source_Pred使用的訓練語料是Source_Train模型自動標注的,中間存在嚴重的錯誤傳播,從表中可以看到Source_Train和Source_Pred的準確率都很低。這些錯誤對模型的負面影響高于ELMo的正面作用,使得Source_Pred性能低于Source_Train。而我們的方法應用交叉對比和局部標注學習,減少了大量錯誤標注帶來的影響,模型是在擬合一個較高質(zhì)量的目標領域數(shù)據(jù)集,能夠起到正面作用。所以,相比于不加ELMo的方法和+News ELMo的Source_Train,+News ELMo的Unlabel_Part和Mix,性能均有顯著提升。

為了驗證ELMo所用無標注語料對系統(tǒng)的影響,我們在目標領域無標注語料上重新訓練ELMo(Target ELMo),替換News ELMo后重復所有實驗。由于金融領域的無標注數(shù)據(jù)規(guī)模較小,不足以訓練語言模型,我們僅在微博數(shù)據(jù)上進行了實驗。從表5中可以看出,加入Target ELMo后,各方法的性能全部高于對應的News ELMo的結果和不加ELMo的結果。證明在領域遷移的場景下,ELMo所用訓練語料的來源非常重要,目標領域語料訓練的ELMo可以提供更多的目標領域知識,而不同分布數(shù)據(jù)訓練的ELMo則會引入噪聲信息。

在加入BERT的實驗中,由于BERT的訓練成本很高,我們無法自行訓練。所以,我們采用Wolf等[25]在超大規(guī)模語料上訓練好的中文BERT。相比于基線方法,Unlabel_Part在3個數(shù)據(jù)集上分別獲得了6.42%、3.51%和5.4%的提升;相比于不集成語言模型特征的Unlabel_Part,Unlabel_Part(+BERT)在3個數(shù)據(jù)集上分別獲得了28.78%、18.61%和3.72%的提升。證明該預訓練語言模型受益于本身的模型架構和訓練語料的多樣性,在具有強大表征能力的同時,也具有強大的泛化能力,能夠捕捉較為普遍的語言現(xiàn)象。所以,+BERT的所有結果都顯著高于+ELMo和不加入語言模型的方法。

4.5 實驗分析

4.5.1 與其他方法的比較

為了更好地說明本文所提出方法的優(yōu)勢,我們在標準切分數(shù)據(jù)集(Weibo-STD)上,與如下方法進行了比較。

CDNER-LM: 該方法由Jia等[26]提出,在跨領域的命名實體識別任務上達到了目前為止的最優(yōu)性能。該方法的實驗數(shù)據(jù)設置和本文領域自適應方法一致。

BERT-Finetune: 該方法由Delvin等[24]提出,在全監(jiān)督的命名實體識別任務上達到了目前為止的最優(yōu)性能。本實驗中,我們直接在目標領域的訓練和開發(fā)數(shù)據(jù)上微調(diào)BERT。

表6展示了各個系統(tǒng)的比較結果,“*”表示使用了目標領域人工標注數(shù)據(jù)作為訓練語料。在不附加語言模型的情況下,我們的方法顯著高于CDNER-LM。這一結果證明本文方法具有更強的領域自適應能力。

表6 與其他方法的比較結果

在加入語言模型BERT后,我們方法的最優(yōu)性能可以提高到74.18%,僅僅低于全監(jiān)督方法(BERT-Finetune)1.75%。和BERT-Finetune相比,我們的方法沒有用到任何目標領域的人工標注數(shù)據(jù),在實踐中具有更好的可行性。

4.5.2 無標注數(shù)據(jù)數(shù)量的影響

目標領域無標注語料在本文提出的方法中扮演著重要的角色,因此,我們在Weibo-Recut數(shù)據(jù)集上,對比了不同規(guī)模的目標領域無標注語料對實驗性能的影響。圖3展示了不加入語言模型條件下的實驗結果。隨著目標領域無標注語料規(guī)模的增長,Unlabel_Part的F1值也呈現(xiàn)增長趨勢。當語料規(guī)模到達一定程度時,更多的語料帶來的收益就非常小了,甚至會引入較多噪聲。

圖3 無標注語料數(shù)量對實驗的影響

4.5.3 樣例分析

我們以Weibo-Recut的測試集為樣本,對比了我們的方法(Mix)和基線方法的標注結果,其中一個樣例如表7所示。

表7 標注實例對比

“高富帥”在上下文中雖然指代人,并且字面上有很強的人名特征(以“高”開頭、3個字),但是并不是一個人名。新聞領域語料中出現(xiàn)更多的是標準人名,很少有類似的形似人名的網(wǎng)絡用語。因此,基于新聞語料訓練的基線方法識別錯誤,而我們的方法給出了正確的結果。原因是,在本文方法中,人名詞典內(nèi)沒有“高富帥”,則生成的社交領域弱標注語料中,“高富帥”的標簽為“U”,局部標注學習通過社交領域特有的上下文,判斷出這三個字不是人名??梢?,本文方法受益于目標領域的文本,減少了源領域模型的一些認知偏見。

5 總結

本文提出了一種簡單而有效的跨領域命名實體識別方法。通過自動構建目標領域弱標注數(shù)據(jù),有效避免了領域間數(shù)據(jù)分布不同的問題。本文首次將局部標注學習應用到命名實體識別的領域遷移任務上。在領域自適應實驗中,本文方法的性能都超過了基線方法。在加入強大的語言模型的條件下,本文方法仍然能提高目標領域的命名實體識別性能。

在未來的工作中,我們會探索在目標領域有少量監(jiān)督數(shù)據(jù)的場景下,怎樣更有效地利用這些標注數(shù)據(jù)來提高領域遷移性能。除此之外,預訓練語言模型中蘊含的領域語義知識也非常值得我們?nèi)ネ诰颉?/p>

猜你喜歡
語料標簽實體
基于歸一化點向互信息的低資源平行語料過濾方法*
前海自貿(mào)區(qū):金融服務實體
實體書店步入復興期?
瀕危語言與漢語平行語料庫動態(tài)構建技術研究
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
讓衣柜擺脫“雜亂無章”的標簽
科學家的標簽
岗巴县| 琼海市| 屏东市| 凌源市| 临漳县| 拉萨市| 南雄市| 精河县| 安化县| 彰化县| 桂东县| 门头沟区| 万州区| 洛浦县| 邮箱| 车致| 富宁县| 乡城县| 张家界市| 温泉县| 隆德县| 沙坪坝区| 韶山市| 黄冈市| 奉贤区| 洛浦县| 金乡县| 张家口市| 永善县| 和龙市| 扎囊县| 泰宁县| 天水市| 珠海市| 沭阳县| 安康市| 赞皇县| 铁力市| 额济纳旗| 文成县| 平阳县|