国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種針對 BERT 模型的多教師蒸餾方案

2024-05-17 00:00:00石佳來郭衛(wèi)斌

摘要:在傳統(tǒng)的知識蒸餾中,若教師、學(xué)生模型的參數(shù)規(guī)模差距過大,則會出現(xiàn)學(xué)生模型無 法學(xué)習(xí)較大教師模型的負面結(jié)果。為了獲得在不同任務(wù)上均擁有較好表現(xiàn)的學(xué)生模型,深入研 究了現(xiàn)有的模型蒸餾方法、不同教師模型的優(yōu)缺點,提出了一種新型的來自 Transformers 的雙 向編碼器表示(Bidrectional Enoceder Respresentations from Transformers,BERT)模型的多教 師蒸餾方案,即使 用 BERT、魯棒優(yōu)化 的 BERT 方 法 ( Robustly optimized BERT approach, RoBERTa)、語言理解的廣義自回歸預(yù)訓(xùn)練模型(XLNET)等多個擁有 BERT 結(jié)構(gòu)的教師模型對 其進行蒸餾,同時修改了對教師模型中間層知識表征的蒸餾方案,加入了對 Transformer 層的 蒸餾。該蒸餾方案在通用語言理解評估(General Language Understanding Evaluation,GLUE) 中的多個數(shù)據(jù)集上的實驗結(jié)果表明,最終蒸餾實驗的結(jié)果較為理想,可以保留教師模型 95.1% 的準確率。

關(guān)鍵詞:BERT;知識蒸餾;多教師蒸餾;Transformer 蒸餾;自然語言理解

中圖分類號:TP391.1

文獻標志碼:A

Devlin 等[1] 在 2018 年提出的 BERT(Bidirectional Enoceder Respresentations from Transformers)模型在 自然語言處理(Nature Language Processing, NLP)方 面的研究成果顯著,堪稱 NLP 研究的里程碑。此后 學(xué)者們不斷提出對 BERT 模型進行改進,包括引入傳 統(tǒng)單向語言模型(LM)方式和 seq2seq 訓(xùn)練的單向語 言模型(UNILM) [2]、將 BERT 中 Mask 隨機 token 改 進為 Mask 隨機實體或詞組的 Ernie-baidu 模型[3] 等, 此類基于 BERT 的模型均在自然語言處理方面發(fā)揮 了不錯的表現(xiàn)。但是,這些模型在具有極強的運算 能力的前提下,參數(shù)規(guī)模龐大,推理周期長,其參數(shù) 數(shù)目往往超過 1000 億。如何在存儲空間有限的場 合(比如在移動終端)中,有效地實現(xiàn)這種預(yù)先學(xué)習(xí) 的方法,并使之具有一定的計算能力,成為學(xué)者們一 個新的研究方向。許多學(xué)者提出了不少有效的方 法,其中,最受歡迎的方法就是“知識蒸餾”。該方法 一般由大型的教師模型和小型的學(xué)生模型組成,在 蒸餾過程中,學(xué)生不僅要從文本樣本的硬標簽中學(xué) 習(xí),還要從教師模型中學(xué)習(xí)。最初,基于 BERT 模式 的蒸餾主要是以一位老師和一位學(xué)生的方式來進 行,近年來,眾多學(xué)者也進行了大量的多教師蒸餾策略。

在多教師蒸餾策略中,由不同的教師模型為學(xué) 生模型提供不同的“見解” [4] ,學(xué)生模型可以從不同的 角色模型中獲取不同的知識表征以獲得更佳的表 現(xiàn)。但是傳統(tǒng)的多教師蒸餾中,僅使用教師模型最 后一層的輸出進行蒸餾,若教師模型過于復(fù)雜,學(xué)生 模型則有可能會因為無法捕捉教師模型中更細粒度 的知識而無法接近教師模型[5] ,甚至?xí)霈F(xiàn)學(xué)生模型 在數(shù)據(jù)的某些部分過度擬合的問題。為了解決以上 問題,在蒸餾時提取教師模型中間層的知識,除了教 師預(yù)測層外 ,還讓學(xué)生模型從教師模型中間 的 Transformer 層中學(xué)習(xí)知識,整體的蒸餾函數(shù)包括了 預(yù)測層的蒸餾。

本文選用 BERT[1]、RoBERT[6]、XLNET[7] 3 個教師模型,以及 3 層 BERT 的學(xué)生模型的多教師蒸餾模 型,并修改了蒸餾損失函數(shù),新的蒸餾損失函數(shù)包括 對教師模型的預(yù)測層、隱藏層、注意力層以及嵌入層 的蒸餾。在 GLUE[8] 任務(wù)的部分數(shù)據(jù)集上與其他常 見的蒸餾方案進行了對比實驗,本文方案在結(jié)果上 得到有效的提升。

1""" 知識蒸餾相關(guān)工作

1.1 知識蒸餾方案

Hinton 等[9] 認為,在預(yù)訓(xùn)練階段大量的參數(shù)可 以幫助模型更好地獲取樣本的知識表征,但是在預(yù) 測時則不需要過多的參數(shù)。為了減少模型的計算成 本,本文提出了基于教師-學(xué)生架構(gòu)的知識蒸餾模型, 通過知識蒸餾的方法訓(xùn)練得到性能相近、結(jié)構(gòu)緊湊 的學(xué)生模型。在眾多深度學(xué)習(xí)領(lǐng)域中,知識蒸餾都 可以得到不錯的效果。

Hinton 等的模型蒸餾僅對教師模型的預(yù)測層輸 出進行蒸餾,工程師們則關(guān)心教師模型的輸入和輸 出,因此教師模型很可能會出現(xiàn)過擬合的負面情 況。為了解決這個問題,Sun 等[10] 提出了一種“耐心 蒸餾”(Patient Knowledge Distillation, PKD)策略,旨 在使學(xué)生模型除了從教師模型最后一層學(xué)習(xí)外,還 讓其學(xué)習(xí)教師模型的中間層,從而使教師模型中間 層的知識表征能較好地轉(zhuǎn)移到學(xué)生模型中。然而 PKD 對 中 間 層 的 蒸 餾 過 于 簡 單 , 忽 略 了 每 一 層 Transformer 內(nèi)部的知識內(nèi)容。本文在此基礎(chǔ)上對每一 層 Transformer 層的隱藏態(tài)和注意力矩陣進行了蒸餾。

1.2 多教師蒸餾方案

在常見的模型蒸餾方法中,多采用單教師-單學(xué) 生的架構(gòu),然而 Cho 等[11] 的研究發(fā)現(xiàn),在知識蒸餾過 程中并不是性能越卓越的教師模型就一定可以蒸餾 出更好的學(xué)生模型,這與我們的直觀感受相悖。本 文采用多個基于 BERT 的教師模型,搭建一套多教師 蒸餾模型,為學(xué)生模型尋找更好的蒸餾架構(gòu)。

Fukuda 等[12] 提出的多教師蒸餾方案主張在蒸 餾過程中直接使用多個教師,并提出了兩種多教師 蒸餾的方案:(1)通過在小批量級別切換教師模型標 簽來訓(xùn)練學(xué)生模型;(2)學(xué)生模型根據(jù)來自不同教師 分布的多個信息流進行訓(xùn)練。Liu 等[13] 提出將多個 教師的軟標簽與可學(xué)習(xí)權(quán)重相結(jié)合,提取數(shù)據(jù)示例 之間的結(jié)構(gòu)知識,并傳遞中間層表示,使每個教師負 責(zé)學(xué)生網(wǎng)絡(luò)中的特定層。Yang 等[14] 提出了一種多 教師兩階段蒸餾的方法,針對機器問答任務(wù),讓學(xué)生 模型在預(yù)訓(xùn)練階段與微調(diào)階段均進行蒸餾訓(xùn)練。

多教師學(xué)習(xí)是通過利用多個教師模型提高學(xué)生 模型在單個任務(wù)上的性能。多教師蒸餾方法核心的 設(shè)計在于多個教師軟標簽、中間層知識的組合策 略。本文在針對 BERT 的多教師蒸餾架構(gòu)中,對每一 個教師模型的蒸餾都新增了針對 Transformer 的蒸 餾,可以幫助學(xué)生模型獲取所有教師模型中更細粒 度的知識,為學(xué)生模型提供更豐富的“見解”,以獲得 更佳的表現(xiàn)。

2""" 多教師蒸餾模型

多個教師模型蒸餾到單個學(xué)生模型可以傳遞多 種知識,多教師蒸餾的優(yōu)勢在于每個教師模型的輸 出都不同,學(xué)生模型可以學(xué)習(xí)到不同教師模型之間 的差異,提升預(yù)測的泛化能力[15]。對于傳統(tǒng)的多教師 蒸餾工作,一般將對教師模型最后一層平均之后的 結(jié)果作為指導(dǎo)學(xué)生訓(xùn)練的信息,即使學(xué)生模型與教 師模型軟標簽緊密匹配,其內(nèi)部表現(xiàn)也可能有很大 不同,這種內(nèi)部不匹配可能會使學(xué)生模型泛化能力 的提升變得有限[16] ,同時還伴隨著過擬合的風(fēng)險[10]。 BERT 模型是由 Transformer 構(gòu)建而成,它可以通過 自注意力機制獲取輸入 token 之間的長期依賴關(guān)系, 在多教師蒸餾中新增對每個教師模型的 Transformer 的蒸餾,在這種情況下,學(xué)生模型的中間層可以保留 教師模型中間層的語言行為。

本文的多教師蒸餾模型由多個經(jīng)過預(yù)訓(xùn)練的教 師模型同時對單個學(xué)生模型進行蒸餾,整體架構(gòu)如 圖 1 所示。對于擁有 BERT 結(jié)構(gòu)的教師模型與學(xué)生 模型來說,嵌入層和預(yù)測層均可以直接采用一對一的 層映射方式,每個 BERT 模型都擁有多個 Transformer 中間層,而通常來說教師模型的中間層數(shù)量是學(xué)生 模型的數(shù)倍。Clark 等[17] 的研究結(jié)果表明,BERT 構(gòu) 建的語言知識從模型網(wǎng)絡(luò)的底部到頂部逐漸變得復(fù) 雜,由于模型建立在底部表示之上,因此本文以自下 而上的方式逐步提取與內(nèi)部表示匹配的知識。對于 多層的 Transformer,本文將模仿 BERT-PKD 的跨層 指定映射方式進行跨層映射,如圖 2 所示。文獻 [18-19] 的研究表明,Transformer 中的注意力層包括了豐富 的語法、指代等文本知識。李宜儒等[20] 的研究表明, 對師生間的注意力進行蒸餾有利于提高學(xué)生模型的 準確率。因此 Transformer 層的蒸餾又是基于注意力 和隱藏狀態(tài)的蒸餾,每個學(xué)生注意力層/隱藏層可以 從指定的教師注意力層/隱藏層中學(xué)習(xí)知識。整體來 說本實驗的蒸餾損失函數(shù)包括了嵌入層蒸餾損失函 數(shù)、Transformer層的蒸餾損失函數(shù)和預(yù)測層蒸餾損失函數(shù),其中 Transformer 層的蒸餾又包括了隱藏層 的蒸餾以及對注意力層的蒸餾。

2.1 預(yù)測層損失函數(shù)

學(xué)生模型和教師模型都會在每個樣本上產(chǎn)生一 個關(guān)于類別標簽的分布信息,軟標簽損失函數(shù)的計 算就是計算這兩個分布之間的相似性。假設(shè)使用 K 個教師模型進行實驗,則需要計算學(xué)生模型預(yù)測層 輸出和 K 個教師模型預(yù)測輸出的交叉熵(CE),預(yù)測 層損失函數(shù)(Lpredict ")如式 (1) 所示。

其中:z T k 表示第 k 個教師模型預(yù)測的 logits 值; z表 示學(xué)生模型預(yù)測的 logits 值 ;使用 softmax 函數(shù)將 logits 值 zi 映射到概率向量 pi 中,這樣的映射可以使 每個映射的值和為 1; 表示蒸餾時的溫度參數(shù),溫 度越高可以使概率分布曲線越“平滑”,即淡化各個標 簽之間預(yù)測值的差異。

2.2 隱藏層損失函數(shù)

針對 Transformer 層的蒸餾包括隱藏層(FFN 之 后)和注意力層的蒸餾[21]。學(xué)生和教師模型 Transformer 層之間的映射將模仿耐心蒸餾跨層映射的方式進行 映射。假設(shè)教師模型擁有 M 層 Transformer,學(xué)生模 型擁有 N 層 Transformer,那么需要從教師模型中選 擇 N 層 Transformer 層進行蒸餾,則學(xué)生模型將會從 教師模型的每 l 層中學(xué)習(xí)。例如對于存在的 3 個教 師模型,且每個教師模型均擁有 11 層 Transformer 中 間層(除了最后一層 Transformer 層直接與預(yù)測層相 連 接 , 不 計 作 中 間 層 ) , 學(xué) 生 模 型 擁 有 3 層 Transformer 中間層,指定學(xué)生模型第 1 層從每個教 師模型第 4 層中學(xué)習(xí)、學(xué)生模型第 2 層從每個教師 模型第 8 層中學(xué)習(xí)、學(xué)生模型第 3 層從每個教師模 型第 12 層中學(xué)習(xí)。

多教師蒸餾中 Transformer 層的跨層映射策略如 圖3 所示。學(xué)生模型與第k 個教師模型中間Transformer 層的映射函數(shù)記為 ,表示第 k 個教師模型的第 n 層與學(xué)生模型的第 m 層相互映射。除了 Transfor[1]mer 層以外,將 0 設(shè)置為嵌入層的索引,將 M+1 和 N+1 分別設(shè)置為教師模型、學(xué)生模型預(yù)測層的索引,相應(yīng)的層映射定義為0=g,(O)和N+l= g4(M+ l)。

學(xué)生模型第ü層的隱藏態(tài)(H)可以表示為H∈ Rd,其中標量d表示模型的隱藏大小,1是輸入文本的長度。第k個教師模型的第j層的隱藏態(tài)(H )可以表示為eRId,其中標量d表示第k 個教師模型的隱藏態(tài)大小。使用 代表一個線 性變換參數(shù),將學(xué)生的隱藏態(tài)轉(zhuǎn)換為與教師網(wǎng)絡(luò)狀 態(tài)相同的空間。那么學(xué)生模型第 i 層隱藏層到第 k 個教師的第 j 層隱藏層之間的距離 ( ) 可以用 式 (2) 表示,其中均方誤差(MSE)表示教師模型和學(xué) 生模型詞嵌入之間的“距離”,并通過最小化它來提升 學(xué)生模型性能。

3""" 實驗設(shè)置與結(jié)果分析

3.1 實驗設(shè)置

GLUE[8] 是一個針對自然語言理解的多任務(wù)的 基準和分析平臺,由紐約大學(xué)、華盛頓大學(xué)等機構(gòu)所創(chuàng) 建,近年來流行的 NLP 模型例如 BERT[1]、RoBERTa[6]、 XLNET[7] 等都會在此基準上進行測試,同時 GLUE 也 是知識蒸餾模型 BERT-PKD[8]、DistillBERT[23] 等所 選用的實驗數(shù)據(jù)集。本實驗數(shù)據(jù)集選用 GLUE[8] 中 的部分公開數(shù)據(jù)集 QNLI、MNLI和 SST-2 作為本實 驗的數(shù)據(jù)集,在上述數(shù)據(jù)集中對模型的處理效果進 行了檢驗。在 QNLI 數(shù)據(jù)集中,要求模型要判定問題 與語句之間的包含關(guān)系,其結(jié)論有包含與不包含兩 種情況,是二分類問題。QNLI 包含 104 743 個培訓(xùn) 集合、5 463 個發(fā)展集合和 5 461 個測試集合。在 SST-2 中,模型要判定輸入的語篇包含了積極的情緒 還是消極的情緒,這也是一種二分類問題,包含了訓(xùn) 練集 67 350 個,開發(fā)集 873 個,驗證集 821 個。在 MNLI 中,模型被輸入一個句子對,包括了前提語句 與假設(shè)語句,該模型需要基于輸入內(nèi)容,判斷二者的 關(guān)系是屬于假定、假定沖突或是中立中的哪一種,這 屬于三分類問題。由于 MNLI 是一種包含多種類型的文字,因此它被分成了 matched 和 mismatched 兩種 類型,其中 matched 表示訓(xùn)練和測試集具有相同的資 料源,而 mismatched 是不相容的;本論文選取的資料 集包含 392 702 個培訓(xùn)集、9 815 個開發(fā)集 dev-matched 和 9 796 個 test-matched。

訓(xùn)練時如何確定學(xué)習(xí)率等超參數(shù)十分關(guān)鍵,訓(xùn) 練開始時使用較大的學(xué)習(xí)率可以使模型更快地接近 局部或全局最優(yōu)解,但是在訓(xùn)練后期會有較大波動, 甚至出現(xiàn)損失函數(shù)的值圍繞最小值徘徊,難以達到 最優(yōu)的情況。本實驗使用網(wǎng)格搜索法調(diào)整超參數(shù), 由于存在許多超參數(shù)組合,因此首先對學(xué)習(xí)率和式 (9) 中的權(quán)重 α 進行網(wǎng)格搜索,將學(xué)習(xí)率在{ }中調(diào)整 ,式 (9) 中 α 的取值在{0.1, 0.2, 0.5}之間調(diào)整。固定學(xué)習(xí)率和式 (9) 中 α 這兩個 超參數(shù)的值,再對其他超參數(shù)的值進行調(diào)整,將蒸餾 溫度 取值在{1, 5, 10}之間調(diào)整。按照顯存容量將 批量樣本容量 bath size 設(shè)置為 32,最多對數(shù)據(jù)進行 4 輪訓(xùn)練。

3.2 多教師蒸餾結(jié)果

為 了 方 便 蒸 餾 時 進 行 跨 層 映 射 , 選 用 了 BERT12、RoBERTa12、XLNet12 作為教師模型,選用的 教師模型都是 12 層基于 BERT 的預(yù)訓(xùn)練好的模型, 教師模型選擇的理由如下:(1)所選的每個教師模型 均 12 層,由 Transformer 構(gòu)建而成,結(jié)構(gòu)相似。(2)所 選的每個教師模型中包含的參數(shù)數(shù)量在 1.1 億左右, 教師模型的大小相似。在每個數(shù)據(jù)集中,均使用不 同的隨機種子微調(diào) 3 個教師模型。各個教師模型在 每個數(shù)據(jù)集上的表現(xiàn)如表 1 所示,各個數(shù)據(jù)集中均用 推斷準確率表示結(jié)果。

選取的學(xué)生模型 BERT3 是以選取的 BERT12 模 型的前三層的參數(shù)作為初始值 ,學(xué)生模型擁 有 0.45 億參數(shù),再用前文中基于 Transformer 的知識蒸 餾框架對學(xué)生模型進行蒸餾,以驗證教師模型的數(shù) 量與蒸餾的關(guān)系。

表 1 結(jié)果顯示教師模型在 3 個數(shù)據(jù)集中的平均 推斷準確率為 89.4%,而學(xué)生模型在 3 個相同數(shù)據(jù)集 中的平均推斷準確率為 85.0%(表 2)。學(xué)生模型的推 斷準確率在保留了各個教師模型平均推斷準確率 (95.1%)的同時,參數(shù)規(guī)模只占用了教師模型平均參 數(shù)規(guī)模的 41.5%。同時也可以看到不同教師模型所 “擅長”的領(lǐng)域也不同,RoBERTa12 教師模型是在 BERT 模型的基礎(chǔ)上采用更大的預(yù)訓(xùn)練語料進行訓(xùn)練而得 到的模型 ,因此在各個數(shù)據(jù)集上的表現(xiàn)均優(yōu) 于 BERT 模型,在同屬于二分任務(wù)的 QNLI、SST-2 數(shù)據(jù) 集中的表現(xiàn)在所有教師模型中最優(yōu)。而 XLNET12 教 師 模 型 使 用 了 Transformer-XL 中 的 段 循 環(huán) (Segment" Recurrence" Mechanism)、 相 對 位 置 編 碼 (Relative Positional Encoding) 進行優(yōu)化,在長文本問 題中可以有更好的表現(xiàn),在屬于三分任務(wù)的 MNLI 數(shù) 據(jù)集中表現(xiàn)最優(yōu)。

3.3 不同蒸餾模型對比

為了驗證本文多教師蒸餾方案的有效性,本實 驗還選取了 Sun 等[10] 提出的 BERT-PKD、Sanh 等[23] 提出的 DistilBERT 作為單教師模型的 baseline 模型 進行了對比,其中 BERT-PKD 對比了選用跨層映射 的 BERT-PKD(skip) 版 與 選 用 尾 層 映 射 的 BERT[1]PKD(last) 兩個版本。所有 的 baseline 模型均采 用 BERT12 模型作為教師模型,并采用 BERT3 模型作為 學(xué)生模型,在 QNLI、SST-2、MNLI 數(shù)據(jù)集中進行實 驗,不同蒸餾模型的學(xué)生模型性能對比結(jié)果如表 2 所 示??梢钥闯霰疚牡恼麴s方案(BERT12+ RoBERTa12+ XLNET12)在選取的 3 個數(shù)據(jù)集中均優(yōu)于常見的對比 蒸餾模型。此外還可以看出,在蒸餾時,教師模型在 某一特定任務(wù)中的優(yōu)秀性能,可以很好地傳遞給學(xué) 生模型。例如在 SST-2 的情感分類任務(wù)中,本文實驗 方案的推斷準確率明顯高于其他的 baseline 模型,比 BERT-PKD(last) 的推斷準確率提高 5.4%,有了非常 大的提升,是因為本文提供的多教師模型可以讓學(xué) 生模型在知識獲取上就獲得更大的優(yōu)勢。

3.4 相同教師模型、不同蒸餾損失函數(shù)的模型對比 為了驗證蒸餾時對 Transformer 層中的知識進行 提取這一策略的有效性,本文同時還設(shè)立了多教師 蒸餾 baseline 模型,分別選取了只從教師預(yù)測層中學(xué) 習(xí) 知 識 的 OKD(Original" Knowledge" Distillation) 和 PKD。以上 baseline 模型與本文模型一樣,同樣選取 BERT12、RoBERTa12、XLNET12 作為教師模型,將本 文采用的從 Transformer 層中提取知識的蒸餾方案記 作 TKD(Transformer Knowledge Distillation),實驗結(jié) 果如表 3 所示。

從橫向進行比較,可以看到在固定教師模型的 數(shù)量,以及類型相同的情況下,對 Transformer 層的知 識蒸餾可以在一定程度上提升其對學(xué)生模型的性 能。例如在共同選用 BERT12、RoBERTa12、XLNET12 3 個教師模型的情況下,OKD 模型在本實驗所選的 任務(wù)中的性能均不如 TKD 模型的性能好,差別最大的 是在 QNLI 數(shù)據(jù)集中,二者推斷準確率最高相差 2.6%。

但是,這種現(xiàn)象在更加復(fù)雜的任務(wù)中并不明顯, 在 MNLI 數(shù)據(jù)集中,甚至出現(xiàn)了 TKD 被 PKD 反超的 情況,盡管推斷準確率只高出了 0.2%。這種現(xiàn)象的 原因可以理解為更多的教師模型已經(jīng)為學(xué)生模型提 供了非常豐富的知識,再加上學(xué)生模型和教師模型 之間的參數(shù)規(guī)模比較大,因而 BERT3 學(xué)生模型捕捉 教師模型中間知識的能力并不是很好。

4""" 結(jié)束語

本文針對傳統(tǒng)多教師蒸餾只蒸餾教師模型預(yù)測 層而忽略中間層表達的問題,提出了針對 BERT 模型 的多教師蒸餾方法,同時修改了傳統(tǒng)的蒸餾損失函 數(shù),新增了對 Transformer 中間層的知識的提取。實 驗選用預(yù)訓(xùn)練好的 BERT12、 RoBERTa12、 XLNET12 作為教師模型,BERT3 作為學(xué)生模型,實驗結(jié)果證明 學(xué)生模型可以很好地保留教師模型的性能,保留了 教師模型平均 95.1% 的準確率。同時學(xué)生模型的參 數(shù)規(guī)模更加緊湊,只占用教師模型平均參數(shù)規(guī)模的 41.5%。與常見的蒸餾模型進行了對比,在所選的數(shù) 據(jù)集中,本文提出的方法均獲得了最佳成績。 本文很好地驗證了從 Transformer 層中提取知識 這一策略在蒸餾實驗中的有效性。Transformer的蒸 餾可以協(xié)調(diào)對多個教師中間層知識表征的學(xué)習(xí),有 效提升學(xué)生模型的性能。

參考文獻:

DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-train[1]ing of" deep" bidirectional" transformers" for" language"" under[1]standing[C]//Proceedings" of" the" 2019" Conference" of" the North American" Chapter" ofthe" Association" for"" Computa[1]tional Linguistics:" Human" Language" Technologies."" Min[1]neapolis: ACL Press, 2019: 4171-4186.

DONG" L," YANG" N," WANG" W, et al." Unified" language model" pre-training" for" natural" language" understanding" and generation[J]." Advances" in" Neural" Information" Processing Systems, 2019, 32(1): 3179-3191.

YU S, Wang S H, YUKUN L, et al. Ernie: Enhanced rep[1]resentation" through" knowledge" integration[C]//Proceedings of" the" AAAI" Conference" on" Artificial" Intelligence." [s.l.]: AAAI Press, 2020: 8968-8975.

SHEN C, WANG X, SONG J, et al. Amalgamating know[1]ledge" towards" comprehensive" classification[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence. Honolulu: AAAI Press, 2019: 3068-3075.

ILICHEV" A," SOROKIN" N," PIONTKOVSKAYA" I, et al. Multiple" teacher" distillation" for" robust" and" greener models[C]//Proceedings of the International Conference on Recent" Advances" in" Natural" Language" Processing." New York: RANLP, 2021: 601-610.

LIU Y H, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized" BERT" pretraining" approach[J]." ArXiv," 2019, 1907: 1169.

YANG" Z" L," DAI" Z" L," CARBONELL" J" G, et al." XLNet: Generalized autoregressive pretraining for language under[1]standing[C]//Advances" in" Neural" Information" Processing Systems 32 Annual Conference on Neural Information Pro[1]cessing Systems. Canada: NeurIPS, 2019: 5754-5764.

WANG A, SINGH A, MICHAEL J, et al. GLUE: A multi[1]task benchmark and analysis platform for natural language understanding[C]//Proceedings of the 7th International Con[1]ference on" Learning" Representations" Proceedings" of"" Ma[1]chine Learning Research. [s.l.]: ICLR Press, 2019: 1-20.

HINTON G, VINYALS O, DEAN J. Distilling the know[1]ledge in a neural network[J]. Journal of Machine Learning Research, 2016, 17(1): 2435-2445.

SUN S Q, CHENG Y, GEN Z, et al. Patient knowledge dis[1]tillation" for" BERT" model" compression[C]//Proceedings" of the 2019 Conference on Empirical Methods in Natural Lan[1]guage Processing" and" the" 9th" International" Joint"" Confer- ence" on" Natural" Language" Processing." Hong" Kong: EMNLP-IJCNLP, 2019: 4322-4331.

CHO J H, HARIHARAN B. On the efficacy of knowledge distillation[C]//Proceedings" of" the" IEEE/CVF" International Conference on Computer Vision. Seoul: IEEE Press, 2019: 4794-4802.

FUKUDA T, KURATA G. Generalized knowledge distilla[1]tion" from" an" ensemble" of" specialized" teachers" leveraging Unsupervised neural clustering[C]//ICASSP 2021 IEEE In[1]ternational" Conference" on" Acoustics" Speech" and" Signal Processing (ICASSP). [s.l.]: IEEE Press, 2021: 6868-6872.

LIU X, HE P, CHEN W, et al. Improving multi-task deep neural networks via knowledge distillation for natural lan[1]guage understanding[C]//IEEE International Conference on Acoustics Speech" and" Signal" Processing" (ICASSP)."" Bar[1]celona: IEEE Press, 2020: 7419-7423.

YANG Z, SHOU L, GONG M, et al. Model compression with two-stage multi-teacher knowledge distillation for web question answering system[C]//Proceedings of the 13th In[1]ternational" Conference" on" Web" Search" and" Data" Mining. Houston: ACM Press, 2020: 690-698.

TRAN" L," VEELING" B" S," ROTH" K, et al. Hydra:"" Pre[1]serving" ensemble" diversity" for" model" distillation[C]//Pro[1]ceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP). [s.l.]: ACL Press, 2021: 4093-4107.

AGUILAR G, LING Y, ZHANG Y, YAO B, et al. Know[1]ledge distillation from internal representations[C]//Proceed[1]ings" of" the" AAAI" Conference" on" Artificial" Intelligence.

New York: AAAI Press, 2020: 7350-7357 CLARK K, KHANDELWAL U, LEVY O, et al. What does bert" look" at?" An" analysis" of" bert's" attention[C]//Proceed[1]ings of the 2019 ACL Workshop Blackbox NLP Analyzing and Interpreting Neural Networks for NLP. Florence: ACL Press, 2019: 276-286.

VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all" you" need[J]." Advances" in" Neural" Information"" Pro[1]cessing Systems, 2017, 30: 5998-6008.

MICHEL" P," LEVY" O," NEUBIG" G.nbsp; Are" sixteen" heads really better than one?[J]. Advances in Neural Information Processing Systems, 2019, 32: 219-234.

李宜儒, 羅健旭. 一種基于師生間注意力的AD診斷模 型[J]. 華東理工大學(xué)學(xué)報(自然科學(xué)版), 2022, 49(3): 1-6.

ADRIANA R, NICOLAS B, SAMIRA E K, et al. FitNets: Hints for thin deep nets[C]//3rd International Conference on Learning" Representations." New" York:" ICLR" Press," 2015: 191-207.

CLARK K, LUONG M T, LE Q V, et al. ELECTRA: Pre[1]training text encoders as discriminators rather than generat[1]ors[C]// 8th" International" Conference" on" Learning" Repres[1]entations. New York: ICLR, 2020: 276-286.

SANH V, DEBUT L, CHAUMOND J, et al. DistilBERT, a distilled" version" of" BERT:" Smaller," faster," cheaper" and lighter[C]//Proceedings of the 2020 Conference on Empiri[1]cal" Methods" in" Natural" Language" Processing" (EMNLP). [s.l.]:" Association" for" Computational" Linguistics" Press, 2022: 7701-7711.

南充市| 江山市| 前郭尔| 当雄县| 乃东县| 石台县| 榆中县| 海宁市| 溆浦县| 江门市| 青田县| 固安县| 鄱阳县| 洱源县| 共和县| 延安市| 灵石县| 闻喜县| 云林县| 湟源县| 韩城市| 洪湖市| 车险| 工布江达县| 扎囊县| 龙海市| 巍山| 三台县| 通河县| 泾川县| 五莲县| 定州市| 江津市| 栾城县| 惠州市| 万全县| 铜鼓县| 兴国县| 厦门市| 锦州市| 太和县|