聯(lián)合知識的融合訓練模型①

2021-08-02 11:08王永鵬周曉磊馬慧敏曹吉龍

計算機系統(tǒng)應(yīng)用 2021年7期

關(guān)鍵詞：語義科室模型

王永鵬,周曉磊,,馬慧敏,曹吉龍

1(中國科學院沈陽計算技術(shù)研究所,沈陽 110168)

2(中國科學院大學,北京 100049)

3(東軟集團股份有限公司,沈陽 110179)

4(中國醫(yī)科大學附屬第四醫(yī)院,沈陽 110032)

線下醫(yī)院排隊時間長,看病慢已經(jīng)是每個患者心中的痛點.現(xiàn)在雖然幾乎每個醫(yī)院都有線上預(yù)約掛號,線下看病,或者線上直接問診等功能但是還需要患者根據(jù)自己的病情特征自己選擇科室,進而找到醫(yī)生,但是這種方式顯示沒有將互聯(lián)網(wǎng)醫(yī)院數(shù)據(jù)得到充分的利用.因而利用深度學習的技術(shù)解決人們快速的線上就診成為急切的問題.

醫(yī)患IM 頁作為最大的流量和服務(wù)入口,其中聊天文本信息覆蓋了疾病名稱、癥狀、藥品名稱等多種命名實體,所以準確的刻畫Query和Context 之間的深度語義相關(guān)性至關(guān)重要,還有不同患者在描述癥狀上字面相差巨大,比如感冒和頭痛、鼻子堵塞、流鼻涕、發(fā)燒、身體發(fā)冷等詞之間的字面意思相差非常大,但是他們卻是和呼吸內(nèi)科是語義相關(guān)的.在這種場景下用戶希望在不同場景下通過輸入文字來獲取自己想要的服務(wù),這就需要一個強大的模型.

這其中有4個痛點:第1個是患者描述病情信息特征稀疏問題,模型很難學習到準確的語義信息.第2個是基于深度Transformer的模型雖然效果好,但是推理速度慢,很難應(yīng)用到實時的生產(chǎn)環(huán)境.第3個是文本醫(yī)患聊天中命名實體信息多而復(fù)雜.第4個是不同患者描述字面信息差別大.為了解決這幾個痛點問題,本文提出了自己設(shè)計搭建的DNNBERT 算法模型.

這樣的設(shè)計靈感來源是用戶的信息特征可能隨時都會橫向增加,來彌補數(shù)據(jù)稀疏問題,例如實現(xiàn)智能分診僅僅依靠患者簡單粗糙的病情描述是比較困難的,還需要考慮患者年齡,性別,歷史疾病等橫向的信息,因此設(shè)計出DNNBERT,其中DNN 部分可以處理用戶附加特征,基于BERT 改進的ALBERT[1]模型可以充分發(fā)揮其強大的語義理解能力,所以DNNBERT,不僅解決了文本向量信息稀疏的問題,還解決了BERT 模型訓練速度慢的問題,將深層Transformer 模型應(yīng)用于生產(chǎn)提供了新思路.

自然語言處理中文本分類問題,最重要的就是文本表示,就是如何提取出文本中原本的語義信息,最早期的二分類學習模型采用one-hot 編碼,僅單純地將文本表示為算法可處理的結(jié)構(gòu)化向量,參數(shù)量也會非常大.CNN 采用共享卷積核方式,優(yōu)化了參數(shù)量,并且深層次的網(wǎng)絡(luò)抽取信息更加豐富,表達效果也更好,但CNN的輸入和輸出都是相互獨立的,并沒有考慮到文本中字前后的序列問題.RNN 引入了“記憶”的概念,引入了時間序列模型,輸出依賴于輸入和“記憶”,RNN 善于學習順序建模任務(wù)但在提取特征的時候不能以并行的方式進行.雙向RNN 采用雙向編碼特征拼接的方式,讓當前的輸出不僅依賴于輸入和之前的序列元素,還依賴于之后的序列元素.深層雙向RNN 在雙向RNN的基礎(chǔ)上改進,在每個時間點設(shè)定多層網(wǎng)絡(luò)結(jié)構(gòu).LSTM[2]與RNN的基本結(jié)構(gòu)相似,區(qū)別是它提出了一種“記憶細胞”的概念,該記的信息會一直傳遞,不該記得會被“門”截斷,解決RNN 遠距離的信息喪失的問題.GRU[3]是LSTM的變種,將忘記門和輸入門合成了一個單一的更新門,混合了細胞狀態(tài)和隱藏狀態(tài)和其他一些改動.它比標準LSTM 更簡單.Word2Vec[4]將文本的表示通過詞向量的表示方法,把文本數(shù)據(jù)從高緯度稀疏的神經(jīng)網(wǎng)絡(luò)難處理的方式,變成了類似圖像、語言的連續(xù)稠密數(shù)據(jù).Google的詞向量文章中涉及的兩個模型CBOW (上下文來預(yù)測當前詞)和Skipgram (當前詞預(yù)測上下文).ELMo[5]來自于語言模型的詞向量表示,也是利用了深度上下文單詞表征,該模型的好處是:(1)能夠處理單詞用法中的復(fù)雜特性(比如句法和語義);(2)這些用法在不同的語言上下文中如何變化(比如為詞的多義性建模).GPT[6]這種模型之所以效果好是因為在每個新單詞產(chǎn)生后,該單詞就被添加在之前生成的單詞序列后面,這個序列會成為模型下一步的新輸入.這種機制叫做自回歸(auto-regression),同時也是令RNN 模型效果拔群的重要思想.而BERT[7]雖然沒有使用自回歸機制,但 BERT 獲得了結(jié)合單詞前后的上下文信息的能力,從而取得了更好的效果.XLNet[8]使用了自回歸,并且引入了一種能夠同時兼顧前后的上下文信息的方法.ALBERT 相比BERT-LARGE,在推理速度上有了巨大的改進,具體的創(chuàng)新部分有3個:(1)將embedding的參數(shù)進行了因式分解;(2)跨層的參數(shù)共享;(3)拋棄了原來的NSP 任務(wù),現(xiàn)在使用SOP 任務(wù).上面這些模型其實在文本分類效果上都具有巨大的意義的提高,但是同時他們都具有超大的參數(shù)量,從而導致在生產(chǎn)應(yīng)用上顯得有些笨重.本文提出的DNNBERT 就是為了解決上述問題.

1 相關(guān)研究工作

本文的研究主要致力于自然語言處理中語義理解方向,研究內(nèi)容為深層Transformer 網(wǎng)絡(luò)結(jié)構(gòu).與RNN相比,Transformer 語義特征提取能力更強,具備長距離特征捕獲能力,基于注意力的深層Transformer 模型[9]的成功啟發(fā)了大量后續(xù)工作.類似于智能分診這樣的短文本(信息稀疏)分類場景下,學術(shù)界也出現(xiàn)了很多優(yōu)秀的研究成果,例如融合更多外部知識的百度ERNIE[10],K-BERT[11].優(yōu)化預(yù)訓練目標的ER-NIE2.0[12],Ro-BERTa[13],SpanBERT[14],StructBERT[15]等.優(yōu)化模型結(jié)構(gòu)或者訓練方式的ALBERT.關(guān)于預(yù)訓練模型的各種后續(xù)工作,可以參考復(fù)旦大學邱錫鵬老師最近的綜述[16].

基于預(yù)訓練好的BERT 模型可以支持多種下游NLP 任務(wù).BERT 在下游任務(wù)中的應(yīng)用主要有兩種方式:即Feature-based和Finetune-based.其中Featurebased 方法將BERT 作為文本編碼器獲取文本表示向量,從而完成文本相似度計算、向量召回等任務(wù).而Finetune-based 方法是在預(yù)訓練模型的基礎(chǔ)上,使用具體任務(wù)的部分訓練數(shù)據(jù)進行訓練,從而針對性地修正預(yù)訓練階段獲得的網(wǎng)絡(luò)參數(shù).該方法更為主流,在大多數(shù)任務(wù)上效果也更好.

由于BERT 家族類模型在NLP 任務(wù)上的顯著優(yōu)勢,一些研究工作開始將BERT 應(yīng)用于復(fù)雜場景的文本分類任務(wù)上.清華大學Qiao 等人[17]詳細對比了Feature-based和Finetune-based 兩種應(yīng)用方式在文本段落排序(passage ranking)中的效果,分析說明了BERT 如何在它的轉(zhuǎn)換層中的查詢文檔詞條之間分配注意力,以及如何在釋義詞條之間選擇語義匹配.滑鐵盧大學Jimmy Lin 團隊[18]針對分類排序任務(wù)提出了基于Pointwise和Pairwise 訓練目標的MonoBERT和DuoBERT 模型.此外,該團隊提出融合基于BERT的Query-Doc 相關(guān)性和Query-Sentence 相關(guān)性來優(yōu)化分類結(jié)果排序任務(wù)的方案.為了優(yōu)化文本分類性能和效果,Bing 廣告團隊提出一種雙塔結(jié)構(gòu)的TwinBERT[19]分別編碼Query和Context 文本.2019年10月,Google在其官方博客中介紹了BERT 在Google 搜索排序場景的應(yīng)用,BERT 強大的語義理解能力改善了約10%的搜索結(jié)果,除了英文網(wǎng)頁,Google 也正在基于BERT優(yōu)化其他語言的搜索結(jié)果.

本文在這些前輩的思想和基礎(chǔ)上,針對醫(yī)患聊天這樣的特定場景,提出了雙塔結(jié)構(gòu)的知識融合模型DNNBERT,它的創(chuàng)新點主要有:可以不斷的橫向?qū)崿F(xiàn)知識融合,在預(yù)訓練階段引入患者大量結(jié)構(gòu)化信息,例如性別,年齡,歷史疾病等標簽信息,彌補Query 文本信息的不足,強化語義匹配效果.極大提高了模型運行的速度,不同于BERT-LARGE,本文在融合模型時選擇了ALBERT 模型和DNN 進行融合,DNNBERT 可以實現(xiàn)相對于BERT-LARGE,速度提升1.7 倍.

2 模型介紹

隨著智能化的發(fā)展,越來越多的患者問診就醫(yī)只想通過一句話描述來快速的匹配到科室就醫(yī)甚至直接獲取自己想要的醫(yī)生,藥品,病情診斷等信息.但是用戶的文本描述是多種多樣的,既有藥品名稱,疾病名稱,病情癥狀名稱,甚至同一種疾病治療還有不同的藥品名,不同的癥狀描述,不同的患者有不同的病情描述.還有患者的基本特征,包括年齡,性別,歷史疾病,最近瀏覽科室、最近瀏覽過的醫(yī)生、最近問診過的科室最近瀏覽過的醫(yī)生、最近一次購藥明細、最近病例描述等特征對于分科室也是至關(guān)重要的.要將這么多維的信息來分類匹配到具體的科室,準確的刻畫數(shù)據(jù)就變得非常重要.本文提出DNNBERT 模型,在特征表示上采用固定長度患者特征拼接患者文本描述的方式進行Embedding.模型網(wǎng)絡(luò)設(shè)計分為兩個網(wǎng)絡(luò),DNN 網(wǎng)絡(luò)負責用戶特征的信息抽取,Transformer 網(wǎng)絡(luò)來學習文本描述.將學習到的結(jié)果拼接鏈接到一個池化層,再用Softmax 進行分類,模型架構(gòu)圖如圖1所示.

圖1 DNNBERT 模型結(jié)構(gòu)圖

從圖1中可以看到,自上而下,從左到右,DNNBERT模型主要由神經(jīng)網(wǎng)絡(luò)和ALBERT 模型兩部分排列進行處理,類似于雙塔并列,所以稱為雙塔結(jié)構(gòu),設(shè)計的初衷是并列的兩個模型根據(jù)自身模型的特點來處理不同特征的文本,DNN 模型對于文本的學習能力強,像性別,年齡這樣的特征數(shù)據(jù)沒有太多的深度語義,所以采用DNN是不錯的選擇,但是患者病情描述文本語義就比較復(fù)雜,需要基于注意力的Transformer來學習其中的語義,所以采用當前效果較好,速度較快的ALBERT,DNN和ALBERT 兩者根據(jù)自身的優(yōu)勢來分別對文本進行學習,最后將DNN和ALBERT 模型學習的結(jié)果進行拼接,從而DNNBERT 輸出的結(jié)果是模型結(jié)合了兩個模型分別學習處理過得高度抽象語義信息,實現(xiàn)了DNN和Transformer 間知識補充和融合.下面分別闡述模型主要模塊的具體實現(xiàn)細節(jié).

2.1 雙塔-DNN 模型設(shè)計

圖1中,從上至下,第2 層左側(cè)的神經(jīng)網(wǎng)絡(luò)模型主要學習患者相關(guān)基本信息,例如:性別(兩種可能2 位進行編碼)、年齡(11 種可能11 位編碼,1 至10 歲為一類,11 至20 歲為一類,一次類推)、最近一次訪問的科室(15 種可能15 位編碼)、最近一次問診的醫(yī)生所屬科室(15 種可能15 位編碼)、對最近一次問診的醫(yī)生的評價(4 種可能4 位編碼),然后進行最大最小歸一化,拼接成feature 總共64 維,作為模型輸入,然后連接DNN 層(共兩個隱藏層:第一個隱藏層64個神經(jīng)元,該層使用ReLU 激活函數(shù);第二個隱藏層128個神經(jīng)元),第三層輸出層為16個神經(jīng)元輸出層為16 維的特征向量,作為DNN 特征提取的結(jié)果將和ALBERT模型的拼接一起作為連接層的輸入.

2.2 雙塔-ALBERT 模型

圖1中,從上至下,第2 層右側(cè)的模型為ALBERT模型,該模型參數(shù)量小,速度快,用于學習患者病情描述文本的語義.

ALBERT 采用了兩種參數(shù)簡化技術(shù),消除了縮放預(yù)先訓練模型的主要障礙.第一種是因子化嵌入?yún)?shù)化.通過將大的詞匯嵌入矩陣分解為兩個小矩陣,我們將隱藏層的大小與詞匯嵌入的大小分開.這種分離使得在不顯著增加詞匯表嵌入的參數(shù)大小的情況下更容易增加隱藏的大小.第二種技術(shù)是跨層參數(shù)共享.該技術(shù)可防止參數(shù)隨網(wǎng)絡(luò)深度的增加而增大.這兩種技術(shù)在不嚴重影響性能的情況下顯著減少了BERT的參數(shù)數(shù)目,從而提高了參數(shù)效率.參數(shù)簡約技術(shù)也可以作為一種正則化的形式來穩(wěn)定訓練并有助于泛化.為了進一步提高ALBERT的性能,我們還引入了一種自監(jiān)督的句子順序預(yù)測損失(SOP).SOP 主要關(guān)注句子間的連貫性,旨在解決原BERT中提出的下一句預(yù)測(NSP)損失的無效性.

2.2.1 BERT 模型

BERT 根據(jù)名稱就可以知道,其核心是基于Transformer 結(jié)構(gòu)的,Transformer是一個端到端訓練的網(wǎng)絡(luò)結(jié)構(gòu),即輸入和輸出均為一個序列,Transformer是一個由Encoder和Decoder 組成的網(wǎng)絡(luò)結(jié)構(gòu),其中最重要的是在RNN的基礎(chǔ)上加入了注意力機制.Encoder 由6個相同的layer 組成.每個layer 由兩個sublayer 組成,分別是multiHead self-attention mechanism和fully connected feedforward network.其中每個sublayer 都加了residual connection和normalization,multiHead attention 則是通過h個不同的線性變換對Q,K,V進行投影,最后將不同的attention 結(jié)果拼接起來.

Transformer中最重要的兩個結(jié)構(gòu)是Encoder和Decoder 結(jié)構(gòu),我們先來看看Encoder 結(jié)構(gòu)的組成部分,如圖2所示.

圖2 Encoder內(nèi)部結(jié)構(gòu)示意圖

如圖2所示,Transformer中沒有采用傳統(tǒng)的CNN和RNN,整個網(wǎng)絡(luò)結(jié)構(gòu)主要是由self-Attenion和feed forward neural network 組成.在經(jīng)典的BERT 模型中,Transformer 結(jié)構(gòu)主要由6 層的Encoded和6 層的Decoder 組成.

輸入是文本的Embedding 表示,并且在輸入的Embedding 上加入了位置信息,將結(jié)果輸入自注意力層進行權(quán)重計算學習,將計算的輸出和自注意力的輸入相加和歸一化操作,采用Attention 機制的原因是考慮到RNN(或者LSTM,GRU 等)的計算限制為是順序的,也就是說RNN 相關(guān)算法只能從左向右依次計算或者從右向左依次計算,這種機制帶來了兩個問題:

時間片t的計算依賴t–1 時刻的計算結(jié)果,這樣限制了模型的并行能力;

順序計算的過程中信息會丟失,盡管LSTM 等門機制的結(jié)構(gòu)一定程度上緩解了長期依賴的問題,但是對于特別長期的依賴現(xiàn)象,LSTM 依舊無能為力.

Transformer的提出解決了上面兩個問題,首先它使用了Attention 機制,將序列中的任意兩個位置之間的距離是縮小為一個常量;其次它不是類似RNN的順序結(jié)構(gòu),因此具有更好的并行性.

再將注意力輸出的結(jié)果接入前饋神經(jīng)網(wǎng)絡(luò),進行學習輸出Embedding.

2.2.2 Attention的計算過程

式中,dk的含義是每個字的Q向量的維度,將Q和K向量的乘積結(jié)果進行Softmax歸一化和Value 向量相乘,這樣計算結(jié)束之后，就得到了每個字的注意力權(quán)重,而后將上式中的每個結(jié)果進行累加,就得到每個字的表示,此時每個字已經(jīng)融入了句子中其他字的信息進去,是一個表達能力非常強的向量表示.

多頭注意力(multi-head attention)是利用多個查詢組成的矩陣Q,來平行地計算從輸入信息中選取多個信息.每個注意力關(guān)注輸入信息的不同部分,然后再進行拼接,這樣就可以從指代消解,位置等不同維度來綜合的識別語義信息,計算公式如下:

在BERT 模型中,多頭數(shù)量是一個超參數(shù),可以進行配置.

2.3 全連接層

如圖1所示,其中全連接層部分主要思路是將上側(cè)DNN和ALBERT 模型的輸出拼接,一方面進行聯(lián)合訓練學習,抽象提取兩部分模型的組合特征;另一方面將上側(cè)兩部分特征進行壓縮,輸出為16 維特征,目的是減少特征維度,提高線上模型的運行性能.該部分DNN 模型共3個隱藏層:第1個隱藏層256個神經(jīng)元(DNN和ALBERT 模型拼接結(jié)果),該層使用ReLU 激活函數(shù);第2個隱藏層128個神經(jīng)元,激活函數(shù)為ReLU;第3個隱藏層64個神經(jīng)元,激活函數(shù)為Softmax,輸出層為16 維分類的結(jié)果.

3 實驗分析

3.1 實驗數(shù)據(jù)

實驗數(shù)據(jù)中主要列舉了科室類以及每個科室類別對應(yīng)的數(shù)據(jù)條數(shù),以及數(shù)據(jù)的分割,分為訓練集、驗證集、測試集3 類.實驗數(shù)據(jù)分布如表1.

表1 實驗數(shù)據(jù)分布表

本文實驗使用的語料庫來自京東互聯(lián)網(wǎng)醫(yī)院的患者就診數(shù)據(jù),此次實驗數(shù)據(jù)總條數(shù)約為73 萬條,科室分類數(shù)為15個類別,分別為內(nèi)科,外科,婦產(chǎn)科,兒科,精神心理科,腫瘤科,中醫(yī)科,骨科,眼科,皮膚性病科,耳鼻喉頭頸外科,口腔科,男科,整形美容科,其他科.本次實驗將總數(shù)按照8:2的比例分為訓練集,測試集.對模型迭代10000 次進行訓練學習.并且在模型學習完畢后,將數(shù)據(jù)隨機打散分為五份數(shù)據(jù),分別在A、B、C、D、E 五份樣本數(shù)據(jù)的基礎(chǔ)上和TextCNN[20]、TextCNN_Att、FastText[21]、BERT-LARGE、ALBERT 等BERT 家族的模型進行了對比,實驗證明,基于聯(lián)合訓練的模型DNNBERT,要比其他模型更容易學習到語義信息,總體準確性更好.

3.2 評價指標

在進行模型評價的時候,作者采用的是F1 Score,因為它更加能反映出模型的健穩(wěn)性,它被定義為模型精度和召回率的調(diào)和平均值,因此,如果你想在精確度和召回率之間尋求平衡,F1 Score是一個更好的衡量標準.

在分類問題中,我們都會用到混淆矩陣[22]來計算和評估模型的性能,如表2所示.

表2 分類結(jié)果的混淆矩陣

1)精確度.精確度給出了所有預(yù)測為正的結(jié)果中正確識別為正例的分數(shù):

2)召回率.召回率給出模型正確識別為正例的分數(shù):

3)F1,可以理解為模型在召回和精準率之間做了調(diào)和平均:

因此,為了想在精確度和召回率之間尋求平衡的評價指標,F1 分數(shù)是一個更好的衡量標準.

3.3 實驗過程

本次實驗為了對比DNNBERT 模型的優(yōu)劣性,分別和TextCNN,TextCNN_Att,ALBERT,FastText,BERT-LARGE,幾種模型進行了對比,表3是DNNBERT模型的參數(shù)設(shè)置.

表3 DNNBERT 模型參數(shù)設(shè)置

表3中hidden_ dropout_prob 表示隱層dropout 率,hidden_size 表示隱藏層神經(jīng)元數(shù),num_hidden_layers 表示Transformer encoder中的隱藏層數(shù),num_attenti on_heads 表示multi-head attention的head 數(shù) intermediate_size 表示ALBERT encoder的中間隱層神經(jīng)元數(shù)(例如feed-forward layer),hidd -en_act:隱藏層所采用的激活函數(shù),embedding _ize 表示輸入向量的大小,短補長切.

實驗采用的機器參數(shù)Linux 系統(tǒng),CPU 核數(shù)為8 核,內(nèi)存大小為40 GB,一張GPU 卡,batchSize 表示訓練時每批數(shù)據(jù)的數(shù)量,每批次數(shù)據(jù)量為1000 條,epoch 表示迭代訓練的次數(shù),訓練10000 次,learning_rate 學習率表示模型學習的準確率.

3.4 實驗結(jié)果

本文先后做了5 組實驗,分別為A 組、B 組、C 組、D 組、E 組.在進行模型對比實驗時,DNNBERT,TextCNN_Att,ALBERT,TextCNN,FastText 等5個模型的參數(shù)不變,A,B,C,D,E 五組的數(shù)據(jù)也不變,評價指標主要采用了綜合精確率和召回率的F1 值進行對模型進度評估,在相同實驗環(huán)境下,5 組實驗F1 Score精度對比結(jié)果如表4所示.

圖3是對應(yīng)的表4數(shù)據(jù)的可視化,即每個模型在每組實驗數(shù)據(jù)集上的F1 Score的可視化展示.

表4 模型精度對比表

我們選擇選擇的模型評價標準為F1 Score,橫坐標1,2,3,4,5 分別表示5 組實驗,縱坐標分別表示模型的F1 值,范圍從0 到1,從圖3中可以得出以下結(jié)論.

圖3 模型精度對比圖

(1)模型的精度隨著訓練數(shù)據(jù)量的增加而正比提高,在第一次實驗中,可以觀察到模型的精度層次不齊,隨著后面多次實驗,精度逐漸趨于穩(wěn)定.

(2)DNNBERT 模型隨著訓練次數(shù)的增加,效果相比其他對比模型,精度領(lǐng)先于其他模型.

(3)在經(jīng)過5 次實驗之后,DNNBERT 模型的精度最高,其次是TextCNN_Att 模型,即DNNBERT 相比TextCNN_Att,精度提高了0.12,分數(shù)最低的是FastText模型,F1 值為0.67,DNNBERT 相比FastText,精度提高了0.23.

綜上,我們可以得出結(jié)論,本文提出的聯(lián)合知識的融合訓練模型,在處理短文本分類場景時,十分具有優(yōu)越性,同時也說明了集成訓練模型的優(yōu)越性,成為了只能分診場景最優(yōu)的解決方案.

4 結(jié)論與展望

本文在解決中文短文本分類的問題中,提出了一種基于ALBERT 模型和DNN 網(wǎng)絡(luò)的雙塔模型的知識融合訓練模型DNNBERT,并與TextCNN,ALBERT,TextCNN_Att,FastText 模型進行對比,先后做了A 組、B 組、C 組、D 組、E 組5 組實驗,對比實驗時的測試數(shù)據(jù)量是總數(shù)據(jù)的1/5.5 組實驗測試數(shù)據(jù)總數(shù)為73823,平均分為5 組,每組14764 條.實驗結(jié)果表明,融合知識的聯(lián)合訓練模型DNNBERT 模型在科室分類中效果好于CNN (TextCNN,TextCNN_Att,FastText)和ALBERT.下一步將對模型中文本編碼的長度與神經(jīng)網(wǎng)絡(luò)隱藏層的個數(shù)和預(yù)測結(jié)果間的關(guān)系進行研究,來找出最優(yōu)的模型參數(shù),并且也會讓模型不斷的融合更多的外部知識,提高模型的泛化性.除了模型的精度提升之外,還會在模型的速度方面去提升,后期希望引入蒸餾,剪枝等技術(shù)將自己的模型不但從精度方面提升到最強,也希望訓練的速度足夠快,從而可以適用于工業(yè)生產(chǎn).

致謝

特別感謝京東健康提供實驗所需相關(guān)的數(shù)據(jù),感謝公司領(lǐng)導的大力支持.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡