国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于對(duì)抗訓(xùn)練的中文電子病歷命名實(shí)體識(shí)別

2022-05-11 05:47孔令巍朱艷輝歐陽康黃雅淋金書川沈加銳
關(guān)鍵詞:病歷梯度向量

孔令巍 ,朱艷輝 ,張 旭 ,歐陽康 ,黃雅淋,金書川 ,沈加銳

(1.湖南工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,湖南 株洲 412007;2.湖南省智能信息感知及處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,湖南 株洲 412007)

1 研究綜述

近年來,人工智能的相關(guān)技術(shù)發(fā)展迅速,現(xiàn)已在不同領(lǐng)域中得到了廣泛應(yīng)用。如在醫(yī)療領(lǐng)域中,電子病歷(electronic medical record,EMR)的普及化為疾病的診斷與治療、病歷信息的管理等提供了有效支持。電子病歷是由記錄病人的全部就診檔案所形成的文字、數(shù)據(jù)、醫(yī)療圖像、圖表等一切資料的總和,它具有簡(jiǎn)便性、快捷性、環(huán)保性等優(yōu)點(diǎn)。電子病歷不僅能方便醫(yī)務(wù)人員了解患者疾病的發(fā)生、檢查、診斷、治療等醫(yī)療活動(dòng),還能在疾病預(yù)防等方面發(fā)揮巨大的作用[1-2]。但是當(dāng)前的電子病歷文本大部分是以非結(jié)構(gòu)化的形式存儲(chǔ),因而如何快速?gòu)碾娮硬v中提取所需要的信息,是命名實(shí)體識(shí)別(named entity recognition,NER)技術(shù)在電子病歷文本分析中的重要應(yīng)用。

命名實(shí)體識(shí)別任務(wù),是指從非結(jié)構(gòu)化的文本中識(shí)別出蘊(yùn)含具體涵義的實(shí)體,例如電子病歷中的疾病和診斷、檢查、藥物以及手術(shù)部位等,并將之劃分到預(yù)定義的類別中。關(guān)于在命名實(shí)體識(shí)別任務(wù)中出現(xiàn)的問題,研究者們也曾開展過廣泛的研究。R.Panchendrarajan 等[3]提出了一種包含雙向LSTM(bidirectional long short-term memory ,BiLSTM)和雙向條件隨機(jī)場(chǎng)(bi-directional conditional random fields,Bi-CRF)的神經(jīng)網(wǎng)絡(luò),其利用單詞和字符級(jí)別的信息,以及相鄰標(biāo)簽之間的依賴關(guān)系進(jìn)行命名實(shí)體識(shí)別,該模型在多個(gè)數(shù)據(jù)集上被證明是有效的,但是它存在實(shí)體邊界檢測(cè)不清晰的問題。王若佳等[4]將Bi-LSTM模型應(yīng)用到中文電子病歷上,并在詞的不同標(biāo)注方案下進(jìn)行了實(shí)驗(yàn)對(duì)比,取得了不錯(cuò)的實(shí)驗(yàn)效果,但是其模型存在魯棒性不高的缺點(diǎn)。李綱等[5]通過結(jié)合Word2Vec和外部的詞典資源,對(duì)輸入的詞嵌入進(jìn)行了更改,并通過Bi-LSTM-CRF模型,在電子病歷的數(shù)據(jù)集中也取得了較高的F1值,但是其數(shù)據(jù)集存在實(shí)體類別不均衡、模型魯棒性較差等缺點(diǎn)。楊文明等[6]提出了加入獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(indenpendnetly recurrent neural network,IndRNN)的IndRNN-CRF模型和加入膨脹卷積(dilated convolution,DC)的IDCNN-BiLSTM-CRF模型,并通過在線醫(yī)療文本進(jìn)行了命名實(shí)體識(shí)別,發(fā)現(xiàn)該模型的整體性能都優(yōu)于BiLSTM-CRF模型的。張旭等[7]將SoftLexicon與BiLSTM-CRF相結(jié)合,以引入外部詞典資源方法對(duì)電子病歷進(jìn)行命名實(shí)體識(shí)別,實(shí)驗(yàn)結(jié)果表明,相較于NER傳統(tǒng)方法,所提出的方法在識(shí)別性能和效率上均顯著提升。2018年,谷歌[8]發(fā)布了一種新的語言表示模型BERT(bidirectional encoder representation from transformers),它將自然語言任務(wù)的處理結(jié)果推上了更高的階段。此后,Jia C.等[9]提出了一種半監(jiān)督實(shí)體增強(qiáng)的BERT預(yù)訓(xùn)練方法,此方法將詞典整合到NER的預(yù)訓(xùn)練中。CCKS2020評(píng)測(cè)中,晏陽天等[10]通過將BERT與字形字音特征相融合,完成了對(duì)電子病歷的命名實(shí)體識(shí)別。楊文明等[11]通過將ChiEHRBERT與多個(gè)不同模型進(jìn)行投票融合,在醫(yī)學(xué)領(lǐng)域的命名實(shí)體識(shí)別上取得了不錯(cuò)的成績(jī)。

但在上述研究中,詞嵌入層均存在實(shí)體邊界檢測(cè)不清晰的問題,即位于邊界旁側(cè)的樣本比遠(yuǎn)離邊界的樣本更加容易出現(xiàn)識(shí)別錯(cuò)誤,從而影響模型的實(shí)體識(shí)別性能,同時(shí),模型的預(yù)測(cè)能力以及魯棒性能均不強(qiáng)。為了解決上述問題,本研究提出將對(duì)抗訓(xùn)練融合到BERT-BiLSTM-CRF模型中進(jìn)行命名實(shí)體識(shí)別。

對(duì)抗訓(xùn)練是新興起的一門技術(shù),由于早期在自然語言任務(wù)上難以有效生成對(duì)抗樣本,所以多數(shù)被應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域中。近年來,隨著對(duì)抗樣本相關(guān)問題的解決,對(duì)抗訓(xùn)練在自然語言的各個(gè)方面都漸有成效。C.Szegedy等[12]首次提出對(duì)抗樣本(adversarial examples)的概念,旨在數(shù)據(jù)集中添加一些細(xì)微的干擾,從而形成對(duì)抗樣本。I.J.Goodfellow等[13]設(shè)計(jì)了一種快速生成對(duì)抗樣本的方法(fast gradient sign method,F(xiàn)GSM),該方法簡(jiǎn)單可行,并且可以利用該攻擊方法產(chǎn)生的對(duì)抗樣本再次進(jìn)行對(duì)抗訓(xùn)練,它系統(tǒng)地闡釋了對(duì)抗樣本的存在性、攻擊性、防御方法3個(gè)方面,該方法之后被廣泛應(yīng)用于各領(lǐng)域中。Zhang H.Z.等[14]提出MHA(master high availability)算法,它基于Metropolis-Hastings算法的采樣法來生成對(duì)抗樣本。T.Miyato等[15]又在FGSM的計(jì)算擾動(dòng)部分做了一些修改,并根據(jù)具體的梯度進(jìn)行標(biāo)準(zhǔn)化,從而得到了更好的對(duì)抗樣本,但存在其實(shí)驗(yàn)所花費(fèi)的時(shí)間會(huì)大幅度增加的缺點(diǎn);A.Madry等[16]提出了PGD(projected gradient descent)模型,該模型通過多次迭代,以“小步走,走多次”的策略找到最優(yōu)擾動(dòng)。董哲等[17]融合了BERT和對(duì)抗訓(xùn)練,從而在食品領(lǐng)域進(jìn)行命名實(shí)體識(shí)別,提高了識(shí)別實(shí)體邊界的精準(zhǔn)率。

本研究擬將對(duì)抗訓(xùn)練融合到BERT-BiLSTM-CRF模型中,并通過對(duì)抗訓(xùn)練,在詞嵌入層加入擾動(dòng)因子,生成的對(duì)抗樣本可以增強(qiáng)模型的抗干擾能力,從而提高模型的魯棒性和預(yù)測(cè)能力,解決了模型中魯棒性不強(qiáng)的問題。

2 基于對(duì)抗訓(xùn)練的中文電子病歷實(shí)體識(shí)別模型

2.1 基于對(duì)抗訓(xùn)練的實(shí)體識(shí)別模型

本研究基于對(duì)抗訓(xùn)練的模型結(jié)構(gòu)由Embedding層、BiLSTM層和CRF層3部分組成,如圖1所示。中文電子病歷數(shù)據(jù)在進(jìn)入深度學(xué)習(xí)模型之前,先將分字后的文本經(jīng)預(yù)訓(xùn)練語言模型BERT轉(zhuǎn)換為對(duì)應(yīng)的字向量表示。以圖1中的“膽囊多發(fā)結(jié)石”為例,其中每個(gè)字都被處理為字向量,然后將對(duì)抗訓(xùn)練的擾動(dòng)因子與字向量相加得到對(duì)抗樣本,并將對(duì)抗樣本送到BiLSTM神經(jīng)網(wǎng)絡(luò)中。經(jīng)前向傳播和反向傳播獲取序列的特征,隨后通過CRF層學(xué)習(xí)序列標(biāo)簽的約束信息,最后得到正確的序列標(biāo)簽。

圖1 基于對(duì)抗訓(xùn)練的模型結(jié)構(gòu)Fig.1 Model structure based on adversarial training

圖1中,“[CLS]膽囊多發(fā)結(jié)石[SEP]”為輸入的文本序列,Ei(i=1~8)為輸入離散的字轉(zhuǎn)換為連續(xù)的字向量表示,ri(i=1~8)為字向量層的擾動(dòng)。

2.2 BERT模型

BERT是基于深度學(xué)習(xí)的網(wǎng)絡(luò)架構(gòu),它通過預(yù)訓(xùn)練,從大量文本中獲取了語義和語法的基礎(chǔ)知識(shí),解決了自然語言處理任務(wù)中詞與詞之間顆粒度不同、指代現(xiàn)象,以及詞的理解依賴于上下文等問題。其中,BERT模型創(chuàng)新性地給出了MLM(masked language model)和NSP(next sentence prediction)2個(gè)任務(wù),各自捕獲詞級(jí)別和句級(jí)別的表達(dá),并進(jìn)行聯(lián)合訓(xùn)練。MLM主要用于訓(xùn)練深度雙向語言的表示向量,方法為遮住句子中的某些詞匯,讓解碼器預(yù)測(cè)此單詞的原始詞匯。NSP是指通過預(yù)訓(xùn)練一個(gè)二分類的語句模塊來學(xué)習(xí)語句之間的關(guān)聯(lián),具體是讓模型學(xué)習(xí)區(qū)分訓(xùn)練語句中的兩個(gè)輸入語句之間是否為連續(xù)片段。本研究中建立的BERT預(yù)訓(xùn)練語言模型的網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示。

圖2 BERT預(yù)訓(xùn)練語言模型的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of BERT pre-training language model

BERT預(yù)訓(xùn)練語言的輸入是電子病歷中的每一個(gè)字符,而輸出則是每個(gè)字符所對(duì)應(yīng)的特征向量。特征向量由字向量、句子的切分向量和位置向量相加得出。模型的輸入如圖3所示,第一個(gè)位置的符號(hào)[CLS]和最后一個(gè)位置的符號(hào)[SEP]分別代表輸入序列的開始位置和結(jié)束位置。例如輸入的文本是“病人患有膽結(jié)石”,經(jīng)標(biāo)記處理就變成“[CLS]病人患有膽結(jié)石[SEP]”,這兩個(gè)特殊字符將在分類和劃分句子中起到作用。

圖3 BERT模型輸入示例Fig.3 BERT model input samples

在BERT中,字嵌入層是將每個(gè)字轉(zhuǎn)化為768維的向量表示,并且文本在輸入到字嵌入層之前,會(huì)進(jìn)行標(biāo)記化處理,即在文本的開頭和結(jié)尾處插入兩個(gè)特殊的標(biāo)記——[CLS]和[SEP],分字后的文本通過字嵌入層轉(zhuǎn)換為對(duì)應(yīng)的向量表示。切分嵌入層主要用來區(qū)別兩種句子,即判斷兩個(gè)句子的先后順序,前一個(gè)句子的標(biāo)記都用A表示,后一個(gè)句子的標(biāo)記都用B表示。位置嵌入層則是用來對(duì)序列中的每個(gè)標(biāo)記進(jìn)行編號(hào),用以記錄每個(gè)標(biāo)記的位置信息,同時(shí)每個(gè)編號(hào)都對(duì)應(yīng)一個(gè)向量。在BERT的一條序列語句中,如果其長(zhǎng)度被設(shè)置為512,那么位置嵌入層的向量表示為(512,768),位置向量的計(jì)算公式如式(1)和式(2)所示。最后,將這3個(gè)嵌入層相加,即可以得到其特征向量。

式(1)(2)中:i為電子病歷中字的維度;

pos為字所在位置;

dmodel為編碼后的向量維度。

本文選用BERT來獲取輸入向量表示而非傳統(tǒng)Word2VEC的原因,在于BERT提高了詞與詞之間的聯(lián)系性和表達(dá)性,在Word2VEC中,詞向量的表達(dá)是靜態(tài)的,即一個(gè)詞無論在何種上下文環(huán)境中,它的向量表示都是相同的。而由于BERT的向量表示中包含了關(guān)于周圍詞的信息,在截然不同的上下文環(huán)境中,對(duì)這個(gè)詞向量的表示方式也是截然不同的,即是動(dòng)態(tài)的。因此,BERT為進(jìn)行對(duì)抗訓(xùn)練提供了更加全面的詞向量表達(dá)。

2.3 對(duì)抗訓(xùn)練

對(duì)抗訓(xùn)練(adversarial training)是一種引入噪聲的規(guī)范化監(jiān)督學(xué)習(xí)方法,用于提高分類器對(duì)于樣本數(shù)量小或者有損壞情況的樣本魯棒性。該方法通過在嵌入層的字向量中添加一些較小的干擾,而不是在對(duì)原始輸入的樣本本身加以干擾,將獲得的對(duì)抗樣本再饋送給模型。對(duì)抗訓(xùn)練也可以認(rèn)為是在加入擾動(dòng)后的對(duì)抗樣本下,預(yù)測(cè)出真實(shí)標(biāo)簽的概率,對(duì)抗訓(xùn)練的定義可簡(jiǎn)化為如下公式 :

式中:y為真實(shí)標(biāo)簽;

x為原始樣本;

Δx為添加的擾動(dòng);

θ為模型參數(shù);

p為增加擾動(dòng)后預(yù)測(cè)真實(shí)標(biāo)簽的概率。

在實(shí)驗(yàn)中,醫(yī)療文本“膽囊多發(fā)結(jié)石,入院予以治療”,經(jīng)過BERT預(yù)訓(xùn)練語言模型生成對(duì)應(yīng)的字向量,然后根據(jù)字向量、字向量對(duì)應(yīng)標(biāo)簽及模型參數(shù)計(jì)算出擾動(dòng)值,將擾動(dòng)值與字向量相加即可得到對(duì)抗樣本。其中,常見的擾動(dòng)計(jì)算方法有兩種,其一為FGM(fast sign method)法,具體思路以輸入序列的嵌入向量x=[v1,v2, …,vt](式中v為字向量,t為字的位置下標(biāo))為例,首先復(fù)制預(yù)訓(xùn)練階段的詞向量字典,計(jì)算出x的梯度,并且根據(jù)梯度作標(biāo)準(zhǔn)化處理得到擾動(dòng)值Δx,擾動(dòng)值的計(jì)算公式如式(4)所示;隨后將得到的擾動(dòng)值與x相加,用新的詞向量重新求出其梯度,并累加到原梯度上,然后根據(jù)此時(shí)的梯度對(duì)參數(shù)進(jìn)行更新。

式中:ε為一個(gè)縮放因子;

g為損失函數(shù)關(guān)于x的偏導(dǎo),即梯度,且

其中,L(x,y,θ)為損失函數(shù)。

2.3.1 FGM算法描述

對(duì)于數(shù)據(jù)集中的x:

1)計(jì)算x的前向損失、反向傳播得到梯度;

2)通過embedding矩陣的梯度算出Δx,并加在當(dāng)前embedding上,結(jié)果相當(dāng)于是x+Δx;

3)計(jì)算x+Δx的前向損失,反向傳播得到對(duì)抗的梯度,累加到1)的梯度上;

4)將embedding恢復(fù)為1)時(shí)的值,并根據(jù)3)的梯度對(duì)參數(shù)進(jìn)行更新;

5)重復(fù)以上過程,直到模型訓(xùn)練全部完成。

FGM的思路是梯度上升,但是由于它的跨步大,有可能無法找到約束內(nèi)的最優(yōu)點(diǎn);相較于FGM來說,PGD進(jìn)行數(shù)次迭代,運(yùn)用“小步走”的策略,從而找到最優(yōu)解。PGD的擾動(dòng)值計(jì)算公式如式(6)和式(7)所示。

式(6)(7)中:

α為步長(zhǎng);

xt、xt+1分別為前一次和后一次的詞向量。

2.3.2 PGD算法描述

1)對(duì)于數(shù)據(jù)集中的x,通過計(jì)算x的前向損失以及反方向傳播,獲得梯度并備份;

2)對(duì)于每步k,通過embedding矩陣的梯度計(jì)算出Δx,并且加到當(dāng)前的embedding上,就相當(dāng)于x+Δx;

3)如果k不是最后一步,則將梯度歸零,根據(jù)1)的x+Δx計(jì)算前向和后向的梯度;

4)如果k是最后一步,則恢復(fù)1)的所有梯度,計(jì)算最后的x+Δx,并把所有梯度累加到1)上;

5)將embedding恢復(fù)為1)時(shí)的值,并根據(jù)4)的梯度對(duì)參數(shù)進(jìn)行更新;

6)重復(fù)以上過程,直到模型訓(xùn)練全部完成。

2.4 BiLSTM網(wǎng)絡(luò)

LSTM(long short-term memory)模型是一種RNN(recurrent neural network)模型,它是對(duì)Simple RNN的改進(jìn),同時(shí)LSTM模型通過門控制單元避免了梯度爆炸。相比RNN來說,LSTM對(duì)于輸入中長(zhǎng)期依賴的信息擁有更優(yōu)秀的表達(dá),單個(gè)LSTM神經(jīng)元及其運(yùn)行機(jī)制如圖4所示。

美國(guó)學(xué)者Tamanaha在闡述法治的作用時(shí)說:“法治不是有關(guān)人民寄希望于政府的任何美好事物。對(duì)它作這種解讀的終極誘惑是法治具有象征性力量的實(shí)際證明,但我們不能沉迷于它?!盵16]對(duì)“法不禁止皆自由”這條奉為圭臬的法治原則亦應(yīng)當(dāng)辯證地看待,缺乏法律邊界的自治并非解決任何問題的靈丹妙藥。政府對(duì)網(wǎng)約車的管理正體現(xiàn)了自由狀態(tài)下的適度管制,網(wǎng)約車管理領(lǐng)域適用負(fù)面清單模式并非完全照搬,也需要因地制宜、適度修正。

圖4 LSTM內(nèi)部結(jié)構(gòu)示意圖Fig.4 LSTM internal structure diagram

LSTM模型的遺忘門、輸入門、輸出門,以及隱藏狀態(tài)的計(jì)算公式分別如下:

式(8)~(12)中:xt為t時(shí)刻的輸入;

ht-1為t-1時(shí)刻的隱藏層狀態(tài)值;

Wf、Wi、Wo、Wa分別為遺忘門、輸入門、輸出門以及在特征提取過程中ht-1的權(quán)重系數(shù);

Uf、Ui、Uo、Ua分別為遺忘門、輸入門、輸出門以及在特征提取過程中xt的權(quán)重系數(shù);

bf、bi、bo和ba分別為遺忘門、輸入門、輸出門以及在特征提取過程中的偏置值;

由于遺忘門和輸入門計(jì)算的結(jié)果作用于c(t-1),構(gòu)成t時(shí)刻的細(xì)胞狀態(tài)c(t)表示為

最終t時(shí)刻的隱藏層狀態(tài)h(t),可由輸出門o(t)和當(dāng)前時(shí)刻的細(xì)胞狀態(tài)c(t)求出:

由于LSTM只能保留處理過的信息,但是在序列標(biāo)注任務(wù)中,上下文的信息同樣重要,于是提出在原本的模型結(jié)構(gòu)上再加上一層反向的LSTM,從而組成BiLSTM,如此,便可以對(duì)上下文同時(shí)進(jìn)行信息處理。在本實(shí)驗(yàn)中,經(jīng)Embedding層得到的對(duì)抗樣本分別以正序和逆序方式被注入到LSTM中,然后將兩個(gè)輸出的特征向量加以拼接,作為最后的特征向量表達(dá)式。

2.5 CRF層

在本實(shí)驗(yàn)中,BiLSTM層輸出的特征向量經(jīng)由CRF層確定最終的輸出標(biāo)簽,即“膽:B-PAT”、“囊:I-PAT”、“多:O”等。CRF層相較于BiLSTM層,不僅能確保輸出標(biāo)簽之間的關(guān)系,而且會(huì)在標(biāo)簽之間創(chuàng)造規(guī)則,起到了約束作用。對(duì)于每一個(gè)序列的輸入x,得到了預(yù)測(cè)標(biāo)簽序列y,定義預(yù)測(cè)得分函數(shù)S的表達(dá)式如下:

此函數(shù)有效彌補(bǔ)了BiLSTM的不足,對(duì)標(biāo)簽之間的關(guān)系起到約束作用,如在一個(gè)以人名為實(shí)體的例子中,I-Person不能存在于B-person前。隨后對(duì)每個(gè)訓(xùn)練樣本X,求出代表每個(gè)可能性的標(biāo)注序列y的分?jǐn)?shù)S,并且對(duì)每個(gè)分?jǐn)?shù)進(jìn)行歸一化處理,公式如式(15)所示:

式中:y為正確的標(biāo)注序列;

YX為所有出現(xiàn)的標(biāo)簽序列。

然后,利用對(duì)數(shù)似然法求出它的損失函數(shù):

隨后,用梯度下降法進(jìn)行網(wǎng)絡(luò)學(xué)習(xí),更新參數(shù),直到訓(xùn)練結(jié)束。

預(yù)測(cè)時(shí),通過訓(xùn)練好的參數(shù)求出每個(gè)可能的y序列所對(duì)應(yīng)的S得分,本文在此處采用維特比算法,算出最高概率標(biāo)簽序列y*。

3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

3.1 中文電子病歷數(shù)據(jù)集

為了能更加全面地評(píng)估本文中對(duì)抗訓(xùn)練模型的效果,在兩個(gè)數(shù)據(jù)集上對(duì)模型進(jìn)行相關(guān)實(shí)驗(yàn)。其一為CCKS2021面向中文電子病歷的醫(yī)療實(shí)體以及事件抽中任務(wù)一的數(shù)據(jù)集,以下簡(jiǎn)稱為數(shù)據(jù)集1 ;另一個(gè)數(shù)據(jù)集同樣為醫(yī)療電子病歷數(shù)據(jù),不同的是,相比于數(shù)據(jù)集1,其中“疾病和診斷”與“解剖部位”兩類數(shù)據(jù)略多于其它4類數(shù)據(jù),此數(shù)據(jù)集各類別的數(shù)據(jù)分布更加均勻,以下簡(jiǎn)稱為數(shù)據(jù)集2。CCKS(China Conference on Knowledge Graph and Semantic Computing)評(píng)測(cè)目的是為了建立檢測(cè)知識(shí)圖譜與語義計(jì)算相關(guān)技術(shù),以及軟件系統(tǒng)的網(wǎng)絡(luò)平臺(tái)與信息資源,而本次CCKS2021的實(shí)體識(shí)別任務(wù)是環(huán)繞中文電子病歷語義化展開的系列評(píng)測(cè)的一種擴(kuò)展,它是在CCKS2020評(píng)測(cè)任務(wù)的基石上做出的繼續(xù)與擴(kuò)充。數(shù)據(jù)集1具體標(biāo)注有實(shí)體的起始位置和終止位置,以及預(yù)定義類別,其類別依次為疾病和診斷、檢查、檢驗(yàn)、手術(shù)、藥物、解剖部位等6種,具體的類別定義參考表1。

表1 CCKS2021預(yù)定義實(shí)體類型Tabel 1 CCKS2021 predefined entity categories

數(shù)據(jù)的標(biāo)注方法為BIO 三位標(biāo)注法,即B-X代表實(shí)體的開頭,I-X代表實(shí)體的結(jié)尾,O代表不屬于任何類型的非實(shí)體。數(shù)據(jù)集1有1 500條數(shù)據(jù),數(shù)據(jù)集2與數(shù)據(jù)集1的標(biāo)注方法以及預(yù)定義類別相似,共有1 300條數(shù)據(jù)。將各數(shù)據(jù)集中的數(shù)據(jù)按照6∶2∶2的比例,劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,具體的劃分情況參見表2。

表2 實(shí)驗(yàn)數(shù)據(jù)集的劃分Table 2 Experimental data division

3.2 評(píng)價(jià)指標(biāo)

此次實(shí)驗(yàn)采用精確率P(precision)、召回率R(recall)和F1值為主要評(píng)價(jià)指標(biāo)。精確率又稱查準(zhǔn)率,是指實(shí)際預(yù)測(cè)正確的標(biāo)簽數(shù)量占全部預(yù)測(cè)正確標(biāo)簽的比率;召回率又稱查全率,是指實(shí)際預(yù)測(cè)正確標(biāo)簽占全部正確標(biāo)簽的比率;F1值則是精確率與召回率之間的調(diào)和平均值。各指標(biāo)的計(jì)算公式如(18)~(20)所示。

式(18)~(20)中:

TP為序列中實(shí)際預(yù)測(cè)正確的標(biāo)簽;

FP為實(shí)體為非正確標(biāo)簽卻被預(yù)測(cè)為正確的標(biāo)簽;

FN為實(shí)體為正確標(biāo)簽卻被預(yù)測(cè)為非正確的標(biāo)簽。

3.3 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

本次實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為Ubuntu 16.04 LTS,CPU i7-10750H@2.60 GHz,內(nèi) 存 為8 GB,GPU NVIDIA Geforce RTX2080Ti,Python3.8,Pytorch1.6.0+cu101。

本次實(shí)驗(yàn)的參數(shù)設(shè)置如下: BiLSTM隱藏層單元數(shù)為768,Batch_size為8,學(xué)習(xí)率設(shè)置為0.000 1,Epoch為40。

3.4 實(shí)驗(yàn)方案

為了驗(yàn)證對(duì)抗訓(xùn)練在中文電子病歷上命名實(shí)體識(shí)別的表現(xiàn),將BERT-BiLSTM-CRF、BERT-FGMBiLSTM-CRF、BERT-PGD-BiLSTM-CRF模型分別在數(shù)據(jù)集1和數(shù)據(jù)集2上進(jìn)行實(shí)驗(yàn),具體實(shí)驗(yàn)步驟如表3所示。

表3 實(shí)驗(yàn)設(shè)計(jì)方案Table 3 Experimental design scheme

3.5 實(shí)驗(yàn)結(jié)果與分析

根據(jù)上述實(shí)驗(yàn)方案,得到的各實(shí)驗(yàn)方法下的數(shù)據(jù)集識(shí)別結(jié)果如表4所示。

表4 實(shí)驗(yàn)結(jié)果對(duì)比Table 4 Comparison of experimental results %

分析表4中的實(shí)驗(yàn)數(shù)據(jù)可以得知,相對(duì)于基線模型BERT-BiLSTM-CRF,基于對(duì)抗訓(xùn)練的BERTFGM-BiLSTM-CRF模型和BERT-PGD-BiLSTM-CRF模型,它們?cè)趦蓚€(gè)數(shù)據(jù)集上的實(shí)體識(shí)別效果、識(shí)別精度均有不同程度的提升,其中加入FGM的實(shí)體識(shí)別模型,其F1值在兩個(gè)數(shù)據(jù)集上分別提升了約0.86%和0.62%;而加入PGD方法的實(shí)體識(shí)別模型,其F1值在兩個(gè)數(shù)據(jù)集上分別提升了約1.05%和0.93%,由此可見,加入了PGD法的模型的識(shí)別效果要略優(yōu)于加入FGM法的模型。究其原因,很可能是由于這兩種對(duì)抗訓(xùn)練迭代攻擊的次數(shù)不同,F(xiàn)GM只進(jìn)行了一次迭代,而PGD是一種迭代攻擊的方法,它進(jìn)行了多次迭代,并且每次迭代都將擾動(dòng)投射到規(guī)定范圍內(nèi),從而造成了結(jié)果上的差異。

加入了FGM法和PGD法的模型在面對(duì)輸入數(shù)據(jù)的微小變動(dòng)時(shí),依然能夠保持高精度的識(shí)別效果,而且本文模型不只在一個(gè)特定的數(shù)據(jù)集上保持良好的識(shí)別效果,對(duì)于新數(shù)據(jù),它依然能夠保持敏感性,說明加入對(duì)抗訓(xùn)練的模型在面對(duì)數(shù)據(jù)變化時(shí)依然能夠保持其穩(wěn)定性及魯棒性。

綜上所述,加入對(duì)抗訓(xùn)練的模型能夠提升命名實(shí)體識(shí)別在中文電子病歷上的準(zhǔn)確性以及模型的穩(wěn)定性,同時(shí)對(duì)于實(shí)體標(biāo)簽的預(yù)測(cè)能力也相應(yīng)提高。

4 結(jié)語

為了進(jìn)一步提高命名實(shí)體識(shí)別在中文電子病歷上的精確率,本文提出了加入FGM和PGD對(duì)抗訓(xùn)練方法的命名實(shí)體識(shí)別模型,該方法在中文電子病歷評(píng)測(cè)任務(wù)中達(dá)到了良好的成效。但是中文電子病歷的命名實(shí)體識(shí)別尚有較大的改善空間,在后續(xù)研究中可從如下方面著重加以完善:

1)由于中文電子病歷中存在大量的專有詞匯,導(dǎo)致識(shí)別困難,可加入專有醫(yī)療詞典提升實(shí)體識(shí)別對(duì)于專業(yè)醫(yī)療詞匯的識(shí)別率;

2)加入對(duì)抗訓(xùn)練的模型普遍具有需要花費(fèi)較長(zhǎng)時(shí)間的特點(diǎn),后續(xù)將研究更有效的方法,以提升模型的識(shí)別效率。

猜你喜歡
病歷梯度向量
向量的分解
電子病歷評(píng)級(jí)的分析與總結(jié)
聚焦“向量與三角”創(chuàng)新題
“病例”和“病歷”
一個(gè)具梯度項(xiàng)的p-Laplace 方程弱解的存在性
內(nèi)容、形式與表達(dá)——有梯度的語言教學(xué)策略研究
航磁梯度數(shù)據(jù)實(shí)測(cè)與計(jì)算對(duì)比研究
臨床表現(xiàn)為心悸的預(yù)激綜合征B型心電圖1例
組合常見模型梯度設(shè)置問題
向量垂直在解析幾何中的應(yīng)用
德保县| 古蔺县| 泗洪县| 林口县| 苍溪县| 封丘县| 娱乐| 双桥区| 惠州市| 溧水县| 大港区| 儋州市| 怀柔区| 平乐县| 巴里| 博野县| 金平| 吴江市| 南丰县| 望谟县| 察隅县| 广安市| 筠连县| 龙川县| 濮阳市| 建宁县| 闵行区| 齐齐哈尔市| 丽水市| 桃园县| 韶关市| 沧源| 鄢陵县| 山阳县| 洪泽县| 内乡县| 灵山县| 英德市| 石首市| 南陵县| 晋城|