国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于預(yù)訓(xùn)練模型及條件隨機(jī)場(chǎng)的中醫(yī)醫(yī)案命名實(shí)體識(shí)別

2023-10-09 14:41吳佳澤李坤寧陳明
中醫(yī)藥信息 2023年9期
關(guān)鍵詞:醫(yī)案命名實(shí)體

吳佳澤,李坤寧,陳明

(北京中醫(yī)藥大學(xué)中醫(yī)學(xué)院,北京 102488)

中醫(yī)醫(yī)案是中醫(yī)臨床醫(yī)師實(shí)施辨證論治過(guò)程的文字記錄,是保存、核查、考評(píng)乃至研究具體診療活動(dòng)的檔案資料[1]。誠(chéng)如章太炎先生所言:“中醫(yī)之成績(jī),醫(yī)案最著。欲求前人之經(jīng)驗(yàn)心得,醫(yī)案最有線索可尋。[2]”作為中醫(yī)學(xué)的重要組成部分,中醫(yī)醫(yī)案不僅是中醫(yī)師臨床診療疾病的第一手資料,而且在臨證經(jīng)驗(yàn)及學(xué)術(shù)思想傳承的過(guò)程中發(fā)揮著不可替代的作用。自2 000 多年前西漢淳于意寫就《診籍》始[3],歷代醫(yī)家所著醫(yī)案汗牛充棟,僅清朝就存有醫(yī)案專著200 余種,個(gè)案則不計(jì)其數(shù)[4]。不同于現(xiàn)代醫(yī)學(xué)的病歷,中醫(yī)醫(yī)案專注于四診資料的采集和對(duì)病因病機(jī)的分析,蘊(yùn)理、法、方、藥于其中[5],并以辨證思路為核心,夾錄夾論[6]。綜上,中醫(yī)醫(yī)案作為中醫(yī)理論與實(shí)踐的重要載體,其中蘊(yùn)含著豐富的理論價(jià)值與研究?jī)r(jià)值,亟待梳理與挖掘,但因歷代醫(yī)案數(shù)量眾多、醫(yī)家著錄有其個(gè)人特點(diǎn),缺乏規(guī)范化與標(biāo)準(zhǔn)化[7]、傳統(tǒng)機(jī)器學(xué)習(xí)方法難以處理自然語(yǔ)言等原因,目前對(duì)中醫(yī)醫(yī)案的數(shù)據(jù)挖掘研究尚少[8]。

對(duì)紛繁復(fù)雜的中醫(yī)醫(yī)案進(jìn)行數(shù)據(jù)挖掘需首要解決的便是命名實(shí)體識(shí)別(named entity recognition, NER)問(wèn)題。 NER 是自然語(yǔ)言處理(natural language processing,NLP)領(lǐng)域中的一項(xiàng)重要任務(wù),其目的是識(shí)別出文本中表示命名實(shí)體的成分并對(duì)其進(jìn)行分類[9]。近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,對(duì)NER 的研究愈來(lái)愈多,識(shí)別效果也越來(lái)越好,但對(duì)中醫(yī)醫(yī)案的NER 研究甚少,大多采用基于傳統(tǒng)機(jī)器學(xué)習(xí)的條件隨機(jī)場(chǎng)(CRF)、支持向量機(jī)(SVM)等方法,或者基于神經(jīng)網(wǎng)絡(luò)的雙向LSTM-CRF(BiLSTM-CRF)方法[10]。在對(duì)文本的表征能力方面,LSTM神經(jīng)網(wǎng)絡(luò)雖然強(qiáng)于傳統(tǒng)機(jī)器學(xué)習(xí)方法,但其結(jié)構(gòu)尚簡(jiǎn),訓(xùn)練集規(guī)模及訓(xùn)練時(shí)間尚不足,效果欠佳,仍需繼續(xù)優(yōu)化。本文基于預(yù)訓(xùn)練模型BERT 的變體RoBERTa 及CRF 構(gòu)建神經(jīng)網(wǎng)絡(luò),并通過(guò)遷移學(xué)習(xí)在中醫(yī)醫(yī)案訓(xùn)練集上進(jìn)行微調(diào)(Fine-tune)以處理下游任務(wù)NER,可較大提升中醫(yī)醫(yī)案命名實(shí)體識(shí)別的效果。

1 材料

1.1 預(yù)訓(xùn)練模型

BERT(bidirectional encoder representation from transformers)是由Google 于2018 年提出的一種預(yù)訓(xùn)練模型,其基于Transformer,主要用于解決NLP領(lǐng)域的效率難題[11]。BERT提出之前,NLP領(lǐng)域多使用前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(feedForward neural network language models, FFNNLM)[12],循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型(recurrent neural network language models, RNNLM)[13]以及 ELMo(embeddings from language models)[14]。FFNNLM 中的嵌入層通過(guò)CBOW 或Skip-Gram[15]的方式將文本轉(zhuǎn)為詞向量,然后將前n-1 個(gè)詞的詞向量作為表征去預(yù)測(cè)第n 個(gè)詞,并以此訓(xùn)練神經(jīng)網(wǎng)絡(luò)得到詞向量權(quán)重,進(jìn)而解決NLP 問(wèn)題。FFNNLM 解決了自然語(yǔ)言稀疏性的問(wèn)題,同時(shí)模型也具有一定的泛化能力,但FFNNLM 并未充分考慮文本的上下文語(yǔ)義,也未考慮文本的時(shí)序問(wèn)題;RNNLM 同樣使用嵌入層將文本轉(zhuǎn)為詞向量并進(jìn)行訓(xùn)練,但其通過(guò)時(shí)序神經(jīng)網(wǎng)絡(luò)解決了文本的時(shí)序問(wèn)題,效果較FFNNLM 更優(yōu)。經(jīng)典RNN 在訓(xùn)練時(shí)容易產(chǎn)生梯度消失或梯度爆炸問(wèn)題,因此后續(xù)又誕生了其改進(jìn)型LSTM(long short-term memory)神經(jīng)網(wǎng)絡(luò)[16]。無(wú)論是經(jīng)典RNN 還是LSTM 神經(jīng)網(wǎng)絡(luò),二者都未充分考慮文本的上下文語(yǔ)義,并且都是單一時(shí)序,即通過(guò)前n-1個(gè)詞的詞向量去預(yù)測(cè)第n個(gè)詞,未考慮后續(xù)文本,這與人類認(rèn)知不符,因此訓(xùn)練而得的詞向量權(quán)重也有所偏頗;在FFNNLM 和RNNLM 的基礎(chǔ)上,又提出了ELMo,ELMo 使用前向和后向兩個(gè)彼此獨(dú)立的多層LSTM 提取文本特征,最終的文本表征由詞向量和末層LSTM 通過(guò)平均加權(quán)共同決定,因此可獲得上下文淺層相關(guān)的文本語(yǔ)義。但是ELMo 的雙向LSTM 是由兩個(gè)LSTM 通過(guò)淺層拼接而成,前向和后向LSTM 之間彼此獨(dú)立,沒(méi)有聯(lián)系,所以ELMo 只能提取上下文的淺層信息,并未完全利用到上下文的深層信息。無(wú)論是FFNNLM、RNNLM 還是ELMo,均為有監(jiān)督學(xué)習(xí),其訓(xùn)練集都需進(jìn)行人工標(biāo)注,這決定了其采用的語(yǔ)料及訓(xùn)練規(guī)模不會(huì)很大,相當(dāng)程度上限制了其文本表征能力。

BERT 是第一個(gè)采用無(wú)監(jiān)督、深度雙向機(jī)制的NLP 預(yù)訓(xùn)練模型。BERT 整體是一個(gè)自編碼語(yǔ)言模型(auto-encoding language models),即預(yù)訓(xùn)練表征模型,其不同于FFNNLM、RNNLM 和ELMo 采用單向神經(jīng)網(wǎng)絡(luò)或雙向神經(jīng)網(wǎng)絡(luò)淺層拼接的方式進(jìn)行訓(xùn)練,而是采用新的MLM(masked language model)和NSP(next sentence prediction)訓(xùn)練方式,以生成深度雙向的文本表征。BERT 主要使用Transformer 的編碼器(Encoder)部分,舍棄了解碼器(Decoder)部分,并且采用雙向Transformer,故其特征融合方式較ELMo 采用的淺層拼接雙向LSTM 的方式更優(yōu)。除此之外,Transformer還可通過(guò)自注意力機(jī)制(self-attention)實(shí)現(xiàn)并行計(jì)算,計(jì)算速度較RNNLM 和ELMo 更快[17]。同時(shí),由于是無(wú)監(jiān)督學(xué)習(xí),BERT 可采用海量語(yǔ)料構(gòu)建超大規(guī)模的訓(xùn)練集,故其對(duì)文本的表征能力遠(yuǎn)超RNNLM 和ELMo。預(yù)訓(xùn)練后的BERT 僅需微調(diào)就可應(yīng)用于各種下游任務(wù),可大大提高神經(jīng)網(wǎng)絡(luò)模型在NLP 領(lǐng)域的性能。

后續(xù)BERT又衍生出了諸多變體,如ALBERT[18]和RoBERTa[19]等,各自從不同角度對(duì)BERT 進(jìn)行了優(yōu)化。ALBERT 通過(guò)采用跨層參數(shù)共享、易NSP 為SOP(sentence order prediction)、嵌入?yún)?shù)分解三項(xiàng)策略,在基本保持性能的同時(shí),大大簡(jiǎn)化了模型結(jié)構(gòu),使預(yù)訓(xùn)練模型更加實(shí)用;RoBERTa 通過(guò)采用精細(xì)調(diào)參、易靜態(tài)掩碼為動(dòng)態(tài)掩碼,使用全長(zhǎng)度序列(full-sentences)、取消NSP 等策略,并以更大的批處理量(batch size)在更大規(guī)模的語(yǔ)料上訓(xùn)練更長(zhǎng)時(shí)間,獲得了對(duì)文本更強(qiáng)的表征能力。

1.2 條件隨機(jī)場(chǎng)

條件隨機(jī)場(chǎng)(conditional random field,CRF) 是在一組隨機(jī)輸入變量條件下另一組隨機(jī)輸出變量的條件概率分布模型[20]。

在NER 任務(wù)中,LSTM 或BERT 等預(yù)訓(xùn)練模型可通過(guò)神經(jīng)網(wǎng)絡(luò)的非線性擬合能力于上下文中學(xué)習(xí)文本語(yǔ)義,最后計(jì)算出每個(gè)字符(token)所對(duì)應(yīng)命名實(shí)體標(biāo)簽的概率,而CRF是通過(guò)統(tǒng)計(jì)歸一化的條件狀態(tài)轉(zhuǎn)移概率矩陣預(yù)測(cè)命名實(shí)體標(biāo)簽的概率,因此CRF可以學(xué)習(xí)到標(biāo)簽間的依賴關(guān)系[21]。如B-NAME 標(biāo)簽后通常緊跟INAME標(biāo)簽,而不是I-AGE或其他標(biāo)簽,又如每個(gè)命名實(shí)體都是由B-X起,以I-X結(jié)束,反之則誤。LSTM或BERT等預(yù)訓(xùn)練模型對(duì)命名實(shí)體標(biāo)簽間的依賴關(guān)系感知較弱,故可通過(guò)CRF對(duì)命名實(shí)體標(biāo)簽間的轉(zhuǎn)移關(guān)系建模以彌補(bǔ)神經(jīng)網(wǎng)絡(luò)的不足,進(jìn)一步提升模型性能。

2 模擬實(shí)驗(yàn)

首先通過(guò)預(yù)處理對(duì)醫(yī)案中的命名實(shí)體進(jìn)行人工標(biāo)注后導(dǎo)出數(shù)據(jù)集,并劃分訓(xùn)練集和驗(yàn)證集;然后依據(jù)NER 任務(wù)調(diào)整預(yù)訓(xùn)練模型的輸入層和輸出層以構(gòu)建神經(jīng)網(wǎng)絡(luò),之后將訓(xùn)練集經(jīng)分詞器(Tokenizer)輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào);最后通過(guò)驗(yàn)證集對(duì)模型進(jìn)行評(píng)估。實(shí)驗(yàn)步驟見(jiàn)圖1。

圖1 實(shí)驗(yàn)步驟

2.1 數(shù)據(jù)集

數(shù)據(jù)集選自《劉渡舟臨證驗(yàn)案精選》[22],原因有二,其一是劉渡舟教授治學(xué)嚴(yán)謹(jǐn),辨證準(zhǔn)確,且善于抓主證,用藥不蔓不枝,所錄醫(yī)案具有代表性;其二是該書編著精良,所錄醫(yī)案分屬疾病類別達(dá)131 種之多,分布廣泛,并且記載詳略得當(dāng)、簡(jiǎn)明扼要,用詞精當(dāng)切要,文筆雋永流暢,主訴、癥狀、舌脈等四診材料及所用方藥記錄齊全、規(guī)范、標(biāo)準(zhǔn),適宜作為NER研究的原始文本。

2.2 預(yù)處理

首先使用ABBYY FineReader[23]通過(guò)OCR 技術(shù)將不可編輯的醫(yī)案PDF文件轉(zhuǎn)為可編輯的Word文件;然后對(duì)照原始文本,人工校正轉(zhuǎn)換后的Word 文件,將遺漏、亂碼等錯(cuò)誤之處更正;最后將校正后的文件導(dǎo)入label-studio 以“BIO 三元標(biāo)注法”進(jìn)行命名實(shí)體標(biāo)注。共標(biāo)注10 類命名實(shí)體,分別為姓名(NAME)、性別(GEND)、年齡(AGE)、癥狀(SYM)、舌象(TON)、脈象(VEI)、辨證(PAT)、治法(TRE)、方劑(FOR)、中藥及用量(MED),其中B-X 為命名實(shí)體起始,I-X 為命名實(shí)體中間或結(jié)束,O為非命名實(shí)體。本實(shí)驗(yàn)共選取100則醫(yī)案,經(jīng)數(shù)據(jù)清洗后共整理出568 條人工標(biāo)注文本,為避免模型訓(xùn)練時(shí)發(fā)生過(guò)擬合,按8∶2 比例劃分為訓(xùn)練集和驗(yàn)證集。見(jiàn)圖2。

圖2 命名實(shí)體人工標(biāo)注

2.3 神經(jīng)網(wǎng)絡(luò)模型

本實(shí)驗(yàn)采用BERT、RoBERTa 和ALBERT 作為預(yù)訓(xùn)練模型來(lái)評(píng)估其在中醫(yī)醫(yī)案命名實(shí)體識(shí)別中的性能表現(xiàn),其中BERT 和RoBERTa 選用哈工大訊飛聯(lián)合實(shí)驗(yàn)室的預(yù)訓(xùn)練模型[24],ALBERT 選用UER 團(tuán)隊(duì)[25]和CKIPLab團(tuán)隊(duì)的預(yù)訓(xùn)練模型。

模型由輸入層、預(yù)訓(xùn)練模型、全連接層及CRF層構(gòu)成。輸入文本會(huì)由預(yù)訓(xùn)練模型的分詞器添加“[CLS]”“[SEP]”標(biāo)識(shí)符,并轉(zhuǎn)為詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入;輸入向量經(jīng)預(yù)訓(xùn)練模型和全連接層后輸出各字符對(duì)應(yīng)命名實(shí)體標(biāo)簽的發(fā)射分?jǐn)?shù);CRF對(duì)發(fā)射分?jǐn)?shù)建模并提取標(biāo)簽間的特征關(guān)系,最終解碼出各字符最佳對(duì)應(yīng)的命名實(shí)體標(biāo)簽,完成命名實(shí)體識(shí)別任務(wù)。BERT 及其變體的模型規(guī)模見(jiàn)表1;基于BERT 及其變體構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型見(jiàn)圖3。

圖3 神經(jīng)網(wǎng)絡(luò)模型

CRF 是處理序列標(biāo)注問(wèn)題的經(jīng)典方法,從張汝佳等[26]對(duì)中文命名實(shí)體識(shí)別的研究來(lái)看,CRF 已廣泛應(yīng)用于各種NER 模型。除傳統(tǒng)機(jī)器學(xué)習(xí)外[27],在深度學(xué)習(xí)中也通常將LSTM、GRU、Transformer 等與CRF 結(jié)合以提高模型性能。BERT 提出后,也有研究將BERT 與CRF 相結(jié)合,但模型性能提升并不大[28],甚至還會(huì)降低,究其原因,在于預(yù)訓(xùn)練模型與CRF 的學(xué)習(xí)率不對(duì)等。BERT 等預(yù)訓(xùn)練模型經(jīng)大規(guī)模語(yǔ)料長(zhǎng)時(shí)間學(xué)習(xí)后,其擬合能力遠(yuǎn)勝LSTM 等神經(jīng)網(wǎng)絡(luò),在針對(duì)下游任務(wù)進(jìn)行微調(diào)時(shí),模型通常只需很小的學(xué)習(xí)率,經(jīng)過(guò)2~3 個(gè)epoch 后就能收斂到最優(yōu),若CRF 以同樣學(xué)習(xí)率進(jìn)行訓(xùn)練,則不能收斂到最優(yōu),故其對(duì)模型性能的提升貢獻(xiàn)不大。對(duì)于此問(wèn)題,可通過(guò)分層設(shè)置學(xué)習(xí)率的方法解決,BERT 等預(yù)訓(xùn)練模型應(yīng)用較小學(xué)習(xí)率,CRF 應(yīng)用較大學(xué)習(xí)率,以達(dá)到最佳擬合效果。圖4 所示為當(dāng)BERT-wwm 應(yīng)用學(xué)習(xí)率5 × 10-5,CRF 應(yīng)用不同學(xué)習(xí)率訓(xùn)練時(shí)NER的準(zhǔn)確率,可以看出,當(dāng)CRF學(xué)習(xí)率為5 × 10-3時(shí)(與BERT-wwm學(xué)習(xí)率相差100倍),準(zhǔn)確率開始有較大提高,當(dāng)CRF 學(xué)習(xí)率為5 × 10-2時(shí)(與BERT-wwm 學(xué)習(xí)率相差1 000 倍),準(zhǔn)確率達(dá)到最高。結(jié)果表明,增加CRF 層并設(shè)置恰當(dāng)?shù)姆謱訉W(xué)習(xí)率,可在BERT 等預(yù)訓(xùn)練模型極強(qiáng)擬合能力的基礎(chǔ)上彌補(bǔ)其不足0。

圖4 CRF應(yīng)用不同學(xué)習(xí)率訓(xùn)練時(shí)NER的準(zhǔn)確率

3 結(jié)果

本實(shí)驗(yàn)的評(píng)價(jià)包含準(zhǔn)確率(Accuracy, 2)、精確率(Precision,3)、召回率(Recall,4)、F1 分?jǐn)?shù)(F1 score,5)四項(xiàng)指標(biāo),公式如下:

基于CRF 及不同預(yù)訓(xùn)練模型的各神經(jīng)網(wǎng)絡(luò)對(duì)NER 的四項(xiàng)整體評(píng)價(jià)指標(biāo)??梢钥闯?,對(duì)于各預(yù)訓(xùn)練模型,使用CRF 后,四項(xiàng)指標(biāo)均有不同程度的提高,特別是ALBERT-base-chinese,提高幅度最大,尤以精確率為甚,提高了44.14%,而RoBERTa-wwm-extlarge 則只提高了2.20%。表明CRF 可以較好地學(xué)習(xí)到命名實(shí)體標(biāo)簽間的依賴關(guān)系,糾正標(biāo)簽間的錯(cuò)誤排列順序;同時(shí)也表明BERT、RoBERTa等結(jié)構(gòu)更復(fù)雜、語(yǔ)料規(guī)模更大、訓(xùn)練時(shí)間更長(zhǎng)的預(yù)訓(xùn)練模型對(duì)文本特征的提取能力更強(qiáng),CRF 對(duì)其性能的提升較微,但對(duì)于ALBERT 等結(jié)構(gòu)較簡(jiǎn)單的預(yù)訓(xùn)練模型有較好的優(yōu)化效果。見(jiàn)圖5和表2。

表2 樣本預(yù)測(cè)集合

圖5 各神經(jīng)網(wǎng)絡(luò)及CRF有無(wú)對(duì)NER的四項(xiàng)整體評(píng)價(jià)指標(biāo)

在BERT、ALBERT 和RoBERTa 三類預(yù)訓(xùn)練模型中,RoBERTa 的評(píng)價(jià)最優(yōu),特別是RoBERTa-wwmext-large,在CRF 的加持下,其準(zhǔn)確率比ALBERTbase-chinese 高5.71%,精確率高10.47%,召回率高11.85%,F(xiàn)1 分?jǐn)?shù)高11.16%,表明RoBERTa 采用的訓(xùn)練方式更優(yōu),參數(shù)更佳,對(duì)于下游任務(wù)有更強(qiáng)的泛化能力,同時(shí)更大的數(shù)據(jù)批處理量和更大規(guī)模的語(yǔ)料也大大強(qiáng)化了其性能。

各命名實(shí)體的F1 分?jǐn)?shù)是對(duì)基于CRF 及不同預(yù)訓(xùn)練模型的各神經(jīng)網(wǎng)絡(luò)評(píng)估而得,可以看出,BERTwwm、 BERT-wwm-ext、 RoBERTa-wwm-ext、RoBERTa-wwm-ext-large 的 F1 分 數(shù) 接 近 ,ALBERT-base-chinese-cluecorpussmall、ALBERTbase-chinese 的F1 分?jǐn)?shù)接近,且后者對(duì)于SYM(癥狀)、PAT(辨證)、TRE(治療)和FOR(方劑)命名實(shí)體的F1 分?jǐn)?shù)大幅低于前者。BERT 和RoBERTa 對(duì)于NAME(姓名)、GEND(性別)、AGE(年齡)、TON(舌象)、VEI(脈象)、TRE(治療)和MED(中藥及用量)命名實(shí)體的F1 分?jǐn)?shù)較高,尤其是RoBERTawwm-ext-large,對(duì)各命名實(shí)體的識(shí)別均為最優(yōu)。見(jiàn)圖6。

圖6 各命名實(shí)體的F1分?jǐn)?shù)

4 討論

命名實(shí)體識(shí)別對(duì)于中醫(yī)醫(yī)案的數(shù)據(jù)挖掘具有重要意義。作為中醫(yī)學(xué)術(shù)的一次文獻(xiàn),中醫(yī)醫(yī)案不僅是疾病治療過(guò)程的再現(xiàn),而且蘊(yùn)含著醫(yī)家的學(xué)術(shù)思想和辨證論治藝術(shù),在文獻(xiàn)學(xué)、方法學(xué)及臨床方面均有重要意義[29]。但中醫(yī)醫(yī)案同樣也有數(shù)量眾多、個(gè)性化與非標(biāo)準(zhǔn)化、自然語(yǔ)言屬性難以量化等問(wèn)題存在[30],因此對(duì)中醫(yī)醫(yī)案命名實(shí)體的識(shí)別就成了首要任務(wù),也是對(duì)其進(jìn)行高價(jià)值數(shù)據(jù)挖掘的前提。與圖像、語(yǔ)音等信息不同,同屬人類認(rèn)知范疇的自然語(yǔ)言因沒(méi)有明顯的抽象分層及難以表征等問(wèn)題存在,若想取得較好效果,根本上就需要層次更深的神經(jīng)網(wǎng)絡(luò),以及規(guī)模更大的訓(xùn)練集[31]。因此,本文提出利用預(yù)訓(xùn)練模型及CRF 構(gòu)建結(jié)構(gòu)更復(fù)雜的神經(jīng)網(wǎng)絡(luò),預(yù)訓(xùn)練模型是在大規(guī)模語(yǔ)料上長(zhǎng)時(shí)間訓(xùn)練而來(lái),故其對(duì)文本的上下文語(yǔ)義特征提取能力極強(qiáng),同時(shí)使用CRF處理命名實(shí)體標(biāo)簽間的依賴關(guān)系。

本文通過(guò)BERT、RoBERTa、ALBERT 三類六種預(yù)訓(xùn)練模型及CRF 對(duì)中醫(yī)醫(yī)案NER 實(shí)驗(yàn)后的結(jié)果表明,通過(guò)設(shè)置恰當(dāng)?shù)姆謱訉W(xué)習(xí)率,在遷移學(xué)習(xí)中CRF 就能較好地與預(yù)訓(xùn)練模型融合以提取命名實(shí)體標(biāo)簽特征,或多或少地優(yōu)化模型性能,尤其是對(duì)于層次相對(duì)較淺的ALBERT,其F1 分?jǐn)?shù)至多可提高44.14%,由于BERT 和RoBERTa 結(jié)構(gòu)本就復(fù)雜,文本特征提取能力較強(qiáng),故CRF 對(duì)其模型優(yōu)化效果不明顯。在預(yù)訓(xùn)練模型中,RoBERTa-wwm-ext-large 的性能最優(yōu),其準(zhǔn)確率可達(dá)99.33%,精確率可達(dá)98.24%,召回率可達(dá)98.51%,F(xiàn)1 分?jǐn)?shù)可達(dá)98.38%,對(duì)于10 類命名實(shí)體,其對(duì)NAME(姓名)、GEND(性別)、AGE(年齡)、TRE(治療)、MED(中藥及用量)的識(shí)別最優(yōu),F(xiàn)1 分?jǐn)?shù)可達(dá)100%,其次是TON(舌象)、VEI(脈象)、PAT(辨證),F(xiàn)1分?jǐn)?shù)分別為98.67%、98.70%、96.73%,對(duì)SYM(癥狀)和FOR(方劑)的識(shí)別略差,F(xiàn)1 分?jǐn)?shù)分別為95.65%、92.31%。通過(guò)分析結(jié)果可以得出,RoBERTa通過(guò)精細(xì)調(diào)參、利用更加充分的訓(xùn)練過(guò)程及更大規(guī)模的訓(xùn)練集等措施,大大提升了模型性能[32]。

本文提出的神經(jīng)網(wǎng)絡(luò)模型與既往研究的對(duì)比見(jiàn)表3。高佳奕等[33]單純使用CRF 進(jìn)行命名實(shí)體識(shí)別研究,F(xiàn)1 分?jǐn)?shù)僅為85.56%,遠(yuǎn)低于本文的98.38%,且CRF無(wú)法處理文本的上下文語(yǔ)義及序列較長(zhǎng)的命名實(shí)體,而RoBERTa 通過(guò)Transformer 以及全長(zhǎng)度序列訓(xùn)練模式解決了該問(wèn)題,因此其效果大幅優(yōu)于單純使用CRF。除此之外,高氏等僅對(duì)肺癌醫(yī)案中的癥狀進(jìn)行了命名實(shí)體識(shí)別研究,這導(dǎo)致醫(yī)案和命名實(shí)體類別較單一,模型泛化能力較弱;羊艷玲等[34]和高佳奕等[35]均基于BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識(shí)別研究,其F1分?jǐn)?shù)分別為82.32%和85.94%,高佳奕等采用了Peephole 機(jī)制,故其模型性能相比羊氏等的模型較優(yōu),但二者均不及本文提出的RoBERTa-CRF 神經(jīng)網(wǎng)絡(luò)。此外,羊艷玲等的模型F1分?jǐn)?shù)不及前者高氏等單純使用CRF,究其原因,在于高氏等對(duì)數(shù)據(jù)的預(yù)處理較為細(xì)致,去除了冗余信息,特征較為單一,僅包含癥狀(名)、(癥狀)程度、(癥狀發(fā)生)部位。再者,二者均可識(shí)別多個(gè)命名實(shí)體,模型泛化能力較單純使用CRF 也有所提升;胡為等[36]基于BERT-BiLSTM-CRF 神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識(shí)別研究,其F1 分?jǐn)?shù)為90.04%,并且可識(shí)別六類命名實(shí)體,可見(jiàn)預(yù)訓(xùn)練模型對(duì)神經(jīng)網(wǎng)絡(luò)性能的提升是巨大的,而本文的實(shí)驗(yàn)結(jié)果表明,將BERT 改為RoBERTa,并調(diào)整恰當(dāng)?shù)姆謱訉W(xué)習(xí)率,可再將F1 分?jǐn)?shù)提高8.34%。并且RoBERTa 是對(duì)BERT 各項(xiàng)改進(jìn)而來(lái),其訓(xùn)練規(guī)模遠(yuǎn)超BERT,并且Transformer 的上下文特征提取能力強(qiáng)于LSTM,因此LSTM 對(duì)RoBERTa 的性能提升微乎其微,在本文構(gòu)建的神經(jīng)網(wǎng)絡(luò)中,顧及計(jì)算資源和訓(xùn)練時(shí)間,遂將其舍去。

表3 本文提出的神經(jīng)網(wǎng)絡(luò)模型與既往研究情況對(duì)比

5 結(jié)論

本文探討了BERT、RoBERTa、ALBERT 三類六種預(yù)訓(xùn)練模型及CRF 對(duì)中醫(yī)醫(yī)案命名實(shí)體識(shí)別的性能表現(xiàn),結(jié)果表明,對(duì)于ALBERT這類結(jié)構(gòu)相對(duì)簡(jiǎn)單的預(yù)訓(xùn)練模型,CRF 能有效地處理命名實(shí)體標(biāo)簽間的依賴關(guān)系,大幅提升模型性能,而對(duì)于BERT和RoBERTa這類結(jié)構(gòu)相對(duì)復(fù)雜的預(yù)訓(xùn)練模型則收效甚微;并且得益于訓(xùn)練方法的改進(jìn)和訓(xùn)練規(guī)模的擴(kuò)大,RoBERTa 對(duì)文本的表征能力較BERT 更強(qiáng)。通過(guò)與既往研究的對(duì)比,本文構(gòu)建的神經(jīng)網(wǎng)絡(luò)對(duì)中醫(yī)醫(yī)案命名實(shí)體識(shí)別的F1 分?jǐn)?shù)高達(dá)98.38%,比效果最好的方法提高了8.34%,并且可識(shí)別10 類命名實(shí)體,解決了中醫(yī)醫(yī)案命名實(shí)體識(shí)別效率一般的問(wèn)題,為后續(xù)對(duì)中醫(yī)醫(yī)案的高價(jià)值數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)基礎(chǔ)。

預(yù)訓(xùn)練模型雖然性能強(qiáng)大,但其訓(xùn)練過(guò)程需耗費(fèi)巨量計(jì)算資源及時(shí)間,門檻較高,不利于科研人員訓(xùn)練自己的預(yù)訓(xùn)練模型,因此需進(jìn)一步探尋如何在保持模型性能的前提下降低訓(xùn)練門檻[37]。后續(xù)研究應(yīng)著眼于對(duì)本文神經(jīng)網(wǎng)絡(luò)的優(yōu)化,進(jìn)一步提高對(duì)癥狀(SYM)、辨證(PAT)和方劑(FOR)命名實(shí)體的識(shí)別效果,同時(shí)還需擴(kuò)大樣本量,利用數(shù)量更多、類別更廣泛的醫(yī)案訓(xùn)練數(shù)據(jù)識(shí)別更多的命名實(shí)體,進(jìn)一步提高模型的泛化能力。

猜你喜歡
醫(yī)案命名實(shí)體
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
醫(yī)案聊齋續(xù)篇 吐瀉案
醫(yī)案聊齋續(xù)篇 晨泄案
有一種男人以“暖”命名
為一條河命名——在白河源
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
新加香薷飲醫(yī)案6則