国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SoftLexicon的醫(yī)療實體識別模型

2021-11-01 12:51:52朱艷輝梁文桐
關(guān)鍵詞:字符病歷詞典

張 旭,朱艷輝,梁文桐,詹 飛

1 研究背景

近年來,自然語言處理技術(shù)(natural language processing,NLP)的應(yīng)用越來越廣泛。醫(yī)療行業(yè)信息化迅速發(fā)展,其中電子病歷(electronic medical record,EMR)在臨床治療、疾病預(yù)防等方面扮演著重要角色。EMR 是醫(yī)務(wù)人員在病人治療過程中(該過程包括臨床診斷、檢查檢驗、臨床治療等),利用醫(yī)療機構(gòu)信息系統(tǒng)生成患者的數(shù)字化信息,并進(jìn)行存儲、管理、傳輸和醫(yī)療記錄的再現(xiàn)[1]。對電子病歷進(jìn)行數(shù)據(jù)處理,構(gòu)建專業(yè)且全面的醫(yī)療知識庫,更有利于發(fā)揮其在“智慧醫(yī)療”中的作用。但是,目前電子病歷大多處于非結(jié)構(gòu)化狀態(tài),因而嚴(yán)重制約了其開發(fā)與利用[2]。

命名實體識別(named entity recognition,NER)是自然語言處理技術(shù)的一個分支,屬于信息抽取的子任務(wù),它將具有特定意義的實體從非結(jié)構(gòu)文本中提取出來,并將其歸入預(yù)定類別,例如從文本中識別出與人名、地名和機構(gòu)名相關(guān)的實體。NER 本質(zhì)上可以被看成是一種序列標(biāo)注問題,在許多下游任務(wù)中扮演著重要的角色,包括知識庫建設(shè)[3]、信息檢索[4]和問答系統(tǒng)[5]。

隨著醫(yī)療AI 技術(shù)的發(fā)展,信息抽取技術(shù)在醫(yī)療信息化的進(jìn)程中扮演著不可或缺的角色,這一定程度上與國內(nèi)外開展的相關(guān)評測任務(wù)密不可分,它們推動了大批學(xué)者對前沿技術(shù)的探索;國外的I2B2 會議催生了一系列優(yōu)秀的研究成果,HMM(hidden markov model)、CRF(conditional random field)等基于統(tǒng)計的機器學(xué)習(xí)方法首次被應(yīng)用于醫(yī)療NER 任務(wù)中,且有不錯的性能表現(xiàn);國內(nèi)的全國知識圖譜與語義計算大會(China Conference on Knowledge Graph and Semantic Computing,CCKS)自2017年起,已經(jīng)連續(xù)4a 組織中文電子病歷命名實體識別相關(guān)評測。在CCKS-2017 面向中文電子病歷的命名實體識別任務(wù)中,參評者均有對Bi-LSTM(bidirectional long shortterm memory)算法模型的實現(xiàn)[6]。Zhang Y.等[7]分別采用CRFs 和BiLSTM-CRF 從電子病歷數(shù)據(jù)集中識別疾病、身體部位和治療等類型實體,對比發(fā)現(xiàn)后者的性能更好。CCKS-2018 評測中,何云琪等[8]通過結(jié)合一系列句法和語義特征表示,作為CRF 層的輸入進(jìn)行標(biāo)簽預(yù)測;Luo L.等[9]基于多特征(如標(biāo)點符號、分詞和詞典等特征)融合,整合多種神經(jīng)網(wǎng)絡(luò)模型,完成對電子病歷命名實體的識別,且取得不錯的效果。潘璀然等[10]通過Lattice-LSTM 網(wǎng)絡(luò)表示句子中的單詞,將字符與詞序列的語義信息整合到基于字符的LSTM-CRF 中,在CCKS-2018 任務(wù)一上進(jìn)行實驗,其F1值優(yōu)于之前的最高結(jié)果。

但是,以上基于深度神經(jīng)網(wǎng)絡(luò)的NER 模型,都存在不同程度的缺陷。首先,與英語NER 相比,中文NER 的一大難點在于中文句子不是自然地被分隔開,傳統(tǒng)深度學(xué)習(xí)NER 模型在中文特征提取過程中,可分為基于詞粒度和基于字符粒度兩大類,但由于中文電子病歷實體的特殊性,即存在跨度較長的實體,因此常用分詞工具無法精準(zhǔn)識別實體邊界,由此產(chǎn)生的分詞錯誤會延續(xù)到上層模型的預(yù)測;基于字粒度的模型解決了分詞錯誤的問題,但無法利用到句中單詞的信息,尤其對于中文,相同字符在不同詞中可能有不同的涵義,例如“燈光”和“爭光”中的“光”字分別代表了“光線”和“榮譽”的含義;其次,研究者較少關(guān)注先驗知識對識別效果的輔助作用[11],在Zhang Y.[12]的工作中證明了詞典信息對提高NER準(zhǔn)確率的重要性,但是現(xiàn)有引入詞典的方法無一例外都建立了復(fù)雜的模型結(jié)構(gòu),導(dǎo)致運算效率低下,實用性不高。

綜合以上問題,本文利用字符粒度Bi-LSTMCRF 模型的優(yōu)勢,提出一種基于“BMES”標(biāo)簽的詞典簡化方案,將單詞詞典整合到字符表示層中,SoftLexicon 方法避免了設(shè)計復(fù)雜的序列建模結(jié)構(gòu),通過對字詞向量的拼接來完成詞典信息引入,無需動態(tài)對句子序列進(jìn)行編碼,具體工作將在2.2 節(jié)中展開介紹;同時,由于字符與詞典的匹配不與LSTM 編碼層同步進(jìn)行,因此很大程度上解決了引入詞典帶來運算效率低的問題。詞典作為一種已有的先驗知識,可以為字符信息提供很好的補充,增強神經(jīng)網(wǎng)絡(luò)模型對先驗知識的學(xué)習(xí),以便更完整地獲取電子病歷文本句中的實體特征,通過實驗驗證了基于SoftLexicon的中文電子病歷實體識別模型無論在準(zhǔn)確率還是效率上都有不錯的表現(xiàn)。

本文后續(xù)結(jié)構(gòu)如下:首先,對SoftLexicon 方法進(jìn)行概述,并對字符表示層以及序列建模層實現(xiàn)過程展開介紹;然后介紹本文實驗的相關(guān)工作,包括本文實驗所用數(shù)據(jù)集,以及實驗軟硬件和參數(shù)設(shè)置,并對不同模型的對比實驗效果進(jìn)行分析;最后總結(jié)現(xiàn)有工作并提出后續(xù)工作設(shè)想。

2 基于SoftLexicon 的中文電子病歷實體識別模型

2.1 中文電子病歷實體識別任務(wù)

CCKS-2020 面向中文電子病歷的醫(yī)療實體抽取是CCKS 圍繞中文電子病歷語義化開展的系列評測的一個延續(xù),本文采用CCKS-2020 評測提供的中文電子病歷實體數(shù)據(jù)集,標(biāo)注數(shù)據(jù)包括了醫(yī)療實體的名稱、起始和結(jié)束位置以及預(yù)定義類別,其中6 類預(yù)定義類別定義如表1 所示。

表1 CCKS-2020 預(yù)定義實體類別及定義Table 1 CCKS-2020 predefined entity classes

中文電子病歷命名實體識別任務(wù)要求在純文本電子病歷文檔中,識別并抽取出與符合預(yù)定義類別的實體,及其在文本中的位置信息,并將它們以字典的形式表示。

2.2 基于SoftLexicon 的實體識別模型

在進(jìn)行關(guān)鍵詞自動抽取時,以HMM、CRF 為代表的傳統(tǒng)機器學(xué)習(xí)方法依賴人工構(gòu)建大量特征工程。隨著計算機硬件的快速發(fā)展,再加上醫(yī)療標(biāo)注語料的逐漸完善,深度神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)其優(yōu)勢,它通過模擬人類神經(jīng)網(wǎng)絡(luò),運用多層的網(wǎng)絡(luò)運算[13],能有效挖掘文本潛在語義信息,對人工難以識別的特征提取效果更好。基于SoftLexicon 的實體識別模型如圖1 所示。

圖1 SoftLexicon 模型結(jié)構(gòu)圖Fig.1 SoftLexicon model structure

圖1 中,以輸入序列“中國中醫(yī)藥”為例:(此圖僅為流程展示,具體詞典匹配結(jié)果以實驗為準(zhǔn)),整個神經(jīng)網(wǎng)絡(luò)共有4 層結(jié)構(gòu):輸入層構(gòu)建輸入句子的特征向量序列,分別將字符對應(yīng)的4 個單詞集的表示形式組合成一個一維特征集,并將其添加到每個字符的表示形式中,例如圖中的“醫(yī)”字與詞典匹配后得到的相關(guān)詞,進(jìn)行embedding lookup,經(jīng)線性變換拼接到其字向量表示上;隱藏層為一個雙向的LSTM網(wǎng)絡(luò),前向的LSTM 用于獲取前文信息,反向傳播的LSTM用于獲取下文信息,再將雙向信息拼接整合;在雙向LSTM 層之上,應(yīng)用CRF(條件隨機場)層為字符序列執(zhí)行標(biāo)簽推斷,CRF 能夠考慮到標(biāo)簽之間的連續(xù)性,獲得最優(yōu)輸出序列。

2.2.1 SoftLexicon

單純基于字符NER 方法的缺點是單詞信息未被充分利用??紤]到這一點,Zhang Y.[12]提出了Lattice-LSTM 模型,用于將單詞詞典合并到基于字符的NER 模型中。Lattice-LSTM 有兩個優(yōu)點,首先它保留了與單個字符有關(guān)的所有可能的詞典匹配結(jié)果,解決了詞邊界不確定的問題。其次,它可以引入預(yù)訓(xùn)練的詞向量模型,從而極大地提升了性能。然而,Lattice-LSTM 模型復(fù)雜的結(jié)構(gòu)導(dǎo)致其運算速度十分有限。如圖2 所示,它在不相鄰的字符之間額外增加了一個詞級別LSTM通路,對字符組成的詞進(jìn)行編碼,再輸入到對應(yīng)字符的Cell 中,由此可能產(chǎn)生單字符對應(yīng)多輸入的情況,因此在模型解碼階段就增加了計算復(fù)雜度;同時Lattice-LSTM 在引入詞典過程中,依舊存在信息缺失的問題,例如圖2“中醫(yī)藥”中的“醫(yī)”字,它只能獲取到“中醫(yī)”的詞信息,而無法獲取“醫(yī)藥”和“中醫(yī)藥”對應(yīng)的詞信息。

圖2 Lattice-LSTM 模型結(jié)構(gòu)示意圖Fig.2 Lattice-LSTM structure

針對上述不足,本文做了以下相關(guān)工作。課題組提出在中文電子病歷NER 上使用一種輕量級詞典匹配方法,首先將輸入序列s={c1,c2,…,cn}與詞典進(jìn)行匹配,得到所有相關(guān)的詞Wi,j(表示s子序列{c1,c2,…,cj}),為了保留分段信息,將每個字符ci的所有匹配單詞分類為4 個單詞集“BMES”,這4 個集合的構(gòu)造如下,其中,L表示本文所使用的詞典:

圖3 所示為“中醫(yī)藥”的Lexicon 匹配示意圖。

圖3 Lexicon 匹配示意圖Fig.3 Lexicon matching

如圖3 中所示,以“中醫(yī)藥”為例,字符“醫(yī)”與預(yù)先構(gòu)造的詞典進(jìn)行單詞匹配,得到對應(yīng)的4 個單詞集:B={W2,3(“醫(yī)藥”)},M={W1,3(“中醫(yī)藥”)},E={W1,2(“中醫(yī)”)},S={(“None”)}(如果沒有與之匹配到的詞語,就用“None”來表示該集合)。同時本文引入了預(yù)先訓(xùn)練好的詞向量,單詞集中的每個單詞都會轉(zhuǎn)化成對應(yīng)的詞向量;然后對四個單詞集中的所有單詞執(zhí)行權(quán)重歸一化,此處使用基于統(tǒng)計的靜態(tài)加權(quán)方法[14],即靜態(tài)數(shù)據(jù)中每個詞出現(xiàn)的頻率,這種頻率能一定程度上反映該詞的重要程度,靜態(tài)數(shù)據(jù)可以來源于醫(yī)療領(lǐng)域相關(guān)的文章等,其加權(quán)方法如式(5):

式中:S為“BMES”單詞集;

z(w)為詞典中單詞w在靜態(tài)數(shù)據(jù)統(tǒng)計中出現(xiàn)的頻率;

Z為單詞集中所有詞出現(xiàn)頻率之和;

ew為用于embedding lookup 的詞向量矩陣。

最后將4 個單詞集的表示形式組合成一個一維特征,再拼接到該字符向量的表示上,從而得到最終的輸入向量。

式中:xc代表字符c對應(yīng)的字向量;es(B,M,E,S)代表字符c匹配的單詞集加權(quán)組合后的詞向量。

2.2.2 LSTM 網(wǎng)絡(luò)

RNN(recurrent neural network)模型由于可以自動保存歷史信息并將其應(yīng)用到當(dāng)前輸出中,易于捕獲長距離依賴關(guān)系,這些特性十分適合處理時序信息,如序列標(biāo)注問題[15],但是在上下文距離過長的情況下,容易產(chǎn)生梯度爆炸或梯度消失的問題。由此衍生而來的LSTM,在RNN 模型基礎(chǔ)上增加了門控機制和一個用于保存長距離信息的memory cell,本文使用的Bi-LSTM 是在單向LSTM 的基礎(chǔ)上,增加一層反方向的LSTM,這樣能夠有效捕獲某一時刻的前后文信息。

LSTM 的門控機制由輸入門、遺忘門、輸出門3部分組成。以前向LSTM 為例,具體計算公式如下:

式(8)~(10)中:σ為sigmoid 函數(shù);

W和b為訓(xùn)練過程不斷更新的參數(shù)。

前向LSTM 與反向LSTM 具有相同的定義,但以相反的順序?qū)π蛄羞M(jìn)行建模。在向前和向后LSTM的第i時刻處的級聯(lián)隱藏狀態(tài)形成ci的上下文相關(guān)表示。

2.2.3 CRF 模型

一個簡單有效的標(biāo)簽?zāi)P褪鞘褂胔i的特性為每個輸出yi做出獨立的標(biāo)簽決策。但當(dāng)輸出標(biāo)簽之間有很強的依賴性時,獨立的分類決定顯示出局限性。CRF 是一種基于無向圖的判別式概率模型,它是指在給出一組隨機輸入變量的條件下,推斷出另一組輸出隨機變量的條件概率分布模式[15];對于序列標(biāo)注任務(wù),CRF 輸入序列為一個句子,輸出序列是句中每個字符的標(biāo)簽,采用CRF 可以添加對標(biāo)簽序列的預(yù)測約束(例如,在B-PER 后面不能接I-LOC),提高NER 的識別準(zhǔn)確率。

對于一個給定的輸入序列X,預(yù)測序列為y,本文定義如式(11)所示的打分函數(shù),它由兩部分組成,其中,A是轉(zhuǎn)移概率矩陣,Ayi,yi+1代表從yi標(biāo)簽到y(tǒng)i+1 標(biāo)簽的得分;P是經(jīng)過BiLSTM 網(wǎng)絡(luò)輸出的字符標(biāo)簽分?jǐn)?shù)矩陣,Pi,yi代表第i個字符作為標(biāo)簽yi的分?jǐn)?shù)。

在訓(xùn)練過程中,對正確標(biāo)簽序列進(jìn)行最大似然概率估計:

式中:YX是輸入序列X中所有可能的標(biāo)注序列。在解碼階段,利用動態(tài)規(guī)劃算法,找到最高的條件概率標(biāo)簽序列y*,即得分函數(shù)取得最大值對應(yīng)的序列:

3 實驗設(shè)計與結(jié)果分析

3.1 實驗數(shù)據(jù)分析及預(yù)處理

本文實驗的數(shù)據(jù)集來自于CCKS-2020 的評測任務(wù),官方提供的已標(biāo)注訓(xùn)練數(shù)據(jù)共1 050 條文本,為了更好地掌握數(shù)據(jù)集以便模型建模,本文對訓(xùn)練數(shù)據(jù)中各類別的實體數(shù)量以及長度進(jìn)行了統(tǒng)計,具體如表2 所示。

表2 訓(xùn)練語料實體統(tǒng)計結(jié)果Table 2 Entity statistics of training corpus

從表2 數(shù)據(jù)中可以看出,“疾病和診斷”和“解剖部位”兩類實體出現(xiàn)最為頻繁,其余各類別的實體數(shù)量分布在1 000~3 000 個。這是由電子病歷的特點所決定的,患者就醫(yī)都需要進(jìn)行臨床診斷,檢查的方式有兩種,輕微病癥只需藥物治療,特定疾病需手術(shù)配合藥物治療,因此藥物實體總數(shù)與檢查實體總數(shù)基本持平。同時,手術(shù)類實體的平均長度為12.49,且最大實體長度達(dá)84,這些表明了電子病歷中實體的特殊性,存在許多領(lǐng)域詞匯,因此對模型的識別準(zhǔn)確率提出較高要求。

對于深度神經(jīng)網(wǎng)絡(luò)模型來說,1 050 條訓(xùn)練數(shù)據(jù)不足以滿足模型對數(shù)據(jù)量的需求,本文分析訓(xùn)練數(shù)據(jù)后發(fā)現(xiàn),數(shù)據(jù)均由多個短句組成,導(dǎo)致文本長度過長,且相鄰短句之間語義弱關(guān)聯(lián),因此本文以“。”作為分隔符結(jié)合句末分隔,對訓(xùn)練數(shù)據(jù)進(jìn)行拆分,最終得到10 305 個句子序列。

同時為了驗證模型訓(xùn)練參數(shù)效果以及結(jié)果預(yù)測效果,采用交叉驗證法。如表3 所示,本文對訓(xùn)練數(shù)據(jù)按照6:2:2 的比例,將其劃分為訓(xùn)練集、驗證集和測試集。

表3 實驗數(shù)據(jù)集劃分Table 3 Experimental data division

本文對評測任務(wù)兩階段中發(fā)布的醫(yī)療詞典文檔進(jìn)行去重融合,得到一個包含6 類實體、6 293 個醫(yī)療實體的詞典,將其作為本文實驗所需詞典。

3.2 實驗環(huán)境及參數(shù)設(shè)置

本實驗基于TensorFlow 計算框架,使用GPU 加速,具體環(huán)境配置如表4 所示。

表4 實驗環(huán)境配置Table 4 Experimental environment configuration

本文設(shè)置字向量維數(shù)為200,進(jìn)行字詞融合的詞向量維度為50;考慮模型的收斂速度,將學(xué)習(xí)率設(shè)為0.001 5,同時,為了兼顧訓(xùn)練效率和后期穩(wěn)定性,設(shè)置warm up 占整個訓(xùn)練輪次的0.1,0.90 的學(xué)習(xí)率指數(shù)衰減,即迭代1 000 輪次后,學(xué)習(xí)率變?yōu)樵瓉淼?.90;隱藏層節(jié)點數(shù)設(shè)為300,為防止過擬合現(xiàn)象,Dropout 調(diào)整為0.5,具體見表5。經(jīng)過多次實驗后,驗證了所設(shè)參數(shù)的合理性。

表5 實驗超參數(shù)設(shè)置Table 5 Experimental hyperparameter setting

3.3 評價指標(biāo)

本實驗評價體系包括準(zhǔn)確率(P)、召回率(R)和F1值,各指標(biāo)具體公式如下:

式(14)~(16)中:S為模型輸出結(jié)果,記為S={S1,S2,…,Sm};

G為人工標(biāo)注結(jié)果,記為G={G1,G2,…,Gn}。

用嚴(yán)格的等價關(guān)系確定S∩G為S和G的交集。當(dāng)且僅當(dāng)一個實體的內(nèi)容、所屬類別、起始下標(biāo)和終止下標(biāo)4 個要素全部一致時,才認(rèn)為該實體的標(biāo)注結(jié)果是正確的。

3.4 實驗設(shè)計與結(jié)果分析

3.4.1 模型對比實驗

為驗證基于SoftLexicon 模型在中文電子病歷命名實體識別上的表現(xiàn),課題組設(shè)計了如下對比實驗方案:

1)BiLSTM-CRF 模型。通過訓(xùn)練語料生成200維的字向量,將待預(yù)測字符序列導(dǎo)入BiLSTM-CRF中進(jìn)行訓(xùn)練,最終得到序列預(yù)測標(biāo)簽。實驗參數(shù)設(shè)置同表5。

2)IDCNN-CRF 模型。 基于IDCNN(iterated dilated convolutional neural networks)的特征抽取和CRF 的約束模型。該模型卷積核個數(shù)設(shè)置為“256,512,512”卷積膨脹率為“1,2,2”,其余實驗參數(shù)設(shè)置同表5。

3)Lattice-LSTM 模型。在BiLSTM-CRF 基礎(chǔ)上引入外部詞典,為字符向量加入詞特征,并利用門結(jié)構(gòu)引導(dǎo)信息的流動。實驗參數(shù)設(shè)置同表5。

4)SoftLecicon 模型。在Lattice-LSTM 基礎(chǔ)上通過優(yōu)化輸入表示層編碼,將字符的4 類詞典集合,結(jié)合到字符的表示中。

表6 統(tǒng)計了4 種模型在測試集上的實驗表現(xiàn)。

表6 模型對比實驗結(jié)果Table 6 Model performance experimental results

通過分析發(fā)現(xiàn),與基于BiLSTM-CRF 模型識別的準(zhǔn)確率對比,在引入外部詞典信息后,實驗三、四所用模型在同類別實體上的識別效果表現(xiàn)出色,綜合F1值分別提升了4.62%和5.89%。據(jù)分析可能是由于電子病歷中實體的特殊性,單純基于字符向量的BiLSTM-CRF 模型不能準(zhǔn)確定位實體的邊界,導(dǎo)致實體識別會出現(xiàn)缺漏、多余的現(xiàn)象,這體現(xiàn)了引入先驗詞典資源的必要性。IDCNN-CRF 模型在引入卷積膨脹因子后,可以獲取到長距離依賴信息,適合處理長本文句子,SoftLexicon 模型在“疾病和診斷”和“手術(shù)”類實體識別上與實驗二基本持平甚至有超越。四種模型對“手術(shù)”類別實體的識別效果較差,F(xiàn)1值均低于75.00%。分析表2 可知,“手術(shù)”類實體總數(shù)為1 327 個,數(shù)據(jù)量不足,導(dǎo)致模型參數(shù)訓(xùn)練效果不佳,且平均實體長度為12.49,易產(chǎn)生邊界預(yù)測錯誤的現(xiàn)象。此外,4 種模型均存在不同程度的識別錯誤問題,例如,部分相似度高的實體被錯誤分類、樣本稀疏導(dǎo)致未識別出實體等。

與Lattice-LSTM模型識別效果對比,SoftLexicon 模型在對字符表示層進(jìn)行調(diào)整后,保留了更完整的詞典匹配信息,基于SoftLexicon 的識別模型綜合F1值達(dá)到90.05%,相比Lattice-LSTM 的F1值88.78%,有1.27%的提升;同時,SoftLexicon在各類實體識別效果上,P值和R值比較均衡,體現(xiàn)了模型的穩(wěn)定性。

3.4.2 模型效率對比實驗

為了分析SoftLexicon 模型在引入詞典后對運算效率的影響,本文以4 個模型在同一機器上的運行時間作為對比,結(jié)果如表7 所示。

表7 模型效率對比實驗結(jié)果Table 7 Model efficiency experimental comparison

實驗效率上,前兩個模型均迭代20 個Epoch,實驗三和實驗四引入詞典的方法,為防止過擬合現(xiàn)象,在運行12 個Epoch 后提前終止了迭代;通過分析表格,實驗四單個Epoch 的平均運行時長約0.45 h,總運行時間為5.4 h,相比實驗三的單個Epoch 所用時長減少0.40 h,總時長縮短約3.2 h。引入外部詞典的NER 方法相比實驗一、二的方法,不可避免地會增加運算量,但SoftLexicon 方法在計算速度上仍有不錯的表現(xiàn)。這可能是由于Lattice-LSTM 在不相鄰的字符之間額外增加了一個詞級別LSTM 通路,對字符組成的詞進(jìn)行編碼,再輸入到對應(yīng)字符的Cell中,因此解碼階段需耗費大量運算時間;而SotfLexicon方法是通過簡化詞典使用,只需將整合后的字向量輸入序列建模層,易于實現(xiàn)。

綜上所述,基于SoftLexicon 的方法無論在識別性能還是運行效率上,均有良好的表現(xiàn),在中文電子病歷命名實體任務(wù)上具有可行性。

4 結(jié)語

為了解決傳統(tǒng)中文電子病歷NER 方法對字符信息遺漏以及引入外部詞典資源的效率問題,本文提出了一種簡單有效地整合詞典信息到字符表示層中的方法,優(yōu)化了字符表示層的模型結(jié)構(gòu),該方法融合了深度學(xué)習(xí)和基于詞典方法兩者的優(yōu)勢,將更完整的字符信息輸入到序列建模層中,在中文電子病歷NER評測任務(wù)中,取得了不錯的效果。后續(xù)工作可從如下3 方面改進(jìn):

1)針對中文電子病歷中存在實體類別不均衡的現(xiàn)象,采取過采樣或欠采樣的方法,均衡各類別數(shù)量,以提升效果較差的實體識別效果[11];

2)尋找字符信息更簡單且準(zhǔn)確的特征表示;

3)BERT、ALBERT 等預(yù)訓(xùn)練語言模型在NLP多個任務(wù)中均取得不錯效果,考慮引入合適的預(yù)訓(xùn)練語言模型。

猜你喜歡
字符病歷詞典
尋找更強的字符映射管理器
強迫癥病歷簿
趣味(語文)(2021年9期)2022-01-18 05:52:42
“大數(shù)的認(rèn)識”的診斷病歷
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
字符代表幾
一種USB接口字符液晶控制器設(shè)計
電子制作(2019年19期)2019-11-23 08:41:50
消失的殖民村莊和神秘字符
評《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
為何要公開全部病歷?
洮南市| 甘泉县| 永宁县| 大余县| 阿合奇县| 白银市| 澄城县| 南雄市| 鲁山县| 定兴县| 沙坪坝区| 宽甸| 台安县| 内乡县| 绥阳县| 敦煌市| 辽中县| 丰县| 宁安市| 浦北县| 称多县| 会宁县| 昌都县| 益阳市| 肥西县| 松原市| 临潭县| 通许县| 广德县| 石河子市| 社旗县| 平安县| 邳州市| 资兴市| 泽库县| 麻阳| 东丽区| 辽宁省| 霸州市| 福贡县| 那坡县|