国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT-CRF 模型的電子病歷實體識別研究*

2022-04-07 03:43聞英友
計算機與數(shù)字工程 2022年3期
關(guān)鍵詞:字符病歷向量

何 濤 陳 劍 聞英友

(1.東北大學(xué)東軟研究院 沈陽 110169)(2.遼寧省工業(yè)控制安全工程技術(shù)研究中心 沈陽 110169)

1 引言

隨著醫(yī)療領(lǐng)域信息化的發(fā)展,電子病歷記錄了患者就診、檢驗、診斷、治療、預(yù)后、隨訪等完整的就醫(yī)過程,包含了豐富的醫(yī)學(xué)知識,如何從海量的電子病歷文本中挖掘出有價值的關(guān)鍵信息,成為智慧醫(yī)療領(lǐng)域的重要課題。醫(yī)療命名實體識別(Named Entity Recognition,NER)技術(shù)可以從電子病歷中提取重要的實體信息[1],對后續(xù)構(gòu)建醫(yī)療實體關(guān)系[2]、分析電子病歷句法[3]、構(gòu)建疾病知識圖譜[4]等發(fā)揮重要作用。但基于中文文本不像英文等語言在詞與詞之間存在分隔符,并且實體描述沒有統(tǒng)一的規(guī)范,使中文醫(yī)療命名實體識別具有很大的挑戰(zhàn)性。

語義規(guī)則和詞典是NER 領(lǐng)域較早使用的技術(shù),采用語言學(xué)專家手工構(gòu)造規(guī)則模板,但這些規(guī)則往往依賴于具體語言、領(lǐng)域和文本風格,通用性不強。在語料大數(shù)據(jù)發(fā)展的基礎(chǔ)上,命名實體識別問題更多地采用機器學(xué)習(xí)算法,較為常用的算法如支持向量機[5]、基于統(tǒng)計模型的隱馬爾科夫模型[6]、求解約束最優(yōu)化的最大熵模型[7]、無向圖模型條件隨機場(Conditional Random Field,CRF)[8]等。隨著神經(jīng)網(wǎng)絡(luò)及深度學(xué)習(xí)的發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)等方法,逐漸成為實體識別領(lǐng)域的主流方法。

Hammerto[9]提出將長短時記憶網(wǎng)絡(luò)模型用于命名實體識別,取得不錯的效果。Yang 等[10]提出了一種對抗網(wǎng)絡(luò)模型的方法,為構(gòu)建中文實體識別系統(tǒng)提供了一條新思路。Huang 等[11]提出在雙向長短時記憶網(wǎng)絡(luò)模型上,通過條件隨機場進一步對命名實體進行約束。在序列標注問題上,Ma 等[12]提出將循環(huán)神經(jīng)網(wǎng)絡(luò)、深層卷積神經(jīng)網(wǎng)絡(luò)和條件隨機場結(jié)合使用。Strubell 等[13]提出迭代膨脹卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated Convolutional Neural Networks,IDCNN),利用空洞卷積處理文本序列問題。Vaswani 等[14]提出Transformer 模型,該模型使用多頭自注意力機制,提取文本特征能力得到極大增 強。2018 年,Zhang 等[15]提 出 了 一 種Lattice LSTM(Long Short-Term Memory)模型,在字符作為輸入的基礎(chǔ)上,加上了分詞信息,將詞語信息輸入到基于字向量的模型中去。預(yù)訓(xùn)練的語言表征模型BERT(Bidirectional Encoder Representation from Transformers)[16]發(fā)布后,在NLP領(lǐng)域橫掃了11項任務(wù)的最優(yōu)結(jié)果,完成該領(lǐng)域的重要突破。

中文電子病歷與普通文本有很大的區(qū)別:通常包含大量的醫(yī)學(xué)術(shù)語,構(gòu)詞十分復(fù)雜,實體常常存在嵌套現(xiàn)象并且實體邊界模糊;醫(yī)學(xué)實體描述具有多樣性,沒有固定規(guī)則;隨著醫(yī)學(xué)技術(shù)的發(fā)展,新的實體不斷涌現(xiàn);公開的醫(yī)療領(lǐng)域命名實體標注數(shù)據(jù)集較少,人工標注價格昂貴,運用深度學(xué)習(xí)技術(shù)缺乏足夠的訓(xùn)練數(shù)據(jù)。這些特點進一步加大了醫(yī)療實體識別的難度,使醫(yī)療領(lǐng)域的實體識別性能難以達到可用的程度。

針對以上問題,本文引入預(yù)訓(xùn)練的語言表征BERT 模型,該模型并非采用傳統(tǒng)的單向語言模型或者把兩個單向語言模型進行淺層拼接的方法進行預(yù)訓(xùn)練,而是采用新的masked language model(MLM)對雙向的Transformers 進行預(yù)訓(xùn)練,生成深度的雙向語言表征,最終生成能融合上下文信息的深層雙向語言表征。

因此,本文提出一種BERT+CRF的電子病歷實體識別模型,首先使用標注數(shù)據(jù)對BERT 進行微調(diào),將得到的序列狀態(tài)分數(shù)經(jīng)條件隨機場層對序列狀態(tài)轉(zhuǎn)移做出約束優(yōu)化,通過實驗結(jié)果可知,該模型對比BiLSTM(Bi-directional LSTM)+CRF模型,F(xiàn)1分數(shù)可提高6.5%左右。

2 創(chuàng)建語料庫

為完成模型的訓(xùn)練,首先要構(gòu)建標注語料庫,所用病歷語料均來自三甲公立醫(yī)院的真實病歷,為保護患者隱私,數(shù)據(jù)經(jīng)過嚴格脫敏,不涉及任何個人敏感信息,搜集到的電子病歷總數(shù)量達到1 萬份。電子病歷文本實體提取問題,根據(jù)醫(yī)生在醫(yī)療過程中感興趣的信息創(chuàng)建實體類別,每個實體類別對應(yīng)一個標簽。需要定義實體標簽集,標簽集包括的實體類型有就診科室、性別、年齡、主訴、身體部位、癥狀、體格檢查、??茩z查、心電圖、診斷依據(jù)、診斷名稱、治療計劃、不良嗜好、現(xiàn)病史、既往史、家族史等共16類實體。

把數(shù)據(jù)集隨機分為訓(xùn)練集、驗證集和測試集,用訓(xùn)練集訓(xùn)練模型,用驗證集驗證模型、調(diào)整超參數(shù),用測試集評估最終的模型,三個數(shù)據(jù)集的數(shù)據(jù)分布如表1所示。

表1 命名實體樣本分布

本實驗選用3000 份電子病歷,在自行開發(fā)的文本標注系統(tǒng)上由相關(guān)專業(yè)醫(yī)生完成標注工作,標注內(nèi)容詳實準確。

標注方法采用目前最通用的BIOES[17]標注體系,B 表示該字符處于一個實體的開始(begin),I表示該字符處于一個實體的內(nèi)部(inside),O 表示該字符處于一個實體的外部(outside),E 表示該字符處于一個實體的結(jié)束(end),S表示該字符本身為一個實體(single)。

3 構(gòu)建電子病歷實體識別模型

BERT-CRF模型的整體結(jié)構(gòu)如圖1所示,兩層結(jié)構(gòu)分別是:1)使用預(yù)訓(xùn)練BERT 模型對標注數(shù)據(jù)進行訓(xùn)練和編碼,獲取準確的字符語義表示;2)CRF對上層的輸出結(jié)果進行狀態(tài)轉(zhuǎn)移約束。

圖1 BERT-CRF模型整體架構(gòu)

3.1 BERT預(yù)訓(xùn)練模型

與ELMO[18]、GPT 等模型相比,BERT 的模型的實現(xiàn)基于多層雙向Transformer 編碼器。Transformer使用了雙向自注意力機制,該機制打破了單向融合上下文信息的限制,采用新的masked language model(MLM)進行預(yù)訓(xùn)練并采用深層的雙向Transformer 組件構(gòu)建模型,從而生成融合上下文信息的深層雙向語言表征。

模型的輸入表示能夠在一個標記序列中清楚地表示連續(xù)文本,序列是指輸入到BERT 的標記序列,BERT模型的輸入表征如圖2所示。

圖2 BERT模型的輸入表征

BERT 的輸入數(shù)據(jù)分別是字符向量token embeddings、段向量segmentation embeddings 和位置向量position embeddings 的加和。字符向量是模型中關(guān)于字符最主要的信息;段向量用于提供文本的全局語義信息,句子末尾使用[SEP]作為結(jié)尾符,句子開頭使用[CLS]標識符;位置向量可以向Transformer 模型提供時序信息,反映不同位置的字符代表的語義差異。對于序列標注任務(wù),BERT 模型利用文本中每個字符對應(yīng)的輸出向量對該字符進行標注。

3.2 CRF層

CRF是一個序列化標注算法,接收一個輸入序列X,輸出目標序列Y,在線性鏈條件隨機場中,兩個相鄰的節(jié)點構(gòu)成一個最大團,并滿足公式:

使用CRF對給定的觀測序列X求解,可得狀態(tài)序列Y的概率公式為

因為相鄰的狀態(tài)序列之間具有限定關(guān)系,并依賴觀測序列數(shù)據(jù),在此應(yīng)用兩類特征函數(shù),狀態(tài)特征s與轉(zhuǎn)移特征t,代入建模公式可得:

其中歸一化函數(shù)為Z(X),轉(zhuǎn)移狀態(tài)函數(shù)為tk,tk權(quán)重為λk,狀態(tài)特征函數(shù)sl,sl權(quán)重為μl,k和l表示轉(zhuǎn)移狀態(tài)函數(shù)和狀態(tài)特征函數(shù)的個數(shù)。

tk和sl的取值為1、0,以tk為例,公式為

命名實體識別標記序列的依賴分布特點,有利于CRF擬合訓(xùn)練數(shù)據(jù),降低標簽序列預(yù)測中非法序列出現(xiàn)的概率。

4 實驗結(jié)果分析

4.1 訓(xùn)練模型

本文實驗的硬件環(huán)境是Dell R740 服務(wù)器,掛載2 塊NVIDIA Tesla P40 的GPU 卡;深度學(xué)習(xí)框架使用TensorFlow 1.12.0 版本。BERT 模型使用base版本,該版本網(wǎng)絡(luò)層數(shù)為12,隱藏層神經(jīng)單元數(shù)量為768,自注意力頭的數(shù)量為12,位置信息編碼的最大長度為512,字典大小為21128;根據(jù)模型配置參數(shù)加載BERT 模型,BERT 首先將輸入文本轉(zhuǎn)化為符合其輸入格式的數(shù)據(jù),經(jīng)過運算以后,將模型輸出結(jié)果連同真實標簽、狀態(tài)轉(zhuǎn)移矩陣輸入到CRF層,CRF 使用viterbi 算法,代替softmax 分類器做出分類。

4.2 結(jié)果對比

本實驗采用精度P、召回率R、F1分數(shù)三個指標評價模型性能,其計算公式為:

對比目前應(yīng)用最為廣泛的IDCNN+CRF模型和BiLSTM+CRF 模型,在相同的硬件環(huán)境下和相似的參數(shù)設(shè)置下,對三個模型在相同的數(shù)據(jù)集上進行測試。

訓(xùn)練過程中,設(shè)置三種模型的epoch 最大值為50,訓(xùn)練結(jié)束后,分別選擇在驗證集上實體識別的總F1分數(shù)加和性能最優(yōu)的模型,使用該模型在測試集上獲得各類實例的性能指標,其性能指標結(jié)果如表2所示。

表2 不同模型在測試集上實體識別性能

同一模型在各個實體類型上的得分會有較大的差異,比如BERT+CRF 模型的得分,“家族史”的F1分數(shù)只有0.8356,其原因是該類型實體在電子病歷中實體樣本數(shù)量較少,模型學(xué)習(xí)得不夠充分。

本文對上面序列標注問題廣泛使用的兩個模型和BERT+CRF 模型的性能指標進行統(tǒng)計對比,IDCNN+CRF 模型的F1分數(shù)達到0.7918,BiLSTM+CRF 模型的F1分數(shù)達到0.8173,相差不明顯。本文提出的BERT+CRF 模型,其F1分數(shù)為0.882,比BiLSTM+CRF模型提高6.5%,錯誤率下降30%,性能有了明顯的提升。

5 結(jié)語

本文針對中文電子病歷的特點,提出一種BERT+CRF 的命名實體識別方法,第一層的BERT模型使用預(yù)訓(xùn)練的BERT-Large 版本,在語料庫上進行微調(diào),第二層的CRF的對標簽集狀態(tài)轉(zhuǎn)移進行約束優(yōu)化,相比目前常用的實體識別模型,在性能上得到較大的提升,驗證了BERT 模型在中文序列標注問題的優(yōu)越性。

猜你喜歡
字符病歷向量
向量的分解
電子病歷評級的分析與總結(jié)
Python實現(xiàn)圖片轉(zhuǎn)字符畫
“病例”和“病歷”
正則表達式快速入門
圖片輕松變身ASCⅡ藝術(shù)畫
臨床表現(xiàn)為心悸的預(yù)激綜合征B型心電圖1例
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
視頻監(jiān)視系統(tǒng)中字符疊加技術(shù)的應(yīng)用
石渠县| 黎城县| 邵武市| 望谟县| 梁平县| 湄潭县| 咸宁市| 甘南县| 新闻| 台山市| 永春县| 新源县| 定南县| 白玉县| 翼城县| 黄浦区| 长岛县| 澄迈县| 平罗县| 交城县| 肇东市| 肇州县| 孟州市| 沈丘县| 乾安县| 莫力| 普安县| 浠水县| 东明县| 万全县| 新宾| 平和县| 台东市| 金堂县| 南宫市| 宜阳县| 玛曲县| 鄂托克前旗| 忻城县| 韩城市| 磴口县|