国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種文本相似度與BERT模型融合的手術(shù)操作術(shù)語歸一化方法

2021-05-27 05:31:46楊飛洪孫海霞
中文信息學(xué)報 2021年4期
關(guān)鍵詞:術(shù)語準確率樣本

楊飛洪,孫海霞,李 姣

(中國醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院 醫(yī)學(xué)信息研究所,北京 100020)

0 引言

手術(shù)操作原始詞是指醫(yī)生書寫的手術(shù)操作名稱。醫(yī)生個人書寫習(xí)慣的差異會導(dǎo)致手術(shù)操作原始詞與編碼標準詞之間存在細微差異,如使用手術(shù)操作的英文縮寫等。這些細微差異對手術(shù)操作規(guī)范和管理不利。國際疾病分類體系(ICD)于1975年開始對手術(shù)操作進行編碼規(guī)范,經(jīng)過數(shù)十年的發(fā)展,目前較為成熟的中文手術(shù)操作編碼方案有:北京協(xié)和醫(yī)院依據(jù)ICD-9手術(shù)操作編碼體系結(jié)合臨床實踐編制的《ICD9-2017協(xié)和臨床版》,目前在各醫(yī)院廣泛使用的《手術(shù)操作分類代碼國家臨床版1.1》以及正在逐步推行的《手術(shù)操作分類代碼國家臨床版2.0》[1]。各編碼體系的核心是手術(shù)操作代碼和相應(yīng)的手術(shù)操作標準術(shù)語,如表1所示。

表1 手術(shù)操作編碼示例

統(tǒng)一的手術(shù)操作編碼體系有利于施行醫(yī)院績效評估、醫(yī)保結(jié)算以及各級醫(yī)聯(lián)體間的患者轉(zhuǎn)診。因而,手術(shù)操作編碼體系更新導(dǎo)致的歷史文本數(shù)據(jù),以及醫(yī)生的書寫習(xí)慣造成的手術(shù)操作不規(guī)范用語,需要利用計算機技術(shù)進行文本數(shù)據(jù)歸一化處理。

國外自ShARe/CLEF eHealth 2013發(fā)布標注的臨床術(shù)語歸一化語料伊始,SemEval-2014 Task 7和SemEval-2015 Task 14相繼發(fā)布了英文的臨床術(shù)語歸一化語料。在這些語料上,研究者們紛紛構(gòu)建了各種臨床術(shù)語歸一化模型,并取得不少研究成果。第五屆中國健康信息處理會議(CHIP2019)臨床術(shù)語歸一化任務(wù)(簡稱Task1)[2]開放了手術(shù)操作歸一化數(shù)據(jù)集,其中訓(xùn)練集包含手術(shù)操作原始詞與標準詞共計4 000對,驗證集1 000對,測試集2 000條(未標注),各數(shù)據(jù)集術(shù)語分布基本一致。Task1數(shù)據(jù)集標注依據(jù)的手術(shù)操作編碼體系為《ICD9-2017協(xié)和臨床版》。評測任務(wù)具體內(nèi)容是給定一個手術(shù)操作原始詞,預(yù)測其在編碼體系中對應(yīng)的標準詞。Task1采用準確率評估模型效果,如式(1)所示。

準確率=預(yù)測準確的手術(shù)原始詞與標準詞數(shù)/需要預(yù)測的手術(shù)原始詞總數(shù)

(1)

本文首先分析Task1數(shù)據(jù)集樣本的特點,對樣本數(shù)據(jù)進行清洗;其次,調(diào)研臨床術(shù)語歸一化的相關(guān)技術(shù)方法;最后,結(jié)合數(shù)據(jù)集的特點和相關(guān)技術(shù)方法,構(gòu)建臨床手術(shù)操作原始詞歸一化模型。

1 相關(guān)工作

本節(jié)從共指消解、臨床術(shù)語歸一化和ShARe/CLEF 2013評測任務(wù)三個方面開展文獻綜述。

1.1 共指消解

從某種角度上看,Task1其實是手術(shù)操作術(shù)語的共指消解問題,即根據(jù)手術(shù)操作術(shù)語的各類表述尋找共同指代的手術(shù)操作編碼標準詞。

宋洋等人[3]研究了基于機器學(xué)習(xí)的中文共指消解方法。他們依據(jù)國際著名評測ACE(automatic content extraction,自動內(nèi)容抽取)對共指消解的定義,共指消解即為文本中的表述(mention,或稱為指稱語),確定其在真實世界中所指向的實體(entity)的過程。總結(jié)了有監(jiān)督的機器學(xué)習(xí)方法處理共指消解時的三個關(guān)鍵步驟:①表述或?qū)嶓w的檢測;②機器學(xué)習(xí)模型選擇;③訓(xùn)練數(shù)據(jù)的構(gòu)建。

表述檢測(也被稱為指稱語檢測,英文即mention detection),即識別出文本中可能產(chǎn)生共指的全部候選表述(候選表述來自于全部的名詞短語集合的某個子集),是共指消解的第一步。表述檢測的一般方法包括基于規(guī)則的方法[4]、基于學(xué)習(xí)的方法[5]以及規(guī)則和統(tǒng)計相結(jié)合的方法[6]。

機器學(xué)習(xí)模型主要用于針對表述對或表述—實體對的二元分類任務(wù),即判斷表述—表述是否等價或者表述—實體是否配對。文本分類是自然語言處理領(lǐng)域的經(jīng)典問題,可以實現(xiàn)二元分類任務(wù)的經(jīng)典機器學(xué)習(xí)模型有支持向量機(SVM)[7]、文本卷積神經(jīng)網(wǎng)絡(luò)(TextCNN)[8]、雙向長短時記憶網(wǎng)絡(luò)(Bi-LSTM)[9]和BERT[10]等。

機器學(xué)習(xí)模型訓(xùn)練集的構(gòu)建,即從訓(xùn)練集中采樣用于構(gòu)建模型學(xué)習(xí)的數(shù)據(jù)集。Mccarthy等人[11]將任何兩個不在同一實體(或被稱為共指鏈)中的表述構(gòu)成負例,任何兩個位于同一實體中的表述構(gòu)成正例。該方法產(chǎn)生的訓(xùn)練實例數(shù)量巨大,而且負樣本數(shù)遠遠大于正樣本數(shù),嚴重影響機器學(xué)習(xí)算法的效率,因此后來很少被采用。Soon等人[12]將每一個表述mi與其前面最近的一個共指的表述mj(j

1.2 臨床術(shù)語歸一化

Xu D等人[13]將術(shù)語歸一化的方法總結(jié)為兩個大類,其一是基于分類的方法,其二是基于排序?qū)W習(xí)的方法。他們認為基于分類的方法有兩個缺點,即需要預(yù)測的類別空間大和類別間樣本不均衡問題?;谂判?qū)W習(xí)的方法可分為點排序?qū)W習(xí)、對排序?qū)W習(xí)和列表排序?qū)W習(xí)三種不同形式。最終,他們構(gòu)建了一套基于BERT模型的表述候選生成器+列表排序?qū)W習(xí)的術(shù)語歸一化方法,在多個生物醫(yī)學(xué)的英文文本數(shù)據(jù)集中取得了最先進的結(jié)果。

1.3 相關(guān)評測任務(wù)

ShARe/CLEF 2013評測任務(wù)1開放了298份匿名化的臨床記錄,其中包含出院小結(jié)、心電圖報告、超聲檢查報告等。298份臨床記錄中,199份是訓(xùn)練集,共包含原始詞與標準詞對4 000余對;99份是測試集,共包含原始詞與標準詞對3 600余對。

基于ShARe/CLEF 2013評測任務(wù)1開放的數(shù)據(jù)集,Li等人[14]首先采用基于規(guī)則的方法生成候選集合,然后利用文本卷積神經(jīng)網(wǎng)絡(luò)模型(TextCNN)[8]對候選集合進行排序,取排序最靠前的詞為歸一化的標準詞。該模型在測試集上的準確率為90.3%。Luo等人[15]在總結(jié)前人研究的基礎(chǔ)上,提出了一種將傳統(tǒng)字典查找與雙向長短時記憶網(wǎng)絡(luò)模型(Bi-LSTM)[9]相結(jié)合的臨床術(shù)語歸一化方法,達到了90.6%的準確率,相較于單純的文本相似度方法的88.0%準確率,提升了2.6%。Ji等人[16]微調(diào)開源的BERT[10]、BioBERT[17]和ClinicalBERT[18]三個模型,利用這三個模型分別計算原始詞與標準詞間的相似度評分,在測試集上的準確率達到了91.10%。

2 方法

本節(jié)從Task1數(shù)據(jù)集的樣本特點、數(shù)據(jù)清洗和Task1歸一化方案的構(gòu)建這三個層面展開討論。

2.1 樣本特點

分析Task1訓(xùn)練集樣本,發(fā)現(xiàn)多個手術(shù)操作原始詞之間用“+”分隔,多個標準詞之間用“##”分隔。每一條樣本中,手術(shù)操作原始詞與標準詞之間的關(guān)系有5種:1:1關(guān)系占總樣本95.025%,n:1關(guān)系占3.25%,1:n關(guān)系占1.65%,n:n關(guān)系和m:n關(guān)系共占0.075%。Task1手術(shù)操作原始詞與標準詞示例,如表2所示。

表2 Task1臨床手術(shù)術(shù)語原始詞及標準詞示例

2.2 數(shù)據(jù)清洗

除了手術(shù)操作原始詞與標準詞之間的關(guān)系,我們還觀察到部分手術(shù)原始詞中包含標準詞的手術(shù)代碼,如手術(shù)原始詞“腮腺腫瘤(腫塊)切除術(shù)+面神經(jīng)解剖術(shù)((26.2910+04.0701))”中的“26.2910”。這些手術(shù)代碼由醫(yī)生手工填寫,與《ICD9—2017協(xié)和臨床版》手術(shù)操作編碼中的手術(shù)操作代碼并不一致。因此,需要利用正則表達式方法將這些原始詞中的手術(shù)代碼剔除。數(shù)據(jù)清洗后的手術(shù)原始詞示例如表3所示。

表3 手術(shù)原始詞數(shù)據(jù)清洗示例

Task1驗證集樣本特點與訓(xùn)練集基本一致,數(shù)據(jù)清洗采用同樣方法。

2.3 手術(shù)操作術(shù)語歸一化方案

觀察Task1數(shù)據(jù)集,可以發(fā)現(xiàn)手術(shù)操作原始詞與標準詞之間的文本相似度很高,同時手術(shù)操作原始詞之間相似性也很高,因此可以依據(jù)文本相似度特征排序產(chǎn)生手術(shù)操作原始詞-標準詞對的候選集,也就是共指消解中的表述檢測。本文選擇BERT作為手術(shù)操作原始詞-標準詞句對的二元分類模型。訓(xùn)練集的構(gòu)建策略為:將訓(xùn)練集每條樣本的手術(shù)操作原始詞與標準詞作為正例,將與該手術(shù)原始詞文本相似度相近而標準詞不同的前5個手術(shù)操作原始詞與該樣本的標準詞組成負例。正負樣本比例為1∶5,訓(xùn)練集采樣示例如表4所示。

表4 二元分類模型采樣示例

Task1手術(shù)原始詞歸一化的整個流程如圖1所示,可簡要概括為:首先依據(jù)訓(xùn)練集和手術(shù)操作編碼表建立標準詞-手術(shù)操作原始詞的映射表,依據(jù)映射表進行正負采樣用于訓(xùn)練BERT二分類模型;預(yù)測時,計算驗證集或測試集中的手術(shù)操作原始詞與映射表中手術(shù)操作原始詞的文本相似度,依據(jù)文本相似度排序取前5個映射樣本。然后,利用BERT模型判斷前5個映射對中待預(yù)測的手術(shù)操作原始詞與前5個映射對的手術(shù)操作標準詞是否等價。若等價,則對應(yīng)的標準詞作為最終答案返回;不等價,則取排序最靠前的手術(shù)操作標準詞返回。

圖1 Task1手術(shù)原始詞歸一化的流程

其中,文本相似度的計算,采用最長公共子序列算法,也就是兩段文本中相同的連續(xù)字符串長度占比越大,兩文本相似度越高。該算法在Python的difflib庫中提供了最佳實現(xiàn)。

訓(xùn)練時,將手術(shù)操作原始詞和標準詞作為句對,和等價標簽1或不等價標簽0一起輸入BERT模型進行訓(xùn)練。預(yù)測時,將手術(shù)操作原始詞和候選標準詞作為句對,輸入BERT模型,預(yù)測各句對的標簽:為1等價,為0不等價。同時,BERT模型可輸出相應(yīng)標簽的概率值,返回目標標準詞前,可計算預(yù)測標簽為0的概率值與標簽為1的概率值的差值,將該差值與設(shè)定的BERT模型參與度閾值(α)做比較,差值大于α值時才會依據(jù)BERT模型的結(jié)果進行處理,否則返回相似度最高的標準詞。

α閾值決定了BERT模型在預(yù)測過程中的參與度。如α=0時,表明完全信任BERT模型對手術(shù)操作原始詞和候選標準詞的預(yù)測結(jié)果;α=0.5時,則表明只有當(dāng)BERT模型預(yù)測為0的概率與預(yù)測為1的概率之差高于0.5時,才繼續(xù)判斷下一個候選句對的標簽值,也就是說BERT模型在整個標準詞的預(yù)測中,參與度僅有一半;α=1,則表明完全不信任BERT模型的預(yù)測結(jié)果,僅使用文本相似度的排序結(jié)果返回。標準詞預(yù)測過程的算法描述,如表5所示。

表5 標準詞預(yù)測過程算法表述

續(xù)表

3 結(jié)果

從Task1的訓(xùn)練集中采樣了手術(shù)操作原始詞和標準詞的句對正負例樣本共計69 300余條,采樣的正負例樣本如表4所示。BERT模型的超參數(shù):最大序列長度(max_sequence_len)為128,批訓(xùn)練子集的大小(train_batch_size)為128,訓(xùn)練周期(epoches)為3。BERT二元分類模型在采樣的驗證集上準確率達到了98.01%。

預(yù)測時,按照BERT模型對手術(shù)原始詞表述與標準詞的候選詞對篩選的貢獻程度,分為BERT模型完全參與篩選(α=0),BERT模型部分參與篩選(α=0.5)和BERT模型完全不參與篩選(α=1,也就是直接取與待預(yù)測手術(shù)原始詞相似度最高的手術(shù)原始詞對應(yīng)的標準詞返回)。三組模型在Task1驗證集上的準確率如表6所示,可知BERT模型的部分參與篩選可得到最高的準確率。

表6 三種篩選策略在驗證集上的準確率

按照BERT模型部分參與表述對篩選的預(yù)測策略,最終在Task1測試集上的準確率為88.51%。

4 消融實驗及對比實驗

相關(guān)研究[13]表明,文本檢索方法也可以用于獲取給定手術(shù)原始詞的候選標準詞。根據(jù)文獻調(diào)研,本文選擇Whoosh[19]作為文本檢索工具,用于替代最大序列長度算法,實驗對比如表7所示。Whoosh-based的方法均沒有基于文本相似度的方法準確率高。

表7 不同方案的歸一化準確率(α=0.5)

同時,本文也在相同實驗環(huán)境下實現(xiàn)了基于其他深度學(xué)習(xí)模型的二分類方法,如LSTM和Text-CNN。實驗表明,LSTM和TextCNN的表現(xiàn)不如BERT模型。

此外,對本文建構(gòu)的文本相似度+BERT模型方法進行消融實驗。實驗表明,“最大序列長度算法+BERT”方法的驗證集準確率為88.35%,相比僅使用“最大序列長度算法”提升了10.28%。

CHIP2020發(fā)布了新型的臨床術(shù)語歸一化任務(wù),相較于CHIP2019的手術(shù)術(shù)語歸一化任務(wù),CHIP2020包含了更多的臨床術(shù)語類型,訓(xùn)練集有8 000個臨床術(shù)語+標準詞的詞對。驗證集及測試集還未公開。本文為驗證方法的可擴展性,將CHIP2020的訓(xùn)練集以8∶2的比例切分為新的訓(xùn)練集與測試集后,本文所述方法的效率表現(xiàn)如表8所示。實驗表明,基于文本相似度的方法[也就是,BERT模型完全不參與(α=1)]的準確率為25.69%,這說明該數(shù)據(jù)集中臨床原始詞與標準詞之間的文本相似度較低,然而本文提出的“文本相似度+BERT模型”方法準確率為31.88%,依然可以提升6.19%。

表8 三種篩選策略在CHIP2020中的準確率

5 討論

深度學(xué)習(xí)模型在手術(shù)原始詞候選詞對篩選中的參與度閾值的設(shè)置,需要進一步探討。我們嘗試將BERT模型的參與度閾值設(shè)為α=0.8,驗證集上的準確率為86.80%??梢妳⑴c度閾值的設(shè)置對模型準確率有直接影響。

手術(shù)原始詞的表述檢測方案需要進一步研究。本文選擇文本相似度作為手術(shù)原始詞表述檢測,導(dǎo)致預(yù)測結(jié)果中出現(xiàn)文本重心偏移的情況出現(xiàn),如驗證集中手術(shù)原始詞“腹膜外子宮下段剖宮產(chǎn)術(shù)”的正確標準詞為“腹膜外剖宮產(chǎn)”,而模型預(yù)測結(jié)果為“低位子宮下段剖宮產(chǎn)”。添加規(guī)則的表述檢測方法也許能夠避免類似情況的出現(xiàn),進而提高模型預(yù)測準確率。

從預(yù)測結(jié)果文件選取代表性的正確與錯誤樣本各3例,進行模型預(yù)測結(jié)果分析如表9所示。觀察正確樣例可知:①手術(shù)原始詞與標準詞的文本相似度越高,越容易被正確預(yù)測,如原始詞“右尺神經(jīng)松解術(shù)”和標準詞“尺神經(jīng)松解術(shù)”;②待測手術(shù)原始詞與訓(xùn)練集中的手術(shù)原始詞相似度越高,越容易被正確預(yù)測,如待測手術(shù)原始詞“右肺上葉后段切除術(shù)”,雖然該詞與標準詞“肺節(jié)段切除術(shù)”相似度不高,但是與該標準詞的映射原始詞“右肺下葉背段切除術(shù)”有較高的相似度;③針對手術(shù)原始詞的拆分處理可以較好預(yù)測n:n的數(shù)據(jù)類型,如手術(shù)原始詞“T12椎體活檢+椎體成形術(shù)”經(jīng)“+”拆分后,可以被模型正確預(yù)測為標準詞“椎骨活組織檢查##經(jīng)皮椎骨成形術(shù)”。觀察錯誤樣例可知:①模型對于原始詞:標準詞關(guān)系為1:n或m:n的樣本預(yù)測不全;②模型沒有考慮原始詞經(jīng)拆分后發(fā)生上下丟失的情況,如原始詞“腹腔鏡右側(cè)多囊腎去頂減壓+被膜剝脫術(shù)”被拆分為“腹腔鏡右側(cè)多囊腎去頂減壓”和“被膜剝脫術(shù)”,導(dǎo)致“被膜剝脫術(shù)”上下文缺失,從而被錯誤預(yù)測為“筋膜剝脫術(shù)”。

表9 正確與錯誤樣例

綜上所述,未來可對本文所提架構(gòu)模型進行如下三個方面的改進:①有針對性地采用表述候選方法,本文所提文本相似度方法在CHIP2019的手術(shù)術(shù)語歸一化數(shù)據(jù)集中效果優(yōu)異,然而用于CHIP2020的臨床術(shù)語歸一化任務(wù)時表現(xiàn)不佳,這表明候選表述的提取方法需要因地制宜;②應(yīng)對原始詞與標準詞關(guān)系為1:n或m:n時,可以考慮利用深度學(xué)習(xí)模型先進行原始詞與標準詞的關(guān)系預(yù)測;③原始詞的候選表述召回率越高越好,召回率越高說明標準詞出現(xiàn)在候選表述中的概率越大,深度學(xué)習(xí)模型可以發(fā)現(xiàn)標準詞的概率也越高。

6 結(jié)論

本文首先探究了CHIP臨床術(shù)語歸一化任務(wù)(Task1)訓(xùn)練集及驗證集的樣本特點并進行了數(shù)據(jù)清洗工作;其次,將Task1視作共指消解任務(wù),從文本共指消解角度討論了基于學(xué)習(xí)模型的共指消解的關(guān)鍵步驟;最后,依據(jù)共指消解的三個關(guān)鍵步驟,結(jié)合Task1樣本數(shù)據(jù)的特點,構(gòu)建了基于相似度的手術(shù)操作原始詞排序+BERT二元分類的預(yù)測模型,該模型在Task1驗證集上獲得了最高88.35%的準確率,在測試集上獲得了88.51%的準確率。

此外,本文討論了可以改進模型準確率的三個思考方向,即二元分類模型的選擇、學(xué)習(xí)模型參與度閾值的設(shè)置以及手術(shù)原始詞表述檢測方案的制定。這三個方向?qū)δP蜏蚀_率的提升是否有幫助,值得后續(xù)進一步研究。

猜你喜歡
術(shù)語準確率樣本
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
用樣本估計總體復(fù)習(xí)點撥
推動醫(yī)改的“直銷樣本”
高速公路車牌識別標識站準確率驗證法
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
有感于幾個術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
谢通门县| 玉龙| 惠州市| 刚察县| 石嘴山市| 米脂县| 宜城市| 楚雄市| 凌源市| 三门峡市| 泽普县| 阿拉善左旗| 同德县| 扎赉特旗| 瑞金市| 来凤县| 雷州市| 永丰县| 赣榆县| 文成县| 大同县| 东光县| 海淀区| 宕昌县| 双流县| 庆元县| 孟村| 安顺市| 阿鲁科尔沁旗| 佛坪县| 呼和浩特市| 安西县| 林西县| 汕尾市| 镇安县| 吉林市| 高密市| 河源市| 建湖县| 井陉县| 内丘县|