国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中英文對照的影像學(xué)報(bào)告在預(yù)測模型中的一致性評價(jià)

2023-10-19 08:14:46李一晨黃艷群張志強(qiáng)王牧雨郜斌宇陳卉
中國醫(yī)療設(shè)備 2023年10期
關(guān)鍵詞:中英文一致性英文

李一晨,黃艷群,張志強(qiáng),王牧雨,郜斌宇,陳卉

1.首都醫(yī)科大學(xué) 生物醫(yī)學(xué)工程學(xué)院,北京 100069;2.臨床生物力學(xué)應(yīng)用基礎(chǔ)研究北京市重點(diǎn)實(shí)驗(yàn)室,北京 100069

引言

目前,深度學(xué)習(xí)方法在自然語言處理、多模態(tài)機(jī)器學(xué)習(xí)等領(lǐng)域中取得了顯著進(jìn)展,但針對特定任務(wù)需要使用專有數(shù)據(jù)對模型進(jìn)行訓(xùn)練,耗費(fèi)大量時(shí)間和經(jīng)濟(jì)成本[1]。預(yù)訓(xùn)練模型與微調(diào)相結(jié)合的方式是解決這一問題的常用方式,許多學(xué)者通過搭建預(yù)訓(xùn)練模型處理電子病歷(Electronic Medical Record,EMR)[2-3]。EMR 是指通過信息化的醫(yī)療管理系統(tǒng)存儲管理患者的相關(guān)數(shù)據(jù),包括住院史、病史和實(shí)驗(yàn)室指標(biāo)等,具有存儲成本低、便于管理等特點(diǎn),有利于實(shí)現(xiàn)患者追蹤管理[4]。目前國內(nèi)尚缺少可用于搭建預(yù)訓(xùn)練模型的開放、大規(guī)模EMR 公共數(shù)據(jù)集,而國外已有如美國麻省理工學(xué)院發(fā)布的Medical Information Mart for Intensive Care(MIMIC)數(shù)據(jù)庫等公開數(shù)據(jù)集。然而,國外 EMR 數(shù)據(jù)庫與國內(nèi)數(shù)據(jù)庫中臨床文本的語言不同,因此如果利用它們搭建面向國內(nèi) EMR 的預(yù)訓(xùn)練模型時(shí),需要解決臨床文本語言不同的問題。解決這一問題的方法之一是直接將英文文本翻譯成中文后用于搭建中文預(yù)訓(xùn)練模型,但直接將英文文本翻譯成中文文本能否能表達(dá)原英文文本的語義和知識以及在機(jī)器學(xué)習(xí)任務(wù)中能否達(dá)到相同的性能等問題還需要探索?;诖耍狙芯恐荚谔骄繉⒂⑽奈谋緫?yīng)用于搭建中文預(yù)訓(xùn)練模型、將國外 EMR數(shù)據(jù)集用于搭建面向國內(nèi)應(yīng)用的預(yù)訓(xùn)練模型的可行性。

1 資料與方法

1.1 數(shù)據(jù)準(zhǔn)備

本研究的數(shù)據(jù)來源為MIMIC-IV 數(shù)據(jù)集,其是一個(gè)多參數(shù)、結(jié)構(gòu)化、包含圖像和文本等多模態(tài)數(shù)據(jù)的大型數(shù)據(jù)集[5],在去隱私化后對公眾免費(fèi)開放,提供給全球的研究者進(jìn)行研究[6-7]。由于數(shù)據(jù)集中的影像學(xué)報(bào)告均為胸部X 線片報(bào)告,因此本研究選取肺部疾病患者的文本作為研究對象。

根據(jù)患者的第一診斷提取患者記錄,將第一診斷為肺炎[國際疾病分類(International Classification of Diseases,ICD)第十次修訂本(ICD-9)編碼如481、486、4801 等;國際疾病分類第九次修訂本(ICD-10)編碼如J1000、J1008、J121 等)、氣胸(ICD-9 編碼如5120、5121、5128 等;ICD-10 編碼如J930、J9311、J9381 等)和胸腔積液(ICD-9 編碼如5119、51181、51189;ICD-10 編碼如J90、J910、J940、J942)的住院患者的X 線影像報(bào)告提取出來,并進(jìn)一步提取影像報(bào)告中“影像所見”部分的文本,后續(xù)任務(wù)均基于這些文本。在提取數(shù)據(jù)并進(jìn)行數(shù)據(jù)清洗之后,列入本研究的X 線影像報(bào)告共1986 份。在1986 份影像報(bào)告中,患者的患病情況如表1 所示。

表1 病例患病情況(分)

1.2 文本處理

1.2.1 英文翻譯為中文

雙語評估替換(Bilingual Evaluation Understudy,BLEU)評分于2002 年由Papineni 等[8]提出,是廣泛應(yīng)用于翻譯效果評價(jià)的指標(biāo)。本研究測試了百度翻譯和谷歌翻譯對影像報(bào)告進(jìn)行翻譯,并使用BLEU 評分對兩者翻譯結(jié)果進(jìn)行量化評價(jià),最終將BLEU 評分較高的翻譯工具提供的中文文本用于后續(xù)研究。依據(jù)BLEU 評分原則為1-gram、2-gram、3-gram、4-gram 分配不同的權(quán)重,并將1-gram至4-gram下的BLEU評分進(jìn)行加權(quán)求和,結(jié)果如表2 所示。最終選取百度翻譯對影像報(bào)告文本的影像所見部分進(jìn)行翻譯。

表2 不同權(quán)重下的BLEU評分(分)

1.2.2 分詞與向量化

對于中文版本的影像報(bào)告,采用jieba 分詞軟件進(jìn)行分詞。在本研究中,通過閱讀X 線影像報(bào)告,人工記錄了報(bào)告中的專業(yè)詞匯,并將它們添加到詞典中,用于輔助jieba 分詞。對于英文文本,直接按照空格分詞。

使用Doc2vec[9]、詞頻-逆文檔頻率算法(Term Frequency - Inverse Document Frequency,TF-IDF)[10]、Tokenizer[11]和雙向編碼器表示(Bidirectional Encoder Representation from Transformers,BERT)[12]進(jìn) 行 文本向量化。其中,對于英文文本,使用BERT-Base-Uncased 進(jìn)行向量化;對于中文文本,使用BERTBase-Chinese 進(jìn)行向量化,為了便于表述,以下統(tǒng)稱為BERT。使用Doc2vec、Tokenizer 和TF-IDF 向量化方法,將中英文文本嵌入為一個(gè)100 維的向量;使用BERT 時(shí)將每篇中英文文本轉(zhuǎn)換為一個(gè)256 維的向量。

1.3 分類模型與分類任務(wù)

在對中英文文本進(jìn)行分詞與向量化之后,通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、TextCNN[13]、Softmax 和隨機(jī)森林(Random Forest,RF)[14]進(jìn)行疾病分類。

本研究設(shè)置了3 種二分類任務(wù)、3 種三分類任務(wù)和1 種五分類任務(wù)。二分類任務(wù)分別對肺炎-正常、氣胸-正常、胸腔積液-正常進(jìn)行分類;三分類任務(wù)分別對肺炎-氣胸-正常、氣胸-胸腔積液-正常、肺炎-胸腔積液-正常進(jìn)行分類;五分類任務(wù)則針對僅肺炎-僅氣胸-僅胸腔積液-患多種病-正常進(jìn)行分類。由于BERT 向量化方法有較多參數(shù),需要用較多數(shù)據(jù)進(jìn)行訓(xùn)練,因此本研究僅在樣本較多的胸腔積液-正常二分類任務(wù)(共1020 例樣本)和五分類任務(wù)(共1986 例樣本)上采用BERT 方法。各分類任務(wù)采用的輸入向量以及分類器模型整理如表3 所示。

表3 向量化、分類方法及其對應(yīng)任務(wù)

1.4 模型分類結(jié)果的評價(jià)

以7 ∶3 的比例將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測試集。使用F1 值對分類模型在測試集上的分類準(zhǔn)確性進(jìn)行評估[15]。使用一致率和Kappa 系數(shù)對中英文文本分類結(jié)果的一致性進(jìn)行評價(jià)[16]。Kappa 值>0.40 時(shí)認(rèn)為一致性中等,Kappa 值>0.75 則認(rèn)為一致性較高。

2 結(jié)果

2.1 二分類任務(wù)結(jié)果與一致性

各個(gè)任務(wù)下,模型所得F1 值、一致率、Kappa 值如表4 所示,胸腔積液-正常二分類任務(wù)中,BERTSoftmax 在對中英文版本的影像報(bào)告的分類中,所得F1值(中文0.917 和英文0.948)明顯高于其他模型,得到一致率為0.922,Kappa 值為0.724。在肺炎-正常分類任務(wù)中,TF-IDF-RF 方案能夠得到較高的F1 值(中文0.834 和英文0.845),Tokenizer-CNN 得到更高的一致率(0.730)和Kappa 值(0.459)。在氣胸-正常分類任務(wù)中,Tokenizer-CNN 方案對于英文文本的分類能夠得到較高的F1 值(0.832);TF-IDF+Doc2vec-TextCNN與TF-IDF-RF 相比,前者對中文文本分類效果較好,后者對英文文本分類效果較好;此3 個(gè)模型得到的分類一致率范圍在0.801~0.819,Kappa 值范圍在0.203~0.312。在二分類任務(wù)中,中英文文本具有中等的一致性。

表4 二分類任務(wù)下各模型性能及結(jié)果一致性

2.2 三分類任務(wù)結(jié)果與一致性

三分類任務(wù)下各個(gè)模型的性能及結(jié)果一致性指標(biāo)值如表5 所示,Tokenizer-CNN 模型在肺炎-氣胸-正常三分類和氣胸-胸腔積液-正常三分類中,F(xiàn)1 值高于其他模型。在各個(gè)模型下,一致率均可以達(dá)到0.65 以上,Kappa 基本可以達(dá)到0.40 以上,說明在此任務(wù)下中英文不同語言版本的影像報(bào)告具有中等的相似性。在肺炎-胸腔積液-正常三分類任務(wù)中,TF-IDF+Doc2vec-TextCNN 方案可以得到更高的F1 值,但3 個(gè)模型的性能均低于在其他兩個(gè)三分類任務(wù)中模型的性能,因此在此任務(wù)中中英文不同語言版本的影像報(bào)告的一致率和Kappa 值相對較低,中英文文本一致性差。

表5 三分類任務(wù)下各模型性能及結(jié)果一致性

2.3 五分類任務(wù)結(jié)果與一致性

在五分類任務(wù)中,BERT-Softmax 方案對中文文本進(jìn)行分類的F1 值可達(dá)0.664,對英文文本分類的F1 值可達(dá)0.777,中英文結(jié)果的一致率為0.744,Kappa 值為0.638。說明在此任務(wù)中,中英文文本分類結(jié)果的一致性較高。

3 討論

大規(guī)模訓(xùn)練樣本是建立 EMR 預(yù)訓(xùn)練模型的關(guān)鍵,在目前難以獲得可用的國內(nèi) EMR 數(shù)據(jù)集的情況下,利用國外公開的大規(guī)模數(shù)據(jù)集可作為一種備選方法。本研究將國外 EMR 數(shù)據(jù)集MIMIC-IV 中胸部X 線影像學(xué)報(bào)告的英文文本翻譯為中文,探究二者完成機(jī)器學(xué)習(xí)任務(wù)時(shí)結(jié)果的一致性,從任務(wù)的角度驗(yàn)證中文譯文是否能保留原英文的語義和信息,目前尚無類似研究的報(bào)道。

在跨語言文本相似度的研究中,一些研究將不同語言的文本利用深度學(xué)習(xí)方法投影到雙語共享的同一向量空間,利用詞向量距離度量其語義相似度,并用于抄襲檢測等任務(wù)[20-21]。也有研究跨語言文本投影到獨(dú)立于語言的語義空間中,使用如余弦相似性[22]、Jaccard 相似性系數(shù)[23]等方式進(jìn)行文本相似度的評估,以達(dá)到多語言文本進(jìn)行主題分類、文本分類等目的[24]。本研究在將中文文本和英文文本分別投射到不同的向量空間中后,并不直接衡量文本間的相似程度,而是利用這些文本向量完成同樣的分類任務(wù),對分類結(jié)果的一致性進(jìn)行評價(jià),因而是一種任務(wù)驅(qū)動(dòng)的跨語言文本相似性評價(jià),對利用英文文本的中文譯本建立機(jī)器學(xué)習(xí)模型更有借鑒意義。

在將醫(yī)療文本用于機(jī)器學(xué)習(xí)分類任務(wù)(如預(yù)測患者結(jié)局)時(shí),影響分類性能的因素包括文本的嵌入(向量化)方法、分類算法等[25-26]。因此評價(jià)中英文文本分類的結(jié)果一致性時(shí)也需要考慮這些因素,特別是對文本的處理方法。有研究顯示,基于BERT 預(yù)訓(xùn)練模型的文本向量化方法會(huì)帶來顯著的性能提升[27-28],而在本研究中也發(fā)現(xiàn),采用BERT 預(yù)訓(xùn)練模型進(jìn)行文本向量化后,不僅分類性能高(F1 值最高可達(dá)0.9 以上),而且中英文文本分類結(jié)果的一致性也最高(一致率最高可達(dá)0.92%,Kappa 值超過0.7)。此外,從分類算法考察,對于同一任務(wù),相比深度學(xué)習(xí)中的常規(guī)CNN 和用于文本的TextCNN,RF 算法反而可以獲得較高的結(jié)果一致性,而基于BERT 的文本向量化后,簡單的Softmax 分類函數(shù)就可達(dá)到最高一致性。

本研究存在以下不足:① 本研究的文本僅為X 線影像報(bào)告文本,醫(yī)療文本的來源和種類較為單一。后續(xù)的研究中將選擇更多類型的醫(yī)療文本(如CT 影像報(bào)告、病程記錄文本),進(jìn)行更廣泛的對比、評價(jià)、驗(yàn)證實(shí)驗(yàn)。② 本研究使用適合大批量自動(dòng)翻譯的機(jī)器翻譯工具進(jìn)行翻譯,翻譯軟件的性能會(huì)對中英文文本的分類一致性產(chǎn)生影響,未來將在后續(xù)的研究中針對文本的特點(diǎn)結(jié)合領(lǐng)域知識改進(jìn)翻譯的準(zhǔn)確性。③ 本研究采用了任務(wù)驅(qū)動(dòng)的文本性能評價(jià)方法,因此評價(jià)結(jié)果可能受到機(jī)器學(xué)習(xí)任務(wù)的影響,因而具有一定的局限性。

EMR 的應(yīng)用場景較多,后續(xù)將設(shè)置更多任務(wù)(如聚類分析、評估患者相似性、預(yù)測患者結(jié)局等),本研究將國外 EMR 數(shù)據(jù)集中的英文文本翻譯為中文后,相當(dāng)于擁有了類似國內(nèi) EMR 的大規(guī)模數(shù)據(jù)集,為建立國內(nèi) EMR 預(yù)訓(xùn)練模型缺少大數(shù)據(jù)支撐這一難題提供了一種解決思路。

4 結(jié)論

本研究結(jié)果表明,在二分類任務(wù)下,中英文版本影像學(xué)報(bào)告分類BERT-Softmax 模型可以得到一致率為0.922,Kappa 值為0.724;在三分類任務(wù)下,Tokenizer-CNN、TF-IDF+Doc2vec-TextCN、TF-IDF-RF 中英文版本的影像學(xué)報(bào)告分類一致率可以達(dá)到0.6~0.7,Kappa 值可以達(dá)到0.3~0.4;在五分類任務(wù)下,BERT-Softmax 得到中英文文本分類一致率為0.744,Kappa 值為0.638。針對特定任務(wù),可以通過尋找合適的模型,使同源的中英文不同版本X 線影像報(bào)告在分類任務(wù)中表現(xiàn)出較高的一致性,證明將源于英文數(shù)據(jù)庫中的文本數(shù)據(jù)在翻譯后用于搭建面向中文預(yù)訓(xùn)練模型具有可行性。

猜你喜歡
中英文一致性英文
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學(xué)、評一致性 提高一輪復(fù)習(xí)效率
IOl-master 700和Pentacam測量Kappa角一致性分析
《古脊椎動(dòng)物學(xué)報(bào)(中英文)》編委會(huì)
第35卷(2020年)A輯中英文總目次
英文摘要
英文摘要
英文摘要
英文摘要
APPITA 2015年第2期中英文摘要
中國造紙(2016年3期)2016-04-19 08:29:58
青田县| 江永县| 兰州市| 福泉市| 嘉定区| 达日县| 长寿区| 章丘市| 台北市| 建湖县| 格尔木市| 青田县| 邵阳市| 眉山市| 保山市| 青海省| 民乐县| 汾阳市| 昌图县| 凤阳县| 泰宁县| 南澳县| 安福县| 长兴县| 晋州市| 开阳县| 兴宁市| 鄂尔多斯市| 太谷县| 尼木县| 寿宁县| 皋兰县| 霸州市| 邵武市| 会宁县| 阜南县| 名山县| 芦山县| 潼南县| 凌云县| 万源市|