李子昊 陳漠沙 馬鎮(zhèn)新 尹康平 童毅軒 譚傳奇 郎珍珍
(阿里巴巴 杭州 310000)
湯步洲 徐 健
(哈爾濱工業(yè)大學(深圳)鵬城實驗室 深圳518055) (阿里巴巴 杭州 310000)
互聯(lián)網(wǎng)在線問診文本中包含大量醫(yī)學相關(guān)概念,如何利用文本挖掘和深度學習技術(shù)獲取相關(guān)醫(yī)學知識近年來受到廣泛關(guān)注[1-2]。然而醫(yī)學概念的復(fù)雜性和多樣性、醫(yī)療數(shù)據(jù)的隱私性都為相關(guān)研究帶來巨大挑戰(zhàn)。近年來,國際生物與臨床信息學集成研究項目(Informatics for Integrating Biology and the Bedside,i2b2)以及中國健康信息處理會議(China Health Information Processing Conference,CHIP)等積極倡導從醫(yī)療數(shù)據(jù)中挖掘相關(guān)信息,針對非結(jié)構(gòu)化病歷數(shù)據(jù)組織一系列評測任務(wù),這些評測任務(wù)和數(shù)據(jù)集在相關(guān)研究社區(qū)中獲得廣泛影響力,在醫(yī)學信息處理領(lǐng)域發(fā)揮了重要作用。
醫(yī)學領(lǐng)域的實體、關(guān)系抽取技術(shù)可識別醫(yī)學概念以及概念之間的相互關(guān)系,并將這些知識應(yīng)用到醫(yī)療知識圖譜中,從而能有效提升醫(yī)療圖譜的可解釋性。人工標注圖譜成本較高,為了獲取更多、更準確的關(guān)系知識,需要利用實體關(guān)系聯(lián)合抽取技術(shù)[3-5]。
因果關(guān)系是一種重要的關(guān)系類型,特別是在注重可解釋性的醫(yī)學領(lǐng)域文本中。目前國外研究人員已提出多個因果關(guān)系抽取數(shù)據(jù)集,如 Dominique M等[6]提出的基于金融領(lǐng)域的因果抽取數(shù)據(jù)集FinCausal,Tan F A等[7]提出的基于新聞領(lǐng)域的因果關(guān)系提取任務(wù),在醫(yī)療領(lǐng)域 BioCreativeV社區(qū)提出的從生物醫(yī)學文獻中自動抽取因果關(guān)系實體并用相關(guān)語句表示的任務(wù)[8]。相較于國外,國內(nèi)醫(yī)學因果關(guān)系推理方面的公開數(shù)據(jù)集資源還比較匱乏。因此,本文充分利用醫(yī)學搜索引擎以及在線問診的醫(yī)療回答文本,構(gòu)建首個中文醫(yī)學因果關(guān)系抽取數(shù)據(jù)集CMedCausal,并依托CHIP 2022會議舉辦“醫(yī)學因果實體關(guān)系抽取”評測比賽(http://cips-chip.org.cn/2022/eval2)。研究人員可利用CMedCausal開展醫(yī)學因果關(guān)系挖掘,因果解釋網(wǎng)絡(luò)構(gòu)建等方向的工作,從而提升醫(yī)療問診結(jié)果的可解釋性。
抽取有來醫(yī)生網(wǎng)站(https://m.youlai.cn)上較為工整且長度超過200個中文字符的線上問診及醫(yī)典百科數(shù)據(jù)。所采集大部分網(wǎng)上公開問診數(shù)據(jù)并沒有涉及患者隱私信息,所以不需要進行脫敏處理。篩選后的文本共包含9 153段文本,文本平均長度為265個字符。
2.2.1 概述 數(shù)據(jù)集需要對醫(yī)學概念片段以及醫(yī)學概念片段之間的關(guān)系進行標注。醫(yī)學概念片段指可作為一個獨立語義單元的連續(xù)字符片段,可以是醫(yī)學實體、臨床發(fā)現(xiàn)或者具體疾病癥狀,從因果謂詞表達上看這些片斷行使條件、原因或者結(jié)果的語義角色,邊界通常采用奧卡姆剃刀原則,保留原始含義的最小片段。標注人員限定了以臨床發(fā)現(xiàn)和疾病為中心的醫(yī)學概念片段內(nèi)容,臨床發(fā)現(xiàn)也包括實驗室檢驗結(jié)果以及檢查結(jié)果。醫(yī)學概念片段之間關(guān)系包括因果關(guān)系、條件關(guān)系、上下位關(guān)系3種類型。
2.2.2 因果關(guān)系 指某種原因直接導致某種結(jié)果的關(guān)系。對于醫(yī)學上常見的疾病和臨床之間的關(guān)系即歸類為因果關(guān)系。例如“人體的胃腸道功能紊亂,導致患者吸收能力變差”。本例中“胃腸道紊亂”是一個醫(yī)學概念片段,“胃腸道功能紊亂”是“吸收能力變差”的直接原因,“吸收能力變差”是“胃腸功能紊亂”的直接結(jié)果。因果關(guān)系是醫(yī)療問診里最常見的關(guān)系,也是判斷問診回答邏輯性最重要的依據(jù),對于構(gòu)建整個醫(yī)療知識圖譜、實現(xiàn)自動診斷、提高醫(yī)療問診可解釋性有重要意義。
2.2.3 條件關(guān)系 指醫(yī)學概念片段中一些特定的條件,用于修飾特定的因果關(guān)系。例如,“對阿莫西林過敏的患者不可以使用,服用阿莫西林可能會引起皮疹、藥物熱和哮喘等過敏反應(yīng),因此使用前一定要做青霉素皮試試驗”。本例中“對阿莫西林過敏”是“服用阿莫西林”導致“皮疹”的條件。與因果關(guān)系不同的是,條件概念片段并不能直接導致某個結(jié)果發(fā)生。
2.2.4 上下位關(guān)系 指醫(yī)學概念中的大小和蘊含關(guān)系,一般指某個寬泛、總稱概念包含某個具體、特殊概念,例如,“阿爾茨海默癥是一種精神類疾病”,本例中“精神類疾病”包含了“阿爾茨海默癥”這一特定的精神類疾病。上下位關(guān)系是醫(yī)學概念中較為重要的關(guān)系,對于醫(yī)學概念的分類、醫(yī)學圖譜構(gòu)建有重要作用。
2.3.1 標注規(guī)范 準則1:醫(yī)學概念片段應(yīng)盡可能包含完整有用的信息,包括癥狀的程度、頻率等,無關(guān)信息不在標注范圍內(nèi)。如“不及時治療在局部可能會引起疼痛”中需標注“局部可能會引起疼痛”,僅標注“疼痛”則存在信息丟失;如果涉及人群信息來區(qū)分疾病特點,則需要標注人群,如“小兒咳嗽”。準則2:針對多個醫(yī)學概念片段組合在一起的長實體,采用如下約定進行標注。若每個概念片段具備獨立意義則分開標注,如“過量飲酒、使用激素、勞累等引起的股骨頭缺血性病變”中標注(“過量飲酒”,“股骨頭缺血性病變”)(“使用激素”,“股骨頭缺血性病變”)和(“勞累”,“股骨頭缺血性病變”)3對因果關(guān)系;若為非連續(xù)實體則合并標注,如“食用奶酪、巧克力、可樂會導致過度肥胖”中標注(“食用奶酪、巧克力、可樂”,“過度肥胖”)這對因果關(guān)系。其中非連續(xù)實體是指多個實體共用部分文字進而導致實體不連續(xù)的現(xiàn)象,例如上面例子中,“食用巧克力”和“食用可樂”即屬此類。準則3:任務(wù)只標注直接關(guān)系,不標注間接的推導關(guān)系,例如“A 導致 B,B 又導致 C”,則本任務(wù)只標注(A,B)和(B,C)兩對因果關(guān)系,(A,C)不做標注;同樣的,對于上下位或者別名的情況,僅標注最直觀的實體,如“A,又稱為 B,會導致 C”,只標注(A,C)。
2.3.2 標注過程 本任務(wù)由 1 名醫(yī)學專家、1 名人工智能算法專家?guī)ьI(lǐng) 8 名醫(yī)學院本科生基于阿里巴巴夸克內(nèi)部的標注平臺完成,前后用時 1.5 個月。標注流程分為 4 個主要階段,見圖1。(1)標注規(guī)范制定。規(guī)范主要由醫(yī)學專家制定,在此階段算法專家從模型處理能力的視角對規(guī)范提出優(yōu)化建議,如醫(yī)學專家傾向于將多個醫(yī)學概念組合在一起標注為一個長實體片段,算法專家則會根據(jù)模型經(jīng)驗建議將其標注為獨立意義的片段(參見標注規(guī)范準則2)。最終目標是保證標注規(guī)范既符合醫(yī)學常識,同時也對算法模型友好。(2)試標注。在試標注階段醫(yī)學專家會對8名醫(yī)學院本科生進行系統(tǒng)性的任務(wù)講解和規(guī)范培訓,并帶領(lǐng)8名醫(yī)學生每人完成20條數(shù)據(jù)標注,目標是幫助標注人員充分理解任務(wù),并能快速熟悉標注工具。接下來8名醫(yī)學生和1名算法專家每人要獨立完成50條數(shù)據(jù)的標注,在此期間醫(yī)學專家會及時跟進標注人員遇到的問題,確保每位標注人員能充分理解任務(wù)并正確完成標注工作,同時也會根據(jù)標注人員的問題和反饋來優(yōu)化標注規(guī)范。試標注階段結(jié)束后,標注規(guī)范也最終定稿。該階段耗時 1.5 周。(3)正式標注。由8名經(jīng)過培訓的醫(yī)學生完成剩余語料標注,每人分配1 080條語料,8位標注人員虛擬分為4個小組,同組內(nèi)的兩名標注同學之間有100條重復(fù)語料。這樣設(shè)置的目的是為了統(tǒng)計和評估標注一致度。該階段標注人員可以在標注工作組中提問和討論問題,醫(yī)學專家每天定時解答標注問題,并針對出現(xiàn)的共性問題組織討論會。該階段耗時3周。(4)質(zhì)檢。醫(yī)學專家從每位標注同學的標注結(jié)果中隨機挑選50條進行質(zhì)檢,分析標注錯誤類型并要求標注人員進行修復(fù)。質(zhì)檢階段用時1.5周,經(jīng)過3輪質(zhì)檢后(5名標注人員經(jīng)過兩輪質(zhì)檢后驗收合格,另3名經(jīng)歷3輪質(zhì)檢后驗收合格),產(chǎn)出最終的 CMedCausal 數(shù)據(jù)集。
圖1 CMedCausal 標注過程
2.3.3 標注一致性 標注一致性(Inter-Annotator Agreement,IAA)是通過計算同一個虛擬小組內(nèi)兩名標注人員重疊標注的 100 條語料的微平均F1值(Micro-F1)和宏平均F1值(Macro-F1) 指標來評估的。取 4 個虛擬小組的平均值得到的結(jié)果是:Micro-F1是0.741,Macro-F1是0.723。
2.3.4 數(shù)據(jù)統(tǒng)計 因果關(guān)系、條件關(guān)系和上下位關(guān)系3類關(guān)系的標注數(shù)量分別為 70 564、3 819 和 4 861,3種關(guān)系占比分布為18.5∶1∶1.3。
將實驗數(shù)據(jù)按8∶1∶1的比例劃分成訓練、驗證和測試集,并針對3份數(shù)據(jù)信息進行統(tǒng)計,見表1。
表1 實驗數(shù)據(jù)信息統(tǒng)計
本任務(wù)采用準確率 (Precision, P)、召回率 (Recall, R) 和F1值(F-Measure,F1)作為評估指標??紤]到 3 類關(guān)系的比例相差較大,因此本任務(wù)采用Macro-F1作為最終評價標準。具體定義,假設(shè)有n個類別C1、Ci、Cn,計算公式如下:設(shè)正確預(yù)測為類別Ci的樣本個數(shù)為Tp(i),預(yù)測為Ci的樣本個數(shù)為Ti,真實的Ci的樣本個數(shù)為Pi。
(1)
(2)
(3)
本次實驗選擇兩種常用的關(guān)系抽取(Subject-Predict-Object,SPO)模型作為基線(baseline)。OneRel:Shang Y M等[9]提出的一種基于Transformer[10]的BERT[11]編碼,后使用N個矩陣進行全局解碼的模型,其中N為關(guān)系數(shù),矩陣使用3種標記類型來記錄S和O的起始終止位置關(guān)系。PRGC:Zheng H等[12]提出的一種基于BERT編碼,后判斷文本的關(guān)系種類,根據(jù)關(guān)系種類預(yù)測S和O,再使用對齊矩陣對相應(yīng)的S和O進行對齊。編碼器使用的是bert-base-chinese(https://huggingface.co/bert-base-chinese)模型,每批數(shù)據(jù)量設(shè)置為 6,迭代次數(shù)設(shè)置為200,句子最大長度設(shè)置為512。
實體關(guān)系總體抽取結(jié)果,見表2;3類關(guān)系的具體實驗結(jié)果,見表3。
表2 實驗結(jié)果
表3 3類關(guān)系實驗結(jié)果 (OneRel/PRGC)
整體預(yù)測效果OneRel模型F1保持在0.4以上,PRGC由于F1較低。隨機抽取100條預(yù)測結(jié)果進行分析,發(fā)現(xiàn)錯誤類型可歸結(jié)為3類。第1類錯誤是實體邊界識別錯誤導致的,占比約15%,如“血虛型瘙癢癥”可導致“皮膚可呈現(xiàn)大理石紋樣”和“瘙癢劇烈”,由于這兩個結(jié)果在文中是連在一起出現(xiàn)的,兩種模型均將其識別為“血虛型瘙癢癥”可導致“皮膚可呈現(xiàn)大理石紋樣,瘙癢劇烈”。此類錯誤中模型會將兩個或多個并列實體片段預(yù)測為一個長實體,導致召回率降低。第2類錯誤集中在特定修飾語的識別上,如“頸部淋巴結(jié)腫大”導致“脖子結(jié)節(jié)”,模型僅預(yù)測了“結(jié)節(jié)”這個結(jié)果,缺失了發(fā)病部位“脖子”,此類錯誤占比約為20%。第3類錯誤主要分布在條件關(guān)系類別中,條件關(guān)系相比其他兩類關(guān)系構(gòu)成較為復(fù)雜,其尾實體是一個嵌套定義的因果關(guān)系,兩種模型均無法很好地建模嵌套關(guān)系,如“前列腺增生”會導致“排尿不暢”,標注語料中“中老年男性”是該因果關(guān)系的修飾條件,但兩種模型均只預(yù)測了(“前列腺增生”,“排尿不暢”)這對因果關(guān)系,無法準確捕獲“中老年男性”這個修飾條件。從實驗結(jié)果來看,條件關(guān)系最難預(yù)測,F(xiàn)1分數(shù)不到0.1。因此如何能同時正確識別出條件關(guān)系的頭、尾實體是非常有挑戰(zhàn)性的任務(wù),進一步體現(xiàn)了CMedCausal數(shù)據(jù)集的難度。從整體實驗結(jié)果及錯誤類型分析中可以看出,當前深度學習模型相比人工標注結(jié)果還有較大的提升空間,有待于探索更優(yōu)的模型以及結(jié)合醫(yī)學知識來達到更好的識別效果。
醫(yī)療文本的因果實體關(guān)系抽取技術(shù)有助于提升醫(yī)療診斷整體邏輯性和可解釋性,對于自動化問診有重要作用,在此基礎(chǔ)上可以進一步構(gòu)建醫(yī)療知識圖譜,從而挖掘更多的潛在關(guān)系。目前中文醫(yī)療因果關(guān)系抽取數(shù)據(jù)集較為缺乏,因此構(gòu)建一個完善的關(guān)系抽取數(shù)據(jù)集對領(lǐng)域技術(shù)的發(fā)展有重要意義。
本文構(gòu)建了一個專門用于醫(yī)療因果推斷領(lǐng)域研究的因果關(guān)系抽取數(shù)據(jù)集CMedCausal,系統(tǒng)地介紹了數(shù)據(jù)來源、標注規(guī)范及標注過程。數(shù)據(jù)集包含醫(yī)學因果推斷方面最常見的3類關(guān)系:因果關(guān)系、條件關(guān)系和上下位關(guān)系。CMedCausal的構(gòu)建方法具有一定有效性,為構(gòu)建醫(yī)療知識圖譜、醫(yī)學因果解釋網(wǎng)絡(luò)、提高醫(yī)療問答可解釋性奠定基礎(chǔ)。
通過實驗結(jié)果可以看出 CMedCausal 具有較高的挑戰(zhàn)性,特別是條件關(guān)系的判斷涉及復(fù)雜的因果關(guān)系推理以及修飾限定詞的識別。同時相較于英文數(shù)據(jù)集,中文數(shù)據(jù)集由于詞語之間無明顯界限使得標注較為復(fù)雜,有無修飾語以及實體片段之間是否并列等情況均會導致預(yù)測結(jié)果與標注結(jié)果不一致,但并不能完全表明模型預(yù)測結(jié)果是完全錯誤的,因此如何建立一個合理的適用于醫(yī)學因果關(guān)系抽取任務(wù)的評價標準也是至關(guān)重要的,有待于進一步探索。
?醫(yī)學信息研究?