易紅
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
循證醫(yī)學(xué)(Evidence-based Medicine)是一種臨床實(shí)踐方法,通過主要證據(jù)(如隨機(jī)對(duì)照試驗(yàn)(RCT)的結(jié)果)為醫(yī)療決策、課題研究提供信息。醫(yī)生或相關(guān)從業(yè)人員在進(jìn)行循證醫(yī)學(xué)實(shí)踐時(shí),需要有效地獲取這些證據(jù)的信息,檢索并分析與特定臨床主題相關(guān)的文獻(xiàn)。循證醫(yī)學(xué)從業(yè)者在判斷RCT 是否與給定問題相關(guān)時(shí)會(huì)使用特定的標(biāo)準(zhǔn),通常為PICO 標(biāo)準(zhǔn)。而隨著醫(yī)療資料的海量增長(zhǎng),人工地根據(jù)PICO 標(biāo)準(zhǔn)從海量的醫(yī)學(xué)資料中篩選出合適的醫(yī)學(xué)文獻(xiàn)作為研究依據(jù)也越來越耗時(shí)耗力,想要精準(zhǔn)、快速地篩選、獲取合適的文獻(xiàn)更是尤其困難。因此,醫(yī)學(xué)文獻(xiàn)中PICO 元素檢測(cè)受到越來越多的重視。PICO 元素檢測(cè)是循證醫(yī)學(xué)領(lǐng)域一個(gè)重要且具有挑戰(zhàn)性的任務(wù),目標(biāo)是從非結(jié)構(gòu)化文本(摘要或全文)中檢測(cè)出包含PICO 元素的句子或者短語,檢測(cè)出的這些信息可以以多種方式加以利用,例如,提高搜索性能,以結(jié)構(gòu)化方式查詢特定類別,幫助用戶更快速地根據(jù)特定的PICO 標(biāo)準(zhǔn)做出判斷。
在循證醫(yī)學(xué)中,精心設(shè)計(jì)的、結(jié)構(gòu)化的文檔和問題可以幫助醫(yī)生有效地收集合適的資源并找到最佳的醫(yī)學(xué)證據(jù)[1]。實(shí)際上,臨床研究和臨床問題總是明確或隱含地包含四個(gè)方面:對(duì)象/問題(Population/problem,P)、干預(yù)(Intervention,I)、比較(Comparison,C)和結(jié)果(Outcome,O)。利用這種結(jié)構(gòu)來幫助大型醫(yī)學(xué)引用數(shù)據(jù)庫中醫(yī)學(xué)證據(jù)的信息檢索(IR)是流行且有利的[2-4]。PICO元素檢測(cè)即是自動(dòng)檢測(cè)出醫(yī)學(xué)文摘中包含PICO 元素的句子或者短語,來幫助醫(yī)生或相關(guān)從業(yè)人員進(jìn)行醫(yī)學(xué)證據(jù)的檢索,以便為其擬議的研究自動(dòng)篩選出可能相關(guān)的文章。如例句1,P 元素為“middle-aged women suffering migraines”(患有偏頭痛的中年婦女),I 元素為“Botulinium toxin type A”(A 型肉毒桿菌毒素),C 元素為“placebo”(安慰劑),O 元素為“decreasing migraine frequency”(降低偏頭痛頻率)。
Demner 和Lin[5]在2007 年首次提出了PICO 元素檢測(cè)任務(wù),并提出了一種使用人工制定的模式匹配規(guī)則和統(tǒng)計(jì)分類器的方法,來檢測(cè)醫(yī)學(xué)摘要中與PICO 元素相關(guān)的句子或短語?;趯?duì)統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(UMLS)中領(lǐng)域的理解,該模式匹配規(guī)則使用了由MetaMap 標(biāo)記的生物醫(yī)學(xué)概念和SemRep 抽取的概念之間的關(guān)系。實(shí)驗(yàn)顯示該方法可以將相關(guān)的摘要放到較高的排名位置,幫助循證醫(yī)學(xué)從業(yè)者檢索出相關(guān)的文章作為醫(yī)學(xué)證據(jù),檢索效果大大優(yōu)于PubMed 提供的基礎(chǔ)檢索。
基于規(guī)則的方法需要大量的人工操作,并且無法覆蓋所有的語言規(guī)則,存在耗時(shí)耗力、覆蓋率低的缺點(diǎn)。與基于規(guī)則的方法相比,基于機(jī)器學(xué)習(xí)的方法不需要人工構(gòu)造、更新大量的規(guī)則,因此,許多著名的機(jī)器學(xué)習(xí)技術(shù)被用于PICO 元素檢測(cè)任務(wù)。
首先,Hansen 等人[6]在2008 年提出了使用支持向量機(jī)(SVM)進(jìn)行監(jiān)督分類以提取試驗(yàn)參與者的數(shù)量,該方法著重于提取試驗(yàn)參與者的總數(shù),使用了一個(gè)二分類器對(duì)摘要中的整數(shù)進(jìn)行分類,正類代表試驗(yàn)參與者人數(shù),負(fù)類代表所有其他候選人數(shù)。該方法存在很大的局限性,只針對(duì)摘要中的試驗(yàn)參與者的總數(shù)進(jìn)行抽取。Boudin 等人[7]在2010 年利用統(tǒng)計(jì)特征(如句子的位置、句子長(zhǎng)度、標(biāo)點(diǎn)符號(hào)的數(shù)量、句子中含有的數(shù)字的數(shù)量等)和基于知識(shí)的特征(如提示詞的數(shù)量、提示動(dòng)詞的數(shù)量、MeSH 語義類型等)將每個(gè)句子轉(zhuǎn)化為一個(gè)特征向量,在不同的分類器(如隨機(jī)森林(RF)、支持向量機(jī)(SVM)、樸素貝葉斯(NB)、多層感知機(jī)(MLP)等)上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明MLP 優(yōu)于其他的分類器,且他們發(fā)現(xiàn)大多數(shù)重要信息都包含在每一節(jié)的第一句話中。
上訴工作都把PICO 元素檢測(cè)看成是多個(gè)二分類任務(wù),使用單個(gè)分類器一次對(duì)一個(gè)類別進(jìn)行分類,為了檢測(cè)所有的PICO 元素,需要構(gòu)建和訓(xùn)練四個(gè)獨(dú)立的分類器,這是很低效的。此外,這種多個(gè)二分類的方法很難消除不同分類器對(duì)同一句子預(yù)測(cè)的標(biāo)簽的沖突。2011 年,Kim 等人[8]直接對(duì)EBM 感興趣的標(biāo)簽進(jìn)行了處理,將PICO 元素檢測(cè)看成多標(biāo)簽分類任務(wù),而不是二分類任務(wù),并將與PICO 元素?zé)o關(guān)的句子標(biāo)記為other,解決了多個(gè)二分類的限制。他們利用詞匯、語義、結(jié)構(gòu)、順序等信息,使用條件隨機(jī)場(chǎng)(CRF)進(jìn)行多分類的PICO 元素檢測(cè)。其中,詞匯特征包括詞袋、二元詞組等;語義特征,使用統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(UNLS)的元詞表中提供的一系列本體,用來捕捉醫(yī)學(xué)術(shù)語之間的語義關(guān)系;結(jié)構(gòu)特征為句子在摘要中的位置(絕對(duì)位置或相對(duì)位置);序列特征:利用文本中不同句子之間的依賴關(guān)系,特定部分(如,背景)的句子通常連續(xù)出現(xiàn),在判斷當(dāng)前句子的類別時(shí),可分析摘要中前句的類別來進(jìn)行推斷。之后,Dympna 等人[9]在2013 年利用醫(yī)學(xué)摘要中嵌入的結(jié)構(gòu)信息對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)展。他們發(fā)現(xiàn)一些作者在編寫摘要時(shí),明確地標(biāo)出了一些特定的小標(biāo)題,如“patient”(患者)、“sample”(樣本)、“outcomes”(結(jié)果)等,這些特定的小標(biāo)題可以用來定位對(duì)應(yīng)的PICO 元素句子。因此,成千上萬個(gè)來自PubMed 數(shù)據(jù)庫的包含了PICO 元素的摘要可以被自動(dòng)地處理為一個(gè)注釋良好的數(shù)據(jù)集,能夠?qū)?shù)據(jù)集的大小增加兩個(gè)數(shù)量級(jí)。使用這樣大規(guī)模數(shù)據(jù)集能夠訓(xùn)練出更好的模型,模型的泛化能力也能有進(jìn)一步地提升。
以上所有的模型都嚴(yán)重依賴于人工設(shè)計(jì)的特征,包括詞匯特征,如詞袋(BOW)、提示詞、提示動(dòng)詞;語義特征,如詞性(POS)、命名實(shí)體(NE);結(jié)構(gòu)特征,如句子的相對(duì)位置或絕對(duì)位置;以及序列特征,如每個(gè)類別的相對(duì)位置。
基于規(guī)則和機(jī)器學(xué)習(xí)的方法都只是在句子的詞匯特征或者淺層的語義特征進(jìn)行分析和提取,沒有捕獲到句子深層的語義信息,導(dǎo)致PICO 元素檢測(cè)任務(wù)的效果不是很理想。神經(jīng)網(wǎng)絡(luò)模型由于其自動(dòng)學(xué)習(xí)特征、擅于捕捉深層語義信息的優(yōu)勢(shì),越來越多的研究人員使用神經(jīng)網(wǎng)絡(luò)模型來解決PICO 元素檢測(cè)問題。
Dernoncourt 等人[10]在2016 年提出了基于深度人工神經(jīng)網(wǎng)絡(luò)架構(gòu)的模型,實(shí)驗(yàn)證明利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)可以進(jìn)一步提高性能,并消除人工篩選特征的需求。隨后,Di Jin 等人[11]在2018 年首次利用深度神經(jīng)網(wǎng)絡(luò)的方法(雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò),BiLSTM)解決PICO 元素檢測(cè)問題,該模型首先使用BiLSTM 獲取句子中每個(gè)詞的隱藏表達(dá),然后利用注意力機(jī)制計(jì)算每個(gè)詞的權(quán)重,加權(quán)求和獲取到每個(gè)句子的表示向量,然后整個(gè)摘要中的所有句子的表示向量輸入到序列優(yōu)化層(即條件隨機(jī)場(chǎng),CRF)中,對(duì)整個(gè)摘要進(jìn)行序列標(biāo)注,優(yōu)化整個(gè)標(biāo)簽序列。該模型稱為“BiLSTM+CRF”架構(gòu),取得了很大的進(jìn)展。2019 年,Di Jin 等人[12]在2018 年的模型上進(jìn)行了兩點(diǎn)改進(jìn)。首先,他們認(rèn)為應(yīng)該把PICO 元素檢測(cè)看成一個(gè)連續(xù)的句子分類問題,可以利用周圍句子的上下文信息來推斷當(dāng)前句子的標(biāo)簽。因此,基于先前的“BiLSTM+CRF”架構(gòu),他們將另一層bi-LSTM 疊加在句子表示向量上,以聚合周圍句子的特征,使得輸出的句子的隱藏狀態(tài)向量不僅攜帶當(dāng)前句子的信息,還包含相鄰句子的信息。其次,他們認(rèn)為深度學(xué)習(xí)模型在較小規(guī)模的數(shù)據(jù)集上容易出現(xiàn)過度擬合的情況,導(dǎo)致訓(xùn)練數(shù)據(jù)較小時(shí),與淺層機(jī)器學(xué)習(xí)模型相比,深度學(xué)習(xí)模型對(duì)PICO 元素檢測(cè)的性能不理想。為了解決這個(gè)問題,他們采用了兩種策略來增強(qiáng)模型的泛化能力。一種是使用對(duì)抗和虛擬對(duì)抗訓(xùn)練對(duì)模型進(jìn)行正則化穩(wěn)定分類器的性能,從而提高模型的泛化能力;另一種是先使用大規(guī)模生物醫(yī)學(xué)文獻(xiàn)語料庫對(duì)語言模型進(jìn)行預(yù)訓(xùn)練,然后在目標(biāo)數(shù)據(jù)集進(jìn)行微調(diào),即利用遷移學(xué)習(xí)方法提高模型的泛化能力。實(shí)驗(yàn)證明兩種策略都能進(jìn)一步提高PICO元素檢測(cè)性能。
本文對(duì)PICO 元素檢測(cè)的研究進(jìn)展進(jìn)行了介紹,簡(jiǎn)單介紹了PICO 元素檢測(cè)任務(wù)的具體內(nèi)容,重點(diǎn)介紹了解決PICO 元素檢測(cè)問題的三大主要方法,分析了這幾類方法的改進(jìn)思想。PICO 元素檢測(cè)可以運(yùn)用到許多下游的醫(yī)學(xué)任務(wù)中去,如:醫(yī)療方案制定、系統(tǒng)性分析、醫(yī)學(xué)文獻(xiàn)的信息檢索等,具有極高的研究?jī)r(jià)值和應(yīng)用價(jià)值。PICO 元素檢測(cè)是循證醫(yī)學(xué)領(lǐng)域一個(gè)重要的研究方向,隨著深度學(xué)習(xí)的發(fā)展,近年來越來越多的研究者嘗試將深度學(xué)習(xí)的各種模型和方法應(yīng)用到PICO 元素檢測(cè)任務(wù)中,并取得了較好的成效。但目前對(duì)于PICO 元素檢測(cè)的效果仍然有一定的提升空間,還需要更進(jìn)一步的研究和改進(jìn)。