国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合依存句法和實(shí)體信息的臨床時間關(guān)系抽取

2024-01-24 09:20:38黃漢琴顧進(jìn)廣符海東
關(guān)鍵詞:標(biāo)識符實(shí)體信息

黃漢琴,顧進(jìn)廣 ,符海東

(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.國家新聞出版署富媒體數(shù)字出版內(nèi)容組織與知識服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京 100038;3.武漢科技大學(xué) 大數(shù)據(jù)科學(xué)與工程研究院,湖北 武漢 430065)

0 引 言

在臨床研究方面,從電子健康記錄抽取時間關(guān)系用于多種應(yīng)用,如臨床問題解答、決策支持系統(tǒng)、臨床時間線構(gòu)建等。這些應(yīng)用需要清晰的時間順序做支撐。時間順序在臨床文本中有著重要的作用,很多的臨床事件都需要在時間順序下才彰顯意義。

時間關(guān)系(TLINK)表示時間表達(dá)式和臨床事件之間在時間線上的關(guān)系。臨床事件是與臨床相關(guān)的任何事件,包括患者的臨床概念和醫(yī)療事件。時間表達(dá)式是指在臨床文本中提供有關(guān)臨床事件的發(fā)生時間、時間段、發(fā)生頻率。現(xiàn)有的TLINK分為4種時間關(guān)系,考慮中文臨床文本中存在大量的復(fù)雜時間和關(guān)系,現(xiàn)有的時間關(guān)系不能全部表達(dá)這些事件之間的關(guān)系,該文將時間關(guān)系抽取任務(wù)擴(kuò)展。

TLINK抽取任務(wù)常用的方法有基于規(guī)則,機(jī)器,深度學(xué)習(xí)的方法?;谝?guī)則的方法依靠大量的人工抽取句子的語義特征制定規(guī)則,需要耗費(fèi)大量時間且移植性差。近年來,基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型取得顯著的成果,此類模型能自主挖掘出句子的語言特征。

文中數(shù)據(jù)集采用中文臨床抑郁癥病例文本,此類文本語義復(fù)雜,存在不均衡性,理解文本的語義需要學(xué)習(xí)全局上下文特征也要關(guān)注重要內(nèi)容的局部特征。Lin等人使用動態(tài)或固定窗口來執(zhí)行局部區(qū)域關(guān)注[1-2];Bugliarello等人利用語法限制注意力獲得更好的關(guān)注[3-4]。

兩種方法對重要的局部區(qū)域進(jìn)行更多關(guān)注得到局部特征再和全局信息融合。在此基礎(chǔ)上,借助BERT模型的自注意力機(jī)制能從一個句子的眾多信息中找到局部重要信息加權(quán)處理,該文引入依存句法分析臨床文本的局部重要區(qū)域,抽取局部重要特征信息和整體句子信息共同學(xué)習(xí)。

同時考慮時間關(guān)系抽取任務(wù)學(xué)習(xí)時間實(shí)體和臨床事件實(shí)體的信息,現(xiàn)有的構(gòu)造方法大多數(shù)使用三段式池化拼接方法來展開[5]。借鑒此方法,該文額外對BERT層的輸入嵌入實(shí)體類型,并在輸出表征對實(shí)體信息進(jìn)行特征交互來獲得更全面的實(shí)體信息。該文的貢獻(xiàn)如下:

(1)針對中文臨床文本提出復(fù)雜時間關(guān)系抽取任務(wù),擴(kuò)展現(xiàn)有抽取任務(wù)的時間關(guān)系類型。

(2)為追求全局信息和局部信息的兼具問題,針對臨床文本設(shè)計(jì)依存特征抽取算法,提出將BERT的自注意力層和依存句法分析結(jié)合的方法,該模型能在現(xiàn)有的BERT架構(gòu)上快速嵌入實(shí)現(xiàn)。

(3)為獲得更全面的實(shí)體信息,從BERT表征抽取額外的兩個實(shí)體信息,結(jié)合內(nèi)積和哈達(dá)瑪積實(shí)現(xiàn)特性交互,使用四段式池化拼接得到關(guān)系向量。

1 相關(guān)工作

當(dāng)前時間關(guān)系抽取的相關(guān)工作與兩個共享臨床時間關(guān)系抽取任務(wù)有關(guān):Informatics for Integrating Biology and Bedside(i2b2) challenge[6]和2015年開始的TempEval challenge[7]。自深度學(xué)習(xí)流行后,應(yīng)用BI-LSTM,CNN,BERT等深度學(xué)習(xí)模型抽取時間關(guān)系成為主流,以下將介紹這些方法的研究現(xiàn)狀。

基于BI-LSTM方法:Juline等人[8]使用BI-LSTM模型融合特征工程抽取包含關(guān)系,證明增加經(jīng)典的特征收集更多信息是有益的方法,他們在[9]收集句子信息額外對每一個實(shí)體類型構(gòu)建特定分類器。Chen等人[10]在自我訓(xùn)練框架內(nèi)構(gòu)建語義異構(gòu)嵌入的循環(huán)神經(jīng)網(wǎng)絡(luò),利用基本特征豐富句子信息。這些方法聚集在進(jìn)一步收集局部信息,豐富模型語義。

基于CNN的方法:Dmitriy等人[11]將XML標(biāo)簽編碼關(guān)系參數(shù)的位置引入CNN模型去提取時間關(guān)系,用這種標(biāo)記成為神經(jīng)網(wǎng)絡(luò)的輸入,后續(xù)的CNN方法輸入大多借鑒于此。Chen等人[12]描述了一種單個偽標(biāo)記表示時間表達(dá)式的方式修改了token的標(biāo)簽用于CNN的輸入。此類神經(jīng)網(wǎng)絡(luò)方法能自動進(jìn)行特征提取,但是池化層會丟失大量的價值信息,對長距離句子來說,輸出的表征難以概括全局信息。

即使以BI-LSTM和CNN為主的方法在時間關(guān)系抽取中表現(xiàn)較好,但是和bert為主的預(yù)訓(xùn)練語言模型存在一定差距。基于BERT方法,Lin等人[13]在BERT模型上引入全局嵌入來幫助進(jìn)行長距離關(guān)系推理,并通過多任務(wù)學(xué)習(xí)來提高模型性能和泛化性,從而增強(qiáng)模型抽取的效果。Chen等人[2]在BERT模型上開發(fā)基于連續(xù)標(biāo)記的固定的句子邊界不可知窗口的處理機(jī)制,展示了BERT出色的長距離推理能力。近2年的臨床關(guān)系抽取綜述[14-15]都總結(jié)了微調(diào)BERT及其變體等語言模型在從臨床文本中提取關(guān)系方面表現(xiàn)最好。為提升下游任務(wù)的學(xué)習(xí)能力,通過具體任務(wù)設(shè)計(jì)簡單堆疊模塊實(shí)現(xiàn)微調(diào)?;诖搜芯克悸?該文使用BERT現(xiàn)有架構(gòu),通過對自注意力機(jī)制層與依存句法結(jié)合的方法獲取句子的全局信息和局部信息。同時,使用關(guān)系抽取中常用的實(shí)體特征交互方法獲得更多的實(shí)體信息。

2 方法與模型

2.1 時間關(guān)系抽取任務(wù)定義

TLINK時間關(guān)系是指電子病歷中時間點(diǎn)與臨床事件或臨床事件與臨床事件之間的時序關(guān)系。臨床文本中存在大量的復(fù)雜時間維度,現(xiàn)有的時間關(guān)系僅表達(dá)這些事件之間的簡單時間關(guān)系,復(fù)雜時間本體定義可以挖掘臨床文本中更多的語義信息。該文依據(jù)CTO臨床時間本體[16]將現(xiàn)有的時間關(guān)系抽取中常見的4種時間關(guān)系類型擴(kuò)展為10種時間關(guān)系抽取。

病歷中的時間點(diǎn)是指帶有時間信息的短語,參考現(xiàn)有病歷常見的時間表達(dá),根據(jù)CTO臨床時間本體定義了各種類型的時間語義,將所有時間總分為3種類型:時間點(diǎn),時間段,時間集合。病歷中的臨床事件是指病歷中有關(guān)病情的相關(guān)記錄和醫(yī)療記錄,參考現(xiàn)有病歷常見的臨床事件,該文將臨床事件分為疾病,癥狀,檢查,藥物,手術(shù)、醫(yī)療事件,治療。病歷的時間與臨床事件分類實(shí)例表如表1所示。

參考CTO臨床時間本體,設(shè)定每一對時間關(guān)系的兩個實(shí)體為A和B。臨床事件實(shí)體依照時間線記錄事件發(fā)生的起始時間,結(jié)束時間,頻率等信息劃分為在某一時刻完成這一件事,在某一段時間完成這一件事,在時間集合完成這一件事。使得時間實(shí)體和臨床事件實(shí)體都能在時間維度上進(jìn)行比較。時間關(guān)系為之前,之后,相等,遇見,共同開始,共同結(jié)束,相交,包含,全包含,部分包含。所有時間關(guān)系的定義如圖1所示。根據(jù)每張圖可以獲取每一個時間關(guān)系的滿足條件,例如時間點(diǎn)實(shí)體不可能和別的實(shí)體產(chǎn)生遇見,相交,全包含,部分包含這些時間關(guān)系。

該文將時間抽取任務(wù)定義為:(1)復(fù)雜句內(nèi)時間關(guān)系抽取:指的是一個句子里面任意的時間點(diǎn)與臨床事件的時間關(guān)系或臨床事件與臨床事件的時間關(guān)系都能在10種時間關(guān)系中找到答案;(2)復(fù)雜句間時間關(guān)系抽取:一個句子的醫(yī)療事件與相鄰句子的醫(yī)療事件的時間關(guān)系能在10種時間關(guān)系中找到答案。后續(xù)實(shí)驗(yàn)與分析描述根據(jù)這兩個任務(wù)分別標(biāo)注數(shù)據(jù)集和訓(xùn)練模型進(jìn)行實(shí)驗(yàn)。

圖1 時間關(guān)系定義

2.2 DS-EI-BERT模型

該文提出使用BERT預(yù)訓(xùn)練模型結(jié)合依存句法和實(shí)體信息對中文抑郁病臨床文本進(jìn)行時間關(guān)系抽取的模型(Enriching bert with dependency synatx and entity information,DS-EI-BERT)。DS-EI-BERT模型結(jié)構(gòu)如圖2所示。將輸入句子嵌入實(shí)體類型,轉(zhuǎn)化成句子輸入序列,具體描述在2.2.1節(jié);然后將句子傳入依存權(quán)重矩陣處理器導(dǎo)出每個句子的依存矩陣,具體描述在2.2.2節(jié);此依存矩陣會引導(dǎo)BERT的12層Transformer編碼器層來訓(xùn)練每一層的全局信息和局部信息,具體描述在2.2.3節(jié);然后實(shí)體-句子信息層提取出實(shí)體信息做特征交互,最后將句子信息和實(shí)體信息拼接得到最終輸出,使用softmax函數(shù)得到最終的時間關(guān)系,具體描述在2.2.4節(jié)。

2.2.1 句子輸入序列

該文的輸入采用預(yù)訓(xùn)練模型BERT的輸入方式。BERT模型的輸入可以是單個句子,也可以包含一個句子對(句子A和句子B)。而這兩種方式剛好可以對應(yīng)句內(nèi)關(guān)系和句間關(guān)系的輸入。BERT預(yù)訓(xùn)練參數(shù)給出的vocab中有一些特殊作用的標(biāo)識符,[CLS]標(biāo)識符放在第一個句子的首位,作為整個句子的語義表示。[SEP]標(biāo)識符用于分開兩個句子,每一個句子結(jié)束后會緊跟一個[SEP]標(biāo)識符。此外BERT輸入可以在字符字典設(shè)定有意義的標(biāo)識符,將時間類型和事件類型設(shè)置成特殊的標(biāo)識符。時間分類中,instant的標(biāo)識符為[INS],interval的標(biāo)識符為[INT],collection的標(biāo)識符為[COL]。臨床事件分類中,disease的標(biāo)識符為[DIS],symptom的標(biāo)識符為[SYM],examination的標(biāo)識符為[EXAM],medication的標(biāo)識符為[MED],operation的標(biāo)識符為[OPE],medical event的標(biāo)識符為[MEEV],cure的標(biāo)識符為[CURE]。

圖2 DS-EI-BERT模型結(jié)構(gòu)

舉例說明句內(nèi)的輸入模式:“ [CLS]患者自[INS] [INS]9月1日[SYM]心情低落[SYM]。[SEP]”。句間的輸入模式:“[CLS]8月服[MED]奧氮平[MED]。[SEP]一月后[MEEV]自行停藥[MEEV]。[SEP]”通過這個方式能讓模型更好學(xué)習(xí)兩個實(shí)體的關(guān)系。

2.2.2 依存權(quán)重矩陣處理器

為了更好地挖掘句子包含的整體價值,時間關(guān)系抽取需要更關(guān)注重要的詞語,根據(jù)現(xiàn)有研究表明,BERT預(yù)訓(xùn)練模型中的注意力在訓(xùn)練時會關(guān)注不重要的虛詞,對重要的局部區(qū)域進(jìn)行更多關(guān)注,保證句子中重要的語義被充分學(xué)習(xí)利用。該文利用依存句法分析獲取句子重要的依存特征,然后轉(zhuǎn)化成依存權(quán)重矩陣,此矩陣傳入BERT每一層的自注意力機(jī)制中限制注意力來幫助模型獲得更好的關(guān)注。

對輸入的句子進(jìn)行依存分析,能將一個句子分析成一棵依存句法樹,這棵樹的最頂層節(jié)點(diǎn)是整個句子的核心詞,其他詞匯直接或者間接與它產(chǎn)生聯(lián)系,整個樹描述出詞匯與詞匯之間的相互依存作用。通過依存句法分析得到的依存句法樹如圖3所示。

參考孫健等人在中文時間關(guān)系抽取研究中對依存特征的使用[17],針對不同的關(guān)系類別制定句子上重要的依存路徑,如表2所示。這些路徑上的詞匯與關(guān)系抽取的兩個實(shí)體存在直接或者間接的支配與從屬的關(guān)系,屬于語句中語義豐富的詞匯。

圖3 依存句法樹

假設(shè)一個句子S,句子中的兩個目標(biāo)實(shí)體分別為A、B,根據(jù)不同的依存特征找到所用路徑上面的詞匯,把這些詞匯的下標(biāo)做成一個集合Key,這個Key代表的就是這個句子依存特征詞的下標(biāo)集合。圖3展示一個句子的依存句法樹:A表示“奧氮平”,B表示“無法自理”,根據(jù)上表句內(nèi)事件-事件時間關(guān)系的依存特征,從“奧氮平”追溯依存關(guān)系得到路徑(“奧氮平”->“治療”->“服”->“好轉(zhuǎn)”->“加重”->“自理”->“無法”),計(jì)算所有路徑最后得到Key集合[“奧氮平”,“治療”,“服”,“無法”,“自理”,“加重”,“好轉(zhuǎn)”]。以上假設(shè)符合句內(nèi)關(guān)系抽取的情況,句間關(guān)系抽取涉及兩個句子,則分別得到兩個句子的集合Key合并再進(jìn)行如下計(jì)算。

表2 句內(nèi)/句間依存特征路徑

得到這些重要的依存特征詞匯集合Key后,將Key中的詞匯和BERT輸入序列對應(yīng),這些序列下標(biāo)從1到s,如果BERT下標(biāo)對應(yīng)的字在Key的詞匯中,則將下標(biāo)記錄在keyPoint集合,最后構(gòu)建一個s×s維的二維數(shù)組Ds,這個矩陣的行下標(biāo)為x,列下標(biāo)為y,每一行和每一列都包含一個字對其他字是否存在依存關(guān)系需要關(guān)注的含義,計(jì)算如式1所示:

Ds[x,y]=

(1)

2.2.3 Transformer編碼器層

不同于田園等人[18]將幾種模型拼接一起得到語句更全面的信息,該文利用BERT-BASE模型[4]層層堆疊的12層Transformer編碼器層來不斷地訓(xùn)練全局有用信息。通過上一節(jié)得到的依存矩陣不斷強(qiáng)化局部注意力與BERT本身的全局注意力結(jié)合,每一層編碼器的具體結(jié)構(gòu)如圖4所示。

在每一層編碼器層中,會計(jì)算所有token的3個向量(查詢向量Q,值向量V,關(guān)鍵字向量K)。使用Q和K做點(diǎn)積,能得到每一個token需要對其他token關(guān)注的權(quán)重系數(shù)Scoreg,這也是每一層自注意力層的全局attention分?jǐn)?shù),Scoreg計(jì)算公式如式2所示。

Scoreg=Q·KT

(2)

該文還需要獲取每一層具有依存句法信息的局部attention分?jǐn)?shù)Scorel,使用依存句法矩陣對Scoreg做點(diǎn)積獲取包含句法信息的注意力權(quán)重,可以得到任意一個token對其余所有存在依存關(guān)系的token的權(quán)重和矩陣,Scorel計(jì)算公式如式3所示。

Scorel=Ds·Scoreg

(3)

圖4 Transformer編碼器層結(jié)構(gòu)

對這兩個attention分?jǐn)?shù)做歸一化處理,然后對V加權(quán)求和分別得到這一層編碼器注意力表征Attentiong和依存句法局部注意力表征Attentionl。計(jì)算公式如式4和式5所示。這里的d是指嵌入維度。

(4)

(5)

而最后的輸出表征是在兩個表征代表的全局信息和局部信息找到一個平衡。針對每一個token,設(shè)置閾值αk,k∈[0,s]用于組合全局和局部注意力。這個值是可變的,更大的閾值意味著更多的注意力集中在句法信息上,對于與依存句法矩陣沒有關(guān)聯(lián)的token,這個αk為0;對于有關(guān)聯(lián)的token,這個αk為0.5。計(jì)算公式如式6所示。

(6)

每一個token得到的注意力輸出如下,然后匯總可得此層的注意力表征輸出Ak,最后傳給下一層繼續(xù)此循環(huán),最后得到整個BERT層的輸出表征H。與原始架構(gòu)相比,文中方法只是在每一層編碼器中加入依存矩陣Ds和α進(jìn)行運(yùn)算,使得此方法較容易在現(xiàn)有的BERT代碼中嵌入實(shí)現(xiàn),比起很多論文復(fù)雜的模型疊加來訓(xùn)練更全面的表征無疑是精簡的。計(jì)算公式如式7所示。

(7)

2.2.4 實(shí)體-句子信息交互層

時間關(guān)系抽取已獲得豐富的句子信息,接下來需要獲取句子中時間實(shí)體和臨床事件實(shí)體的信息,常用方法[19]將句子信息和兩個實(shí)體信息池化后拼接進(jìn)行關(guān)系分類。然而這樣的拼接并不能得到實(shí)體的交互信息,為得到這些實(shí)體的交互信息,現(xiàn)有方法會使用全連接,外積,內(nèi)積,哈達(dá)瑪積。該文在FiBiNET的Bilinear-Interaction基礎(chǔ)上[20],提出利用現(xiàn)有的依存矩陣引導(dǎo)權(quán)重結(jié)合內(nèi)積和哈達(dá)瑪積來獲得實(shí)體交互信息,內(nèi)積和哈達(dá)瑪積交互會考慮不同特征對于預(yù)測目標(biāo)的重要性程度,給不同的特征根據(jù)重要性程度進(jìn)行加權(quán)。

整個BERT層最后的輸出詞向量為H:

H=[h0,h1,…,hi,…,hj,…,hl,…,hn,…,hs]

(8)

由于每一條輸入句子前加上了[CLS]標(biāo)識符表征整個句子,所以取第一個向量h0代表整個句子信息。對于句子中第一個實(shí)體e1,獲取e1在句子的下標(biāo)為i到j(luò),那么hi到hj是實(shí)體e1的最終隱藏向量。對于第二個實(shí)體e2,獲取e2在句子的下標(biāo)為l到n,那么hl到hn是實(shí)體e2的最終隱藏向量,取這些向量的平均向量he1,he2來獲得目標(biāo)實(shí)體的向量表示。然后通過激活函數(shù)和全連接層分別得到最終的句子向量和實(shí)體向量表示。W0∈Rd×d,W1∈Rd×d,W2∈Rd×d,其中d是BERT的隱藏向量大小。然后將實(shí)體1的最終表示與依存代表的權(quán)重矩陣進(jìn)行內(nèi)積,再與實(shí)體2進(jìn)行哈達(dá)瑪積就能獲得兩個實(shí)體重要維度上的信息。計(jì)算公式如式9~式14所示。

(9)

(10)

H0=W0[tanh(h0)]+b0

(11)

He1=W1[tanh(he1)]+b1

(12)

He2=W2[tanh(he2)]+b2

(13)

Hbili=He1·DS⊙He2

(14)

然后將H0,He1,He2,Hbili連接起來獲得包含重要信息的句子信息和豐富實(shí)體信息的向量H',這里設(shè)置W3∈RL×3d(L為時間關(guān)系總數(shù)10),以上b0,b1,b2,b3為偏置。添加一個全連接層和softmax層,該文使用交叉熵?fù)p失函數(shù)。計(jì)算公式如式15和式16所示。

H'=W4[concat(H0,He1,He2,Hbili)]+b4

(15)

p=softmax(H')

(16)

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集

鑒于目前沒有中文時間關(guān)系數(shù)據(jù)集,該文在私有數(shù)據(jù)集和公有數(shù)據(jù)集上進(jìn)行中文臨床文本時間關(guān)系研究。私有數(shù)據(jù)集源于合作醫(yī)院抑郁癥臨床數(shù)據(jù)(Chinese Medical Record of Depression,CMRD),應(yīng)醫(yī)院要求不予公開。主要內(nèi)容包括患者的個人信息、入院日期、出院日期、現(xiàn)病史、個人史等信息。抑郁癥文本包含病人所有的病史,擁有較長且完整的時間線描述病人的病情和住院情況,適用于時間關(guān)系抽取任務(wù)。公開數(shù)據(jù)集源于2020CCKS的骨科臨床文本,本身有標(biāo)注好的實(shí)體信息。

抽取每一個句子的時間實(shí)體和事件實(shí)體或者事件實(shí)體和其他事件實(shí)體作為關(guān)系候選對,然后標(biāo)注它們的句內(nèi)和句間時間關(guān)系。最后共標(biāo)注了100份電子病歷數(shù)據(jù)。標(biāo)注出的句內(nèi)和句間數(shù)據(jù)集如表3所示,總樣本以8∶2分為訓(xùn)練集和測試集。

表3 句內(nèi)和句間數(shù)據(jù)集數(shù)量

3.2 實(shí)驗(yàn)設(shè)置

所有實(shí)驗(yàn)運(yùn)行在搭載了Tesla P-100 PCIE顯卡和Intel(R)Xeon(R) CPU E5-2600 v4 @ 2.00 GHz型號CPU的機(jī)器上,使用PyTorch1.4.0作為深度學(xué)習(xí)框架,依賴Python 3.7環(huán)境下完成實(shí)驗(yàn)。

文中方法實(shí)現(xiàn)基于huggingface官網(wǎng)的bert-base-chinese模型,依存句法分析使用spacy的zh_core_web_sm-3.3.0版本。

句內(nèi)時間關(guān)系抽取實(shí)驗(yàn)和句間時間關(guān)系抽取實(shí)驗(yàn)是分開實(shí)現(xiàn)的。實(shí)驗(yàn)基線模型為原始BERT[4]和豐富實(shí)體信息的R-BERT[5]。為評測DS-EI-BERT模型在時間關(guān)系抽取任務(wù)的有效性,將與BERT和R-BERT在相同數(shù)據(jù)集上進(jìn)行比較。為驗(yàn)證文中模型的競爭力,在文中數(shù)據(jù)集上對比了現(xiàn)有的時間關(guān)系抽取最好的模型BERT-TS[2]。除此之外,對比了相關(guān)工作中其他深度學(xué)習(xí)模型。Juline等人[8]提出的BI-LSTM方法同樣是在已知實(shí)體情況下識別實(shí)體之間存在的關(guān)系,使用TensorFlow實(shí)現(xiàn)模型。Dmitriy等人提出的CNN方法[11]使用時間表達(dá)式的類型代替時間實(shí)體作為CNN的輸入,文中亦在BERT的輸入層融入實(shí)體類型信息。

3.3 評價指標(biāo)

實(shí)驗(yàn)采用精確率(Precision)、召回率(Recall)和F1值(F-score)3個指標(biāo)來評價中文電子病歷中時間關(guān)系抽取的性能。計(jì)算公式如式17~式19所示。

(17)

(18)

(19)

3.4 結(jié)果與分析

使用不同的參數(shù)訓(xùn)練模型后,以下實(shí)驗(yàn)中 BERT模型的超參數(shù)設(shè)置:最大序列長度為128,學(xué)習(xí)率為1e-5,batch為16,dropout為0.1。CNN模型的超參數(shù)設(shè)置:最大序列長度為128,學(xué)習(xí)率為1e-4,batch為50,dropout為0.25。BI-LSTM模型的超參數(shù)設(shè)置:最大序列長度為128,學(xué)習(xí)率為1e-3,batch為64,dropout為0.4。

3.4.1 句內(nèi)時間關(guān)系抽取

實(shí)驗(yàn)結(jié)果如表4所示。從表4可以看出,BI-LSTM和CNN取得的P,R和F1值都比預(yù)訓(xùn)練BERT及衍生方法的低。CNN能捕捉局部語言信息,但是對于中文這種具有長距離的句子,不能很好地捕捉上下文語義,實(shí)驗(yàn)效果并不好,P和R相比之下存在較大差距;而BI-LSTM通過遞歸不斷捕捉句子上下文語義,P值相較CNN提高4.4百分點(diǎn),但是和BERT的自注意力機(jī)制捕捉信息能力存在差距,此外BI-LSTM的訓(xùn)練時間過長,和其他模型比較起來需要更多的計(jì)算資源。這里也能看出對于時間關(guān)系抽取這一項(xiàng)任務(wù),模型學(xué)習(xí)句子整體信息極為重要。

表4 句內(nèi)與句間時間關(guān)系對比實(shí)驗(yàn) %

預(yù)訓(xùn)練語言BERT模型系列表現(xiàn)優(yōu)異,BERT原始架構(gòu)也要比CNN,BI-LSTM表現(xiàn)優(yōu)異,其F1值達(dá)到77.8%。R-BERT對比BERT模型學(xué)習(xí)句子中的實(shí)體信息,進(jìn)一步提升時間關(guān)系抽取的效果,在F1提升2.25百分點(diǎn)。這兩個基線模型實(shí)驗(yàn)證明實(shí)體信息能幫助時間關(guān)系抽取,筆者認(rèn)為抽取實(shí)體信息能改善時間關(guān)系實(shí)體跨度大的問題。

文中模型DS-EI-BERT在表4中在P,R和F1上優(yōu)于其他模型。原因在于自注意力機(jī)制層使用依存句法進(jìn)行全局信息和局部信息提取,可以幫助BERT更好地學(xué)習(xí)句子語義。而使用兩個實(shí)體進(jìn)行特征交互進(jìn)一步豐富了實(shí)體信息,讓模型進(jìn)一步提升使得F1值達(dá)到86.93%。

最后和現(xiàn)有時間關(guān)系抽取最好的模型BERT-TS對比,P,R和F1值都有不錯的提升,分別提升4.41百分點(diǎn),5.81百分點(diǎn)和5.14百分點(diǎn),驗(yàn)證此方法在現(xiàn)有的時間關(guān)系抽取模型中都有不錯的競爭力。

3.4.2 句間時間關(guān)系抽取

實(shí)驗(yàn)結(jié)果如表4所示,句間實(shí)驗(yàn)的整體效果較句內(nèi)實(shí)驗(yàn)在P,R,F1值都有退步,分別降低5.14百分點(diǎn),7.13百分點(diǎn),6.18百分點(diǎn)。原因在于句間的語句比較句內(nèi)的語句,無論從輸入句子長度還是整體句子復(fù)雜度都有提升,對模型的語義理解有更高的要求。BERT系列實(shí)驗(yàn)效果比其他深度學(xué)習(xí)模型還是有不錯的提升,但是與句內(nèi)時間關(guān)系相比,P,R和F1值都有退步。

文中模型DS-EI-BERT在表4中在P,R和F1上依舊優(yōu)于其他模型,分別達(dá)到82.84%,78.78%,80.75%。但是BERT-TS也有非常好的效果,F1值達(dá)到78.81%??梢钥闯?時間關(guān)系抽取不僅從模型提升上能夠提高抽取效果,從關(guān)系實(shí)體候選策略入手也能提升不錯的效果。

3.4.3 消融實(shí)驗(yàn)

最后為了驗(yàn)證依存句法和實(shí)體信息的有效性,進(jìn)行了消融實(shí)驗(yàn),一共設(shè)計(jì)4組實(shí)驗(yàn),設(shè)計(jì)只保留依存句法矩陣引導(dǎo)自注意力機(jī)制的DS-BERT和只保留實(shí)體信息層的EI-BERT進(jìn)行消融實(shí)驗(yàn),結(jié)果如表5所示。

表5 句內(nèi)/句間時間關(guān)系消融實(shí)驗(yàn) %

句內(nèi)和句間消融實(shí)驗(yàn)?zāi)P虴I-BERT與BERT對比F1值分別提高3.39百分點(diǎn)和3.27百分點(diǎn)。進(jìn)一步驗(yàn)證了提取出更多的實(shí)體信息能提升抽取效果。句內(nèi)和句間消融實(shí)驗(yàn)?zāi)P虳S-BERT與BERT對比F1值分別提高5.06百分點(diǎn)和7.01百分點(diǎn),也顯示依存句法和實(shí)體信息的有效性,且對于句間這類長距離的抽取任務(wù),依存句法能幫助模型學(xué)習(xí)長句子的重要部分獲得更好的結(jié)果。DS-EI-BERT集中句子信息和實(shí)體信息,最大程度提高模型效果,使得P,R,F1值達(dá)到最高。

4 結(jié)束語

臨床時間關(guān)系抽取作為臨床信息抽取中重要的分支,如何從一個復(fù)雜冗余的臨床病例文本抽取精確的時間關(guān)系有著重要的作用。該文發(fā)現(xiàn)中文數(shù)據(jù)集的復(fù)雜時間描述難以使用現(xiàn)有的時間關(guān)系任務(wù)展示時間線,于是擴(kuò)充了復(fù)雜時間關(guān)系抽取任務(wù)。并且針對復(fù)雜時間關(guān)系句子語義的復(fù)雜性,從句子信息和實(shí)體信息提升模型實(shí)驗(yàn)效果。利用BERT模型的自注意力機(jī)制融合輸入句子的依存句法特征,幫助句子充分利用依存句法信息,引導(dǎo)BERT關(guān)注更有用的信息;利用輸出表征的實(shí)體信息進(jìn)行特征交互來豐富實(shí)體信息。在句間時間關(guān)系抽取中只考慮相鄰句子的時間關(guān)系抽取,在后續(xù)研究中,考慮使用滑動窗口來擴(kuò)大關(guān)系候選對的面積,從而研究一段文本之中包含的時間關(guān)系。

猜你喜歡
標(biāo)識符實(shí)體信息
淺析5G V2X 通信應(yīng)用現(xiàn)狀及其側(cè)鏈路標(biāo)識符更新技術(shù)
基于底層虛擬機(jī)的標(biāo)識符混淆方法
基于區(qū)塊鏈的持久標(biāo)識符系統(tǒng)①
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
數(shù)字美術(shù)館“數(shù)字對象唯一標(biāo)識符系統(tǒng)”建設(shè)需求淺議
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
太康县| 丹阳市| 武安市| 抚顺县| 明水县| 乡宁县| 盘山县| 安塞县| 曲阜市| 虎林市| 延庆县| 汝城县| 深州市| 安吉县| 龙山县| 天峻县| 乐亭县| 象山县| 保靖县| 安化县| 定安县| 长沙市| 丽水市| 海宁市| 全椒县| 云霄县| 通河县| 六安市| 安国市| 且末县| 安陆市| 镇赉县| 峨边| 余江县| 石嘴山市| 阳山县| 沁源县| 南平市| 陆丰市| 潮州市| 东源县|