国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文電子病歷文本中的時(shí)間識(shí)別算法研究

2018-03-10 07:54:38孫健高大啟劉珉高炬阮彤
關(guān)鍵詞:表達(dá)式病歷短語(yǔ)

孫健,高大啟,劉珉,高炬,阮彤*

(1.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237;2.上海曙光醫(yī)院,上海 200021)

0 引言

近年來(lái),隨著醫(yī)療信息化的不斷推進(jìn),電子病歷系統(tǒng)也隨之出現(xiàn)[1]。電子病歷(Electronic Medical Record,簡(jiǎn)稱EMR)詳實(shí)地記錄了患者從入院到出院期間所有的診斷和治療信息,具有供用戶訪問(wèn)完整準(zhǔn)確的數(shù)據(jù)和幫助醫(yī)生臨床診斷的能力。電子病歷中包含大量實(shí)體,包括癥狀、疾病、檢查、手術(shù)和用藥等。其中,時(shí)間實(shí)體是描述患者信息的一個(gè)重要維度[2],反映了患者的病情發(fā)展情況,如“患者因2009年7月起無(wú)明顯誘因下出現(xiàn)反復(fù)胃痛后于2010.3.8 15:00入院”、“患者因十二指腸癌術(shù)后6年零3月有余于2012-04-03 10:00:00由門(mén)診擬十二指腸癌術(shù)后入院”等等。電子病歷文本的用語(yǔ)較為自由,時(shí)間的表達(dá)也有多種形式,例如上述的2010.3.8 15:00可用以下形式表示:2010-3-8 15:00:00,2010/3/8下午3點(diǎn),2010年3月8日15時(shí)等。另外,電子病歷文本中時(shí)間識(shí)別存在這樣的難題:由于基于事件的時(shí)間短語(yǔ)太長(zhǎng)而不能準(zhǔn)確定位其邊界?;谑录臅r(shí)間是指由表示事件的名詞、動(dòng)詞,后面可跟介詞或方位詞,并且可有時(shí)間信息組合表示的時(shí)間短語(yǔ),例如上述例子中的“十二指腸癌術(shù)后6年零3月有余”等。由于這類(lèi)時(shí)間短語(yǔ)太長(zhǎng),在識(shí)別過(guò)程中無(wú)法將基于事件的時(shí)間中的事件完整無(wú)誤地識(shí)別出來(lái)導(dǎo)致邊界錯(cuò)誤,且因短語(yǔ)表現(xiàn)形式靈活多變而無(wú)明顯的語(yǔ)言學(xué)特征可利用,所以識(shí)別時(shí)存在較大障礙。

早在2007年,SemEval就已經(jīng)將時(shí)間識(shí)別作為一個(gè)任務(wù)納入評(píng)測(cè)[3]。在最近有關(guān)英文病歷文本的時(shí)間表達(dá)式識(shí)別研究中,Clinical TempEval 2016對(duì)來(lái)自癌癥患者的600份臨床筆記和病理文本進(jìn)行時(shí)間識(shí)別、醫(yī)療事件識(shí)別以及時(shí)間關(guān)系識(shí)別[4]。而關(guān)于中文電子病歷文本中時(shí)間識(shí)別的研究比較稀少,學(xué)界較多關(guān)注于新聞報(bào)道中的時(shí)間識(shí)別[5-6]。

本文將電子病歷文本中的時(shí)間分為兩類(lèi):獨(dú)立時(shí)間和基于事件的時(shí)間,并針對(duì)這兩類(lèi)時(shí)間分別提出了基于bootstrapping的識(shí)別算法和基于條件隨機(jī)場(chǎng)(Conditional Radom Field,簡(jiǎn)稱CRF)的識(shí)別算法。本文的貢獻(xiàn)點(diǎn)如下:(1)基于bootstrapping算法識(shí)別獨(dú)立時(shí)間,解決了正則表達(dá)式識(shí)別時(shí)間會(huì)覆蓋不全的問(wèn)題;(2)識(shí)別基于事件的時(shí)間時(shí),引入中文癥狀知識(shí)庫(kù),很好地解決了基于事件的時(shí)間短語(yǔ)太長(zhǎng)而不能準(zhǔn)確定位其邊界的問(wèn)題。

時(shí)間信息能標(biāo)識(shí)事件發(fā)生的時(shí)序性,故而時(shí)間識(shí)別是自然語(yǔ)言處理中的一個(gè)研究重點(diǎn)。時(shí)間表達(dá)式識(shí)別的常用方式有兩種:一種是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法;另一種是基于規(guī)則的方法,通過(guò)定義規(guī)則模板來(lái)實(shí)現(xiàn)時(shí)間抽取。由于時(shí)間表達(dá)式的結(jié)構(gòu)通常較為規(guī)范,故近年來(lái)多采用基于規(guī)則的方法來(lái)抽取時(shí)間信息。

朱莎莎等[7]采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法識(shí)別時(shí)間短語(yǔ),將時(shí)間短語(yǔ)分為日期型和事件型兩種類(lèi)型,提出基于條件隨機(jī)場(chǎng)的時(shí)間短語(yǔ)識(shí)別方法。他們以詞為基本處理單元生成一系列特征向量,然而如果前期分詞有誤的話(一般這種情況很難避免),就會(huì)導(dǎo)致錯(cuò)誤的層層傳導(dǎo)與放大,而難以保證識(shí)別的準(zhǔn)確性。吳瓊等[8]采用條件隨機(jī)場(chǎng)識(shí)別時(shí)間單元而非時(shí)間表達(dá)式整體,提高了結(jié)果的準(zhǔn)確性;制定規(guī)則確定時(shí)間表達(dá)式的邊界補(bǔ)充時(shí)間單元,提高了結(jié)果的召回率。Str?tgen等[9]提出了一個(gè)基于規(guī)則的時(shí)間標(biāo)注系統(tǒng)HeidelTime,它的目標(biāo)是將英文文檔中的時(shí)間表達(dá)式抽取出來(lái),并對(duì)該表達(dá)式分配正確的類(lèi)型和標(biāo)準(zhǔn)化后的值。Hao等[10]利用啟發(fā)式規(guī)則和模板學(xué)習(xí)來(lái)抽取英文電子病歷中的時(shí)間表達(dá)式。他們觀察時(shí)間表達(dá)的特征生成規(guī)則識(shí)別時(shí)間,然后,挖掘所有出現(xiàn)時(shí)間的模板并計(jì)算每個(gè)模板的置信度,以高置信度的模板來(lái)抽取新的時(shí)間表達(dá)式。Xu等[11]基于正則表達(dá)式識(shí)別中文電子病歷中的日期型時(shí)間。然而,電子病歷文本的用語(yǔ)較為自由,定義的規(guī)則很難覆蓋到所有的時(shí)間信息。除了朱莎莎等[7]考慮了基于事件的時(shí)間表達(dá),其他人都沒(méi)有考慮基于事件的時(shí)間表達(dá)。而在電子病歷文本中,基于事件的時(shí)間在臨床時(shí)間推理中具有重要意義。

1 中文電子病歷中時(shí)間表達(dá)類(lèi)別

本研究通過(guò)對(duì)1 500份上海中醫(yī)藥大學(xué)附屬曙光醫(yī)院的電子病歷進(jìn)行分析,將文本中的時(shí)間表達(dá)分為兩類(lèi):獨(dú)立時(shí)間和基于事件的時(shí)間。

獨(dú)立時(shí)間可分為簡(jiǎn)單時(shí)間和復(fù)合時(shí)間?;赥IMEX2標(biāo)注規(guī)范[12],本文將簡(jiǎn)單時(shí)間又分為精確時(shí)間表達(dá)和模糊時(shí)間表達(dá),如表1所示。其中,精確時(shí)間表達(dá)是指時(shí)間表達(dá)具有精確的時(shí)間點(diǎn)或時(shí)間段,模糊時(shí)間表達(dá)是指時(shí)間表達(dá)包含模糊修飾詞且無(wú)法推算出精確的時(shí)間點(diǎn)或時(shí)間段。由于文本中時(shí)間信息的描述具有靈活性,幾類(lèi)簡(jiǎn)單時(shí)間可以進(jìn)行組合構(gòu)成復(fù)合時(shí)間表達(dá),如“2015年8月18日下午5點(diǎn)”。

表1 簡(jiǎn)單時(shí)間表達(dá)類(lèi)別

基于事件的時(shí)間是指由表示事件的名詞、動(dòng)詞,后面可跟介詞或方位詞,并且可有時(shí)間信息組合表示的時(shí)間短語(yǔ)。在電子病歷文本中,基于事件的時(shí)間是指以臨床事件如入院、住院、出院、化療、癥狀、疾病、手術(shù)等作為參考時(shí)間,如“入院第三天”、“腸癌術(shù)后第6年”等。

本文針對(duì)獨(dú)立時(shí)間和基于事件的時(shí)間分別提出了基于bootstrapping的識(shí)別算法和基于條件隨機(jī)場(chǎng)的識(shí)別算法。圖1表示了本文方法的整個(gè)過(guò)程。

Fig.1 The overall workflow圖1 總體流程圖

2 獨(dú)立時(shí)間表達(dá)的識(shí)別

如第1節(jié)所述,獨(dú)立時(shí)間可分為簡(jiǎn)單時(shí)間和復(fù)合時(shí)間。觀察電子病歷文本發(fā)現(xiàn),簡(jiǎn)單時(shí)間的格式具有一定的規(guī)律性;復(fù)合時(shí)間由兩個(gè)或兩個(gè)以上簡(jiǎn)單時(shí)間直接組合或通過(guò)空格、逗號(hào)進(jìn)行組合。利用正則表達(dá)式識(shí)別獨(dú)立時(shí)間時(shí),如果醫(yī)生書(shū)寫(xiě)不規(guī)范,例如出現(xiàn)多個(gè)空格、逗號(hào)或其他符號(hào)將導(dǎo)致正則表達(dá)式無(wú)法識(shí)別;或者,規(guī)則制定不全導(dǎo)致無(wú)法覆蓋全部的時(shí)間。故而本文結(jié)合了正則表達(dá)式和bootstrapping算法識(shí)別電子病歷文本中的獨(dú)立時(shí)間。

2.1 基于正則表達(dá)式的種子抽取

首先為獨(dú)立時(shí)間的識(shí)別去抽取種子。由于簡(jiǎn)單時(shí)間的格式具有規(guī)律性,通過(guò)觀察簡(jiǎn)單時(shí)間的特征總結(jié)一系列規(guī)則構(gòu)建正則表達(dá)式。表2給出了部分類(lèi)型的簡(jiǎn)單時(shí)間的正則表達(dá)式。另外,收集了修飾模糊時(shí)間表達(dá)的模糊修飾詞“近”、“前”、“后”、“約”等,共21個(gè)。電子病歷文本中的復(fù)合時(shí)間由多個(gè)簡(jiǎn)單時(shí)間直接連接或通過(guò)空格、逗號(hào)進(jìn)行連接,所以利用正則表達(dá)式對(duì)簡(jiǎn)單時(shí)間進(jìn)行識(shí)別后,通過(guò)相鄰原則進(jìn)行復(fù)合時(shí)間的識(shí)別。本文將識(shí)別出的簡(jiǎn)單時(shí)間和復(fù)合時(shí)間作為種子。

2.2 基于bootstrapping算法的獨(dú)立時(shí)間識(shí)別

為了學(xué)習(xí)模板來(lái)抽取獨(dú)立時(shí)間,需要對(duì)電子病歷文本中的時(shí)間進(jìn)行標(biāo)注。利用基于正則表達(dá)式抽取出的種子自動(dòng)對(duì)文本進(jìn)行標(biāo)注,這種方法大大減少了人工標(biāo)注耗費(fèi)的時(shí)間和人力。具體來(lái)說(shuō),首先收集包含種子的句子,并將種子用特殊符號(hào)進(jìn)行替換,然后從這些包含特殊符號(hào)的句子中學(xué)習(xí)出新的模板,最后使用學(xué)習(xí)出來(lái)的模板去抽取新的時(shí)間作為種子。這一過(guò)程是迭代進(jìn)行的,直到?jīng)]有新的時(shí)間被抽取出來(lái)時(shí)終止迭代。

表2 部分類(lèi)型時(shí)間的正則表達(dá)式

2.2.1 模板學(xué)習(xí)

首先收集包含種子的句子,將句子中出現(xiàn)的種子用特殊符號(hào)“

2.2.2 模板打分

為了抽取出更多的時(shí)間,引入更少的噪聲時(shí)間,需要對(duì)模板學(xué)習(xí)過(guò)程中產(chǎn)生的候選模板進(jìn)行打分篩選,得到最有效的模板。根據(jù)公式(1)為候選模板集合中的每一個(gè)模板計(jì)算分?jǐn)?shù):

(1)

其中,Numrecognized(P)是利用模板P識(shí)別出來(lái)的獨(dú)立時(shí)間個(gè)數(shù),Numrecognized in seeds(P)是利用模板P識(shí)別出種子的個(gè)數(shù)。本文將模板分?jǐn)?shù)閾值定為0.7。

2.2.3 獨(dú)立時(shí)間識(shí)別

對(duì)于每個(gè)模板P,首先檢索在病歷文本中符合模板P的句子,并抽取“

3 基于事件的時(shí)間表達(dá)式識(shí)別

3.1 CRF模型

CRF模型是由Lafferty等人[13]于2001年提出的一種條件概率模型,它結(jié)合了隱馬爾可夫模型(HMM)和最大熵馬爾可夫模型(MEMM)的特點(diǎn),通過(guò)全局歸一化避免了標(biāo)記偏置問(wèn)題,從而在命名實(shí)體識(shí)別任務(wù)中取得很好的效果。CRF模型是一種符合馬爾可夫隨機(jī)場(chǎng)的無(wú)向圖模型,基于觀測(cè)序列X,計(jì)算目標(biāo)標(biāo)簽序列Y的條件分布P(Y|X,λ)。目前常用的是線性CRF模型,其公式化為:

(2)

(3)

(4)

(5)

3.2 問(wèn)題轉(zhuǎn)化

利用CRF模型將識(shí)別基于事件的時(shí)間問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題。給定電子病歷文本中的一個(gè)序列X=,目標(biāo)是使用標(biāo)簽序列Y=對(duì)X進(jìn)行標(biāo)注。采用標(biāo)簽集{B,I,E,O}(i=1,…,n)[14],其中“B”表示“xi在一個(gè)基于事件的時(shí)間表達(dá)式的開(kāi)始位置”,“I”表示“xi在一個(gè)基于事件的時(shí)間表達(dá)式的內(nèi)部”,“E”表示“xi在一個(gè)基于事件的時(shí)間表達(dá)式的結(jié)尾”,“O”表示“xi在一個(gè)基于事件的時(shí)間表達(dá)式之外”。

常用的序列標(biāo)注策略是以詞為標(biāo)注單元,以句子為標(biāo)注序列。在中文文本中,詞與詞間沒(méi)有天然的分隔符,當(dāng)以詞為標(biāo)注單元時(shí)需要先利用分詞工具進(jìn)行分詞。然而現(xiàn)有的分詞工具通常面向一般文本,對(duì)電子病歷這類(lèi)專(zhuān)業(yè)性很強(qiáng)的文本分詞效果并不好。如果分詞錯(cuò)誤的話,就不能保證訓(xùn)練集百分之百的準(zhǔn)確,所以本文以字為標(biāo)注單元。由于醫(yī)生在記錄電子病歷時(shí)書(shū)寫(xiě)不規(guī)范,隨意使用標(biāo)點(diǎn)符號(hào),所以本文以分句為標(biāo)注序列(即以逗號(hào)、分號(hào)、句號(hào)對(duì)句子進(jìn)行分割)。

3.3 特征選擇

除了選擇最基本的上下文特征、詞性特征和位置特征作為三種最基本的特征[14],還額外增加了4種適用于識(shí)別電子病歷文本中基于事件的時(shí)間的特征,如表3所示。采用Unigram,Bigram和Trigram這三種上下文特征,與上下文特征相對(duì)應(yīng),詞性特征同樣包含Unigram,Bigram和Trigram三組特征。對(duì)于詞性特征,使用漢語(yǔ)言處理包HanLP[15]對(duì)病歷文本進(jìn)行分詞和詞性標(biāo)注。由于本文以字為標(biāo)注單元,故而當(dāng)前字所在詞的詞性即是當(dāng)前字的詞性。HanLP認(rèn)為被標(biāo)記為t的詞是時(shí)間詞,然而,像“第三天”、“2016.11.23”和“6月23號(hào)”等很多時(shí)間詞都不能被準(zhǔn)確地識(shí)別出來(lái)。故而,本文將利用基于bootstrapping算法識(shí)別出來(lái)的獨(dú)立時(shí)間賦予新的詞性“tt”,并將識(shí)別出來(lái)的時(shí)間加入到用戶自定義詞典中,以確保分詞的準(zhǔn)確性。位置特征用Subi-Posi表示,其中,Subi是當(dāng)前標(biāo)注對(duì)象Xi所處分句的索引位置,Posi表示Xi在分句中的位置。

表3 基于事件的時(shí)間識(shí)別模型特征

3.3.1 詞典特征

基于事件的時(shí)間是指由表示事件的名詞、動(dòng)詞,后面可跟介詞或方位詞,并且可有時(shí)間信息組合表示的時(shí)間短語(yǔ)。在電子病歷文本中,基于事件的時(shí)間是指以臨床事件如入院、住院、出院、化療、癥狀、疾病、手術(shù)等作為參考時(shí)間,如“入院第三天”、“腸癌術(shù)后第6年”等。

類(lèi)似“入院第三天”、“化療后第7天”等這些基于事件的時(shí)間中的事件較為簡(jiǎn)單,即為入院、化療等這些關(guān)鍵詞。而類(lèi)似“十二指腸癌術(shù)后兩年”、“乳腺癌術(shù)后4個(gè)月”、“反復(fù)腹脹腹痛后3年零2個(gè)月”等這些基于事件的時(shí)間中的事件較為復(fù)雜,在識(shí)別過(guò)程中會(huì)出現(xiàn)這樣的難題:基于事件的時(shí)間短語(yǔ)太長(zhǎng)而不能準(zhǔn)確定位其邊界的問(wèn)題。觀察電子病歷文本發(fā)現(xiàn),這類(lèi)基于事件的時(shí)間中的事件類(lèi)型是癥狀、疾病或手術(shù)。其中,手術(shù)都是以“術(shù)”字結(jié)尾,且“術(shù)”字前面都是某個(gè)疾病,例如上述的“十二指腸癌術(shù)”和“乳腺癌術(shù)”。故而,為了提高識(shí)別基于事件的時(shí)間的準(zhǔn)確率和召回率,本文利用已經(jīng)構(gòu)建了的癥狀知識(shí)庫(kù)[16]對(duì)電子病歷文本中的癥狀和疾病進(jìn)行識(shí)別。

isSYMPTOMorDISEASE判斷當(dāng)前標(biāo)注序列中是否存在子字符串與癥狀知識(shí)庫(kù)中的實(shí)體名完全相同,并得到其類(lèi)型是癥狀還是疾病。本文為識(shí)別出來(lái)的癥狀賦予新的詞性“symptom”,為疾病賦予新的詞性“disease”,并加入到用戶自定義詞典中。hasOPERATION判斷當(dāng)前標(biāo)注序列中是否包含字符串“手術(shù)之后”、“術(shù)之后”、“手術(shù)以后”、“術(shù)以后”、“術(shù)后”中的任意一個(gè),當(dāng)判斷結(jié)果為“是”時(shí),特征值為1,否則為0。

3.3.2 關(guān)鍵詞特征

3.3.1節(jié)中提到了某些基于事件的時(shí)間中的事件較為簡(jiǎn)單,即為一些關(guān)鍵詞。hasKEYWORDS判斷當(dāng)前標(biāo)注序列中是否包含字符串“入院”、“住院”、“出院”、“化療”、“檢查”、“治療”中的任意一個(gè),當(dāng)判斷結(jié)果為“是”時(shí),當(dāng)前標(biāo)注單元的關(guān)鍵字特征的特征值為1;否則為0。

3.3.3 時(shí)間觸發(fā)詞特征

利用時(shí)間觸發(fā)詞特征可以有效地判斷當(dāng)前標(biāo)注序列是否可能包含基于事件的時(shí)間。本文收集了時(shí)間觸發(fā)詞例如“年、月、日、天、周”等等,總共11個(gè)。hasTIMETRIGGER判斷當(dāng)前標(biāo)注序列中是否出現(xiàn)了時(shí)間觸發(fā)詞中的任意一個(gè),當(dāng)判斷結(jié)果為“是”時(shí),當(dāng)前標(biāo)注單元的時(shí)間觸發(fā)詞特征的特征值為1;否則為0。

3.3.4 數(shù)詞特征

一般時(shí)間中大多包含數(shù)字。hasNUMERAL判斷當(dāng)前標(biāo)注序列中是否包含數(shù)字0-9或“半一二三四五六七八九十”,當(dāng)判斷結(jié)果為“是”時(shí),當(dāng)前標(biāo)注單元的數(shù)詞特征的特征值為1;否則為0。

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)語(yǔ)料

對(duì)來(lái)自上海中醫(yī)藥大學(xué)附屬曙光醫(yī)院的1 500個(gè)患者的病歷文本進(jìn)行時(shí)間識(shí)別。其中,每個(gè)患者的病歷文本包均含以下記錄:首次病程記錄,首次主治查房記錄,首次主任查房記錄,主任查房記錄,主治查房記錄,交班記錄,住院記錄,日常病程記錄,出院小結(jié)。這些病歷存在大量的冗余信息,通過(guò)觀察發(fā)現(xiàn),出院小結(jié)中的信息最為完整地概括了住院過(guò)程中患者的病情隨時(shí)間的演變,包括入院情況、醫(yī)生診斷情況、檢查情況、治療情況、出院情況以及轉(zhuǎn)歸情況。所以,基于出院小結(jié),可以為每一個(gè)患者生成一個(gè)綜合病歷,總共1 500份。實(shí)驗(yàn)所用的數(shù)據(jù)都是這1 500份綜合病歷。

4.2 評(píng)測(cè)指標(biāo)

通過(guò)準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F1-score)3個(gè)指標(biāo)評(píng)測(cè)識(shí)別獨(dú)立時(shí)間和基于事件的時(shí)間的性能。它們的計(jì)算方法分別為:

(6)

(7)

(8)

其中,Numrecognized是利用bootstrapping算法或CRF模型識(shí)別出來(lái)的時(shí)間總數(shù);Numrecognized correct識(shí)別出來(lái)的時(shí)間中正確的個(gè)數(shù),也就是Numrecognized中正確的個(gè)數(shù);Numcorrect是測(cè)試語(yǔ)料中包含的時(shí)間總數(shù)。

4.3 實(shí)驗(yàn)結(jié)果和分析

4.3.1 獨(dú)立時(shí)間表達(dá)式識(shí)別結(jié)果和分析

將1 500份綜合病歷文本分為兩部分,1 000份作為訓(xùn)練集用來(lái)學(xué)習(xí)模板,500份作為測(cè)試集用來(lái)測(cè)試模板的效果。表4給出了利用正則表達(dá)式和本文方法識(shí)別獨(dú)立時(shí)間的結(jié)果。

表4 不同方法對(duì)識(shí)別獨(dú)立時(shí)間的結(jié)果影響

利用正則表達(dá)式識(shí)別獨(dú)立時(shí)間時(shí),如果醫(yī)生在書(shū)寫(xiě)不規(guī)范,例如出現(xiàn)多個(gè)空格、逗號(hào)或其他符號(hào)將導(dǎo)致正則表達(dá)式無(wú)法識(shí)別;同時(shí),相對(duì)時(shí)間和時(shí)間詞收集不完全也會(huì)影響識(shí)別結(jié)果。而利用本文提出的方法能解決這個(gè)問(wèn)題。

對(duì)基于bootstrapping算法的獨(dú)立時(shí)間識(shí)別結(jié)果進(jìn)行分析,發(fā)現(xiàn)錯(cuò)誤類(lèi)型主要包括以下兩個(gè)方面:(1)模板導(dǎo)致抽取出錯(cuò)誤的時(shí)間,例如:模板“患者于

4.3.2 基于事件的時(shí)間表達(dá)式識(shí)別結(jié)果和分析

依然將1 500份綜合病歷文本分為兩部分,1 000份作為訓(xùn)練集,500份作為測(cè)試集,考慮不同的上下文窗口大小和不同的特征模板對(duì)CRF模型結(jié)果的影響,如表5所示。其中,基準(zhǔn)模板就是上下文特征、詞性特征和位置特征的組合。

表5 不同窗口大小和特征模板對(duì)CRF識(shí)別結(jié)果影響

通過(guò)實(shí)驗(yàn)對(duì)比發(fā)現(xiàn),在基準(zhǔn)實(shí)驗(yàn)的基礎(chǔ)上,加上詞典特征后,CRF識(shí)別結(jié)果明顯變好。這是由于引入中文癥狀知識(shí)庫(kù)作為詞典特征很好地解決了基于事件的時(shí)間短語(yǔ)太長(zhǎng)而不能準(zhǔn)確定位其邊界的問(wèn)題。而數(shù)詞特征對(duì)CRF的識(shí)別結(jié)果影響最小。結(jié)果顯示,當(dāng)上下文窗口大小設(shè)為3,模板選擇為上下文、詞性、位置、詞典、關(guān)鍵詞、時(shí)間觸發(fā)詞和數(shù)詞特征的組合時(shí),CRF識(shí)別結(jié)果最高,其準(zhǔn)確率、召回率、F1值分別為95.94%、92.09%和93.98%。

5 結(jié)論

將電子病歷文本中的時(shí)間分為獨(dú)立時(shí)間和基于事件的時(shí)間,提出了基于bootstrapping算法識(shí)別獨(dú)立時(shí)間和基于條件隨機(jī)場(chǎng)識(shí)別基于事件的時(shí)間的方法?;赽ootstrapping算法識(shí)別獨(dú)立時(shí)間,解決了正則表達(dá)式識(shí)別時(shí)間會(huì)覆蓋不全的問(wèn)題;利用CRF模型將基于事件的時(shí)間識(shí)別問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題,并引入癥狀知識(shí)庫(kù)來(lái)解決基于事件的時(shí)間短語(yǔ)太長(zhǎng)而不能準(zhǔn)確定位其邊界的問(wèn)題。結(jié)果表明,這種方法在獨(dú)立時(shí)間和基于事件的時(shí)間識(shí)別上的F1值分別達(dá)到了92.57%和93.98%。在未來(lái)的工作中,將繼續(xù)識(shí)別電子病歷文本中的時(shí)間關(guān)系,包括事件-事件和事件-時(shí)間的時(shí)間關(guān)系,這對(duì)于研究患者的病情發(fā)展和治療效用至關(guān)重要。

[1] 馬錫坤,楊國(guó)斌,于京杰.國(guó)內(nèi)電子病歷發(fā)展與應(yīng)用現(xiàn)狀分析[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(1):10-12.DOI:10.3969/j.issn.1000-386x.2015.01.003.

[2] 楊錦鋒,于秋濱,關(guān)毅,等.電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J].自動(dòng)化學(xué)報(bào),2014,40(8):1537-1562.DOI:10.3724/SP.J.1004.2014.01537.

[3] Liu Y K,Ray G.SemEval 2007 task 15:TempEval Temporal Relation Identification[C]∥International Workshop on Semantic Evaluations.Association for Computational Linguistics,2007:75-80.

[4] Bethard S,Savova G,Chen W T,etal.SemEval-2016 Task 12:Clinical TempEval[J].ProceedingsofSemEval,2016:1052-1062.DOI:10.18653/v1/S16-1165.

[5] 趙國(guó)榮.中文新聞?wù)Z料中的時(shí)間短語(yǔ)識(shí)別方法研究[D].太原:山西大學(xué),2006.

[6] 蔡華利,劉魯,劉志明,等.突發(fā)事件Web新聞中時(shí)間信息分析及抽取[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(34):107-110.DOI:10.3778/j.issn.1002-8331.2010.34.033.

[7] 朱莎莎,劉宗田,付劍鋒,等.基于條件隨機(jī)場(chǎng)的中文時(shí)間短語(yǔ)識(shí)別[J].計(jì)算機(jī)工程,2011,37(15):164-167.DOI:10.3969/j.issn.1000-3428.2011.15.052.

[8] 吳瓊,黃德根.基于條件隨機(jī)場(chǎng)與時(shí)間詞庫(kù)的中文時(shí)間表達(dá)式識(shí)別[J].中文信息學(xué)報(bào),2014,28(6):169-174.DOI:10.3969/j.issn.1003-0077.2014.06.024.

[9] Str?tgen J,Gertz M.HeidelTime:High Quality Rule-based Extraction and Normalization of Temporal Expressions[C]∥International Workshop on Semantic Evaluation.2010:321-324.

[10] Hao T,Rusanov A,Weng C.Extracting and Normalizing Temporal Expressions in Clinical Data Requests from Researchers[J].LectureNotesinComputerScience,2013,8040:41-51.DOI:10.1007/978-3-642-39844-5-7.

[11] Xu D,Zhang M,Zhao T,etal.Data-Driven Information Extraction from Chinese Electronic Medical Records[J].PlosOne,2015,10(8):e0136270.DOI:10.1371/journal.pone.0136270.

[12] Ferro L,Gerber L,Mani I,etal.TIDES 2005 Standard for the Annotation of Temporal Expressions[S].2005.

[13] Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]∥Proceedings of the Eighteenth International Conference on Machine Learning,ICML,2001,1:282-289.

[14] Wang Y,Yu Z,Chen L,etal.Supervised Methods for Symptom Name Recognition in Free-text Clinical Records of Traditional Chinese Medicine:An Empirical Study[J].JournalofBiomedicalInformatics,2014,47:91-104.DOI:10.1016/j.jbi.2013.09.008.

[15] Hankcs.HanLP[CP].https:∥github.com/hankcs/HanLP,2014.

[16] Tong R,Wang M,Sun J,etal.An Automatic Approach for Constructing a Knowledge Base of Symptoms in Chinese[C]∥IEEE International Conference on Bioinformatics and Biomedicine.IEEE Computer Society,2016:1657-1662.DOI:10.1109/BIBM.2016.7822767.

猜你喜歡
表達(dá)式病歷短語(yǔ)
強(qiáng)迫癥病歷簿
“大數(shù)的認(rèn)識(shí)”的診斷病歷
一個(gè)混合核Hilbert型積分不等式及其算子范數(shù)表達(dá)式
表達(dá)式轉(zhuǎn)換及求值探析
淺析C語(yǔ)言運(yùn)算符及表達(dá)式的教學(xué)誤區(qū)
為何要公開(kāi)全部病歷?
村醫(yī)未寫(xiě)病歷,誰(shuí)之過(guò)?
議C語(yǔ)言中循環(huán)語(yǔ)句
商(2012年11期)2012-07-09 19:07:55
杂多县| 齐河县| 湄潭县| 白水县| 广丰县| 容城县| 全州县| 中西区| 乐清市| 兰西县| 辽源市| 莲花县| 博白县| 英超| 抚顺县| 吉林市| 金川县| 濮阳市| 松阳县| 金坛市| 长治市| 平罗县| 威远县| 宁都县| 离岛区| 开封县| 鄯善县| 临朐县| 鄂托克前旗| 清河县| 安西县| 沂水县| 武强县| 东源县| 延长县| 怀安县| 襄垣县| 长汀县| 磐石市| 九龙城区| 石嘴山市|