基于Transformer交互指導(dǎo)的醫(yī)患對(duì)話聯(lián)合信息抽取方法

2024-08-15 00:00:00林致中王華珍

計(jì)算機(jī)應(yīng)用研究 2024年8期

摘要：針對(duì)電子病歷構(gòu)建過(guò)程中難以捕捉信息抽取任務(wù)之間的關(guān)聯(lián)性和醫(yī)患對(duì)話上下文信息的問(wèn)題，提出了一種基于Transformer交互指導(dǎo)的聯(lián)合信息抽取方法，稱(chēng)為CT-JIE（collaborative Transformer for joint information extraction）。首先，該方法使用滑動(dòng)窗口并結(jié)合Bi-LSTM獲取對(duì)話中的歷史信息，利用標(biāo)簽感知模塊捕捉對(duì)話語(yǔ)境中與任務(wù)標(biāo)簽相關(guān)的信息；其次，通過(guò)全局注意力模塊提高了模型對(duì)于癥狀實(shí)體及其狀態(tài)的上下文感知能力；最后，通過(guò)交互指導(dǎo)模塊顯式地建模了意圖識(shí)別、槽位填充與狀態(tài)識(shí)別三個(gè)任務(wù)之間的交互關(guān)系，以捕捉多任務(wù)之間的復(fù)雜語(yǔ)境和關(guān)系。實(shí)驗(yàn)表明，該方法在IMCS21和CMDD兩個(gè)數(shù)據(jù)集上的性能均優(yōu)于其他基線模型和消融模型，在處理聯(lián)合信息抽取任務(wù)時(shí)具有較強(qiáng)的泛化能力和性能優(yōu)勢(shì)。

關(guān)鍵詞：聯(lián)合信息抽取；醫(yī)患對(duì)話；電子病歷；多任務(wù)學(xué)習(xí)

中圖分類(lèi)號(hào)：TP391.1 文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695（2024）08-010-2315-07

doi：10.19734/j.issn.1001-3695.2023.12.0591

CT-JIE： collaborative Transformer for joint information extractionfrom patient-doctor dialogues

Lin Zhizhong， Wang Huazhen

（School of Computer Science & Technology， Huaqiao University， Xiamen Fujian 361000， China）

Abstract：Addressing the challenges of capturing the correlation between information extraction tasks and the contextual information in doctor-patient dialogues during electronic medical record construction， this paper proposed a Transformer-based collaborative information extraction method called CT-JIE（collaborative Transformer for joint information extraction）. Firstly， this method utilized a sliding window combined with Bi-LSTM to acquire historical information from the dialogues and employed a label-aware module to capture task-related information in the dialogue context. Secondly， the global attention module enhanced the model’s ability to perceive the context of symptom entities and their status. Finally， the interactive guidance module explicitly modeled the interaction among intent recognition， slot filling， and status recognition tasks to capture the complex contexts and relationships among multiple tasks. Experiments demonstrate that this method outperforms other baseline and ablation models on the IMCS21 and CMDD datasets， showing strong generalization ability and performance advantages in handling joint information extraction tasks.

Key words： joint information extraction; medical dialogues; electronic medical record; multi-task learning

0 引言

在現(xiàn)代醫(yī)療信息系統(tǒng)中，電子病歷（electronic medical record，EMR）作為一種重要的信息載體，廣泛應(yīng)用于醫(yī)療實(shí)踐中。電子病歷記錄了患者的臨床信息，通常包含多個(gè)條目，如主訴、現(xiàn)病史、既往史、輔助檢查、診斷和建議等。在電子病歷的構(gòu)建過(guò)程中，醫(yī)生需從醫(yī)患對(duì)話中準(zhǔn)確識(shí)別出醫(yī)學(xué)信息，判斷其所屬的條目類(lèi)別并將其歸類(lèi)到相應(yīng)的條目下。盡管將醫(yī)患對(duì)話轉(zhuǎn)換為電子病歷是醫(yī)生的基本職責(zé)，但這一過(guò)程卻常常費(fèi)時(shí)費(fèi)力［1］，還要求醫(yī)生具備較高的分析能力和歸類(lèi)能力［2］。因此，電子病歷信息的自動(dòng)抽取研究成為了新興的研究領(lǐng)域。

從醫(yī)患對(duì)話中抽取電子病歷信息的過(guò)程中，醫(yī)學(xué)實(shí)體抽取主要涉及對(duì)癥狀、藥物、藥物類(lèi)別等實(shí)體的準(zhǔn)確辨識(shí)，意圖識(shí)別用于將對(duì)話文本正確分類(lèi)到電子病歷的條目體系之中，呈現(xiàn)出多對(duì)一的意圖-條目映射關(guān)系。與其他領(lǐng)域?qū)υ挷煌氖?，醫(yī)患對(duì)話文本具有更為復(fù)雜的實(shí)體狀態(tài)信息。實(shí)體陰陽(yáng)性是基于醫(yī)患對(duì)話上下文后對(duì)實(shí)體的狀態(tài)進(jìn)行的總結(jié)，其分為陽(yáng)性、陰性和不確定三種類(lèi)別。陽(yáng)性表示患者自述已出現(xiàn)該癥狀、疾病等相關(guān)或是醫(yī)生對(duì)患者的診斷；陰性則代表患者未患有疾病、癥狀等相關(guān)；而不確定則表示醫(yī)患對(duì)話中未知的實(shí)體狀態(tài)信息。以圖1中的對(duì)話為例，患者在對(duì)話中明確提到自己有咳嗽的癥狀，因此該癥狀實(shí)體的狀態(tài)為陽(yáng)性。

在傳統(tǒng)的信息抽取中，獨(dú)立處理這些任務(wù)可能導(dǎo)致信息孤立，從而忽略了它們之間的內(nèi)在關(guān)聯(lián)性。因此，采用聯(lián)合信息抽取技術(shù)成為解決這一挑戰(zhàn)的有效手段。與傳統(tǒng)的單一任務(wù)處理方法不同，聯(lián)合信息抽取技術(shù)將多個(gè)相關(guān)任務(wù)結(jié)合在一起，以便在處理文本時(shí)更好地捕捉任務(wù)之間的關(guān)聯(lián)性和上下文信息。其主要挑戰(zhàn)在于如何加強(qiáng)多個(gè)任務(wù)之間的交互，進(jìn)而利用多個(gè)任務(wù)之間的潛在信息來(lái)提升信息抽取的性能。過(guò)去的研究采用了共享編碼器的多任務(wù)框架［3，4］，通過(guò)共享編碼器來(lái)同時(shí)捕捉任務(wù)之間的共享特征，從而在性能上超越了傳統(tǒng)的流水線框架。然而，這些方法雖然通過(guò)相互增強(qiáng)的方式在一定程度上提高了性能，但僅僅通過(guò)共享參數(shù)來(lái)隱式地建模任務(wù)之間的關(guān)系。文獻(xiàn)［5～7］則顯式地將意圖信息應(yīng)用于引導(dǎo)槽位填充任務(wù)，取得了先進(jìn)的性能。但這些方法僅考慮了單向的信息流，未能充分挖掘多個(gè)任務(wù)之間的交互信息。

與此同時(shí)，另一個(gè)關(guān)鍵的問(wèn)題在于傳統(tǒng)的方法缺乏一種可靠的機(jī)制來(lái)有效地捕捉對(duì)話之間的上下文相關(guān)性信息，以通過(guò)對(duì)話上下文推斷實(shí)體的狀態(tài)。在醫(yī)患對(duì)話中，每一輪對(duì)話都會(huì)對(duì)任務(wù)的執(zhí)行產(chǎn)生影響，對(duì)話中的語(yǔ)境信息對(duì)于正確理解和抽取信息至關(guān)重要。以圖1中對(duì)話為例，醫(yī)生詢(xún)問(wèn)患者“寶寶平時(shí)會(huì)打噴嚏嗎”，現(xiàn)有的醫(yī)學(xué)信息抽取模型往往只是簡(jiǎn)單地將槽位與槽值實(shí)體抽取為（“癥狀名”“打噴嚏”），忽視了醫(yī)學(xué)實(shí)體的否定信息“不會(huì)”，可能會(huì)導(dǎo)致錯(cuò)誤的信息抽取。因此，醫(yī)療領(lǐng)域的醫(yī)學(xué)實(shí)體抽取不僅需要捕獲實(shí)體的存在，還應(yīng)考慮對(duì)話句子上下文之間的關(guān)聯(lián)信息，以抽取實(shí)體的陰陽(yáng)性作為實(shí)體的狀態(tài)輔助信息來(lái)準(zhǔn)確地刻畫(huà)實(shí)體的存在與否。Vaswani等人［8］提出了一種基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)Transformer，通過(guò)引入自注意力機(jī)制來(lái)捕捉輸入序列中各個(gè)位置之間的依賴(lài)關(guān)系，在多個(gè)自然語(yǔ)言處理任務(wù)中取得了突破性進(jìn)展?；赥ransformer結(jié)構(gòu)的模型［9］能夠有效地處理長(zhǎng)距離依賴(lài)關(guān)系，更好地理解輸入序列的上下文信息。

為解決上述兩個(gè)問(wèn)題，本文提出了一種基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型CT-JIE（collaborative transformer for joint information extraction）。CT-JIE模型主要由三個(gè)模塊構(gòu)成，分別為標(biāo)簽感知模塊、全局感知模塊和交互指導(dǎo)模塊。采用IMCS21與CMDD數(shù)據(jù)集來(lái)驗(yàn)證CT-JIE模型在聯(lián)合信息抽取上的有效性。本文的貢獻(xiàn)主要包括以下幾個(gè)方面：

a）提出了一個(gè)基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型CT-JIE，通過(guò)充分利用醫(yī)患對(duì)話中的意圖識(shí)別、槽位填充及狀態(tài)識(shí)別等多個(gè)任務(wù)之間的交互信息，增強(qiáng)了任務(wù)輸出層的表示能力。

b）采用滑動(dòng)窗口技術(shù)與全局注意力機(jī)制，使得模型能夠更好地捕獲醫(yī)患對(duì)話中的全局上下文信息，以提高多個(gè)任務(wù)的性能表現(xiàn)。

c）在IMCS21和CMDD數(shù)據(jù)集上進(jìn)行了多方面的實(shí)驗(yàn)，結(jié)果顯示CT-JIE模型在各項(xiàng)性能指標(biāo)上均優(yōu)于所選的單任務(wù)信息抽取模型和雙任務(wù)信息抽取模型。此外，還進(jìn)行了消融實(shí)驗(yàn)，以更深入地理解CT-JIE的模型設(shè)計(jì)，證實(shí)了其中關(guān)鍵組件的有效性。

1 相關(guān)工作

1.1 基于多任務(wù)的聯(lián)合信息抽取技術(shù)研究

基于多任務(wù)學(xué)習(xí)的聯(lián)合信息抽取是一種常見(jiàn)的抽取方法，它將不同子任務(wù)視為不同的學(xué)習(xí)任務(wù)，并在一個(gè)統(tǒng)一的框架下進(jìn)行優(yōu)化和訓(xùn)練。多任務(wù)學(xué)習(xí)可以有效地利用不同任務(wù)之間的共享特征和互補(bǔ)信息，從而提高模型的泛化能力和下游任務(wù)的性能指標(biāo)?，F(xiàn)有聯(lián)合抽取模型總體上有兩大類(lèi)［10］：基于共享參數(shù)的聯(lián)合信息抽取模型和基于聯(lián)合解碼的聯(lián)合信息抽取模型?；诠蚕韰?shù)的聯(lián)合信息抽取模型是指在不同子任務(wù)之間共享一部分或全部的模型參數(shù)，從而實(shí)現(xiàn)特征共享和知識(shí)遷移。Miwa等人［11］提出了一種基于LSTM的端到端關(guān)系抽取方法，通過(guò)共享LSTM參數(shù)來(lái)處理實(shí)體提取和關(guān)系抽取兩個(gè)任務(wù)，將文本中的實(shí)體和關(guān)系同時(shí)進(jìn)行建模和抽取。Katiyar等人［12］提出了一種在沒(méi)有依賴(lài)樹(shù)的情況下進(jìn)行實(shí)體提取和關(guān)系抽取的聯(lián)合模型，通過(guò)共享卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)，同時(shí)處理實(shí)體和關(guān)系的抽取任務(wù)，從而實(shí)現(xiàn)特征共享和模型簡(jiǎn)化。共享參數(shù)的設(shè)置使得模型能夠在兩個(gè)任務(wù)之間共享上下文信息，從而提高了模型的性能和泛化能力。Zeng等人［13］提出了一種基于seq2seq框架的聯(lián)合抽取模型，并引入復(fù)制機(jī)制來(lái)生成多對(duì)三元組。Bekoulis等人［14］將實(shí)體識(shí)別和關(guān)系抽取視為一個(gè)多頭選擇問(wèn)題，并提出了一種共享參數(shù)的聯(lián)合模型。通過(guò)使用多頭注意力機(jī)制來(lái)處理實(shí)體和關(guān)系之間的交互關(guān)系，并通過(guò)共享參數(shù)來(lái)增強(qiáng)兩個(gè)任務(wù)之間的關(guān)聯(lián)性。除了基于共享參數(shù)的聯(lián)合信息抽取模型外，還存在一類(lèi)基于聯(lián)合解碼的方法，旨在通過(guò)聯(lián)合解碼的方式更加緊密地捕捉實(shí)體和關(guān)系之間的語(yǔ)義關(guān)聯(lián)。Katiyar等人［15］利用條件隨機(jī)場(chǎng)同時(shí)建模實(shí)體和關(guān)系模型，并通過(guò)維特比解碼算法得到實(shí)體和關(guān)系的輸出結(jié)果。Li等人［16］將實(shí)體關(guān)系抽取看作是一個(gè)結(jié)構(gòu)化預(yù)測(cè)問(wèn)題，采用結(jié)構(gòu)化感知機(jī)算法設(shè)計(jì)了全局特征，并使用集束搜索進(jìn)行近似聯(lián)合解碼。Zhang等人［17］提出使用全局歸一化解碼算法，通過(guò)在解碼階段引入全局優(yōu)化機(jī)制，將實(shí)體提取和關(guān)系分類(lèi)任務(wù)緊密耦合在一起，從而在捕捉關(guān)聯(lián)信息的同時(shí)提高了抽取任務(wù)的準(zhǔn)確性。Wang等人［18］設(shè)計(jì)了一種新穎的圖方案，將聯(lián)合任務(wù)轉(zhuǎn)換為一個(gè)有向圖，并針對(duì)實(shí)體關(guān)系抽取設(shè)計(jì)了一套轉(zhuǎn)移系統(tǒng)，從而實(shí)現(xiàn)聯(lián)合實(shí)體關(guān)系抽取。

綜上所述，基于多任務(wù)學(xué)習(xí)的聯(lián)合信息抽取模型在處理信息抽取任務(wù)中表現(xiàn)出了巨大的潛力。這些模型通過(guò)將不同子任務(wù)統(tǒng)一到一個(gè)框架下，有效地利用了任務(wù)之間的相關(guān)性和共享信息，提高了模型的性能和泛化能力。

1.2 醫(yī)患對(duì)話文本的信息抽取

醫(yī)患對(duì)話文本蘊(yùn)涵著豐富的醫(yī)療信息，這些信息對(duì)于醫(yī)生和患者都至關(guān)重要。為了更好地挖掘這些信息，研究人員已經(jīng)進(jìn)行了大量相關(guān)工作。實(shí)體抽取是醫(yī)患對(duì)話文本信息抽取的首要任務(wù)之一，它的目標(biāo)是從對(duì)話文本中識(shí)別出醫(yī)學(xué)領(lǐng)域相關(guān)的實(shí)體，例如癥狀、疾病、藥物等，并對(duì)它們進(jìn)行類(lèi)型和邊界的明確標(biāo)注。Kannan等人［19］采用了半監(jiān)督學(xué)習(xí)的策略，結(jié)合有標(biāo)簽的實(shí)體信息和無(wú)標(biāo)簽的對(duì)話內(nèi)容，構(gòu)建了更加魯棒和高效的醫(yī)學(xué)實(shí)體抽取模型。Peng等人［20］充分利用醫(yī)患對(duì)話文本中的信息，將對(duì)話內(nèi)容與醫(yī)療保險(xiǎn)相關(guān)的實(shí)體抽取出來(lái)，從而歸納出有關(guān)醫(yī)療保險(xiǎn)的重要信息。扈應(yīng)等人［21］提出一種結(jié)合CRF的神經(jīng)網(wǎng)絡(luò)邊界組合方法，結(jié)合生物醫(yī)學(xué)領(lǐng)域的特征信息進(jìn)行生物醫(yī)學(xué)命名實(shí)體抽取。Zhang等人［22］針對(duì)醫(yī)患對(duì)話文本，設(shè)計(jì)了一種能夠識(shí)別醫(yī)學(xué)實(shí)體、提取關(guān)聯(lián)信息并生成結(jié)構(gòu)化記錄的醫(yī)療信息提取器。醫(yī)患對(duì)話文本信息抽取的另一個(gè)重要的研究方向是主題識(shí)別，即從對(duì)話中抽取出患者的主訴、既往史、診斷結(jié)果等內(nèi)容，為電子病歷的生成提供了有力支持。Song等人［23］提出了一種分層編碼-標(biāo)注器模型，從患者和醫(yī)生的發(fā)言中抽取出有關(guān)的問(wèn)題描述、診斷、治療和其他等對(duì)話句子文本，由此識(shí)別并提取出重要發(fā)言生成對(duì)話摘要。Krishna等人［24］研究了如何從醫(yī)患對(duì)話中抽取出與每個(gè)SOAP筆記相關(guān)的句子，并組合為SOAP筆記的不同部分。

此外，由于醫(yī)患對(duì)話的多輪性特點(diǎn)，使得信息抽取模型無(wú)法很好地分辨對(duì)話者所述的內(nèi)容是否完全真實(shí)可靠，所以也有大量的學(xué)者聚焦于醫(yī)學(xué)癥狀實(shí)體的狀態(tài)識(shí)別研究工作中。早在2019年，Du等人［25］就提出通過(guò)提取癥狀以及其對(duì)應(yīng)的狀態(tài)來(lái)對(duì)醫(yī)患對(duì)話進(jìn)行醫(yī)學(xué)信息抽取，要求抽取的每個(gè)癥狀與陽(yáng)性、陰性和不清楚三個(gè)狀態(tài)相關(guān)聯(lián)。Lin等人［26］提出了一個(gè)全局注意力機(jī)制來(lái)捕獲醫(yī)患對(duì)話中的癥狀實(shí)體與其對(duì)應(yīng)的狀態(tài)，并通過(guò)構(gòu)建癥狀圖來(lái)建模癥狀之間的關(guān)聯(lián)。第七屆中國(guó)健康信息處理會(huì)議（CHIP2021）和第一屆智能對(duì)話診療評(píng)測(cè)比賽（CCL2021）也分別提出了醫(yī)學(xué)實(shí)體癥狀識(shí)別的任務(wù)，不僅發(fā)布了相關(guān)的大型醫(yī)療數(shù)據(jù)集，也進(jìn)一步引發(fā)了學(xué)者的研究興趣。與僅從醫(yī)學(xué)對(duì)話中提取癥狀和狀態(tài)不同，Zhang等人［22］進(jìn)一步定義了癥狀、檢查、手術(shù)和其他信息四類(lèi)，還定義了每個(gè)類(lèi)別和每個(gè)項(xiàng)的狀態(tài)。他們以窗口滑動(dòng)的方式對(duì)對(duì)話進(jìn)行注釋?zhuān)岢隽艘环N深度神經(jīng)匹配網(wǎng)絡(luò)來(lái)提取對(duì)話中的醫(yī)學(xué)信息。Hu等人［27］提出了一種上下文感知信息提取器CANE，采用局部到全局的機(jī)制來(lái)建模對(duì)話句子之間的上下文聯(lián)系，有效地抽取出了醫(yī)患對(duì)話中的醫(yī)學(xué)實(shí)體項(xiàng)與其狀態(tài)信息。

綜上所述，醫(yī)患對(duì)話文本的信息抽取在醫(yī)學(xué)領(lǐng)域發(fā)揮著重要作用，包括實(shí)體抽取、主題識(shí)別和實(shí)體狀態(tài)識(shí)別等任務(wù)，有助于將醫(yī)患對(duì)話中的非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化的醫(yī)學(xué)信息，為電子病歷生成、醫(yī)療決策支持等應(yīng)用領(lǐng)域提供了有力的數(shù)據(jù)支持。

2 基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型

CI-JIE模型架構(gòu)如圖2所示，主要由標(biāo)簽感知模塊、全局感知模塊和交互指導(dǎo)模塊三個(gè)模塊組成。a）標(biāo)簽感知模塊旨在通過(guò)注意力機(jī)制捕捉對(duì)話語(yǔ)境中與任務(wù)標(biāo)簽相關(guān)的信息，以獲得針對(duì)性的語(yǔ)義編碼表示；b）全局感知模塊旨在捕捉目標(biāo)句子中癥狀實(shí)體與其狀態(tài)受整個(gè)對(duì)話樣本上下文的影響，通過(guò)引入動(dòng)態(tài)注意力機(jī)制，對(duì)不同對(duì)話窗口之間的全局關(guān)聯(lián)性進(jìn)行建模，從而獲取更豐富的上下文信息；c）交互指導(dǎo)模塊以Transformer為架構(gòu)，采用協(xié)同交互注意力層代替原生Transformer中的自注意力機(jī)制。通過(guò)多個(gè)任務(wù)的交互感知計(jì)算，實(shí)現(xiàn)了任務(wù)表示向量的互相增強(qiáng)。最后，分別針對(duì)意圖識(shí)別、槽位填充和狀態(tài)識(shí)別進(jìn)行解碼，聯(lián)合輸出醫(yī)患對(duì)話文本中的對(duì)話意圖、醫(yī)學(xué)實(shí)體及其對(duì)應(yīng)的狀態(tài)。

2.1 標(biāo)簽感知模塊

本文信息抽取模型的輸出形式為標(biāo)簽詞典預(yù)測(cè)向量，即向量中每個(gè)維度值是由信息抽取模型的當(dāng)前輸入數(shù)據(jù)實(shí)例來(lái)決定的。本文使用滑動(dòng)窗口方法來(lái)為對(duì)話樣本構(gòu)建對(duì)話窗口，同時(shí)通過(guò)注意力機(jī)制捕捉對(duì)話語(yǔ)境中與特定標(biāo)簽相關(guān)的信息，從而獲得更有針對(duì)性的語(yǔ)義編碼表示。

給定醫(yī)患對(duì)話樣本D=（X1，X2，…，Xn），其中n為對(duì)話樣本中對(duì)話句子的數(shù)量，Xi表示醫(yī)生或患者所述的句子。針對(duì)目標(biāo)句子X(jué)i及其歷史句子構(gòu)建一個(gè)固定大小為L(zhǎng)的對(duì)話窗口Pi={Xi，Xi-1，…，Xi-L+1}。如果i<L，則在對(duì)話窗口內(nèi)填充空字符串，從而可將醫(yī)患對(duì)話樣本D構(gòu)建成一系列的對(duì)話窗口{P1，P2，…，Pn}。如圖3所示，針對(duì)目標(biāo)句X4和X5分別構(gòu)建其對(duì)話窗口，滑動(dòng)窗口的滑動(dòng)步長(zhǎng)為1。

之后再將對(duì)話窗口Pi內(nèi)的每一個(gè)句子進(jìn)行拼接后得到XTW=（x1，x2，…，xT），其中T為輸入文本的字符數(shù)。將XTW送入Bi-LSTM層獲得窗口對(duì)話文本的輸出向量hTW，作為目標(biāo)句子的語(yǔ)義編碼表示。接著將對(duì)話意圖、槽位實(shí)體和狀態(tài)標(biāo)簽詞典分別進(jìn)行嵌入，獲得對(duì)話意圖標(biāo)簽詞典矩陣WI∈Rd×Ilabel，槽位實(shí)體標(biāo)簽詞典矩陣WE∈Rd×Elabel和狀態(tài)標(biāo)簽詞典矩陣WV∈Rd×Vlabel，其中d代表維度，Ilabel、Elabel、Vlabel分別代表意圖標(biāo)簽、槽位標(biāo)簽和狀態(tài)標(biāo)簽的數(shù)量。然后通過(guò)注意力機(jī)制來(lái)捕捉目標(biāo)句子語(yǔ)義編碼在標(biāo)簽詞典上的注意力分布，使模型能夠在對(duì)話窗口文本的基礎(chǔ)上關(guān)注特定標(biāo)簽詞典中與目標(biāo)句子相關(guān)的信息。分別得到意圖、槽位實(shí)體和狀態(tài)的標(biāo)簽詞典感知表示計(jì)算公式HI、HE和HV，如式（1）和（2）所示。

A=softmax（hTWW）（1）

H=hTW+AW（2）

其中：W是標(biāo)簽詞典的嵌入矩陣。

2.2 全局感知模塊

目標(biāo)句子中癥狀實(shí)體的狀態(tài)不僅由當(dāng)前對(duì)話窗口的上下文決定，還會(huì)受到后續(xù)對(duì)話窗口中相關(guān)信息的影響。因此本文引入動(dòng)態(tài)注意力機(jī)制探究對(duì)話窗口之間的全局關(guān)聯(lián)性，捕獲整個(gè)對(duì)話樣本之間的上下文信息。例如，在當(dāng)前對(duì)話窗口中提及“胸痛”，那么模型將在后續(xù)的對(duì)話窗口中為“胸痛”以及如“我有”“我曾患有”等關(guān)于狀態(tài)的描述詞分配較高的注意力值，給當(dāng)前窗口的實(shí)體與狀態(tài)判別提供更有針對(duì)性的語(yǔ)境信息。具體做法如下，首先將第i個(gè)對(duì)話窗口{Xi，Xi-1，…，Xi-L+1}的狀態(tài)標(biāo)簽詞典感知表示HVi與后續(xù)對(duì)話窗口的狀態(tài)標(biāo)簽詞典感知表示{HVi+1，…，HVM}進(jìn)行注意力分?jǐn)?shù)的計(jì)算，如式（3）和（4）所示。

sij=HTViWgHVj（3）

aij=softmax（sij）（4）

其中：j=1，2，…，M，M為第i個(gè)對(duì)話窗口的后續(xù)對(duì)話窗口的數(shù)量；Wg是可訓(xùn)練的矩陣參數(shù)。

在動(dòng)態(tài)注意力機(jī)制中，注意力分?jǐn)?shù)越高，表示兩者具有更高的相關(guān)性，關(guān)注注意力分?jǐn)?shù)高的窗口也會(huì)幫助模型捕捉到整個(gè)對(duì)話樣本中全局上下文更為關(guān)鍵的信息。因此本文首先找到注意力分?jǐn)?shù)最高的后續(xù)窗口，然后將其狀態(tài)標(biāo)簽詞典感知表示HVg與當(dāng)前窗口的狀態(tài)標(biāo)簽詞典感知表示HVi進(jìn)行相加，得到狀態(tài)標(biāo)簽詞典全局感知表示HVs，如式（5）和（6）所示。

HVg=HVargmaxj（aij）（5）

HVs=HVi+HVg（6）

其中：如果當(dāng)前窗口為對(duì)話樣本中的最后一個(gè)窗口，即M=0時(shí)，HVg將被設(shè)定為零向量。與此類(lèi)似，再將當(dāng)前對(duì)話窗口的槽位實(shí)體標(biāo)簽詞典感知表示HEi與后續(xù)對(duì)話窗口進(jìn)行同上述一樣的操作，得到槽位實(shí)體標(biāo)簽詞典全局感知表示HEs。

2.3 交互指導(dǎo)模塊

在原生的Transformer中，每個(gè)子層都由自注意力和前饋網(wǎng)絡(luò)層組成。通過(guò)自注意力機(jī)制，Transformer能夠在輸入序列中建立全局的依賴(lài)關(guān)系，使得每個(gè)位置的表示能夠考慮整個(gè)序列的信息。然而，在處理多任務(wù)場(chǎng)景時(shí)，這種全局依賴(lài)性無(wú)法充分捕捉不同任務(wù)之間的局部關(guān)聯(lián)性。因此，本文提出一個(gè)以Transformer為基礎(chǔ)架構(gòu)的設(shè)計(jì)，其中引入了協(xié)同交互注意力層替換傳統(tǒng)Transformer中的自注意力機(jī)制，旨在通過(guò)顯示建模多個(gè)任務(wù)之間的交互關(guān)系，構(gòu)建多個(gè)任務(wù)之間的多向連接。這種協(xié)同交互的方式使得任一任務(wù)表示向量的更新都受到其他兩個(gè)任務(wù)的影響，能夠更充分地利用不同任務(wù)之間的語(yǔ)境和關(guān)聯(lián)信息。同時(shí)，針對(duì)前饋網(wǎng)絡(luò)進(jìn)行改進(jìn)，隱式地融合共享多個(gè)任務(wù)之間的信息。具體技術(shù)圖如圖4所示。

與Transformer相同，首先通過(guò)不同類(lèi)型的線性投影函數(shù)，將標(biāo)簽詞典感知表示HI、HEs與HVs投影為QI，QEs，QVs=queries（HI，HEs，HVs）、KI，KEs，KVs=keys（HI，HEs，HVs）和VI，VEs，VVs=values（HI，HEs，HVs）。為獲取槽位表示并融合相應(yīng)的意圖信息，以QI作為查詢(xún)向量，KEs作為鍵向量，VEs作為值向量，利用注意力機(jī)制計(jì)算注意力分?jǐn)?shù)，得到對(duì)槽位感知的意圖表示CI。

CI=softmax（QIKTEsd）VEs（7）

其中：d代表查詢(xún)向量QI的維度。接著將CI加到原始的意圖表示HI上進(jìn)行層歸一化操作，得到與槽位信息進(jìn)行交互注意力計(jì)算后的意圖表示H′I，如式（8）所示。

H′I=LN（HI+CI）（8）

其中：LN（·）代表層歸一化。同樣，為了使得狀態(tài)表示能夠受到槽位信息的影響，將QVs作為查詢(xún)向量，KEs作為鍵向量，VEs作為值向量來(lái)獲取槽位感知的狀態(tài)表示H′Vs。在交互指導(dǎo)的過(guò)程中，槽位的表示會(huì)同時(shí)受到意圖與狀態(tài)的影響。因此，在獲取槽位的增強(qiáng)表示時(shí)應(yīng)對(duì)意圖和狀態(tài)都進(jìn)行感知計(jì)算。然后將計(jì)算后的包含意圖信息的槽位表示HIEs與包含狀態(tài)信息的槽位表示HVEs相加后得到槽位表示H′Es，如式（9）所示。

H′Es=HIEs+HVEs（9）

最后，通過(guò)前饋網(wǎng)絡(luò)FFN隱式地融合多個(gè)任務(wù)的信息，再將H′I、H′Es和H′Vs分別與FFN（HISV）拼接得到最終輸出的意圖表示H＾I、槽位表示H＾Es和狀態(tài)表示H＾Vs，如式（10）～（13）所示。

HISV=H′I⊕H′Es⊕H′Vs（10）

H＾I=LN（H′I+FFN（HISV））（11）

H＾Es=LN（H′Es+FFN（HISV））（12）

H＾Vs=LN（H′Vs+FFN（HISV））（13）

2.4 聯(lián)合訓(xùn)練

對(duì)于意圖識(shí)別任務(wù)，采用交叉熵?fù)p失函數(shù)作為損失函數(shù)：

Lossintent=-∑iyi·log（pi）（14）

其中：yi是真實(shí)的意圖標(biāo)簽字典向量；pi是模型預(yù)測(cè)的意圖概率向量，其維度是意圖類(lèi)別數(shù)量Ilabel。

對(duì)于槽位填充與狀態(tài)識(shí)別任務(wù)，引入CRF層作為標(biāo)簽序列識(shí)別器輸出槽位實(shí)體的預(yù)測(cè)向量P（y＾s|Os）以及狀態(tài)的預(yù)測(cè)向量P（y＾v|Ov），如式（15）～（18）所示。

Os=WSH＾Es+bEs（15）

P（y＾s|Os）=∑i=1escore（y＾si-1，y＾si，Os）∑ys∑i=1escore（ysi-1，ysi，Os）（16）

Ov=WVH＾Vs+bVs（17）

P（y＾v|Ov）=∑i=1escore（y＾vi，y＾vi-1，Ov）∑yv∑i=1escore（yvi-1，yvi，Ov）（18）

其中：P（y＾s|Os）為給定觀測(cè)序列Os下標(biāo)注序列y＾s的概率向量，其計(jì)算公式中的score為標(biāo)簽ysi-1到y(tǒng)si的狀態(tài)轉(zhuǎn)移得分；P（y＾v|Ov）為給定觀測(cè)序列Ov下標(biāo)注序列y＾v的概率向量，其計(jì)算公式中的score為標(biāo)簽yvi-1到y(tǒng)vi的狀態(tài)轉(zhuǎn)移得分。

采用最小化負(fù)似然對(duì)數(shù)來(lái)計(jì)算槽位填充和狀態(tài)識(shí)別的損失，如式（19）和（20）所示。

Lossslot=-log（P（y＾s|Os））（19）

Lossstatus=-log（P（y＾v|Os））（20）

最后，采用動(dòng)態(tài)權(quán)重平均的方法［28］計(jì)算出意圖識(shí)別、槽位填充與狀態(tài)識(shí)別在當(dāng)前時(shí)間步的權(quán)重wintent、wslot和wstatus。獲得最終的損失Losstotal，如式（21）所示。

Losstotal=wintent·Lossintent+wslot·Lossslot+wstatus·Lossstatus（21）

在不同訓(xùn)練階段將使用不同的權(quán)重分配，即較大損失的任務(wù)在權(quán)重中會(huì)占據(jù)更大的比例，以便更多地影響模型參數(shù)的更新。針對(duì)Losstotal進(jìn)行優(yōu)化迭代計(jì)算，直至達(dá)到停止條件，從而獲得基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型 CT-JIE。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)設(shè)置

本文采用預(yù)訓(xùn)練的skip-gram［29］嵌入向量進(jìn)行中文字符的嵌入表示，維度為300。采用的Bi-LSTM隱藏層是128維，前饋網(wǎng)絡(luò)是300維，優(yōu)化器是RAdam［30］。此外，還采用早停策略和動(dòng)態(tài)損失的優(yōu)化策略。

3.2 數(shù)據(jù)集

本文實(shí)驗(yàn)在智能對(duì)話診療數(shù)據(jù)集（IMCS21）［31］與中文醫(yī)學(xué)診斷數(shù)據(jù)集（CMDD）［26］上進(jìn)行。IMCS21數(shù)據(jù)集被選用以全面驗(yàn)證模型的整體抽取性能，充分評(píng)估模型在意圖識(shí)別、槽位填充和狀態(tài)識(shí)別等多個(gè)任務(wù)上的表現(xiàn)。CMDD數(shù)據(jù)集則被用于深入研究模型在槽位實(shí)體與其狀態(tài)聯(lián)合抽取的準(zhǔn)確性。

3.2.1 IMCS21數(shù)據(jù)集

IMCS21數(shù)據(jù)集收集了真實(shí)的在線醫(yī)患對(duì)話，并進(jìn)行了多層次的人工標(biāo)注，包括槽位實(shí)體、對(duì)話意圖、癥狀狀態(tài)標(biāo)簽等，其中實(shí)體類(lèi)型數(shù)量為5，對(duì)話意圖類(lèi)型數(shù)量為16，癥狀狀態(tài)標(biāo)簽包含陰性、陽(yáng)性和不確定三種狀態(tài)，樣本集規(guī)模為4 116個(gè)醫(yī)患對(duì)話樣本。IMCS21數(shù)據(jù)集信息匯總?cè)绫?所示。

3.2.2 CMDD數(shù)據(jù)集

在本文中，將CMDD數(shù)據(jù)集轉(zhuǎn)換為滑動(dòng)窗口的對(duì)話格式，參照Hu等人［27］的設(shè)置，將窗口大小設(shè)置為5。處理后的CMDD數(shù)據(jù)集包含2 067個(gè)對(duì)話和87 005個(gè)對(duì)話窗口，涵蓋了160個(gè)癥狀，其中每個(gè)癥狀都包含陽(yáng)性、陰性與未知三種狀態(tài)。

3.3 基線模型

為了對(duì)意圖識(shí)別、槽位填充和狀態(tài)識(shí)別三任務(wù)聯(lián)合信息模型CT-JIE進(jìn)行對(duì)比研究，本文選擇單任務(wù)信息抽取模型，另外還引入聚焦意圖識(shí)別和槽位填充的雙任務(wù)聯(lián)合信息模型進(jìn)行對(duì)比?；€模型信息如下所述。

3.3.1 單任務(wù)信息抽取模型

本文選擇多個(gè)單任務(wù)信息抽取模型分別在IMCS21與CMDD數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)，具體信息如表2所示。

3.3.2 意圖識(shí)別和槽位填充的雙任務(wù)聯(lián)合信息模型

實(shí)驗(yàn)采用的雙任務(wù)信息抽取模型具體信息如表3所示。

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 CT-JIE的聯(lián)合信息抽取性能展示

在本節(jié)中，首先通過(guò)消融實(shí)驗(yàn)來(lái)評(píng)估CT-JIE模型的有效性。實(shí)驗(yàn)分別在IMCS21與CMDD數(shù)據(jù)集上進(jìn)行。消融實(shí)驗(yàn)結(jié)果如表4所示。其中，CT-JIE/DW指的是從CT-JIE模型中去除滑動(dòng)窗口技術(shù)，CT-JIE/GA指的是從CT-JIE模型中去除全局感知模塊。

表4中的結(jié)果表明，去除滑動(dòng)窗口的輸入形式會(huì)導(dǎo)致CT-JIE模型在IMCS數(shù)據(jù)集上意圖識(shí)別的accracy、槽位填充的F1值和狀態(tài)識(shí)2acf7862bbd45990af4c0a3a8a25c426別的macro-F1值分別下降1.88、2.39和5.37百分點(diǎn)，在CMDD數(shù)據(jù)集上的實(shí)體-狀態(tài)聯(lián)合識(shí)別的F1值下降3.50百分點(diǎn)。這是因?yàn)橥ㄟ^(guò)窗口整合多句文本進(jìn)行輸入，可以有效地獲得目標(biāo)句的歷史信息。此外，如果不進(jìn)行全局注意力機(jī)制計(jì)算，模型性能在IMCS數(shù)據(jù)集上會(huì)下降2.20、2.08和7.52百分點(diǎn)，在CMDD數(shù)據(jù)集上會(huì)下降5.97百分點(diǎn)。這說(shuō)明全局注意力對(duì)狀態(tài)識(shí)別任務(wù)有著較大的提升，因?yàn)樗鼘⑾挛闹凶罹咝畔⒌拇翱谇度氲疆?dāng)前的窗口，以幫助窗口捕捉狀態(tài)的變化。

接著通過(guò)混淆矩陣進(jìn)一步評(píng)估CT-JIE模型的有效性。采用IMCS數(shù)據(jù)集上的驗(yàn)證集數(shù)據(jù)對(duì)癥狀陰陽(yáng)性識(shí)別任務(wù)進(jìn)行分析，預(yù)測(cè)結(jié)果的混淆矩陣如表5所示。從混淆矩陣性能展示結(jié)果看，數(shù)值越高代表類(lèi)別分類(lèi)效果越好。觀察可知，模型針對(duì)“不確定”類(lèi)別的判別準(zhǔn)確率較低，主要是因?yàn)閿?shù)據(jù)集樣本中包含“不確定”的信息較少，模型很難學(xué)習(xí)到完整的特征。模型在“陽(yáng)性”與“不確定”之間的誤分類(lèi)占比最大，在陰陽(yáng)性之間的誤分類(lèi)情況較少，證明模型能夠有效判斷陰陽(yáng)性。

3.4.2 CT-JIE與基線模型的對(duì)比展示

表6和7分別展示了CT-JIE模型與基線模型在IMCS21和CMDD數(shù)據(jù)集上的性能指標(biāo)的對(duì)比結(jié)果。

從結(jié)果上來(lái)說(shuō)，可以得到以下觀察結(jié)果：

a）從整體的實(shí)驗(yàn)結(jié)果上來(lái)看，CT-JIE模型在IMCS數(shù)據(jù)集上的意圖識(shí)別accuracy、槽位填充F1值和狀態(tài)識(shí)別的macro-F1為80.03%、93.18%和74.94%，均超過(guò)了對(duì)比的基線模型。同時(shí)，CT-JIE模型在CMDD數(shù)據(jù)集上的實(shí)體-狀態(tài)識(shí)別任務(wù)F1為80.31%，在實(shí)體-狀態(tài)的聯(lián)合識(shí)別中取得了較好的性能，證明本文模型的有效性。

b）CT-JIE模型相較于單任務(wù)的基線模型的性能提升微弱，這一現(xiàn)象可以解釋為CT-JIE模型的設(shè)計(jì)重點(diǎn)放在了多任務(wù)聯(lián)合信息的抽取上，而單任務(wù)基線模型更專(zhuān)注于各自任務(wù)的性能。CT-JIE模型的聯(lián)合信息抽取結(jié)構(gòu)可能會(huì)引入一定的復(fù)雜性和冗余性，使得模型在單任務(wù)性能上的提升受到限制。

c）CT-JIE模型相較于雙任務(wù)模型有著不錯(cuò)的性能提升，這是因?yàn)镃T-JIE模型引入了交互指導(dǎo)模塊，使得CT-JIE模型充分利用了任務(wù)之間的信息交互。此外，實(shí)體-狀態(tài)識(shí)別實(shí)驗(yàn)也展示出狀態(tài)陰陽(yáng)性識(shí)別與槽位填充之間存在一定的關(guān)聯(lián)性，CT-JIE模型的設(shè)計(jì)允許這兩個(gè)任務(wù)之間的信息共享和交互，從而使得模型的整體性能得到提升。

3.4.3 模型注意力可視化

本文使用可視化技術(shù)展示CT-JIE模型在一個(gè)預(yù)測(cè)樣本上的全局注意力效果。圖5（a）展示了預(yù)測(cè)的醫(yī)患對(duì)話樣本示例，其中窗口0代表當(dāng)前的輸入窗口對(duì)話，窗口1～3為后續(xù)窗口。通過(guò)全局注意力機(jī)制計(jì)算當(dāng)前窗口和后續(xù)窗口之間的交互注意力分?jǐn)?shù)，結(jié)果如圖5（b）所示。觀察可知，窗口2與當(dāng)前窗口有著最高的交互注意力分?jǐn)?shù)，能夠有效地幫助當(dāng)前窗口0針對(duì)“支原體感染”的陰陽(yáng)性狀態(tài)進(jìn)行預(yù)測(cè)，有效地提高了預(yù)測(cè)的上下文感知能力，而傳統(tǒng)的方法在不考慮窗口2的情況下很難在此種情況下進(jìn)行準(zhǔn)確的預(yù)測(cè)。如窗口0中患者針對(duì)“支原體感染”這一癥狀產(chǎn)生疑問(wèn)，并不能直接根據(jù)當(dāng)前窗口來(lái)判別“支原體感染”的發(fā)生狀態(tài)。而在結(jié)合窗口2中提示的“有可能就不是支原體感染”后，模型能夠有效地判別“支原體感染”為“陰性”。同時(shí)，本文還探究了同一窗口內(nèi)槽位實(shí)體與狀態(tài)陰陽(yáng)性通過(guò)交互指導(dǎo)后的關(guān)聯(lián)性，注意力權(quán)重的熱力圖如圖5（c）所示。在窗口3中，醫(yī)生所述的“感冒”與后續(xù)患者的回答“沒(méi)有”的注意力值相對(duì)較高，說(shuō)明模型在窗口中能夠正確捕獲實(shí)體與狀態(tài)之間的聯(lián)系。

4 結(jié)束語(yǔ)

本文研究了醫(yī)學(xué)信息抽取任務(wù)中的多個(gè)關(guān)鍵問(wèn)題，包括意圖識(shí)別、槽位填充和狀態(tài)識(shí)別，以及它們之間的共享特征和互補(bǔ)信息等特性。通過(guò)對(duì)這些問(wèn)題的深入研究和探索，本文提出了一種基于Transformer交互指導(dǎo)的聯(lián)合信息抽取模型CT-JIE。CT-JIE通過(guò)滑動(dòng)窗口和Bi-LSTM結(jié)合的方式獲取對(duì)話上下文信息，并利用標(biāo)簽感知、全局注意力和交互指導(dǎo)模塊實(shí)現(xiàn)了意圖識(shí)別、槽位填充和狀態(tài)識(shí)別任務(wù)的協(xié)同學(xué)習(xí)。本文在IMCS21和CMDD數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn)，結(jié)果表明CT-JIE模型較其他的單任務(wù)與雙任務(wù)信息抽取模型在意圖識(shí)別、槽位填充和狀態(tài)識(shí)別多個(gè)任務(wù)上均取得了較好的性能提升。本文展示了多任務(wù)交互指導(dǎo)方法在醫(yī)學(xué)信息抽取任務(wù)中的優(yōu)越性能，將為醫(yī)療信息處理領(lǐng)域的智能化和自動(dòng)化提供更強(qiáng)的支持和推動(dòng)，為醫(yī)患對(duì)話的信息抽取、電子病歷的撰寫(xiě)和醫(yī)學(xué)自然語(yǔ)言處理的研究等方面帶來(lái)積極的影響。

參考文獻(xiàn)：

［1］Wachter R， Goldsmith J. To combat physician burnout and improve care， fix the electronic health record［EB/OL］.（2018-03-30）. https：//hbr.org/2018/03/to-combat-physician-burnout-and-improve-care-fix-the-electronic-health-record.

［2］陸志敏，陸萍. 全科醫(yī)生崗位勝任力指標(biāo)的探索性分析［J］. 中國(guó)全科醫(yī)學(xué)， 2019， 22（28）： 3495. （Lu Zhimin， Lu Ping. An exploratory analysis of post competency indicators for general practitioners［J］. Chinese Journal of General Practice， 2019， 22（28）： 3495.）

［3］Liu Bing， Lane I. Attention-based recurrent neural network models for joint intent detection and slot filling［C］//Proc of the 17th Annual Conference of the International Speech Communication Association. Red Hook，NY： Curran Associates Inc.， 2016： 685-689.

［4］Zhang Xiaodong， Wang Houfeng. A joint model of intent determination and slot filling for spoken language understanding［C］//Proc of the 25th International Joint Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2016： 2993-2999.

［5］Goo C W， Gao Guang， Hsu Y K， et al. Slot-gated modeling for joint slot filling and intent prediction［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Red Hook，NY： Curran Associates Inc.， 2018： 753-757.

［6］Li Changliang， Li Liang， Qi Ji. A self-attentive model with gate mecha-nism for spoken language understanding［C］//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： ACL， 2018： 3824-3833.

［7］Qin Libo， Che Wanxiang， Li Yangming， et al. A stack-propagation framework with token-level intent detection for spoken language understanding［C］//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg， PA： ACL， 2019： 2078-2087.

［8］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［C］//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook， NY： Curran Associates Inc.， 2017： 6000-6010.

［9］鄭巧月，段友祥，孫岐峰. 基于Transformer和雙重注意力融合的分層交互答案選擇模型［J］. 計(jì)算機(jī)應(yīng)用研究， 2022， 39（11）： 3320-3326. （Zheng Qiaoyue， Duan Youxiang， Sun Qifeng. Hierarchical interactive answer selection model based on transformer and dual attention fusion［J］. Application Research of Computers， 2022， 39（11）： 3320-3326.）

［10］孫長(zhǎng)志. 基于深度學(xué)習(xí)的聯(lián)合實(shí)體關(guān)系抽取［D］. 上海：華東師范大學(xué)， 2019. （Sun Changzhi. Joint entity relationship extraction based on deep learning［D］. Shanghai： East China Normal University， 2019.）

［11］Miwa M， Bansal M. End-to-end relation extraction using LSTMs on sequences and tree structures［C］//Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2016： 1105-1116.

［12］Katiyar A， Cardie C. Going out on a limb： joint extraction of entity mentions and relations without dependency trees［C］//Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2017： 917-928.

［13］Zeng Daojian， Zhang Haoran， Liu Qianying. CopyMTL： copy mechanism for joint extraction of entities and relations with multi-task lear-ning［C］//Proc of the 34th AAAI Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2020： 9507-9514.

［14］Bekoulis G， Deleu J， Demeester T， et al. Joint entity recognition and relation extraction as a multi-head selection problem［J］. Expert Systems with Applications， 2018， 114： 34-45.

［15］Katiyar A， Cardie C. Investigating LSTMs for joint extraction of opinion entities and relations［C］//Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2016： 919-929.

［16］Li Qi， Ji Heng. Incremental joint extraction of entity mentions and relations［C］//Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2014： 402-412.

［17］Zhang Meishan， Zhang Yue， Fu Guohong. End-to-end neural relation extraction with global optimization［C］//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg， PA： ACL， 2017： 1730-1740.

［18］Wang Shaolei， Zhang Yue， Che Wanxiang， et al. Joint extraction of entities and relations based on a novel graph scheme［C］//Proc of the 27th International Joint Conference on Artificial Intelligence. Palo Alto， CA： AAAI Press， 2018： 4461-4467.

［19］Kannan A， Chen K， Jaunzeikare D， et al. Semi-supervised learning for information extraction from dialogue［C］//Proc of the 19th Annual Conference of the International Speech Communication Association. Red Hook，NY： Curran Associates Inc.， 2018： 2077-2081.

［20］Peng Shuang， Zhou Mengdi， Yang Minghui， et al. A Dialogue-based information extraction system for medical insurance assessment［M］//Findings of the Association for Computational Linguistics. 2021： 654-633.

［21］扈應(yīng)，陳艷平，黃瑞章，等. 結(jié)合CRF的邊界組合生物醫(yī)學(xué)命名實(shí)體識(shí)別［J］. 計(jì)算機(jī)應(yīng)用研究， 2021， 38（7）： 2025-2031. （Hu Ying， Chen Yanping， Huang Ruizhang， et al. Boundary combination biomedical named entity recognition combined with CRF［J］. Application Research of Computers， 2021， 38（7）： 2025-2031.）

［22］Zhang Yuanzhe， Jiang Zhongtao， Zhang Tao， et al. MIE： a medical information extractor towards medical dialogues［C］//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2020： 6460-6469.

［23］Song Yan， Tian Yuanhe， Wang Nan， et al. Summarizing medical conversations via identifying important utterances［C］//Proc of the 28th International Conference on Computational Linguistics. Stroudsburg， PA： ACL， 2020： 717-729.

［24］Krishna K， Khosla S， Bigham J P， et al. Generating SOAP notes from doctor-patient conversations using modular summarization techniques［C］//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg， PA： ACL， 2021： 4958-4972.

［25］Du Nan， Chen Kai， Anjuli K， et al. Extracting symptoms and their status from clinical conversations［C］//Proc of the 57th Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2019： 915-925.

［26］Lin Xinzhu， He Xiahui， Chen Qin， et al. Enhancing dialogue symptom diagnosis with global attention and symptom graph［C］//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Proces-sing. Stroudsburg， PA： ACL， 2019： 5033-5042.

［27］Hu Gangqiang， Lyu Shengfei， Wu Xingyu， et al. Contextual-aware information extractor with adaptive objective for Chinese medical dialogues［J］. IEEE Trans on Asian and Low-Resource Language Information Processing， 2022， 21（5）： 1-21.

［28］Liu Sshikun， Johns E， Davison A J. End-to-end multi-task learning with attention［C］//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE Press， 2019： 1871-1880.

［29］Mikolov T， Sutskever I， Chen Kai， et al. Distributed representations of words and phrases and their compositionality［C］//Proc of the 26th International Conference on Neural Information Processing Systems. New York： ACM Press， 2013： 3111-3119.

［30］Liu Liyuan， Jiang Haoming， He Pengcheng， et al. On the variance of the adaptive learning rate and beyond［C］//Proc of the 8th Internatio-nal Conference on Learning Representations. 2020.

［31］Chen Wei， Li Zhiwei， Fang Hongyi， et al. A benchmark for automatic medical consultation system： frameworks， tasks and datasets［J］. Bioinformatics， 2023， 39（1）： 817.

［32］Kim Y. Convolutional neural networks for sentence classification［C］//Proc of Conference on Empirical Methods in Natural Language Proces-sing. Stroudsburg， PA： ACL， 2014： 1746-1751.

［33］Johnson R， Zhang Tong. Deep pyramid convolutional neural networks for text categorization［C］//Proc of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2017： 562-570.

［34］Zhang Ningyu， Jia Qianghuai， Yin Kangping， et al. Conceptualized representation learning for Chinese biomedical text mining［EB/OL］. （2020）［2023-12-01］. https：//arxiv. org/pdf/2008.10813.pdf.

［35］Devlin J， Chang M W， Lee K， et al. BERT： pre-training of deep bidirectional Transformers for language understanding［C］//Proc of Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies. Stroudsburg， PA： ACL， 2019： 4171-4186.

［36］Zhang Yue， Yang Jie. Chinese NER using lattice LSTM［C］//Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2018： 1554-1564.

［37］Li Xiaonan， Yan Hang， Qiu Xipeng， et al. FLAT： Chinese NER using flat-lattice Transformer［C］//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg， PA： ACL， 2020： 6836-6842.

［38］Liu Wei， Fu Xiyan， Zhang Yue， et al. Lexicon enhanced Chinese sequence labeling using BERT adapter［C］//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg， PA： ACL， 2021： 5847-5858.

［39］Heck M， Van Niekerk C， Lubis N， et al. TripPy： a triple copy strategy for value independent neural dialog state tracking［C］//Proc of the 21st Annual Meeting of the Special Interest Group on Discourse and Dialogue. Stroudsburg， PA： ACL， 2020： 35-44.

［40］Zhao Xiongjun， Cheng Yingjie， Xiang Weiming， et al. A knowledge-aware machine reading comprehension framework for dialogue symptom diagnosis［C］//Proc of IEEE International Conference on Bioinforma-tics and Biomedicine. Piscataway， NJ： IEEE Press， 2021： 1185-1190.

［41］Chen Qian， Zhuo Zhu， Wang Wen. BERT for joint intent classification and slot filling［EB/OL］. （2019）［2023-12-01］. https：//arxiv.org/pdf/1902.10909.pdf.

計(jì)算機(jī)應(yīng)用研究2024年8期

計(jì)算機(jī)應(yīng)用研究的其它文章: 融合CNN和Transformer的并行雙分支皮膚病灶圖像分割; 融合多情感的語(yǔ)音驅(qū)動(dòng)虛擬說(shuō)話人生成方法; 基于深度半監(jiān)督學(xué)習(xí)的小樣本金屬工件表面缺陷分割; 融合語(yǔ)義信息的視覺(jué)慣性SLAM算法; 室內(nèi)動(dòng)態(tài)場(chǎng)景下基于語(yǔ)義關(guān)聯(lián)的視覺(jué)SLAM方法; 尺度適應(yīng)性感受野的船舶目標(biāo)檢測(cè)方法

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Transformer交互指導(dǎo)的醫(yī)患對(duì)話聯(lián)合信息抽取方法