基于細(xì)粒度信息集成的意圖識別和槽填充聯(lián)合模型

2023-10-18 05:06:59周天益范永全杜亞軍李顯勇

計算機(jī)應(yīng)用研究 2023年9期

周天益范永全杜亞軍李顯勇

摘要：意圖識別和槽位填充是構(gòu)建口語理解（SLU）系統(tǒng)的兩項主要任務(wù)，兩者相互聯(lián)合的模型是對話系統(tǒng)的研究熱點(diǎn)。這兩個任務(wù)緊密相連，槽位填充通常高度依賴于意圖信息。針對最近聯(lián)合模型中：固定閾值很難在不同領(lǐng)域中選擇出正向的投票，且復(fù)雜的意圖信息不能充分地引導(dǎo)槽位填充的問題。提出了一種基于細(xì)粒度信息集成的意圖識別和槽填充聯(lián)合模型。其中，將由意圖解碼器獲取的意圖信息與各單詞的編碼表示拼接，形成意圖引導(dǎo)的集成編碼表示，從而為單詞級槽位填充提供細(xì)粒度的意圖信息。同時，通過計算最大意圖得分和最小意圖得分的中間值獲得邏輯自適應(yīng)閾值，并用其代替固定閾值。邏輯自適應(yīng)閾值可隨不同意圖標(biāo)簽的得分分布而變化。通過在兩個多標(biāo)簽數(shù)據(jù)集上的實驗結(jié)果驗證了提出的模型的性能。

關(guān)鍵詞：意圖識別；槽位填充；聯(lián)合模型；雙向LSTM

中圖分類號：TP311?? 文獻(xiàn)標(biāo)志碼：A

文章編號：1001-3695（2023）09-017-2669-05

doi：10.19734/j.issn.1001-3695.2023.01.0015

Joint model of intent detection and slot filling based on

fine-grained information integration

Zhou Tianyi， Fan Yongquan， Du Yajun， Li Xianyong

（School of Computer & Software Engineering， Xihua University， Chengdu 610039， China）

Abstract：Intent detection and slot filling are two main tasks for building a spoken language understanding（SLU） system， the joint model of the two tasks is the research hotspot of the dialogue system. These two tasks are closely tied and the slots often highly depend on the intent. For the recent joint model： the fixed threshold is difficult to extract the positive votes in different domains. And the complex intent information guides the slot filling insufficiently. This paper proposed a fine-grained information integrated model for multiple intent detection and slot filling. Among this model， the intent information obtained by the intent decoder was concatenate with the encoding representation of each token to form an intent guided integrated encoding representation， so as to offer fine-grained intent information for the token-level slot prediction. At the same time， calculating the median of the maximum intent score and the minimum intent score to obtain the logic-adaptive threshold， and used it replace the fixed threshold. The logic-adaptive threshold can vary with the score distribution of different intent labels. Experimental results on two multi-label datasets verifies the performance of the proposed model.

Key words：intent detection; slot filling; joint model; Bi-LSTM

0 引言

口語理解（SLU）［1］是面向任務(wù)對話系統(tǒng)的關(guān)鍵組成部分。它通常包括意圖識別［2］和槽位填充［3］兩個子任務(wù)。意圖識別任務(wù)主要是識別用戶的意圖，槽位填充任務(wù)主要是從自然語言中提取語義成分。通常，意圖識別和槽位填充是分開實現(xiàn)的，但直觀地說這兩個任務(wù)并不是獨(dú)立的，槽位填充通常高度依賴于意圖信息［4］。給定一個與音樂相關(guān)的話語“l(fā)isten to classical music”，其中每個單詞都有不同的槽位標(biāo)簽，而整個話語則對應(yīng)一個意圖標(biāo)簽。該話語的意圖標(biāo)簽為listen_to_music，則話語更可能包含槽位標(biāo)簽music_name而非槽位標(biāo)簽movie_name。因此，如何正確且有效地建模意圖識別與槽位填充之間的交互是目前探索的重點(diǎn)。由于意圖識別和槽位填充之間的強(qiáng)相關(guān)性，許多基于多任務(wù)學(xué)習(xí)框架的聯(lián)合模型被提出。Liu等人［5］提出了一個基于注意力的RNN模型，但其僅應(yīng)用了一個聯(lián)合損失函數(shù)來隱式鏈接這兩個任務(wù)，模型實際上并未使用意圖信息來引導(dǎo)槽位填充。王宇亮等人［6］提出了基于意圖—槽位注意機(jī)制的意圖理解算法。此算法通過槽位選通機(jī)制建模意圖和槽位之間的顯式關(guān)系，在單標(biāo)簽場景中取得了成功，而本文的工作則聚焦于多標(biāo)簽場景下的聯(lián)合建模。

多標(biāo)簽意圖識別可以識別話語中的多個意圖，因此引起了越來越多的關(guān)注。Xu等人［7］探索多標(biāo)簽意圖識別，然而，文獻(xiàn)［7］僅考慮了意圖識別，而忽略了槽位填充任務(wù)。Gangadharaiah等人［8］首次使用具有槽門機(jī)制的多任務(wù)框架來聯(lián)合建模多標(biāo)簽意圖識別和槽位填充，但其僅將多個意圖信息整合為一個復(fù)雜的意圖信息來引導(dǎo)所有的槽位填充，而并未提供準(zhǔn)確且有效的意圖信息。Qin等人［9］提出了一種自適應(yīng)交互模型（AGIF），槽位填充由AGIF中的多意圖信息指導(dǎo)，但其仍使用固定閾值篩選對意圖標(biāo)簽的正向投票。盡管以上模型實現(xiàn)了不錯的性能，但仍面臨兩個問題：a）這些模型采用固定的閾值進(jìn)行意圖識別，但在不同的領(lǐng)域，每個單詞的意圖分類得分分布是不同的，在某些領(lǐng)域，大多數(shù)單詞的意圖分類得分太低，而在其他領(lǐng)域，單詞的意圖分類得分太高，因此固定閾值很難在不同領(lǐng)域有效地選擇正向的投票；b）這些模型簡單地將多個意圖信息整合為一個復(fù)雜的意圖信息來引導(dǎo)槽位填充，并沒有為單詞級槽位填充提供準(zhǔn)確有效的意圖信息。

本文提出了一種基于細(xì)粒度信息集成的多意圖識別和槽位填充聯(lián)合模型。在兩個公共數(shù)據(jù)集MixSNIPS［10］和MixATIS［11］的實驗結(jié)果表明本文模型獲得了實質(zhì)性的改進(jìn)。本文引入了一種新的閾值確定方法，以選擇適合于各領(lǐng)域的閾值。本文提出的邏輯自適應(yīng)閾值通過適應(yīng)不同意圖標(biāo)簽的得分分布來計算出合適的閾值，從而進(jìn)行有效的投票選擇，并且其比固定閾值更加通用；提出一個細(xì)粒度信息集成模塊，其中細(xì)粒度意圖信息與話語的編碼表示相結(jié)合來引導(dǎo)單詞級槽位填充；通過在兩個公開的多標(biāo)簽數(shù)據(jù)集MixATIS和MixSNIPS上進(jìn)行的實驗，表明模型的性能實現(xiàn)了實質(zhì)性的提升。

1 模型框架

模型的結(jié)構(gòu)如圖1所示，其中包含一個共享的自注意力編碼器［12］、一個單詞級意圖識別解碼器、一個基于細(xì)粒度信息集成的槽位填充解碼器。共享的自注意力編碼器由兩部分組成。其中之一是雙向LSTM，用于前向和后向理解輸入話語以生成帶有序列特征的隱藏狀態(tài)；另一個是自注意力機(jī)制，用于感知長度可變序列的上下文信息。最后將雙向LSTM的隱藏狀態(tài)和自注意力結(jié)果拼接作為輸入話語的編碼表示。多標(biāo)簽意圖識別由基于邏輯自適應(yīng)閾值的單詞級意圖識別解碼器實現(xiàn)。在細(xì)粒度信息集成模塊中意圖信息被用來引導(dǎo)槽位填充。本文用意圖標(biāo)簽和輸入話語的編碼表示來計算意圖—單詞相關(guān)性分?jǐn)?shù)。接著，將意圖標(biāo)簽、意圖—單詞相關(guān)性分?jǐn)?shù)和輸入話語編碼表示三者結(jié)合起來，形成意圖引導(dǎo)的集成編碼表示。最后，將攜帶細(xì)粒度意圖信息的集成編碼表示用于槽位預(yù)測。

1.1 自注意編碼器

在口語理解中，單詞的標(biāo)簽不僅由自身含義決定，還由上下文決定。為了捕獲此類依賴關(guān)系，意圖識別和槽位填充使用相同的自注意力編碼器。在自注意力編碼器中，使用雙向LSTM和自注意力機(jī)制來獲得話語的序列特征和上下文信息，這些特征和信息對序列標(biāo)記任務(wù)均有幫助。

2 實驗

2.1 數(shù)據(jù)集

本文在兩個公開的多標(biāo)簽數(shù)據(jù)集上進(jìn)行了實驗。一個關(guān)于音樂和天氣的數(shù)據(jù)集MixSNIPS、一個關(guān)于航空旅行的數(shù)據(jù)集MixATIS。數(shù)據(jù)集的劃分如表1所示。

2.2 基線模型

本文模型與以下主流的基線模型進(jìn)行了比較：

a）Attention BiRNN［5］。Liu等人提出了一種基于對齊RNN的槽填充和意圖識別聯(lián)合模型。

b）Slot-Gated Atten［4］。Goo等人提出了一種槽位門控聯(lián)合模型，考慮了槽位填充和意圖識別之間的相關(guān)性。

c）Bi-Model［15］。Wang等人提出了雙向模型來模擬意圖識別和槽位填充之間的雙向交互。

d）SF-ID Network［16］。E等人建立了SF-ID網(wǎng)絡(luò)在兩個任務(wù)之間建立直接連接。

e）Stack-Propagation［17］。 Qin等人采用棧傳播的框架，顯式地將意圖信息引導(dǎo)槽填充。

f）Joint Multiple ID-SF［8］。Gangadharaiah等人提出了一種具有槽位門控機(jī)制的多任務(wù)框架，用于多意圖識別和槽位填充。

g）AGIF［9］。 Qin等人提出了一種自適應(yīng)交互網(wǎng)絡(luò)來實現(xiàn)多標(biāo)簽意圖識別，實現(xiàn)了目前最好的性能。

2.3 主要結(jié)果

本文使用F1值來評估槽填充的性能表現(xiàn)。意圖識別的性能通過accuracy來評估，句子級的語義分析水平通過overall accuracy來評估。overall accuracy表示意圖識別結(jié)果和槽位填充結(jié)果同時正確的比率。表2給出了實驗結(jié)果，可以看出：a）對于意圖識別，本文模型在accuracy上優(yōu)于基線AGIF，這意味著所提出的邏輯自適應(yīng)閾值成功地為特定領(lǐng)域選擇了適當(dāng)?shù)拈撝?，因此可以提高意圖識別性能；b）與AGIF相比，本文的模型分別在 MixATIS 和 MixSNIPS上實現(xiàn)了overall accuracy的提升，表明本文提出的細(xì)粒度信息集成模型可以更好地捕捉意圖和槽位之間的相關(guān)性，從而提高模型對口語理解的性能。

2.4 結(jié)果分析

2.4.1 聯(lián)合訓(xùn)練

為驗證聯(lián)合訓(xùn)練的有效性，意圖識別和槽位填充使用獨(dú)立的編碼器。細(xì)粒度信息集成模塊中的意圖標(biāo)簽被隨機(jī)初始化。意圖—單詞相關(guān)性得分均設(shè)置為0.5。其他組件保持不變，稱此模型為模型-IL。由表3可得，模型-IL在沒有共享參數(shù)的情況下表現(xiàn)不佳，并且在兩個數(shù)據(jù)集上的總體性能都有所下降。盡管MixSNIPS上的accuracy幾乎不變，但overall accuracy和F1值仍在下降。這一結(jié)果可以從兩個方面解釋：a）具有相關(guān)性的任務(wù)可以通過聯(lián)合學(xué)習(xí)相互促進(jìn)；b）準(zhǔn)確且有效的意圖信息可以引導(dǎo)槽位填充，從而進(jìn)一步提升模型性能。

2.4.2 細(xì)粒度信息集成

去除細(xì)粒度信息集成模塊，并將話語編碼表示直接輸入到槽感知的雙向LSTM中來進(jìn)行消融實驗。將其稱為表3中的模型-FGII。由表3可得，在MixATIS和MixSNIPS數(shù)據(jù)集上，F(xiàn)1分別下降了1.3%和0.8%。表明細(xì)粒度信息集成可以獲得準(zhǔn)確有效的意圖信息，從而引導(dǎo)槽位填充。

2.4.3 邏輯自適應(yīng)閾值

直接使用固定閾值來代替邏輯自適應(yīng)閾值進(jìn)行意圖識別，以驗證邏輯自適應(yīng)閾值的效果，本文將其稱為表3中的模型-LAT。由表3可得，缺乏邏輯自適應(yīng)閾值分別導(dǎo)致兩個多標(biāo)簽數(shù)據(jù)集上的overall accuracy下降了1.0%和0.7%。這意味著邏輯自適應(yīng)閾值可以選擇適當(dāng)?shù)拈撝狄赃m應(yīng)特定的話語和領(lǐng)域。

2.4.4 可視化

為直觀地理解細(xì)粒度信息集成模塊的功能，對其中的意圖—單詞相關(guān)性得分進(jìn)行了可視化。如圖5所示，豎軸為預(yù)測的意圖標(biāo)簽，橫軸為輸入話語。顏色越深，即相關(guān)度越高。紿定話語“Rate this album 5 points and when is just before night- fall playing”和其意圖標(biāo)簽“RateBook”和 “SearchScreeningEvent”?？梢郧逦匕l(fā)現(xiàn)意圖—單詞相關(guān)性得分成功地集中在正確的意圖上，這意味著細(xì)粒度信息集成模塊可以將與槽位相關(guān)的意圖信息結(jié)合起來。簡而言之，本文模型恰當(dāng)?shù)貙⒁鈭D信息“RateBook”用于槽位“Rate，this， album， 5， points”的預(yù)測。類似地，將“SearchScreeningEvent”的意圖信息用于槽位“when，is，just，before，nightfall，playing”的預(yù)測。

2.4.5 實例研究

如圖6所示，圖（a）為來自MixATIS的實例，圖（b）為來自MixSNIPS的實例。當(dāng)意圖—單詞相關(guān)性分?jǐn)?shù)大于0.5時，即相關(guān)性較強(qiáng)時，將意圖標(biāo)簽與單詞相連。由圖6可得，各意圖標(biāo)簽均為其相關(guān)的單詞提供了準(zhǔn)確且有效的細(xì)粒度意圖信息，從而克服了以往模型提供復(fù)雜意圖信息而導(dǎo)致歧義的問題，并且對兩個實例預(yù)測的槽位標(biāo)簽均得到了正確的結(jié)果，表明本文的模型性能得到了實質(zhì)性的提升。

3 結(jié)束語

本文提出了一種基于細(xì)粒度信息集成的意圖識別和槽填充聯(lián)合模型，在意圖識別解碼器中使用邏輯自適應(yīng)閾值以選擇適合于不同話語的閾值，克服固定閾值的問題；提出的邏輯自適應(yīng)閾值能隨著不同的意圖得分分布而變化，并且比固定閾值更加通用。通過細(xì)粒度信息集成獲得的集成編碼表示可以建模槽位和意圖之間的交互，有效地為單詞級槽位填充提供細(xì)粒度的意圖信息。此外，意圖—單詞相關(guān)性分?jǐn)?shù)的可視化為本文模型提供了一定的可解釋性。在兩個公開的多標(biāo)簽數(shù)據(jù)集上的實驗結(jié)果表明，本文模型的性能有實質(zhì)性的提升。未來計劃結(jié)合更多的知識并探索新的架構(gòu)，以更好地模擬單詞、意圖、槽位和其他文本特征之間的交互，從而獲得更好的口語理解性能。

參考文獻(xiàn)：

［1］魏鵬飛，曾碧，汪明慧，等. 基于深度學(xué)習(xí)的口語理解聯(lián)合建模算法綜述［J］. 軟件學(xué)報， 2022，33（11）：4192-4216. （Wei Pengfei， Zeng Bi， Wang Minghui， et al. A survey of joint modeling algorithms for oral comprehension based on deep learning［J］. Journal of Software， 2022，33（11）： 4192-4216.）

［2］鄭思露，程春玲，毛毅. 融合實體信息和時序特征的意圖識別模型［J］. 計算機(jī)技術(shù)與發(fā)展， 2022，32（11）： 171-176. （Zheng Silu， Cheng Chunling， Mao Yi. Intention recognition model integrating entity information and temporal features［J］. Computer Technology and Development， 2022，32（11）： 171-176.）

［3］劉振元，許明陽，王承濤. 基于數(shù)據(jù)增強(qiáng)和字詞融合特征的實體槽位識別［J］. 華中科技大學(xué)學(xué)報：自然科學(xué)版， 2022，50（11）： 101-106. （Liu Zhenyuan， Xu Mingyang， Wang Chengtao. Entity slot recognition based on data enhancement and word fusion features［J］. Journal of Huazhong University of Science and Technology：Natural Science Edition， 2022， 50（11）： 101-106.）

［4］Goo C W， Gao Guang， Hsu Y K， et al. Slot-gated modeling for joint slot filling and intent prediction［C］//Proc of Conference of North American Chapter of the Association for Computational Linguistics： Human Language Technologies， Volume 2 （Short Papers）. 2018.

［5］Liu Bing， Ian L. Attention-based recurrent neural network models for joint intent detection and slot filling［C］//Proc of the 17th Annual Conference of International Speech Communication Association.2016： 685-689.

［6］王宇亮，楊觀賜，羅可欣. 基于意圖—槽位注意機(jī)制的醫(yī)療咨詢意圖理解與實體抽取算法［J］. 計算機(jī)應(yīng)用研究，2023，40（5）：1402-1409. （Wang Yuliang， Yang Guanci， Luo Kexin. Intention understanding and entity extraction algorithm for medical consultation based on intention-slot attention mechanism［J］. Application Research of Computers， 2023，40（5）：1402-1409.）

［7］Xu Puyang， Sarikaya R. Convolutional neural network based triangular CRF for joint intent detection and slot filling［C］//Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway，NJ：IEEE Press，2013.

［8］Gangadharaiah R， Narayanaswamy B. Joint multiple intent detection and slot labeling for goal-oriented dialog［C］//North American Chapter of Association for Computational Linguistics. 2019.

［9］Qin Libo， Xiao Xu， Che Wanxiang， et al. AGIF： an adaptive graph-interactive framework for joint multiple intent detection and slot filling［C］//Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway，NJ：IEEE Press， 2020.

［10］Coucke A， Saade A， Ball A， et al. Snips voice platform： an embedded spoken language understanding system for private-by-design voice interface［EB/OL］. （2018）. https：//arxiv.org/abs/1805.10190.

［11］Hemphill C T， Godfrey J J， Doddington G R. The ATIS spoken language systems pilot corpus［C］//Proc of Darpa Speech & Natural Language Workshop. 1990.

［12］Qin Libo， Wei Fuxuan， Xie Tianbao， et al. GL-GIN： fast and accurate non-autoregressive model for joint multiple intent detection and slot filling［EB/OL］. （2021-06-03）. https：//arxiv.org/abs/2106.01925.

［13］Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need［EB/OL］.（2017）. https：//arxiv.org/abs/1706. 03762.

［14］Yang Peng，Ji Dong，Ai Chengming，et al. AISE： attending to intent and slots explicitly for better spoken language understanding［J］. European Journal of Medicinal Chemistry： Chimie Therapeutique， 2021， 211（1）：106537.

［15］Wang Yu， Shen Yilin， Jin Hongxia. A bi-model based RNN semantic frame parsing model for intent detection and slot filling［C］//Proc of Conference of North American Chapter of Association for Computatio-nal Linguistics： Human Language Technologies， Volume 2 （Short Papers）. 2018.

［16］E Haihong， Niu Peiqing， Chen Zhongfu， et al. A novel bi-directional interrelated model for joint intent detection and slot filling［C］//Proc of the 57th Annual Meeting of Association for Computational Linguistics. 2019： 5467-5471.

［17］Qin Libo， Che Wanxiang， Li Yangming， et al. A stack-propagation framework with token-level intent detection for spoken language understanding［C］//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019： 2078-2087.

收稿日期：2023-01-13；修回日期：2023-03-17? 基金項目：國家自然科學(xué)基金資助項目（61872298，61802316，61902324）；四川省科技廳資助項目（2023YFQ0044，2021YFQ008）

作者簡介：周天益（1998-），男，江蘇常州人，碩士研究生，主要研究方向為意圖識別；范永全（1976-），男（通信作者），河南淅川人，副教授，碩導(dǎo)，博士，主要研究方向為大數(shù)據(jù)與人工智能（fyq@mail.xhu.edu.cn）；杜亞軍（1967-），男，四川巴中人，教授，碩導(dǎo)，博士，主要研究方向為大數(shù)據(jù)與人工智能；李顯勇（1984-），男，四川達(dá)州人，副教授，碩導(dǎo)，博士，主要研究方向為Web信息挖掘、社交網(wǎng)絡(luò)分析．

計算機(jī)應(yīng)用研究2023年9期

計算機(jī)應(yīng)用研究的其它文章: 基于樣本分布特征的數(shù)據(jù)投毒防御; 基于改進(jìn)顯著圖和局部特征匹配的copy-move竄改檢測; 基于Markov微分博弈的移動目標(biāo)防御決策優(yōu)化; SM4國密算法的異構(gòu)可重構(gòu)計算系統(tǒng)研究; 基于DRL的主動RIS安全無線通信優(yōu)化方法; 時空需求下的電動汽車充電設(shè)施選址優(yōu)化模型

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于細(xì)粒度信息集成的意圖識別和槽填充聯(lián)合模型