陳健鵬
關(guān)鍵詞:事件分撥;圖計算;信息傳播;記憶網(wǎng)絡(luò);知識匹配
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2023)20-0013-04
0 引言
近幾年,數(shù)字政務(wù)領(lǐng)域快速發(fā)展,12345熱線作為數(shù)字政務(wù)建設(shè)的重要成果,因其靈活、便捷的特點,成為政府與公眾溝通的有效橋梁,在滿足群眾需求,解決群眾問題等方面起到了極為重要的作用。然而,由于熱線事件來源的廣泛性與市民訴求的差異性,熱線事件描述文本之間的理解難度往往也存在較大的差別,這就導(dǎo)致對接線員的要求較高,接線員往往難以在錯綜復(fù)雜的事件描述中迅速找出核心信息與關(guān)鍵要素,進(jìn)而準(zhǔn)確地決定事件的分撥部門。熱線事件的分撥效率往往也因此受到影響。基于此,設(shè)計一種更為有效的事件分撥模型顯得尤為重要。
傳統(tǒng)的事件分撥模型一般基于先驗知識[1]或統(tǒng)計學(xué)習(xí)[2]來進(jìn)行,這類方法在一定的事件類型范圍內(nèi)能取得有效的分撥效果,但是先驗知識的局限性使得對這類模型難以適應(yīng)多樣化的表達(dá)方式,提升也較為困難。為了解決這個問題,深度學(xué)習(xí)技術(shù)被應(yīng)用在這類任務(wù)中[3-5] ,這類方法能有效提升對多樣化表達(dá)方式的適應(yīng)能力,但是缺乏對語義信息的準(zhǔn)確挖掘。因此,基于海量語料庫的預(yù)訓(xùn)練語言模型出現(xiàn)后,出現(xiàn)了一類基于預(yù)訓(xùn)練語言模型的方法[6-7],這類方法有效地增強了模型對文本中關(guān)鍵信息的識別能力。但是,由于部門職責(zé)具有一定的寬泛性,模型往往無法有效捕獲這類“歸屬不同職能但由同一部門處置”的事件中潛在的關(guān)聯(lián)關(guān)系,在部門較多的情況下,這類模型的分撥準(zhǔn)確性往往較為有限。本文通過引入“三定”職能描述作為先驗知識,結(jié)合文本圖與鍵值對記憶網(wǎng)絡(luò)等方法,通過細(xì)化事件分撥任務(wù),挖掘事件與部門之間更多可能的關(guān)聯(lián)性,進(jìn)而提升對熱線事件的分撥準(zhǔn)確度,提高熱線事件的處置效率。
1 方法
本文提出的事件分撥模型主要由事件編碼模塊、先驗知識匹配模塊與部門匹配模塊三個部分構(gòu)成,模型整體結(jié)構(gòu)如圖1所示。首先,將事件描述文本輸入事件編碼模塊,通過構(gòu)建文本圖與消息廣播的方式將事件描述文本映射為包含多層次語義關(guān)聯(lián)信息的高維向量編碼。然后將得到的語義編碼輸入先驗知識匹配模塊,利用基于記憶網(wǎng)絡(luò)的知識選擇模型,通過多次迭代,生成事件描述文本與“三定”之間的匹配度分布。最后,將得到的匹配度分布送入部門匹配模塊,基于歷史事件和“三定”職責(zé)描述中的關(guān)鍵信息等維度,對生成的匹配度分布進(jìn)行整合與篩選,以獲得最合適的事件處置部門。
1.1 事件編碼模塊
事件描述作為偏口語化表達(dá)的文本內(nèi)容,其中一部分的語義信息往往與其上下文存在著緊密的關(guān)聯(lián)關(guān)系,同時,這種關(guān)聯(lián)關(guān)系涉及的跨度范圍可能長短不一。為了能更好地將這類關(guān)聯(lián)關(guān)系信息融入對事件描述文本的編碼向量中,在事件編碼模塊中,本文通過構(gòu)建文本圖的方法,并結(jié)合信息廣播算法,使得編碼模塊在對事件文本的某部分進(jìn)行編碼時,能關(guān)注到更廣泛范圍內(nèi)的上下文信息。本文對事件的編碼包括三個主要步驟,分別是預(yù)處理、建立文本圖與信息傳播。整體流程如圖2所示。
1.1.1 預(yù)處理
考慮到政務(wù)事件所面向的實際場景,事件描述文本往往由多段較短的語句構(gòu)成且表意較為直接,因此本文選擇將字作為事件編碼的基本處理單元,并通過編碼矩陣對事件文本描述進(jìn)行編碼。
2 實驗
2.1 數(shù)據(jù)集
基于某市現(xiàn)有的政務(wù)熱線數(shù)據(jù),構(gòu)建了一個非公開的實驗數(shù)據(jù)集。這個數(shù)據(jù)集包括兩部分:“事件-部門”數(shù)據(jù)集與“事件-‘三定”數(shù)據(jù)集。其中“事件-部門”數(shù)據(jù)集基于政府熱線真實事件分撥結(jié)果構(gòu)建,包含30個事件處置部門的30 000條歷史事件數(shù)據(jù)?!笆录?‘三定”數(shù)據(jù)集則由專家根據(jù)“事件-部門”數(shù)據(jù)集中涉及的30 000條事件對應(yīng)的處置結(jié)果進(jìn)行標(biāo)注得到,包含30 000條匹配正確的“事件-‘三定”文本對,以及60 000條匹配錯誤的“事件-‘三定”文本對。
2.2 實驗設(shè)置
在對兩個數(shù)據(jù)集中的文本長度進(jìn)行統(tǒng)計分析后,90%的事件文本都在260個字以內(nèi),而90%的“三定”描述文本長度則在180個字以內(nèi)。因此,在對數(shù)據(jù)集進(jìn)行預(yù)處理時,本文固定事件描述文本最大長度為300字,“三定”文本最大長度為200個字,對二者中長度不足的部分使用[BLK]標(biāo)識符加以填充,超過此長度的予以截斷,并在事件描述文本的開頭與結(jié)尾添加[CLS]標(biāo)識符。模型訓(xùn)練過程中,整體模型訓(xùn)練的批大小設(shè)置為16,且使用學(xué)習(xí)率為10-5的Adam優(yōu)化器作為模型的優(yōu)化器。
為了驗證本文所提出的模型性能,將本文模型與bAaBsCedN[4N]與-b分as層edC[5]、NBNE[8]R等T多-B個iG基RU線-模bas型ed進(jìn)[6]、行LD對A比-B,i從GR前U-5 結(jié)果準(zhǔn)確度(P@5) 、平均精度均值(MAP) 、平均倒數(shù)排名(MRR) 、精確率(Precision) 、召回率(Recall) 、F1得分(F1-score) 六個指標(biāo)對事件分撥模型性能做出評價。
2.3 對比實驗與分析
與基線模型的對比實驗結(jié)果如表1所示,由表2 中數(shù)據(jù)可以得知,相較于LDA-BiGRU這類直接基于事件描述文本信息進(jìn)行分撥的方法,本文所描述的方法在Precision、Recall、F1-score等事件分撥評價指標(biāo)上有4%~5%的提升,而在P@5、MAP、MRR等事件分類結(jié)果評價指標(biāo)上有2%~3%的提升,對這一結(jié)果的一個解釋是:基于LDA-BiGRU、分層CNN等方法能從事件描述文本中提取關(guān)鍵信息,但是由于關(guān)鍵信息的距離問題,模型的整體預(yù)測效果會受到這類距離差異的影響。本文模型中通過文本圖的方式更有效地建立關(guān)鍵信息之間的關(guān)聯(lián)關(guān)系,能在對事件描述文本進(jìn)行編碼時,更有效地利用這些關(guān)鍵信息,進(jìn)而取得了較好的模型效果。
而對比ABCNN-based、BERT-BiGRU-based等包含有結(jié)果重排序方法的模型,本文模型在事件分撥指標(biāo)上有大約3%的提升,而在事件分類結(jié)果評價指標(biāo)上存在持平或有一定程度提升的情況。對這種結(jié)果的一個解釋是:通過預(yù)訓(xùn)練語言模型與結(jié)果重排序等方法能對事件描述文本和額外的先驗知識中的關(guān)鍵信息做出一定程度的提取,但是僅提取關(guān)鍵信息的方法難以關(guān)注到“事件-‘三定-部門”之間的關(guān)聯(lián)關(guān)系,而通過鍵值對網(wǎng)絡(luò)的方式,可以對這類關(guān)聯(lián)關(guān)系做出更有效的捕捉,從而提升模型整體的分撥效果。
3 結(jié)論
本文設(shè)計了一種基于文本圖與鍵值對記憶網(wǎng)絡(luò)的事件分撥方法,通過聯(lián)合事件分類與事件分撥兩個任務(wù),并引入“三定”這類先驗知識信息,通過信息傳播機制,對事件描述文本中的關(guān)鍵信息建立更有效的關(guān)聯(lián)關(guān)系,并基于此提高對文本描述信息中潛在的關(guān)鍵信息的利用效率。同時,使用基于鍵值對的記憶網(wǎng)絡(luò)結(jié)構(gòu),以“三定”職能描述為橋梁,提升事件分撥任務(wù)的顆粒度,進(jìn)一步挖掘“三定”職能描述與事件描述之間的關(guān)聯(lián)關(guān)系,從而提升模型的整體效果。經(jīng)過與多個基線模型的對比結(jié)果,也進(jìn)一步證明了本文模型提升效果的有效性。