毛存禮,梁昊遠(yuǎn),余正濤,郭軍軍,黃于欣,高盛祥
(1. 昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
涉案新聞是指與司法案件相關(guān)的新聞,準(zhǔn)確抽取涉案新聞主題信息對進(jìn)一步開展涉案新聞檢索、涉案新聞事件分析等研究具有重要價(jià)值。傳統(tǒng)主題模型主要考慮詞頻統(tǒng)計(jì)特征,而忽略了文檔中的詞語出現(xiàn)的次序及上下文信息[1-2]。例如,“竊取”一詞,可以是竊取個(gè)人財(cái)產(chǎn),也可以是竊取國家機(jī)密,但是案件性質(zhì)完全不同,前者涉及盜竊罪,而后者則是觸及了非法獲取國家秘密罪。神經(jīng)主題模型由于能夠獲得文本的深層語義信息,既可以捕獲文中詞匯之間的局部依賴關(guān)系,又可以利用潛在主題捕獲全局語義信息,有效彌補(bǔ)傳統(tǒng)主題模型的缺陷,近年來在文本檢索、文本分類、文本摘要等自然語言處理任務(wù)中表現(xiàn)出較好的效果[3-11]。
案件要素是案件關(guān)鍵信息的體現(xiàn),涉案新聞與普通新聞的根本區(qū)別在于是否出現(xiàn)案件要素。對涉案新聞主題分析的核心是對案件要素相關(guān)詞匯的主題進(jìn)行預(yù)測,故可以將案件要素作為涉案領(lǐng)域知識來捕獲文本中涉案相關(guān)詞語的主題分布和文本的主題表征。然而,現(xiàn)有的神經(jīng)主題模型忽略了領(lǐng)域知識對特定領(lǐng)域主題分析任務(wù)的作用。為此,本文針對涉案新聞主題分析任務(wù),提出一種基于神經(jīng)自回歸分布估計(jì)的涉案新聞主題模型構(gòu)建方法,是對Gupta 等人[3]提出的神經(jīng)主題模型(document informed neural autoregressive topic models with distributional prior,iDocNADEe)的進(jìn)一步擴(kuò)展,把案件要素作為涉案領(lǐng)域知識,通過計(jì)算案件要素與涉案新聞文本中主題詞的相關(guān)度構(gòu)建注意力機(jī)制,對文本經(jīng)過雙向語言模型編碼后的前后向隱狀態(tài)進(jìn)行加權(quán),以此增強(qiáng)涉案新聞文本中主題詞的涉案語義特征表示,最后利用神經(jīng)自回歸算法計(jì)算加權(quán)后雙向隱狀態(tài)的自回歸條件概率實(shí)現(xiàn)涉案新聞文本主題抽取。在構(gòu)建的涉案新聞數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,所提方法較iDocNADEe模型困惑度降低了0.66%、主題連貫性提高了6.26%;將構(gòu)建的涉案新聞主題模型用于涉案新聞檢索對比實(shí)驗(yàn),準(zhǔn)確率也明顯高于基線模型。
本文第1節(jié)介紹主題模型的相關(guān)工作;第2節(jié)描述基于神經(jīng)自回歸分布估計(jì)的涉案新聞主題模型構(gòu)建方法;第3節(jié)通過實(shí)驗(yàn)對比了所提方法在主題構(gòu)建及文本檢索方面的優(yōu)勢;第4節(jié)進(jìn)行總結(jié)并提出未來的研究方向。
隨著狄利克雷多項(xiàng)式混合模型(dirichlet multinomial mixture,DMM)[1]、潛在狄利克雷分布(latent dirichlet allocation,LDA)[2]等概率主題模型的廣泛應(yīng)用,越來越多的研究聚焦于如何將主題模型應(yīng)用于各類特定領(lǐng)域的自然語言處理任務(wù)。如張紹武等人[12]基于一種動態(tài)主題模型實(shí)現(xiàn)了新疆暴恐輿情分析;吳彥文等人[13]基于LDA模型與長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型實(shí)現(xiàn)了短文本情感分類;陳琪等人[14]基于支持向量機(jī)和LDA模型提出了一種評論分析方法。上述方法普遍基于早期的概率主題模型,而這些概率主題模型存在泛化能力弱、主題可解釋性差等缺陷?;谏窠?jīng)網(wǎng)絡(luò)的方法來構(gòu)建主題模型能有效解決這些問題。Cao等人[4]提出了基于前饋神經(jīng)網(wǎng)絡(luò)的主題模型(neural topic model,NTM),該模型將傳統(tǒng)主題模型的主題—詞分布以及主題—文檔分布轉(zhuǎn)換為兩個(gè)權(quán)重矩陣,并使用了后向傳播(back propagation,BP)算法訓(xùn)練參數(shù)。Kingma等人[5]在2014年提出變分自編碼器(variational auto-encoder, VAE),能夠訓(xùn)練一個(gè)直接將文檔映射到后驗(yàn)分布的神經(jīng)網(wǎng)絡(luò)。因此,Miao等人[6]使用VAE構(gòu)建了一種神經(jīng)變分文檔模型(neural variational document model, NVDM),并在此基礎(chǔ)上加入主題—詞分布,進(jìn)而形成了基于VAE的主題模型?;贚arochelle等人[7]提出的神經(jīng)自回歸分布估計(jì)器(neural autoregressive distribution estimator, NADE),Lauly等人[8]提出了一種生成式主題模型——文檔的神經(jīng)自回歸分布估計(jì)(document neural autoregressive distribution estimator, DocNADE),通過詞的序列學(xué)習(xí)主題,即對某個(gè)詞vi進(jìn)行預(yù)測時(shí),需要其前文作為輸入。對比于概率主題模型,神經(jīng)主題模型能夠更好地利用詞匯之間的語義相似度。隨著循環(huán)神經(jīng)網(wǎng)絡(luò)的發(fā)展,文檔的詞序列作為輸入能夠更加充分利用詞匯的上下文信息。Dieng等人[9]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)捕獲詞之間的依賴,結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)與主題模型提出了TopicRNN。Lau等人[10]利用卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural network,CNN)和LSTM提出了主題-語言模型聯(lián)合訓(xùn)練模型(topically driven language model,TDLM),利用CNN提取文本特征,并使用LSTM刻畫詞匯之間的語義,將文本的主題信息與LSTM的隱藏層結(jié)合。這兩種模型可認(rèn)為是多任務(wù)學(xué)習(xí)模型,由主題推斷和文本生成兩個(gè)子任務(wù)組成,由此模型生成的文本語義更加自然,但這些方法更加側(cè)重于對語言模型的優(yōu)化。
Gupta等人[11]利用LSTM語言模型,經(jīng)過訓(xùn)練后能夠根據(jù)給定詞序列來預(yù)測后續(xù)單詞的特性,提出了基于詞嵌入的語境化文檔神經(jīng)自回歸分布估計(jì)器(contextualized document neural autoregressive distribution estimator with embeddings, ctx-DocNADEe),但并沒有考慮到文檔的雙向語義。而Gupta等人[3]受雙向語言模型[15]和遞歸神經(jīng)網(wǎng)絡(luò)[16-17]的啟發(fā),提出了一種納入完整上下文語義信息的主題模型(document informed neural autoregressive distribution estimator with embeddings, iDocNADEe),該模型將上下文同時(shí)作為輸入,并引入Glove詞嵌入作為先驗(yàn)知識,將語言模型的預(yù)測方式應(yīng)用到了主題模型。通過對以上工作的分析可以看出,無論是傳統(tǒng)主題模型還是神經(jīng)主題模型,都是基于通用領(lǐng)域,而在涉案領(lǐng)域暫無相關(guān)研究。因此,我們考慮如何將這些方法應(yīng)用到涉案領(lǐng)域以獲得更好的主題表示。
案件要素是指案件的內(nèi)在組成部分及各部分之間的相互關(guān)系和排列狀況,如刑事案件由何事、何時(shí)、何地、何物、何情、何故、何人等7要素構(gòu)成,對案件構(gòu)成要素進(jìn)行分析能夠從根本上把握案件發(fā)生、發(fā)展的趨勢和規(guī)律[18]。對于涉案新聞主題抽取任務(wù),分析涉案文本與案件要素之間的關(guān)聯(lián)關(guān)系有助于提高涉案主題分布的準(zhǔn)確性。為構(gòu)建案件要素庫,我們從互聯(lián)網(wǎng)中收集了有關(guān)重慶公交墜江案、麗江唐雪反殺案、昆明孫小果涉黑案等刑事案件的相關(guān)新聞,并基于韓鵬宇等人[19]的方法定義且抽取了涉案新聞中的案件要素,包括“案件名稱、涉案人員、涉案地點(diǎn)、涉案觸發(fā)詞”,為涉案新聞主題建模提供了領(lǐng)域知識。以涉案新聞“還女司機(jī)清白!重慶萬州公交墜江系乘客毆打公交車司機(jī)導(dǎo)致!”為例,其案件要素構(gòu)成如表1所示。
表1 案件要素實(shí)例
其中,涉案地點(diǎn)可能是案件中涉及到的地名,可能是省份、城市或更加具體的場所。涉案人員包括案件中涉及的人員,如嫌疑人、受害人、目擊者等。涉案觸發(fā)詞指某些與司法領(lǐng)域相關(guān)或描述案件關(guān)鍵的詞,如表1中的“毆打”及“墜江”。
2.2.1 基于神經(jīng)自回歸分布估計(jì)的主題模型
作為一種無監(jiān)督的生成式主題模型,iDocNADEe的結(jié)構(gòu)如圖1(a)所示,該模型從文檔中抽取其潛在特征,并據(jù)此重新生成文本,以生成文本的對數(shù)似然函數(shù)為最終的優(yōu)化目標(biāo)。
圖1 iDocNADEe和本文模型架構(gòu),虛線框內(nèi)代表本文所加入的案件要素注意力機(jī)制
首先,將一篇詞數(shù)為D的文檔表示為一個(gè)序列v=[v1,v2,…,vD],其中vi∈{1,…,V}表示文檔中第i個(gè)詞在詞表中的位置,V表示語料庫詞表的大小。
圖2 前向隱狀態(tài)的計(jì)算
由此,任意文檔的對數(shù)似然函數(shù)如式(5)所示。
(5)
2.2.2 融合案件要素特征構(gòu)建的注意力機(jī)制
首先,本文模型的輸入不僅包括了新聞的文本序列v,還有案件要素集合k=[k1,…,kn]。與文本隱狀態(tài)計(jì)算類似,我們首先計(jì)算案件要素的前后向隱狀態(tài),如式(6)、式(7)所示。
最終我們通過式(5)、式(14)、式(15)計(jì)算融入了案件信息的生成文檔的對數(shù)似然函數(shù)。
在模型的訓(xùn)練過程中,直接由式(14)、式(15)進(jìn)行計(jì)算會導(dǎo)致計(jì)算成本過高,因此我們遵從Gupta等人[3]的實(shí)驗(yàn)設(shè)計(jì),使用二叉樹進(jìn)行計(jì)算(見算法1)。在二叉樹中,從根到葉子的每個(gè)路徑都對應(yīng)一個(gè)詞匯[20-21]。樹中每個(gè)節(jié)點(diǎn)向左(或右)的概率由一組二元邏輯回歸模型建模,然后通過這些概率來計(jì)算給定詞的概率。
算法1 使用二叉樹計(jì)算涉案新聞文檔的對數(shù)似然函數(shù)p(v)算法偽代碼
算法1展示了我們的模型如何在案件要素的指導(dǎo)下計(jì)算每篇涉案新聞的對數(shù)似然函數(shù)。其中,第6~9行展示了我們?nèi)绾谓Y(jié)合案件要素和注意力機(jī)制對新聞隱狀態(tài)進(jìn)行加權(quán)。而第12~15行表示了如何使用二叉樹來降低模型的計(jì)算成本,l(vi)表示從根到詞vi的路徑上的樹節(jié)點(diǎn)的序列,而π(vi)表示這些節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)的左(或右)選擇的序列[例如l(vi)1將始終是樹的根,如果詞vi的葉子節(jié)點(diǎn)在其左子樹中,則π(vi)1為0,否則為1]。因此,現(xiàn)在每個(gè)詞的自回歸條件的計(jì)算如式(16)~式(19)所示。
(20)
針對涉案新聞文本主題模型構(gòu)建任務(wù),由于目前還沒有可用的公開數(shù)據(jù)集,本文使用的涉案新聞數(shù)據(jù)通過網(wǎng)絡(luò)爬蟲技術(shù)從新聞網(wǎng)站、微博以及微信公眾號爬取了近年來部分熱點(diǎn)案件的相關(guān)新聞,如重慶公交墜江案、麗江唐雪反殺案、孫小果涉黑案等。經(jīng)過分析發(fā)現(xiàn)與案件相關(guān)的新聞?wù)牡拈L度不均衡,而且文本中包含了大量的噪聲,但新聞標(biāo)題基本上都包含了跟案件相關(guān)的一些信息,如案件名稱、涉案人員等重要信息。為此,本文僅選擇了涉案文本的標(biāo)題信息來構(gòu)建涉案文本數(shù)據(jù)集,我們使用HanLP(1)https://github.com/hankcs/HanLP對其進(jìn)行分詞,并按照7∶3的比例劃分訓(xùn)練集與測試集。數(shù)據(jù)集具體信息如表2所示。
表2 本文數(shù)據(jù)集的屬性
實(shí)驗(yàn)涉及參數(shù)如表3所示。
表3 本文實(shí)驗(yàn)中各參數(shù)的設(shè)置
在模型中,詞向量作為對主題信息的補(bǔ)充,因此其維度需要與主題數(shù)一致,分別為50/200維,考慮到目前中文并沒有基于大規(guī)模語料訓(xùn)練的開源50/200維詞向量,我們利用開源庫gensim中的Word2Vec工具包,聯(lián)合了從中國裁判文書網(wǎng)爬取的裁判文書和本文中使用的語料(數(shù)據(jù)共計(jì)17GB)以及開源中文新聞?wù)Z料 (news2016zh)(2)https://github.com/brightmart/nlp_chinese_corpus訓(xùn)練詞向量,詞向量的維度為50/200維。
(1) 困惑度(perplexity)
困惑度(PPL)用于檢驗(yàn)主題模型的泛化能力,困惑度越低,則代表模型具備的泛化能力越好。我們通過計(jì)算測試集中涉案新聞的困惑度來評估主題模型作為生成模型的文檔生成能力。困惑度的計(jì)算如式(21)所示。
(21)
其中,N是新聞數(shù)量,|vt|則代表每篇新聞t∈{1,…,N}中的詞匯數(shù)量。logp(vt)由式(5)得到。
(2) 主題連貫性(topic coherence)
我們使用了R?der等人[22]提出的自動度量指標(biāo)CV來驗(yàn)證模型產(chǎn)生的主題的連貫性,并使用開源工具gensim(3)(radimrehurek.com/gensim/models/coherencemodel.html, coherence type=c_v)來完成這一項(xiàng)指標(biāo)的計(jì)算。
該指標(biāo)使用參考語料庫上的滑動窗口來確定每個(gè)主題詞的上下文特征。該指標(biāo)越高,即代表主題的連貫性越好,主題模型效果越好。遵從Gupta等人[3]的實(shí)驗(yàn)設(shè)計(jì),上下文滑動窗口的大小被設(shè)置為110。
本文選擇了在ICLR、AAAI等會議發(fā)表的幾個(gè)具有代表性的神經(jīng)主題模型作為基準(zhǔn)模型。
(1)DocNADE[8]: 由Lauly等人提出的一種神經(jīng)主題模型,作為NADE和RSM的擴(kuò)展模型,該模型使用神經(jīng)自回歸估計(jì)對文本進(jìn)行主題建模。
(2)TDLM[10]: 由Lau等人在ACL2017提出,該模型是一種基于卷積神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制以及LSTM網(wǎng)絡(luò)的雙神經(jīng)網(wǎng)絡(luò)模型,是一種多任務(wù)學(xué)習(xí)模型,由主題推斷與文本生成兩個(gè)子任務(wù)組成。
(3)ctx-DocNADEe[11]: 由Gupta等人在ICLR2019提出,該模型在DocNADE的基礎(chǔ)上引入了LSTM語言模型和Glove詞向量,其文本的隱藏狀態(tài)由三者共同計(jì)算得到。
(4)iDocNADEe[1]: 同樣是DocNADE的擴(kuò)展版,由Gupta等人在AAAI2019提出,詳情見2.2節(jié)。
第一組實(shí)驗(yàn)是本文提出模型與4個(gè)基準(zhǔn)模型在涉案新聞數(shù)據(jù)集上,主題數(shù)H設(shè)置為50時(shí)的困惑度(PPL)對比,實(shí)驗(yàn)結(jié)果如表4所示。
表4 本文方法和基準(zhǔn)模型困惑度對比
根據(jù)表4可以看出, TDLM模型的困惑度最高,即該模型的泛化能力最差,我們認(rèn)為這主要因?yàn)樵撃P褪且环N雙任務(wù)模型,并且主要目標(biāo)在于優(yōu)化語言模型,因此其主題模型的效果并不明顯。而本文提出方法的困惑度最低,較基線模型降低了0.66%,說明了案件要素通過注意力機(jī)制融入主題模型中的確可以提升生成文本的質(zhì)量,并且可以提升模型的泛化能力。雖然提升的效果有限,但主題模型的生成能力僅代表了主題模型的一項(xiàng)能力,我們更加注重主題的質(zhì)量,即主題連貫性和基于主題的文檔檢索效果。
主題連貫性能夠評估模型所發(fā)現(xiàn)的主題的意義。本文第二組實(shí)驗(yàn)對比了本文提出方法與4個(gè)基準(zhǔn)模型在涉案新聞數(shù)據(jù)集上,主題數(shù)H設(shè)置為50時(shí)的主題連貫性,實(shí)驗(yàn)結(jié)果如表5所示。其中T10和T20分別代表每個(gè)主題取前10個(gè)以及前20個(gè)主題詞計(jì)算出的主題連貫性。
表5 本文方法和基準(zhǔn)模型主題連貫性對比
根據(jù)表5的實(shí)驗(yàn)結(jié)果可以看出,TDLM模型所得到的主題連貫性分?jǐn)?shù)最低,即該模型得到的主題詞的語義連貫性較差,因?yàn)槠渲饕康氖峭ㄟ^主題模型來優(yōu)化語言模型,而DocNADE只考慮了文本的前向序列,并沒有考慮反向序列,因此其效果較拓展類模型較差。而其他兩種方法都考慮了文章的上下文信息,所以效果有明顯提高。而本文方法取得的主題連貫性最高,10個(gè)主題詞時(shí),效果較基線模型提升了6.26%,20個(gè)主題詞時(shí),效果提升了8.78%,這也表明基于案件要素的注意力機(jī)制能夠幫助模型找到連貫性更好的主題。
為了進(jìn)行詞匯向量表示的測試,本文使用構(gòu)建的涉案新聞數(shù)據(jù)集對所提出的模型進(jìn)行了訓(xùn)練,并使用W:,vi作為每個(gè)詞匯的向量表示(200維)。我們選取了三個(gè)詞匯以及與其相似度最高的5個(gè)詞匯進(jìn)行展示,此處的相似度由余弦相似度計(jì)算得到。實(shí)驗(yàn)結(jié)果如表6所示,其中sy,sw分別代表使用本文提出方法計(jì)算得到的詞的向量表示與使用Word2Vec訓(xùn)練得到的詞的向量表示所計(jì)算出余弦相似度。
表6 詞匯向量表示對比(%)
根據(jù)表6的實(shí)驗(yàn)結(jié)果可以看出,通過訓(xùn)練,我們提出的方法抽取到的主題詞跟案件要素具有更大的語義相關(guān)性。
主題模型的一個(gè)重要用途就是得到文檔的主題信息。我們通過執(zhí)行一個(gè)涉案新聞檢索任務(wù)以評估本文所提出方法以及對比方法所得到的新聞主題信息的質(zhì)量。我們使用式(20)來抽取每篇新聞的主題信息,并將訓(xùn)練集中的新聞用作檢索,而測試集中的新聞用作查詢。
本文設(shè)置了多組不同的檢索分?jǐn)?shù)(fraction of retrieved documents)以進(jìn)行對比。我們將用作查詢的新聞的主題信息與所有檢索集中的新聞的主題信息做相似度計(jì)算,返回相似度最高的前Np條新聞。Np的計(jì)算如式(22)所示。
Np=Nr*檢索分?jǐn)?shù)
(22)
其中,Nr是檢索集的新聞數(shù)量。最終我們通過查詢新聞的標(biāo)簽和返回的Np條新聞的標(biāo)簽計(jì)算檢索精確率。新聞檢索系統(tǒng)的精確率表示在檢索到的文檔中,相關(guān)文檔所占比例。已知混淆矩陣如表7所示,則精確率計(jì)算如式(23)所示。
表7 新聞檢索系統(tǒng)中的混淆矩陣
(23)
結(jié)果如圖3所示,縱軸代表各模型取得的精確率,橫軸代表檢索分?jǐn)?shù)??梢钥吹?,檢索分?jǐn)?shù)與精確率成反比,因?yàn)闄z索分?jǐn)?shù)越高,代表返回的新聞數(shù)量越多,而檢索到無關(guān)新聞的數(shù)量也就越多,直接導(dǎo)致精確率的降低。當(dāng)檢索分?jǐn)?shù)為1%時(shí),檢索系統(tǒng)所返回新聞的數(shù)量恰好與檢索集中一個(gè)類別新聞的平均數(shù)量相近,當(dāng)檢索分?jǐn)?shù)繼續(xù)升高時(shí),返回的新聞幾乎都是無關(guān)新聞,因此精確率大幅度降低。但無論檢索分?jǐn)?shù)的高低,利用我們提出模型所抽取的主題信息獲得的檢索精確率始終是最高的。這是因?yàn)槲覀儗讣厝谌肽P?,因此模型所抽取的主題信息包含了案件信息,質(zhì)量也就越高。這也證明了本文使用案件要素信息對模型進(jìn)行注意力加權(quán)指導(dǎo)是有效的。
圖3 各模型的文檔檢索精確率對比
由于現(xiàn)有的主題模型忽略了上下文信息及外部知識對詞語主題分布的幫助,本文對iDocNADEe模型做了進(jìn)一步擴(kuò)展,提出了一種基于神經(jīng)自回歸分布估計(jì)的涉案新聞主題模型構(gòu)建方法。該方法通過融入案件要素作為外部知識,能較好地解決神經(jīng)主題模型在涉案新聞領(lǐng)域效果不佳的問題,并能獲得更低的困惑度以及更好的主題連貫性,在涉案新聞檢索實(shí)驗(yàn)中也獲得了更佳的性能。我們將在下一步工作中,研究如何利用除案件要素外的涉案領(lǐng)域知識,如裁判文書和法律條文等對涉案新聞主題模型的幫助。