国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合掩碼機(jī)制的圖卷積文本分類模型

2023-12-06 02:41黃雪陽(yáng)徐廣輝陸欣榮任麗博
中文信息學(xué)報(bào) 2023年9期
關(guān)鍵詞:掩碼卷積單詞

孫 紅,黃雪陽(yáng),徐廣輝,2,陸欣榮,任麗博

(1.上海理工大學(xué) 光電與計(jì)算機(jī)工程學(xué)院,上海 200093;2.同濟(jì)大學(xué)附屬上海市第四人民醫(yī)院 脊柱外科,上海 200434)

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展和網(wǎng)絡(luò)文本數(shù)據(jù)的迅速增長(zhǎng),文本分類已成為自然語(yǔ)言處理領(lǐng)域中最重要和最具有挑戰(zhàn)性的分支之一。文本分類是利用文本處理技術(shù)對(duì)一段文本內(nèi)容進(jìn)行分類,其在文檔主題分類[1]、過(guò)濾垃圾郵件[2]和新聞主題分類[3]應(yīng)用場(chǎng)景得到廣泛應(yīng)用。文本特征提取是文本分類的關(guān)鍵步驟之一,其關(guān)鍵在于在保留語(yǔ)義信息的前提下對(duì)文本進(jìn)行向量化表示。早期的文本分類問(wèn)題常用機(jī)器學(xué)習(xí)方法解決,其中包括支持向量機(jī)[4]、樸素貝葉斯算法[5]和K近鄰算法[6]等。盡管上述方法能達(dá)到不錯(cuò)的分類效果,但存在時(shí)間成本和人力資源成本高的問(wèn)題。

相較于機(jī)器學(xué)習(xí)難以對(duì)文本進(jìn)行有效的特征提取的問(wèn)題,深度學(xué)習(xí)可以利用其神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征工程和自動(dòng)學(xué)習(xí)數(shù)據(jù)的特征表示,因此廣泛運(yùn)用于自然語(yǔ)言處理領(lǐng)域。Liu等[7]使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)模型引入遺忘門、輸入門與輸出門的概念,通過(guò)控制信息的量來(lái)捕捉文本信息。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)BiLSTM(Bidirectional Long Short-Term Memory)在LSTM的基礎(chǔ)上,通過(guò)捕捉上下文信息和長(zhǎng)距離的雙向語(yǔ)義依賴能更好解決文本分類的任務(wù)。此外,為了解決句子級(jí)別的分類任務(wù),Kim等[8]提出的TextCNN(Text Convolutional Neural Network)模型將多個(gè)詞向量構(gòu)成的特征矩陣作為句子表示,并使用不同尺寸的卷積核對(duì)特征進(jìn)行一維卷積,最后通過(guò)池化層提取每個(gè)文本的特征信息。Yang等[9]提出HAN(Hierarchical Attention Networks)模型采用”單詞-句子-文檔”的層次化結(jié)構(gòu)表示文本,并對(duì)單詞級(jí)別和句子級(jí)別使用不同的注意力機(jī)制,從而具有不同程度的表達(dá)能力。

近年來(lái),圖卷積神經(jīng)網(wǎng)絡(luò)因其在文本分類領(lǐng)域的出色表現(xiàn)而在眾多自然語(yǔ)言處理領(lǐng)域得到廣泛應(yīng)用。Yao等[10]提出TextGCN模型構(gòu)建整個(gè)語(yǔ)料庫(kù)的文本圖,利用點(diǎn)互信息[11]和TF-IDF[12]計(jì)算節(jié)點(diǎn)依賴關(guān)系,并作為邊的權(quán)重進(jìn)行文本分類。除了詞共現(xiàn)關(guān)系外,Liu等[13]提出的TensorGCN模型引入了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和單詞間的句法依賴,用于表達(dá)單詞間的語(yǔ)義與句法關(guān)系,并構(gòu)建了三種異質(zhì)圖,然后采用圖內(nèi)和圖間兩種信息傳播方式,分別用于單圖中節(jié)點(diǎn)的信息聚合以及協(xié)調(diào)各圖之間的異構(gòu)信息。但上述方法忽略了圖卷積神經(jīng)網(wǎng)絡(luò)存在過(guò)平滑的問(wèn)題[14],即節(jié)點(diǎn)隨著網(wǎng)絡(luò)層數(shù)和迭代次數(shù)的增加表征會(huì)趨向于收斂到同一個(gè)值的現(xiàn)象,導(dǎo)致模型性能下降而無(wú)法學(xué)習(xí)圖結(jié)構(gòu)中豐富的文本語(yǔ)義。

為緩解上述的過(guò)平滑現(xiàn)象,本文提出了一種融合掩碼機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)模型MaskGCN(Mask Graph Convolution Network)并應(yīng)用于文本分類任務(wù)。Rong等[15]提出的Dropedge通過(guò)丟棄文本圖的邊以達(dá)到緩解過(guò)平滑的目的,而本文的掩碼機(jī)制同樣是對(duì)文本圖的邊進(jìn)行操作,在提高模型分類性能的同時(shí),本文也探索了掩碼機(jī)制對(duì)緩解過(guò)平滑的作用。不同于現(xiàn)有的圖網(wǎng)絡(luò)研究,MaskGCN為每個(gè)文本構(gòu)建不同粒度的文本圖,將余弦相似度作為邊的權(quán)重,并使用全局共享矩陣動(dòng)態(tài)更新文本圖矩陣。這樣可以有效節(jié)約內(nèi)存資源和計(jì)算時(shí)間,并且全局共享矩陣可以捕捉節(jié)點(diǎn)的全局信息。在構(gòu)建完文本圖后,按照融合規(guī)則將隨機(jī)掩碼矩陣和文本圖矩陣進(jìn)行融合,生成文本圖掩碼矩陣。不同粒度的文本圖是基于全局共享矩陣在訓(xùn)練時(shí)動(dòng)態(tài)生成的,并生成文本圖掩碼矩陣,輸入到MaskGCN中學(xué)習(xí)文本表示,最后通過(guò)BiLSTM網(wǎng)絡(luò)和分類器獲得分類結(jié)果。

本文的主要貢獻(xiàn)有:

(1) 針對(duì)圖卷積神經(jīng)網(wǎng)絡(luò)在模型學(xué)習(xí)過(guò)程中存在過(guò)平滑的問(wèn)題,即節(jié)點(diǎn)更新過(guò)程中特征收斂至相似值的現(xiàn)象,同時(shí)為探索圖結(jié)構(gòu)上的掩碼機(jī)制,提出了融合掩碼機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò),能夠在一定程度上有效抑制過(guò)平滑問(wèn)題,并提高文本分類效果。

(2) 基于全局共享矩陣為每一個(gè)文本動(dòng)態(tài)構(gòu)建單詞級(jí)文本圖、短語(yǔ)級(jí)文本圖和句法文本圖的多粒度文本圖,以詞向量之間的余弦相似度為文本圖的邊的權(quán)重,有效捕捉文本全局信息和潛在的依賴關(guān)系。

(3) 在三個(gè)公開數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了本文模型的有效性,以及掩碼機(jī)制對(duì)抑制過(guò)平滑現(xiàn)象的作用。同時(shí)通過(guò)實(shí)驗(yàn)探索不同掩碼比例下的文本分類效果。

1 相關(guān)研究

文本是非歐幾里德數(shù)據(jù),這是一類不具有平移不變性的數(shù)據(jù),所以神經(jīng)網(wǎng)絡(luò)的表達(dá)能力往往會(huì)被這種復(fù)雜結(jié)構(gòu)限制。而圖神經(jīng)網(wǎng)絡(luò)以圖的形式對(duì)詞與詞之間以及詞與文檔之間的關(guān)系進(jìn)行建模,可以直觀地表達(dá)出文本的豐富關(guān)系,并且利用節(jié)點(diǎn)間的連接關(guān)系保留全局的圖信息。近年來(lái),大量研究利用該特點(diǎn)將圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在文本分類任務(wù)上,以表達(dá)文本中的語(yǔ)義關(guān)系,并且在圖像分割[16]和語(yǔ)義角色標(biāo)簽[17]等任務(wù)上得到廣泛應(yīng)用。Kipf等[18]提出了GCN(Graph Convolutional Networks)模型,通過(guò)利用切比雪夫多項(xiàng)式的一階截?cái)嗾归_式來(lái)擬合卷積核,簡(jiǎn)化了節(jié)點(diǎn)信息的傳播規(guī)則,并通過(guò)減少參數(shù)來(lái)緩解過(guò)擬合以及簡(jiǎn)化卷積層的運(yùn)算。同時(shí),Gao等[19]提出了一種通過(guò)結(jié)合GCN圖卷積與CNN一維卷積獲取上下文關(guān)系的混合卷積操作,該操作不僅能快速增大感受野,還能提取文本的語(yǔ)序信息。

為整個(gè)語(yǔ)料庫(kù)構(gòu)建文本圖的研究方法存在計(jì)算成本高、忽略了文本內(nèi)的單詞交互和難以擴(kuò)展的問(wèn)題。為此,Huang等[20]提出的Text-level GCN模型構(gòu)建文本級(jí)別的有向圖,設(shè)計(jì)了節(jié)點(diǎn)特征矩陣和邊權(quán)矩陣,并在訓(xùn)練過(guò)程中使用消息傳遞機(jī)制動(dòng)態(tài)更新節(jié)點(diǎn)表示和邊權(quán),更好地捕捉全局特征和降低計(jì)算成本,且對(duì)新樣本具有較好的泛化能力。Wang等[21]提出的GeniePath是可擴(kuò)展和自適應(yīng)感受路徑的圖神經(jīng)網(wǎng)絡(luò),具有排列不變性的圖數(shù)據(jù)的函數(shù)空間和具有適應(yīng)廣度和深度函數(shù)的路徑層。而Wu等[22]提出的SGC模型消除了隱藏層之間的激活操作,將中間過(guò)程轉(zhuǎn)換為簡(jiǎn)單的線性變換,以減少模型的復(fù)雜度和冗余計(jì)算。Kenta等[23]使用歸一化拉普拉斯算子的譜分布將權(quán)重標(biāo)準(zhǔn)化的圖神經(jīng)網(wǎng)絡(luò)和底層圖的拓?fù)湫畔⒙?lián)系起來(lái)。Wang等[24]提出MAGNN(Multi-hop Attention Graph Neural Network)將注意力和多跳上下文信息結(jié)合,在節(jié)點(diǎn)間進(jìn)行遠(yuǎn)程交互,并消除噪聲信息。

掩碼機(jī)制作為預(yù)訓(xùn)練模型BERT[25]的核心任務(wù)之一,在預(yù)訓(xùn)練過(guò)程中能有效提高BERT模型性能,受到廣泛關(guān)注。掩碼機(jī)制將單詞作為掩碼對(duì)象的基本單位,從訓(xùn)練文本中選取15%作為參與掩碼的對(duì)象,其中,80%的單詞被掩蓋,10%的單詞被隨機(jī)替換,剩下10%保持不變,通過(guò)該掩碼機(jī)制使得BERT模型快速學(xué)習(xí)文本單詞的上下文語(yǔ)義。不同于BERT的掩碼機(jī)制,Sun等[26]提出的ERNIE模型設(shè)計(jì)了隨機(jī)掩蓋實(shí)體的掩碼機(jī)制,通過(guò)整合額外知識(shí)信息和文本信息,將實(shí)體的異構(gòu)信息表征在統(tǒng)一的特征空間,如“我想去北京”,在BERT中掩蓋后為“我想去[Mask]京”,在ERNIE中掩蓋后為“我想去[Mask]”,將“北京”視作一個(gè)實(shí)體能更好挖掘文本語(yǔ)義信息。但上述研究都是基于文本結(jié)構(gòu)進(jìn)行掩碼,并不完全適用于基于圖卷積神經(jīng)網(wǎng)絡(luò)的文本分類任務(wù)。

為了有效抑制圖網(wǎng)絡(luò)存在的過(guò)平滑問(wèn)題和探索圖結(jié)構(gòu)上的掩碼機(jī)制,本文提出了融合掩碼機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò),基于全局共享矩陣動(dòng)態(tài)構(gòu)建不同粒度的文本圖,以提高模型學(xué)習(xí)不同層次文本語(yǔ)義的能力。通過(guò)實(shí)驗(yàn)表明,抑制過(guò)平滑的有效性和較優(yōu)的分類效果,并探索了掩碼比例對(duì)于文本分類效果的影響。

2 模型概述

本文提出的融合掩碼機(jī)制的圖卷積文本分類模型主要包含全局共享矩陣、構(gòu)建文本圖、掩碼機(jī)制的融合規(guī)則和融合掩碼機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)四個(gè)部分。本節(jié)將介紹各部分的結(jié)構(gòu)和實(shí)現(xiàn)細(xì)節(jié)。

2.1 全局共享矩陣

在Text-level GCN[20]中的研究基礎(chǔ)上,本文根據(jù)詞表集合構(gòu)建一張包含不同粒度的全局共享矩陣,即包含單詞級(jí)別和短語(yǔ)級(jí)別兩種粒度的全局共享矩陣。

首先,將語(yǔ)料庫(kù)的文本進(jìn)行數(shù)據(jù)清洗和去除重復(fù)詞等預(yù)處理操作,并且用分詞工具獲取短語(yǔ)級(jí)別的語(yǔ)料和以單詞為基本單位進(jìn)行分割獲得單詞級(jí)別的語(yǔ)料。然后,通過(guò)統(tǒng)計(jì)兩種語(yǔ)料中所有不重復(fù)的單詞,以保留兩種語(yǔ)料中沒(méi)有重復(fù)的詞表。最后,使用預(yù)訓(xùn)練詞向量[27]初始化全局共享矩陣,其中預(yù)訓(xùn)練詞向量中不存在的單詞使用服從0~1均勻分布的隨機(jī)樣本值進(jìn)行初始化。全局共享矩陣構(gòu)建流程如圖1所示。

其中,d是詞向量的維度。詞表包含n個(gè)單詞級(jí)別和短語(yǔ)級(jí)別的單詞,且是經(jīng)過(guò)統(tǒng)計(jì)后得到的不重復(fù)的單詞。全局共享矩陣將作為模型的嵌入層在模型訓(xùn)練過(guò)程中動(dòng)態(tài)更新嵌入層的參數(shù),由于余弦相似度每一個(gè)批次都會(huì)計(jì)算一次,因此實(shí)現(xiàn)了文本圖的動(dòng)態(tài)更新。

2.2 構(gòu)建文本圖

給定一個(gè)包含m個(gè)節(jié)點(diǎn)的文本,在模型訓(xùn)練過(guò)程中動(dòng)態(tài)構(gòu)建文本圖矩陣,將節(jié)點(diǎn)間的余弦相似度作為節(jié)點(diǎn)間的邊的權(quán)重。其構(gòu)建流程如圖2所示。

文本圖矩陣是在模型訓(xùn)練過(guò)程中動(dòng)態(tài)構(gòu)建的,其邊的權(quán)重是節(jié)點(diǎn)間的余弦相似度。具體實(shí)現(xiàn)過(guò)程是將全局共享矩陣作為模型的嵌入層,在訓(xùn)練時(shí)獲取文本圖對(duì)應(yīng)的詞向量,再計(jì)算余弦相似度得到文本圖矩陣。余弦相似度其定義如式(1)所示。

(1)

其中,Ai和Bi代表節(jié)點(diǎn)的詞向量分量,n是詞向量的維度。

為了探索在圖結(jié)構(gòu)上的掩碼機(jī)制,為每一個(gè)文檔構(gòu)建的三張不同粒度的文本級(jí)別文本圖,分別是單詞級(jí)文本圖、短語(yǔ)級(jí)文本圖、句法文本圖。其目的是引入不同粒度的圖卷積中包含的語(yǔ)義信息和句法結(jié)構(gòu)信息,提高模型擬合學(xué)習(xí)的能力。三種文本圖的鄰接矩陣構(gòu)建流程如圖2所示,其邊的權(quán)重的構(gòu)建如式(1)所示。

單詞級(jí)文本圖將預(yù)處理后的文本以單詞為基本單位進(jìn)行分割,并以單詞作為圖節(jié)點(diǎn)構(gòu)建文本圖。本文舍棄了以往論文中采用的PMI和TF-IDF的構(gòu)圖方法,因?yàn)檫@種方案需要統(tǒng)計(jì)全局信息,存在不易擴(kuò)展新文本的缺點(diǎn)。單詞級(jí)文本圖的鄰接矩陣是以單詞作為節(jié)點(diǎn)構(gòu)建的,并將節(jié)點(diǎn)間的余弦相似度作為邊的權(quán)重。

短語(yǔ)級(jí)文本圖短語(yǔ)是一組詞或?qū)嶓w,中文語(yǔ)境中單個(gè)漢字并不能完整表達(dá)語(yǔ)義,如“北京”是一組短語(yǔ),但拆開后則是完全不同的含義,因此短語(yǔ)級(jí)文本圖能更好地表達(dá)語(yǔ)義。短語(yǔ)級(jí)文本圖的鄰接矩陣是以短語(yǔ)作為節(jié)點(diǎn)構(gòu)建的,其邊的權(quán)重是節(jié)點(diǎn)間的余弦相似度。

句法文本圖句法是用來(lái)表達(dá)句子結(jié)構(gòu)的。不同于以往研究?jī)H僅表示是否存在句法關(guān)系,本文使用哈工大LTP工具生成文本的句法結(jié)構(gòu)并且為邊賦予了權(quán)重。句法文本圖在以短語(yǔ)為基本單位生成句法結(jié)構(gòu)的基礎(chǔ)上,將余弦相似度作為邊的權(quán)重,并用鄰接矩陣描述這種圖節(jié)點(diǎn)間的關(guān)系。

2.3 掩碼機(jī)制的融合規(guī)則

不同于文本結(jié)構(gòu)對(duì)詞或?qū)嶓w掩碼的研究[26],本文將掩碼機(jī)制引入圖神經(jīng)網(wǎng)絡(luò)。由于文本是非歐幾里德數(shù)據(jù),可以直接在文本上進(jìn)行掩碼操作,而圖結(jié)構(gòu)的掩碼機(jī)制更為復(fù)雜。不同于現(xiàn)有研究,本文并不是簡(jiǎn)單借鑒其方法,而是利用其思想并針對(duì)圖結(jié)構(gòu)的特點(diǎn),提出了掩碼機(jī)制的融合規(guī)則,在圖結(jié)構(gòu)上對(duì)文本間的關(guān)系進(jìn)行掩碼,使模型去學(xué)習(xí)文本節(jié)點(diǎn)關(guān)系并提高了模型的分類性能。

在每次訓(xùn)練過(guò)程中,按照一定掩碼比例生成一張與文本圖矩陣大小相同的隨機(jī)掩碼矩陣,按照掩碼機(jī)制的融合規(guī)則生成文本圖掩碼矩陣。融合掩碼機(jī)制的構(gòu)建流程如圖3所示。

圖3 融合掩碼機(jī)制的構(gòu)建流程

給定一個(gè)大小為m×n的文本圖矩陣,和大小同樣為m×n的隨機(jī)掩碼矩陣,隨機(jī)掩碼矩陣的生成規(guī)則如式(2)所示。

(2)

其中,當(dāng)節(jié)點(diǎn)的邊被掩碼時(shí),Mask(i,j)=0,否則Mask(i,j)=0。Mask表示隨機(jī)掩碼矩陣,Mask(i,j)表示隨機(jī)掩碼矩陣的i行j列的值,即圖節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的邊權(quán)重。

文本圖矩陣和隨機(jī)掩碼矩陣的融合規(guī)則如式(3)所示。

(3)

其中,°表示逐元素點(diǎn)乘,adj和Mask分別是文本圖矩陣和隨機(jī)掩碼矩陣,a和b是矩陣元素。隨機(jī)掩碼矩陣元素由1和0組成,根據(jù)融合公式將文本圖矩陣和隨機(jī)掩碼矩陣融合,生成文本圖掩碼矩陣,因此通過(guò)矩陣逐元素點(diǎn)乘實(shí)現(xiàn)圖結(jié)構(gòu)上的掩碼機(jī)制。另外,隨機(jī)掩碼矩陣是動(dòng)態(tài)生成的,以實(shí)現(xiàn)在訓(xùn)練過(guò)程中的動(dòng)態(tài)更新。

融合掩碼機(jī)制的單詞級(jí)文本圖、短語(yǔ)級(jí)文本圖和句法文本圖在圖結(jié)構(gòu)上的呈現(xiàn)分別如圖4~圖6所示。按照融合規(guī)則將隨機(jī)掩碼矩陣融合三種不同粒度的文本圖,實(shí)現(xiàn)了動(dòng)態(tài)隨機(jī)掩碼。

圖4 融合掩碼的單詞級(jí)文本圖

2.4 融合掩碼機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)

在按照融合規(guī)則生成文本圖掩碼矩陣的基礎(chǔ)上,本文提出了一種融合掩碼機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)MaskGCN,其中主要包括殘差結(jié)構(gòu)和自注意力機(jī)制,而上文中生成的文本圖掩碼矩陣則作為圖網(wǎng)絡(luò)的輸入。

MaskGCN構(gòu)建流程如圖7所示,將文本圖掩碼矩陣和文本向量作為圖卷積神經(jīng)網(wǎng)絡(luò)的輸入,同時(shí)殘差結(jié)構(gòu)有效緩解圖卷積網(wǎng)絡(luò)的過(guò)平滑的問(wèn)題。最后,自注意力層關(guān)注圖結(jié)構(gòu)中的不同粒度的文本。

圖卷積神經(jīng)網(wǎng)絡(luò)更新節(jié)點(diǎn)如式(4)、式(5)所示。

(4)

(5)

為了解決同一句話的不同粒度導(dǎo)致特征向量的長(zhǎng)度不相同的問(wèn)題,本文將不同粒度的文本長(zhǎng)度對(duì)齊一致,并在較短的文本后面增加空格以保持不同粒度文本長(zhǎng)度一致。如“我想去北京”,在單詞級(jí)別的長(zhǎng)度為5,而短語(yǔ)則分割為“我”“想去”“北京”,長(zhǎng)度為3。通過(guò)增加空格來(lái)保持不同粒度文本長(zhǎng)度一致,解決了在模型訓(xùn)練過(guò)程中輸入大小不一致的問(wèn)題。由于空格不含有具體文本語(yǔ)義信息而造成模型性能下降,MaskGCN模型引入自注意力機(jī)制來(lái)彌補(bǔ)該缺陷,用自注意力機(jī)制去關(guān)注文本自身的長(zhǎng)度。

2.5 BiLSTM

雙向長(zhǎng)短時(shí)記憶模型BiLSTM是一種雙向遞歸神經(jīng)網(wǎng)絡(luò),其將整個(gè)句子的所有單詞作為輸入,充分考慮了文本的上下文信息。BiLSTM模型能記憶上下文信息和學(xué)習(xí)文本特征,可以很好地處理多條短文本語(yǔ)料,結(jié)構(gòu)如圖8所示。

圖8 雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的結(jié)構(gòu)

2.6 模型框架

圖9展示了文本分類模型的整體框架,主干部分包括MaskGCN網(wǎng)絡(luò),以及基于掩碼機(jī)制的融合規(guī)則生成不同粒度的文本圖掩碼矩陣。

從圖9可以看到,全局共享矩陣為每一個(gè)文本構(gòu)造三張不同粒度的文本圖,并且在訓(xùn)練過(guò)程中動(dòng)態(tài)構(gòu)建文本圖矩陣。然后,利用掩碼機(jī)制的融合規(guī)則將隨機(jī)掩碼矩陣和文本圖矩陣生成文本圖掩碼矩陣作為圖卷積神經(jīng)網(wǎng)絡(luò)的輸入。全局共享矩陣的詞向量和單詞級(jí)文本圖掩碼矩陣輸入第一個(gè)MaskGCN網(wǎng)絡(luò),其輸出作為第二個(gè)MaskGCN網(wǎng)絡(luò)的輸入,而第三個(gè)MaskGCN的輸出作為BiLSTM的輸入。三個(gè)MaskGCN堆疊的模型結(jié)構(gòu)能融合三種不同粒度的文本特征,有助于緩解圖網(wǎng)絡(luò)過(guò)平滑的問(wèn)題。BiLSTM接收來(lái)自MaskGCN的輸出,最后輸入到Softmax分類器進(jìn)行分類。

此外,本文使用交叉熵?fù)p失作為模型的分類損失函數(shù),如式(6)所示。

(6)

3 實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境

為了檢驗(yàn)本文提出的文本分類模型的分類效果,選取了三個(gè)廣泛使用的文本分類數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集介紹如下:

THUCNews數(shù)據(jù)集包含教育、科學(xué)、經(jīng)濟(jì)、房產(chǎn)、股票、社會(huì)、時(shí)政、體育、游戲和娛樂(lè)共10個(gè)不同主題類別的新聞文本分類數(shù)據(jù)集。

今日頭條數(shù)據(jù)集來(lái)源于今日頭條客戶端,分別包括教育、科技、國(guó)際、證券、農(nóng)業(yè)、房產(chǎn)、軍事、旅游、民生、文化、娛樂(lè)、體育、財(cái)經(jīng)、汽車、電競(jìng)共 15個(gè)類別。

SogouCS數(shù)據(jù)集包含來(lái)自搜狐新聞共18個(gè)類別的文本數(shù)據(jù),本實(shí)驗(yàn)選取其中10個(gè)類別。

各數(shù)據(jù)集分類統(tǒng)計(jì)信息如表1所示。

表1 數(shù)據(jù)集分類信息

詞向量的維度是300,Dropout值為0.2,學(xué)習(xí)率為1e-3,并使用Adam優(yōu)化器訓(xùn)練。實(shí)驗(yàn)平臺(tái)的GPU配置為Quadro RTX 6000,并使用64位Windows操作系統(tǒng)。

3.2 對(duì)比模型

實(shí)驗(yàn)將提出的融合掩碼機(jī)制的圖卷積文本分類模型與多種具有代表性的基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的或基于圖卷積的文本分類方法進(jìn)行了比較,相關(guān)方法介紹如下:

TextCNN[8]將CNN引入文本分類領(lǐng)域,利用一維卷積核對(duì)文本中的詞序列特征向量進(jìn)行整行的卷積操作以提取文本的局部特征,利用池化得到文本的向量表示并用于分類。

BiLSTM雙向LSTM模型能捕捉文本的雙向信息和長(zhǎng)距離語(yǔ)義依賴。

Text-LevelGCN[20]文本級(jí)圖卷積網(wǎng)絡(luò)為每個(gè)文本構(gòu)建一張文本圖,并使用全局共享矩陣動(dòng)態(tài)更新圖權(quán)重。

TextGCN[10]文本圖卷積分類模型將整個(gè)語(yǔ)料庫(kù)作為節(jié)點(diǎn)構(gòu)建文本圖,并使用圖卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本節(jié)點(diǎn)進(jìn)行分類。

TensorGCN[13]分別使用詞共現(xiàn)關(guān)系、語(yǔ)義相似關(guān)系和語(yǔ)法依存關(guān)系作為邊權(quán)重以建立三通道文本圖,然后進(jìn)行文本分類。

TextINGZhang等[28]提出的TextING模型為每篇文檔構(gòu)建獨(dú)有的圖結(jié)構(gòu),并通過(guò)圖門控網(wǎng)絡(luò)更新自身狀態(tài),從而捕捉上下文的細(xì)粒度關(guān)系和單詞的交互。

BertGCNLin等[29]提出的模型,將預(yù)訓(xùn)練模型Bert和GCN相結(jié)合,采用記憶存儲(chǔ)、預(yù)測(cè)插值和小學(xué)習(xí)率的方法訓(xùn)練模型。

ME-GCNWang等[30]提出的ME-GCN模型,首次嘗試在圖網(wǎng)絡(luò)上應(yīng)用多維度邊進(jìn)行文本分類,通過(guò)多維詞向量和文檔向量構(gòu)造文本圖,從而捕捉豐富的語(yǔ)義信息。

3.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)將本文提出的MaskGCN模型與各模型在實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行對(duì)比,其實(shí)驗(yàn)結(jié)果如表2所示。

表2 模型分類準(zhǔn)確率 (單位: %)

通過(guò)表2發(fā)現(xiàn),相比于CNN、BiLSTM等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型,基于圖卷積網(wǎng)絡(luò)的文本分類模型都表現(xiàn)出良好的效果,說(shuō)明圖結(jié)構(gòu)在非歐幾里德數(shù)據(jù)的文本分類任務(wù)的有效性。MaskGCN在THUCNews數(shù)據(jù)集上相比于各對(duì)比模型至少有0.2%的提升,在今日頭條數(shù)據(jù)集上則有至少0.7%的提升,而在SogouCS數(shù)據(jù)集上至少有0.3%的提升。以上結(jié)果表明,本文提出的融合掩碼機(jī)制的圖卷積網(wǎng)絡(luò)模型有力提高了文本分類性能。

3.4 消融實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證融合掩碼機(jī)制對(duì)抑制過(guò)平滑的有效性,本文設(shè)計(jì)了兩個(gè)用于消融實(shí)驗(yàn)的對(duì)比模型,分別記為MaskGCNnone和MaskGCN,其中MaskGCNnone是不含掩碼機(jī)制的模型。

本文采用Chen等人[31]提出的衡量圖表示的平滑度的計(jì)算方法,其方法如式(7)~式(11)所示。

(7)

Dtgt=D°Mtgt

(8)

(9)

(10)

(11)

表3 掩碼機(jī)制抑制過(guò)平滑實(shí)驗(yàn)的準(zhǔn)確率 (單位: %)

從表3可以發(fā)現(xiàn),相比于無(wú)掩碼機(jī)制的MaskGCNnone,MaskGCN在三個(gè)數(shù)據(jù)集上的模型性能更優(yōu),說(shuō)明掩碼機(jī)制對(duì)于分類準(zhǔn)確率的有效性。此外,為了進(jìn)一步說(shuō)明掩碼機(jī)制對(duì)過(guò)平滑問(wèn)題的抑制效果,本文觀察了THUCNews數(shù)據(jù)集上的樣本的平滑度衡量值MAD隨模型層數(shù)的變化曲線(圖10)。

圖10 平滑度MAD值隨模型層數(shù)變化

從圖10中可以發(fā)現(xiàn),隨著圖卷積網(wǎng)絡(luò)的層數(shù)增加,模型MaskGCNnone的MAD值逐漸下降,說(shuō)明逐漸出現(xiàn)了過(guò)平滑的現(xiàn)象。相比于MaskGCNnone,雖然MaskGCN模型的MAD值整體呈下降趨勢(shì),但下降趨勢(shì)較緩且值大于MaskGCNnone,說(shuō)明融合掩碼機(jī)制的圖卷積神經(jīng)網(wǎng)絡(luò)能夠提升模型分類性能和抑制過(guò)平滑現(xiàn)象。

3.5 掩碼比例研究

為了探究掩碼比例對(duì)分類結(jié)果的影響,本文采用不同比例對(duì)文本圖矩陣進(jìn)行掩碼。首先,從訓(xùn)練集中選取一定比例的文本圖,其比例記為x1。然后,對(duì)于每一張被選中的文本圖,對(duì)文本圖中的一定比例的節(jié)點(diǎn)進(jìn)行掩碼操作,其比例記為x2。結(jié)果如表4所示。

表4 掩碼比例的實(shí)驗(yàn)結(jié)果

從表4可以發(fā)現(xiàn),在三個(gè)數(shù)據(jù)集上分別當(dāng)x1=10%且x2=30%、x1=40%且x2=30%和x1=30%且x2=60%時(shí),在三個(gè)數(shù)據(jù)集上的準(zhǔn)確率分別為92.6%、88.6%和88.2%,其模型準(zhǔn)確率最高,說(shuō)明不同的數(shù)據(jù)集的最佳掩碼比例不同,且整體準(zhǔn)確率相差不大。

當(dāng)x1=0%或者x2=0%時(shí),模型性能和無(wú)掩碼機(jī)制的MaskGCNnone是相同的。由此,當(dāng)x1=100%且x2=0%,或者x1=0%且x2=100%時(shí),可以發(fā)現(xiàn)這兩種掩碼比例下的準(zhǔn)確率相同。當(dāng)x1=100%且x2=100%時(shí),實(shí)驗(yàn)結(jié)果準(zhǔn)確率分別為52.6%、52.8%和51.9%,在三個(gè)數(shù)據(jù)集上的模型性能都非常差,本文認(rèn)為過(guò)高的掩碼比例會(huì)破壞圖文本表示的信息,造成了模型性能的下降。

結(jié)合表1和表4可以發(fā)現(xiàn),不同數(shù)據(jù)集的最佳掩碼比例是不同的,本文認(rèn)為不同數(shù)據(jù)集最佳掩碼比例的不同和樣本量、文本平均長(zhǎng)度有關(guān)。在數(shù)據(jù)集樣本量方面,今日頭條的樣本量最大,而SougoCS數(shù)量最少。在文本平均長(zhǎng)度方面, SougoCS平均長(zhǎng)度最大,THUCNews平均長(zhǎng)度最短。其原因如下: 當(dāng)文本平均長(zhǎng)度越小時(shí),文本圖中被掩碼的節(jié)點(diǎn)越多,反而會(huì)破壞圖結(jié)構(gòu)所包含的信息,造成孤立的圖節(jié)點(diǎn),導(dǎo)致模型無(wú)法捕捉到節(jié)點(diǎn)間關(guān)系,因此模型性能會(huì)有所下降。而當(dāng)樣本量大時(shí),被選中掩碼的樣本比例上升可以緩解過(guò)平滑并提高模型的擬合能力。綜上所述,不同的樣本量以及文本平均長(zhǎng)度會(huì)影響不同數(shù)據(jù)集的最佳掩碼比例。

實(shí)驗(yàn)結(jié)果表明,當(dāng)掩碼比例過(guò)高或者過(guò)低時(shí),分類準(zhǔn)確率都會(huì)有所下降,不同程度的掩碼比例會(huì)抑制圖卷積網(wǎng)絡(luò)的過(guò)平滑現(xiàn)象,從而影響模型分類效果。

3.6 文本圖研究

為了探究本文設(shè)計(jì)的三種文本圖對(duì)文本分類準(zhǔn)確率的影響,本文在MaskGCN模型的基礎(chǔ)上,保留其中的部分文本圖模塊在三個(gè)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表5所示。

表5 文本圖對(duì)分類準(zhǔn)確率的影響 (單位: %)

從表5可以發(fā)現(xiàn),單張文本圖在MaskGCN模型上基本能保持較好的文本分類效果,而句法文本圖、單詞文本圖和短語(yǔ)文本圖的結(jié)合可以捕捉到多粒度的語(yǔ)義信息,從而獲得更好的模型分類性能。

4 總結(jié)

針對(duì)卷積網(wǎng)絡(luò)過(guò)平滑的問(wèn)題,本文提出了一種融合掩碼機(jī)制的圖卷積文本分類模型,將掩碼機(jī)制引入圖結(jié)構(gòu),并通過(guò)實(shí)驗(yàn)證明掩碼機(jī)制能有效提高模型性能和抑制過(guò)平滑問(wèn)題。此外,本文構(gòu)建了三種不同粒度的文本圖來(lái)獲取多層次的文本信息,并使用全局共享矩陣動(dòng)態(tài)更新文本圖,從而使模型捕捉更深層次的文本圖信息。

通過(guò)在三個(gè)中文數(shù)據(jù)集上的實(shí)驗(yàn),本文證明了本文模型對(duì)于文本分類任務(wù)的有效性。同時(shí),實(shí)驗(yàn)也證明融合掩碼機(jī)制的圖卷積網(wǎng)絡(luò)能有效抑制過(guò)平滑現(xiàn)象,并且探索了不同掩碼比例下的分類效果。

猜你喜歡
掩碼卷積單詞
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
單詞連一連
從濾波器理解卷積
低面積復(fù)雜度AES低熵掩碼方案的研究
看圖填單詞
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計(jì)*
看完這些單詞的翻譯,整個(gè)人都不好了
基于掩碼的區(qū)域增長(zhǎng)相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究