国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于動(dòng)態(tài)損失函數(shù)的遠(yuǎn)程監(jiān)督關(guān)系抽取

2021-03-13 06:00彭正陽(yáng)于碧輝
關(guān)鍵詞:權(quán)重卷積向量

彭正陽(yáng),呂 立,于碧輝

1(中國(guó)科學(xué)院大學(xué),北京 100049)

2(中國(guó)科學(xué)院 沈陽(yáng)計(jì)算技術(shù)研究所,沈陽(yáng) 110168)

1 引 言

關(guān)系抽取是信息抽取中的一項(xiàng)重要工作,其目的是抽取句子中標(biāo)記實(shí)體對(duì)之間的關(guān)系.關(guān)系抽取屬于構(gòu)建知識(shí)圖譜的關(guān)鍵步驟,且已經(jīng)廣泛應(yīng)用于自動(dòng)摘要、問(wèn)答系統(tǒng)及檢索系統(tǒng)中.

傳統(tǒng)的監(jiān)督方法需要大量的人工勞動(dòng)來(lái)標(biāo)記原始數(shù)據(jù),價(jià)格昂貴且耗費(fèi)時(shí)間.因此,Mintz等人[1]在2009年提出了遠(yuǎn)程監(jiān)督.遠(yuǎn)程監(jiān)督的描述如下:如果知識(shí)庫(kù)中兩個(gè)實(shí)體表達(dá)了一個(gè)關(guān)系,那么任何包含這兩個(gè)實(shí)體的句子都可以表達(dá)這種關(guān)系.遠(yuǎn)程監(jiān)督是一種快速、有效的對(duì)大量數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注的方法.然而,這種假設(shè)太過(guò)強(qiáng)烈,容易導(dǎo)致錯(cuò)誤標(biāo)注.因?yàn)槟尘渲刑岬降膬蓚€(gè)實(shí)體,它們之間的關(guān)系可能并不是知識(shí)庫(kù)中對(duì)應(yīng)的關(guān)系.

為了解決錯(cuò)誤標(biāo)注問(wèn)題,2015年,Zeng等人[2]對(duì)于每個(gè)實(shí)體對(duì),選擇數(shù)據(jù)集中最有可能表達(dá)該實(shí)體對(duì)對(duì)應(yīng)關(guān)系的一個(gè)句子作為代表來(lái)進(jìn)行訓(xùn)練,這必然會(huì)遺漏一些有價(jià)值的信息.2016年,Lin等人[3]對(duì)一個(gè)實(shí)體對(duì)對(duì)應(yīng)的所有句子進(jìn)行基于注意力機(jī)制的權(quán)值計(jì)算,通過(guò)對(duì)錯(cuò)誤的句子進(jìn)行降權(quán)處理來(lái)減少錯(cuò)誤標(biāo)注帶來(lái)的不良影響.2017年,Ji等人[4]通過(guò)將更多有用的實(shí)體信息引入到注意力權(quán)重的計(jì)算中,來(lái)提高注意力機(jī)制的效果.然而,仍然存在一些噪音句子被賦予很大的權(quán)重,并且大量簡(jiǎn)單句子累計(jì)的權(quán)重也影響到模型的效果.

本文提出了一種動(dòng)態(tài)損失函數(shù),根據(jù)訓(xùn)練過(guò)程中交叉熵?fù)p失分布情況,動(dòng)態(tài)改變損失函數(shù)中每個(gè)樣本的權(quán)值,使得錯(cuò)誤標(biāo)注的樣本和大量簡(jiǎn)單的樣本權(quán)重降低.如圖1中左圖所示,本文對(duì)每個(gè)mini-batch中樣本的交叉熵?fù)p失分布進(jìn)行了統(tǒng)計(jì).如圖1中右圖所示,為了便于計(jì)算且更加清晰,本文通過(guò)雙曲正切函數(shù)(tanh)對(duì)損失值進(jìn)行了歸一化,并把橫軸從0到1均勻分割成了M個(gè)區(qū)間,縱軸為每個(gè)區(qū)間內(nèi)樣本的數(shù)量.其中左側(cè)損失非常小的樣本數(shù)量較多,它們屬于大量的簡(jiǎn)單樣本,而最右側(cè)交叉熵?fù)p失過(guò)大且數(shù)量突然增加的,屬于錯(cuò)誤標(biāo)注或難以學(xué)習(xí)的樣本.本文根據(jù)每個(gè)區(qū)間的樣本密度,在損失函數(shù)中對(duì)不同樣本賦予不同的權(quán)重,再根據(jù)增加了權(quán)重的損失函數(shù)進(jìn)行訓(xùn)練.某些情況下,異常樣本的數(shù)量非常小或損失值非常大,會(huì)導(dǎo)致簡(jiǎn)單樣本的權(quán)值減少很多,而異常值的權(quán)重卻減少的很少.因此,本文將交叉熵?fù)p失值最高的N個(gè)樣本的權(quán)重系數(shù)置為0,其中N要取相對(duì)較小的值,如果設(shè)置的過(guò)大,困難樣本將不被學(xué)習(xí),而且保留少量的噪聲作為干擾有利于提升模型的效果.

圖1 交叉熵?fù)p失在mini-batch中的分布Fig. 1 Distribution of cross-entropy loss in a mini-batch

本文的主要貢獻(xiàn)如下:

1)本文提出了一種根據(jù)每個(gè)mini-batch中訓(xùn)練樣本的交叉熵?fù)p失分布而動(dòng)態(tài)改變樣本權(quán)重的新的損失函數(shù).

2)本文將動(dòng)態(tài)損失函數(shù)應(yīng)用于遠(yuǎn)程監(jiān)督關(guān)系提取任務(wù),并在NYT-Freebase公共數(shù)據(jù)集上取得了優(yōu)于基線的結(jié)果.

3)本文的方法是與模型無(wú)關(guān)的,可以應(yīng)用于其他任務(wù)的模型中.

2 相關(guān)工作

在關(guān)系抽取任務(wù)中,有監(jiān)督關(guān)系抽取是最常用的方法.Zelenko等人[5]及zhou等人[6],利用全監(jiān)督模型進(jìn)行關(guān)系提取.但人工標(biāo)注語(yǔ)料嚴(yán)重缺乏,為了解決這一問(wèn)題,Mintz等人[1]在2009年提出使用遠(yuǎn)程監(jiān)督來(lái)自動(dòng)標(biāo)記數(shù)據(jù).然而,遠(yuǎn)程監(jiān)督必然伴隨著貼錯(cuò)標(biāo)簽的問(wèn)題.為了緩解這一不足,Riedel等人[7]在2010年提出多實(shí)例單標(biāo)簽方法.隨后,Hoffmann等人[8]和Surdeanu等人[9]提出了多實(shí)例多標(biāo)簽的方法.

近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,越來(lái)越多的研究在遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)中使用神經(jīng)網(wǎng)絡(luò),莊傳志等人[10]的綜述概括了神經(jīng)網(wǎng)絡(luò)在關(guān)系抽取上的發(fā)展歷程.2014年,Zeng等人[11]首次應(yīng)用了基于CNN的方法,自動(dòng)的獲取了相關(guān)的詞匯和句子級(jí)特征.2015年,Zeng等人[2]提出了具有多實(shí)例學(xué)習(xí)的分段最大池化卷積神經(jīng)網(wǎng)絡(luò)(PCNN).Lin等人[3]在PCNN的基礎(chǔ)上引入了句子層注意力機(jī)制,并充分利用語(yǔ)料中所有包含兩個(gè)實(shí)體對(duì)的句子.為了提高注意力機(jī)制的表現(xiàn),一些論文使用了知識(shí)庫(kù)的信息,如:Zeng等人[12];Ji等人[4];Han等人[13].在模型創(chuàng)新上,宋睿等人[14]采用了卷積循環(huán)神經(jīng)網(wǎng)絡(luò).此外,強(qiáng)化學(xué)習(xí)和對(duì)抗學(xué)習(xí)也開(kāi)始被應(yīng)用于遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)中,如:Feng等人[15]以及Qin等人[16]的研究.對(duì)于噪聲標(biāo)簽,Liu等人[17]提出了軟標(biāo)簽方法,葉育鑫等人[18]采用噪聲觀測(cè)模型和神經(jīng)網(wǎng)絡(luò)結(jié)合的方式來(lái)降低錯(cuò)誤標(biāo)簽影響.

關(guān)于損失函數(shù),Lin等人[19]在2017年提出了Focal Loss,通過(guò)將交叉熵?fù)p失函數(shù)矯正到設(shè)計(jì)的形式來(lái)解決大量簡(jiǎn)單樣本的問(wèn)題.然而,F(xiàn)ocal Loss有兩個(gè)難以調(diào)整的參數(shù).并且它不能動(dòng)態(tài)地改變參數(shù).此外,2019年,Wang等人[20]提出了對(duì)稱交叉熵?fù)p失函數(shù).

3 關(guān)系抽取模型

本文提出的基于動(dòng)態(tài)損失函數(shù)的遠(yuǎn)程監(jiān)督關(guān)系抽取模型結(jié)構(gòu)如圖2所示.首先在embedding層,采用詞向量模型將文本轉(zhuǎn)化成向量形式,并與位置向量拼接作為模型的輸入,對(duì)應(yīng)圖2中的Vector Presentation部分;然后在卷積層通過(guò)卷積運(yùn)算抽取出文本的特征并通過(guò)分段最大池化層來(lái)保留顯著特征;接下來(lái)是Attention層,將卷積并池化后的句子向量與關(guān)系向量進(jìn)行相關(guān)性計(jì)算,來(lái)構(gòu)建注意力機(jī)制,降低錯(cuò)誤標(biāo)注的權(quán)重;最后通過(guò)采用動(dòng)態(tài)損失函數(shù)的分類層輸出關(guān)系的類別.該模型與其他神經(jīng)網(wǎng)絡(luò)模型的不同之處在于使用了動(dòng)態(tài)損失函數(shù),在模型訓(xùn)練時(shí),先計(jì)算當(dāng)前批次的訓(xùn)練數(shù)據(jù)的損失分布來(lái)確定每個(gè)樣本的權(quán)重系數(shù)β,然后使用增加了動(dòng)態(tài)權(quán)重系數(shù)的損失函數(shù)來(lái)進(jìn)行模型訓(xùn)練,降低錯(cuò)誤標(biāo)注和簡(jiǎn)單樣本的影響.

圖2 基于動(dòng)態(tài)損失函數(shù)的遠(yuǎn)程監(jiān)督關(guān)系抽取模型Fig. 2 Distant supervision relation extraction model of dynamic loss function

3.1 Embedding層

Embedding層將句子文本中的每個(gè)詞轉(zhuǎn)換為對(duì)應(yīng)的向量形式.

3.1.1 詞向量

詞向量其目的是將單詞轉(zhuǎn)換成分布式表示,以表達(dá)單詞的語(yǔ)法和語(yǔ)義信息.本文使用了Mikolov等人[21]提出的Skip-gram模型來(lái)訓(xùn)練詞向量.

3.1.2 位置向量

位置向量由Zeng等人[11]在2014年提出.它被定義為當(dāng)前詞到兩個(gè)實(shí)體的相對(duì)距離,并用兩個(gè)向量來(lái)表示這兩個(gè)距離.關(guān)系抽取任務(wù)中,越靠近實(shí)體對(duì)的詞對(duì)關(guān)系類別的影響越大,因此,添加位置向量的表示,比單純?cè)~向量包含更多有價(jià)值的信息.

最后,將詞向量和位置向量拼接起來(lái)作為模型的輸入.假設(shè)詞向量的維度是k_w,位置向量的維度是k_d,則每個(gè)詞最終的向量化表示的維度為k=k_w+2×k_d.

3.2 卷積層

卷積是一種矩陣間的運(yùn)算.假設(shè)矩陣A=(aij)m×n,矩陣B=(bij)m×n,卷積計(jì)算公式如下.

(1)

通過(guò)Embedding層,對(duì)于長(zhǎng)度為n的句子,可以獲得由詞向量組成的矩陣X=[x1,x2,…,xn].選定一組卷積核W={w1,w2,…,wm},w∈Rl×d,其中l(wèi)是卷積核的大小,d是詞向量的維度.然后,經(jīng)過(guò)m個(gè)卷積核的滑動(dòng)卷積操作,得到卷積后的特征矩陣C=[c1,c2,…,cm].

3.3 分段最大池化層

分段最大池化操作是由Zeng等人[2]在2015年提出的,根據(jù)兩個(gè)實(shí)體將一個(gè)句子劃分為3個(gè)片段,并分別在3個(gè)片段中分別執(zhí)行max pooling.

根據(jù)實(shí)體的位置將卷積后的向量分割成3部分ci=[ci1,ci2,ci3],最大池化分別在每段句子上取最大值:pi1=max(ci1),pi2=max(ci2),pi3=max(ci3).每個(gè)卷積核得到的結(jié)果通過(guò)分段最大池化操作得到pi=[pi1,pi2,pi3],最后,把所有的分段最大池化的結(jié)果進(jìn)行拼接得到句子低維向量編碼p∈R3m.

3.4 Attention層

在獲得句子表征后,本文采用Lin等人[3]在2016年提出的句子層面的注意力機(jī)制.同一實(shí)體對(duì)的所有句子的集合稱為一個(gè)包,注意力機(jī)制通過(guò)計(jì)算包中每個(gè)句子最大池化后得到的向量與預(yù)測(cè)關(guān)系的向量的相關(guān)程度得到權(quán)重系數(shù),通過(guò)權(quán)重系數(shù)來(lái)降低噪聲的影響.設(shè)S是一個(gè)包含n個(gè)句子的包,S={p1,p2,…,pn}.具體計(jì)算公式如下.

(2)

(3)

其中,A為隨機(jī)初始化的權(quán)重對(duì)角矩陣,r為關(guān)系的向量表示,α為每個(gè)句子的權(quán)重系數(shù),S為Attention層的輸出結(jié)果.

3.5 動(dòng)態(tài)損失函數(shù)

目前采用的多實(shí)例學(xué)習(xí)的目的是區(qū)分包而不是句子,本文的模型結(jié)果的預(yù)測(cè)概率公式定義為.

(4)

其中nr為關(guān)系的總數(shù),W為關(guān)系的矩陣表示,S為一個(gè)包,b為偏置向量.

在訓(xùn)練過(guò)程中,目標(biāo)是最小化交叉熵?fù)p失函數(shù).本文使用交叉熵定義動(dòng)態(tài)損失函數(shù)公式如下.

(5)

其中q是mini-batch的大小,θ是模型中所有的參數(shù),βi是的Si權(quán)重,權(quán)重是動(dòng)態(tài)的變化,在不同輪次,不同的mini-batch中的β是不同的.

本文采用mini-batch梯度下降來(lái)最小化目標(biāo)函數(shù).它通過(guò)從訓(xùn)練集中隨機(jī)選擇一個(gè)小批數(shù)據(jù)來(lái)進(jìn)行迭代訓(xùn)練,直到模型收斂為止.動(dòng)態(tài)損失權(quán)重β的計(jì)算過(guò)程如下:

1.計(jì)算mini-batch中每個(gè)訓(xùn)練樣本的交叉熵?fù)p失值.

2.通過(guò)雙曲正切函數(shù)(tanh)將所有樣本的損失值進(jìn)行歸一化.

3.將0-1的區(qū)間劃分成M個(gè)相等的區(qū)間,計(jì)算每個(gè)區(qū)間的長(zhǎng)度e=1/M.

4.統(tǒng)計(jì)歸一化后的損失值落在每個(gè)區(qū)間內(nèi)的樣本的個(gè)數(shù)Ri.

5.計(jì)算每個(gè)區(qū)間的樣本密度Di=(Ri+1)/e,采用加1來(lái)平滑數(shù)據(jù),避免密度為0.

6.根據(jù)每個(gè)樣本的所處區(qū)間,得到其對(duì)應(yīng)的權(quán)重系數(shù)βi=1/Di.

根據(jù)上述步驟可以得出如下計(jì)算公式.

(6)

(7)

由于對(duì)所有的樣本都增加個(gè)一個(gè)小于1的權(quán)重,這會(huì)導(dǎo)致模型收斂速度變慢,因此需要乘以一個(gè)系數(shù)γ,γ的值取為mini-batch的大小q.當(dāng)M取值為1或M把每個(gè)樣本劃分為一個(gè)區(qū)間時(shí),若不采用平滑,則動(dòng)態(tài)損失函數(shù)等價(jià)于原始損失函數(shù).動(dòng)態(tài)損失函數(shù)的最終形式如下.

(8)

特殊情況下,交叉熵?fù)p失值較大的樣本數(shù)量非常少或者某個(gè)樣本的交叉熵?fù)p失值非常大,會(huì)導(dǎo)致簡(jiǎn)單樣本的權(quán)值減少的很多,而異常樣本的權(quán)重減少的很少.本文采用將交叉熵?fù)p失值最高的N個(gè)樣本的權(quán)重系數(shù)置為0的方式,來(lái)避免這個(gè)問(wèn)題.

對(duì)于每個(gè)mini-batch,經(jīng)過(guò)計(jì)算后各區(qū)間的權(quán)重系數(shù)βi的分布情況如圖3所示.

圖3 各個(gè)區(qū)間的權(quán)重分布Fig.3 Weight of each region

此外,為了增加模型的泛化能力,并降低過(guò)擬合的影響,本文使用Dropout[22]作為正則化方法,優(yōu)化遠(yuǎn)程監(jiān)督關(guān)系抽取模型.

4 實(shí) 驗(yàn)

4.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

本文采用Riedel[7]于2010年生成的一個(gè)廣泛應(yīng)用于遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)的數(shù)據(jù)集對(duì)模型進(jìn)行評(píng)估.它將Freebase知識(shí)庫(kù)中的實(shí)體對(duì)與紐約時(shí)報(bào)(NYT)語(yǔ)料庫(kù)對(duì)齊.以2005-2006年新聞中的句子作為訓(xùn)練數(shù)據(jù),2007年新聞中的句子作為測(cè)試數(shù)據(jù).訓(xùn)練集有522,611個(gè)句子,281,270個(gè)實(shí)體對(duì),18,252個(gè)關(guān)系事實(shí).測(cè)試集有172,448個(gè)句子,96,678個(gè)實(shí)體對(duì)和1,950個(gè)有關(guān)系事實(shí).數(shù)據(jù)集包含53個(gè)關(guān)系,包括一個(gè)特殊的關(guān)系NA,它表示實(shí)體對(duì)之間的關(guān)系是不可用的.

本文采用與Lin等人[3]一致的評(píng)估方法,采用held-out來(lái)評(píng)估本文的模型.本實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo)采用準(zhǔn)確率-召回率(PR)曲線和平均準(zhǔn)確率(P@N),通過(guò)對(duì)比平均準(zhǔn)確率以及PR曲線來(lái)評(píng)估模型的性能.

4.2 參數(shù)設(shè)置

為了將本文實(shí)驗(yàn)結(jié)果與其他基線結(jié)果更好進(jìn)行比較,本文使用與Lin等人[3]相同的參數(shù)進(jìn)行實(shí)驗(yàn)驗(yàn)證.表1列出了本文模型在實(shí)驗(yàn)中使用的超參數(shù).對(duì)于區(qū)間個(gè)數(shù)M和權(quán)重置零個(gè)數(shù)N,本文設(shè)置M的取值集合為{5,10,20,30},N的取值集合為{1,3,5,7},當(dāng)M值設(shè)為20,N值設(shè)為3時(shí)獲得最優(yōu)解.

表1 超參數(shù)設(shè)置Table 1 Parameter settings

4.3 實(shí)驗(yàn)結(jié)果及分析

4.3.1 本文方法與現(xiàn)有方法比較

為評(píng)估本文提出模型的效果,本文選擇了以下有代表性的模型進(jìn)行比較:

Mintz:Mintz等人[1]首次提出的遠(yuǎn)程監(jiān)督模型.

MultiR:Hoffmann等人[8]提出的一個(gè)多實(shí)例學(xué)習(xí)方法的關(guān)系抽取模型.

MIML:Surdeanu等人[9]提出的一個(gè)多實(shí)例多標(biāo)簽的關(guān)系抽取模型.

PCNN+ONE:Zeng等人[2]提出一種分段最大池化的卷積神經(jīng)網(wǎng)絡(luò)(PCNN).在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上按實(shí)體位置將特征分成三段進(jìn)行池化并結(jié)合多實(shí)例學(xué)習(xí)的關(guān)系抽取模型.

PCNN+ATT:Lin等人[3]提出的關(guān)系抽取模型.在PCNN基礎(chǔ)上增加了注意力機(jī)制,減少噪聲標(biāo)簽的影響.

以上5種模型與本文提出模型的準(zhǔn)確率-召回率(PR)曲線對(duì)比情況如圖4所示.

圖4 不同模型的PR曲線Fig.4 PR curves of different methods

從圖4的PR曲線可以看出,PCNN模型的結(jié)果顯著優(yōu)于傳統(tǒng)的基于特征的方法,因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型可以自動(dòng)的抽取出句子特征,可以避免人工特征選擇及NLP工具導(dǎo)致的錯(cuò)誤傳播問(wèn)題.分段最大池化的卷積神經(jīng)網(wǎng)絡(luò)模型(PCNN)可以通過(guò)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)抽取特征,并選擇出不同部分重要的特征,因此取得了較大提高.增加了注意力機(jī)制的模型(PCNN+ATT)比傳統(tǒng)的每個(gè)包中選擇一個(gè)句子的模型(PCNN+ONE)稍好一些,表明注意力機(jī)制可以削弱噪聲標(biāo)簽的影響,對(duì)于關(guān)系抽取結(jié)果的提升有一定的促進(jìn)作用.

相較于PCNN+ONE及PCNN+ATT模型,本文提出的模型增加了動(dòng)態(tài)損失函數(shù)(DLF)并將前N大損失的樣本權(quán)值設(shè)置為0(TN0),結(jié)果明顯優(yōu)于先前的模型.雖然PCNN+ATT在關(guān)系抽取方面功能強(qiáng)大,但是要處理所有的數(shù)據(jù)噪聲仍然很困難.本文提出的方法在原有模型的基礎(chǔ)上,進(jìn)一步削弱了噪聲數(shù)據(jù)的影響,并且降低了大量簡(jiǎn)單樣本的影響,從而有效提高了模型的抽取效果.

4.3.2 本文方法的效果分析

本文將動(dòng)態(tài)損失函數(shù)分別添加到PCNN+ONE模型和PCNN+ATT模型.并對(duì)增加了DLF和TN0的模型分別進(jìn)行了實(shí)驗(yàn).

從圖5和圖6可得出如下結(jié)論:

圖5 PCNN+ONE模型的PR曲線Fig.5 PR curves of PCNN+ONE

圖6 PCNN+ATT模型的PR曲線Fig.6 PR curves of PCNN+ATT

1)對(duì)于PCNN+ATT和PCNN+ONE,增加DLF方法的結(jié)果都優(yōu)于原模型.DLF減少了過(guò)于簡(jiǎn)單的大量樣本和某些噪聲樣本的權(quán)值.

2)對(duì)于PCNN+ATT和PCNN+ONE,增加TN0的結(jié)果均優(yōu)于原模型.這表明,具有較大交叉熵?fù)p失的樣本可能是噪聲或難以學(xué)習(xí)的樣本,TN0降低了它們的權(quán)重.

3)對(duì)于PCNN+ONE,增加TN0的結(jié)果明顯優(yōu)于增加DLF的結(jié)果.而對(duì)于PCNN+ATT,兩種方法的性能接近.這意味著PCNN+ONE中的噪聲樣本比PCNN+ATT中的噪聲樣本影響更大,因?yàn)樽⒁饬C(jī)制在一定程度上降低了噪聲樣本的影響.

4)對(duì)于PCNN+ATT和PCNN+ONE,同時(shí)增加DLF和TN0的模型均優(yōu)于其他模型,說(shuō)明兩種方法可以疊加使用.因?yàn)樵谠黾恿薉FL之后,一些有噪聲的樣本仍然有較大的權(quán)值,而增加TN0方法可以消除它們的影響.

4.3.3 P@N準(zhǔn)確率比較

根據(jù)之前的工作,本文采用了P@N來(lái)比較本文提出的模型和基線模型.從表2中可以看出:對(duì)于PCNN+ONE和PCNN+ATT模型,本文的方法較先前方法可以提高了10%以上的精度.結(jié)果表明,本文提出的基于動(dòng)態(tài)損失函數(shù)的模型是有效的,不管是否已經(jīng)使用了注意力機(jī)制,平均準(zhǔn)確率均優(yōu)于對(duì)比模型.

表2 平均準(zhǔn)確率P@NTable 2 P@N for relation extraction

5 結(jié) 語(yǔ)

本文以遠(yuǎn)程監(jiān)督關(guān)系抽取為研究對(duì)象,通過(guò)對(duì)損失分布情況的分析,提出了一個(gè)用于遠(yuǎn)程監(jiān)控關(guān)系提取的動(dòng)態(tài)損失函數(shù),來(lái)解決遠(yuǎn)程監(jiān)督造成的錯(cuò)誤標(biāo)注問(wèn)題.該方法根據(jù)交叉熵?fù)p失的分布來(lái)動(dòng)態(tài)改變樣本的權(quán)重,降低了簡(jiǎn)單樣本和噪聲樣本的權(quán)重.實(shí)驗(yàn)結(jié)果表明,本文提出的方法適用于遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù),能夠有效提升遠(yuǎn)程監(jiān)督關(guān)系抽取模型的效果.在未來(lái)的工作中,考慮解決模型訓(xùn)練前期不穩(wěn)定的問(wèn)題,并嘗試將本文提出的方法應(yīng)用于其他自然語(yǔ)言處理任務(wù)中.

猜你喜歡
權(quán)重卷積向量
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
權(quán)重望寡:如何化解低地位領(lǐng)導(dǎo)的補(bǔ)償性辱虐管理行為?*
向量的分解
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
聚焦“向量與三角”創(chuàng)新題
權(quán)重常思“浮名輕”
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
權(quán)重漲個(gè)股跌 持有白馬藍(lán)籌
朔州市| 遂川县| 安平县| 台安县| 黄陵县| 武汉市| 吉林省| 鄯善县| 顺昌县| 宣武区| 文登市| 库尔勒市| 宁陵县| 孟州市| 平定县| 无为县| 黄平县| 和静县| 黔南| 紫阳县| 卢龙县| 赞皇县| 中卫市| 大兴区| 淳化县| 平江县| 普兰店市| 肥东县| 伊宁市| 洛阳市| 吐鲁番市| 琼结县| 河间市| 登封市| 莫力| 扎兰屯市| 新宁县| 邻水| 竹溪县| 阳谷县| 绥芬河市|