国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用類(lèi)型語(yǔ)義表示進(jìn)行標(biāo)簽降噪的細(xì)粒度實(shí)體分類(lèi)①

2024-03-20 08:21:40席鵬弼靳小龍程學(xué)旗
高技術(shù)通訊 2024年2期
關(guān)鍵詞:細(xì)粒度實(shí)體語(yǔ)義

席鵬弼 靳小龍 白 碩 程學(xué)旗

(*中國(guó)科學(xué)院計(jì)算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室 北京 100190)

(**中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 北京 100408)

(***恒生電子股份有限公司 杭州 310053)

隨著人工智能技術(shù)的興起,各類(lèi)應(yīng)用系統(tǒng)需要構(gòu)建更多語(yǔ)義較為精確的領(lǐng)域知識(shí)圖譜。細(xì)粒度實(shí)體分類(lèi)(fine-grained entity typing,FET)任務(wù)為實(shí)體確定若干個(gè)樹(shù)形結(jié)構(gòu)的、語(yǔ)義信息更為精確的類(lèi)型,在領(lǐng)域知識(shí)圖譜構(gòu)建過(guò)程中發(fā)揮著關(guān)鍵的作用。

在細(xì)粒度實(shí)體分類(lèi)任務(wù)中,知識(shí)圖譜構(gòu)建中預(yù)先定義的細(xì)粒度類(lèi)型通常比較多,如FIGER 數(shù)據(jù)集[1]有112 個(gè)類(lèi)型、文獻(xiàn)[2]構(gòu)建的數(shù)據(jù)集有505個(gè)類(lèi)型。同時(shí),細(xì)粒度類(lèi)型之間存在著樹(shù)形層級(jí)結(jié)構(gòu)關(guān)系,在語(yǔ)義上并不完全互斥[3],信息粒度比命名實(shí)體抽取任務(wù)的類(lèi)型更細(xì)[4]。人工標(biāo)注訓(xùn)練數(shù)據(jù)需要花費(fèi)更長(zhǎng)的時(shí)間理解實(shí)體及上下文信息及細(xì)粒度類(lèi)型的信息,因此通過(guò)人工標(biāo)注訓(xùn)練數(shù)據(jù)方法形成該任務(wù)的訓(xùn)練數(shù)據(jù)成本高,難以滿(mǎn)足應(yīng)用對(duì)訓(xùn)練數(shù)據(jù)的需求[5]。當(dāng)前通用的方法是采用知識(shí)庫(kù)遠(yuǎn)程監(jiān)督生成訓(xùn)練數(shù)據(jù)[6]。例如,該任務(wù)公開(kāi)的數(shù)據(jù)集BBN、OntoNotes、Wiki、DBpedia 普遍采用知識(shí)庫(kù)Freebase、Wikipedia 和DBpedia 中實(shí)體的細(xì)粒度類(lèi)型遠(yuǎn)程監(jiān)督生成[4,7-8]。遠(yuǎn)程監(jiān)督方法[4]先采用實(shí)體鏈接算法,將文本中標(biāo)注的實(shí)體鏈接到知識(shí)庫(kù)中,如Freebase、DBpedia 等;接著通過(guò)知識(shí)庫(kù)中實(shí)體的細(xì)粒度類(lèi)型對(duì)文本中的實(shí)體進(jìn)行類(lèi)型標(biāo)注,形成訓(xùn)練數(shù)據(jù)。在這個(gè)過(guò)程中,由于知識(shí)庫(kù)中實(shí)體的細(xì)粒度類(lèi)型缺少細(xì)粒度類(lèi)型對(duì)應(yīng)的上下文信息,生成的訓(xùn)練數(shù)據(jù)中會(huì)標(biāo)注與實(shí)體所在的上下文中語(yǔ)義不相符的噪音細(xì)粒度實(shí)體類(lèi)型[9]。

現(xiàn)有考慮訓(xùn)練數(shù)據(jù)中噪音問(wèn)題的細(xì)粒度實(shí)體分類(lèi)研究存在對(duì)候選的細(xì)粒度實(shí)體類(lèi)型的分析不足的情況,為后續(xù)的模型學(xué)習(xí)帶來(lái)了在候選細(xì)粒度類(lèi)型集中選取噪音標(biāo)簽進(jìn)行細(xì)粒度實(shí)體分類(lèi)監(jiān)督學(xué)習(xí)的問(wèn)題。具體地,采用頻次刪除訓(xùn)練數(shù)據(jù)的標(biāo)注細(xì)粒度類(lèi)型中頻次較低細(xì)粒度類(lèi)型的方法,完全沒(méi)有考慮實(shí)體所在的上下文信息[10];模型訓(xùn)練中選擇預(yù)測(cè)概率最高的類(lèi)型作為訓(xùn)練數(shù)據(jù)唯一正確的細(xì)粒度類(lèi)型,帶來(lái)Confirmation bias 問(wèn)題[11],即當(dāng)模型預(yù)測(cè)概率最高的類(lèi)型為錯(cuò)誤類(lèi)型時(shí),后續(xù)的模型優(yōu)化過(guò)程中會(huì)在此基礎(chǔ)上持續(xù)最大化該錯(cuò)誤類(lèi)型的得分[12-13]。文獻(xiàn)[12]使用WordNet 外部詞典學(xué)習(xí)細(xì)粒度類(lèi)型文本的語(yǔ)義信息。因?yàn)橛?xùn)練數(shù)據(jù)中細(xì)粒度類(lèi)型的語(yǔ)義信息是對(duì)應(yīng)標(biāo)注實(shí)體及實(shí)體上下文的語(yǔ)義信息,不同來(lái)源的類(lèi)型其文本的語(yǔ)義信息不一定一致,難以有效降噪。

考慮訓(xùn)練數(shù)據(jù)中噪音問(wèn)題的細(xì)粒度實(shí)體分類(lèi)研究的主要難點(diǎn)有以下幾點(diǎn)。(1)細(xì)粒度實(shí)體分類(lèi)任務(wù)的數(shù)據(jù)集中缺少學(xué)習(xí)細(xì)粒度類(lèi)型集上所有類(lèi)型語(yǔ)義信息的數(shù)據(jù)。數(shù)據(jù)集只標(biāo)注了實(shí)體及其上下文和對(duì)應(yīng)的多個(gè)細(xì)粒度類(lèi)型,因可能出現(xiàn)和上下文不相符的標(biāo)簽情況,難以確定類(lèi)型和數(shù)據(jù)的對(duì)應(yīng)關(guān)系,甚至樹(shù)形結(jié)構(gòu)的細(xì)粒度類(lèi)型集中的部分類(lèi)型沒(méi)有訓(xùn)練數(shù)據(jù)。(2)樹(shù)形結(jié)構(gòu)的細(xì)粒度類(lèi)型之間在語(yǔ)義上并不完全獨(dú)立,存在語(yǔ)義上的包含關(guān)系,分類(lèi)模型難以學(xué)習(xí)到類(lèi)型之間的語(yǔ)義上的信息。(3)訓(xùn)練數(shù)據(jù)降噪過(guò)程使細(xì)粒度實(shí)體類(lèi)型的訓(xùn)練數(shù)據(jù)規(guī)模有較大減少,造成細(xì)粒度實(shí)體類(lèi)型的訓(xùn)練數(shù)據(jù)過(guò)少,細(xì)粒度類(lèi)型語(yǔ)義難以學(xué)習(xí)的問(wèn)題。本文對(duì)降噪處理前后的細(xì)粒度實(shí)體分類(lèi)任務(wù)常用的數(shù)據(jù)集對(duì)比統(tǒng)計(jì),結(jié)果發(fā)現(xiàn),常用數(shù)據(jù)集Wiki、OntoNotes 和BBN 的訓(xùn)練數(shù)據(jù)的總數(shù)分別減少了36%、29%和21%。

最近有研究通過(guò)訓(xùn)練數(shù)據(jù)中實(shí)體指稱(chēng)詞的表示學(xué)習(xí)部分細(xì)粒度實(shí)體類(lèi)型的表示[14],并構(gòu)建圖學(xué)習(xí)實(shí)體指稱(chēng)詞的特征。該研究說(shuō)明通過(guò)訓(xùn)練數(shù)據(jù)中的實(shí)體及上下文可以學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中對(duì)應(yīng)的細(xì)粒度類(lèi)型的表示。在知識(shí)推斷中可以用實(shí)體關(guān)系三元組學(xué)習(xí)實(shí)體的語(yǔ)義信息,同樣,可以用該任務(wù)訓(xùn)練數(shù)據(jù)生成過(guò)程中使用的知識(shí)庫(kù)中的細(xì)粒度實(shí)體類(lèi)型間關(guān)系三元組學(xué)習(xí)細(xì)粒度實(shí)體類(lèi)型的語(yǔ)義信息。

針對(duì)上述細(xì)粒度實(shí)體分析的難點(diǎn)問(wèn)題研究和技術(shù)的整理,本文提出實(shí)體類(lèi)型相似過(guò)濾細(xì)粒度實(shí)體分類(lèi)(entity type similarity filtering fine-grained entity typing,ETSF-FET)模型。該方法首先通過(guò)數(shù)據(jù)集中的具有唯一細(xì)粒度類(lèi)型路徑的數(shù)據(jù),基于ELMo 預(yù)訓(xùn)練模型學(xué)習(xí)數(shù)據(jù)中細(xì)粒度類(lèi)型的表示[15],結(jié)合細(xì)粒度類(lèi)型間的關(guān)系信息數(shù)據(jù)[16],學(xué)習(xí)預(yù)定義細(xì)粒度類(lèi)型集中剩下的細(xì)粒度類(lèi)型表示;然后對(duì)數(shù)據(jù)集中的噪音標(biāo)簽數(shù)據(jù),在候選細(xì)粒度類(lèi)型集中選取與實(shí)體的語(yǔ)義信息最相似的細(xì)粒度實(shí)體類(lèi)型作為監(jiān)督學(xué)習(xí)細(xì)粒度類(lèi)型;最后針對(duì)降噪處理造成的細(xì)粒度實(shí)體類(lèi)型的訓(xùn)練數(shù)據(jù)規(guī)模有較大減少的情況,設(shè)計(jì)相似實(shí)體上下文信息的語(yǔ)義聚合方法,補(bǔ)充細(xì)粒度實(shí)體類(lèi)型訓(xùn)練數(shù)據(jù)信息,從數(shù)據(jù)集層面學(xué)習(xí)更多的信息,建模實(shí)體在細(xì)粒度類(lèi)型集上的分類(lèi)模型。本文的主要貢獻(xiàn)概括如下。

(1)提出了細(xì)粒度實(shí)體分類(lèi)任務(wù)中通過(guò)訓(xùn)練數(shù)據(jù)中實(shí)體及上下文的嵌入表示、實(shí)體對(duì)應(yīng)的細(xì)粒度類(lèi)型、遠(yuǎn)程監(jiān)督知識(shí)庫(kù)中的細(xì)粒度類(lèi)型間關(guān)系進(jìn)行細(xì)粒度類(lèi)型嵌入表示的學(xué)習(xí)方法。

(2)針對(duì)訓(xùn)練數(shù)據(jù)降噪造成細(xì)粒度實(shí)體類(lèi)型的訓(xùn)練數(shù)據(jù)少的問(wèn)題,提出了基于語(yǔ)義聚合的細(xì)粒度實(shí)體類(lèi)型特征學(xué)習(xí)方法,通過(guò)數(shù)據(jù)集中相似實(shí)體及其上下文信息的語(yǔ)義聚合,學(xué)習(xí)細(xì)粒度實(shí)體類(lèi)型的語(yǔ)義特征。

(3)提出了基于細(xì)粒度類(lèi)型語(yǔ)義表示進(jìn)行訓(xùn)練數(shù)據(jù)標(biāo)簽降噪的細(xì)粒度實(shí)體分類(lèi)模型ETSF-FET。先采用前面提出的細(xì)粒度類(lèi)型嵌入表示的學(xué)習(xí)方法生成細(xì)粒度類(lèi)型的表示;接著通過(guò)實(shí)體和上下文信息的表示和細(xì)粒度類(lèi)型表示的相似度打分,為數(shù)據(jù)集中噪音數(shù)據(jù)選擇最符合實(shí)體上下文的細(xì)粒度類(lèi)型;然后采取前面提出的基于語(yǔ)義聚合的細(xì)粒度實(shí)體類(lèi)型特征學(xué)習(xí)方法學(xué)習(xí)語(yǔ)義信息;最后,用最符合實(shí)體上下文的細(xì)粒度類(lèi)型和基于語(yǔ)義聚合方法學(xué)習(xí)的語(yǔ)義信息訓(xùn)練細(xì)粒度實(shí)體分類(lèi)模型。

(4)用細(xì)粒度實(shí)體分類(lèi)任務(wù)的常用Wiki、OntoNotes、BBN 數(shù)據(jù)集,對(duì)ETSF-FET 方法進(jìn)行細(xì)粒度實(shí)體分類(lèi)實(shí)驗(yàn),性能指標(biāo)較當(dāng)前方法有所提升。表明通過(guò)ETSF-FET 方法有效地在候選類(lèi)型中選取了更符合上下文信息的細(xì)粒度類(lèi)型,達(dá)到提升細(xì)粒度實(shí)體分類(lèi)準(zhǔn)確率的效果。

1 相關(guān)工作

本文從訓(xùn)練數(shù)據(jù)降噪方法這個(gè)角度整理現(xiàn)有工作,具體有實(shí)體及上下文特征學(xué)習(xí)類(lèi)研究、細(xì)粒度類(lèi)型間關(guān)系信息應(yīng)用類(lèi)研究、數(shù)據(jù)集信息增強(qiáng)類(lèi)研究3 個(gè)方面的研究工作。

早期的研究人員主要關(guān)注實(shí)體及其上下文特征的學(xué)習(xí),通過(guò)訓(xùn)練數(shù)據(jù)學(xué)習(xí)細(xì)粒度類(lèi)型對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)的更多特征,采用學(xué)習(xí)到的特征,將細(xì)粒度類(lèi)型的表示映射到同一高維空間中,建模特征和類(lèi)型之間的相似性打分,選取細(xì)粒度類(lèi)型集中得分最好的類(lèi)型為預(yù)測(cè)類(lèi)型。文獻(xiàn)[17-19]通過(guò)訓(xùn)練數(shù)據(jù)生成使用的知識(shí)庫(kù)、訓(xùn)練數(shù)據(jù)中細(xì)粒度類(lèi)型的共現(xiàn)特征為細(xì)粒度類(lèi)型集上的所有類(lèi)型設(shè)計(jì)距離計(jì)算函數(shù),并將實(shí)體及上下文特征、細(xì)粒度類(lèi)型的表示映射到同一空間,根據(jù)實(shí)體及上下文和細(xì)粒度類(lèi)型的相似性打分,選取得分最高細(xì)粒度類(lèi)型進(jìn)行模型訓(xùn)練。文獻(xiàn)[20]采用長(zhǎng)短期記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)模型提取實(shí)體及上下文特征,并將細(xì)粒度類(lèi)型表示映射到相同空間,采用遷移學(xué)習(xí)方法,結(jié)合多個(gè)訓(xùn)練數(shù)據(jù)中獲取的實(shí)體及上下文特征進(jìn)行細(xì)粒度類(lèi)型相似度打分,選取得分高的細(xì)粒度類(lèi)型進(jìn)行模型訓(xùn)練。

隨著對(duì)問(wèn)題研究的深入,研究人員發(fā)現(xiàn)細(xì)粒度實(shí)體類(lèi)型間的樹(shù)形結(jié)構(gòu)信息可以用于訓(xùn)練數(shù)據(jù)降噪。文獻(xiàn)[21]先對(duì)實(shí)體指稱(chēng)詞進(jìn)行擴(kuò)展,采用雙向LSTM 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)實(shí)體上下文表示,結(jié)合正則化的層級(jí)損失函數(shù),利用細(xì)粒度類(lèi)型的樹(shù)形結(jié)構(gòu)關(guān)系,細(xì)粒度類(lèi)型的得分為細(xì)粒度類(lèi)型本身的得分與其所有祖先類(lèi)型的得分加和。通過(guò)細(xì)粒度類(lèi)型的得分在訓(xùn)練數(shù)據(jù)標(biāo)注類(lèi)型集中取得分最高的類(lèi)型進(jìn)行模型訓(xùn)練。文獻(xiàn)[22]采用雙向LSTM 學(xué)習(xí)實(shí)體及上下文表示的基礎(chǔ)上,同時(shí)用隨機(jī)行走算法建模細(xì)粒度類(lèi)型集的樹(shù)型結(jié)構(gòu)中的細(xì)粒度類(lèi)型之間關(guān)系信息,形成細(xì)粒度類(lèi)型在訓(xùn)練數(shù)據(jù)中的權(quán)重矩陣。具體來(lái)說(shuō),先將預(yù)定義細(xì)粒度類(lèi)型集通過(guò)補(bǔ)充虛擬節(jié)點(diǎn)規(guī)范化為只能將樹(shù)上的葉子節(jié)點(diǎn)作為候選類(lèi)型集;然后隨機(jī)初始化細(xì)粒度類(lèi)型標(biāo)簽的上下文相關(guān)權(quán)重;接著通過(guò)最大化隨機(jī)游走過(guò)程的預(yù)期回報(bào),對(duì)訓(xùn)練數(shù)據(jù)中標(biāo)注的所有細(xì)粒度類(lèi)型進(jìn)行權(quán)重調(diào)整,選取訓(xùn)練數(shù)據(jù)標(biāo)注類(lèi)型中具有最大權(quán)重的類(lèi)型作為正確類(lèi)型進(jìn)行監(jiān)督模型學(xué)習(xí)。

最近,研究人員采用數(shù)據(jù)集中實(shí)體及上下文的聚類(lèi)信息進(jìn)行訓(xùn)練數(shù)據(jù)降噪。文獻(xiàn)[23]采用原型網(wǎng)絡(luò)學(xué)習(xí)數(shù)據(jù)集中細(xì)粒度類(lèi)型的信息。文獻(xiàn)[24,25]先對(duì)多類(lèi)型的訓(xùn)練數(shù)據(jù)進(jìn)行聚類(lèi),借助聚類(lèi)方法從該部分訓(xùn)練數(shù)據(jù)中獲取部分語(yǔ)義信息。具體地,先將帶噪音標(biāo)簽的訓(xùn)練數(shù)據(jù)中的標(biāo)簽用指定值覆蓋,接著對(duì)實(shí)體及上下文中提取的特征進(jìn)行隱含語(yǔ)義壓縮聚類(lèi)。該方法在模型訓(xùn)練過(guò)程中既使用了帶噪音標(biāo)簽的訓(xùn)練數(shù)據(jù),又避免了訓(xùn)練數(shù)據(jù)中的噪音標(biāo)簽對(duì)模型學(xué)習(xí)的影響。文獻(xiàn)[26]提出了基于數(shù)據(jù)集實(shí)體上下文信息相似關(guān)系圖分類(lèi)方法。先通過(guò)訓(xùn)練數(shù)據(jù)和細(xì)粒度類(lèi)型的對(duì)應(yīng)關(guān)系計(jì)算部分細(xì)粒度類(lèi)型表示;接著在數(shù)據(jù)集上通過(guò)細(xì)粒度類(lèi)型的表示和實(shí)體指稱(chēng)詞上下文信息之間相似值,在超過(guò)閾值的實(shí)體指稱(chēng)詞之間建立相似關(guān)系,構(gòu)建相似關(guān)系圖。再對(duì)訓(xùn)練數(shù)據(jù)中的實(shí)體及上下文表示分2 階段處理,第1 階段基于實(shí)體指稱(chēng)詞之間的相似關(guān)系圖對(duì)基于ELmo 語(yǔ)音模型生成的實(shí)體指稱(chēng)詞的表示進(jìn)行特征提煉調(diào)優(yōu);第2 階段對(duì)提取的特征進(jìn)行多標(biāo)簽分類(lèi)。

本文參考了實(shí)體及上下文特征學(xué)習(xí)、細(xì)粒度類(lèi)型間關(guān)系信息應(yīng)用及數(shù)據(jù)集信息增強(qiáng)等方面的最新研究成果,設(shè)計(jì)了細(xì)粒度類(lèi)型語(yǔ)義表示的學(xué)習(xí)方法,將細(xì)粒度類(lèi)型的表示信息應(yīng)用于細(xì)粒度實(shí)體分類(lèi)任務(wù)的訓(xùn)練數(shù)據(jù)的標(biāo)簽降噪處理,并針對(duì)訓(xùn)練數(shù)據(jù)降噪造成的訓(xùn)練數(shù)據(jù)稀疏問(wèn)題,設(shè)計(jì)基于實(shí)體及上下文相似度的語(yǔ)義聚合方法增強(qiáng)訓(xùn)練數(shù)據(jù)中的細(xì)粒度類(lèi)型語(yǔ)義信息,進(jìn)行細(xì)粒度實(shí)體分類(lèi)。

2 模型介紹

本節(jié)提出一種利用細(xì)粒度類(lèi)型語(yǔ)義標(biāo)簽進(jìn)行標(biāo)簽降噪的細(xì)粒度實(shí)體分類(lèi)方法,該方法由訓(xùn)練數(shù)據(jù)降噪、信息聚合和細(xì)粒度實(shí)體分類(lèi)3 部分組成。

首先介紹模型中用到的各類(lèi)信息的數(shù)學(xué)表示。本文將實(shí)體指稱(chēng)詞所在的句子表示為s=w1,w2,…,wn;實(shí)體指稱(chēng)詞表示為m={wl,…,wr},其中l(wèi)、r分別為實(shí)體指稱(chēng)詞開(kāi)始和結(jié)束的位置。對(duì)于數(shù)據(jù)集中的第i個(gè)訓(xùn)練數(shù)據(jù)instancei,先用實(shí)體抽取方法識(shí)別出句子中的實(shí)體指稱(chēng)詞mi,接著通過(guò)實(shí)體鏈接方法將實(shí)體指稱(chēng)詞鏈接到知識(shí)庫(kù)中的實(shí)體ai,然后分配ai在知識(shí)庫(kù)中的細(xì)粒度類(lèi)型集Yi作為訓(xùn)練數(shù)據(jù)instancei中實(shí)體指稱(chēng)詞mi的細(xì)粒度類(lèi)型集。在形式上,一個(gè)標(biāo)注的數(shù)據(jù)集可以表示為三元組D={(mi,ci,Yi)},其中mi是數(shù)據(jù)集的第i個(gè)實(shí)體指稱(chēng)詞,ci是mi的上下文,Yi是mi的候選類(lèi)型集,數(shù)據(jù)集上所有的細(xì)粒度類(lèi)型形成細(xì)粒度類(lèi)型集T,其中Yi?T。為了對(duì)遠(yuǎn)程監(jiān)督方法標(biāo)注的細(xì)粒度類(lèi)型集進(jìn)行更近一步分析,將Yi中細(xì)粒度類(lèi)型路徑Y(jié)i,j的粒度最細(xì)的類(lèi)型表示為該細(xì)粒度類(lèi)型路徑的目標(biāo)類(lèi)型,Yi中所有類(lèi)型的目標(biāo)類(lèi)型構(gòu)成類(lèi)型集Yi的目標(biāo)類(lèi)型集遠(yuǎn)程監(jiān)督對(duì)訓(xùn)練語(yǔ)料進(jìn)行標(biāo)注時(shí),Yi有2 種可能。一種是Yi中的目標(biāo)類(lèi)型只包含細(xì)粒度類(lèi)型樹(shù)上的1 條路徑,即||=1。借鑒現(xiàn)有的研究成果,訓(xùn)練數(shù)據(jù)中的這類(lèi)標(biāo)注數(shù)據(jù)被視為干凈數(shù)據(jù),表示為Dclean={(mi,ci,Yi)},當(dāng)且僅當(dāng)||=1。另一種是Yi中的目標(biāo)類(lèi)型多于1 條,這類(lèi)數(shù)據(jù)被視為噪音數(shù)據(jù),表示為Dnoisy。為了學(xué)習(xí)實(shí)體的特征,考慮噪音問(wèn)題的細(xì)粒度實(shí)體分類(lèi)任務(wù)的挑戰(zhàn)就是訓(xùn)練數(shù)據(jù)中存在噪音數(shù)據(jù)情況下,如何利用標(biāo)注數(shù)據(jù)集獲得性能較好的細(xì)粒度實(shí)體分類(lèi)模型。

本文的模型框架如圖1 所示。從上到下依次分為訓(xùn)練數(shù)據(jù)降噪、類(lèi)型語(yǔ)義信息聚合和細(xì)粒度實(shí)體分類(lèi)3 個(gè)步驟。訓(xùn)練數(shù)據(jù)降噪包括細(xì)粒度類(lèi)型表示學(xué)習(xí)、基于實(shí)體和細(xì)粒度類(lèi)型語(yǔ)義相似度的細(xì)粒度類(lèi)型過(guò)濾。具體地,先通過(guò)預(yù)訓(xùn)練Elmo 語(yǔ)言模型得到實(shí)體指稱(chēng)詞的嵌入表示和實(shí)體上下文的嵌入表示,用訓(xùn)練集中干凈數(shù)據(jù)Dclean中實(shí)體和細(xì)粒度類(lèi)型的對(duì)應(yīng)關(guān)系進(jìn)行部分細(xì)粒度類(lèi)型的學(xué)習(xí)。再使用TransE模型的關(guān)系推理方法,通過(guò)遠(yuǎn)程監(jiān)督方法使用的知識(shí)庫(kù)獲取細(xì)粒度類(lèi)型之間關(guān)系relation,組成細(xì)粒度類(lèi)型關(guān)系三元組(headtype,relation,tailtype)信息,其中三元組的頭尾元素headtype∈T、tailtype∈T。對(duì)任務(wù)數(shù)據(jù)集預(yù)定義的細(xì)粒度類(lèi)型集上缺失嵌入表示的部分細(xì)粒度類(lèi)型進(jìn)行嵌入表示推理補(bǔ)全?;谶h(yuǎn)程監(jiān)督生成細(xì)粒度類(lèi)型中的正確類(lèi)型由實(shí)體的上下文語(yǔ)義信息決定的觀察,通過(guò)實(shí)體上下文信息和遠(yuǎn)程監(jiān)督方法標(biāo)注候選類(lèi)型集Yi中細(xì)粒度類(lèi)型嵌入表示之間的相似性度量,選取與實(shí)體上下文信息最相似的細(xì)粒度類(lèi)型為正確細(xì)粒度類(lèi)型,降低訓(xùn)練數(shù)據(jù)中的噪音細(xì)粒度類(lèi)型標(biāo)簽信息;針對(duì)現(xiàn)有工作在降噪中大量減少了細(xì)粒度類(lèi)型訓(xùn)練數(shù)據(jù)的問(wèn)題,本文采用了語(yǔ)義相似類(lèi)型信息聚合方法,通過(guò)訓(xùn)練數(shù)據(jù)集中相似信息聚合實(shí)體指稱(chēng)詞的細(xì)粒度類(lèi)型信息,增強(qiáng)實(shí)體指稱(chēng)詞特征中細(xì)粒度類(lèi)型語(yǔ)義信息,降低訓(xùn)練數(shù)據(jù)減少對(duì)實(shí)體指稱(chēng)詞特征學(xué)習(xí)的影響;最后進(jìn)行細(xì)粒度實(shí)體分類(lèi),采用為噪音數(shù)據(jù)選擇最符合實(shí)體上下文的細(xì)粒度類(lèi)型的訓(xùn)練數(shù)據(jù),結(jié)合信息聚合增強(qiáng)細(xì)粒度類(lèi)型語(yǔ)義信息的實(shí)體指稱(chēng)詞特征,訓(xùn)練2 層全連接神經(jīng)網(wǎng)絡(luò)模型進(jìn)行細(xì)粒度類(lèi)型分類(lèi)。

圖1 ETSF-FET 模型的整體框架

2.1 訓(xùn)練數(shù)據(jù)降噪

在細(xì)粒度實(shí)體分類(lèi)任務(wù)數(shù)據(jù)集中,細(xì)粒度類(lèi)型作為實(shí)體指稱(chēng)詞的標(biāo)簽,和實(shí)體所在句子相比較可用于學(xué)習(xí)語(yǔ)義的信息少,所以本文通過(guò)數(shù)據(jù)中細(xì)粒度類(lèi)型對(duì)應(yīng)的實(shí)體指稱(chēng)詞和其上下文信息學(xué)習(xí)細(xì)粒度類(lèi)型表示。同時(shí),數(shù)據(jù)集中干凈數(shù)據(jù)Dclean中實(shí)體指稱(chēng)詞和其上下文信息與細(xì)粒度類(lèi)型是一一映射關(guān)系,但噪音數(shù)據(jù)Dnoisy實(shí)體指稱(chēng)詞和其上下文信息與細(xì)粒度類(lèi)型存在一對(duì)多的映射關(guān)系,同時(shí)學(xué)習(xí)會(huì)引入噪音信息,為了防止這個(gè)問(wèn)題本文設(shè)計(jì)不同的方法學(xué)習(xí)類(lèi)型表示。

2.1.1 基于干凈數(shù)據(jù)的部分細(xì)粒度類(lèi)型表示學(xué)習(xí)

本文采用干凈數(shù)據(jù)Dclean中實(shí)體指稱(chēng)詞和其上下文信息與細(xì)粒度類(lèi)型的對(duì)應(yīng)關(guān)系計(jì)算訓(xùn)練數(shù)據(jù)中干凈數(shù)據(jù)出現(xiàn)的部分細(xì)粒度類(lèi)型tc,part的表示。具體而言,先采用ELMo 語(yǔ)言模型進(jìn)行向量化表示后生成實(shí)體所在句子的向量{ew1,…,ewn},其中ewi∈Rdw是句子中詞的向量表示。然后通過(guò)句子中詞向量的均值作為句子中實(shí)體的向量表示eac,細(xì)粒度類(lèi)型tc的表示etc通過(guò)數(shù)據(jù)集中所有的實(shí)體的向量表示求均值計(jì)算得到。計(jì)算如式(1)和(2)所示。

2.1.2 基于類(lèi)型間關(guān)系數(shù)據(jù)的細(xì)粒度類(lèi)型表示學(xué)習(xí)

本文從知識(shí)圖譜的本體層面[27]分析訓(xùn)練數(shù)據(jù)生成過(guò)程使用的知識(shí)庫(kù)中的細(xì)粒度實(shí)體類(lèi)型,發(fā)現(xiàn)細(xì)粒度類(lèi)型之間除了樹(shù)形層級(jí)結(jié)構(gòu)之間的關(guān)系,還存在其他關(guān)系。具體如圖2 所示。

圖2 遠(yuǎn)程監(jiān)督知識(shí)庫(kù)中細(xì)粒度類(lèi)型間關(guān)系

這個(gè)關(guān)系為細(xì)粒度實(shí)體類(lèi)型表示的學(xué)習(xí)提供了數(shù)據(jù)。因此對(duì)于沒(méi)有在干凈數(shù)據(jù)Dclean中存在對(duì)應(yīng)實(shí)體的部分細(xì)粒度類(lèi)型to,part,式(1)、(2)的方法會(huì)引入噪音信息。本文采用數(shù)據(jù)集生成過(guò)程中遠(yuǎn)程監(jiān)督方法使用的知識(shí)庫(kù)中細(xì)粒度類(lèi)型之間關(guān)系數(shù)據(jù)Gt,結(jié)合上節(jié)式(1)和(2)中獲得tc,part,采用TransE模型學(xué)習(xí)部分細(xì)粒度類(lèi)型集to,part的表示,對(duì)三元組(headtype,r,tailtype),將r的向量表示Er作為頭實(shí)體向量表示Eheadtype和尾實(shí)體向量表示Etailtype之間的平移。學(xué)習(xí)目標(biāo)函數(shù)如式(3)所示。

在學(xué)習(xí)過(guò)程中,本工作主要學(xué)習(xí)干凈數(shù)據(jù)Dclean沒(méi)有出現(xiàn)的細(xì)粒度實(shí)體類(lèi)型to,part。因此,本文調(diào)整了TransE方法頭尾實(shí)體表示的更新策略,在細(xì)粒度類(lèi)型的嵌入表示的更新步驟中,只更新to,part的細(xì)粒度類(lèi)型的嵌入表示eto。將上一節(jié)學(xué)習(xí)得到的etc和本節(jié)獲得的eto合并,得到細(xì)粒度類(lèi)型集T中所有細(xì)粒度類(lèi)型的嵌入表示Et。

2.1.3 基于實(shí)體和細(xì)粒度類(lèi)型語(yǔ)義相似度的細(xì)粒度類(lèi)型過(guò)濾

已有研究工作的Dnoisy處理,因沒(méi)有根據(jù)訓(xùn)練數(shù)據(jù)中細(xì)粒度類(lèi)型的語(yǔ)義信息與實(shí)體所在句子的語(yǔ)義信息的一致性進(jìn)行處理,僅選取模型預(yù)測(cè)得分最高的細(xì)粒度類(lèi)型作為候選細(xì)粒度類(lèi)型集的目標(biāo)類(lèi)型,故無(wú)法對(duì)Dnoisy中的訓(xùn)練數(shù)據(jù)選取正確的細(xì)粒度類(lèi)型進(jìn)行模型訓(xùn)練。同時(shí),該處理會(huì)造成訓(xùn)練數(shù)據(jù)多的類(lèi)型,學(xué)習(xí)了更多的實(shí)體上下文信息而被較大的概率選中[17,21],模型易受到細(xì)粒度類(lèi)型標(biāo)注數(shù)據(jù)分布的影響。本文通過(guò)計(jì)算實(shí)體指稱(chēng)詞及其所在上下文的語(yǔ)義信息和細(xì)粒度類(lèi)型的表示信息相似性,在Dnoisy的標(biāo)注類(lèi)型集合Y中選擇適合實(shí)體指稱(chēng)詞及其上下文語(yǔ)義信息細(xì)粒度類(lèi)型,作為實(shí)體指稱(chēng)詞的目標(biāo)類(lèi)型進(jìn)行模型訓(xùn)練。具體算法如算法1 所示。先采用式(1)、(2)基于實(shí)體指稱(chēng)詞及其文本上下文信息的向量化表示、細(xì)粒度類(lèi)型間關(guān)系信息獲取細(xì)粒度類(lèi)型表示,進(jìn)一步和采用ELmo 語(yǔ)言模型學(xué)習(xí)獲得實(shí)體所在句子上下文信息相似度計(jì)算,獲取噪音數(shù)據(jù)Dnoisy中的實(shí)體指稱(chēng)詞mi的目標(biāo)類(lèi)型。該算法的時(shí)間復(fù)雜度為O(lnh),ln為噪音數(shù)據(jù)的大小,h為訓(xùn)練數(shù)據(jù)標(biāo)注細(xì)粒度類(lèi)型個(gè)數(shù)最大值。

2.2 信息聚合

2.2.1 實(shí)體指稱(chēng)詞及上下文的表示學(xué)習(xí)

細(xì)粒度實(shí)體分類(lèi)任務(wù)常用的訓(xùn)練數(shù)據(jù)生成過(guò)程如圖3 所示。

圖3 細(xì)粒度實(shí)體分類(lèi)任務(wù)訓(xùn)練數(shù)據(jù)的生成過(guò)程

本文觀察發(fā)現(xiàn),在考慮噪音問(wèn)題的細(xì)粒度實(shí)體分類(lèi)任務(wù)中,實(shí)體指稱(chēng)詞的上下文信息對(duì)實(shí)體的細(xì)粒度類(lèi)型提供重要信息?;谶@個(gè)觀察,實(shí)體指稱(chēng)詞及上下文的表示學(xué)習(xí)采用注意力機(jī)制,重點(diǎn)學(xué)習(xí)實(shí)體指稱(chēng)詞及上下文中細(xì)粒度類(lèi)型相關(guān)語(yǔ)義信息。本文經(jīng)過(guò)實(shí)驗(yàn)對(duì)比了文獻(xiàn)[28]采用ELMo 預(yù)訓(xùn)練模型進(jìn)行詞向量表示方法和文獻(xiàn)[21]采用雙向的LSTM 進(jìn)行詞向量表示方法,選用了本文方法上性能較好的雙向LSTM 進(jìn)行詞向量表示方法。和文獻(xiàn)[21]方法不同,本文使用了全部的上下文信息,并使用注意力機(jī)制進(jìn)行實(shí)體指稱(chēng)詞表示學(xué)習(xí)。先采用Glove詞向量對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行向量化,句子s向量表示為{ew1,…,ewn}。實(shí)體指稱(chēng)詞的表示學(xué)習(xí)由采用注意力的實(shí)體指稱(chēng)詞表示matt和采用實(shí)體指稱(chēng)詞均值表示mave拼接生成,即m=[matt;mave],其中matt表示學(xué)習(xí)采用式(4)計(jì)算,其中實(shí)體指稱(chēng)詞的注意力權(quán)重ai采用式(5)計(jì)算。

實(shí)體指稱(chēng)詞上下文的表示學(xué)習(xí)采用了實(shí)體指稱(chēng)詞的上下文的詞注意力表示catt。其中catt表示學(xué)習(xí)采用式(6)計(jì)算。

其中實(shí)體指稱(chēng)詞上下文的注意力權(quán)重āi采用式(7)計(jì)算。

最后將兩部分表示拼接形成實(shí)體指稱(chēng)詞及上下文的嵌入表示F=[m;catt]。

2.2.2 語(yǔ)義相似信息聚合

對(duì)噪音數(shù)據(jù)Dnoisy的處理中,在噪音訓(xùn)練數(shù)據(jù)的標(biāo)注類(lèi)型集中選取唯一的細(xì)粒度類(lèi)型做為目標(biāo)類(lèi)型,造成標(biāo)注訓(xùn)練數(shù)據(jù)少的部分細(xì)粒度類(lèi)型訓(xùn)練數(shù)據(jù)嚴(yán)重不足問(wèn)題,引起在降噪數(shù)據(jù)集上細(xì)粒度實(shí)體分類(lèi)模型的性能指標(biāo)差于原始數(shù)據(jù)集。針對(duì)這個(gè)問(wèn)題,本文在實(shí)體指稱(chēng)詞和上下文進(jìn)行基于語(yǔ)義相似度的分類(lèi)前,通過(guò)數(shù)據(jù)集中Top-K個(gè)相似句子,對(duì)實(shí)體指稱(chēng)詞的語(yǔ)義特征進(jìn)行相似語(yǔ)義信息聚合,讓數(shù)據(jù)集三元組中的em、ec具有更多的類(lèi)型語(yǔ)義信息。信息聚合方法如算法2 所示??梢钥吹?經(jīng)過(guò)實(shí)體指稱(chēng)詞和其上下文信息的相似語(yǔ)義聚合,實(shí)體的特征表示更新為F′e=[udpsemm,c]∈R2dw,其中dw表示詞嵌入的維度。在該處理過(guò)程中,參數(shù)K作為信息聚合中參與相似信息聚合的句子數(shù),K的選擇比較重要。根據(jù)該算法解決的問(wèn)題,參數(shù)K的確定采用了以下方法:先統(tǒng)計(jì)訓(xùn)練數(shù)據(jù)集中細(xì)粒度類(lèi)型標(biāo)注數(shù)據(jù)的數(shù)量;然后根據(jù)標(biāo)注數(shù)據(jù)的規(guī)模分布特征,讓細(xì)粒度類(lèi)型的訓(xùn)練數(shù)據(jù)數(shù)少的部分細(xì)粒度類(lèi)型在K的作用下能達(dá)到細(xì)粒度類(lèi)型的訓(xùn)練數(shù)據(jù)數(shù)量的中位數(shù)的量級(jí)。

2.3 細(xì)粒度實(shí)體分類(lèi)模型

2.3.1 實(shí)體特征和細(xì)粒度類(lèi)型的相似度得分

在分類(lèi)處理中,以上節(jié)通過(guò)相似語(yǔ)義信息聚合形成的實(shí)體指稱(chēng)詞及上下文的表示F′e為輸入,本文采用了2 個(gè)全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)體指稱(chēng)詞特征學(xué)習(xí),計(jì)算過(guò)程為

其中y∈,W為分類(lèi)器的可訓(xùn)練的特征映射參數(shù)矩陣,b為分類(lèi)器的可學(xué)習(xí)的偏置參數(shù)。

2.3.2 模型優(yōu)化

在訓(xùn)練過(guò)程中,本文采用多標(biāo)簽分類(lèi)的交叉熵?fù)p失函數(shù)進(jìn)行模型優(yōu)化,并且針對(duì)細(xì)粒度實(shí)體類(lèi)型的層級(jí)結(jié)構(gòu),結(jié)合文獻(xiàn)[28]實(shí)驗(yàn)發(fā)現(xiàn)的細(xì)粒度類(lèi)型集合層級(jí)樹(shù)上不同級(jí)別之間細(xì)粒類(lèi)型預(yù)測(cè)結(jié)果不能平行處理實(shí)驗(yàn)結(jié)論。本文根據(jù)細(xì)粒度類(lèi)型的層級(jí)特征,設(shè)計(jì)細(xì)粒度類(lèi)型層級(jí)相關(guān)的參數(shù),讓模型按照層級(jí)樹(shù)從上到下的優(yōu)先級(jí)學(xué)習(xí)細(xì)粒度類(lèi)型的語(yǔ)義信息。目標(biāo)函數(shù)具體為

其中,βLev(y)為細(xì)粒度類(lèi)型層級(jí)相關(guān)的權(quán)重參數(shù);Lev(y) 為細(xì)粒度類(lèi)型在層級(jí)樹(shù)上的層級(jí)函數(shù),例如,圖3 中的“/person”類(lèi)型,Lev(/person)=1。圖中的“/person/politician”類(lèi)型,Lev(/person/politician)=2,α是損失函數(shù)L2 正則項(xiàng)參數(shù)。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置與評(píng)價(jià)

本文使用細(xì)粒度實(shí)體分類(lèi)任務(wù)上比較通用的3個(gè)數(shù)據(jù)集Wiki、OntoNotes 和BBN 進(jìn)行實(shí)驗(yàn)。Wiki數(shù)據(jù)集通過(guò)Wikipedia 遠(yuǎn)程監(jiān)督生成,數(shù)據(jù)集的細(xì)粒度類(lèi)型通過(guò)Freebase 知識(shí)庫(kù)中實(shí)例數(shù)超越指定閾值的細(xì)粒度類(lèi)型形成。OntoNotes 細(xì)粒度實(shí)體分類(lèi)數(shù)據(jù)集通過(guò)Freebase 知識(shí)庫(kù)中導(dǎo)出的類(lèi)型,人工標(biāo)注了133 000 個(gè)新聞數(shù)據(jù)。BBN 細(xì)粒度實(shí)體分類(lèi)數(shù)據(jù)集對(duì)2 311 篇文章通過(guò)Freebase 知識(shí)庫(kù)的類(lèi)型標(biāo)注形成。數(shù)據(jù)集提出后出現(xiàn)了多種版本,為了對(duì)比實(shí)驗(yàn)的嚴(yán)謹(jǐn)性,本文采用文獻(xiàn)[17]實(shí)驗(yàn)中使用的版本,其中數(shù)據(jù)集的統(tǒng)計(jì)信息如表1 所示。

表1 各數(shù)據(jù)集統(tǒng)計(jì)信息

為了推理補(bǔ)全細(xì)粒度類(lèi)型集上部分類(lèi)型的語(yǔ)義表示,本文采用文獻(xiàn)[20]提出的方法,根據(jù)數(shù)據(jù)集生成中遠(yuǎn)程監(jiān)督使用的知識(shí)庫(kù),獲取了各個(gè)數(shù)據(jù)集上細(xì)粒度類(lèi)型知識(shí)庫(kù)中細(xì)粒度類(lèi)型間的關(guān)系數(shù)據(jù),形成細(xì)粒度類(lèi)型之間的關(guān)系數(shù)據(jù)Gt。關(guān)系數(shù)據(jù)統(tǒng)計(jì)信息如表2 所示。

表2 各數(shù)據(jù)集類(lèi)型間關(guān)系統(tǒng)計(jì)

本文模型的參數(shù)包括實(shí)體及上下文的分布式表示維度d、細(xì)粒度類(lèi)型分布式表示維度dt、細(xì)粒度類(lèi)型間關(guān)系表示維度dr、相似信息聚合權(quán)重超參α、模型訓(xùn)練的迭代次數(shù)p和損失函數(shù)中細(xì)粒度類(lèi)型層級(jí)權(quán)重參數(shù)βLev(y)。其中實(shí)驗(yàn)使用的最佳參數(shù)如表3所示。

表3 模型使用參數(shù)

在模型評(píng)估方面,本文沿用了文獻(xiàn)[4]提出的嚴(yán)格準(zhǔn)確率(Acc)、宏平均F1(Ma-F1)和微平均F1(Mi-F1)3 個(gè)性能指標(biāo)。嚴(yán)格準(zhǔn)確率是測(cè)試集中實(shí)體的正確類(lèi)型和預(yù)測(cè)類(lèi)型完全相同的數(shù)據(jù)量在整個(gè)測(cè)試集中的占比。宏平均F1 是測(cè)試集上每個(gè)實(shí)體的F1 值在整個(gè)測(cè)試集上的平均值。微平均F1 為先計(jì)算整個(gè)測(cè)試集上準(zhǔn)確率和召回率的平均值,然后再計(jì)算F1。對(duì)于這3 個(gè)評(píng)價(jià)指標(biāo),結(jié)果值越大,模型細(xì)粒度實(shí)體分類(lèi)的性能越好。嚴(yán)格準(zhǔn)確率越大,表示測(cè)試集上預(yù)測(cè)結(jié)果和人工標(biāo)注結(jié)果相同的實(shí)體越多;宏平均F1 越大,表示測(cè)試集上每個(gè)實(shí)體預(yù)測(cè)的正確類(lèi)型越多;微平均F1 越大,表示整個(gè)測(cè)試集所有實(shí)體的預(yù)測(cè)的細(xì)粒度類(lèi)型越多。

3.2 實(shí)驗(yàn)結(jié)果分析

3.2.1 細(xì)粒度類(lèi)型的嵌入表示進(jìn)行標(biāo)簽降噪的細(xì)粒度實(shí)體分類(lèi)分析

為了分析本文提出模型的有效性,在Wiki、OntoNotes、BBN 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。從表中可以看出,本文的方法(表中的ETSFFET)實(shí)驗(yàn)結(jié)果優(yōu)于現(xiàn)有的研究,證明ETSF-FET 在帶有噪音標(biāo)簽的訓(xùn)練數(shù)據(jù)中,通過(guò)實(shí)體上下文語(yǔ)義信息和細(xì)粒度類(lèi)型語(yǔ)義嵌入表示的相似度計(jì)算,在遠(yuǎn)程監(jiān)督生成多個(gè)細(xì)粒度類(lèi)型標(biāo)注類(lèi)型集合中選取了最符合實(shí)體上下文語(yǔ)義信息的細(xì)粒度類(lèi)型,降低了細(xì)粒度實(shí)體分類(lèi)訓(xùn)練數(shù)據(jù)的噪音標(biāo)簽,提升了細(xì)粒度實(shí)體分類(lèi)任務(wù)的性能。

表4 模型性能指標(biāo)

3.2.2 細(xì)粒度類(lèi)型嵌入表示進(jìn)行訓(xùn)練數(shù)據(jù)標(biāo)簽降噪效果分析

為了分析本文提出的基于細(xì)粒度類(lèi)型語(yǔ)義表示進(jìn)行訓(xùn)練數(shù)據(jù)標(biāo)簽降噪方法的有效性及本文所提出降噪處理方法的通用性,本文選用文獻(xiàn)[21]的研究工作開(kāi)源的代碼。在Wiki、OntoNotes、BBN 數(shù)據(jù)集上,將數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)先采用本文的方法進(jìn)行數(shù)據(jù)標(biāo)簽降噪處理,然后直接運(yùn)行文獻(xiàn)[21]開(kāi)源的方法。實(shí)驗(yàn)結(jié)果如表5 所示,可以看到采用本文提出的基于細(xì)粒度類(lèi)型表示進(jìn)行標(biāo)簽降噪處理的訓(xùn)練數(shù)據(jù),能讓已有的研究工作提升細(xì)粒度實(shí)體分類(lèi)的性能。在BBN 數(shù)據(jù)集中,實(shí)驗(yàn)性能接近最近的研究工作。這證明本文所提的細(xì)粒度實(shí)體分類(lèi)標(biāo)簽降噪方法具有通用性,其不僅在本文自己的方法上提升了分類(lèi)性能,而且可通用于其他方法,并且對(duì)已有研究工作在細(xì)粒度實(shí)體分類(lèi)性能上有不小的提升。

表5 所提訓(xùn)練數(shù)據(jù)降噪方法處理在已有開(kāi)源方法上的性能實(shí)驗(yàn)

3.2.3 基于細(xì)粒度類(lèi)型間的關(guān)系數(shù)據(jù)學(xué)習(xí)的類(lèi)型嵌入表示進(jìn)行標(biāo)簽降噪分析

在訓(xùn)練數(shù)據(jù)降噪過(guò)程中細(xì)粒度類(lèi)型的表示提供了關(guān)鍵信息。因部分細(xì)粒度類(lèi)型沒(méi)有訓(xùn)練數(shù)據(jù),無(wú)法通過(guò)訓(xùn)練數(shù)據(jù)形成細(xì)粒度類(lèi)型的表示,本文結(jié)合遠(yuǎn)程監(jiān)督知識(shí)庫(kù)中細(xì)粒度類(lèi)型間的關(guān)系數(shù)據(jù)Gt獲得細(xì)粒度類(lèi)型的表示。為了驗(yàn)證細(xì)粒度類(lèi)型間的關(guān)系數(shù)據(jù)Gt為細(xì)粒度類(lèi)型表示提供語(yǔ)義信息的有效性,本文只使用細(xì)粒度類(lèi)型間的關(guān)系數(shù)據(jù)Gt學(xué)習(xí)細(xì)粒度類(lèi)型的表示進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)的性能指標(biāo)如表6所示。從表中可以看出,在OntoNotes 數(shù)據(jù)集上性能有明顯提升,證明細(xì)粒度類(lèi)型間的關(guān)系數(shù)據(jù)為訓(xùn)練數(shù)據(jù)降噪過(guò)程中細(xì)粒度類(lèi)型的表示學(xué)習(xí)提供了有效的語(yǔ)義信息。同時(shí)結(jié)合數(shù)據(jù)集的細(xì)粒度類(lèi)型數(shù)分析發(fā)現(xiàn),OntoNotes 數(shù)據(jù)集中大于1 層的類(lèi)型數(shù)據(jù)占比最高,證明細(xì)粒度類(lèi)型間的關(guān)系數(shù)據(jù)能為細(xì)粒度層級(jí)數(shù)上大于1 層的類(lèi)型提供更多的有效語(yǔ)義信息。

表6 細(xì)粒度類(lèi)型間關(guān)系的學(xué)習(xí)嵌入表示進(jìn)行細(xì)粒度實(shí)體分類(lèi)

3.2.4 語(yǔ)義信息聚合實(shí)驗(yàn)分析

訓(xùn)練數(shù)據(jù)的降噪過(guò)程造成了細(xì)粒度類(lèi)型的訓(xùn)練數(shù)據(jù)減少,引發(fā)訓(xùn)練數(shù)據(jù)少的部分細(xì)粒度類(lèi)型的語(yǔ)義信息學(xué)習(xí)不足的問(wèn)題。本文提出通過(guò)訓(xùn)練數(shù)據(jù)中語(yǔ)義上相似的實(shí)體指稱(chēng)詞及上下文信息,聚合數(shù)據(jù)中的細(xì)粒度類(lèi)型語(yǔ)義信息,緩解訓(xùn)練數(shù)據(jù)降噪過(guò)程引起的負(fù)面影響。為了驗(yàn)證本文提出的類(lèi)型語(yǔ)義信息聚合方法的有效性,在BBN 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)性能指標(biāo)如表7 所示。

表7 相似信息聚合語(yǔ)義學(xué)習(xí)實(shí)驗(yàn)性能

從表中可以看出,本文提出的方法去掉類(lèi)型語(yǔ)義信息聚合學(xué)習(xí)模塊后的模型ETSF-FET-NoGather,雖然比2020 年以前的方法降噪類(lèi)細(xì)粒式實(shí)體分類(lèi)方法好,但是難以超過(guò)2020 年文獻(xiàn)[28]的實(shí)驗(yàn),證明類(lèi)型語(yǔ)義信息聚合方法能為訓(xùn)練數(shù)據(jù)降噪過(guò)程引起的部分細(xì)粒度類(lèi)型語(yǔ)義學(xué)習(xí)補(bǔ)充有用的語(yǔ)義信息,再次提升細(xì)粒式實(shí)體分類(lèi)的效果。

4 結(jié)論

針對(duì)細(xì)粒度實(shí)體分類(lèi)任務(wù)的訓(xùn)練數(shù)據(jù)降噪過(guò)程中對(duì)實(shí)體上下文和細(xì)粒度類(lèi)型標(biāo)簽之間的語(yǔ)義相似性學(xué)習(xí)不足、細(xì)粒度類(lèi)型的訓(xùn)練數(shù)據(jù)減少等問(wèn)題,本文提出了一種基于細(xì)粒度類(lèi)型語(yǔ)義表示進(jìn)行標(biāo)簽降噪的細(xì)粒度實(shí)體分類(lèi)方法。該方法先基于ELMo 預(yù)訓(xùn)練模型學(xué)習(xí)數(shù)據(jù)集中干凈數(shù)據(jù)對(duì)應(yīng)的部分細(xì)粒度類(lèi)型的嵌入表示,并用該嵌入表示和細(xì)粒度類(lèi)型間的關(guān)系數(shù)據(jù),學(xué)習(xí)細(xì)粒度類(lèi)型集中其余細(xì)粒度類(lèi)型的表示;然后通過(guò)計(jì)算訓(xùn)練數(shù)據(jù)中標(biāo)注的細(xì)粒度類(lèi)型和實(shí)體指稱(chēng)詞及上下文信息的相似性進(jìn)行訓(xùn)練數(shù)據(jù)降噪;接著通過(guò)數(shù)據(jù)集中數(shù)據(jù)之間的相似性,選取Top-K相似數(shù)據(jù)進(jìn)行細(xì)粒度類(lèi)型語(yǔ)義信息的聚合;最后,在經(jīng)過(guò)降噪和聚合處理的數(shù)據(jù)上訓(xùn)練細(xì)粒度實(shí)體分類(lèi)模型。實(shí)驗(yàn)結(jié)果表明,本文提出的方法可以有效地減少細(xì)粒度實(shí)體分類(lèi)任務(wù)的訓(xùn)練數(shù)據(jù)中的噪音標(biāo)簽信息,提升細(xì)粒度實(shí)體分類(lèi)的性能。

缺乏高質(zhì)量標(biāo)注訓(xùn)練數(shù)據(jù)是細(xì)粒度實(shí)體分類(lèi)任務(wù)一直面臨的問(wèn)題,最近有研究人員嘗試用小樣本學(xué)習(xí)技術(shù)探索解決方案并取得了一些研究成果。本文認(rèn)為訓(xùn)練數(shù)據(jù)中的噪音數(shù)據(jù)雖然存在噪音標(biāo)簽,但這些噪音標(biāo)簽不完全是噪音,只是在實(shí)體指稱(chēng)詞所在的上下文中不表示該部分標(biāo)簽表達(dá)的語(yǔ)義信息。找到合理的方法合理利用這些信息可以讓細(xì)粒度實(shí)體分類(lèi)任務(wù)應(yīng)用更多的遠(yuǎn)程監(jiān)督生成的訓(xùn)練數(shù)據(jù),提升細(xì)粒度實(shí)體分類(lèi)的性能,降低該任務(wù)訓(xùn)練數(shù)據(jù)標(biāo)注的人力成本。同時(shí),本文在訓(xùn)練數(shù)據(jù)存在噪音情況下進(jìn)行了最大程度用好標(biāo)注數(shù)據(jù)方面的探索,從用好訓(xùn)練數(shù)據(jù)的角度為細(xì)粒度實(shí)體分類(lèi)任務(wù)探究解決方案,可以作為今后在細(xì)粒度實(shí)體分類(lèi)任務(wù)上研究的探索方向。

猜你喜歡
細(xì)粒度實(shí)體語(yǔ)義
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
語(yǔ)言與語(yǔ)義
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
基于雙線(xiàn)性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
南川市| 嫩江县| 靖安县| 贵南县| 微山县| 宜兰市| 罗城| 罗山县| 宜川县| 南靖县| 竹北市| 通许县| 南康市| 竹溪县| 吉首市| 巴楚县| 榆社县| 类乌齐县| 德清县| 定安县| 西乡县| 大姚县| 玛纳斯县| 临江市| 凤凰县| 巴彦县| 广平县| 台前县| 台北市| 周宁县| 青海省| 刚察县| 凤山县| 峨山| 仙居县| 陆良县| 阳原县| 东阳市| 进贤县| 新干县| 汝阳县|