国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于ERNIE-BiGRU模型的摘要語步自動(dòng)識(shí)別研究

2023-01-18 03:37:26何茜茹喬曉東
中文信息學(xué)報(bào) 2022年11期
關(guān)鍵詞:語步結(jié)構(gòu)化語義

溫 浩,何茜茹,王 杰,喬曉東,張 鵬

(1. 西安建筑科技大學(xué) 信息與控制工程學(xué)院,陜西 西安 710311;2. 北京萬方數(shù)據(jù)股份有限公司 北京100038;3. 西安建筑科技大學(xué) 藝術(shù)學(xué)院,陜西 西安 710311)

0 引言

學(xué)術(shù)論文是科研工作者研究成果的體現(xiàn),而摘要作為論文的開頭和內(nèi)容的提煉,是學(xué)術(shù)論文中必不可少的內(nèi)容。國家標(biāo)準(zhǔn)《文摘編寫規(guī)則》中將摘要定義為: “以提供文獻(xiàn)內(nèi)容梗概為目的,不加評論和補(bǔ)充解釋,簡明、確切地記述文獻(xiàn)重要內(nèi)容的短文?!盵1]通過摘要,研究者能直觀地了解到全文內(nèi)容和邏輯結(jié)構(gòu),即使不閱讀整篇論文,也能了解到該文獻(xiàn)的主要工作。但近年來,論文數(shù)量呈爆炸式增長,研究者很難在龐雜的文獻(xiàn)信息中快速定位到所需內(nèi)容,所以亟需構(gòu)建一些自動(dòng)化的算法來對大量的摘要內(nèi)容進(jìn)行分類和提取,以幫助科研工作者更有效地獲取論文中的關(guān)鍵信息。為實(shí)現(xiàn)上述目標(biāo),本文從摘要語句的內(nèi)在結(jié)構(gòu)著手分析,對摘要的語句進(jìn)行分類。在摘要中,語句的結(jié)構(gòu)就是摘要的語步,以下簡稱語步[2]。對摘要的語句分類,就是語步分析或識(shí)別、分類。摘要中語步作為一個(gè)基本功能結(jié)構(gòu),有很強(qiáng)的功能性和目的性,能夠精煉地反映學(xué)術(shù)論文所表達(dá)的主要意圖。目前對語步識(shí)別等工作的研究較少,又因?yàn)樽髡叩臅鴮懥?xí)慣不同,所以其功能結(jié)構(gòu)還沒有統(tǒng)一的表示模型。特別是各個(gè)刊物對摘要語步標(biāo)注要求的不同,又給語步的標(biāo)識(shí)帶來了一定的不確定性。例如,有的刊物要求作者自行標(biāo)記摘要的內(nèi)容,即用小標(biāo)題在摘要的若干句子前標(biāo)明這些語句的功能,這類摘要就被稱為結(jié)構(gòu)化摘要;而有些刊物沒有做這種標(biāo)注的要求,只是展現(xiàn)一段文字,那么這類摘要就被稱為非結(jié)構(gòu)化摘要。目前,實(shí)現(xiàn)語步自動(dòng)化識(shí)別的算法大多是基于結(jié)構(gòu)化摘要,而很多摘要的表現(xiàn)形式依舊為非結(jié)構(gòu)化[3-4],若直接將目前算法用于非結(jié)構(gòu)化摘要語步識(shí)別研究則還存在以下困難:

(1) 作者在摘要寫作時(shí),為了能夠保證內(nèi)容的完整性,一個(gè)語句中往往包含多個(gè)語步結(jié)構(gòu),這就導(dǎo)致語步結(jié)構(gòu)特征不明顯,若僅需要獲取特定的某個(gè)功能語步,則需要通過人工的方式,從整段非結(jié)構(gòu)化摘要中分析、提取所需的功能語步,難以通過自動(dòng)化的方式準(zhǔn)確提取和定位所需語步,這極大耗費(fèi)科研人員的精力。

(2) 語步結(jié)構(gòu)中的歧義現(xiàn)象也成為了制約語步分析的巨大障礙,歧義現(xiàn)象容易產(chǎn)生語義混淆,導(dǎo)致算法很難充分學(xué)習(xí)到語步語義信息,造成最終識(shí)別準(zhǔn)確率不高。

為了克服以上困難,實(shí)現(xiàn)摘要語步的自動(dòng)化識(shí)別。本文嘗試從自然語言處理的重要環(huán)節(jié)即句法分析角度出發(fā),在詳細(xì)分析非結(jié)構(gòu)化摘要語步結(jié)構(gòu)的同時(shí)兼顧結(jié)構(gòu)化摘要的語步結(jié)構(gòu),提出了基于ERNIE-BiGRU模型的摘要語步自動(dòng)識(shí)別算法。該算法首先根據(jù)句子的內(nèi)容和含義,將語步的結(jié)構(gòu)統(tǒng)一標(biāo)注為背景、目的、方法、結(jié)果、結(jié)論五類;其次,按以句號結(jié)尾的完整句子級別將摘要?jiǎng)澐譃閱握Z步結(jié)構(gòu)和多語步結(jié)構(gòu);再通過研究多語步結(jié)構(gòu)的語義信息和層次結(jié)構(gòu),提出基于句法依存關(guān)系的多語步結(jié)構(gòu)拆分法,并利用該方法對摘要多語步結(jié)構(gòu)進(jìn)行自動(dòng)化拆分,獲得多個(gè)單語步結(jié)構(gòu),并且基于上述算法劃分得到的單語步結(jié)構(gòu)構(gòu)建相應(yīng)的訓(xùn)練語料庫;最后,對經(jīng)過處理的數(shù)據(jù)使用ERNIE模型進(jìn)行訓(xùn)練,得到語步的詞向量特征,并且同時(shí)考慮到文本上下文關(guān)系的信息,將訓(xùn)練得到的詞向量作為雙向門限循環(huán)單元(BiGRU)的輸入進(jìn)行特征識(shí)別,以得到最終的語步分類結(jié)果。通過實(shí)驗(yàn)表明,本文提出的算法取得了很好的語步識(shí)別效果。

本文的組織結(jié)構(gòu)安排如下: 第1節(jié)介紹目前語步識(shí)別的相關(guān)算法和相關(guān)概念;第2節(jié)介紹本文所提出的算法,即基于ERNIE-BiGRU模型的摘要語步自動(dòng)識(shí)別算法;第3節(jié)給出實(shí)驗(yàn)結(jié)果,并與其他相關(guān)算法進(jìn)行比較分析;第4節(jié)對摘要識(shí)別任務(wù)進(jìn)行總結(jié)和展望。

1 相關(guān)研究

近年來,中國整體科研實(shí)力顯著提升,學(xué)術(shù)論文的數(shù)量增長迅猛,如何從海量學(xué)術(shù)論文中有效尋找出自己所需的內(nèi)容成為亟需解決的問題。相應(yīng)的,摘要作為對學(xué)術(shù)論文內(nèi)容的總結(jié),在尋找相關(guān)研究的過程中是必不可少的角色。然而,現(xiàn)有的摘要在表示形式上,存在標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一的問題。不同期刊對摘要的書寫有著不同的要求,部分期刊要求作者以結(jié)構(gòu)化形式編寫摘要,但對摘要語步要求又沒有統(tǒng)一標(biāo)準(zhǔn),就如有的期刊要求摘要以“目的”“方法”“結(jié)果”“結(jié)論”四種語步進(jìn)行標(biāo)注;有的期刊要求以“目的”“方法”“結(jié)果”“局限”和“結(jié)論”等語步進(jìn)行標(biāo)注,這就增加了語步標(biāo)注的困難。除此之外,大部分期刊仍以非結(jié)構(gòu)化的形式展現(xiàn)摘要,非結(jié)構(gòu)化摘要中各語步混雜在一整段的摘要片段中,使讀者很難快速掌握非結(jié)構(gòu)化摘要中的關(guān)鍵語步。此外,目前實(shí)現(xiàn)自動(dòng)識(shí)別語步的算法,大多都是基于結(jié)構(gòu)化摘要的語步識(shí)別,其中比較有代表性的是文獻(xiàn)[1,5-6]等的研究。文獻(xiàn)[5]提出將文摘語步轉(zhuǎn)化為由位置、類別詞相似度、核心動(dòng)詞、上下文信息等一系列文本特征表示的數(shù)據(jù)集合,采用機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)了語句自動(dòng)分類;文獻(xiàn)[6]在大規(guī)模結(jié)構(gòu)化摘要語料的基礎(chǔ)上,引入基于深度學(xué)習(xí)語步識(shí)別模型,對比分析不同深度學(xué)習(xí)模型在科技文獻(xiàn)摘要語步識(shí)別的效果;文獻(xiàn)[1]提出了一種以字為基本語義單元,利用摘要中所有字所包含的語義信息,構(gòu)建了基于深度學(xué)習(xí)語步自動(dòng)識(shí)別模型。

通過分析相關(guān)研究算法,發(fā)現(xiàn)已有算法除了存在只針對結(jié)構(gòu)化摘要分析的局限之外,還存在沒有充分利用句法結(jié)構(gòu)來提升語步識(shí)別效果的缺陷。雖然也有研究者加入了以字為基本單位的語義信息,但在中文信息處理中,基于詞的語義信息比基于字的語義信息更加穩(wěn)定,更加明確。綜合分析了現(xiàn)有語步識(shí)別算法的優(yōu)缺點(diǎn)后,本文重點(diǎn)嘗試在非結(jié)構(gòu)化文摘的基礎(chǔ)上兼顧結(jié)構(gòu)化文摘,實(shí)現(xiàn)摘要語步自動(dòng)識(shí)別研究,最后在實(shí)驗(yàn)中取得了相對不錯(cuò)的識(shí)別效果,在一定程度上說明了句法分析是摘要語步識(shí)別任務(wù)的重要前提。下一節(jié)將詳述本文提出的基于ERNIE-BiGRU模型的摘要語步識(shí)別算法。

2 摘要語步自動(dòng)識(shí)別研究

本文提出的基于ERNIE-BiGRU模型[7-8]的摘要語步識(shí)別算法,主要由四部分組成: 第一部分實(shí)現(xiàn)多語步結(jié)構(gòu)拆分;第二部分通過ERNIE訓(xùn)練得到單語步結(jié)構(gòu)的向量;第三部分加入BiGRU層,強(qiáng)化在不同時(shí)間段更新后的語步上下文特征;最后,使用softmax層對摘要語步進(jìn)行分類識(shí)別。其整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 基于ERNIE-BiGRU模型的摘要語步識(shí)別

2.1 摘要多語步結(jié)構(gòu)拆分

非結(jié)構(gòu)化摘要對語步?jīng)]有明確的要求,所以作者在書寫時(shí),為了有效地表達(dá)自己的意圖,會(huì)將不同功能的語步融合到同一個(gè)句子中,這樣就會(huì)產(chǎn)生多語步結(jié)構(gòu)的句子。對這類句子,不能簡單地將它們歸并到任意一個(gè)類別。例如,“本文首次提出了一種用于模式識(shí)別的新型開關(guān)電流Hamming神經(jīng)網(wǎng)絡(luò),它采用電流鏡計(jì)算待識(shí)模式與標(biāo)準(zhǔn)模式的匹配度?!痹谶@個(gè)句子中,前半部分是“目的”說明,后半部分又是“方法”說明,所以這類句子既不能簡單歸為 “目的”類,也不能歸為“方法”類,此時(shí)就需要把這個(gè)完整的句子,拆開成單個(gè)的句子,這就是多語步結(jié)構(gòu)拆分。對于結(jié)構(gòu)化摘要句子,雖然不涉及單句包含多語步的情況,但是相對短句的分類效果要好于長句,所以也需要對句子進(jìn)行拆分。在此情況下,本文采用基于標(biāo)點(diǎn)符號與句法分析相結(jié)合的方法進(jìn)行多語步結(jié)構(gòu)拆分,在多語步結(jié)構(gòu)拆分的準(zhǔn)確性上達(dá)到了預(yù)期的效果。

2.1.1 基于標(biāo)點(diǎn)符號的多語步拆分

標(biāo)點(diǎn)符號是理解語言的一個(gè)重要的標(biāo)識(shí)符,每個(gè)標(biāo)點(diǎn)符號都有著各自的作用。例如,逗號主要表示句子內(nèi)部的一般性停頓,句號表示語義的終止[9]。本文首先根據(jù)句號,將一整篇摘要初步劃分為多個(gè)語義完整的句子。而這些語義完整的句子中,并非只根據(jù)標(biāo)點(diǎn)符號就可以將句子歸為單語步結(jié)構(gòu), 如例1和例2。

例1該文提出了一種基于兩級LRU機(jī)制的大流檢測算法,并分析了新算法中的參數(shù)與平均誤差之間的關(guān)系。

例2該文提出了一種基于兩級LRU機(jī)制的大流檢測算法并分析了新算法中的參數(shù)與平均誤差之間的關(guān)系。

對于上述兩個(gè)例子,從語義上來看意思相同,但是句法結(jié)構(gòu)卻截然不同。例2中,只含有一個(gè)句號終止符,很顯然是一個(gè)單句。例1的句子比例2多了一個(gè)逗號,在逗號之前,“該文提出了一種基于兩級LRU機(jī)制的大流檢測算法”描述了論文的目的;在逗號之后,“并分析了新算法中的參數(shù)與平均誤差之間的關(guān)系”描述了論文的方法,很明顯這兩個(gè)句子互相獨(dú)立,因此例2的句子也可以拆分為兩個(gè)單語步結(jié)構(gòu)。上述分析表明,完全利用標(biāo)點(diǎn)符號拆分多語步結(jié)構(gòu)在大多數(shù)情況下并不能正確地進(jìn)行拆分,只能起到一個(gè)輔助的作用。

2.1.2 基于句法依存關(guān)系的多語步劃分

通過上一節(jié)的分析得知,標(biāo)點(diǎn)符號除了表示語氣的停頓,在多語步結(jié)構(gòu)的拆分上同樣有著重要作用,但是對于大多數(shù)多語步結(jié)構(gòu)而言,僅靠標(biāo)點(diǎn)符號來劃分,不能實(shí)現(xiàn)精確拆分。所以,除了標(biāo)點(diǎn)符號以外,需要借助另一種方法——句法分析[10-11]。句法分析是銜接自然語言處理中語義分析與結(jié)構(gòu)分析的橋梁[12-13],本研究通過語言技術(shù)平臺(tái)(Language Technology Platform,LTP)獲得句子中各成分之間的依存關(guān)系,以此來描述語步結(jié)構(gòu)。表1為句子各成分之間的依存關(guān)系。

表1 依存句法關(guān)系

將以上各成分間的依存關(guān)系及各詞的詞性進(jìn)行依存句法樹的搭建,以依存樹的形式進(jìn)行表示,如圖2所示。將依存句法結(jié)果整理為五列,分別表示分詞結(jié)果,詞性、詞語在文本中的位置,詞語的父節(jié)點(diǎn),詞語的依存關(guān)系,其中,核心詞HED和以HED為直接父節(jié)點(diǎn)的主語(SBV)、賓語(VOB)、并列關(guān)系(COO)加粗斜體標(biāo)記。

例3本文提出一種基于遺傳算法的TBDD排序算法。

圖2 例3句子依存結(jié)構(gòu)

例3展示了LTP對句子進(jìn)行依存分析的結(jié)果,該句的動(dòng)詞“提出”作為核心詞,“算法”作為賓語,“提出”對句子中的賓語起到支配作用,形成動(dòng)賓關(guān)系?!盎凇迸c“算法”形成介賓關(guān)系,其他詞之間也存在著相應(yīng)的依存關(guān)系。

再將例1和例2通過句法分析方法進(jìn)行驗(yàn)證,例1和例2的句法分析結(jié)果如圖3和圖4所示。

圖3 例1句子依存結(jié)構(gòu)

圖4 例2句子依存結(jié)構(gòu)

由圖3可以清晰地看出,該句有兩個(gè)中心詞,分別為“提出”和“分析”。此句的核心詞HED為“提出”,“分析”是以HED為根節(jié)點(diǎn)的COO,兩詞之間呈并列關(guān)系,關(guān)系詞為“并”。雖然句子間并沒有符號隔開,但根據(jù)句法分析可以拆分為獨(dú)立的兩個(gè)單語步結(jié)構(gòu),“該文提出了一種基于兩級LRU機(jī)制的大流檢測算法”和“并分析了新算法中的參數(shù)與平均誤差之間的關(guān)系”。

通過分析句子各成分間的依存關(guān)系,從而判斷各句子之間的關(guān)系,如并列關(guān)系等。各分句結(jié)構(gòu)獨(dú)立,并存在著邏輯語義關(guān)系,所以標(biāo)點(diǎn)符號與句法分析相結(jié)合的方法對于多語步結(jié)構(gòu)拆分任務(wù)來說,是一個(gè)較為有效的方法。以此,提出多語步結(jié)構(gòu)拆分思路,如圖5所示。

圖5 多語步結(jié)構(gòu)拆分流程

(1) 以句號為基礎(chǔ)劃分符號,將非結(jié)構(gòu)化摘要?jiǎng)澐譃榫渥蛹壵Z步;

(2) 通過LTP 4.0,得到句子級摘要的句法分析;

(3) 遍歷句子中的所有詞語,首先找到該句子的核心詞HED,分析以HED為根節(jié)點(diǎn)的詞語,找到與HED呈并列結(jié)構(gòu)的COO,如果沒有COO,則該句子是一個(gè)單句,不需要拆分;如果有COO,則該句子是一個(gè)可拆分復(fù)句,進(jìn)入下一步;

(4) 如果該COO沒有直接引導(dǎo)的SBV,則用原句的SBV與COO配合構(gòu)成一個(gè)子句。如果該COO有自己前導(dǎo)的SBV,則利用該SBV和COO獨(dú)立提取出一個(gè)子句;

(5) 若語步中包含多個(gè)以父節(jié)點(diǎn)HED為根節(jié)點(diǎn)的COO成分,對每個(gè)COO成分按步驟(3)~步驟(5)循環(huán)處理,直至處理完最后一個(gè)COO。

以上是多語步結(jié)構(gòu)拆分基本思路,現(xiàn)根據(jù)以上思路完整實(shí)現(xiàn)拆分步驟,如例4所示。

例4本文提出一種自適應(yīng)方法,仿真結(jié)果表明,該方法隨著呼叫移動(dòng)比變化可自動(dòng)調(diào)整到最佳指針鏈長度。

圖6 例5句子依存結(jié)構(gòu)

由圖6可以看出,HED為根節(jié)點(diǎn)。此句中的核心詞HED是“提出”,遍歷所有詞語,有一個(gè)以HED為父節(jié)點(diǎn)的COO,則此句的兩個(gè)中心詞“提出”和“表明”呈并列關(guān)系,并且兩者之間用逗號隔開。因此,該句子是多語步結(jié)構(gòu)句,可以劃分為兩個(gè)單語步結(jié)構(gòu)。從依存句法分析中可以看出,并列的COO單語步結(jié)構(gòu)分句帶有自己的SBV,就利用自帶的SBV構(gòu)成獨(dú)立的單語步結(jié)構(gòu),所以兩個(gè)單語步結(jié)構(gòu)分別是“本文提出一種自適應(yīng)算法”和“仿真結(jié)果表明該方法隨著呼叫移動(dòng)比變化可自動(dòng)調(diào)整到最佳指針鏈長度”。

通過本節(jié)講述的多語步結(jié)構(gòu)拆分方法,最終獲得多個(gè)單語步結(jié)構(gòu),以此構(gòu)建基于單語步結(jié)構(gòu)訓(xùn)練語料庫,作為ERNIE預(yù)訓(xùn)練模型的訓(xùn)練語料,訓(xùn)練得到語步級詞向量。

2.2 ERNIE預(yù)訓(xùn)練模型

ERNIE(Enhanced Representation through Knowledge Integration)是一種基于知識(shí)遮蔽策略的增強(qiáng)型模型,主要由Transformer編碼和語義信息整合兩部分組成[14]。前者通過Transformer編碼器捕捉文本中每個(gè)詞的上下文信息,并生成相對應(yīng)的詞向量表示;后者通過多階段的掩碼策略,將短語和實(shí)體的語義信息整合到語言表示中。

2.2.1 Transformer編碼器

ERNIE模型采用多層Transformer編碼器構(gòu)建雙向語言表示模型。Transformer利用self-attention機(jī)制,基于輸入文本計(jì)算與本身的注意力分布,即計(jì)算每個(gè)詞與同文本 內(nèi) 其 他 詞 的注意力分布,捕獲同文本中詞之間的一些句法特征或語義特征,以此來理解句子的整體意思,其原理為:

(1)

其中,Q(query)、K(key)、V(value)為輸入字向量矩陣。dk為輸入向量維度。

例如,X=[x1,…,xt,…,xN]表示N個(gè)輸入信息,本文采用的最大序列長度為128,即N=128。在對t位置的詞進(jìn)行語義解析時(shí),可以同時(shí)學(xué)習(xí)到前t-1和后t+1的所有文本信息,從而每個(gè)詞在得到該文本的全局信息的同時(shí)能夠動(dòng)態(tài)地生成不同連接的權(quán)重,以此來縮短遠(yuǎn)距離依賴特征之間的距離,有效提高這些特征的利用率。由于傳統(tǒng)語言模型的訓(xùn)練目標(biāo)是預(yù)測下一個(gè)詞,而在上述雙向編碼器計(jì)算過程中,預(yù)測的目標(biāo)詞會(huì)多次間接地“看到自己”,即若要預(yù)測輸入信息xN,則每個(gè)輸入在計(jì)算與其他詞的注意力分布時(shí)看到預(yù)測目標(biāo)xN,造成信息的泄露。針對這一問題,BERT模型使用掩碼策略,將預(yù)測目標(biāo)對應(yīng)的信息用[mask]代替[15-16]。ERNIE模型在此基礎(chǔ)上進(jìn)一步改進(jìn)掩碼策略,融入了短語和實(shí)體層面的遮蔽。

2.2.2 信息整合

ERNIE模型通過對海量中文數(shù)據(jù)中的詞、實(shí)體及實(shí)體關(guān)系進(jìn)行建模,為了能夠更好地學(xué)習(xí)真實(shí)世界的語義知識(shí),該模型采用的知識(shí)遮蔽策略分為三個(gè)階段。例如,“本文提出了適合于均勻圓陣的高分辨陣列測向算法”語義信息整合的三個(gè)階段如圖7所示。

第一階段是基本級別掩碼,將輸入的語步作為一個(gè)基本語言單位的序列,并以字為單位進(jìn)行掩碼,我們可以獲得一個(gè)基于字的表示。在中文信息處理中,通過字層面的掩碼方式很難學(xué)習(xí)到更大語義單元的完整語義知識(shí)。

第二階段是實(shí)體級別掩碼,對于人、地點(diǎn)、組織、產(chǎn)品等實(shí)體信息可以用適當(dāng)?shù)拿Q表示。這一階段中,首先分析句子序列中包含的命名實(shí)體信息,然后隨機(jī)選取實(shí)體并對相應(yīng)位置進(jìn)行遮蔽和預(yù)測。

第三階段是短語級別掩碼,短語是由一組字符充當(dāng)一個(gè)概念單元。短語級別的掩碼類似于實(shí)體級掩碼,隨機(jī)選取句子中的短語,將同一短語所對應(yīng)的所有信息都用[mask]代替,并對此進(jìn)行預(yù)測。

圖7 ERNIE信息整合三個(gè)階段

經(jīng)過以上三個(gè)階段的語義信息整合,可以得到一個(gè)含有豐富語義信息的語步表示形式,把語步表示形式融入到Transformer編碼過程中生成詞向量序列,其中,ERNIE模型的隱層為768維。這樣就可以得到詞長為128的句子X的詞向量序列,即X:{wi1,wi2,…,wiN}。再通過ERNIE模型的embedding層,訓(xùn)練得到每個(gè)語步的詞嵌入向量,如式(2)所示。

xit=Wewitt∈[1,N]

(2)

即{xi1,xi2,…,xiN},We為embedding層權(quán)重參數(shù)。再將上述詞嵌入向量作為BiGRU層的輸入,進(jìn)一步提取每個(gè)詞所對應(yīng)的上下文特征,增強(qiáng)句子的語義特征,從而提高語步識(shí)別效果。

2.3 BiGRU層

BiGRU由雙向GRU構(gòu)成,GRU是在LSTM的基礎(chǔ)上簡化得到的改進(jìn)模型,其內(nèi)部結(jié)構(gòu)與LSTM相似,也是通過門控機(jī)制來對梯度進(jìn)行處理,避免記憶衰退[17]。LSTM是由輸入門、遺忘門和輸出門組成的,簡化后的GRU由重置門和更新門組成。重置門決定了候選狀態(tài)中有多少信息是來自于上一時(shí)刻的狀態(tài),重置門的值越小,就代表當(dāng)前狀態(tài)對上一時(shí)刻狀態(tài)的依賴關(guān)系就越少。更新門就是用來控制在當(dāng)前狀態(tài)中要保留多少歷史狀態(tài)的信息,更新門的值越大,就代表保留的信息越多。重置門與更新門的結(jié)構(gòu)設(shè)計(jì)使GRU達(dá)到了在提高計(jì)算效率的同時(shí)保證同樣出色結(jié)果的效果。GRU的結(jié)構(gòu)示意圖如圖8所示。

圖8 GRU的結(jié)構(gòu)示意圖

GRU網(wǎng)絡(luò)層的工作流程如下:

(1) 計(jì)算更新門zt,數(shù)學(xué)表達(dá)式如式(3)所示。

zt=σ(Wzxt+Uzht-1)

(3)

其中,zt——更新門捕獲的信息;σ——采用sigmoid激活函數(shù);Wz、Uz——更新門的權(quán)重參數(shù),需要先隨機(jī)初始化;xt——為上一步輸出的預(yù)訓(xùn)練詞向量序列中第t個(gè)位置的向量,即{xi1,xi2,…,xiN},t∈[1,N];ht-1為上一個(gè)位置的向量。

(2) 計(jì)算重置門rt,數(shù)學(xué)表達(dá)式如式(4)所示。

rt=σ(Wrxt+Urht-1)

(4)

其中,rt——重置門捕獲的信息;Wr、Ur——重置門權(quán)重參數(shù),需要先隨機(jī)初始化;其他同上。

(5)

(4) 計(jì)算當(dāng)前時(shí)刻隱藏狀態(tài),數(shù)學(xué)表達(dá)式如式(6)所示。

(6)

以上為單向GRU的工作流程。在文本序列處理的過程中,單向的GRU只能學(xué)習(xí)當(dāng)前時(shí)刻之前的信息,無法學(xué)習(xí)到當(dāng)前時(shí)刻之后的信息,因此本文采用圖1中展示的正向和負(fù)向兩層結(jié)合的學(xué)習(xí)方式(BiGRU)來代替?zhèn)鹘y(tǒng)的GRU,得到一個(gè)正向輸出和負(fù)向輸出,最后生成一個(gè)二維矩陣作為最終輸出。最后引入softmax對特征結(jié)果進(jìn)行歸一化處理,得到文本屬于不同類別的概率,其中概率最大的類別作為模型語步識(shí)別的結(jié)果。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本研究中的數(shù)據(jù)集是基于各類學(xué)術(shù)期刊,包含非結(jié)構(gòu)化摘要和結(jié)構(gòu)化摘要兩種形式。雖然各期刊對摘要書寫要求的不一致導(dǎo)致目前語步?jīng)]有統(tǒng)一的分類標(biāo)準(zhǔn)[18-20],但通過對期刊摘要的大量分析,認(rèn)為采用背景、目的、方法、結(jié)果、結(jié)論五類語步是比較合理的,因?yàn)樵谶@五部分中,背景是研究主題的背景及存在的問題;目的是研究主題的任務(wù),所涉及的主題范圍;方法是說明研究內(nèi)容所用的原理、手段、程序等,簡要說明實(shí)驗(yàn)方法及過程;結(jié)果是闡述實(shí)驗(yàn)的結(jié)果、效果或性能的提升;結(jié)論是說明本研究的價(jià)值、局限性等。這五部分內(nèi)容基本能夠全面地概括整篇文獻(xiàn),并且大量期刊的摘要中幾乎都包含這五部分內(nèi)容,所以本文采用這五個(gè)語步類別標(biāo)準(zhǔn)具有一定的普適性。

本研究中共收集整理20 308篇論文摘要,其中非結(jié)構(gòu)化摘要從《電子學(xué)報(bào)》和《計(jì)算機(jī)學(xué)報(bào)》選取10 216篇,將TXT格式的語料集進(jìn)行解析和去噪,包含約38 212句非結(jié)構(gòu)化語步數(shù)據(jù),構(gòu)建非結(jié)構(gòu)化原始語步數(shù)據(jù)集,并利用本文提出的多語步結(jié)構(gòu)拆分法獲得單語步結(jié)構(gòu)112 848句,依照上述語步類別標(biāo)準(zhǔn)進(jìn)行人工標(biāo)注,從中篩選出有效單語步結(jié)構(gòu)6萬句,基于此構(gòu)建非結(jié)構(gòu)化摘要單語步結(jié)構(gòu)語料集;結(jié)構(gòu)化摘要從《情報(bào)理論與實(shí)踐》和《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》等文獻(xiàn)中選取10 092篇,對數(shù)據(jù)進(jìn)行去噪預(yù)處理后,包含52 660句結(jié)構(gòu)化語步數(shù)據(jù),構(gòu)建結(jié)構(gòu)化原始語步數(shù)據(jù)集,利用本文提出的多語步結(jié)構(gòu)拆分法獲得157 980句單語步結(jié)構(gòu),構(gòu)建結(jié)構(gòu)化摘要單語步結(jié)構(gòu)語料集。

我們分別從四個(gè)語料集隨機(jī)選擇30 000條語步,作為訓(xùn)練樣本。在未參與訓(xùn)練的語料中,隨機(jī)選取3 000條語步作為測試樣本。訓(xùn)練集和測試集中,每種語步類型的數(shù)據(jù)量保持一致,以保證語步類型分布平衡。

3.2 實(shí)驗(yàn)設(shè)計(jì)及實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)分為兩部分: 第一部分是采用結(jié)構(gòu)化摘要語步數(shù)據(jù)集;第二部采用非結(jié)構(gòu)化摘要數(shù)據(jù)集。兩部分實(shí)驗(yàn)均基于ERNIE-BiGRU語步識(shí)別模型,分別采用摘要單語步結(jié)構(gòu)和原始摘要語步進(jìn)行識(shí)別效果對比,并設(shè)計(jì)基于BERT、ERNIE、ERNIE-BiLSTM模型為對比實(shí)驗(yàn)。在CPU: Intel(R) Core(TM) i7-10700 CPU @2.90GHZ,GPU: GTX 1650,內(nèi)存: 128GB;python 3.6,pytorch 1.6.0框架的配置環(huán)境下進(jìn)行實(shí)驗(yàn),以驗(yàn)證本文所提方法在摘要語步識(shí)別上的效果。

3.3 評價(jià)指標(biāo)

本實(shí)驗(yàn)通過正確率(Precision)、召回率(Recall)和F1值三個(gè)指標(biāo)進(jìn)行識(shí)別效果衡量,具體計(jì)算如式(7)~式(9)所示。

3.4 實(shí)驗(yàn)結(jié)果及分析

本文基于上文中構(gòu)建的單語步結(jié)構(gòu)語料集和原摘要語料集,使用ERNIE-BiGRU模型進(jìn)行摘要語步識(shí)別實(shí)驗(yàn)。為了更好地檢測ERNIE-BiGRU模型的性能,本文設(shè)置了對照實(shí)驗(yàn),包括了基于BERT、ERNIE、ERNIE-BiLSTM的摘要語步識(shí)別實(shí)驗(yàn)。同時(shí)為了更加直接地呈現(xiàn)實(shí)驗(yàn)結(jié)果,本文分為結(jié)構(gòu)化摘要識(shí)別效果和非結(jié)構(gòu)摘要識(shí)別效果來展示,如表2和表3所示。

表2 結(jié)構(gòu)化語步識(shí)別結(jié)果對比 (單位: %)

表3 非結(jié)構(gòu)化語步識(shí)別結(jié)果對比 (單位: %)

如表2所示,從第一部分實(shí)驗(yàn)結(jié)果可以看出,不論是基于原數(shù)據(jù)還是改進(jìn)后的數(shù)據(jù),ERNIE-BiGRU模型的準(zhǔn)確率均優(yōu)于其他識(shí)別模型,從原數(shù)據(jù)的識(shí)別效果(88.36%)到改進(jìn)后數(shù)據(jù)的識(shí)別效果(96.57%),識(shí)別準(zhǔn)確率提高了8.21%,較其他模型差異最大。不同模型下不同數(shù)據(jù)集識(shí)別效果差異性由高到低排序?yàn)镋RNIE-BiGRU(8.21%)、ERNIE-BiLSTM(6.48%)、ERNIE(6.28%)、BERT(1.46%)。

如表3所示,從第二部分實(shí)驗(yàn)結(jié)果可知,ERNIE-BiGRU模型的識(shí)別效果在準(zhǔn)確率(93.75%)、召回率(93.72%)、F1值(93.73%)這三個(gè)評價(jià)指標(biāo)上的表現(xiàn)都比其他模型效果好。其中,ERNIE-BiGRU模型下兩種數(shù)據(jù)集的實(shí)驗(yàn)效果差異最大,為8.79%。各方法下不同數(shù)據(jù)集對識(shí)別效果影響的顯著性排序如下: ERNIE-BiGRU(8.79%)、ERNIE-BiLSTM(7.35%)、ERNIE(6.48%)、BERT(4.25%)。

對比兩組實(shí)驗(yàn)結(jié)果,從數(shù)據(jù)集角度來看,不論是在結(jié)構(gòu)化摘要還是在非結(jié)構(gòu)化摘要的實(shí)驗(yàn)中,從原始數(shù)據(jù)集到單語步結(jié)構(gòu)數(shù)據(jù)集,基于不同模型的語步識(shí)別效果均有顯著提升,這說明多語步結(jié)構(gòu)的準(zhǔn)確拆分對提升模型的識(shí)別效果有重要的影響,且本文所提出模型的參數(shù)不需要調(diào)整就可以進(jìn)行結(jié)構(gòu)化和非結(jié)構(gòu)化的語步識(shí)別,所以本文的方法具有較好的魯棒性;從識(shí)別模型的角度來看,不論采用哪種數(shù)據(jù)集,BERT模型到ERNIE模型的識(shí)別效果提升最高,這表明在預(yù)訓(xùn)練過程中準(zhǔn)確把握文本特征的重要性。因此,實(shí)驗(yàn)證明了多語步結(jié)構(gòu)拆分在識(shí)別非結(jié)構(gòu)化摘要語步中是一個(gè)重要前提,且證明了ERNIE-BiGRU模型在識(shí)別語步的任務(wù)上具有較好的性能。

4 結(jié)論

本文基于ERNIE-BiGRU模型構(gòu)建了語步自動(dòng)識(shí)別模型,結(jié)合句法分析對非結(jié)構(gòu)化摘要語步結(jié)構(gòu)進(jìn)行了詳細(xì)的分析,提出了基于句法依存關(guān)系的多語步結(jié)構(gòu)拆分法,來實(shí)現(xiàn)摘要語步的自動(dòng)化識(shí)別。多語步結(jié)構(gòu)拆分法可以準(zhǔn)確地將多語步結(jié)構(gòu)拆分為多個(gè)單語步結(jié)構(gòu),為自動(dòng)化語步識(shí)別模型提供了優(yōu)質(zhì)的語料基礎(chǔ)。ERNIE預(yù)訓(xùn)練模型可以學(xué)習(xí)詞語和實(shí)體之間的語義信息,生成句子級向量表達(dá),并將此作為BiGRU的輸入進(jìn)行訓(xùn)練,學(xué)習(xí)到更好的序列信息,最后通過softmax得到最終的識(shí)別效果。實(shí)驗(yàn)結(jié)果可有效證明該語步識(shí)別方法是可行的,ERNIE模型可以很好地保留文本的語義信息,BiGRU模型的序列特征學(xué)習(xí)效果也同樣顯著,能夠達(dá)到預(yù)期的識(shí)別效果。

猜你喜歡
語步結(jié)構(gòu)化語義
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
裁定書的語步結(jié)構(gòu)分析
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
語言與語義
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
中外光學(xué)學(xué)術(shù)論文摘要非常規(guī)語步的對比分析
專家作者與學(xué)術(shù)新手間的摘要修辭對比研究
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
認(rèn)知范疇模糊與語義模糊
基于軟信息的結(jié)構(gòu)化轉(zhuǎn)換
德阳市| 全州县| 沐川县| 自治县| 绿春县| 韶关市| 方山县| 汕尾市| 兰溪市| 高青县| 喀什市| 奉化市| 孝感市| 武城县| 九寨沟县| 荃湾区| 凉城县| 阳高县| 朝阳县| 喀喇| 泾川县| 始兴县| 含山县| 涞源县| 若尔盖县| 沅陵县| 东光县| 建始县| 营口市| 英山县| 澳门| 香格里拉县| 浙江省| 玉龙| 屏南县| 长顺县| 北川| 金秀| 万州区| 华阴市| 清远市|