国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于子詞級(jí)別詞向量和指針網(wǎng)絡(luò)的朝鮮語句子排序

2022-09-28 09:56閆曉東解曉慶
中文信息學(xué)報(bào) 2022年8期
關(guān)鍵詞:朝鮮語指針排序

閆曉東,解曉慶

(1. 中央民族大學(xué) 信息工程學(xué)院,北京 100089;2. 國(guó)家語言資源監(jiān)測(cè)與少數(shù)民族語言中心,北京 100089)

0 引言

正文句子排序的目標(biāo)是將一組句子排列成連貫的文本。在多文檔自動(dòng)摘要任務(wù)中,對(duì)文摘句子進(jìn)行排序是一項(xiàng)關(guān)鍵任務(wù),其效果直接影響最后生成的摘要的可讀性。在閱讀理解的答案排序過程中,也涉及句子排序問題,其最終結(jié)果也會(huì)決定答案的可讀性。

朝鮮語是我國(guó)具有文字的少數(shù)民族語言之一,在朝鮮語信息化處理的過程中[1],同樣也涉及自然語言處理的各種任務(wù)。因此朝鮮語句子排序也是一個(gè)值得關(guān)注的問題。本文結(jié)合朝鮮語的特點(diǎn),提出了基于子詞級(jí)別詞向量的朝鮮語句子排序模型,可以增強(qiáng)句子語義邏輯關(guān)系的捕獲能力,進(jìn)而獲取句子的合理排序。為后續(xù)的朝鮮語多文檔自動(dòng)摘要、朝鮮語機(jī)器閱讀理解等任務(wù)奠定一些基礎(chǔ)。

通常,在一個(gè)文本段落中,文本的可讀性往往依賴于正確的句子順序。對(duì)于句子排序問題,前人已經(jīng)做了大量的工作: Danushka等人將多文檔摘要中的句子排序問題建模為學(xué)習(xí)確定兩個(gè)給定句子之間排序的偏好專家的最佳組合的問題,并定義了五個(gè)偏好專家,從而更好地捕捉一個(gè)句子相對(duì)于另一個(gè)句子的偏好來解決句子排序問題[2]。Cao等人在遞歸神經(jīng)網(wǎng)絡(luò) (R2N2)上開發(fā)了一個(gè)排名框架,用于對(duì)多文檔摘要的句子進(jìn)行排名。它將句子排序任務(wù)看作層次回歸過程,同時(shí)測(cè)量解析樹中句子及其成分(如短語)的顯著性,并通過句子和單詞的排名來有效地選擇信息和非冗余句子從而生成摘要[3]。欒克鑫等人提出了通過引入注意力機(jī)制的句子排序模型,以增強(qiáng)句子語義邏輯關(guān)系的捕獲能力,進(jìn)而獲取句子的合理排序[5]。

隨著深度學(xué)習(xí)方法在自然語言處理任務(wù)中廣泛應(yīng)用,很多方法也被引入到句子排序任務(wù)中。康世澤等人利用神經(jīng)網(wǎng)絡(luò)模型融合前人已經(jīng)提出過的標(biāo)準(zhǔn)來決定任意兩個(gè)句子之間的連接強(qiáng)度,并提出了一種基于馬爾科夫隨機(jī)游走模型的句子排序方法,該方法利用所有句子之間的連接強(qiáng)度共同決定句子的最終排序[5]。Chen等人將句子排序作為一個(gè)獨(dú)立的任務(wù),通過探索數(shù)據(jù)驅(qū)動(dòng)的方法來學(xué)習(xí)句子的順序,并不依賴于人工設(shè)計(jì)的特征。Logeswaran提出了一種基于集合到序列映射框架的端到端的方法來解決句子排序問題[6]。Gong等人提出了一種端到端的神經(jīng)網(wǎng)絡(luò)方法來解決句子排序問題,該方法利用全部上下文信息并使用指針網(wǎng)絡(luò)(Pointer Network)來緩解錯(cuò)誤傳播問題[7]。

本文的主要貢獻(xiàn)如下:

(1) 對(duì)朝鮮語句子排序問題進(jìn)行研究;

(2) 將同形異義詞信息融入朝鮮語詞向量的訓(xùn)練;

(3) 使用形態(tài)素和子詞級(jí)別n元詞向量進(jìn)行訓(xùn)練,并對(duì)比效果;

(4) 使用兩種詞向量訓(xùn)練方法得到詞向量,再使用兩種不同的句向量訓(xùn)練方法得到句向量,最后進(jìn)行句子排序?qū)嶒?yàn),并對(duì)比效果。

1 朝鮮語句子排序模型

1.1 任務(wù)描述

對(duì)于多文檔摘要、問答和文本的生成來說,排序是一項(xiàng)困難但重要的任務(wù)。在多文檔摘要中,信息是從一組源文檔中選擇的,無法通過定位句子在一組文檔中的某一篇文章中的位置對(duì)句子集合進(jìn)行排序。句子排序任務(wù)要解決的問題就是把一組亂序的句子,排列成連貫、通順的段落。

設(shè)給定一組亂序的句子集S=(s1,s2,…,sn),句子排序的任務(wù)目標(biāo)是將其排列成順序o*,對(duì)于順序o*如式(1)所示。

(1)

在給定句子集S的情況下,順序o*的概率P(o*|s)大于其他任何順序的概率,可以表示為:

P(o*|S)>P(o|S), ?o∈Ψ

(2)

其中,o表示句子集S的任一種排序,而Ψ表示句子集S的所有可能的排序的集合。

1.2 模型架構(gòu)

我們采用指針網(wǎng)絡(luò)模型(Pointer Network)[8]對(duì)句子集S進(jìn)行排序。指針網(wǎng)絡(luò)由Nallapati等[9]提出,該算法的思路是選取輸入結(jié)合的元素作為輸出,可以有效緩解OOV問題。

指針網(wǎng)絡(luò)模型的結(jié)構(gòu)非常簡(jiǎn)潔,如圖1所示,是基本的seq2seq+attention架構(gòu)。

圖1 指針網(wǎng)絡(luò)模型結(jié)構(gòu)

基于指針網(wǎng)絡(luò)的句子排序模型如圖2所示。該任務(wù)可以表示成計(jì)算以順序o為集合S排序的概率P(o|S),計(jì)算如式(3)所示。

(3)

圖2 基于指針網(wǎng)絡(luò)的句子排序模型

概率P(o|S)可以通過指針網(wǎng)絡(luò)計(jì)算,計(jì)算如式(4)、式(5)所示,其中,ej,dj分別是指針網(wǎng)絡(luò)編碼端和解碼端的輸出。

P(oi|oi-1,…,o1,S)=softmax(ui)oi

(4)

(5)

1.2.1 編碼端

指針網(wǎng)絡(luò)的編碼器模型可以表示為式(6),其中,Enc(soj)表示句子soj的編碼。

ej=LSTM(Enc(soj),ej-1),j=(1,…,n)

(6)

1.2.2 解碼端

指針網(wǎng)絡(luò)的解碼器模型可以表示為式(7),其中,Enc(soi)表示句子soi的編碼。

di=LSTM(Enc(soi),di-1),i=(1,…,n)

(7)

1.3 句子順序概率

(8)

1.3.1 貪心算法

(9)

1.3.2 集束搜索算法

(10)

2 模型訓(xùn)練

2.1 詞向量訓(xùn)練

在自然語言處理的發(fā)展過程中,不同的詞向量表示方法被相繼提出,例如,Word2Vec、GloVe、ELMO。但這些模型大多數(shù)應(yīng)用于英語。他們把單詞作為一個(gè)基本單位,無法學(xué)習(xí)單詞的內(nèi)部結(jié)構(gòu)變化線詞根詞綴的信息。對(duì)于形態(tài)豐富的語言來說,無法連接使用這些模型訓(xùn)練的分量。

朝鮮語句子由多個(gè)語節(jié)構(gòu)成,使用空格分寫,而每個(gè)語節(jié)(eojeol)由一個(gè)或多個(gè)形態(tài)素組成。其中語節(jié)是朝鮮語中的一個(gè)分寫單位,而形態(tài)素則是具有實(shí)際意義的最小語言單位[10]。例如,圖3的句子中共有5個(gè)語節(jié),其中每個(gè)語節(jié)由一個(gè)或多個(gè)形態(tài)素構(gòu)成,圖中以“+”作為形態(tài)素的分隔符。若僅僅通過語節(jié)來訓(xùn)練詞向量,那么由于朝鮮語的詞尾形態(tài)變化豐富,使得訓(xùn)練得到的詞向量的語義表示能力不足。為了解決這一問題,本文將采取以下兩種朝鮮語的詞向量訓(xùn)練方法: ①先將語節(jié)拆分成多個(gè)形態(tài)素(變換原形)的組成形式,再對(duì)拆分好的形態(tài)素進(jìn)行詞向量訓(xùn)練; ②以朝鮮語子詞(音節(jié)和字母)為單位,用skip-gram模型訓(xùn)練詞向量。上述兩種方法都考慮了朝鮮語的形態(tài)信息,訓(xùn)練得到的詞向量語義表達(dá)能力更強(qiáng)。

圖3 朝鮮語句子中的語節(jié)和形態(tài)素

2.1.1 形態(tài)素詞向量(Morpheme Vector, MorV)

圖4 多任務(wù)訓(xùn)練模型示意圖

為了使模型獲得更準(zhǔn)確的形態(tài)素拆分能力,在這里我們采用seq2seq模型,將詞性信息與形態(tài)素原型轉(zhuǎn)換兩個(gè)任務(wù)同時(shí)進(jìn)行訓(xùn)練,并將同形異義詞作為不同單詞進(jìn)行訓(xùn)練。由于朝鮮語的形態(tài)素和詞性息息相關(guān),同時(shí)對(duì)這兩個(gè)任務(wù)進(jìn)行訓(xùn)練可以有效提升拆分效果。

朝鮮語作為黏著性語言,具有形態(tài)豐富的特點(diǎn),通過上面訓(xùn)練好的模型將朝鮮語轉(zhuǎn)換為其最小單位,并去除其形態(tài)變化豐富的干擾因素。然后我們采用Word2Vec對(duì)其最小單位進(jìn)行詞向量訓(xùn)練,最終得到得形態(tài)素詞向量。

2.1.2 融入子詞級(jí)別信息(Subword Gram, SG)

形態(tài)素拆分過程比較復(fù)雜,容易出現(xiàn)錯(cuò)誤,于是提出了基于字母和音節(jié)的詞向量表示方法[13]。將一個(gè)語節(jié)拆分成字母序列,再進(jìn)行音節(jié)級(jí)別和字母級(jí)別的n元?jiǎng)澐帧?/p>

音節(jié)拆分規(guī)則每個(gè)朝鮮語音節(jié)可拆分成由3個(gè)字母組成的序列,例如“”可拆分成{,,}。如果有的音節(jié)只由兩個(gè)字母組成,那么就用一個(gè)占位符“e”代替第三個(gè)字母,例如“”拆分成{,, e}。使用“|<”作為音節(jié)的開始標(biāo)志,“>”作為音節(jié)的結(jié)束標(biāo)志,這樣語節(jié)“”可以拆分成字母序列{<,,,,,, e,,, e, >}。

字母級(jí)別的n元?jiǎng)澐钟捎诔r語的黏著性,只考慮音節(jié)級(jí)別的n元,無法捕捉到形態(tài)變化信息,因此還需要考慮字母級(jí)別。

2.2 標(biāo)題句向量表示

句向量又可以稱為句嵌入[16],句嵌入模型的輸入為詞向量,輸出為表示句子的向量,該向量可以作為具體任務(wù)的輸入進(jìn)行預(yù)測(cè)和訓(xùn)練。自然語言處理的任務(wù)大多數(shù)都是序列化的信息,如何發(fā)掘序列輸入之間的信息是自然語言處理任務(wù)的關(guān)鍵。在當(dāng)前研究成果中,主要有兩大解決方法: 一是以循環(huán)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的解決方案;二是以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的解決方案。本文將采用這兩種方案對(duì)句子進(jìn)行向量化,并對(duì)比不同的句向量訓(xùn)練方法對(duì)句子排序結(jié)果的影響。

2.2.1 卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[17]仿造生物的視覺機(jī)制,包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一。將包含nw個(gè)單詞的句子$s$通過卷積神經(jīng)網(wǎng)絡(luò)編碼的過程可以表示如式(11)、式(12)所示。其中,Wcov∈R(dlf)df和bcov∈Rdf是可訓(xùn)練的參數(shù),其中,φ(·)是tanh函數(shù)。k=1,…,nw-lf+1。其中的lf和df都是卷積神經(jīng)網(wǎng)絡(luò)模型中的超參數(shù),分別是過濾器(filter)的長(zhǎng)度和特征圖(feature map)的個(gè)數(shù)。

2.2.2 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)[18]是一種特殊的RNN,主要是為了解決長(zhǎng)序列訓(xùn)練過程中的梯度消失問題和梯度爆炸問題。LSTM的存儲(chǔ)單元c∈Rdr由三種門控制: 輸入門i∈Rdr、遺忘門f∈Rdr輸出門o∈Rdr,表示如式(13)~式(15)所示。其中,Wg∈R(d+dr)4dr和bg∈R4dr是可訓(xùn)練的參數(shù),?(·)是表示存儲(chǔ)單元和門控單元的維度的一個(gè)超參數(shù)。t=1,…,nw其中σ(·)是sigmoid函數(shù),?(·)是tanh函數(shù)。

我們將通過長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)編碼的句子向量表示如式(16)所示。

踢鴿子的人走開了,但那位婦人追上他,說:“你叫什么名字?家住哪兒?我要去告發(fā)你?!蹦悄凶訍篮薜卣f:“別在這兒把雞毛當(dāng)令箭?!彼f:“我想你把一只可憐的小鳥當(dāng)作雞毛吧?”“嗨,不是令箭,兇殺不是令箭?!蹦莾蓚€(gè)少年中的一個(gè)雙手插在外衣的口袋里,站在那里咧開嘴笑笑說。他的朋友機(jī)靈地接口說:“你說得不錯(cuò),雞毛是兇殺,但令箭不是兇殺?!薄罢f得好,”第一個(gè)少年說,“鴿子什么時(shí)候才能成為令箭呢,只有在它成為雞毛的時(shí)候?!保?014:406)

Enc(s)=hnw

(16)

2.3 目標(biāo)函數(shù)訓(xùn)練

(17)

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文從延邊日?qǐng)?bào)朝鮮語版、人民網(wǎng)朝鮮語版等新聞網(wǎng)站爬取了20 000篇朝鮮語新聞作為實(shí)驗(yàn)數(shù)據(jù)集。將每篇新聞進(jìn)行語段分隔,選取句子數(shù)目大于2的語段作為一個(gè)數(shù)據(jù)單元,將每個(gè)數(shù)據(jù)單元的句子打亂編號(hào)。例如將語段[s1,s2,s3,s4]編碼為[4,1,2,3],然后再對(duì)該語段編碼隨機(jī)打亂為[3,2,4,1]。這樣我們就得到一個(gè)訓(xùn)練樣本([句1,句2,句3,句4], [4,1,2,3], [3,2,4,1]),第一項(xiàng)為順序句子集合,第二項(xiàng)為正確順序,第三項(xiàng)為亂序順序。按照上述形式對(duì)所有數(shù)據(jù)單元進(jìn)行編碼再打亂,得到樣本集合。對(duì)這些樣本集合進(jìn)行訓(xùn)練集、驗(yàn)證集和測(cè)試集的劃分。劃分結(jié)果如表1所示。

表1 實(shí)驗(yàn)所用語料

3.2 超參數(shù)設(shè)置

表2展示了上述模型中的超參數(shù)的設(shè)置。卷積神經(jīng)網(wǎng)絡(luò)的句子編碼模型使用了3種不同長(zhǎng)度lf的過濾器[21]。

3.3 測(cè)評(píng)方法

本文采用了3種不同的模型評(píng)測(cè)方法: ①成對(duì)度量法; ②最長(zhǎng)序列比法; ③最佳匹配比法。

表2 超參數(shù)設(shè)置

3.3.1 成對(duì)度量法

成對(duì)度量法(Pairwise Metrics,PM)指的是,預(yù)測(cè)的相對(duì)順序與原本真正順序相同的句子對(duì)的分?jǐn)?shù)越高越好。成對(duì)度量法可以表示為三個(gè)量化分?jǐn)?shù): 精確值P、召回率R和F值,如式(18)~式(20)所示。其中,函數(shù)S(·)表示一段文本中所有句子對(duì)的集合,絕對(duì)值符號(hào)表示的是集合的大小。

3.3.2 最長(zhǎng)序列比法

最長(zhǎng)序列比法(Longest Sequence Ratio,LSR)在一組序列中找到所有序列共有的最長(zhǎng)子序列,如式(21)~式(23)所示。其中,函數(shù)L(·)表示的是最長(zhǎng)正確子序列中元素的個(gè)數(shù)。

3.3.3 最佳匹配比法

(24)

(25)

3.4 實(shí)驗(yàn)結(jié)果和分析

我們用兩種不同的詞向量訓(xùn)練方法,兩種不同的句向量訓(xùn)練方法對(duì)句子進(jìn)行編碼,然后通過指針網(wǎng)絡(luò)進(jìn)行句子排序,在進(jìn)行句子排序的過程中,使用兩種不同的搜索算法: 貪心算法和集束搜索算法,結(jié)果分別用三種評(píng)測(cè)指標(biāo)進(jìn)行評(píng)測(cè)。結(jié)果如表3所示。

表3 不同方法的句子排序結(jié)果對(duì)比

根據(jù)表3我們可以看出,使用本文提出的形態(tài)素拆分模型(MorV)將語節(jié)拆分成形態(tài)素,再進(jìn)行詞向量訓(xùn)練,在三種評(píng)測(cè)方法下,可以使得朝鮮語句子排序效果更好。使用LSTM進(jìn)行句子編碼,相對(duì)于CNN,句子排序效果更好。增加集束搜索(beam search)過程后,句子排序的效果也有所提升。

從圖5中也可以直觀得出結(jié)論: 使用MorV詞向量訓(xùn)練模型+LSTM句編碼模型,句子排序效果最佳。表4給出的是句子排序示例。

圖5 (a)PRM評(píng)測(cè)結(jié)果

圖5 (b)LSR評(píng)測(cè)結(jié)果

圖5 (c)PM評(píng)測(cè)結(jié)果

表4 句子排序示例

4 總結(jié)

句子排序是近年來自然語言處理中多文檔摘要生成和機(jī)器閱讀理解答案融合任務(wù)中的一個(gè)十分重要子任務(wù)。以往的研究主要是基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,但隨著深度學(xué)習(xí)方法的不斷發(fā)展,句子排序任務(wù)也可以使用一些深度學(xué)習(xí)方法來解決。

在朝鮮語信息化進(jìn)程中,也需要跟上深度學(xué)習(xí)發(fā)展的步伐。本文將深度學(xué)習(xí)模型用于朝鮮語信息化處理,使用多任務(wù)Seq2Seq模型進(jìn)行形態(tài)素拆分,并且將指針網(wǎng)絡(luò)用于朝鮮語句子排序,取得了較好的效果。接下來,我們將繼續(xù)結(jié)合朝鮮語本身的特點(diǎn),繼續(xù)提高句子的排序效果,并將其用于多文檔摘要任務(wù)中。

猜你喜歡
朝鮮語指針排序
作者簡(jiǎn)介
初級(jí)朝鮮語課堂教學(xué)模式改革研究
恐怖排序
郊游
節(jié)日排序
為什么表的指針都按照順時(shí)針方向轉(zhuǎn)動(dòng)
漢語經(jīng)歷體標(biāo)記“過2”與朝鮮語對(duì)應(yīng)表現(xiàn)的對(duì)比分析
朝鮮語音韻論中的同化現(xiàn)象
朝鮮語專業(yè)課外活動(dòng)現(xiàn)狀與對(duì)策初探
淺析C語言指針
通辽市| 景泰县| 新巴尔虎左旗| 正安县| 鄱阳县| 馆陶县| 上高县| 岚皋县| 宿迁市| 高唐县| 施甸县| 出国| 霍林郭勒市| 泗阳县| 高平市| 平阴县| 汤原县| 漳州市| 苍山县| 中阳县| 龙州县| 伊川县| 太原市| 会泽县| 建湖县| 井陉县| 南岸区| 长岭县| 昌宁县| 交城县| 民县| 丹凤县| 平顶山市| 合阳县| 壶关县| 九江市| 电白县| 若尔盖县| 天等县| 浏阳市| 乐清市|