国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)到文本生成的神經(jīng)網(wǎng)絡(luò)模型研究

2019-09-28 01:25龔雋鵬張鵬洲
關(guān)鍵詞:編碼器表格向量

曹 娟,龔雋鵬,張鵬洲

(中國傳媒大學(xué),北京 100024)

0 引 言

2016年被公認(rèn)為“人工智能發(fā)展元年”,是人工智能正式提出的60周年,國內(nèi)各行各業(yè)紛紛涌入人工智能領(lǐng)域,尤其是新聞行業(yè),國內(nèi)科技公司包括行業(yè)巨頭百度、騰訊、阿里等和各大科研機(jī)構(gòu)各自研發(fā)自動化新聞生產(chǎn),掀起了一股新聞機(jī)器人的熱潮。機(jī)器新聞寫作實(shí)質(zhì)上就是一個(gè)利用自然語言生成技術(shù)進(jìn)行新聞寫作的過程。它是一種自然語言生成引擎,利用算法程序,通過采集大量的各種題材及高質(zhì)量的數(shù)據(jù),建設(shè)各種分類的龐大數(shù)據(jù)庫,借助人工智能實(shí)現(xiàn)從數(shù)據(jù)到認(rèn)識、見解和建議的提升與跨越,最后由機(jī)器自動生產(chǎn)新聞[1]。

由此可見,機(jī)器新聞寫作的核心技術(shù)是自然語言生成(natural language generation,NLG),并需要大數(shù)據(jù)和云計(jì)算的支撐。自然語言生成是指基于非語言輸入自動生成自然語言文本的過程,是人工智能和計(jì)算語言學(xué)的分支[2]。自然語言生成中一個(gè)典型的問題就是采用結(jié)構(gòu)化的數(shù)據(jù)例如一張表格作為輸入,生成恰當(dāng)而流暢的文本作為輸出來描述數(shù)據(jù)[3]。解決這一問題的方法被稱為數(shù)據(jù)到文本的生成(data-to-text generation)。

近年來,隨著數(shù)據(jù)到文本生成研究的深入,研究人員將神經(jīng)網(wǎng)絡(luò)方法引入該領(lǐng)域,研究成果主要發(fā)表在INLG(international natural language generation)、ENLG(European natural language generation)、ACL(ACL home association for computational linguistics)、NAACL(The North American chapter of the association for computational linguistics)和AAAI(American association for artificial intelligence)這幾個(gè)專業(yè)學(xué)術(shù)會議上,目前已經(jīng)取得了不錯(cuò)的研究進(jìn)展。文中將介紹用于數(shù)據(jù)到文本生成的神經(jīng)網(wǎng)絡(luò)模型和近年來該領(lǐng)域的研究成果,然后介紹相關(guān)數(shù)據(jù)集并對比各模型的實(shí)驗(yàn)結(jié)果,最后分析該領(lǐng)域研究存在的問題并提出未來發(fā)展的建議。

1 數(shù)據(jù)到文本生成的神經(jīng)網(wǎng)絡(luò)模型

目前用于數(shù)據(jù)到文本生成的神經(jīng)網(wǎng)絡(luò)模型大部分都是基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的神經(jīng)語言模型和Seq2seq架構(gòu),同時(shí)使用了注意力模型。下面介紹這幾種模型。

1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)

文本生成本身是一個(gè)序列輸出問題,RNN就是一種對序列數(shù)據(jù)建模的神經(jīng)網(wǎng)絡(luò),可以很好地刻畫詞匯的前后關(guān)聯(lián),這也是由RNN自身的特點(diǎn)決定的。RNN可以對前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前輸入的計(jì)算中,即隱藏層之間的節(jié)點(diǎn)不再是無連接的而是有連接的,并且隱藏層的輸入不僅包括當(dāng)前輸入層的輸入,還包括上一時(shí)刻隱藏層的輸出[4]。圖1是RNN基本模型的示例圖。

圖1 RNN基本模型示例

其中xt是t時(shí)刻的輸入,比如單詞對應(yīng)的one-hot向量(只有一維是1,其他維是0)或者分布式詞向量;st是t時(shí)刻的隱狀態(tài),由上一時(shí)刻的隱狀態(tài)和當(dāng)前輸入得到,如式1所示,f一般是非線性的激活函數(shù),在計(jì)算s0時(shí),即第一個(gè)單詞的隱藏層狀態(tài),一般置為0;ot表示t時(shí)刻的輸出,比如下個(gè)單詞的向量表示,如式2所示,softmax是激活函數(shù),用于輸出層,輸出0和1之間的概率值,總和為1,適合于使用概率刻畫輸出的情況,例如多分類任務(wù);U、V、W是訓(xùn)練時(shí)需要學(xué)習(xí)的參數(shù),在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中,每層網(wǎng)絡(luò)的參數(shù)是不共享的,而在RNN中,所有層次均共享同樣的參數(shù),大大降低了網(wǎng)絡(luò)中需要學(xué)習(xí)的參數(shù)量。

st=f(Uxt+Wst-1)

(1)

ot=softmax(Vst)

(2)

1.2 基于RNN的神經(jīng)語言模型

語言模型就是指語言產(chǎn)生的規(guī)律,一般用來預(yù)測所使用語言語序的概率,或者是當(dāng)前上下文使用某個(gè)詞語的概率,也就是用來表示語言產(chǎn)生順序的建模,比如用某個(gè)詞是否恰當(dāng),這樣的語序構(gòu)造句子是否妥當(dāng)。因此訓(xùn)練一個(gè)語言模型需要相當(dāng)大的樣本數(shù)據(jù)。語言模型可以分為文法型的語言模型、統(tǒng)計(jì)模型和神經(jīng)網(wǎng)絡(luò)語言模型。統(tǒng)計(jì)類的語言模型包括N-gram、隱馬爾可夫鏈模型和最大熵模型等。

神經(jīng)語言模型(neural language model,NLM)是一類用來克服維數(shù)災(zāi)難的語言模型,它使用詞的分布式表示對自然語言序列的建模[5]。基于RNN的神經(jīng)語言模型就是利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對語言建模,用來描述語言序列的產(chǎn)生過程。與RNN相比,該模型多了詞向量層(embedding)和softmax層。

1.2.1 詞向量層

在神經(jīng)網(wǎng)絡(luò)的輸入層,每一個(gè)單詞用一個(gè)實(shí)數(shù)向量表示,這個(gè)向量被成為“詞向量”(word embedding,也稱為詞嵌入)。詞向量可以形象地理解為將詞匯表嵌入到一個(gè)固定維度的實(shí)數(shù)空間里。將單詞編號轉(zhuǎn)化為詞向量主要有兩大作用:

(1)降低輸入的維度。如果不使用詞向量層,而直接將單詞以O(shè)ne-hot向量的形式輸入循環(huán)神經(jīng)網(wǎng)絡(luò),那么輸入的維度大小將與詞匯表大小相同,通常在1 000以上。而詞向量的維度通常在200到1 000之間,這將大大減少循環(huán)神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量和計(jì)算量。

(2)增加語義信息。簡單的單詞編號是不包含任何語義信息的。兩個(gè)單詞之間編號相近,并不意味著它們的含義有任何聯(lián)系。而詞向量層將稀疏的編號轉(zhuǎn)化為稠密的向量表示,這使得詞向量有可能包含更多豐富的信息。在自然語言應(yīng)用中學(xué)習(xí)得到的詞向量通常會將含義相似的詞賦予取值相近的詞向量值,使得上層網(wǎng)絡(luò)可以更容易抓住相似單詞之間的共性。

1.2.2 softmax層

softmax層的作用是將循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出轉(zhuǎn)為一個(gè)單詞表中每個(gè)單詞的輸出概率。為此需以下兩個(gè)步驟:

(1)使用一個(gè)線性映射將循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出映射為一個(gè)維度與詞匯表大小相同的向量,這一步叫l(wèi)ogits。

(2)調(diào)用softmax方法將logits轉(zhuǎn)化為加和為1的概率。

1.3 基于RNN的Seq2seq架構(gòu)

機(jī)器翻譯中最經(jīng)典的架構(gòu)就是Seq2seq,它是RNN的變種,也是Encoder-Decoder的一種[6]。基于RNN的Seq2seq架構(gòu)包含編碼器(encoder)和解碼器(decoder),解碼部分又分訓(xùn)練(train)和推斷(inference)兩個(gè)過程,如圖2所示。

圖2 Seq2seq的訓(xùn)練過程(左)和推斷過程(右)

其基本思想就是利用兩個(gè)RNN,一個(gè)RNN作為encoder,另一個(gè)RNN作為decoder。encoder負(fù)責(zé)將輸入序列壓縮成指定長度的向量,這個(gè)向量可以看成是這個(gè)序列的語義,這個(gè)過程稱為編碼。獲取語義向量最簡單的方式就是直接將最后一個(gè)輸入的隱狀態(tài)作為語義向量。也可以對最后一個(gè)隱含狀態(tài)做變換得到語義向量,還可以將輸入序列的所有隱含狀態(tài)做變換得到語義變量。而decoder負(fù)責(zé)根據(jù)語義向量生成指定的序列,這個(gè)過程也稱為解碼。最簡單的方式是將encoder得到的語義變量作為初始狀態(tài)輸入到decoder的RNN中,得到輸出序列。

1.4 注意力模型

在Encoder-Decoder結(jié)構(gòu)中,encoder把所有的輸入序列都編碼成一個(gè)統(tǒng)一的語義向量再解碼,因此,這個(gè)語義向量必須包含原始序列中的所有信息,它的長度就成了限制模型性能的瓶頸。

注意力機(jī)制(attention mechanism)在Encoder-Decoder框架內(nèi),通過在encoder中加入attention模型,對源數(shù)據(jù)序列進(jìn)行數(shù)據(jù)加權(quán)變換,或者在decoder引入attention模型,對目標(biāo)數(shù)據(jù)進(jìn)行加權(quán)變化,可以有效提高序列對序列的自然方式下的系統(tǒng)表現(xiàn)[7]。

Attention模型的作用:減小處理高維輸入數(shù)據(jù)的計(jì)算負(fù)擔(dān),通過結(jié)構(gòu)化的選取輸入的子集,降低數(shù)據(jù)維度;“去偽存真”,讓任務(wù)處理系統(tǒng)更專注于找到輸入數(shù)據(jù)中顯著的與當(dāng)前輸出相關(guān)的有用信息,從而提高輸出的質(zhì)量。

2 研究方法

Mei等在2016年提出一種端到端(end-to-end)的基于編解碼(encoder-decoder)框架的神經(jīng)網(wǎng)絡(luò)模型(簡稱MBW)[8],其中用到了基于長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)。Lebret等在2016年介紹了一種建立在文本生成的條件神經(jīng)語言模型(conditional neural language models)基礎(chǔ)上的神經(jīng)模型(簡稱Table NLM),用于根據(jù)維基百科人物傳記數(shù)據(jù)集中的事實(shí)表格生成人物傳記的初始句子[9]。Sha等在2017年提出一種規(guī)劃順序(order-planning)的神經(jīng)網(wǎng)絡(luò)模型[10];Chisholm等在2017年針對從維基百科數(shù)據(jù)生成一句話的人物傳記設(shè)計(jì)了一種自編碼器seq2seq模型(簡稱S2SAE)[11];Liu等在2018年提出一種面向結(jié)構(gòu)(structure-aware)的seq2seq模型[12];Bao等在2018年提出一種面向表格(table-aware)的seq2seq模型[13];Nema等在2018年使用雙焦點(diǎn)注意力機(jī)制和門控正交化生成結(jié)構(gòu)化數(shù)據(jù)的描述(簡稱BAMGO)[14];Wiseman等在2018年設(shè)計(jì)了一種利用神經(jīng)網(wǎng)絡(luò)抽取模板生成文本的方式(簡稱NTemp)[15];Freitag等在2018年使用降噪自編碼器(denoising autoencoder)實(shí)現(xiàn)了無監(jiān)督的自然語言生成過程(簡稱NLGDA)[16];Kaffee等在2018年提出面向維基百科單句的跨領(lǐng)域多語言的神經(jīng)網(wǎng)絡(luò)模型(簡稱UL)[17]。下面具體介紹這些模型和方法。

2.1 MBW

MBW模型以encoder-aligner-decoder作為框架,使用LSTM-RNN和對準(zhǔn)器(coarse-to-fine aligner)來選擇數(shù)據(jù)并將其轉(zhuǎn)化為文本描述。在編碼端,模型將數(shù)據(jù)記錄的全集作為輸入,使用了雙向LSTM-RNN對其編碼;然后對準(zhǔn)器經(jīng)過初選和精選決定哪些輸入記錄出現(xiàn)在描述中;最后由一個(gè)LSTM-RNN解碼器將挑選出來的數(shù)據(jù)解碼生成自然語言文本輸出。在數(shù)據(jù)到文本生成領(lǐng)域,MBW是首個(gè)使用神經(jīng)網(wǎng)絡(luò)方法將內(nèi)容選擇和表層實(shí)現(xiàn)視作一體,實(shí)現(xiàn)端到端(end-to-end)的神經(jīng)網(wǎng)絡(luò)模型。該模型分別在WEATHERGOV[18]和ROBOCUP[19]兩個(gè)數(shù)據(jù)集上進(jìn)行測試,并得到了當(dāng)時(shí)最好的結(jié)果。但由于這兩個(gè)數(shù)據(jù)集中表格結(jié)構(gòu)相對簡單,表格內(nèi)的數(shù)據(jù)除了數(shù)值類數(shù)據(jù),其他大多都是提前定義好的幾種模式,因此該模型使用了one-hot向量作為輸入,適用于這種固定模式表示的數(shù)據(jù),從而不適合更復(fù)雜的數(shù)據(jù)表示的數(shù)據(jù)集,比如WIKIBIO[9]。

2.2 Table NLM

Table NLM模型以條件神經(jīng)語言模型為基礎(chǔ),針對人物傳記數(shù)據(jù)集WIKIBIO進(jìn)行設(shè)計(jì),關(guān)注到了數(shù)據(jù)記錄中的屬性(field),并分別從全局和局部對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行解析。全局條件總結(jié)了一個(gè)人物的所有信息來獲取高層主題,比如這篇傳記是關(guān)于科學(xué)家還是藝術(shù)家的;局部條件根據(jù)人物傳記數(shù)據(jù)表格(infobox)中詞之間的關(guān)系來描述之前生成的詞組。該模型采用了標(biāo)準(zhǔn)的三層架構(gòu),分別是詞向量層、線性層和softmax層。詞向量層又細(xì)分為單詞向量(word embedding)、表格向量(table embedding)和聚合向量(aggregating embeddings)。單詞向量只包含表格中value部分的詞組信息,表格向量體現(xiàn)了局部條件和全局條件,局部條件主要包含表格的屬性信息,全局條件則將屬性和值二者都考慮在內(nèi),聚合向量是將單詞向量和表格向量聚合在一起經(jīng)過線性變換得到。而線性層則是又用了一個(gè)線性變換將聚合向量轉(zhuǎn)換為輸出詞組的分值,同時(shí)該模型使用了拷貝機(jī)制,通過計(jì)算聚合向量與屬性和值的關(guān)系,選取表格內(nèi)最可能替代輸出文本中未知詞的詞組。雖然此模型不適合長距離依賴,但也獲得了當(dāng)時(shí)實(shí)驗(yàn)最好的結(jié)果。

2.3 Order-planning Model

Order-planning Model模型使用了encoder-decoder框架、RNN和attention,設(shè)計(jì)了field linking機(jī)制,模擬不同field之間的關(guān)系,幫助模型更好地規(guī)劃文本生成的順序,同時(shí)使用了拷貝機(jī)制,解決少見詞的問題(rare words)。該模型由編碼器、調(diào)度器和解碼器組成。編碼器將field和content結(jié)合輸入到LSTM中,經(jīng)過基于內(nèi)容的attention和基于link的attention混合后得到attention向量,再傳送給解碼器的LSTM,最終配合拷貝機(jī)制輸出文本。該模型在WIKIBIO數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),獲得了較之前更好的結(jié)果。

2.4 S2SAE

S2SAE模型是一個(gè)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的seq2seq模型,使用了attention機(jī)制,以及自編碼器(autoencoder),實(shí)現(xiàn)了從維基百科人物傳記結(jié)構(gòu)化數(shù)據(jù)到文本單句的生成。該模型選取了15個(gè)頻率最高的field,經(jīng)過三層GRU的編碼器和解碼器,選取了10萬個(gè)詞作為詞庫,詞向量設(shè)定為256維。加入自編碼器后,除了向前的編解碼,還有一條回路,即向后的編解碼,更好地調(diào)整誤差(loss)。實(shí)驗(yàn)證明,加入自編碼器的seq2seq比標(biāo)準(zhǔn)的seq2seq模型效果提升很多,BLEU的分值從33提高到41。

2.5 Structure-aware Seq2seq

Structure-aware Seq2seq模型使用了端到端的encoder-decoder架構(gòu),通過本地決策和全局決策來模擬人類選取記錄寫作的過程,即首先決定哪些記錄應(yīng)該被選取和如何安排它們的順序,其次考慮表格中的哪些單詞應(yīng)該被關(guān)注。本地決策主要完成在生成文本的每一步時(shí)關(guān)注表格中哪些單詞,通過對表格內(nèi)容進(jìn)行LSTM編碼和使用單詞級別的attention來實(shí)現(xiàn);全局決策的目的是在生成文本時(shí)決定關(guān)注哪些記錄,通過對表格的屬性進(jìn)行自定義屬性門(field-gating)LSTM編碼,以及屬性級別的attention來實(shí)現(xiàn)。該模型在WIKIBIO上進(jìn)行實(shí)驗(yàn),得到了不錯(cuò)的結(jié)果。

2.6 Table-aware Seq2seq

Table-aware Seq2seq模型也使用了encoder-decoder架構(gòu)和attention機(jī)制,不同的是,這里的RNN采用了GRU,實(shí)驗(yàn)對象主要是一個(gè)開放領(lǐng)域的數(shù)據(jù)集WIKITABLETEXT。WIKITABLETEXT是第一個(gè)針對數(shù)據(jù)到文本生成的開放領(lǐng)域的數(shù)據(jù)集,文本中會出現(xiàn)很多不常見的詞匯,這些詞匯通常存在于表格內(nèi)。為了解決這種少見詞的問題,該模型使用了一個(gè)強(qiáng)大的拷貝機(jī)制(copying mechanism),極大地提升了模型在該數(shù)據(jù)集上的效果。該模型在WIKIBIO上也做了實(shí)驗(yàn),但效果不如Structure-aware seq2seq模型,究其原因,該模型的設(shè)計(jì)主要針對WIKITABLETEXT,來自不同的領(lǐng)域,而WIKIBIO是專門面向人物傳記的,且其句子平均長度也比WIKITABLETEXT中的大很多(26.1>13.9),因此拷貝機(jī)制對其影響較小。

2.7 BAMGO

BAMGO模型在seq2seq基礎(chǔ)上做了改進(jìn),加入了雙焦點(diǎn)注意力機(jī)制和正交化門控機(jī)制。雙焦點(diǎn)注意力機(jī)制結(jié)合了宏觀和微觀層的信息,即屬性和屬性內(nèi)的值,正交化門控的目的是在生成文本的過程中將已出現(xiàn)的屬性在后續(xù)生成步驟中被遺忘(never look back)。該模型在英文、法文和德文的WIKIBIO上分別做了實(shí)驗(yàn),在法文和德文上的效果遠(yuǎn)遠(yuǎn)不如在英文上的效果好,究其原因,法語和德語的數(shù)據(jù)集本來就比較小,且其文本長度也比英語的長,格式也不如英文的固定。由此可見,模型對于不同語言的文本,效果也一定相同。

2.8 NTemp

NTemp模型是一個(gè)基于隱半馬爾可夫(HSMM)解碼器的神經(jīng)類似模板(template-like)生成模型,和Encoder-Decoder這種黑盒模型不同的是,它是可解釋和可控的神經(jīng)網(wǎng)絡(luò)模型。該模型主要通過HSMM生成類似模板結(jié)構(gòu),運(yùn)用一個(gè)轉(zhuǎn)移模型判斷兩種狀態(tài),一種代表不在詞匯表中,需要表格中的原始詞,通過拷貝機(jī)制替換模板生成文本,一種可直接生成文本。生成文本的過程也用了RNN來實(shí)現(xiàn)。這種方法適合大規(guī)模的文本數(shù)據(jù)集,其效果和Encoder-Decoder模型差不多。

2.9 NLGDA

NLGDA模型基于seq2seq,向編碼器中添加噪音,再使用降噪自編碼器(denoising autoencoder),對生成的語句重新構(gòu)造,會更好地生成正確的語句。這種無監(jiān)督的方法適合于包含結(jié)構(gòu)數(shù)據(jù)全部內(nèi)容的文本生成,并不適用于所有NLG問題和數(shù)據(jù)集。該模型被用于E2E數(shù)據(jù)集[20]。E2E是一個(gè)專門為End-to-End設(shè)計(jì)的描述飯店信息的數(shù)據(jù)集,其中每組數(shù)據(jù)包含了飯店的最多8個(gè)不同的信息和描述所有信息的一句話,共42 061組數(shù)據(jù)。

2.10 UL

UL模型主要針對不同語言的開放領(lǐng)域的維基百科而設(shè)計(jì),基于Encoder-Decoder架構(gòu),使用了無序的三元組作為輸入,三元組由主題、屬性和對象構(gòu)成,解碼器使用了一層GRU,最后生成文本利用了拷貝機(jī)制。該模型的實(shí)驗(yàn)使用了維基百科中兩種不同特點(diǎn)的語言,分別是阿拉伯語和世界語。阿拉伯語具有形態(tài)豐富和詞匯量大的特點(diǎn),世界語是一種人工語言,其語法嚴(yán)謹(jǐn),以更容易掌握著稱,但世界語的文本數(shù)據(jù)量少于阿拉伯語。最終測試結(jié)果是阿拉伯語的結(jié)果比世界語略好,同時(shí)二者皆勝過不使用神經(jīng)網(wǎng)絡(luò)方式的結(jié)果。

3 數(shù)據(jù)集和實(shí)驗(yàn)結(jié)果

該研究領(lǐng)域可用的數(shù)據(jù)集本來就不多,使用神經(jīng)網(wǎng)絡(luò)模型做過實(shí)驗(yàn)的數(shù)據(jù)集更是少之又少,下面介紹WEATHERGOV、ROBOCUP、WIKIBIO和E2E這幾個(gè)數(shù)據(jù)集和前面介紹過的方法在這些數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。

3.1 WEATHERGOV和ROBOCUP的模型實(shí)驗(yàn)結(jié)果對比

WEATHERGOV是Liang等在2009年創(chuàng)建的天氣預(yù)報(bào)數(shù)據(jù)集。他們從www.weather.gov上收集了美國2009年2月7日到9日三天的3 753個(gè)城市的本地天氣預(yù)報(bào),每個(gè)城市每天有白天和晚上兩個(gè)場景。天氣預(yù)報(bào)由選定時(shí)間段的氣溫、風(fēng)速、云量和降雨可能性指標(biāo)等構(gòu)成。數(shù)據(jù)集共包含29 528個(gè)場景,每個(gè)場景平均有36條記錄和28.7個(gè)單詞。

ROBOCUP是Chen和Mooney在2008年創(chuàng)建的數(shù)據(jù)集,包含了2001年到2004年Robocup 決賽的1 919個(gè)場景。每個(gè)場景由一句話組成,代表比賽評論的一部分,同時(shí)配有評論發(fā)出前5秒內(nèi)的一組候選事件記錄。每句話最多對應(yīng)一條記錄,Chen和Mooney已經(jīng)做好了標(biāo)注。平均每個(gè)場景有2.4條記錄和5.7個(gè)單詞。

WEATHERGOV和ROBOCUP在數(shù)據(jù)量和結(jié)構(gòu)上有類似之處,相對詞匯量小,結(jié)構(gòu)簡單,在介紹過的神經(jīng)網(wǎng)絡(luò)模型里MBW是目前結(jié)果最好的,通常與非神經(jīng)網(wǎng)絡(luò)模型KL[21]和AKL[22]對比。KL是Konstas等在2013年提出的模型,AKL是Angeli等在2010年提出的模型。表1展示了各模型在這兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,評價(jià)指標(biāo)為F1值和BLEU-4。

表1 WEATHERGOV和ROBOCUP的模型結(jié)果

3.2 E2E的模型實(shí)驗(yàn)結(jié)果對比

E2E是描述飯店信息的數(shù)據(jù)集,前面已經(jīng)介紹過。在上述神經(jīng)網(wǎng)絡(luò)模型中,NTemp和NLGDA在其上做過實(shí)驗(yàn)。E2E challenge[23]是Dusek提出的監(jiān)督模型,作為該數(shù)據(jù)集的基準(zhǔn)方法,其結(jié)果如表2所示。評價(jià)指標(biāo)有BLEU、ROUGE-L和NIST。

表2 E2E的模型結(jié)果

3.3 WIKIBIO的模型實(shí)驗(yàn)結(jié)果對比

WIKIBIO是Lebret等在2016年介紹的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含了2015年9月從英文維基百科上收集的728 321篇人物傳記和對應(yīng)的表格數(shù)據(jù),因其數(shù)據(jù)量大、詞匯量大、屬性多、結(jié)構(gòu)相對復(fù)雜等,也是目前為止在其上實(shí)驗(yàn)最多的數(shù)據(jù)集。使用該數(shù)據(jù)集獲得的實(shí)驗(yàn)結(jié)果更具有比較的意義。表3展示了介紹過的神經(jīng)網(wǎng)絡(luò)模型的實(shí)驗(yàn)結(jié)果,評價(jià)指標(biāo)有BLEU-4、ROUGE和NIST。

表3 WIKIBIO的模型結(jié)果

4 存在問題和發(fā)展方向

目前該領(lǐng)域存在一些問題,需要在未來的研究中解決:

(1)數(shù)據(jù)集缺乏。目前公開可用的數(shù)據(jù)集非常缺乏,尤其是能用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)集,必須保證數(shù)據(jù)量大。

(2)領(lǐng)域單一??捎?xùn)練的數(shù)據(jù)集集中在幾個(gè)特定領(lǐng)域,一方面需要新開辟其他領(lǐng)域以供研究,另一方面也需要跨領(lǐng)域的研究。

(3)評價(jià)方法不統(tǒng)一。研究人員用于各個(gè)數(shù)據(jù)集的評價(jià)指標(biāo)并不完全一致,使用評價(jià)方法也不統(tǒng)一,加大了對比的難度。

數(shù)據(jù)到文本生成在未來的發(fā)展中越來越重要,最好能專門針對這一研究領(lǐng)域提供公開數(shù)據(jù)集和統(tǒng)一的評價(jià)方法,以及跨領(lǐng)域、跨語言等不同特點(diǎn)的數(shù)據(jù)集,供研究人員使用。目前數(shù)據(jù)到文本生成的神經(jīng)網(wǎng)絡(luò)模型雖然比之前監(jiān)督和半監(jiān)督的方法提高了不少,但還有進(jìn)步的空間,需要研究人員大膽嘗試不同的方法。比如借鑒相關(guān)領(lǐng)域的最新研究如對話系統(tǒng)、機(jī)器翻譯等,或者加入知識圖譜,又或者從模型根本出發(fā),研究結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),等等。

5 結(jié)束語

近年來國內(nèi)新聞行業(yè)開始嘗試自動撰寫新聞,數(shù)據(jù)到文本生成技術(shù)越來越受到重視,加上深度學(xué)習(xí)的發(fā)展,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)到文本生成模型的研究也越來越多。當(dāng)然,一個(gè)領(lǐng)域需要其他領(lǐng)域帶動著一起發(fā)展,只有在神經(jīng)網(wǎng)絡(luò)方面的研究不斷深入,硬件技術(shù)不斷提升,存儲和處理數(shù)據(jù)的能力越來越強(qiáng),數(shù)據(jù)到文本生成的研究和應(yīng)用才能有更多的可能性。

猜你喜歡
編碼器表格向量
WV3650M/WH3650M 絕對值旋轉(zhuǎn)編碼器
WDGP36J / WDGA36J編碼器Wachendorff自動化有限公司
向量的分解
《現(xiàn)代臨床醫(yī)學(xué)》來稿表格要求
基于Beaglebone Black 的絕對式編碼器接口電路設(shè)計(jì)*
聚焦“向量與三角”創(chuàng)新題
組成語
舞臺機(jī)械技術(shù)與設(shè)備系列談(二)
——編碼器
履歷表格這樣填
表格圖的妙用
福安市| 马鞍山市| 元谋县| 德清县| 丰台区| 澄城县| 威远县| 临洮县| 延寿县| 云和县| 宜黄县| 柳江县| 新平| 诸暨市| 玛多县| 林口县| 沈丘县| 秦安县| 新余市| 周宁县| 辉县市| 龙岩市| 荆门市| 崇明县| 岢岚县| 银川市| 三亚市| 彭泽县| 长乐市| 城市| 淮南市| 静海县| 阿坝县| 乐平市| 盐池县| 三明市| 什邡市| 聂拉木县| 高阳县| 阿尔山市| 东阿县|