數(shù)據(jù)到文本生成研究綜述

2019-01-21 00:57龔雋鵬張鵬洲

計(jì)算機(jī)技術(shù)與發(fā)展 2019年1期

曹娟，龔雋鵬，張鵬洲

(1.中國傳媒大學(xué) 新媒體研究院，北京 100024；2.中國傳媒大學(xué) 理工學(xué)部，北京 100024)

0 引言

自從騰訊2015年推出Dream writer，機(jī)器新聞寫作開始受到國內(nèi)研究者的關(guān)注，并迅速成為學(xué)界和業(yè)界研究的熱點(diǎn)。機(jī)器新聞寫作是指基于數(shù)據(jù)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)，運(yùn)用算法，從可識(shí)別的數(shù)據(jù)中提取具有新聞價(jià)值的信息，形成新聞報(bào)道角度，自動(dòng)選擇語詞樣本、新聞報(bào)道模板生成新聞故事[1]。國外的研究者稱機(jī)器新聞為機(jī)器人新聞(robot journalism)或自動(dòng)化新聞(automated journalism)。目前國外已經(jīng)投入市場(chǎng)的產(chǎn)品包括美國Automated Insights公司的Wordsmith和Narrative Science公司的Quill，國內(nèi)企業(yè)也做了一系列探索和嘗試，包括騰訊公司的Dream writer、新華社的快筆小新、今日頭條的Xiaoming bot、第一財(cái)經(jīng)的DT稿王、南方都市報(bào)的“小南”和廣州日?qǐng)?bào)的“阿同”[2]。當(dāng)前適合通過機(jī)器或算法進(jìn)行的新聞寫作，一般是以各種數(shù)據(jù)、圖表的引用和分析為基礎(chǔ)的硬新聞，具有明顯的數(shù)據(jù)處理色彩，主要用于財(cái)經(jīng)、體育、氣象地質(zhì)和健康等領(lǐng)域[3]。

機(jī)器新聞寫作的核心在于自然語言生成(natural language generation，NLG)技術(shù)。自然語言生成中一個(gè)典型技術(shù)就是使用恰當(dāng)而流暢的文本來描述結(jié)構(gòu)化的數(shù)據(jù)，即數(shù)據(jù)到文本生成(data-to-text generation；data-to-document generation)。數(shù)據(jù)到文本生成可以歸結(jié)為兩大任務(wù)：說什么(what to say)和怎么說(how to say it)。說什么是從輸入的數(shù)據(jù)中選擇合適的子集用于表達(dá)，也叫做內(nèi)容選擇(content selection)；怎么說就是用自然語言描述這個(gè)子集，也叫做表層實(shí)現(xiàn)(surface realization)[4]。文中對(duì)近年來數(shù)據(jù)到文本生成的發(fā)展脈絡(luò)和研究方法進(jìn)行梳理，對(duì)已有數(shù)據(jù)集和評(píng)價(jià)方法進(jìn)行總結(jié)，分析當(dāng)前存在的問題并探討其未來發(fā)展方向。

1 發(fā)展脈絡(luò)和研究方法

數(shù)據(jù)到文本生成主要使用了基于規(guī)則(rule-based)的方法和數(shù)據(jù)驅(qū)動(dòng)(data-driven)的方法?；谝?guī)則的方法，通常需要將內(nèi)容選擇和表層生成看作兩個(gè)獨(dú)立的子任務(wù)來完成；數(shù)據(jù)驅(qū)動(dòng)的方法，可以單獨(dú)用于內(nèi)容選擇，也可以將內(nèi)容選擇和表層生成看作一個(gè)整體來完成。下面介紹近年來數(shù)據(jù)到文本生成在這兩種方法上的發(fā)展過程。

1.1 基于規(guī)則的方法

Sripada等在2001年提出了針對(duì)時(shí)間序列數(shù)據(jù)的兩階段內(nèi)容選擇模型(two-stage model for content selection)[5]。該模型基于人類專家對(duì)時(shí)間序列數(shù)據(jù)總結(jié)的觀察，第一階段構(gòu)建數(shù)據(jù)集的定性概述，第二階段結(jié)合實(shí)際數(shù)據(jù)生成總結(jié)。

Hallett等在2006年針對(duì)醫(yī)療病史的總結(jié)提出一種內(nèi)容選擇方法[6]。他們將一系列概念和事件聯(lián)系在一起，在內(nèi)容選擇的過程中，將事件根據(jù)相關(guān)性聚在一起，假設(shè)小的集群不包含重要事件，因此在總結(jié)中只提到大的集群事件。依據(jù)總結(jié)的類型和長(zhǎng)度，在基于規(guī)則的方式里決定內(nèi)容的屬性。

Turnertt等在2008年使用決策樹(decision tree)方法解決了在地理坐標(biāo)參照(geo-referenced)數(shù)據(jù)描述領(lǐng)域中的內(nèi)容選擇問題[7]。其中，樹的葉子代表內(nèi)容，節(jié)點(diǎn)代表事件，文本從葉子中的內(nèi)容產(chǎn)生。在同樣的領(lǐng)域，Thomas等于2012年使用文檔模式(document schemas)為盲人用戶解決了地理坐標(biāo)參照數(shù)據(jù)文本描述的文檔規(guī)劃(document plan)問題[8]。其中，模式的選擇受到空間數(shù)據(jù)分析的影響。

Gatt等在2009年BabyTalk系統(tǒng)中使用了Hallet等在2006年提出的算法，用于內(nèi)容規(guī)劃(content plan)，生成新生兒重癥監(jiān)護(hù)室數(shù)據(jù)的文本總結(jié)[9]。這些數(shù)據(jù)包括：傳感器數(shù)據(jù)(心率、血壓和血氧飽和度)；實(shí)驗(yàn)室結(jié)果和觀察；事件如護(hù)士行為、醫(yī)療診斷和治療等信息；自由文本。

Black等在2010年為了幫助孩子解決復(fù)雜的溝通需求(complex communication needs)構(gòu)建了一個(gè)工具，基于孩子可自編輯的傳感數(shù)據(jù)使用NLG技術(shù)創(chuàng)造他們每天在學(xué)校的故事[10]。輸入的傳感數(shù)據(jù)主要由孩子的位置、活動(dòng)和與人或物體的交互構(gòu)成。他們使用了無線射頻識(shí)別技術(shù)(radio frequency identification，RFID)，識(shí)別和監(jiān)控位置和交互，用麥克風(fēng)記錄事件，還提供了可視化窗口。學(xué)校的老師和工作人員也可以訪問孩子的活動(dòng)信息。Tintarev等于2016年進(jìn)一步完善了該系統(tǒng)，根據(jù)位置、時(shí)間和語音對(duì)事件進(jìn)行聚類分類，來決定敘述的內(nèi)容，還使用規(guī)則定義意想不到或不平常的事件[11]。

Banaee等在2013年介紹了一種用于總結(jié)生理傳感器數(shù)據(jù)例如心率和呼吸率的內(nèi)容選擇方法[12]。從數(shù)據(jù)分析得到的抽象數(shù)據(jù)會(huì)被分成三種消息類型之一：全局信息、基于事件的消息和基于總結(jié)的消息，對(duì)于每個(gè)類型的消息都有一個(gè)單獨(dú)的排名函數(shù)評(píng)估文本中消息的重要性，最后根據(jù)消息的重要性和事件之間的依賴性對(duì)消息進(jìn)行排序。同年，Schneider等介紹了跨學(xué)科MIME項(xiàng)目，即一個(gè)移動(dòng)醫(yī)療監(jiān)測(cè)系統(tǒng)，幫助進(jìn)入醫(yī)院前現(xiàn)場(chǎng)第一人和救護(hù)醫(yī)生交接事務(wù)[13]。他們使用NLG總結(jié)醫(yī)療傳感器的數(shù)據(jù)和護(hù)理員的觀察和操作隨時(shí)生成文本交接報(bào)告。其中，內(nèi)容選擇模塊結(jié)合語料分析和專家咨詢獲得的規(guī)則使用樹列關(guān)聯(lián)被選信息，類似于修辭結(jié)構(gòu)理論[14](rhetorical structure theory，RST)。

Soto等在2015年描述了一種使用模糊集生成短天氣預(yù)報(bào)的方法[15]。方法中，內(nèi)容選擇部分由模糊算子進(jìn)行操作，從所有可用數(shù)據(jù)中選出有用數(shù)據(jù)并轉(zhuǎn)化成數(shù)據(jù)對(duì)象。最后，創(chuàng)建事件列表用于生成。

Gkatzia等在2016年提出兩種基于規(guī)則的方法實(shí)現(xiàn)天氣預(yù)報(bào)的生成[16]。第一種方法使用了Kootval2008年針對(duì)天氣預(yù)報(bào)中不確定信息推薦的準(zhǔn)則，第二種方法模擬了專家在天氣預(yù)報(bào)中選擇內(nèi)容的方式。相比第一種方法映射到不確定性，第二種方法在語言解釋上更加自然。

通過與專家合作或從專家生成的語料中獲取知識(shí)是推導(dǎo)規(guī)則的主要方式，因此基于規(guī)則的方法通常適用于特定領(lǐng)域，生成的文本可讀性較強(qiáng)，工業(yè)界大部分使用這種方式。但規(guī)則的數(shù)量也會(huì)隨著領(lǐng)域復(fù)雜度的增加而增加，開發(fā)維護(hù)系統(tǒng)的開銷可能會(huì)很大。

1.2 數(shù)據(jù)驅(qū)動(dòng)的方法

數(shù)據(jù)驅(qū)動(dòng)的方法也被稱作可訓(xùn)練(trainable)的方法。盡管NLG使用數(shù)據(jù)驅(qū)動(dòng)方法比NLP的其他子領(lǐng)域起步晚，但數(shù)據(jù)驅(qū)動(dòng)的方法已經(jīng)在NLG中占據(jù)了主導(dǎo)地位。

2003年Duboue和McKeown提出一種內(nèi)容選擇方法，從文本語料中自動(dòng)學(xué)習(xí)內(nèi)容選擇規(guī)則和獲取相關(guān)語義，并用于人物傳記的短文本生成[17]。他們把內(nèi)容選擇當(dāng)作分類任務(wù)，目標(biāo)是判定一個(gè)數(shù)據(jù)庫條目是否應(yīng)該出現(xiàn)在輸出中。

2005年Barzilay和Lapata提出一種協(xié)作內(nèi)容選擇方法(collective content selection)，從語料和相關(guān)數(shù)據(jù)庫中自動(dòng)學(xué)習(xí)內(nèi)容選擇規(guī)則，并用于足球賽事報(bào)道中[18]。與Duboue和McKeown在2003年提出的方法不同的是，他們把內(nèi)容選擇看作協(xié)作分類問題，考慮了數(shù)據(jù)庫條目之間的依賴性。

Liang等在2009年解決了數(shù)據(jù)記錄和給定文本描述子句匹配的問題，提出一種半隱馬爾可夫(hidden semi-Markov)匹配生成模型，統(tǒng)一實(shí)現(xiàn)了分割文本到話語并關(guān)聯(lián)話語到每個(gè)對(duì)應(yīng)記錄的任務(wù)[19]。

Angeli等在2010年提出一種將內(nèi)容選擇和表層生成統(tǒng)一且與領(lǐng)域無關(guān)的實(shí)現(xiàn)方法[20]。該方法在2009年Liang等的基礎(chǔ)上，加入了對(duì)數(shù)線性(log-linear)模型，將生成過程細(xì)化成一系列本地決策(local decision)，先選擇事件記錄，再選擇記錄屬性，最后選擇一系列屬性對(duì)應(yīng)的模板。

Konstas等在2012年展示了將內(nèi)容選擇和表層生成統(tǒng)一的無監(jiān)督且與領(lǐng)域不相關(guān)的模型[21]。該模型沒有將生成過程分割成本地決策，而是使用了概率上下文無關(guān)語法(probabilistic context-free grammar，PCFG)，全局地描述了輸入數(shù)據(jù)的固有結(jié)構(gòu)。該模型還用了超圖(hypergraph)結(jié)構(gòu)來獲得最好的推導(dǎo)。

Kondadadi等在2013年使用基于模板的統(tǒng)計(jì)NLG框架將內(nèi)容選擇和表層生成的任務(wù)聯(lián)合成一個(gè)統(tǒng)計(jì)學(xué)習(xí)過程[22]。其中，支持向量機(jī)(support vector machine，SVM)是構(gòu)建該模型的主要方法。

Sowdaboina等在2014年使用機(jī)器學(xué)習(xí)(machine learning)方法解決了對(duì)時(shí)序數(shù)據(jù)總結(jié)的內(nèi)容選擇問題[23]。機(jī)器學(xué)習(xí)方法被用來學(xué)習(xí)產(chǎn)生文本總結(jié)的潛在規(guī)則，目的是更加接近人類生成文本總結(jié)的規(guī)則。

Gkatzia等在2014年展示并對(duì)比了兩種實(shí)現(xiàn)內(nèi)容選擇的可訓(xùn)練的方法[24]。第一種使用多標(biāo)簽分類方法學(xué)習(xí)被選擇的內(nèi)容；第二種使用強(qiáng)化學(xué)習(xí)方法總結(jié)時(shí)序數(shù)據(jù)，內(nèi)容選擇被看作馬爾可夫決策問題[25]。

Mahapatra等在2016年提出一種從表格形式的非文本數(shù)據(jù)實(shí)現(xiàn)統(tǒng)計(jì)自然語言生成的方法[26]。該方法使用了多分區(qū)圖(multi-partite graphs)用于天氣預(yù)報(bào)的生成，每個(gè)分區(qū)由數(shù)據(jù)集中的每個(gè)屬性創(chuàng)建，內(nèi)容從圖中有概率性地被選出。

近年來，深度學(xué)習(xí)在NLG中得到越來越多的關(guān)注。Mei等在2016年提出一種端到端(end-to-end)的與領(lǐng)域無關(guān)的基于編解碼(encoder-decoder)框架的神經(jīng)網(wǎng)絡(luò)模型[27]，其中用到了基于長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory，LSTM)的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network，RNN)。Lebret等在2016年介紹了一種建立在文本生成的條件神經(jīng)語言模型(conditional neural language models)基礎(chǔ)上的神經(jīng)模型，用于根據(jù)維基百科人物傳記數(shù)據(jù)集中的事實(shí)表格生成人物傳記的初始句子[28]。

相比基于規(guī)則的方法，數(shù)據(jù)驅(qū)動(dòng)的方法使得數(shù)據(jù)到文本生成更可能與領(lǐng)域無關(guān)，不需要專家參與，并且更容易優(yōu)化，也更容易擴(kuò)展。但是數(shù)據(jù)驅(qū)動(dòng)的方法需要龐大的訓(xùn)練數(shù)據(jù)，而且訓(xùn)練數(shù)據(jù)的質(zhì)量直接影響到訓(xùn)練模型的結(jié)果。

2 數(shù)據(jù)集

目前在特定領(lǐng)域已經(jīng)公開了一些數(shù)據(jù)到文本生成的數(shù)據(jù)集，如表1所示。例如天氣預(yù)報(bào)和體育比賽等領(lǐng)域，這些數(shù)據(jù)集基本都是由數(shù)據(jù)庫記錄和對(duì)應(yīng)文本組成。天氣預(yù)報(bào)領(lǐng)域的數(shù)據(jù)集有SUMTIME-METEO[29]和WEATHERGOV[19]，體育比賽領(lǐng)域的數(shù)據(jù)集有ROBOCUP[30]、NFL[18]、ROTOWIRE 和SBNATION[4]，航空領(lǐng)域的數(shù)據(jù)集有ATIS[31]，人物傳記領(lǐng)域的數(shù)據(jù)集有WIKIBIO[28]。數(shù)據(jù)集的使用方法在此不再贅述，詳情請(qǐng)查閱相關(guān)文獻(xiàn)。

表1 可供下載的數(shù)據(jù)集

3 評(píng)價(jià)方法

對(duì)于數(shù)據(jù)到文本生成來說，主要有兩類評(píng)價(jià)：一類是內(nèi)在評(píng)價(jià)(intrinsic evaluation)，通常和文本質(zhì)量、輸出正確性和可讀性等問題相關(guān)；另一類是外在評(píng)價(jià)(extrinsic evaluation)，通常和任務(wù)完成有關(guān)，即系統(tǒng)在做出決策時(shí)是否真正達(dá)到了目的。

3.1 內(nèi)在評(píng)價(jià)方法

內(nèi)在評(píng)價(jià)主要有兩種方法，一種依賴人類的判斷即主觀評(píng)價(jià)，另一種基于語料。

人類判斷的方法是通過專家根據(jù)某些標(biāo)準(zhǔn)評(píng)價(jià)系統(tǒng)輸出。通常的標(biāo)準(zhǔn)有流暢性(fluency)或可讀性(readability)，即語篇的語言質(zhì)量，還有與輸入有關(guān)的準(zhǔn)確性(accuracy)、充分性(adequacy)、相關(guān)性(relevance)或正確性(correctness)，反映了系統(tǒng)對(duì)內(nèi)容的再現(xiàn)[32]。

基于語料的評(píng)價(jià)方法是通過一些度量標(biāo)準(zhǔn)對(duì)比人類的輸出和系統(tǒng)的輸出。這種方式相對(duì)廉價(jià)，常見的自動(dòng)度量指標(biāo)有BLEU、NIST、ROUGE、F-measure等。

3.2 外在評(píng)價(jià)方法

與內(nèi)在評(píng)價(jià)不同，外在評(píng)價(jià)衡量實(shí)現(xiàn)目標(biāo)的有效性，而有效性取決于應(yīng)用領(lǐng)域和系統(tǒng)用途。通?；趩柧碚{(diào)查或者自我報(bào)告的研究可以解決外在評(píng)價(jià)，但許多情況下評(píng)價(jià)需要依賴一些性能的客觀衡量標(biāo)準(zhǔn)。外在評(píng)價(jià)又分為用戶任務(wù)成功性度量(user task success measure)和系統(tǒng)目的成功性度量(system purpose success measure)[33]。

用戶任務(wù)成功性度量衡量的是任何與用戶從系統(tǒng)輸出獲得的有關(guān)的東西，比如決策和理解準(zhǔn)確性等。例如2009年Gatt等的BabyTalk[9]使用了這種評(píng)價(jià)方法，給用戶展示兩個(gè)輸出，用戶做出決策，以此來衡量哪個(gè)輸出在決策中更有效。

系統(tǒng)目的成功性度量衡量一個(gè)系統(tǒng)是否能滿足最初的目的。Reiter等在1999年設(shè)計(jì)的STOP系統(tǒng)[34]為了幫助人們戒煙而生成簡(jiǎn)短的戒煙信，使用這種評(píng)價(jià)方法來確定系統(tǒng)目的是否達(dá)到，即用戶是否戒煙。

外在評(píng)價(jià)對(duì)于判斷一個(gè)數(shù)據(jù)到文本生成系統(tǒng)是否成功或者用戶能否得到想要的東西來說非常重要，也更有說服力。但這種評(píng)價(jià)方式在時(shí)間和費(fèi)用上花費(fèi)得更多，而且依賴足夠的用戶基礎(chǔ)，并且必須有在現(xiàn)實(shí)中開展研究的可能性。

4 存在問題和發(fā)展方向

目前數(shù)據(jù)到文本生成存在一些問題，需要在未來的研究中解決：

(1)數(shù)據(jù)集缺乏?？捎?xùn)練的數(shù)據(jù)集主要集中在天氣和體育等幾個(gè)專業(yè)領(lǐng)域，數(shù)據(jù)集的建立需要人工收集數(shù)據(jù)甚至標(biāo)注，因此公開可用的數(shù)據(jù)集比較缺乏。

(2)生成文本短，數(shù)據(jù)簡(jiǎn)單。數(shù)據(jù)集中生成的文本長(zhǎng)度較短，用到的數(shù)據(jù)記錄也較少，因此在這些數(shù)據(jù)集上效果好的方法并不一定能滿足復(fù)雜數(shù)據(jù)和生成長(zhǎng)文本的需求。

(3)評(píng)價(jià)方法不獨(dú)立。適用于數(shù)據(jù)到文本生成的評(píng)價(jià)方法大多借鑒于機(jī)器翻譯和文本摘要等領(lǐng)域，沒有單獨(dú)完整的一套評(píng)價(jià)標(biāo)準(zhǔn)，除了人類評(píng)價(jià)之外，需要在自動(dòng)度量標(biāo)準(zhǔn)上設(shè)計(jì)針對(duì)數(shù)據(jù)到文本生成的評(píng)價(jià)體系，體現(xiàn)出內(nèi)容的完整性、相關(guān)性、順序結(jié)構(gòu)以及表達(dá)性等等方面。

(4)無法滿足商業(yè)應(yīng)用。用于商業(yè)的寫作方法基本都是基于模板的方法，成文較為固定，雖然神經(jīng)網(wǎng)絡(luò)方法在實(shí)驗(yàn)階段效果不錯(cuò)，但在很多方面仍然不成熟，暫時(shí)無法在商業(yè)中使用。

數(shù)據(jù)到文本生成雖然還存在很多問題，但未來的發(fā)展方向仍然是不可限量的。比如，結(jié)合視覺信息比單一使用圖像或文字效果更好[16]；在領(lǐng)域之間或者語言之間轉(zhuǎn)移學(xué)習(xí)方法[35]；研究處理不確定數(shù)據(jù)的方法，大量數(shù)據(jù)是不確定的，比如股票數(shù)據(jù)、天氣數(shù)據(jù)或者網(wǎng)絡(luò)數(shù)據(jù)等。近兩年在數(shù)據(jù)到文本生成的研究中開始出現(xiàn)深度學(xué)習(xí)的方法并且獲得了不錯(cuò)的效果，相信隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展，未來在該領(lǐng)域會(huì)有更多的研究者投入到使用神經(jīng)網(wǎng)絡(luò)的方法實(shí)現(xiàn)數(shù)據(jù)到文本生成的研究中來。

5 結(jié)束語

隨著人工智能的發(fā)展，數(shù)據(jù)到文本生成也越來越重要，很多領(lǐng)域都在嘗試使用機(jī)器代替部分人工，完成自動(dòng)文本的生成。國內(nèi)外尤其是新聞行業(yè)，在自動(dòng)撰寫新聞的嘗試探索中競(jìng)爭(zhēng)激烈，但沒有競(jìng)爭(zhēng)就沒有進(jìn)步，數(shù)據(jù)到文本生成需要各個(gè)領(lǐng)域的共同發(fā)展，需要軟硬件技術(shù)的不斷推動(dòng)，只有存儲(chǔ)和處理數(shù)據(jù)的能力越來越強(qiáng)，神經(jīng)網(wǎng)絡(luò)方面的研究開展的更迅速，數(shù)據(jù)到文本生成的研究和應(yīng)用才能有更多的可能性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡