張守先 任鵬 李滿江
(1.半島都市報社,山東 青島 266071;2.濰坊日報社,山東 濰坊 261000;3. 濰坊北大青鳥華光照排有限公司,山東 濰坊 261061)
新聞報道是及時傳播信息和監(jiān)督社會的重要方式,對社會發(fā)展非常重要。這要求新聞寫作高效和準(zhǔn)確,全天候產(chǎn)出大量高質(zhì)量新聞。然而,傳統(tǒng)新聞寫作完全依賴人工記者,效率比較低,難免會出現(xiàn)延遲和錯誤,影響新聞的時效性和準(zhǔn)確性。同時,傳統(tǒng)寫作也易受個人主觀因素影響,新聞報道的真實性和客觀性難以保證。
近年來,神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)和生成模型等技術(shù)的快速發(fā)展,特別是預(yù)訓(xùn)練語言模型的出現(xiàn),使機器具有了比較強的語義理解能力和長文本生成能力。這為新聞自動寫作提供了可能,有望提高新聞寫作的效率和客觀性。如基于seq2seq 和GPT 的方法實現(xiàn)了新聞?wù)蜆?biāo)題生成;基于BERT 的方法可以生成簡短的新聞文章。這些工作推動了新聞自動寫作技術(shù)的發(fā)展,但生成文本的連貫性或多樣性仍有提高的空間。
目前基于人工智能的新聞寫作,主要用于以下幾個方面。
(1)自動化新聞撰寫:基于數(shù)據(jù)模板,生成如運動比賽、股票行情、天氣預(yù)報等自動化新聞。
(2)財經(jīng)新聞編寫:根據(jù)金融數(shù)據(jù),自動生成相關(guān)的財經(jīng)新聞、分析報道。
(3)影評撰寫:根據(jù)影片數(shù)據(jù)和評論材料,自動生成影評文章。
(4)賽事新聞:根據(jù)體育賽事數(shù)據(jù),自動生成球賽新聞、運動員數(shù)據(jù)分析等。
(5)新聞稿自動編輯:輔助編輯進(jìn)行新聞寫作和修訂工作。
(6)新聞?wù)桑鹤詣游龀鲂侣勎恼碌年P(guān)鍵內(nèi)容摘要。
為實現(xiàn)新聞寫作的高效化、準(zhǔn)確化和客觀化,這個項目提出利用ERNIE 等預(yù)訓(xùn)練語言模型,通過大量新聞數(shù)據(jù)集的訓(xùn)練,實現(xiàn)高質(zhì)量新聞稿自動生成的方法。ERNIE 是一種基于BERT 的語言表示模型,在長文本生成和多樣性方面有較強的能力。項目使用大規(guī)模新聞?wù)Z料庫訓(xùn)練ERNIE 新聞寫作模型,使其學(xué)習(xí)新聞文章的語法、詞匯、結(jié)構(gòu)和風(fēng)格等知識。在此基礎(chǔ)上實現(xiàn)高質(zhì)量新聞稿的自動生成,以期達(dá)到與人工寫作相當(dāng)?shù)男Ч?/p>
這個項目的提出是基于新聞寫作需求和現(xiàn)有技術(shù)發(fā)展的考量。方案有望實現(xiàn)新聞采寫的自動化與智能化,構(gòu)建高效、準(zhǔn)確與客觀的新聞報道體系。
新聞自動寫作是自然語言生成的重要應(yīng)用之一。早期的工作主要基于模板和規(guī)則,生成效果比較差。隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展,特別是預(yù)訓(xùn)練語言模型的提出,新聞自動寫作取得了比較大的進(jìn)展。對新聞自動寫作而言,核心是訓(xùn)練一個能夠生成連貫、語法正確、主題明確的長文本的神經(jīng)網(wǎng)絡(luò)模型。具體來說,常用的技術(shù)路線包括。
(1)數(shù)據(jù)準(zhǔn)備:收集大規(guī)模的高質(zhì)量新聞文本數(shù)據(jù),包括新聞標(biāo)題、內(nèi)容、摘要等。并進(jìn)行數(shù)據(jù)清洗、分詞等預(yù)處理。
(2)模型選擇:通常選擇基于Transformer 或LSTM 等結(jié)構(gòu)的預(yù)訓(xùn)練語言模型,如GPT、BERT 等,這類模型在長文本生成任務(wù)上效果較好。
(3)模型訓(xùn)練:使用新聞文本數(shù)據(jù)針對語言生成任務(wù)進(jìn)行模型精調(diào)。訓(xùn)練目標(biāo)是最大化生成新聞文本的鏈?zhǔn)礁怕省?/p>
(4)文本生成:給定新聞主題、關(guān)鍵詞等條件,模型自動生成標(biāo)題和正文。可以生成一篇完整的新聞,也可以只生成摘要等。
(5)生成文本后處理:對模型生成文本進(jìn)行語句規(guī)范化、語法糾錯等后處理,提高可讀性。
(6)結(jié)果評估:從語法、邏輯、連貫性等方面評估生成文本的質(zhì)量,并反饋改進(jìn)模型。
關(guān)鍵的創(chuàng)新點是利用大規(guī)模預(yù)訓(xùn)練模型,讓模型學(xué)習(xí)新聞?wù)Z言的語法和風(fēng)格特征。相比以往基于模板的方法,預(yù)訓(xùn)練模型生成的新聞文本連貫性更好,逼近人工寫作效果。但仍需人工審核,以確保生成質(zhì)量。
基于seq2seq 模型的方法可以生成新聞?wù)蜆?biāo)題,但生成的文本連貫性和準(zhǔn)確性比較差。GPT 在較長文本生成方面有優(yōu)勢,應(yīng)用于新聞文章生成,但生成的文章主題單一,缺乏多樣性。BERT 的出現(xiàn)使機器具有比較強的語義理解能力,在文本分類、摘要和問答等任務(wù)上均取得優(yōu)異效果。基于BERT 的方法實現(xiàn)了新聞?wù)完P(guān)系抽取,證明BERT 可用于新聞生成。但BERT 對長文本生成的能力較弱,生成的新聞文章較短。ERNIE 是在BERT 基礎(chǔ)上的改進(jìn),在長文本生成與多樣性方面表現(xiàn)更優(yōu)。Sun 等證明ERNIE 可以生成連續(xù)且主題多樣的長文本,為新聞文章生成提供有益啟發(fā)。
這個項目在ERNIE 等預(yù)訓(xùn)練語言模型的啟發(fā)下,提出通過新聞數(shù)據(jù)集訓(xùn)練ERNIE 模型,實現(xiàn)高質(zhì)量新聞稿自動生成的方法。此方案生成的新聞稿連貫且準(zhǔn)確,具有較強實用性,期望達(dá)到與人工寫作相當(dāng)?shù)男Ч?/p>
為實現(xiàn)新聞寫作的高效化、準(zhǔn)確化與客觀化,本項目提出利用ERNIE 等預(yù)訓(xùn)練語言模型,通過海量新聞數(shù)據(jù)集訓(xùn)練,實現(xiàn)高質(zhì)量新聞稿自動生成的方案。
百度在預(yù)訓(xùn)練語言表示模型領(lǐng)域進(jìn)行了大量研發(fā)和應(yīng)用,主要的中文預(yù)訓(xùn)練模型包括:ERNIE(Enhanced Representation through kNowledge IntEgration)、ERNIE 2.0(在ERNIE 基礎(chǔ)上提出持續(xù)學(xué)習(xí)框架,可以不斷從數(shù)據(jù)中學(xué)習(xí),增強模型能力)、ERNIE-Gram(針對語法任務(wù),如語法解析、語義角色標(biāo)注進(jìn)行預(yù)訓(xùn)練,獲得強大的語法建模能力)、ERNIE-Gen(支持端到端的文本生成,構(gòu)建通用的生成預(yù)訓(xùn)練框架)、PCL-Med(醫(yī)療領(lǐng)域特定的預(yù)訓(xùn)練語言模型,提供精準(zhǔn)的醫(yī)療文本理解)、PLATO-2(大規(guī)模預(yù)訓(xùn)練語言模型,具有超過200 億參數(shù),是當(dāng)時最大的中文預(yù)訓(xùn)練模型)、 CPM(Chinese Pretrained Model)(百度自研的最新預(yù)訓(xùn)練模型,具有千億規(guī)模的參數(shù)量和強大的語言理解能力)等。ERNIE 是百度推出的一款基于BERT 的中文預(yù)訓(xùn)練語言表示模型,代表了百度在知識增強預(yù)訓(xùn)練模型上的創(chuàng)新,是在BERT 基礎(chǔ)上的改進(jìn),引入了知識圖譜,增加實體語義的理解能力,增加了語言表示對多義詞、同義詞的理解,提高句法分析能力,采用逐段預(yù)測的訓(xùn)練方式,提高長文本生成能力,引入短文本匹配任務(wù),增強了文本相似度的判斷能力,設(shè)計了新的數(shù)據(jù)集,如多義詞數(shù)據(jù)集、同義詞數(shù)據(jù)集、新聞標(biāo)題數(shù)據(jù)集等,進(jìn)行細(xì)致的語義理解預(yù)訓(xùn)練,構(gòu)建了領(lǐng)域知識圖譜,如百科知識圖譜、產(chǎn)業(yè)知識圖譜等,加入先驗知識,采用了句子重排、相似句子匹配等預(yù)訓(xùn)練任務(wù),進(jìn)一步強化語義理解,使用海量高質(zhì)量的數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練,提升了模型的效果。ERNIE 相比BERT 在文本生成效果上有顯著提升,更適用于智能寫作等生成應(yīng)用。相比BERT,ERNIE 在長文本生成和多樣性方面表現(xiàn)更優(yōu),適用于新聞文章生成。[4-5]本項目使用ERNIE模型,其參數(shù)量較小,訓(xùn)練速度更快。[3]
項目使用百度新聞數(shù)據(jù)集,其包含數(shù)百萬篇新聞文章及元數(shù)據(jù)。選取了近3 年的近百萬條新聞,數(shù)據(jù)集按7 : 2 : 1 比例劃分為訓(xùn)練集、驗證集和測試集。訓(xùn)練集(Training Set)用于訓(xùn)練模型的參數(shù)和權(quán)重,占數(shù)據(jù)集的最大比例,一般60%~80%,反復(fù)使用以“訓(xùn)練”模型,使其逐步學(xué)會特征模式。驗證集(Validation Set)用于調(diào)整超參數(shù)和評估訓(xùn)練過程中模型的性能,占數(shù)據(jù)集的較小比例,一般10%~20%,不用于訓(xùn)練參數(shù),只用于指導(dǎo)如何改進(jìn)模型。測試集(Test Set),用于評估最終訓(xùn)練好的模型在真實數(shù)據(jù)上的表現(xiàn),占數(shù)據(jù)集的較小比例,一般10%~20%,只使用一次來全面評估模型效果,不用于也不可見訓(xùn)練。劃分這三個數(shù)據(jù)集是為了使模型泛化性更好,避免過擬合訓(xùn)練數(shù)據(jù)。采用不同數(shù)據(jù)的評估使模型更穩(wěn)定可靠。
在數(shù)據(jù)集上訓(xùn)練ERNIE 新聞寫作模型的流程如下。
(1) 對新聞數(shù)據(jù)集進(jìn)行清洗、分詞和過濾,獲得高質(zhì)量的數(shù)據(jù)集;去除重復(fù)新聞、用程序去除空行無效字符等噪聲數(shù)據(jù)、糾正一些明顯的拼寫錯誤、用程序移除無實際語義的停用詞(吧、嗎、啊、噢,等)、刪除信息量太少的新聞樣本等,這樣可以提高數(shù)據(jù)集的整體質(zhì)量,移除噪聲數(shù)據(jù),獲得干凈、高質(zhì)量的新聞?wù)Z料庫,更好地訓(xùn)練ERNIE 寫作模型;
(2) 按照ERNIE 模型的輸入格式,對數(shù)據(jù)集中的文章標(biāo)題、內(nèi)容和摘要等進(jìn)行編碼,增加[SEP] 、[CLS] 等標(biāo)記,ERNIE 模型限制最大輸入長度為512 個詞匯,超過的部分會被截斷;
(3) 設(shè)定ERNIE 模型結(jié)構(gòu)和訓(xùn)練超參數(shù),如學(xué)習(xí)率(Learning Rate)、訓(xùn)練批大?。˙atch Size)、訓(xùn)練輪數(shù)(Epoch Number)、序列長度(Sequence Length)、優(yōu)化器(Optimizer)、權(quán)重衰減(Weight Decay)、 熱啟動比例(Warmup Proportion)、 峰值學(xué)習(xí)率(Peak Learning Rate)、損失函數(shù)(Loss Function)、裁剪比例(Clipping Ratio)、隨機失活比例等,這些超參數(shù)需要通過反復(fù)試驗來確定合適的組合,才能讓ERNIE 在新聞寫作任務(wù)上獲得最佳的訓(xùn)練效果;
(4) 使用訓(xùn)練集對ERNIE 新聞寫作模型進(jìn)行預(yù)訓(xùn)練;
(5) 使用驗證集對模型進(jìn)行評估,調(diào)整超參數(shù),選擇較優(yōu)模型;
(6) 最終模型在測試集上生成新聞稿,并進(jìn)行人工評估。
模型生成新聞稿的流程為:輸入新聞主要內(nèi)容(主題、關(guān)鍵字等);ERNIE 模型自動生成一篇完整的新聞文章,包括標(biāo)題、內(nèi)容和摘要。
本方案使用先進(jìn)的ERNIE 預(yù)訓(xùn)練模型,通過高質(zhì)量新聞數(shù)據(jù)的訓(xùn)練,使其學(xué)會新聞?wù)Z言表達(dá)的各個方面,在此基礎(chǔ)上實現(xiàn)新聞文章的自動生成。生成的新聞稿流暢連貫,準(zhǔn)確度較高,更具有實用價值,有望達(dá)到與專業(yè)記者寫作效果相當(dāng)?shù)馁|(zhì)量。
為驗證本方案的效果,我們進(jìn)行了新聞自動寫作的實驗。
使用百度新聞數(shù)據(jù)集,包含近3 年數(shù)百萬篇新聞文章及元數(shù)據(jù)。[1-2]選擇其中近百萬篇作為實驗數(shù)據(jù)集,包含新聞標(biāo)題、內(nèi)容和摘要。新聞類別包括政治、財經(jīng)、社會、娛樂、科技等共30 個左右類別。按7:2:1 比例劃分為訓(xùn)練集、驗證集和測試集。
采用ERNIE 模型,其參數(shù)量較小,訓(xùn)練速度更快。訓(xùn)練10 輪,訓(xùn)練60 小時。
從準(zhǔn)確性、主觀性和多樣性等幾個方面評估模型生成的新聞稿:
事實準(zhǔn)確性:新聞內(nèi)容是否能夠描述清楚事件的基本事實,時間、地點、人物等要素是否準(zhǔn)確。
邏輯性:新聞表述是否連貫清晰,沒有邏輯錯誤或語句前后矛盾的情況,查看文章段落之間的銜接是否順暢自然,是否存在邏輯斷裂的情況,分析文章段落的主題或中心句是否一致,是否會出現(xiàn)跳躍性主題轉(zhuǎn)變的情況,檢查文章內(nèi)容的敘述順序是否合理,事件或描述是否按時間順序敘述,觀察因果關(guān)系的敘述是否合乎常理,不會出現(xiàn)違反事理的因果關(guān)聯(lián),判斷交代的細(xì)節(jié)或事例是否能有效支持中心論點,避免出現(xiàn)例子與論點不一致。
流暢性:語言表達(dá)是否通順、風(fēng)格一致,沒有語法錯誤或語句不通順的地方,逐句閱讀文章,感受句子之間的銜接是否平順自然,看詞匯使用是否得體精準(zhǔn),避免出現(xiàn)語義不通或使用不當(dāng)?shù)脑~語,判斷行文節(jié)奏是否合理,不會出現(xiàn)語句結(jié)構(gòu)或長度突然失衡的情況,觀察用詞表達(dá)方式是否多樣,不會重復(fù)使用相同詞語或句式模板,語音朗讀文章,感受朗讀流暢性,判斷是否存在容易打結(jié)的語段。
完整性:新聞結(jié)構(gòu)是否完整,包含必要的標(biāo)題、導(dǎo)語、正文、結(jié)尾等部分,是否遺漏了重要信息,正文內(nèi)容是否涵蓋了事件或觀點需要闡述的主要方面,是否成功傳達(dá)了中心思想或觀點,不只是斷片式的描述,文章各部分是否條理清晰,前后呼應(yīng),不會出現(xiàn)邏輯跳躍。
客觀性:新聞觀點是否中立客觀,沒有包含過于主觀的評論或判斷,避免存在明顯的傾向性或情緒化表達(dá),文章引用的依據(jù)是否可靠權(quán)威,文章對不同觀點或立場是否給予公正的描述,而非只立足一方,文章中人物描寫是否公正,避免出現(xiàn)傾向性評價,是否過多使用含情緒色彩的詞語,文章中因果關(guān)系分析是否符合邏輯,避免出現(xiàn)以偏概全的情況,文章的觀點是否有事實或數(shù)據(jù)支持,而不是主觀臆斷。
可讀性:新聞的可讀性和趣味性是否足夠,是否過于單調(diào)或模板化。
總體流暢度:從整體上看,新聞質(zhì)量是否達(dá)到可以發(fā)布的標(biāo)準(zhǔn),逐段通讀全文,感受篇章語言風(fēng)格和語句流暢度的整體一致性、各個段落的銜接是否自然、文章的起承轉(zhuǎn)合是否完整、開頭和結(jié)尾是否吸引人并帶來完滿的閱讀感受、避免整體用詞單一重復(fù)性太高、全文語言風(fēng)格是否會出現(xiàn)風(fēng)格劇變的情況。
根據(jù)這些指標(biāo),對算法生成文章的優(yōu)劣進(jìn)行整體判斷,并給出改進(jìn)方向,指導(dǎo)模型進(jìn)一步優(yōu)化,利用評分機制,允許模型輸出多候選文章,人工選擇評分最高的來反饋給模型,調(diào)整損失函數(shù),增強對特定指標(biāo)的懲罰力度(如流暢性等)。
本實驗的最終結(jié)果表明:
(1) 生成新聞稿準(zhǔn)確性較好,匹配輸入主題,事實基本準(zhǔn)確;
(2) 不存在明顯的主觀傾向,達(dá)到一定的客觀中立性;
(3) 輸入不同條件,生成新聞稿主題和內(nèi)容較為多樣。
綜上,本方案生成的新聞稿在準(zhǔn)確性、客觀性和多樣性等方面均達(dá)到較高水平。相比人工新聞寫作,本方案在減輕人工工作量、提高效率和準(zhǔn)確性方面顯示出較大優(yōu)勢。
本項目利用ERNIE 等預(yù)訓(xùn)練語言模型,通過海量新聞數(shù)據(jù)集訓(xùn)練,實現(xiàn)高質(zhì)量新聞稿自動生成的方案,達(dá)到較好的效果。該方法具有以下優(yōu)點:
(1)顯著提高新聞寫作效率,大幅減輕記者工作量,說明具有較強的實用性;
(2)生成新聞稿準(zhǔn)確度較高,難以被輕易檢測出,達(dá)到專業(yè)水準(zhǔn),更適合應(yīng)用于真實場景;
(3)支持一次輸入生成多篇主題和內(nèi)容各異的新聞稿,顯示出較強的多樣性。在一定程度上降低了個人主觀的影響,使新聞報道更加客觀和中立。
然而,該方法也存在一定不足:
(1)生成新聞稿的多樣性還有提高空間,多個條件下生成的文章主題和內(nèi)容重合度較高;
(2)生成的新聞稿缺乏個性化表達(dá)和真實感,難以達(dá)到人工寫作的效果;
(3)模型生成的新聞稿需要人工審閱和修改后才可直接發(fā)布,這增加了后續(xù)工作量。
未來工作主要關(guān)注以下幾點:
(1)使用更大規(guī)模的訓(xùn)練數(shù)據(jù),采用更強大的預(yù)訓(xùn)練模型,如BERT-large 等,提高生成效果。BERTlarge 總參數(shù)量達(dá)到了3.4 億參數(shù),使用更多未標(biāo)注的語料進(jìn)行預(yù)訓(xùn)練,包括整個維基百科和書籍語料庫,因此語言表達(dá)能力更加強大和通用、下游任務(wù)效果更好、處理長文本時表現(xiàn)更好。
(2)研究條件輸入的方式和生成策略,增強生成新聞稿的多樣性;
(3)優(yōu)化數(shù)據(jù)預(yù)處理和模型訓(xùn)練流程,使生成的新聞稿融入個人化表達(dá)和真實感;
(4)人工審核與機器生成的協(xié)同,構(gòu)建高效準(zhǔn)確的新聞生產(chǎn)系統(tǒng),實現(xiàn)人工智能的互補;
(5)加強連貫性的調(diào)整,不斷提高生成的文章的連貫性。
新聞報道是及時和準(zhǔn)確傳播信息的重要方式,對社會發(fā)展來說很重要。但是,以前的新聞寫作方法效率不高,難以滿足全天候大量高質(zhì)量新聞的需要,而利用人工智能寫稿可以一定程度上滿足我們的要求,人工智能寫稿可以提高寫作效率,節(jié)省人力成本,可以在短時間內(nèi)生成大量文章草稿,尤其適用于產(chǎn)出需求較高的應(yīng)用場景。人工智能寫稿還減少人為錯誤,提高寫作質(zhì)量,算法生成可以避免人工誤操作,保證輸出文本的標(biāo)準(zhǔn)性和一致性。自動寫稿技術(shù)在效率、質(zhì)量、創(chuàng)新等多個方面對人類具有重要意義和價值。當(dāng)然,也需要人機密切協(xié)作,才能發(fā)揮最大作用。
該項目用ERNIE 這種預(yù)訓(xùn)練語言模型,通過訓(xùn)練大量高質(zhì)量新聞數(shù)據(jù)集,實現(xiàn)了自動生成高質(zhì)量新聞稿的方法。實驗結(jié)果表明,這個方法生成的新聞稿在準(zhǔn)確度、客觀性和多樣性方面達(dá)到比較不錯的水平。
與人工新聞寫作相比,這個方法在很大程度上提高了效率和準(zhǔn)確度,彌補了人工寫作的不足,實現(xiàn)了新聞采寫的自動化和智能化。但是,生成的新聞稿個性化表達(dá)和真實感仍然不足,多樣性還需要提高,還需要人工審閱,首先要檢查人工智能生成的文本的邏輯性和連貫性,現(xiàn)有生成模型偶爾會產(chǎn)生不合邏輯、不連貫的語句或段落,需要人工修改和完善,人工智能生成的文章可能會包含不準(zhǔn)確的信息或錯誤的事實(所謂一本正經(jīng)的胡說八道),需要人工核實真實性,算法難以理解人文精神內(nèi)涵,需要人工加入這方面內(nèi)容,此外,機器學(xué)習(xí)依賴歷史數(shù)據(jù),對全新事件理解能力弱,需要人工創(chuàng)新,因此自動寫作技術(shù)尚未完全成熟,仍需人機互補才能產(chǎn)出高質(zhì)量文本,因此當(dāng)前階段人工參與不可或缺。未來隨著技術(shù)進(jìn)步,人工干預(yù)需求可能會下降。
該項目為新聞自動寫作的研究和應(yīng)用作出了有用的探索。通過不斷優(yōu)化數(shù)據(jù)和模型,新聞自動寫作技術(shù)期望達(dá)到與人工新聞記者相媲美的效果,進(jìn)一步改變新聞行業(yè)的生產(chǎn)模式,為構(gòu)建信息時代高質(zhì)量的新聞報道體系提供重要支持。