周佳玥?
摘 要:隨著人工智能技術(shù)在全行業(yè)的滲透,機器新聞作為人工智能在傳媒業(yè)的一種應(yīng)用越來越受到學(xué)界和業(yè)界的關(guān)注。本文梳理了機器寫作的發(fā)展過程,分析機器新聞的優(yōu)缺點;從機器新聞發(fā)展的現(xiàn)狀入手,對機器新聞的發(fā)展進行反思,也對未來機器新聞的發(fā)展提出一些建議。
關(guān)鍵詞:機器新聞;人工智能;人機協(xié)同
中圖分類號:G20 文獻標(biāo)識碼:A 文章編號:1672-8122(2017)10-0018-02
機器新聞,被認(rèn)為是人工智能時代的產(chǎn)物。有研究者將機器新聞分為廣義和狹義兩個方面。廣義的機器新聞是指人工智能技術(shù)在新聞寫作、采訪、編輯等新聞活動中的具體運用;狹義的機器新聞是指基于數(shù)據(jù)統(tǒng)計和機器學(xué)習(xí),運用算法,從可識別的數(shù)據(jù)中提取具有新聞價值的信息,形成新聞報道角度,自動選擇語詞樣本、新聞報道模板生成的新聞故事[1]。廣義的機器新聞運用非常廣泛,早期的Google News就是通過聚合算法進行新聞首頁的自動更新和推薦。這種形式可以看作是機器新聞的雛形。
狹義的機器新聞,可以概括為機器新聞寫作。國外的研究者用一些不同的名稱來表示這種過程,比如計算新聞(computational journalism)定義為用來補充新聞的責(zé)任功能的算法、數(shù)據(jù)和社會科學(xué)知識的組合[2]。本文討論的是狹義的機器新聞,即機器新聞寫作。
一、從NLG到機器新聞寫作
(一)機器新聞寫作技術(shù)的發(fā)展
機器新聞寫作的核心在于自然語言生成(Natural Language Generation)技術(shù)。自然語言生成是指基于非語言輸入自動生成自然語言文本的過程[3],是人工智能和計算語言學(xué)的分支。
機器寫作可以追溯到20世紀(jì)五六十年代對機器翻譯和生成上下文無關(guān)文法句子的研究。70年代,在游戲等領(lǐng)域已經(jīng)開始應(yīng)用機器寫作,利用該技術(shù)生成游戲文本。80年代,文本規(guī)劃的概念被提出,機器寫作有了更大進步,可生成段落甚至篇章。到90年代,基于模板的文本生成算法被提出,文本規(guī)劃器和語言實現(xiàn)器的出現(xiàn)使得機器寫作在軍事、氣象等更多領(lǐng)域得到了運用。
自然語言生成系統(tǒng)的工作流程與新聞寫作的基本模式有許多地方是相符合的[4]。但是直到21世紀(jì)初,機器寫作才進入新聞領(lǐng)域,并且投入市場。2006年,Thomson Reuters集團網(wǎng)站宣布使用算法在網(wǎng)站自動編寫財政新聞。
2007年,美國第一家利用機器生產(chǎn)新聞的公司——StatSheet誕生。2011年公司改組并改名為Automated Insights。它的主要產(chǎn)品Wordsmith是一個自然語言生成平臺,使用基于數(shù)據(jù)、定量分析和關(guān)于寫作風(fēng)格規(guī)則的人工智能系統(tǒng)來生產(chǎn)故事。2015年10月,平臺允許用戶通過上傳自己的數(shù)據(jù)和模板來創(chuàng)作。現(xiàn)在,Automated Insights公司的具體業(yè)務(wù)涉及新聞報道、數(shù)據(jù)分析、寫作程序開發(fā)等。用戶可以直接在電子表格中通過應(yīng)用程序制作Wordsmith內(nèi)容。根據(jù)Automated Insights官方網(wǎng)站的統(tǒng)計數(shù)據(jù),2016年該平臺共生產(chǎn)了超過15億篇文章,成為世界上最大的內(nèi)容生產(chǎn)商。
與Wordsmith同年進入市場的是Narrative Science公司。它的主要產(chǎn)品為Quill。目前,該公司的重心放在了金融服務(wù)提供商等企業(yè)客戶上。
(二)國內(nèi)機器新聞寫作的應(yīng)用
國內(nèi)企業(yè)在機器新聞寫作領(lǐng)域也做出了一系列探索與嘗試。騰訊推出“Dream Writer”,在2015年9月10日發(fā)布了第一篇機器寫作新聞《8月CPI同比上漲2% 創(chuàng)12個月新高》。這篇稿件從國家統(tǒng)計局中獲取數(shù)據(jù),涵蓋高級統(tǒng)計師的評論建議,用時僅為一分鐘。目前,Dream Writer寫作的主要領(lǐng)域是財經(jīng)和體育。
同年11月7日,新華社推出“快筆小新”機器人,為體育部、經(jīng)濟信息部和中國證券報部門提供新聞稿件。
2016年,由北京大學(xué)和今日頭條合作研發(fā)的Xiaoming bot在里約奧運會期間發(fā)稿超過450篇[5]。Xiaoming bot主要應(yīng)用在體育賽事當(dāng)中。技術(shù)上,它是首個基于文字直播數(shù)據(jù)進行新聞生成的系統(tǒng),并在語言情感自適應(yīng)等技術(shù)上實現(xiàn)了突破。還能夠圖文自動關(guān)聯(lián)發(fā)稿,基于大量的圖文數(shù)據(jù)庫,采用機器學(xué)習(xí)算法,學(xué)習(xí)圖文語義匹配模型,為文本自動挑選合適的圖片。
DT稿王是第一財經(jīng)媒體實驗室開發(fā)的一款自動化的新聞寫作工具,2015年5月正式推出。它具有信息采集、語義分析、搜索、聯(lián)想等功能,通過與DT稿王的自動寫作功能連接,能代替作者完成簡單而龐大的片段寫作。
南方都市報社的寫稿機器人“小南”也在2017年1月18日正式上崗,首篇文章為300余字的春運報道。在數(shù)據(jù)自動抓取完成之后,這篇報道的生成只用了不到1秒的時間。與前面提到的新聞寫作機器人有所不同的是,“小南”并沒有著力于體育和財經(jīng)領(lǐng)域,而是聚焦于民生。此外,廣州日報寫稿機器人“阿同”的強項則是分析政府工作報告。
二、機器新聞的優(yōu)勢與不足
(一)機器新聞的優(yōu)勢
速度快,準(zhǔn)確性高。機器新聞自動獲取、組織數(shù)據(jù),必然能夠提高新聞報道的速度和準(zhǔn)確性。在突發(fā)事件中也能一定程度上起到預(yù)警作用。2014年《洛杉磯時報》在地震發(fā)生8分鐘后將由地震機器人自動生成的消息發(fā)布在全美媒體上,在一定程度上起到了穩(wěn)定情緒,避免更多人卷入災(zāi)害的作用。
客觀公正。機器新聞不帶有人類記者的偏見。在沒有人工干預(yù)的條件下,只是單純地對數(shù)據(jù)、信息進行結(jié)構(gòu)化的輸出。
個性化定制。隨著技術(shù)更新,機器新聞能夠?qū)崿F(xiàn)精準(zhǔn)的個性化定制,甚至為讀者生成屬于個人風(fēng)格的報道。Dream Writer在10月14日發(fā)布的 “常規(guī)版”“研判版”“民生版”3個不同文風(fēng)版本的稿件說明在個性化定制和推送上是有發(fā)展前景的。endprint
解放新聞從業(yè)者,擴充報道范圍。機器新聞寫作可以簡化新聞生產(chǎn)流程,解放新聞從業(yè)者,讓他們一些常規(guī)的報道中脫離出來。另一方面,機器抓取數(shù)據(jù)范圍廣泛,而記者的興趣范圍和精力有限,機器新聞可以在一定程度上補充記者寫稿的局限,擴充信息范圍。
(二)機器新聞的不足
模式化、同質(zhì)化傾向明顯。機器新聞的原理導(dǎo)致了其高度模式化,同質(zhì)化的傾向。Dream Writer的大部分經(jīng)濟報道都是統(tǒng)一模式的標(biāo)題,內(nèi)容短小,按照統(tǒng)一模板嵌入不同數(shù)據(jù)。目前機器新聞寫作也主要局限于財經(jīng)、體育等少數(shù)幾個領(lǐng)域。
數(shù)據(jù)的獲取和可信度。數(shù)據(jù)是機器新聞形成的重要元素,沒有數(shù)據(jù)就無法形成報道。數(shù)據(jù)的價值和重要性得到重視,對于數(shù)據(jù)的保護更多,是否能夠訪問到所需要的關(guān)鍵數(shù)據(jù)也是機器新聞的一個挑戰(zhàn)。同時,在機器新聞的報道中,應(yīng)當(dāng)明確數(shù)據(jù)來源,讓用戶有跡可循。由于機器新聞進行數(shù)據(jù)抓取和處理的過程對于用戶來說是一個“黑箱”,要保證真實和準(zhǔn)確,應(yīng)該公開披露數(shù)據(jù)來源,使得數(shù)據(jù)和處理結(jié)果更加可信。
無法脫離算法和模板的窠臼。機器新聞現(xiàn)在依然不能脫離算法和模板,無法進行創(chuàng)造。僅僅依賴于一些定量數(shù)據(jù)進行膚淺的展現(xiàn),是遠(yuǎn)遠(yuǎn)不夠的。
主題單一,缺乏人情味。目前的機器新聞無法主動發(fā)現(xiàn)新聞,只能通過已經(jīng)抓取的數(shù)據(jù),通過算法和模板生成對某一主題相對固定的報道。同時寫作上,機器新聞故事性不足,缺乏吸引力。
個性化的漩渦。個性化服務(wù)基于用戶數(shù)據(jù)進行分析。但大量相似的內(nèi)容無法真正滿足用戶的需求,應(yīng)有的價值取向不應(yīng)該被算法蒙蔽。一味地追求個性化而失去態(tài)度和價值,不是媒體人應(yīng)該提供的服務(wù)。
三、人機協(xié)同,彰顯人的價值
機器新聞是新聞生產(chǎn)自動化的一個新階段。無論是代替記者完成機械重復(fù)的特定稿件的生產(chǎn),還是和記者協(xié)同合作,互相補充,新聞生產(chǎn)的智能化已經(jīng)是不可避免的趨勢,新聞專業(yè)主義和人的價值也顯得格外重要。
機器新聞的應(yīng)用受到自然語言生成、大數(shù)據(jù)等技術(shù)的限制。盡管近年來,人工智能技術(shù)應(yīng)用的成果在各個領(lǐng)域迅速滲透,深度學(xué)習(xí)等算法、運算能力等技術(shù)有了很大的進步,但是自然語言處理的整體水平還不算高,自然語言生成的水平依然有限,現(xiàn)在的機器寫作基本還是“模板+自動數(shù)據(jù)填充”的模式。但是未來,機器在規(guī)律的挖掘、情感的分析和表達、對原因的分析方面都有可能得到巨大的提高,機器新聞很可能會脫離模板的桎梏,學(xué)習(xí)更多“人性化”的敘事技巧,讓機器新聞報道的可讀性更強,甚至具有創(chuàng)造力和思考的能力。
從目前的技術(shù)水平來看,這還需要一個過程。更好地利用機器新聞,應(yīng)當(dāng)充分利用機器收集和處理大數(shù)據(jù)的能力,完成基礎(chǔ)性的信息采集和處理工作。在此基礎(chǔ)上,發(fā)揮人本身的價值,挖掘數(shù)據(jù)背后深層的思想。技術(shù)無法取代人對于“新聞價值”的判斷,缺乏深度思考和人文關(guān)懷的報道也無法具備輿論引導(dǎo)的能力。
當(dāng)前,大部分的機器新聞在發(fā)布之前,仍然需要經(jīng)過“人工審核”這一關(guān),機器無法完成對價值取向的判斷。對于新聞記者來說,機器新聞的出現(xiàn)未必是對職業(yè)的沖擊,而是有力的助手。機器對數(shù)據(jù)的采集和處理能力可以將記者從繁瑣機械的信息搜集工作中解放出來,利用機器處理的結(jié)果進行更深層次的思考和挖掘。彭蘭教授指出智媒時代的三大特征是萬物皆媒、人機共生、自我進化[6]。機器的計算能力能夠幫助記者尋找選題、搜集信息和數(shù)據(jù),幫助記者完成高水平的報道。人與機器當(dāng)相互協(xié)作,形成“人機協(xié)同”的工作模式,讓技術(shù)更好地為記者和用戶服務(wù)。
不論是國內(nèi)還是國外,機器新聞的主要研發(fā)力量還是在掌握技術(shù)的互聯(lián)網(wǎng)科技公司。對于技術(shù),我們既不應(yīng)盲目追從,也不該躲避抗拒。對于新技術(shù),傳媒業(yè)應(yīng)該以冷靜的態(tài)度看待,利用技術(shù)帶來的便利和優(yōu)勢。機器新聞從目前的發(fā)展情況來看,可以用來替代一些基礎(chǔ)的、繁雜的重復(fù)性工作,但是,離真正的“智能”還有很長的一段距離。技術(shù)與人,機器與記者應(yīng)該是互補互存的關(guān)系。正確地利用機器的能力,發(fā)揮人的所長,是機器新聞未來發(fā)展的方向。
參考文獻:
[1] 李蘇.機器新聞發(fā)展的市場進路及反思——以AutomatedInsights
公司為例[J].新聞界,2015(18):56-61.
[2] Hamilton J T, Turner F. Accountability through algorithm: Developing the field of computational journalism[C].Report from the Center for Advanced Study in the Behavioral Sciences, Summer Workshop.2009:27-41.
[3] Reiter E,Dale R. Building applied natural language generation systems[J]. Natural Language Engineering,1997,3(1):57-87.
[4] Van D K H A J, Journalist versus news consumer: The perceived credibility of machine written news[C].British Medical Jourrnal,
2014,2(5147):305.
[5] 管瓊.“機器人記者”新聞生產(chǎn)的現(xiàn)狀與趨勢[J].傳媒,2017(3): 53-55.
[6] 彭蘭.智媒化:未來媒體浪潮——新媒體發(fā)展趨勢報告(2016)[J].國際新聞界,2016,38(11):6-24.
[責(zé)任編輯:思涵]endprint