徐麗芳+樂征帆
2016年年初,一篇由人工智能(artificialintelligence,AI)與人類合作完成的短篇小說《當(dāng)有一天電腦寫起了小說》(Konpyuta ga shosetsu wo kaku hi)成功通過了《日本經(jīng)濟(jì)新聞》星新一文學(xué)獎(Nikkei Hoshi Shinichi Literary Awardceremony)的初審。該小說源于日本公立函館未來大學(xué)(FutureUniversily Hakodate)仁松原(Himshi Matsubara)團(tuán)隊開發(fā)的一個AI項目。團(tuán)隊首先編寫了一段傳統(tǒng)小說用作模板,然后將其拆解成單詞和短語,最后通過創(chuàng)造一個選擇矩陣來讓程序進(jìn)行操作——人工智能最終完成了剩下的20%的工作。雖然最終沒能榮獲獎項,不過能在盲審中通過專業(yè)評委的初審,已經(jīng)讓很多研究人員看到了機(jī)器學(xué)習(xí)的潛力。同時也使得我們開始對機(jī)器學(xué)習(xí)到底能在出版業(yè)中發(fā)揮多大作用產(chǎn)生好奇。
機(jī)器寫作
通過機(jī)器學(xué)習(xí)來實現(xiàn)機(jī)器寫作或機(jī)器人寫作并不鮮見。機(jī)器寫作最早可追溯至1950年代關(guān)于機(jī)器翻譯的研究成果。近年來,隨著計算機(jī)技術(shù)應(yīng)用領(lǐng)域的拓展,機(jī)器寫作技術(shù)基本成熟并廣泛應(yīng)用于醫(yī)療、財經(jīng)、教育等各個領(lǐng)域,在媒體領(lǐng)域則尤為顯著。
2009年,美國西北大學(xué)智能信息實驗室的學(xué)生和研究人員開發(fā)出一款名為統(tǒng)計猴子(stats Monkey)的軟件,對美國職業(yè)棒球大聯(lián)盟季后賽進(jìn)行了報道;2010年,兩名西北大學(xué)的教授和一名前網(wǎng)絡(luò)公司主管合作成立的敘事學(xué)公司(Narrative Science)開發(fā)的一款名為鵝毛筆(Quill)的機(jī)器寫作系統(tǒng),對數(shù)千項大大小小的體育賽事進(jìn)行了近乎實時的報道;2014年3月17日,美國洛杉磯遭遇地震,《洛杉磯時報》記者兼程序員肯恩·施文克(Ken Schwencke)編寫的名為地震機(jī)器人(Quakebot)的算法程序,在地震發(fā)生3分鐘內(nèi)自動收集相關(guān)信息,率先發(fā)布了突發(fā)新聞。
其中,創(chuàng)立于2007年的美國科技公司“自動洞察”(Automated Insights)是機(jī)器寫作新聞領(lǐng)域的領(lǐng)軍者,其開發(fā)了一款名為“文字匠”
(WordSmith)的軟件,可以依據(jù)用戶提供的數(shù)據(jù)和模板自動編寫一些簡單的體育類、財經(jīng)類新聞(見圖1)。據(jù)Automated InsiahtS介紹,其客戶包括美聯(lián)社、雅虎、三星、微軟等著名品牌,應(yīng)用于媒體、商業(yè)、金融服務(wù)、體育娛樂等多種產(chǎn)業(yè),僅在2013年就生產(chǎn)了3億篇100多種形式的報告,平均每秒鐘生產(chǎn)9.5篇,而近年來的報告產(chǎn)量超過每年10億篇/條。
在我國,騰訊財經(jīng)開發(fā)的騰訊寫作機(jī)器人(Dreamwriter)于2015年9月10日首次發(fā)布了《8月CPI同比上漲2%創(chuàng)12個月新高》的新聞報道,成為國內(nèi)首個機(jī)器新聞寫作的試水者。同年11月7日,新華社推出“快筆小新”機(jī)器人,主要負(fù)責(zé)體育新聞和財經(jīng)新聞的報道。與此同時,《紐約時報》《華盛頓郵報》《洛杉磯時報》《衛(wèi)報》《世界報》《福布斯》等多個國家的新聞媒體近年來都已經(jīng)將機(jī)器人不同程度地應(yīng)用到新聞采編的多個環(huán)節(jié)。不過現(xiàn)有的這些機(jī)器人程序大多是為特定類型的結(jié)構(gòu)化的新聞寫作而開發(fā),尚不能完全脫離人工干預(yù)。
除了新聞,機(jī)器還可以創(chuàng)作其他類型的文本。例如生成游戲說明文本、軍事報告、天氣預(yù)報,或在教育、醫(yī)療環(huán)境中生成自動問答和學(xué)習(xí)、醫(yī)療記錄,在導(dǎo)航系統(tǒng)中生成路線報告、景點介紹、問答等。
除此之外,機(jī)器甚至可以進(jìn)行藝術(shù)創(chuàng)作。2016年5月,由人類和機(jī)器攜手創(chuàng)作的音樂劇《越過柵欄》(Beyond theFence)在倫敦藝術(shù)歌劇院上演。該劇實際上是一個由音樂、計算機(jī)、創(chuàng)造力研究領(lǐng)域的頂尖專家通力協(xié)作的學(xué)術(shù)項目——編舞、演出、劇務(wù)之類的工作由人承擔(dān),但劇本、歌詞以及音樂是先由計算機(jī)構(gòu)思和生成,再由人工挑選整理而成?!半p眸剪秋水,一手彈春風(fēng),歌盡琵琶怨,醉來人夢中”——2016年3月,清華大學(xué)的一套人工智能系統(tǒng)寫出了格律詩,在大眾評分中獲得了與人類作品相似的分?jǐn)?shù),并且有相當(dāng)多評委無法分出哪些詩出自機(jī)器之手。
在出版領(lǐng)域,許多新興公司也在試圖用機(jī)器學(xué)習(xí)技術(shù)幫助作者撰寫作品。作者工具(Author Tools)是美國英特羅格(Intellogo)公司(見圖2)目前正在開發(fā)的一套基于網(wǎng)頁的人工智能工具。Intellogo聘請了一個文學(xué)專家團(tuán)隊來訓(xùn)練其理解詞匯、情感、內(nèi)容和情境是如何混合在一起的。該工具能幫助作者深入把握作品結(jié)構(gòu)并且探究文中概念的內(nèi)涵,比如:簡單和復(fù)雜的情節(jié)如何匹配,如何設(shè)定主要角色的情感層級,如何將女性角色置于中心地位等;同時,分析這些內(nèi)涵概念如何互動,各自發(fā)揮什么樣的作用,以幫助作者理清情感、情境和上下文的作用;通過對作者以往作品的回顧,幫助作者保持寫作風(fēng)格的統(tǒng)一。
發(fā)現(xiàn)與推薦優(yōu)質(zhì)內(nèi)容
通過機(jī)器學(xué)習(xí)來分析文本內(nèi)容,從而更好地服務(wù)于閱讀和出版其實也早已有之。成立于2007年的書燈公司(BookLamp)是一家通過分析文本的寫作風(fēng)格來幫助讀者尋找適配圖書的公司;成立于2011年9月1日的軌道公司(Trajectory)通過自然語言處理程序處理成千上萬本圖書的相關(guān)信息,收集并分析圖書特征,以幫助讀者更加深入地發(fā)現(xiàn)和利用這些信息。2014年,名不見經(jīng)傳的智能推薦公司Intellogo顯然想在機(jī)器學(xué)習(xí)的道路上多邁進(jìn)一步。它主要利用大數(shù)據(jù)分析圖書內(nèi)容和讀者行為,通過機(jī)器學(xué)習(xí)掌握已有圖書的主題、寫作風(fēng)格、節(jié)奏、情感等,以便更精準(zhǔn)地為讀者推薦圖書。
對于出版商來說,Intellogo機(jī)器人首先會梳理出版商的整個書庫,并生成包括風(fēng)格、主題、觀點、語調(diào)等在內(nèi)的細(xì)粒度內(nèi)容分析報告(見圖5)。然后,根據(jù)內(nèi)容細(xì)節(jié),Intellogo可以生成增強(qiáng)型的標(biāo)準(zhǔn)化元數(shù)據(jù),方便公司、零售商和合作伙伴發(fā)現(xiàn)和利用出版商的內(nèi)容。最后,Intellogo可以將對出版內(nèi)容的研究同對消費(fèi)者行為數(shù)據(jù)的研究相結(jié)合,深入理解讀者的喜好,來發(fā)現(xiàn)新的商機(jī)。從書商的角度來說,他們可以將機(jī)器人應(yīng)用于自己的信息平臺如線上網(wǎng)站,從而達(dá)到更好的營銷效果。Intellogo機(jī)器人一方面可以根據(jù)圖書信息,24小時無間斷地向讀者有針對性地推薦圖書,與客戶建立個性化的互動關(guān)系;另一方面,書商也可以利用人工智能,通過對用戶數(shù)據(jù)的分析來改善為用戶提供的服務(wù)。endprint
值得一提的是,Intellogo推薦圖書的過程,并不是現(xiàn)有搜索引擎式的根據(jù)搜索關(guān)鍵詞返回條目式鏈接,而是用戶與機(jī)器自然的對話過程。在對話過程中,客戶可以對機(jī)器人提出要求,機(jī)器人也會根據(jù)自己的理解和對話情景提出進(jìn)一步的問題。最終,機(jī)器人只會反饋最合適的、唯一的圖書,而且會說明推薦這本圖書的原因。如果用戶對圖書不滿意,可以通過和機(jī)器人反復(fù)對話來完善推薦的書目。人工智能AI會在不斷的溝通中完善自己對概念的理解,變得更加聰明和高效。
機(jī)器預(yù)測
機(jī)器學(xué)習(xí)的潛力也不僅限于閱讀推薦,預(yù)測暢銷書同樣可以施展所能。2016年初,《暢銷書密碼:解剖驚世小說》的作者喬蒂·阿徹(Jodie Archer)和馬修·L.喬克思(MatthewL Jockers)聲稱他們創(chuàng)造了一種算法,能分辨出哪些文學(xué)元素可以使得圖書暢銷。4月,數(shù)據(jù)驅(qū)動的出版商英凱特(Inkitt)宣布將和石山圖書(Tor Book)合作出版第一部由算法選擇出版的小說,在業(yè)內(nèi)引發(fā)了很大爭議。
Inkitt創(chuàng)始人及CEO阿里·阿爾巴扎(Ali Alibazaz)堅信人工智能和機(jī)器學(xué)習(xí)將成為出版業(yè)新的引爆點。他認(rèn)為過去400年間,出版過程是建立編輯和文學(xué)機(jī)構(gòu)的知識、經(jīng)驗以及直覺之上的,其不得不從數(shù)百萬手稿中選出誰最有可能成為下一本暢銷書的作品。不過傳統(tǒng)的系統(tǒng)并不是絕對靠譜,《哈利·波特》第一卷被拒絕了12次,《暮光之城》被拒絕了14次,《魔女嘉莉》被拒絕了30次。有多少優(yōu)秀小說因為專家誤判而永遠(yuǎn)沒有機(jī)會出版呢?又有多少作者在面對一些拒絕之后放棄了呢?現(xiàn)在技術(shù)的發(fā)展使得潛在的暢銷書不會輕易被忽視——數(shù)據(jù)將會給每一個作者公平的機(jī)會去獲得出版權(quán)利。他認(rèn)為,數(shù)據(jù)驅(qū)動的出版只是科學(xué)地改變出版流程的一部分:數(shù)據(jù)可以幫助出版商選擇合適主題和風(fēng)格的文章,實現(xiàn)更科學(xué)的決策,同時也可以進(jìn)行更有效的市場推廣。
不過出版咨詢機(jī)構(gòu)創(chuàng)意邏輯公司(TheIdeaLogicalCompany)的創(chuàng)始人和領(lǐng)導(dǎo)者邁克·肖特金(Mike Shatzkin)則完全不認(rèn)可機(jī)器學(xué)習(xí)預(yù)測暢銷書的潛力。他說:“僅僅從圖書的內(nèi)容本身而不考慮消費(fèi)者、品牌和營銷推廣等因素就判斷一本書是否能暢銷是非常荒謬的?!彼怨雀桀A(yù)測新電影票房為例:谷歌在預(yù)測票房時考慮了各種數(shù)據(jù)如熒幕數(shù)量、主演之前電影的票房、電影搜索量、預(yù)告片觀看量、電影流派、上映季節(jié)、特許經(jīng)營狀態(tài)、明星魅力、競爭情況、批評情況、試映的觀眾評分等。雖然谷歌擁有全世界最強(qiáng)的文本分析能力,可是他們并不去分析劇本,因為劇本并沒有預(yù)測價值。
而Intenogo創(chuàng)始人和CEO尼爾·巴爾塔薩(NellBalthaser)則對機(jī)器學(xué)習(xí)技術(shù)有不一樣的理解。他認(rèn)為:算法本身不能預(yù)測圖書是否會成為暢銷書,不過我們所做的是利用機(jī)器學(xué)習(xí)去定義暢銷書的語調(diào)、情感、話題和寫作風(fēng)格,然后再通過這種方式更好地理解讀者需求。一方面,人工智能系統(tǒng)可以將現(xiàn)在的暢銷書,也就是代表了當(dāng)前市場興趣取向的圖書和出版商即將出版的圖書進(jìn)行比較,來幫助確定市場營銷的重點;另一方面,使用機(jī)器學(xué)習(xí)可以給出版商一個獲得其讀者實時偏好信息的機(jī)會并采取相應(yīng)行動,如將書名改成更易被讀者接受的版本。
綜上所述,不論關(guān)于機(jī)器學(xué)習(xí)仍然存在多少爭議,無可否認(rèn)的是從長遠(yuǎn)來看出版同樣是一個技術(shù)驅(qū)動的行業(yè)。從造紙術(shù)到雕版印刷術(shù)、活字印刷術(shù),我們所不可預(yù)知的是下一次技術(shù)變革究竟是什么以及何時到來。不過我們知道,當(dāng)人工智能席卷而來,除了會對出版業(yè)的內(nèi)容生產(chǎn)、推薦、營銷產(chǎn)生深刻影響外,甚至可能會創(chuàng)造出全新的運(yùn)營模式。當(dāng)人工智能都開始創(chuàng)作了,又有什么是不可能的呢?機(jī)器學(xué)習(xí),也許就會是下一個轉(zhuǎn)折點。endprint