国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Archer Jockers:用機器算法解密暢銷小說基因

2019-04-19 08:39陳銘徐麗芳
出版參考 2019年3期
關(guān)鍵詞:文本挖掘機器學(xué)習(xí)暢銷書

陳銘 徐麗芳

摘 要:圖書咨詢公司Archer Jockers致力于使用人工智能破解圖書暢銷的一般模式,幫助不同領(lǐng)域的小說家改進(jìn)他們的書稿,以數(shù)據(jù)驅(qū)動的角度重新理解、優(yōu)化自己的小說創(chuàng)作。此外,Archer Jockers還朝著為出版商、經(jīng)紀(jì)人和其他書籍業(yè)務(wù)相關(guān)機構(gòu)和個人提供定制服務(wù)的方向努力,包括挑選書籍、撰寫圖書簡介、書籍分析和暢銷書趨勢分析等,期望運用算法找到最佳的小說暢銷方案。

關(guān)鍵詞:Archer Jockers 暢銷書 文本挖掘 機器學(xué)習(xí)

暢銷書的概念最早起源于美國,《大不列顛百科全書》對“暢銷書”(Bestseller)的定義是:在某個時期內(nèi)受到大眾歡迎,銷量在同類書中位列前茅的圖書,可作為反映大眾文學(xué)趣味和評價標(biāo)準(zhǔn)的一種指標(biāo)。作為市場產(chǎn)物,一本暢銷書雖然不一定能成為經(jīng)典,但出色的銷量證明了它們相當(dāng)契合某個時期內(nèi)大眾的欣賞趣味、心理需求和價值觀念等。這也表明,一個作家要寫出一本暢銷書必須具備洞察人性和把控故事節(jié)奏的能力,在撰寫時知道如何創(chuàng)造緊湊的情節(jié)和故事的高潮。暢銷書應(yīng)該是什么樣的?這個答案也許在作家心中,也可能在出版社編輯和文學(xué)經(jīng)紀(jì)人的運作里,但都要經(jīng)過讀者的檢驗。有些書評人和編輯認(rèn)為一些書得以大賣是巧合和運氣,畢竟暗藏于暢銷書中的獨特信號總是讓人無法捉摸。

那么,暢銷書是否有“規(guī)律”可循?來自斯坦福大學(xué)和蘋果公司iBooks的自然語言處理專家茱蒂·阿切爾(Jodie Archer)和馬修·喬克思(Matthew Jockers)自2010年共同組成團隊,運用人工智能技術(shù)研究小說,花5年時間分析了近三十年的5000本暢銷小說,用機器分類算法得到暢銷書最一般的構(gòu)成要素,定量和定性相結(jié)合探究暢銷書的基本原理。Matthew認(rèn)為:“關(guān)于暢銷書的分析,計算機能看到人們無法直接看到的信息,還能找到暢銷書最常見和可預(yù)測的特征?!?016年,Jodie和Matthew在文學(xué)經(jīng)紀(jì)人的推動下將他們的發(fā)現(xiàn)總結(jié)成《暢銷書密碼》(The Bestseller Code)一書。該書被翻譯成8種語言出版發(fā)行,兩位研究者也因此成名。隨后,二人于2017年一同創(chuàng)立圖書咨詢公司阿切爾·喬克思(Archer Jockers)繼續(xù)他們的暢銷書研究,致力于幫助不同領(lǐng)域的小說作家改進(jìn)他們的書稿,以數(shù)據(jù)驅(qū)動的角度重新理解自己的小說創(chuàng)作。此外,Archer Jockers還朝著為出版商、經(jīng)紀(jì)人和其他書籍業(yè)務(wù)商提供定制化服務(wù)的方向努力,期望通過算法找到最佳的圖書暢銷方案。

一、技術(shù)路線:用算法程序“揉碎”和讀取語言數(shù)據(jù)

Archer Jockers主要通過算法運行作家書稿,依靠自主研發(fā)的計算機程序Bestsellerometer開展業(yè)務(wù)工作。這是基于計算機科學(xué)和文學(xué)兩個不同領(lǐng)域的理論開發(fā)的運算程序,其核心是兩位創(chuàng)始人在研究“暢銷書密碼”時開發(fā)的算法。機器擅長海量閱讀和數(shù)據(jù)分析,可以大規(guī)模處理文本模式和細(xì)節(jié);而人類更傾向于閱讀故事情節(jié)而不會注意到文字的量化特征。Bestsellerometer則可以將小說文本中的語言數(shù)據(jù)“揉碎”后進(jìn)行分析和讀取,并輸出有用的數(shù)據(jù)點幫助作家理解其作品的文風(fēng)、主題、角色和情節(jié)等主要元素。例如,小說中平均句子長度是偏短還是偏長?敘述和人物對話的篇幅分別是多少?從情感角度出發(fā)得到的故事情節(jié)線起伏是否貼近暢銷書的敘述節(jié)奏?經(jīng)過Jodie和Matthew在研究暢銷書過程中長達(dá)四年的訓(xùn)練,Bestsellerometer閱讀了近萬本品質(zhì)不同的小說,已經(jīng)可以通過計算判斷一個作品是否將會暢銷。例如,J.K.羅琳的作品在Bestsellerometer的算法模型中得出的暢銷可能性為95%,美國超級暢銷書作家詹姆斯·帕特森作品的暢銷可能性為99.9%。

為了讓Bestsellerometer的預(yù)測更為精確,二人進(jìn)行了大量工作,主要包括三個部分:第一,文本挖掘(Text Mining)。發(fā)現(xiàn)和提取小說的文本特征,借助計算機程序從書面文字中挖掘信息。這一步驟屬于自然語言處理(Natural Language Processing,NLP)領(lǐng)域的研究主題,涉及分詞、識別句子、詞性標(biāo)注和依存句法等多個基本任務(wù)。但每一項“基本”任務(wù)對機器而言并不意味著“容易”,一旦真正深入研究小說語言和語法的工作方式,情況都會變得相當(dāng)復(fù)雜。即使是教機器識別每個單詞開頭和結(jié)尾的分詞任務(wù),也會出現(xiàn)很多難以解決的情況,例如cant和shouldnt這類帶著標(biāo)點符號的詞就不能依靠單詞之間的空格來識別為兩個不同的詞。NLP技術(shù)人員通過編寫程序?qū)⒒谝?guī)則的“解析”轉(zhuǎn)向基于統(tǒng)計推斷的算法,利用詞典和統(tǒng)計推斷算法教會機器在海量閱讀時消除歧義和處理邊緣情況,包括命名實體識別(Named Entity Recognition,NER)等方法(注:NER是Bestsellerometer在自然語言處理過程中進(jìn)行文本挖掘的一種語言處理方法,目的是識別語料中人名、地名、組織機構(gòu)名等命名實體,判斷小說是否暢銷與小說人物以及地緣政治背景的選擇等要素是否相關(guān))。第二,機器學(xué)習(xí)(Machine Learning)。篩選文本挖掘抓取到的文本特征,總結(jié)出與“暢銷元素”強相關(guān)的代表特征。借助機器學(xué)習(xí)和分類實驗,Jodie和Matthew將最初得出的28000個文本特征進(jìn)行篩選,只留下10%,其中故事發(fā)生地和年份等文本特征被認(rèn)為與“暢銷與否”無關(guān)。而剩下的文本特征,例如親密關(guān)系主題等被確定為判斷暢銷書的依據(jù)。第三,機器歸類。利用前兩個步驟得出的暢銷書判據(jù)對“未知”小說文本進(jìn)行歸類,放入由近3000個特征構(gòu)成的維度空間內(nèi),判斷它是否能夠暢銷。Bestsellerometer采用的歸類算法有三種:K近鄰(K Nearest Neighbors,KNN)算法,會自動搜尋每本書在空間內(nèi)和它最接近的5本書,由這5本書的暢銷性質(zhì)推測這本書是否具備暢銷書潛質(zhì)。支持向量機(Support Vector Machines,SVM)算法,假設(shè)暢銷書量表只需要“very”這個詞的使用率和“人物親密關(guān)系”2個文本特征作為維度(注:Jodie和Matthew通過研究發(fā)現(xiàn),在暢銷書中,“very”這個詞的使用率不高,而且作家會重點落墨于人物之間的親密關(guān)系;反之則可能為冷門書)。 SVM算法先將每本書的位置在特征空間中標(biāo)注出來;再通過統(tǒng)計推斷出暢銷書集合和冷門書集合之間的分界線;最后計算機根據(jù)小說文本的位置判斷它是否暢銷。最近收縮形心(Nearest Shrunken Centroids,NSC)算法則是先計算暢銷書和冷門書的數(shù)學(xué)重心,并通過參數(shù)縮小重心之間的距離,通過比較每本書與2個重心的距離判斷它是否能夠暢銷。三種算法的平均預(yù)測精確度達(dá)到80%。

二、產(chǎn)品形態(tài):多角度分析文本報告

作為一家圖書咨詢公司,Archer Jockers致力于使用Bestsellerometer算法程序為作家提供文本分析服務(wù),從小說的文風(fēng)、主題、人物和情節(jié)等維度生成精細(xì)數(shù)據(jù),并提供1份包含建議和反饋圖表的詳細(xì)書稿分析報告。分析報告涵蓋小說主題分析、情節(jié)和情感分析、角色設(shè)置、人物性格和句子結(jié)構(gòu)等多個板塊;書稿中的語言數(shù)據(jù)會與從數(shù)千本書挖掘到的類似數(shù)據(jù)進(jìn)行比較,然后由Bestsellerometer給每個板塊評定一組代表星級的分?jǐn)?shù)。就小說主題而言,大多數(shù)暢銷書只有3-4個最顯眼的主題,描寫重要主題的篇幅大致占據(jù)小說篇幅的30%。而新作家往往會在小說中引入太多主題導(dǎo)致情節(jié)變得難以控制,使故事走向“難以結(jié)束”和“迅速結(jié)束”兩個極端。小說主題比重對Bestsellerometer的算法有重大影響:暢銷書主題需要存在潛在的劇烈沖突,同時還不能太脫離現(xiàn)實生活。一般而言,特別離奇和過于緩和的主題都不太會暢銷,例如搖滾和園藝等。Archer Jockers使用不同的主題模型展示小說的主題焦點與主題的整體分布情況,并與暢銷書主題作相應(yīng)的比較。例如圖中展示的是作家亞歷珊德拉·范麗卡(Alexandra Velika)的小說《紐約脫衣舞小姐》(Big Apple Strippers,簡稱“BAS”)與暢銷書以及市面上其他圖書中占比前十的主題分布比例(T-1是指書中占比第一的主題篇幅,T-2是指書中占比前2名的主題篇幅總和,以此類推)。由于BAS前3-4個主題的總比沒達(dá)到30%,而且其前10個主題中每一個的占比不僅大大落后于暢銷書,甚至也落后于其他一般正式出版的圖書,因此Archer Jockers建議其針對主題焦點添加更為豐富的內(nèi)容,刪除一些與重要主題無關(guān)的故事描寫。

除了小說主題,情節(jié)線的起伏和節(jié)奏也是Archer Jockers小說文本分析服務(wù)的關(guān)鍵。故事情節(jié)的高峰和低谷越密集,小說人物和讀者的情緒起伏越頻繁,越容易引人入勝。在劇本和小說中,最簡化的故事曲線為三幕式架構(gòu):觸發(fā)、沖突和解決。利用三幕式架構(gòu)分析小說可以快速看出情節(jié)的基本輪廓,但還不夠微觀詳細(xì)。為此,Bestsellerometer在分析小說時會追蹤情緒詞語,并將各種故事情節(jié)歸納成七大曲線,從而可以直觀地看出人物情緒是如何隨情節(jié)推進(jìn)而產(chǎn)生變化的。如圖4所示的BAS情節(jié)線,圖表中間的水平線代表毫無波動的情緒,水平線以上的部分表示人物處于積極情緒中,例如開心、興奮、曖昧和雀躍等,水平線以下的部分則表明人物進(jìn)入消極情緒中。向上的斜坡標(biāo)志著讀者將跟隨故事情節(jié)的推動獲得越來越積極的情感體驗,往下的曲線波動則表明事態(tài)朝著消極的方向發(fā)展。垂直的虛線表明BAS的敘事節(jié)奏。它們在故事時間軸上的分布間隔越均勻,讀者的閱讀體驗就越趨于平衡。整體而言,由于小說的大部分情節(jié)在水平線以下,這可能導(dǎo)致該書在市場上表現(xiàn)不佳,因此作者應(yīng)設(shè)置更多積極的情節(jié)轉(zhuǎn)折點,避免情節(jié)線長時間位于消極情緒中。另外,每一部小說都有自己特定的敘事焦點。敘事焦點的變化推動了情節(jié)的發(fā)展,從而影響讀者的閱讀節(jié)奏。Bestsellerometer的統(tǒng)計結(jié)果表明,情節(jié)線的振幅和頻率與小說暢銷與否高度相關(guān),高低對稱且韻律協(xié)調(diào)的情節(jié)線更容易吸引讀者,例如現(xiàn)象級暢銷書《達(dá)·芬奇密碼》全書的情節(jié)線分布上屬于整體均勻?qū)ΨQ、韻律感強的“W”線型。

三、發(fā)展方向:從作家市場轉(zhuǎn)向出版業(yè)暢銷書業(yè)務(wù)

目前,Archer Jockers主要聚焦于作家市場,為小說家的書稿提供基于算法的個性化反饋,并給作家一些出版社編輯不能提供的修訂建議。它的服務(wù)包括個性化書稿分析、小說系列分析以及VIP服務(wù)。個性化書稿分析需要作家支付200美元服務(wù)費用,作家會在一周內(nèi)收到Archer Jockers的報告。小說系列分析是幫助作家在寫系列小說時,判斷是否應(yīng)該繼續(xù)下一本的寫作,它會為作家提供整個小說系列的情節(jié)走向和主題連續(xù)性等方面的反饋報告。根據(jù)小說系列的具體冊數(shù)(5冊以內(nèi)),服務(wù)費用大致在340-750美元之間。VIP服務(wù)主要針對一些需要一對一專業(yè)指導(dǎo)的作家,由原先出版社編輯出身的Jodie提供專業(yè)指導(dǎo)。Jodie會依據(jù)書稿分析報告與作家一起探討所有數(shù)據(jù)點對他們小說的意義,幫助作家打開思路。此外,Jodie還會給作家提供關(guān)于出版方面的業(yè)務(wù)指導(dǎo)等。該項服務(wù)費用在165美元以上。隨著Archer Jockers業(yè)務(wù)的逐步開展,已經(jīng)有多名作家對他們的服務(wù)表示認(rèn)可;而且有越來越多的作家開始嘗試這項具有“算法智慧”的圖書咨詢服務(wù)。

此外,Archer Jockers還朝著為出版商、文學(xué)經(jīng)紀(jì)人和其他暢銷書相關(guān)業(yè)務(wù)機構(gòu)提供定制服務(wù)的方向努力,包括挑選書籍、撰寫圖書簡介、書籍分析和暢銷書趨勢分析等。Jodie和Matthew認(rèn)為出版業(yè)內(nèi)的暢銷書銷量存在一個可預(yù)測的模式。美國東北大學(xué)的Albert-László Barabási團隊也對此表示支持。后者通過對“紐約時報暢銷書排行榜”進(jìn)行數(shù)據(jù)研究,提出了一個暢銷書動力學(xué)機制。Albert-László Barabási團隊在調(diào)查中發(fā)現(xiàn),在虛構(gòu)類小說市場中,女性作家的作品每年銷量更高,所占比例較男性作家更重。而Archer Jockers發(fā)現(xiàn),從語言風(fēng)格的量化結(jié)果出發(fā),女性作家掌握憑借簡潔行文打動人心的寫作技巧,文風(fēng)更接近市面上暢銷書的文風(fēng)特征。如今,圖書出版業(yè)的競爭相當(dāng)激烈。每年僅是在美國印刷出版的新書就超過20萬種,而位列《紐約時報》暢銷書單的只有不到500本圖書。Jodie和Matthew認(rèn)為,將大數(shù)據(jù)算法和人工智能應(yīng)用于圖書出版業(yè)能準(zhǔn)確地預(yù)測小說作品的暢銷品質(zhì)以及當(dāng)前市場動態(tài),有望幫助出版商打造現(xiàn)象級暢銷書。如今,Archer Jockers不僅幫助出版商或經(jīng)紀(jì)人將小說作品與市場上的暢銷書進(jìn)行比較并判斷其發(fā)行潛力,還能提供其他方面的決策支持。例如,在出版商把某作家的書稿發(fā)給Archer Jockers后,后者會通過機器閱讀該作家的作品,判斷其是否具備暢銷書作家的潛質(zhì),幫助出版商決定是否雇用這個作家。

四、結(jié)語

隨著大數(shù)據(jù)和人工智能的應(yīng)用滲透到出版的各個環(huán)節(jié),已經(jīng)有多家公司像Archer Jockers一樣將機器算法用于暢銷書運作中。例如,有的公司依靠大數(shù)據(jù)挖掘出大量用戶搜索的非虛構(gòu)題材,然后雇人按照數(shù)據(jù)分析所得的大綱快速創(chuàng)作,借助數(shù)據(jù)挖掘獲得的先機獲得利潤。如今,雖然許多出版商開始認(rèn)可大數(shù)據(jù)和機器算法等先進(jìn)技術(shù)對行業(yè)運作的推動作用,但仍存在質(zhì)疑的聲音。部分業(yè)界人士認(rèn)為,機器算法可能有助于出版商盈利,但如果將銷量視為衡量小說的文學(xué)標(biāo)準(zhǔn),會毀了小說本身。換言之,純粹迎合讀者的小說作品更像是機器進(jìn)行文字切割和加工后的工業(yè)產(chǎn)品,將小說世界變成沒有多種可能性和“美感”的科學(xué)領(lǐng)域,限制了讀者的閱讀體驗。毫無疑問,出版業(yè)屬于文化產(chǎn)業(yè),文學(xué)作品需要百花齊放而不是標(biāo)準(zhǔn)化生產(chǎn);機器算法等人工智能并不能取代作者所能給予讀者的文學(xué)智慧。在這科技無處不在的世界里,未來的分析算法該如何運作才能做到不對小說創(chuàng)作產(chǎn)生影響,這是每個像Archer Jockers這樣的圖書咨詢服務(wù)提供商都要思考的問題。

參考文獻(xiàn):

[1]Encyclopedia Britannica Online, Bestseller[EB/OL].[2018-12-22].https://academic.eb.com/.

[2]Jodie Archer,Matthew L.Jockers.The Bestseller Code: Anatomy of the Blockbuster Novel[M].London:St Martins Press,2016.

[3]方卿,徐麗芳,許潔,等.出版價值引導(dǎo)研究[M]. 北京:商務(wù)印書館,2018.

[4]Burcu Yucesoy et al.Success in Books: A Big Data Approach to Bestseller[J].EPJ Data Science,2018(7):7.

[5]搜狐.他們?nèi)嗨榱?000本書籍的數(shù)據(jù),曝光了暢銷書的成功套路[EB/OL].[2018-12-22].http://www.sohu.com/a/229292059_100039183.

[6]Jianbo Gao, Matthew L. Jockers et al. A multiscale theory for the dynamical evoluti-on of sentiment in novels[C].2016 International Conference on Behavioral, Economic and Socio-cultural Computing (BESC). Durham:2016.

[7]澎湃.如何制造現(xiàn)象級暢銷書[EB/OL].[2018-12-22].https://www.thepaper.cn/newsDetail_forward_1536608.

[8]The Atlantic. Can Big Data Find the Next “Harry Potter”[EB/OL].[2018-12-22].https://www.theatlantic.com/technology/archive/2016/09/bestseller-ometer/499256/.

[9]陸利坤,游新冬.大數(shù)據(jù)技術(shù)在出版行業(yè)中的應(yīng)用研究[J].出版科學(xué),2017,25(06):89-96.

(作者單位系武漢大學(xué)信息管理學(xué)院,武漢大學(xué)數(shù)字出版研究所)

猜你喜歡
文本挖掘機器學(xué)習(xí)暢銷書
24小時完成的暢銷書
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
慧眼識璞玉,妙手煉渾金
暢銷書架
暢銷書架
暢銷書為何暢銷
正定县| 长治县| 济阳县| 冕宁县| 佛冈县| 乳山市| 东平县| 青田县| 密山市| 收藏| 新郑市| 大兴区| 常德市| 耿马| 靖安县| 开阳县| 南郑县| 乐东| 静乐县| 苏尼特左旗| 嵩明县| 秦安县| 库伦旗| 通榆县| 武清区| 西盟| 元阳县| 冕宁县| 浙江省| 库尔勒市| 惠东县| 阜南县| 恭城| 邵阳市| 佳木斯市| 新竹县| 湖口县| 延安市| 阿荣旗| 方正县| 含山县|