梁瑩
目前大數(shù)據(jù)技術(shù)還處于起步階段,無論是軟件技術(shù)、硬件技術(shù)都還不完善,但是大數(shù)據(jù)分析的前景廣闊。因此,出版企業(yè)必須仔細(xì)分析、認(rèn)真應(yīng)對,找準(zhǔn)大數(shù)據(jù)應(yīng)用的切入點(diǎn),從而實(shí)現(xiàn)大數(shù)據(jù)分析對出版活動的指導(dǎo)作用。
有人說“得數(shù)據(jù)者得天下”,海量的數(shù)據(jù)充斥在社會生活的方方面面。近年來,數(shù)據(jù)量呈現(xiàn)一種爆發(fā)式增長的趨勢。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的發(fā)展,傳統(tǒng)的數(shù)據(jù)庫已無法應(yīng)付龐大的信息量,云存儲、云計(jì)算的出現(xiàn)使得大數(shù)據(jù)分析變成一種可能。在大數(shù)據(jù)時代,出版業(yè)只有跟緊時代的步伐,認(rèn)真理解大數(shù)據(jù)、采集大數(shù)據(jù)、分析大數(shù)據(jù),才能使大數(shù)據(jù)為我所用。
一、大數(shù)據(jù)分析的定義
大數(shù)據(jù)分析(Big Data Analytics,簡稱BDA)包括對大數(shù)據(jù)的采集、恢復(fù)、存儲、管理、挖掘等技術(shù),然后通過分發(fā)、知識共享等手段最終實(shí)現(xiàn)對決策的支持,其實(shí)就是通過定量分析等方法從海量數(shù)據(jù)中提取出價值,來揭示一種規(guī)律或趨勢。
大數(shù)據(jù)分析包括幾個方面:可視化分析、數(shù)據(jù)挖掘算法、預(yù)測性分析能力、語義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理等,其中可視化分析結(jié)果最為直觀。
二、大數(shù)據(jù)分析在出版中的應(yīng)用
1.出版業(yè)中有哪些大數(shù)據(jù)可以利用
首先我們要明白出版中涉及哪些大數(shù)據(jù),可以進(jìn)行怎樣的應(yīng)用。出版單位的ERP等數(shù)據(jù)庫是結(jié)構(gòu)化數(shù)據(jù)庫,它們會提供各種各樣的企業(yè)有效數(shù)據(jù),雖然它們在整個大數(shù)據(jù)家族中所占的比例比較小?;ヂ?lián)網(wǎng)上產(chǎn)生的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),比如日志、圖片等,這些數(shù)據(jù)多而雜,但是加以分析卻可以對出版社在策劃、營銷、客服等方面的決策提供有力的指導(dǎo)。
美國的創(chuàng)業(yè)公司Hiptype開發(fā)了一套電子書閱讀分析工具,能夠提供與電子書有關(guān)的豐富數(shù)據(jù)。它不僅能統(tǒng)計(jì)電子書的試讀和購買次數(shù),還能繪制出“讀者圖譜”,包括用戶的年齡、收入和地理位置等。此外,它還能告訴出版商讀者在看完免費(fèi)章節(jié)后是否進(jìn)行購買,有多少讀者看完了整本書,以及讀者平均看了多少頁,讀者最喜歡從哪個章節(jié)開始看,又在哪個章節(jié)半途而廢,等等。
2.大數(shù)據(jù)在出版中應(yīng)用的幾個方面
通過采集、分析、解讀大數(shù)據(jù),為讀者提供分眾化服務(wù)和體驗(yàn)將成為新時代出版業(yè)競爭的焦點(diǎn)。由于大數(shù)據(jù)分析具有及時、迅速、分析高度智能等特點(diǎn),因此我們勢必要厘清大數(shù)據(jù)分析如何應(yīng)用在出版的各個環(huán)節(jié)。
(1)選題策劃階段
我們做選題策劃,很多時候都是聽取一些發(fā)行人員的建議,或者直接發(fā)放調(diào)查問卷,根據(jù)問卷樣本來做決策,但是這樣常常會產(chǎn)生偏差。那么如果對了解或以前使用過相關(guān)產(chǎn)品的客戶數(shù)據(jù)進(jìn)行分析,就可以實(shí)現(xiàn)精準(zhǔn)策劃。比如對一些社交網(wǎng)站平臺(如微博、微信)和電商平臺(如當(dāng)當(dāng)網(wǎng))提供的用戶大數(shù)據(jù)進(jìn)行分析,如用戶的性別、年齡、職業(yè)、愛好、地理位置等個人信息以及用戶的瀏覽記錄、收藏記錄、購買記錄、評價記錄等記錄信息,從這些信息中可以篩選一些關(guān)注度高的話題作為備選選題,篩選出較為活躍的有話語權(quán)的人物作為作者,通過分析用戶的個人信息確定目標(biāo)讀者,從而實(shí)現(xiàn)精準(zhǔn)策劃。
如盛大文學(xué)網(wǎng)站運(yùn)作就運(yùn)用了數(shù)據(jù)分析的方法,網(wǎng)站根據(jù)小說作者的知名度、小說的點(diǎn)擊率、讀者對小說的反饋來評定這本小說的暢銷程度,結(jié)合市場上已出版的此類型小說的銷售數(shù)據(jù)來決定是否要將這本小說出版發(fā)行,或做成紙質(zhì)版、電子版等,比如桐華的《步步驚心》就是網(wǎng)絡(luò)小說暢銷后,再推出紙質(zhì)版。
再比如美國學(xué)樂出版社的全球暢銷書《39條線索》,這一小說的選題是建立在其在線游戲基礎(chǔ)上的。出版社通過建立在線游戲追蹤最吸引人的線索和角色,以此為構(gòu)思基礎(chǔ)創(chuàng)作了《39條線索》系列小說。
(2) 編輯出版階段
很多出版社都有ERP系統(tǒng)(即Enterprise Resource Planning,企業(yè)資源計(jì)劃系統(tǒng)),ERP系統(tǒng)應(yīng)用在出版中,一般含有編輯管理系統(tǒng)、印制管理系統(tǒng)、發(fā)行管理系統(tǒng)、財(cái)務(wù)管理系統(tǒng)等。在這些系統(tǒng)里會有一些生產(chǎn)記錄、財(cái)務(wù)記錄、管理記錄以及一些資源的匯總統(tǒng)計(jì)。這個數(shù)據(jù)庫對于實(shí)時監(jiān)控圖書的稿酬、銷售、印次、印數(shù)和庫存等提供了精準(zhǔn)的數(shù)據(jù),這些數(shù)據(jù)分析有助于編輯對圖書銷售狀況的掌握和運(yùn)營成本的管理,以此及時調(diào)整策略,增加收入。
鳳凰出版?zhèn)髅郊瘓F(tuán)的“零距離編校系統(tǒng)”是一個網(wǎng)上在線編輯平臺,省去了排版公司這一環(huán)節(jié),直接由印刷廠和編輯聯(lián)系,進(jìn)行稿件的版式制作等印前業(yè)務(wù)。 在這個平臺上會產(chǎn)生諸如編輯對稿件的修改記錄、編輯與專家的溝通記錄、封面的設(shè)計(jì)修改記錄等一系列數(shù)據(jù),通過對這些數(shù)據(jù)進(jìn)行分析,可以得出哪位作者的文稿錯誤率較高,哪些錯誤出現(xiàn)的頻率高,編輯對哪些知識區(qū)域有盲點(diǎn)等,這些數(shù)據(jù)分析結(jié)果會給編輯提供最好的解決建議,從而使編輯可以有針對性地應(yīng)對。
(3)營銷階段
在營銷階段,可以利用大數(shù)據(jù)分析實(shí)現(xiàn)精準(zhǔn)營銷,根據(jù)大數(shù)據(jù)分析的結(jié)果預(yù)測群體行為和個體偏好。比如在選題策劃階段提到的對目標(biāo)讀者群的定位,在營銷階段,就可以針對這些目標(biāo)讀者投放廣告和試讀產(chǎn)品,從而增加銷售的可能性。
出版社的官網(wǎng)如果加以利用可以收集到很多數(shù)據(jù),比如用戶注冊信息、用戶行為記錄、用戶需求信息等。除官網(wǎng)外,出版社也會和一些電商平臺合作,比如當(dāng)當(dāng)網(wǎng)、淘寶網(wǎng)等,電商可以為出版社提供數(shù)據(jù)分析結(jié)果,諸如目標(biāo)用戶的特征信息及構(gòu)成等,有利于出版社了解產(chǎn)品在市場上的認(rèn)知程度及客戶構(gòu)成。比如當(dāng)當(dāng)網(wǎng)會根據(jù)用戶瀏覽、購買偏好等向用戶推薦相關(guān)產(chǎn)品;淘寶網(wǎng)也有“淘寶指數(shù)”服務(wù),用可視化圖表的方式告訴客戶其某具體時間段內(nèi)的消費(fèi)行為、消費(fèi)偏好以及何時達(dá)到消費(fèi)的最高峰等。淘寶還會根據(jù)客戶的時間偏好、消費(fèi)偏好等在合適的時間為其推薦合適的產(chǎn)品。
在一些社交網(wǎng)絡(luò)平臺上,諸如微博,出版單位會針對一些目標(biāo)客戶投放圖書的節(jié)選、音頻、視頻文件,或舉行針對性的促銷活動,既可以吸引讀者消費(fèi),提高銷售收入,也可以為顧客提供更優(yōu)越的產(chǎn)品和購物體驗(yàn),增加客戶的忠實(shí)度。如磨鐵圖書就會定期在微博上向其目標(biāo)客戶投送一些新書預(yù)告,甚至讓讀者參與到封面設(shè)計(jì)中來,增強(qiáng)與讀者的互動。
大數(shù)據(jù)分析還可以根據(jù)讀者的差異提供個性化定制服務(wù)。個性化定制需要有強(qiáng)大的數(shù)據(jù)作為基礎(chǔ),這就需要個性化定制服務(wù)平臺能夠與各種終端、社交網(wǎng)絡(luò)、電商平臺和大數(shù)據(jù)分析平臺實(shí)現(xiàn)無縫對接,從而能夠在這一鏈條上實(shí)現(xiàn)對讀者消費(fèi)行為、體驗(yàn)和需求的實(shí)時了解和跟蹤。比如Coliloquy在“Kindle主動型內(nèi)容開發(fā)者計(jì)劃”的支持下所開展的個性化定制服務(wù)。Coliloquy出版的電子書允許讀者根據(jù)自己的喜好來設(shè)計(jì)人物角色和情節(jié)線索,這里的作家可以為同一個場景寫多個視角,或給每本書寫作多重情節(jié),他們也可以讓自己的讀者投票決定故事的走向和結(jié)果。
(4)售后管理階段
大數(shù)據(jù)分析還可以幫助出版單位進(jìn)行售后管理,比如用戶滿意度調(diào)查研究等,對用戶的購買記錄、評價記錄進(jìn)行分析,可以為售后服務(wù)提供決策,及時改進(jìn)策略,增加客戶黏性。而且通過對客戶的大數(shù)據(jù)進(jìn)行分析,可以分析出圖書銷售規(guī)律,等等。通過售后管理還可以為選題策劃提供幫助,通過銷售數(shù)據(jù)分析何種選題、何種品類的市場份額更大,對于出版商調(diào)整出版品種結(jié)構(gòu)具有指導(dǎo)意義。
北京開卷信息技術(shù)有限公司已與多家出版社合作,定期向出版社提供開卷數(shù)據(jù)。比如提供各條產(chǎn)品線的數(shù)據(jù)監(jiān)測及市場預(yù)測,還會根據(jù)數(shù)據(jù)分析目前我國圖書市場的整體環(huán)境、圖書市場的暢銷趨向、圖書銷售的一般規(guī)律,并針對某出版社的主要產(chǎn)品線分析其圖書市場的競爭格局等。
三、大數(shù)據(jù)分析在出版中應(yīng)用需注意的問題
1.傳統(tǒng)出版還未成功轉(zhuǎn)型為數(shù)字出版
真正實(shí)現(xiàn)對大數(shù)據(jù)分析的應(yīng)用必須建立在完全數(shù)字出版的基礎(chǔ)上,但是目前很多傳統(tǒng)出版單位還沒有將數(shù)字出版進(jìn)行到底,既沒有借助技術(shù)公司的力量來發(fā)展出版,自己也沒有對數(shù)字出版進(jìn)行有效的投入。維克托在《大數(shù)據(jù)時代》一書中也提到了出版社數(shù)字化的問題:“出版社沒有看到數(shù)據(jù)化的需求,也意識不到書籍的數(shù)據(jù)化的潛力?!?/p>
2.數(shù)據(jù)的有效性和真實(shí)性怎樣實(shí)現(xiàn)
大數(shù)據(jù)雖然擁有的數(shù)據(jù)比較多,但是數(shù)據(jù)也很雜亂,數(shù)據(jù)中會摻雜進(jìn)去一些虛假信息。這就很有可能會帶來規(guī)律的喪失,增加大數(shù)據(jù)分析的難度,或者得出錯誤的結(jié)論。大數(shù)據(jù)分析是一個工具,可以幫助我們分析和預(yù)測,但是我們不能過分依賴大數(shù)據(jù),因?yàn)椴⒉皇撬械臄?shù)據(jù)都是可靠的。因此真正做出解決方案還需要在數(shù)據(jù)分析的基礎(chǔ)上綜合考量完成。
3.分析哪些方面、如何分析,還需要論證
大數(shù)據(jù)分析過程中需要對數(shù)據(jù)從多方面考慮,比如數(shù)據(jù)是否容易獲得,能獲得的比例,有很多公共數(shù)據(jù)并非都能獲得;是否有明確的數(shù)據(jù)分析思路,分析哪些層面、哪些因素才是最主要的;進(jìn)行數(shù)據(jù)分析的模型是否科學(xué),提取的分析屬性是否到位,如果沒有提煉到數(shù)據(jù)的關(guān)鍵屬性,精準(zhǔn)分析也就無從談起;基于數(shù)據(jù)分析所得出的結(jié)論是否獨(dú)到并且確實(shí)有用,只有確實(shí)有用的結(jié)論才能切實(shí)指導(dǎo)決策,否則都是空談。以上這些方面一環(huán)扣一環(huán),任何一環(huán)出錯得出的結(jié)論就可能是錯的,從而影響最后的決策。
四、大數(shù)據(jù)分析在出版中的展望
數(shù)字出版的領(lǐng)頭羊——勵得·愛思唯爾集團(tuán),將開發(fā)數(shù)字決策工具作為其未來十年轉(zhuǎn)型新方向,其開發(fā)的大數(shù)據(jù)技術(shù)HPCC(高性能計(jì)算集成)能夠?qū)Υ蠹s3000萬篇論文和3億條引用數(shù)據(jù)進(jìn)行分析,并在瞬間得出分析結(jié)果。該項(xiàng)大數(shù)據(jù)分析技術(shù)整合了科研論文、引用信息、專利和其他的獨(dú)特內(nèi)容集合,對科研機(jī)構(gòu)的績效進(jìn)行分析,并為學(xué)術(shù)機(jī)構(gòu)的領(lǐng)導(dǎo)人提供決策服務(wù)。勵得·愛思唯爾集團(tuán)首席戰(zhàn)略官白可珊認(rèn)為:“未來專業(yè)出版的方向就是整合我們的優(yōu)質(zhì)內(nèi)容,將這些內(nèi)容數(shù)字化,然后通過技術(shù)進(jìn)行分析,為專業(yè)人士提供解決方案和重要見解?!?誠然,勵得·愛思唯爾集團(tuán)的業(yè)務(wù)已經(jīng)成功地從以紙質(zhì)出版為主轉(zhuǎn)型為以數(shù)字出版為主,其不僅擁有出版的核心內(nèi)容,也擁有絕大多數(shù)出版社所缺少的技術(shù)。
大數(shù)據(jù)分析既給我們帶來了挑戰(zhàn),也帶來了希望,盡管多數(shù)出版商與科技公司比起來“技”不如人,但是出版商作為內(nèi)容把關(guān)人這一地位依然穩(wěn)固。通過數(shù)據(jù)分析,我們有可能發(fā)現(xiàn)新的規(guī)律、創(chuàng)造新的價值。一般來說,把決策建立在數(shù)據(jù)分析的基礎(chǔ)上,通過量化分析而不是僅憑直覺和經(jīng)驗(yàn),將使決策更為科學(xué)。當(dāng)然,大數(shù)據(jù)自身還存在信息安全性、隱私暴露等問題,大數(shù)據(jù)分析高度依賴于用戶的規(guī)模和技術(shù),這對于出版企業(yè)來說,都是相對欠缺的。由于技術(shù)的短板,國內(nèi)的出版企業(yè)要憑自身實(shí)力獲得完整的大數(shù)據(jù)目前來說還存在一些困難。大數(shù)據(jù)還需要一個高效的存儲平臺來實(shí)現(xiàn)數(shù)據(jù)的可視化、預(yù)測分析等,而出版社目前主要是依賴互聯(lián)網(wǎng)技術(shù)企業(yè)提供數(shù)據(jù)分析的平臺,很難建立自己的平臺。隨著時間的推移,對爆炸型增長的數(shù)據(jù)量想要實(shí)現(xiàn)精準(zhǔn)的分析,還需要硬件設(shè)施的不斷更新和分析技術(shù)的更加成熟,沒有進(jìn)行有效分析的數(shù)據(jù)可以說是無序的,無用的。目前大數(shù)據(jù)技術(shù)還處于起步階段,無論是軟件技術(shù)、硬件技術(shù)都還不完善,但是大數(shù)據(jù)分析的未來前景廣闊。因此,出版企業(yè)要想利用好大數(shù)據(jù),就必須仔細(xì)分析、認(rèn)真應(yīng)對,找準(zhǔn)大數(shù)據(jù)應(yīng)用的切入點(diǎn),從而實(shí)現(xiàn)大數(shù)據(jù)分析對出版活動的指導(dǎo)作用。
[1]維克托·邁爾-舍恩伯格, 肯尼思·庫克.大數(shù)據(jù)時代[M]. 浙江:浙江人民出版社, 2013:5.
[2] 張春磊,楊小牛.大數(shù)據(jù)分析(BDA)及其在情報領(lǐng)域的應(yīng)用[J]. 中國電子科學(xué)研究院學(xué)報,2013(2):18-22.
[3] 彥飛. Hiptype:讓出版商更懂讀者的大數(shù)據(jù)分析工具[EB/OL]. http://tech.sina.com.cn/i/csj/2012-08-07/10177476268.shtml, 2012-08-07/2014-06-09 .
[4]秦雯.大數(shù)據(jù)提升數(shù)字出版運(yùn)營效率[EB/OL]. http://cbfx.chuban.cc/jt/rdjj/2012wznh/zlt/201212/t20121208_133637.html, 2012-12-08/2014-06-09.
[5] 劉鯤翔,杜麗娟,丁雪.大數(shù)據(jù)技術(shù)在數(shù)字出版中的應(yīng)用前景展望[J]. 出版發(fā)行研究, 2013(4):9-11.
[6] 繁星.“大數(shù)據(jù)”思維影響圖書出版[N]. 社科新書目,2014-03-31.
[7] 孫玉玲.大數(shù)據(jù)時代數(shù)字出版產(chǎn)業(yè)的發(fā)展趨勢[J]. 出版發(fā)行研究, 2013(4):5-8.
[8] Coliloquy:讀者和作者互動 換個方式講故事[EB/OL]. http://www.techweb.com.cn/news/2012-01-19/1143543.shtml, 2012-01-19/2014-06-09.
[9] 白可珊. 愛思唯爾未來十年轉(zhuǎn)型新方向 開發(fā)數(shù)字決策工具[N]. 中國出版?zhèn)髅缴虉螅?2014-09-01.
(作者單位:江蘇鳳凰教育出版社, 南京大學(xué)信息管理學(xué)院)