羅?。ǜ拭C省科學(xué)技術(shù)情報(bào)研究所,甘肅蘭州730000)
?
淺析“大數(shù)據(jù)”背景下的出版變革
羅健
(甘肅省科學(xué)技術(shù)情報(bào)研究所,甘肅蘭州730000)
摘要:大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,大量化、多樣性、快速化、大價(jià)值這四大特點(diǎn)賦予了“大數(shù)據(jù)”無(wú)與倫比的研究?jī)r(jià)值。新的數(shù)據(jù)環(huán)境必然對(duì)出版工作帶來(lái)巨大影響,出版企業(yè)獲取市場(chǎng)信息的途徑、營(yíng)銷工作的重心、營(yíng)銷廣告的模式都將發(fā)生變化,基于“大數(shù)據(jù)”的出版業(yè)也必將加速其科學(xué)化的進(jìn)程。
關(guān)鍵詞:大數(shù)據(jù);出版變革;知識(shí)服務(wù)
當(dāng)今時(shí)代,伴隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)已如一股洪流注入了世界經(jīng)濟(jì)的各個(gè)領(lǐng)域,“大數(shù)據(jù)”已成為新的時(shí)代主題詞。“大數(shù)據(jù)”被喻為“未來(lái)的新石油”,它即將或已經(jīng)在各個(gè)領(lǐng)域產(chǎn)生巨大影響。當(dāng)前,大數(shù)據(jù)已滲透到社會(huì)各個(gè)行業(yè)和業(yè)務(wù)領(lǐng)域,逐漸成為重要的生產(chǎn)要素,對(duì)整個(gè)社會(huì)產(chǎn)生巨大影響。2013年新聞出版總署1號(hào)文件的主題就是“科技與出版融合”,其中包括出版的信息化建設(shè)和數(shù)字出版兩個(gè)方面[1]。大數(shù)據(jù)時(shí)代下的出版行業(yè)將緊緊契合1號(hào)文件精神,開(kāi)展基于大數(shù)據(jù)的出版技術(shù)、出版流程、出版理念、出版市場(chǎng)變革,出版行業(yè)將呈現(xiàn)嶄新模式。
隨著物聯(lián)網(wǎng)、云計(jì)算、電子商務(wù)等技術(shù)的深入發(fā)展,互聯(lián)網(wǎng)上數(shù)以億記的用戶時(shí)刻在產(chǎn)生著巨量的交互數(shù)據(jù),移動(dòng)終端、無(wú)線傳感器、RFID等設(shè)備無(wú)所不在,這些設(shè)備每分每秒都在產(chǎn)生數(shù)據(jù),金融、交通、通信等行業(yè)的數(shù)據(jù)量很大而且與日俱增,其實(shí),全球的信息量以每年至少59%的速度劇烈激增,據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心IDC預(yù)測(cè),到2020年世界上的數(shù)據(jù)存儲(chǔ)總量將達(dá)到35ZB(相當(dāng)于35000000PB),是2010年的30倍。而且這些數(shù)據(jù)不僅包含數(shù)字和文字等結(jié)構(gòu)化數(shù)據(jù),還包括圖片、音頻、視頻、鏈接等半結(jié)構(gòu)化數(shù)據(jù)甚至非結(jié)構(gòu)化數(shù)據(jù)。根據(jù)互聯(lián)網(wǎng)中心的數(shù)據(jù)判斷,目前非結(jié)構(gòu)化數(shù)據(jù)占全球數(shù)據(jù)總量的80%以上[2]。由此可見(jiàn),人類已經(jīng)步入大數(shù)據(jù)時(shí)代。
2.1大數(shù)據(jù)的概念
2011年5月,全球最著名的管理咨詢公司麥肯錫(Mckinsey and Company)發(fā)布了關(guān)于大數(shù)據(jù)的研究報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》,在報(bào)告中提出了大數(shù)據(jù)的概念,他認(rèn)為大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。
2.2大數(shù)據(jù)的特點(diǎn)
關(guān)于大數(shù)據(jù)的特點(diǎn),相關(guān)學(xué)者提出過(guò)很多種說(shuō)法,比較具有代表性的是2001年Gartner研究副總裁DougLaney最早提出的“3V”模型(即數(shù)量大Volume、速度大Velocity和種類多Variety)。之后,好多學(xué)者還在3V的基礎(chǔ)上增加了第四個(gè)特征,但關(guān)于第四個(gè)“V”的說(shuō)法也很多,IBM認(rèn)為大數(shù)據(jù)應(yīng)該還具有真實(shí)性(即Veracity),而IDC認(rèn)為應(yīng)該具有價(jià)值性(即Value),相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)的價(jià)值呈現(xiàn)出稀疏性的特點(diǎn)。如今,業(yè)內(nèi)人士已經(jīng)將大數(shù)據(jù)的特點(diǎn)擴(kuò)展到了11個(gè)V,包括可見(jiàn)性、有效性等,但各行業(yè)比較認(rèn)可的說(shuō)法還是“4V”模型特征[3]。
1.2.1數(shù)據(jù)量大
截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)總量是200PB(1PB=210TB),而歷史上全人類說(shuō)過(guò)的話的數(shù)據(jù)總量約是5EB(1EB=210PB),據(jù)IDC預(yù)測(cè),到2020年世界上的數(shù)據(jù)存儲(chǔ)總量將達(dá)到35ZB(相當(dāng)于35000000PB),相當(dāng)于2010年的30倍。當(dāng)前,典型個(gè)人PC硬盤的容量為TB級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB兩級(jí)。由此可見(jiàn),大數(shù)據(jù)時(shí)代的數(shù)據(jù)體積的巨大的。
1.2.2數(shù)據(jù)種類多
大數(shù)據(jù)時(shí)代的數(shù)據(jù)除了文本、數(shù)字等結(jié)構(gòu)化數(shù)據(jù)外,更多的是圖像、視頻、音頻、鏈接、地理位置信息等半結(jié)構(gòu)化甚至于非結(jié)構(gòu)化的數(shù)據(jù),如此種類繁多的資源也激發(fā)了大學(xué)生移動(dòng)學(xué)習(xí)的動(dòng)機(jī),但是面對(duì)如此繁多的數(shù)據(jù)種類和復(fù)雜的數(shù)據(jù)結(jié)構(gòu),需要的是更強(qiáng)大的數(shù)據(jù)處理能力[4]。
1.2.3數(shù)據(jù)處理速度快
數(shù)據(jù)處理速度快是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。從種類繁多、體積巨大、結(jié)構(gòu)復(fù)雜的海量數(shù)據(jù)中挖掘出有價(jià)值的信息,勢(shì)必需要極大的數(shù)據(jù)處理速度。對(duì)于通信、銀行等企業(yè)來(lái)說(shuō),在海量的數(shù)據(jù)中,數(shù)據(jù)處理的效率高低關(guān)乎著企業(yè)的生命線,為了幫助用戶了解正在發(fā)生或者預(yù)測(cè)即將發(fā)生的情況,要求按需提供交互式、實(shí)時(shí)的數(shù)據(jù)分析。
1.2.4數(shù)據(jù)價(jià)值密度低
數(shù)據(jù)的價(jià)值密度與數(shù)據(jù)總量成反比,數(shù)據(jù)的總量越大,其價(jià)值密度越低。一部1h的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有1~2s。如此海量的數(shù)據(jù),其有價(jià)值的信息其實(shí)是有限的,目前大數(shù)據(jù)背景下亟待解決的難題將是如何利用強(qiáng)大的算法快速的完成價(jià)值的“提純”。
大數(shù)據(jù)時(shí)代,數(shù)據(jù)即是“寶藏”。出版行業(yè)產(chǎn)生的海量數(shù)據(jù)可以創(chuàng)造無(wú)法估量的價(jià)值。如何利用好這些數(shù)據(jù)對(duì)出版行業(yè)有著重要的意義。大數(shù)據(jù)技術(shù)的發(fā)展給傳統(tǒng)出版模式帶來(lái)革命性的改變,通過(guò)對(duì)出版市場(chǎng)預(yù)測(cè)、分析、策劃以及營(yíng)銷等活動(dòng)的展開(kāi),利用大數(shù)據(jù)技術(shù)強(qiáng)化數(shù)據(jù)采集、分析和整合能力,是出版行業(yè)新的盈利增長(zhǎng)點(diǎn)和核心競(jìng)爭(zhēng)力之所在[5]。
3.1大數(shù)據(jù)促進(jìn)精準(zhǔn)營(yíng)銷
隨著Web2.0概念的普及和發(fā)展,用戶數(shù)據(jù)已成為一種新興的網(wǎng)絡(luò)信息資源創(chuàng)作與組織模式[6]。在網(wǎng)絡(luò)上,用戶行為不斷被記錄、不斷聚集,而傳統(tǒng)出版機(jī)構(gòu)不擅研究用戶的行為,便顯得殊為可惜。
大數(shù)據(jù)背景下,通過(guò)對(duì)用戶生成內(nèi)容及其相互關(guān)系的深度挖掘和應(yīng)用,可以探索用戶需求,充分了解用戶的個(gè)體、群體特征,分析其閱讀興趣,也能進(jìn)一步獲得作品內(nèi)容特征、發(fā)布頻率和閱讀、傳播狀況等規(guī)律,從而制定有針對(duì)性的產(chǎn)品組合和營(yíng)銷策略,從本質(zhì)提高最終購(gòu)買率,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。
3.2大數(shù)據(jù)驅(qū)動(dòng)出版運(yùn)營(yíng)
傳統(tǒng)出版行業(yè)往往從選題策劃開(kāi)始出版運(yùn)營(yíng),而市場(chǎng)需求是進(jìn)行圖書(shū)選題策劃的基礎(chǔ)和先導(dǎo)。傳統(tǒng)模式是通過(guò)采取個(gè)別訪問(wèn)、參加學(xué)術(shù)會(huì)議、座談會(huì)或小范圍開(kāi)展問(wèn)卷調(diào)查等方式了解分析市場(chǎng)需求,但這種方式成本高、效率低,數(shù)據(jù)量有限、時(shí)效性差、缺乏全面性和典型性,很難真正把握市場(chǎng)需求。
大數(shù)據(jù)背景下的出版行業(yè),可以借力大數(shù)據(jù)開(kāi)展選題策劃,驅(qū)動(dòng)出版運(yùn)營(yíng)。通過(guò)分析與自身出版方向相關(guān)的數(shù)據(jù),以及其他相關(guān)出版機(jī)構(gòu)的出書(shū)品種、數(shù)量和市場(chǎng)占有率等數(shù)據(jù),較為科學(xué)準(zhǔn)確地把握市場(chǎng)潛在需求和發(fā)展趨勢(shì),優(yōu)化選題策略。另外,大數(shù)據(jù)還可結(jié)合云平臺(tái),貫通用戶數(shù)據(jù)和運(yùn)營(yíng)數(shù)據(jù),在出版各個(gè)環(huán)節(jié)中,全流程實(shí)施大數(shù)據(jù)監(jiān)控,及時(shí)開(kāi)展大數(shù)據(jù)分析,揭示海量數(shù)據(jù)中隱藏的寶貴信息,促進(jìn)出版流程優(yōu)化,有效引導(dǎo)出版運(yùn)營(yíng)。
3.3大數(shù)據(jù)構(gòu)建知識(shí)服務(wù)
隨著移動(dòng)終端的興起和人們生活節(jié)奏的加快,數(shù)字內(nèi)容消費(fèi)領(lǐng)域存在著日益“碎片化”的趨勢(shì),靜態(tài)圖書(shū)的知識(shí)服務(wù)方式受到了嚴(yán)重挑戰(zhàn),閱讀內(nèi)容和消費(fèi)時(shí)間的“碎片化”是一種不可避免的發(fā)展趨勢(shì)。
大數(shù)據(jù)時(shí)代,出版行業(yè)將順應(yīng)“碎片化”趨勢(shì),改變傳統(tǒng)以書(shū)、文獻(xiàn)等為單位的粗放型生產(chǎn)模式,轉(zhuǎn)而形成以知識(shí)要素為單位的數(shù)據(jù)化生產(chǎn)模式。出版行業(yè)將內(nèi)容資源碎片化、數(shù)據(jù)化,在此基礎(chǔ)上將其加工成不可切分的知識(shí)元,形成網(wǎng)絡(luò)化的知識(shí)元塊,然后基于消費(fèi)者個(gè)性化需求,以動(dòng)態(tài)方式排版、重組、出版知識(shí)碎片。這種動(dòng)態(tài)碎片化出版方式將大大節(jié)約人們的閱讀時(shí)間,有效提高人們對(duì)知識(shí)獲取和創(chuàng)新的速度,這將成為知識(shí)服務(wù)的新市場(chǎng)。
參考文獻(xiàn):
[1]大數(shù)據(jù)背景下創(chuàng)新政府互聯(lián)網(wǎng)治理[N].光明日?qǐng)?bào),2013 (3):22-23.
[2]李勇輝.大數(shù)據(jù)概念辨析及應(yīng)對(duì)措施[J].互聯(lián)網(wǎng)天地,2014 (1):11-12.
[3]杜明明.大數(shù)據(jù)的內(nèi)涵、特點(diǎn)與趨勢(shì)——關(guān)于潘云鶴院士“大數(shù)據(jù)”觀點(diǎn)的分享[J].浙江教育技術(shù),2013(6):58-59.
[4]葉曜坤.暢想大數(shù)據(jù)時(shí)代[R].人民郵電,2013-03-15.
[5]孫玉玲.大數(shù)據(jù)時(shí)代數(shù)字出版產(chǎn)業(yè)的發(fā)展趨勢(shì)[J].出版發(fā)行研究,2013(4):5-6.
[6]劉燦姣,葉翠.基于云計(jì)算的出版企業(yè)大數(shù)據(jù)服務(wù)研究[J].出版發(fā)行研究,2013(11):59-60.
中圖分類號(hào):G358