国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

出版業(yè)有“大數(shù)據(jù)”嗎?

2016-08-19 09:49:16張立
出版人 2016年8期
關(guān)鍵詞:數(shù)據(jù)量出版業(yè)出版物

張立

出版業(yè)的內(nèi)容數(shù)據(jù)雖具有數(shù)據(jù)真實(shí)性屬性,但離海量的數(shù)據(jù)規(guī)模尚有差距,短期內(nèi)也不大可能向快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型、價(jià)值密度低轉(zhuǎn)型。

一、互聯(lián)網(wǎng)上的訛傳

一種在互聯(lián)網(wǎng)上廣泛流傳的說法是:互聯(lián)網(wǎng)上一天所產(chǎn)生的數(shù)據(jù)可以刻滿1.68億張 DVD;發(fā)出的郵件有2940億封之多(相當(dāng)于美國兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達(dá) 200萬個(gè)(相當(dāng)于《時(shí)代》雜志770年的文字量)。截止到2014年,數(shù)據(jù)量已經(jīng)從TB級別躍升到PB、EB乃至ZB級別。

這一組對比數(shù)據(jù)似乎在告訴我們:傳統(tǒng)出版業(yè)的數(shù)據(jù)量其實(shí)非常有限。那么傳統(tǒng)出版業(yè)的數(shù)據(jù)量究竟有多大?是否夠得上“大數(shù)據(jù)”?

2013年3月20日發(fā)表于“中國IDC圈”網(wǎng)站上的《印象:人類生產(chǎn)的印刷材料數(shù)據(jù)量達(dá)200PB》一文提到:“到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB……”另一篇提到“200PB”的文章是2015年4月21日發(fā)表于“36大數(shù)據(jù)”網(wǎng)站上的《報(bào)告:數(shù)據(jù)大爆炸,“互聯(lián)網(wǎng)+”基礎(chǔ)設(shè)施數(shù)據(jù)中心大發(fā)展(上)》。該文在提到200PB印刷數(shù)據(jù)時(shí)明確說明是摘自中信證券分析師的《云計(jì)算/IDC行業(yè)專題研究報(bào)告——數(shù)據(jù)大爆炸,數(shù)據(jù)中心大發(fā)展—“互聯(lián)網(wǎng)+”基礎(chǔ)設(shè)施之二》一文。

為此,筆者購買了中信證券的報(bào)告。中信證券的報(bào)告是這樣表述的:“國際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長為1.2ZB,2011年的數(shù)量更是高達(dá)1.82ZB,相當(dāng)于全球每人每年產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類歷史上說過的所有話的數(shù)據(jù)量大約是5EB?!?/p>

為進(jìn)一步求證,筆者又查閱了英文網(wǎng)站上的相關(guān)文獻(xiàn)。但文獻(xiàn)中都未明確指出或含混暗示該數(shù)據(jù)與IDC有任何關(guān)系,“200PB”似乎是為了說明PB的數(shù)據(jù)量級而舉的例子,作者舉例時(shí)還特地使用了“estimated”(估算)一詞,并不是嚴(yán)謹(jǐn)?shù)目茖W(xué)統(tǒng)計(jì)。

與此同時(shí),筆者又查閱了IDC歷年公開發(fā)布的報(bào)告,也未發(fā)現(xiàn)有此說法。那么,出版業(yè)的數(shù)據(jù)量到底有多大呢?我們不妨粗略計(jì)算一下。

二、出版物的內(nèi)容數(shù)據(jù)

1.計(jì)算標(biāo)準(zhǔn)

為方便計(jì)算,筆者分別以中國書籍出版社出版的圖書、《出版發(fā)行研究》雜志社出版的期刊和《中國知識產(chǎn)權(quán)報(bào)》這份報(bào)紙為例,擬了一個(gè)每面大約排字量的近似標(biāo)準(zhǔn)如下:

圖書:以目前較為流行的大32開、每面約800漢字計(jì)算,1印張漢字?jǐn)?shù)約為:800漢字×32開=25600漢字 = 51200字節(jié)。

期刊:以目前較為流行的大16開、每面約1800漢字計(jì)算,1印張漢字?jǐn)?shù)約為:1800漢字×16開=28800漢字 = 57600字節(jié)。

報(bào)紙:以對開4版、每版約6660漢字計(jì)算,1印張漢字?jǐn)?shù)約為:6660漢字×4版 = 26640漢字 = 53280字節(jié)。

2.2014年當(dāng)年出版物內(nèi)容數(shù)據(jù)量

以《2014年全國新聞出版產(chǎn)業(yè)分析報(bào)告》中的印張數(shù)為依據(jù),計(jì)算得出2014年我國書刊報(bào)內(nèi)容數(shù)據(jù)量(含復(fù)本數(shù))約為:圖書1802.88萬億多漢字,期刊528.71萬億多漢字,報(bào)紙5121.01萬億多漢字;書刊報(bào)合計(jì)約為7452.6萬億多漢字,換算成字節(jié)約為14905.2萬億多字節(jié),即約13.24 PB。

同時(shí),2014年當(dāng)年出版書刊報(bào)合計(jì)內(nèi)容數(shù)據(jù)量(不含復(fù)本數(shù))約為:圖書987.45億漢字,期刊336.35億漢字,報(bào)紙439.40億漢字;書刊報(bào)合計(jì)約為1763.2億漢字,換算成字節(jié)約為3526.4億字節(jié),即約0.32 TB。

3.2005?2014年十年出版物內(nèi)容數(shù)據(jù)量

2005?2014十年書報(bào)刊累計(jì)出版內(nèi)容數(shù)據(jù)量(含復(fù)本數(shù))約為:圖書1.52億億漢字,期刊0.49億億漢字,報(bào)紙5.20億億漢字;十年合計(jì)約為:7.21億億漢字,換算成字節(jié)約為14.42億億字節(jié),即約128.08 PB。

以2005?2014年十年《全國新聞出版產(chǎn)業(yè)分析報(bào)告》為依據(jù),計(jì)算得出我國近十年書報(bào)刊累計(jì)內(nèi)容數(shù)據(jù)量(不含復(fù)本數(shù))約為:圖書6899.17億漢字,期刊2878.57億漢字,報(bào)紙4700.30億漢字;十年合計(jì)約為:14478.04億漢字,換算成字節(jié)約為28956.08億字節(jié),即約2.63 TB。

以上計(jì)算說明,我國傳統(tǒng)出版業(yè)中正式出版的書刊報(bào),近十年的累計(jì)內(nèi)容數(shù)據(jù)量整體也就在TB級別,就某個(gè)單一出版單位或出版物來說,其數(shù)據(jù)規(guī)模看起來真的不是很大。

三、出版物其他相關(guān)數(shù)據(jù)

1.出版物發(fā)行數(shù)據(jù)

2014年,全國新華書店系統(tǒng)、出版社自辦發(fā)行單位出版物總銷售199.05億冊(張、份、盒),總銷售金額2415.5億元,純銷售量69.86億冊(張、份、盒),銷售額777.99億元。

2014年全國出版物零售情況如下:

①圖書零售量63.93億冊(張、份、盒),零售額684.5億元;

②期刊零售量0.18億冊(張、份、盒),零售額10.07億元;

③報(bào)紙零售量0.21億冊(張、份、盒),零售額2.15億元;

……

2005?2014十年間,全國新華書店系統(tǒng)、出版社自辦發(fā)行單位出版物數(shù)量及金額合計(jì)為:總銷售1737.87億冊(張、份、盒),總銷售金額17530億元;純銷售量658.08億冊(張、份、盒),銷售額6110.5億元。

2005?2014十年間,出版物零售情況如下:

①圖書零售量594.37億冊(張、份、盒),零售額5973億元;

②期刊零售量14.79億冊(張、份、盒),零售額160.5億元;

③報(bào)紙零售量7.21億冊(張、份、盒),零售額19.77億元;

……

2005?2014十年間,出版物總購進(jìn)量1765.39億冊(張、份、盒),總銷售金額17989.8億元;庫存數(shù)量530.01億冊(張、份、盒),庫存金額7263.02億元;非出版物商品銷售金額545.41億元(不含在銷售總額之內(nèi));發(fā)行網(wǎng)點(diǎn)合計(jì)1659298處;從業(yè)人員合計(jì)665.71萬人。

2.印刷復(fù)制數(shù)據(jù)

2014年,印刷復(fù)制(包括出版物印刷、包裝裝潢印刷、專項(xiàng)印刷、打字復(fù)印、復(fù)制和印刷物資供銷)總體實(shí)現(xiàn)營業(yè)收入11740.16億元,利潤總額814.66億元;

全國出版物印刷企業(yè)(含專項(xiàng)印刷)9079家,工業(yè)銷售產(chǎn)值1504.72億元;圖書、報(bào)紙、其他出版物黑白印刷產(chǎn)量31936.28萬令;彩色印刷產(chǎn)量252658.6萬對開色令;裝訂產(chǎn)量31965.32萬令;印刷用紙量65406.06萬令。

2005?2014十年間,印刷復(fù)制(包括出版物印刷、包裝裝潢印刷、專項(xiàng)印刷、打字復(fù)印、復(fù)制和印刷物資供銷)總體實(shí)現(xiàn)營業(yè)收入55061.01億元,利潤總額3760.04億元;

全國出版物印刷企業(yè)(含專項(xiàng)印刷)82531家,工業(yè)銷售產(chǎn)值11302.26億元;圖書、報(bào)紙、其他出版物黑白印刷產(chǎn)量272667.73萬令;彩色印刷產(chǎn)量1523209.22萬對開色令;裝訂產(chǎn)量282529.76萬令;印刷用紙量510573.37萬令。

3.出版物進(jìn)出口數(shù)據(jù)

2014年,全國累計(jì)出口圖書、報(bào)紙、期刊1689.42萬冊(份),5649.66萬美元;累計(jì)進(jìn)口2538.85萬冊(份),28381.57萬美元;累計(jì)出口音像制品、電子出版物與數(shù)字出版物9.58萬盒(張),2214.41萬美元;累計(jì)進(jìn)口13.44萬盒(張),21000.13萬美元。

2005?2014年十年間,全國累計(jì)出口圖書、報(bào)紙、期刊13076.3萬冊(份),48283.88萬美元;累計(jì)進(jìn)口26357.86萬冊(份),245117.66萬美元;累計(jì)出口音像制品、電子出版物與數(shù)字出版物439.42萬盒(張),9141.39萬美元;累計(jì)進(jìn)口243.96萬盒(張),103662.3萬美元。

4.版權(quán)管理與版權(quán)貿(mào)易數(shù)據(jù)

2014年,全國版權(quán)合同登記17376份;作品自愿登記997350份;全國共引進(jìn)版權(quán)16695種,全國共引進(jìn)圖書、音像制品和電子出版物版權(quán)16321種;共輸出版權(quán)10293種,共輸出圖書、音像制品和電子出版物版權(quán)8733種。

2005?2014十年間,全國版權(quán)合同登記152679份;作品自愿登記4914108份;全國共引進(jìn)版權(quán)150835種,全國共引進(jìn)圖書、音像制品和電子出版物版權(quán)142854種;共輸出版權(quán)56360種,共輸出圖書、音像制品和電子出版物版權(quán)47143種。

在出版物發(fā)行、印刷復(fù)制、進(jìn)出口和版權(quán)交易等分領(lǐng)域的統(tǒng)計(jì)數(shù)據(jù)背后,出版業(yè)也存在與之對應(yīng)的龐大的實(shí)時(shí)交易數(shù)據(jù)。除此之外,出版業(yè)還有大量的圖書在版編目(CIP)數(shù)據(jù),國家標(biāo)準(zhǔn)《圖書在版編目數(shù)據(jù)》于1990年7月31日發(fā)布,要求自1991年3月1日起實(shí)施,經(jīng)過幾年的實(shí)施和準(zhǔn)備,于1999年4月1日開始在全國強(qiáng)制性推廣實(shí)施,截至目前共登記了340萬條左右的數(shù)據(jù)。CIP數(shù)據(jù)包括著錄數(shù)據(jù)(書名、著作責(zé)任者項(xiàng)、版本項(xiàng)、出版項(xiàng)、叢書項(xiàng)、附注項(xiàng)、標(biāo)準(zhǔn)書號項(xiàng)等)和檢索數(shù)據(jù)(圖書識別特征的檢索點(diǎn)和內(nèi)容主題的檢索點(diǎn))兩個(gè)部分,這為圖書的分類標(biāo)引、著錄、檢索等提供了很大的方便。

四、什么是“大數(shù)據(jù)”

關(guān)于“大數(shù)據(jù)”有太多有識之士給它下過定義了,有些定義大同小異,有些則表達(dá)角度不同。本文采用麥肯錫的定義,即一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,它具有海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)(Velocity)、多樣的數(shù)據(jù)類型(Variety)、價(jià)值密度低(Value)、數(shù)據(jù)真實(shí)性(Veracity)五大特征(5V)。本質(zhì)上,它為我們觀察世界提供了一種全新思維。

下面我們拿5V來說說吧!

1.什么叫Volume?

大數(shù)據(jù)的“大”是否可以理解為是名詞,而非形容詞,它代表一個(gè)數(shù)據(jù)級別,而非簡單形容數(shù)據(jù)之多。也就是說只有到一定級別的數(shù)據(jù)才能稱之為“大數(shù)據(jù)”,如PB、EB等?

另外,從上述統(tǒng)計(jì)看,出版業(yè)雖然每年都在生產(chǎn)一定量的數(shù)據(jù),但這些數(shù)據(jù)是完全按印刷品上的內(nèi)容量來統(tǒng)計(jì)的,首先它不是基于互聯(lián)網(wǎng)上的實(shí)時(shí)交易數(shù)據(jù),其次它也不是實(shí)時(shí)的用戶行為數(shù)據(jù),它與今天我們多數(shù)人認(rèn)知的基于互聯(lián)網(wǎng)上的大數(shù)據(jù)截然不同,出版業(yè)的內(nèi)容數(shù)據(jù)更多是文本類數(shù)據(jù),這類數(shù)據(jù)是否適合運(yùn)用目前流行的大數(shù)據(jù)工具來處理,值得討論。

2.什么叫Velocity?

它是指數(shù)據(jù)的實(shí)時(shí)快速生成、更新與累積,如互聯(lián)網(wǎng)公司服務(wù)器上的實(shí)時(shí)生成的日志、社交網(wǎng)站上實(shí)時(shí)生成的用戶信息、傳感器數(shù)據(jù)和監(jiān)視數(shù)據(jù)等。所以有人提出1秒定律,來形容其數(shù)據(jù)更新的快速性。也就是說它指的不是出版物上的靜態(tài)數(shù)據(jù),而是基于聯(lián)機(jī)交互、實(shí)時(shí)更新的動(dòng)態(tài)數(shù)據(jù),大數(shù)據(jù)是活水,不斷地會有新的數(shù)據(jù)注入進(jìn)來。

3.什么叫Variety?

它是指數(shù)據(jù)類型非常多,包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、富媒體數(shù)據(jù)、不連貫語法語義數(shù)據(jù)等,以及這些數(shù)據(jù)的超大規(guī)模激增。而出版物內(nèi)容數(shù)據(jù)類型相對簡單、內(nèi)容表現(xiàn)形式相對統(tǒng)一,迥異于互聯(lián)網(wǎng)上繁雜的數(shù)據(jù)。

4.什么叫Value?

即價(jià)值密度的高低與數(shù)據(jù)總量大小成反比,數(shù)據(jù)量越大,有價(jià)值的數(shù)據(jù)越難薈萃,越需要通過強(qiáng)大的機(jī)器算法和工具軟件來實(shí)現(xiàn),因此有人認(rèn)為價(jià)值“提純”是大數(shù)據(jù)的特點(diǎn)之一。

換句話說,完全面對需求的嚴(yán)謹(jǐn)?shù)?、干凈的結(jié)構(gòu)化數(shù)據(jù),還需要挖掘嗎?挖掘的本意不就是沙里淘金嗎?

5. 什么叫Veracity?

即數(shù)據(jù)的真實(shí)性。數(shù)據(jù)的重要性就在于對決策的支持,數(shù)據(jù)的規(guī)模并不能決定其能否為決策提供幫助,數(shù)據(jù)的真實(shí)性和質(zhì)量才是獲得真知和思路最重要的因素,是制定成功決策最堅(jiān)實(shí)的基礎(chǔ)。獲取真實(shí)可靠的數(shù)據(jù)是保證分析結(jié)果準(zhǔn)確、有效的前提。只有真實(shí)而準(zhǔn)確的數(shù)據(jù)才能獲取有意義的結(jié)果。

除了以上5V外,“大數(shù)據(jù)”還有一些特點(diǎn),比如分布式,也就是說這么大規(guī)模的數(shù)據(jù)量,只能通過分布式存儲、分布式讀取、分布式利用來實(shí)現(xiàn);復(fù)雜性,是說數(shù)據(jù)量巨大,數(shù)據(jù)來源多渠道,包括傳統(tǒng)數(shù)據(jù)、交易事務(wù)型數(shù)據(jù),而互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,則帶來了微博、社交網(wǎng)絡(luò)、傳感器等多種數(shù)據(jù)來源。

下面,我們來看看出版業(yè)的數(shù)據(jù)特征:

如果按上述標(biāo)準(zhǔn)來看,出版業(yè)的內(nèi)容數(shù)據(jù)雖具有Veracity屬性,但離Volume尚有差距,按照目前的數(shù)據(jù)生成和利用模式看,短期內(nèi)也不大可能向其他3個(gè)V轉(zhuǎn)型。這是因?yàn)椋霭鏄I(yè)是精英生產(chǎn)內(nèi)容的模式,與互聯(lián)網(wǎng)上的草根生產(chǎn)內(nèi)容或用戶生產(chǎn)內(nèi)容模式不同。精英生產(chǎn)內(nèi)容有以下特點(diǎn):

(1)嚴(yán)格的內(nèi)容評價(jià)與篩選機(jī)制,如“三審制”等,非經(jīng)過“三審”的稿件是無法得以出版的,而互聯(lián)網(wǎng)上則通常都是通過敏感詞過濾軟件來實(shí)現(xiàn)內(nèi)容的篩選,顯然在內(nèi)容質(zhì)量上不是一個(gè)量級。

(2)正是這種精英式的內(nèi)容生產(chǎn)機(jī)制,使內(nèi)容產(chǎn)出物是按一定標(biāo)準(zhǔn)制定出來的,即其數(shù)據(jù)結(jié)構(gòu)完整統(tǒng)一,內(nèi)容表達(dá)符合語法規(guī)范,基本不存在異構(gòu)和混亂的數(shù)據(jù)。

(3)也正是這種嚴(yán)格的內(nèi)容審查與編輯機(jī)制,使傳統(tǒng)出版物具有較高的價(jià)值含量,具有較集中的知識屬性,這與互聯(lián)網(wǎng)上的口水性內(nèi)容不可同日而語。

(4)同時(shí),傳統(tǒng)出版的內(nèi)容生產(chǎn)流程復(fù)雜、周期過長,屬于非實(shí)時(shí)性數(shù)據(jù),所以不具有高速生成性,高速更新的特點(diǎn)。

(5)傳統(tǒng)出版在內(nèi)容形成產(chǎn)品發(fā)布之前,基本也不是分布式存儲、讀取和利用的過程。

(6)傳統(tǒng)出版物的數(shù)據(jù)是內(nèi)容數(shù)據(jù),而非實(shí)時(shí)交易數(shù)據(jù)或用戶行為數(shù)據(jù)。什么叫用戶行為數(shù)據(jù)?它是指對用戶訪問網(wǎng)站的有關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,從中發(fā)現(xiàn)用戶訪問網(wǎng)站的規(guī)律,包括:用戶來源地區(qū)、來路域名和頁面;在網(wǎng)站停留時(shí)間、跳出率、回訪次數(shù);使用搜索引擎、關(guān)鍵詞、關(guān)聯(lián)關(guān)鍵詞和站內(nèi)關(guān)鍵字;在不同時(shí)段的訪問量情況等。

相比較而言,傳統(tǒng)出版中的報(bào)刊,除自辦發(fā)行的報(bào)刊外,絕大多數(shù)發(fā)行量大的報(bào)刊都是通過郵局訂閱發(fā)行的,通過郵局訂閱的用戶,其信息內(nèi)容過于簡單,而且即使如此簡單的用戶數(shù)據(jù),報(bào)刊社也不掌握,更談不上進(jìn)行用戶行為分析了。另外,即使是報(bào)刊社自辦發(fā)行的用戶數(shù)據(jù),由于其用戶數(shù)量相對有限,所有信息都是非常明確、非實(shí)時(shí)產(chǎn)生的,因此是否需要用“大數(shù)據(jù)”工具進(jìn)行挖掘分析值得研究。

圖書則主要是通過新華書店和二渠道書商發(fā)行,其終端用戶的行為數(shù)據(jù)也無法掌握。

當(dāng)然,如果出版單位想要進(jìn)行選題策劃,以“大數(shù)據(jù)”的方式分析市場需求和潛在用戶,那到不妨用“大數(shù)據(jù)”工具試試;或者出版單位轉(zhuǎn)型互聯(lián)網(wǎng)平臺,真正產(chǎn)生規(guī)模龐大的用戶行為數(shù)據(jù),“大數(shù)據(jù)”工具也可能是一種不錯(cuò)的選擇。

五、“大數(shù)據(jù)”軟件有哪些典型應(yīng)用

目前,大數(shù)據(jù)軟件最擅長處理的是以下類型的數(shù)據(jù),這些數(shù)據(jù)多產(chǎn)生于互聯(lián)網(wǎng):

1. 用戶行為數(shù)據(jù)。用戶進(jìn)入網(wǎng)站后的所有操作,都會被網(wǎng)站記錄下來,會分析用戶是從哪些入口(如搜索引擎、微信等)進(jìn)入該網(wǎng)站的哪個(gè)網(wǎng)頁?他們在各個(gè)網(wǎng)頁的行為路徑,最后在哪個(gè)網(wǎng)頁離開去了哪里等,最終實(shí)現(xiàn)產(chǎn)品優(yōu)化,提高用戶轉(zhuǎn)化率。

2.用戶消費(fèi)數(shù)據(jù)。電子商務(wù)網(wǎng)站一般會將用戶的交易信息,包括購買時(shí)間、購買商品、購買量、支付金額等信息保存在數(shù)據(jù)庫中,所以對于這些用戶,可以基于網(wǎng)站的運(yùn)營數(shù)據(jù)對他們的交易行為進(jìn)行分析,以估計(jì)每位用戶的價(jià)值,并針對每位用戶進(jìn)行精準(zhǔn)營銷。

3.用戶地理位置數(shù)據(jù)。如手機(jī)用戶在實(shí)用短信業(yè)務(wù)、通話業(yè)務(wù)、正常位置更新、周期位置更新和切入呼叫、應(yīng)用App時(shí)均會產(chǎn)生定位數(shù)據(jù)。

4.互聯(lián)網(wǎng)金融數(shù)據(jù)。當(dāng)用戶需要小額短期資金周轉(zhuǎn),不必去銀行或小貸公司申請了,只需靠自己常年累月積攢的信用,憑借第三方征信公司提供的信用分,就可以在金融平臺上貸款了。

5.用戶社交等UGC數(shù)據(jù)。企業(yè)可以通過對這些數(shù)據(jù)的處理,進(jìn)行趨勢、流行元素、受歡迎程度、輿論監(jiān)控、生活行為、社會問題等分析,從中挖掘出政治、社會、文化、商業(yè)、健康等有用信息。

從上述類型的數(shù)據(jù)看,多不屬于內(nèi)容數(shù)據(jù),而內(nèi)容數(shù)據(jù)的分析涉及到的是自然語言處理、文本挖掘、自動(dòng)標(biāo)注、知識圖譜、詞頻分析等。由于大數(shù)據(jù)軟件目前尚無統(tǒng)一界定,自然語言處理技術(shù)算不算大數(shù)據(jù)軟件也不好說,但從功能上看,至少可以分為擅長數(shù)據(jù)分析的軟件和擅長內(nèi)容挖掘的軟件。擅長數(shù)據(jù)分析的軟件多用于金融服務(wù)、天氣預(yù)報(bào)監(jiān)測等領(lǐng)域。擅長內(nèi)容挖掘的軟件多用于智能機(jī)器人問答、語音識別等領(lǐng)域。目前,我們的出版業(yè)除出版單位自建或合建的基于互聯(lián)網(wǎng)或移動(dòng)互聯(lián)網(wǎng)的業(yè)務(wù)平臺所產(chǎn)生的數(shù)據(jù)外,更多的是傳統(tǒng)出版物的內(nèi)容數(shù)據(jù),這些內(nèi)容數(shù)據(jù)基本不適用于流行的數(shù)據(jù)分析類軟件處理,而擅長內(nèi)容挖掘的軟件在出版物內(nèi)容的智能化處理,特別是知識檢索和知識服務(wù)方面,更多還處于探索階段,尚未形成普遍成熟的應(yīng)用。

同時(shí),即使是內(nèi)容數(shù)據(jù),也還可以再細(xì)分為出版物內(nèi)容數(shù)據(jù)和基于互聯(lián)網(wǎng)的實(shí)時(shí)原創(chuàng)內(nèi)容數(shù)據(jù)。近年來大獲成功的基于個(gè)性化推薦的新聞資訊類內(nèi)容數(shù)據(jù)便是基于互聯(lián)網(wǎng)實(shí)時(shí)原創(chuàng)的內(nèi)容數(shù)據(jù)。

六、明確需求,量體裁衣

舉個(gè)例子吧。一個(gè)只有10名員工的公司,要統(tǒng)計(jì)每個(gè)人中午吃什么,直接向每個(gè)人問一下,腦子就記住了;一個(gè)有100名員工的公司,要統(tǒng)計(jì)每個(gè)人中午吃什么,可能就得借助紙和筆這樣的工具了;一個(gè)有1000名員工的公司,要統(tǒng)計(jì)每個(gè)人中午吃什么,說不定得拿EXCEL表匯總一下了;假如要想實(shí)時(shí)了解互聯(lián)網(wǎng)上的用戶中午用餐行為,EXCEL表恐怕也未必管用了。此時(shí),“大數(shù)據(jù)”粉墨登場。

再舉一例子。如果求一個(gè)正方形面積,長乘寬就夠了,何必非要使用微積分呢?是說我們進(jìn)入了一個(gè)“極限時(shí)代”嗎?極限思想肯定是人類認(rèn)識史上的巨大飛躍,其偉大之處是面對復(fù)雜問題有了特殊的解法。但如果問題簡單到像求正方形面積一樣,使用微積分就未必合適了。

上述兩個(gè)例子是想說明,“大數(shù)據(jù)”既意味著一種數(shù)據(jù)的量級,也意味著數(shù)據(jù)的復(fù)雜程度,這正是“大數(shù)據(jù)”的兩大主要特點(diǎn)。

大數(shù)據(jù)平臺的建設(shè)本身不是目的,其目的是要建立數(shù)字化時(shí)代新的商業(yè)運(yùn)營模式,通過直接或間接的方法為企業(yè)創(chuàng)造利潤,同時(shí)增加企業(yè)的影響力和話語權(quán)。大數(shù)據(jù)平臺的使用,一定要與實(shí)際需求掛鉤。離開了實(shí)際需求,空談大數(shù)據(jù)沒有意義。就像一定要讓線裝書局轉(zhuǎn)型去出版電子書一樣,有點(diǎn)兒“為轉(zhuǎn)型而轉(zhuǎn)型”的意味了。同時(shí),如果不考慮大數(shù)據(jù)的特點(diǎn),一味從概念出發(fā)強(qiáng)行上馬,最后很可能就是一場筷子夾湯的愿望,永遠(yuǎn)也走不到真正的應(yīng)用。

猜你喜歡
數(shù)據(jù)量出版業(yè)出版物
基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
計(jì)算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
以按需出版為抓手,推動(dòng)出版業(yè)數(shù)字化轉(zhuǎn)型
高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計(jì)與研究
電子制作(2019年13期)2020-01-14 03:15:18
2017年出版物
AR與VR技術(shù)在兒童出版業(yè)中的應(yīng)用
新聞傳播(2016年23期)2016-10-18 00:54:12
Global analyses of sea surface temperature, sea ice, and night marine air temperature since the latenineteenth century
Arctic sea ice decline: Faster than forecast
對出版業(yè)供給側(cè)改革的思考
出版與印刷(2016年1期)2016-01-03 08:53:34
铁岭县| 莱西市| 塔城市| 内丘县| 读书| 辛集市| 贵阳市| 金山区| 江孜县| 宣化县| 当阳市| 汉沽区| 濮阳县| 海南省| 罗城| 土默特右旗| 洛宁县| 改则县| 乌什县| 澳门| 科技| 兴国县| 韶关市| 隆安县| 柘荣县| 布尔津县| 五寨县| 潢川县| 平凉市| 威海市| 日喀则市| 偏关县| 余干县| 皋兰县| 博客| 双鸭山市| 武鸣县| 深圳市| 龙南县| 潜山县| 巴楚县|