徐浩
摘要 2012年潛心研究數(shù)據(jù)科學數(shù)十年的技術(shù)權(quán)威維克托 邁爾-舍恩伯格(Viktor Mayer-Sch-nberger)出版了《大數(shù)據(jù)時代》(Big Data: A Revolution That Will Transform How We Live, Work and Think),大數(shù)據(jù)(Big Data)被提到的次數(shù)越來越多,人們用它來描述和定義海量數(shù)據(jù)信息爆炸的時代,并用他來命名與之相關(guān)的技術(shù)發(fā)展和技術(shù)創(chuàng)新?!按髷?shù)據(jù)”時代的來臨,給各行各業(yè)帶來了數(shù)據(jù)使用方式的根本性變革。文章首先闡述了大數(shù)據(jù)的內(nèi)涵和特征,認為大數(shù)據(jù)有利于提高競爭情報的真實性、精準性以及實時性。在此基礎(chǔ)上,詳細分析了大數(shù)據(jù)中數(shù)據(jù)量大、數(shù)據(jù)混雜、數(shù)據(jù)更新快的特點;大數(shù)據(jù)給競爭情報帶來的挑戰(zhàn)以及競爭情報學研究為了迎接這些挑戰(zhàn)所需要做的轉(zhuǎn)變。
【關(guān)鍵詞】大數(shù)據(jù) 競爭情報 全數(shù)據(jù) 黑箱理論
1 什么是大數(shù)據(jù)
在大數(shù)據(jù)研究方面最具權(quán)威的三家機構(gòu)麥肯錫、APPNET和IBM給了大數(shù)據(jù)不同的定義。麥肯錫給出的定義為無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合[1]。APPNET總結(jié)出大數(shù)據(jù)具有三個要素分別是Analytic(分析)、Bandwidth(寬帶)、Content(內(nèi)容)。IBM用四個“V”來概括大數(shù)據(jù)他們分別是Volume(數(shù)據(jù)量大)、Velocity(增長速度快)、Variety(數(shù)據(jù)類型多)和Veracity(真實和準確)。
2 大數(shù)據(jù)的特點
2.1 數(shù)據(jù)量大
使用所有的數(shù)據(jù)并不代表這項任務(wù)難度極高,因為大數(shù)據(jù)中的“大”并不意味著是絕對意義上的大,大數(shù)據(jù)是指不用隨機取樣,而是使用所有已掌握可掌握數(shù)據(jù)的方法。這里的“大”是相對意義上的大,也就是相對于所有數(shù)據(jù)而言,它的數(shù)量有很高的可信性。
2.2 數(shù)據(jù)混雜
當前人們存在一種普遍誤解,就是“大數(shù)據(jù)”等同于數(shù)據(jù)量很大的數(shù)據(jù),其實不然,人們在社會生活的很多領(lǐng)域都已經(jīng)有能力得到非常多甚至是全部的數(shù)據(jù),比如金融領(lǐng)域,但我們并不能將之稱為“大數(shù)據(jù)”,因為其數(shù)據(jù)結(jié)構(gòu)較為單一,可以用傳統(tǒng)的方法進行數(shù)據(jù)的處理、分析和儲存在這里我們也可以看出大數(shù)據(jù)的一個特點——數(shù)據(jù)類型較為混雜。
2.3 數(shù)據(jù)更新快
大數(shù)據(jù)要求快速處理,因為有些數(shù)據(jù)存在時效性。比如電商的數(shù)據(jù),假如今天數(shù)據(jù)的分析結(jié)果要等到明天才能得到,那么將會使電商很難做類似補貨這樣的決策,從而導致這些數(shù)據(jù)失去了分析的意義。
3 大數(shù)據(jù)時代競爭情報的挑戰(zhàn)
3.1 信息安全受到威脅
軟件應用方面,大數(shù)據(jù)的收集方法很容易觸及個人隱私,比如我們所使用的引動終端,它就可以搜集用戶的位置信息;2013年年末,網(wǎng)絡(luò)曝出7000萬個qq群關(guān)系出現(xiàn)了重大泄露,人么可以在這些數(shù)據(jù)中知道一個人的年齡,性別。如何防止這樣的事件的發(fā)生就會是很大的挑戰(zhàn)。
3.2 非結(jié)構(gòu)化數(shù)據(jù)增加
大數(shù)據(jù)時代企業(yè)競爭情報來源的結(jié)構(gòu)發(fā)生了變化,據(jù)統(tǒng)計企業(yè)中非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)為數(shù)據(jù)的主體,約占總量的 80%,而剩下的不到 20%的數(shù)據(jù)才是我們經(jīng)常用到的結(jié)構(gòu)化的數(shù)據(jù)。而且,非結(jié)構(gòu)化數(shù)據(jù)的增長速率遠遠大于結(jié)構(gòu)化數(shù)據(jù),前者為 63%,網(wǎng)站上我們可以看到他可以為軟件開發(fā)者提供定位,搜索及地圖等功能,該功能為數(shù)十萬款 APP提供了定位服務(wù),根據(jù)其統(tǒng)計每天向其提出的位置服務(wù)申請高達 35億次,這也就保證了該平臺可以得到足夠多的位置數(shù)據(jù),使“百度遷徙”具有相當?shù)目尚判浴?/p>
4 面對挑戰(zhàn)應進行的轉(zhuǎn)變--多使用“黑箱”思維
可以說大數(shù)據(jù)的引起的變化就是因量變而發(fā)生的質(zhì)變,為了迎合這種質(zhì)變我們需要對我們的一些思維及行為方式進行一些改變。
在小數(shù)據(jù)時代,很難證明由直覺而來的因果關(guān)系是錯誤的,現(xiàn)在,情況不一樣了,將來,大數(shù)據(jù)之間的相關(guān)關(guān)系,會經(jīng)常用來證明只覺得因果聯(lián)系是錯誤的。最終也能證明,統(tǒng)計關(guān)系也未蘊含多少真實的因果關(guān)系,總之我們這種思維方式將會遭受各種各樣的考驗。
這就類似于中醫(yī)針灸一類的“黑箱”,筆者認為在新時代競爭情報也可以使用黑箱方法來研究競爭情報。黑箱方法即在不直接影響原有客體黑箱內(nèi)部結(jié)構(gòu)、要素和機制的前提下通過觀察黑箱中“輸入”、“輸出”的變量,得出關(guān)于黑箱內(nèi)部情況的推理,尋找發(fā)現(xiàn)其內(nèi)部規(guī)律,實現(xiàn)對黑箱的控制。
谷歌一直走在大數(shù)據(jù)研究的前沿。在甲型 H1N1流感爆發(fā)的幾周前,互聯(lián)網(wǎng)巨頭谷歌公司的工程師們在《自然》雜志上發(fā)表了一篇引人注目的論文。它令公共衛(wèi)生官員們和計算機科學家們感到震驚。文中解釋了谷歌為什么能夠預測冬季流感的傳播:不僅是全美范圍的傳播,而且可以具體到特定的地區(qū)和州。谷歌通過觀察人們在網(wǎng)上的搜索記錄來完成這個預測,而這種方法以前一直是被忽略的。
5 結(jié)語
在信息社會,更好的信息等于競爭優(yōu)勢。在削減的響應時間和數(shù)據(jù)的需求呈指數(shù)級增長已經(jīng)帶來一年后的今年行業(yè)的一個關(guān)鍵挑戰(zhàn)。大數(shù)據(jù)代表了一流的解決方案,使企業(yè)能夠捕捉,分析和挖掘非常大的數(shù)據(jù)集來深入了解各種問題域,從顧客的喜好來做復雜的預測。
大數(shù)據(jù)技術(shù)的普及應用,正如當年互聯(lián)網(wǎng)技術(shù)的普及應用一樣,將滲透到各個領(lǐng)域,并逐漸影響著每一個人的生活。1993年,《紐約客》曾刊登了彼得·施泰納的一幅漫畫:“在互聯(lián)網(wǎng)上,沒有人知道你是一條狗?!边@幅漫畫轟動了全球,人們由此直觀地認識到?jīng)]有人知道到底是誰在向互聯(lián)網(wǎng)發(fā)出信息?,F(xiàn)在這個答案可以解決了,大數(shù)據(jù)技術(shù)不但可以讓人們知道向互聯(lián)網(wǎng)發(fā)出信息的是一條狗,還能夠知道這條狗在什么位置、幾點出去和主人一起遛彎、幾點回來睡覺。每個用戶在互聯(lián)網(wǎng)上都會留下自己的“痕跡”。
盡管大數(shù)據(jù)問競爭情報的研究帶來了種種挑戰(zhàn),但是應對好這些挑戰(zhàn)會給競爭情報的研究帶來巨大的變化。當今世界各地的幾乎任何一個角落都有傳感器的存在,其中也包括我們經(jīng)常使用的智能移動終端,好好利用這里產(chǎn)生的信息,將會使企業(yè)獲得更大的競爭優(yōu)勢。
參考文獻
[1]嚴霄鳳,張德馨.大數(shù)據(jù)研究[J].計算機技術(shù)與發(fā)展,2013,4(32):4.
[2]張琳.五種生活中常見的“黑箱”及其應用[J].科教文匯,2010(24):201-202.
[3]閆城榛,韓志國.應變大數(shù)據(jù)[J].中國傳媒科技,2013(004):28-33.
作者單位
南昌工程學院 江西省南昌市 330029