?
大數(shù)據(jù)思維
李偉順 周凱 高越
北方民族大學(xué) 寧夏銀川 750021
[摘要]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展、不斷革新,尤其是數(shù)據(jù)挖掘、網(wǎng)絡(luò)社交、云計(jì)算以及高性能芯片的廣泛應(yīng)用,大數(shù)據(jù)正在蔓延至各個(gè)行業(yè)和領(lǐng)域,大數(shù)據(jù)所產(chǎn)生的信息風(fēng)暴正在急速的變革人類固有的知識(shí)體系、工作習(xí)慣和思維方式。大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型,如何在大數(shù)據(jù)時(shí)代挖掘和利用隱蔽于數(shù)據(jù)內(nèi)部未被激發(fā)的潛在價(jià)值,從而實(shí)現(xiàn)在經(jīng)濟(jì)、教育、醫(yī)療、交通、能源、軍事等領(lǐng)域的革新,取決于我們是否能夠從以往的小數(shù)據(jù)思維及時(shí)轉(zhuǎn)換成大數(shù)據(jù)思維。本文介紹了大數(shù)據(jù)時(shí)代的思維變革、商業(yè)變革和管理變革,分析數(shù)據(jù)信息的三個(gè)轉(zhuǎn)變,以及數(shù)據(jù)創(chuàng)新。
[關(guān)鍵詞]大數(shù)據(jù);云計(jì)算;思維方式;大數(shù)據(jù)思維;創(chuàng)新
大數(shù)據(jù)時(shí)代的天文學(xué)、政治學(xué)、經(jīng)濟(jì)學(xué)、物理學(xué)、社會(huì)學(xué)等很多種科學(xué)門類都將會(huì)發(fā)生巨大的變化和發(fā)展,從而影響整個(gè)人類的價(jià)值觀、生活方式和知識(shí)體系。大數(shù)據(jù)的核心就是預(yù)測(cè),在不久的將來,我們生活中很多現(xiàn)在依靠人類思維判斷的領(lǐng)域都會(huì)被計(jì)算機(jī)系統(tǒng)所改變甚至取代。大數(shù)據(jù)給我們的生活創(chuàng)造了無與倫比的可量化的維度,就像Internet通過給計(jì)算機(jī)添加了通信功能而改變了世界,大數(shù)據(jù)也會(huì)改變我們生活中很重要的方面。
大家一定記得2009年出現(xiàn)的甲型H1N1流感病毒,這種病毒傳播迅速,其結(jié)合了豬流感和禽流感的特點(diǎn),有些專家警告說,這種病毒可能會(huì)導(dǎo)致大規(guī)模流感的爆發(fā),然而更糟糕的是,當(dāng)時(shí)的科研人員還沒有研發(fā)出抵抗這種新型病毒的疫苗。在美國,假如醫(yī)生發(fā)現(xiàn)了新型的流感病例時(shí)需要告訴疾病預(yù)防與控制中心,然而,通告病例這個(gè)過程往往會(huì)有一兩周時(shí)間的延遲,這種信息的滯后對(duì)于飛速傳播的疾病來說,其導(dǎo)致的后果是相當(dāng)致命的。在疫情爆發(fā)的關(guān)鍵時(shí)期,公共衛(wèi)生機(jī)構(gòu)對(duì)于這種信息滯后卻又無所適從。
大數(shù)據(jù)不但對(duì)公共衛(wèi)生領(lǐng)域的影響十分巨大,對(duì)整個(gè)商業(yè)領(lǐng)域也產(chǎn)生了深遠(yuǎn)的影響。購買飛機(jī)票是其中一個(gè)很好的例子。挨齊奧尼協(xié)助創(chuàng)建了全球最早的網(wǎng)絡(luò)搜索引擎MetaCrawler,聯(lián)合創(chuàng)立國第一個(gè)大型比價(jià)網(wǎng)站ClearForest。在他的眼中,世界就是一系列的大數(shù)據(jù)問題。埃齊奧尼創(chuàng)立了一個(gè)機(jī)票預(yù)測(cè)系統(tǒng),這個(gè)系統(tǒng)建立在12000個(gè)價(jià)格樣本的基礎(chǔ)上,這個(gè)預(yù)測(cè)系統(tǒng)并不會(huì)分析哪些因素導(dǎo)致了機(jī)票價(jià)格的波動(dòng),只會(huì)利用其他航班的數(shù)據(jù)預(yù)測(cè)機(jī)票價(jià)格的走勢(shì)。后來這個(gè)小項(xiàng)目發(fā)展成為一個(gè)科技創(chuàng)業(yè)公司Farecast,到2012年為止,F(xiàn)arecast系統(tǒng)擁有近十萬億條價(jià)格記錄,從而能很準(zhǔn)確的預(yù)測(cè)美國航班的票價(jià),其票價(jià)預(yù)測(cè)準(zhǔn)確率已經(jīng)高達(dá)75%,旅客通過使用這種票價(jià)預(yù)測(cè)工具,平均每張機(jī)票可節(jié)省50美元左右。Farecast僅僅是利用大數(shù)據(jù)的一個(gè)縮影,代表了當(dāng)今世界的發(fā)展趨勢(shì)。
大數(shù)據(jù)時(shí)代如何管理龐大的數(shù)據(jù)以及個(gè)人隱私的控制與風(fēng)險(xiǎn),將成為我們面臨的一個(gè)巨大挑戰(zhàn)。任何技術(shù)都是雙刃劍,大數(shù)據(jù)也不例外。大數(shù)據(jù)平臺(tái)在給我們提供服務(wù)的同時(shí),無時(shí)不刻也在收集著用戶的各種信息:購買習(xí)慣、查閱習(xí)慣甚至生活習(xí)慣。通過這些數(shù)據(jù),一方面給人們帶來了很多便利,但另一方面,由于數(shù)據(jù)的管理還不完善,存在諸多漏洞,那些存儲(chǔ)起來或發(fā)布出去的海量信息,也很容易被竊取、被監(jiān)視。通過大數(shù)據(jù),當(dāng)我們獲得足夠多的個(gè)人信息,我們就可以知道隱藏在數(shù)據(jù)背后的人是誰,甚至這個(gè)人心里在想著誰。在大數(shù)據(jù)時(shí)代,此時(shí)我們已經(jīng)不能放心期待擁有數(shù)據(jù)的公司不作惡。如何管理這些龐大的數(shù)據(jù)?誰來保護(hù)公民的個(gè)人隱私?既是所有人都應(yīng)該思考的問題,也是政府法律部門不可推卸的責(zé)任。
第一個(gè)轉(zhuǎn)變:在大數(shù)據(jù)時(shí)代,我們可以分析越來越多的數(shù)據(jù),甚至有些時(shí)候可以處理某個(gè)特殊現(xiàn)象的所有數(shù)據(jù),而不是像以前一樣依賴于隨機(jī)采樣
從19世紀(jì)開始,當(dāng)我們遇到大量數(shù)據(jù)時(shí)就會(huì)依賴于采樣分析。傳統(tǒng)上的統(tǒng)計(jì)學(xué)的隨機(jī)抽樣方法中有一條十分明智的真理:”采樣分析結(jié)論的精確性隨著采樣隨機(jī)性的增加而大幅提升,但與樣本數(shù)量的增加關(guān)系不大。”可以說,“樣本分析”奠定了絕大多數(shù)科學(xué)研究的基礎(chǔ),但隨機(jī)采樣實(shí)際上是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)期的產(chǎn)品。現(xiàn)如今,我們處于一個(gè)足夠強(qiáng)大的數(shù)據(jù)搜集和數(shù)據(jù)處理能力的時(shí)代,隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,高性能數(shù)字技術(shù)的流行讓我們意識(shí)到,相對(duì)于局限性的小數(shù)據(jù)范圍來說,使用一切數(shù)據(jù)給予我們更高的精確性,當(dāng)前的技術(shù)水平使人類可以處理海量數(shù)據(jù),樣本不再是幾萬分之一,而轉(zhuǎn)變成了“樣本=全部”。
第二個(gè)轉(zhuǎn)變:不再熱衷于追求精確度,而是混雜性
在小數(shù)據(jù)時(shí)代,追求精確度是情理之中的。因?yàn)槭苤朴谖覀兪占臄?shù)據(jù)很少,所以需要越精確越好。但大數(shù)據(jù)時(shí)代精確則很難實(shí)現(xiàn),而是用概率說話,混雜性變成了一種新型的途徑。數(shù)據(jù)量的顯著增加也必然會(huì)產(chǎn)生一些問題,一些不準(zhǔn)確的數(shù)據(jù)難免會(huì)混入數(shù)據(jù)庫,導(dǎo)致結(jié)果也可能不準(zhǔn)確。這就是大數(shù)據(jù)時(shí)代的一種新思維——“不是精確性,而是混雜性”。對(duì)“小數(shù)據(jù)”來說,最重要的一點(diǎn)就是減少差錯(cuò)。而在大數(shù)據(jù)時(shí)代里,在技術(shù)尚未達(dá)到足夠完美之前,混亂是無法避免的。
第三個(gè)轉(zhuǎn)變:不在熱衷于尋找因果關(guān)系,而是相關(guān)關(guān)系
在大數(shù)據(jù)時(shí)代,是什么比為什么更加重要。這個(gè)觀點(diǎn)很大程度上挑戰(zhàn)了我們固有的思維模式。大數(shù)據(jù)思維更加關(guān)注相關(guān)性,而不是因果關(guān)系。也就是說,沃爾瑪只需要知道啤酒和尿布、pop-tarts蛋撻與手電筒的銷量具有正相關(guān)性,就可以做出如何銷售的決策了。它并不需要去分析具體原因,企業(yè)只需要知道某件事情正在發(fā)生或者即將發(fā)生,就完全能夠做出正確的決定。相關(guān)關(guān)系很有價(jià)值,因?yàn)樗転槲覀兲峁┤碌囊暯?,而且很清晰。而?dāng)我們考慮到因果關(guān)系的時(shí)候就很可能會(huì)忽略這些視角。大數(shù)據(jù)的核心就是預(yù)測(cè),大數(shù)據(jù)并不是讓機(jī)器像人類一樣去思考。相反,它是通過計(jì)算海量的數(shù)據(jù)來預(yù)測(cè)事情發(fā)生的可能性。
中國是世界上人口最多的國家,眾多的人群和應(yīng)用市場(chǎng),數(shù)據(jù)極其復(fù)雜,而且充滿了變化,多種因素使得中為全球最復(fù)雜的大數(shù)據(jù)國家。如何解決這些由大規(guī)模數(shù)據(jù)產(chǎn)生的問題,從而形成以大數(shù)據(jù)為基礎(chǔ)的解決辦法,將是中國轉(zhuǎn)變產(chǎn)業(yè)方式,提高效率的重要手段。由于中國復(fù)雜的國情,在現(xiàn)代歷史中的多次技術(shù)革命中,中國均是作為學(xué)習(xí)者出現(xiàn)的,但是在這次大數(shù)據(jù)與云計(jì)算的新的變革中,可以說中國與世界的差距最小,此時(shí),中國面臨著一個(gè)重大的歷史抉擇關(guān)口,只要我們以更加開放的心態(tài),更加堅(jiān)定的步伐,更加創(chuàng)新的勇氣來擁抱“大數(shù)據(jù)時(shí)代”,一定能夠把握住新的歷史賦予中國創(chuàng)新的機(jī)會(huì)。
參考文獻(xiàn)
[1]員巧云,程剛.近年來我國數(shù)據(jù)挖掘研究綜述[J].情報(bào)學(xué)報(bào),2005.
[2]蔡立英.“大數(shù)據(jù)”改變我們的生活[J].世界科學(xué),2013.
[3]文洋.美國的“大數(shù)據(jù)”發(fā)展戰(zhàn)略新動(dòng)向[J].中國多媒體通信,2014, (11):60-61.