究竟是大數(shù)據(jù)更加重要,還是小數(shù)據(jù)更有價值?對此,中鋼集團信息管理部總經(jīng)理李紅和昆侖數(shù)據(jù)首席數(shù)據(jù)科學家田春華給出了各自的見解。
在過去幾年,“大數(shù)據(jù)”一詞炙手可熱,很多企業(yè)、用戶都對大數(shù)據(jù)十分感興趣。但是在實際應用當中,我們看到大數(shù)據(jù)應用的狀況似乎并不如想象中的普遍。
世界著名品牌營銷專家馬丁·林斯特龍指出,大數(shù)據(jù)雖然連接了千萬個數(shù)據(jù)點,可以準確地產(chǎn)生相互關系,但是當人類按照自己的習慣行動時,大數(shù)據(jù)分析通常不會十分準確。所以,在大數(shù)據(jù)之外,挖掘用戶需求的同時,更重要的是通過對一個小群體的親身觀察和對小數(shù)據(jù)的常識判斷,捕捉到這個社會群體所體現(xiàn)出的文化欲望,滿足這些用戶的需求。
那么究竟是大數(shù)據(jù)更加重要,還是小數(shù)據(jù)更有價值?對此,中鋼集團信息管理部總經(jīng)理李紅和昆侖數(shù)據(jù)首席數(shù)據(jù)科學家田春華進行了討論。
Q:您認為大數(shù)據(jù)更有價值,還是小數(shù)據(jù)更實用?
李紅:我認為不能武斷地說大數(shù)據(jù)、小數(shù)據(jù)誰更有價值,因為兩者不是對等的概念,應該說大數(shù)據(jù)有大數(shù)據(jù)的價值,小數(shù)據(jù)有小數(shù)據(jù)的價值,取決于數(shù)據(jù)的應用。
田春華:我支持的數(shù)據(jù)是大數(shù)據(jù)和小數(shù)據(jù)的融合,因為“數(shù)”是載體,“聚”才是我們的目的。
Q:究竟什么是大數(shù)據(jù)、什么是小數(shù)據(jù),兩位專家如何定義?
李紅:我曾經(jīng)在行業(yè)工作了十幾年,一直從事統(tǒng)計工作,由于我個人的工作經(jīng)歷,我對數(shù)據(jù)比較敏感。
我認為小數(shù)據(jù)一般是指傳統(tǒng)上對數(shù)據(jù)的使用,在過去由于受技術、資源的限制,我們在采取小數(shù)據(jù)時有明確的目的,對小數(shù)據(jù)的用途賦予了很明確的要求。在取得數(shù)據(jù)時,數(shù)據(jù)本身就被賦予了很多信息和知識內(nèi)涵,否則我們就會浪費資源。
大數(shù)據(jù)和小數(shù)據(jù)是不對等的,因為現(xiàn)在技術進步了,我們可以簡單而又方便地應用大量數(shù)據(jù),所以人們給數(shù)據(jù)定義了四個V(多樣化、體量大、速度快、價值高)。大數(shù)據(jù)的概念是什么?是將原生態(tài)、原始的數(shù)據(jù)經(jīng)過一系列的清洗、打標簽、標識、建模等手段,使原始數(shù)據(jù)產(chǎn)生價值。所以,在四個V中,才會有價值高這個概念。
無論是小數(shù)據(jù)還是大數(shù)據(jù),我們都要理解各自的用途。為了滿足對現(xiàn)象的描述,對經(jīng)濟發(fā)展概念的理解,我們花了大量的精力,對小數(shù)據(jù)進行指標設置、標準的界定,然后對數(shù)據(jù)反映的情況進行分析和甄別,這是小數(shù)據(jù)的應用。
在傳統(tǒng)應用中哪些是小數(shù)據(jù)?小數(shù)據(jù)包括了GDP、銷售率、成本核算等這些大量的傳統(tǒng)數(shù)據(jù)。
大數(shù)據(jù)的用途非常廣泛,主要聚焦在互聯(lián)網(wǎng)和電商企業(yè),大數(shù)據(jù)在這些企業(yè)中體量十分龐大,并且有很多維度,還可以實時動態(tài)更新。當擁有這些數(shù)據(jù)后,我們就可以通過分析提高自身的能力。
比如通過大數(shù)據(jù),可以進行用戶畫像、精準營銷、預測性維護,這些能力是小數(shù)據(jù)達不到的。
所以,我的觀點就是,大數(shù)據(jù)和小數(shù)據(jù)不是對等的概念,大數(shù)據(jù)和小數(shù)據(jù)各有價值,取決于在不同的領域有不同的用途。
田春華:不能從內(nèi)、外這樣的角度來區(qū)分大數(shù)據(jù)和小數(shù)據(jù),從學術上來講,大數(shù)據(jù)也不是一個嚴格的學術名詞。
談到大數(shù)據(jù),很多人混淆了數(shù)據(jù)的兩個層面:
1.大數(shù)據(jù)技術。
2.大數(shù)據(jù)思維。
從數(shù)據(jù)技術的角度來說就是四個V。目前,大家總會強調(diào)數(shù)據(jù)量的問題。比如Google在早期解決的數(shù)據(jù)問題非常簡單。他們在面對海量數(shù)據(jù)時,利用高性價比的方式來代替昂貴的存儲介質(zhì)、商用服務器等,因為大量搜索低價值密度的數(shù)據(jù),雖然數(shù)據(jù)量大,但是價值密度比較低。這時如果再用昂貴的存儲介質(zhì),銀行、電信等行業(yè)就無法支撐下去。
最早互聯(lián)網(wǎng)行業(yè)發(fā)展大數(shù)據(jù)的動機很簡單,就是為了降低成本。所以,如果用普通的機器來做,就帶來了一個新的問題,各類機器的差異性較大,而且機器的計算是單節(jié)點,性能較低,怎樣組成一個可靠性強、吞吐量大的高級節(jié)點計算,這就需要大數(shù)據(jù)技術,包括如何解決計算中的瓶頸問題,這是大數(shù)據(jù)技術的起因。
數(shù)據(jù)思維就是如何依靠數(shù)字化轉(zhuǎn)型,來幫助企業(yè)審視企業(yè)自身的業(yè)務,支持企業(yè)轉(zhuǎn)型和發(fā)展。
但是大數(shù)據(jù)就要體現(xiàn)全面性。我們接觸最多的是石油行業(yè),在過去,小數(shù)據(jù)覆蓋了很多專業(yè)領域,包括管理性維護、施工系統(tǒng)等,而這些系統(tǒng)都可以反饋數(shù)據(jù),但是各個數(shù)據(jù)都沒有打通。
通過數(shù)據(jù)梳理后,數(shù)據(jù)雖然打通了,但是卻無法運行。這不僅僅是運維的問題,也可能是施工的問題。所以,在以前,小數(shù)據(jù)或者是專業(yè)數(shù)據(jù)是割裂的。在大數(shù)據(jù)時代,每個企業(yè)做的第一件事就是把數(shù)據(jù)打通,建立全生命周期的數(shù)據(jù)管理體系,從建設期到移交期,再到運維期。但是這還不能稱為大數(shù)據(jù),應該稱為數(shù)據(jù)思維。
對于制造行業(yè),在整個生產(chǎn)環(huán)節(jié)中,如果通過數(shù)據(jù)關聯(lián),我們可以把生產(chǎn)過程的全息畫像描繪出來再進行分析,可能會發(fā)現(xiàn)原來在工藝或者是傳統(tǒng)制造之外的東西,這是數(shù)據(jù)思維或者是大數(shù)據(jù)思維帶來的一些新的東西。
主要的區(qū)別在于數(shù)據(jù)的利用方面,就是如何利用數(shù)據(jù)。
大數(shù)據(jù)、小數(shù)據(jù)二者的區(qū)別是相對的。小數(shù)據(jù)的價值密度高,大數(shù)據(jù)的價值密度低。另外從統(tǒng)計的角度來講,我們從來沒遇見過大數(shù)據(jù),因為人們的好奇心永遠超過數(shù)據(jù)量。對于數(shù)據(jù)科學家來說,總是感覺數(shù)據(jù)不夠。因為我們的興趣是呈指數(shù)增長的,而數(shù)據(jù)量是線性或者是多項式增長,所以我們的增長速度遠遠超過數(shù)據(jù)。
Q:為什么在大數(shù)據(jù)時代,我們又重新提起小數(shù)據(jù)?現(xiàn)在的小數(shù)據(jù)跟之前的小數(shù)據(jù)有什么不同?
李紅:目前,大數(shù)據(jù)通過互聯(lián)網(wǎng)的發(fā)展,越來越受到各界追捧,很多人認為一切都可以利用大數(shù)據(jù)來解決。但實際上并不是這樣,為什么不能忽視小數(shù)據(jù)?什么才是數(shù)據(jù)的價值?
1.數(shù)據(jù)來源。
2.數(shù)據(jù)加工。
3.數(shù)據(jù)使用。
應當從這三個方面來看二者的區(qū)別。
從數(shù)字來源看,互聯(lián)網(wǎng)企業(yè)強調(diào)數(shù)據(jù)一定來源于最原始、最本源的狀態(tài)。就像礦石一樣,埋在地下,只有挖出來它才有價值。所以,現(xiàn)在大量的機器數(shù)據(jù)、行為數(shù)據(jù)等,都可以變成數(shù)據(jù)。
而小數(shù)據(jù)則不同,為了獲得知識,我們要定位自己的需求、有較強的目的性,才能保證付出較小的代價。因為在龐大的數(shù)據(jù)量面前,我們就沒有足夠的力量和能力進行處理了,所以在獲取的過程中就會出現(xiàn)取舍,因為取舍,就會忽視很多事物的本質(zhì),數(shù)據(jù)量就會變小。
只有賦予了數(shù)據(jù)的定義、內(nèi)涵、算法,我們所獲取的數(shù)據(jù)才會變得有價值。但是小數(shù)據(jù)和大數(shù)據(jù)的區(qū)別就是,小數(shù)據(jù)舍棄了很多有價值的東西。
從數(shù)據(jù)來源的角度來說,小數(shù)據(jù)是人類社會、經(jīng)濟社會活動的基礎。不能只依靠挖掘大數(shù)據(jù),小數(shù)據(jù)也可以支撐我們對事物進行經(jīng)濟分析。
從加工的角度來說,大數(shù)據(jù)的加工很簡單?,F(xiàn)在的算法有很多,比如要識別一個東西,必須通過算法、算力和數(shù)據(jù)的不斷迭代,才能精確識別,才能確認大數(shù)據(jù)是否存在價值。
有些BAT的專家曾經(jīng)講過,盡管手里有數(shù)據(jù),也不知道怎么用。比如人工智能需要通過數(shù)據(jù)建模不斷迭代,才能體現(xiàn)識別能力。這是大數(shù)據(jù)的加工方法。
小數(shù)據(jù)的加工方法相對簡單,通過統(tǒng)計、匯總、建模,也可以通過數(shù)據(jù)展示來處理小數(shù)據(jù)。我們現(xiàn)在所看到的圖表、報表、簡單圖形等都非常直觀,它們能夠讓我們很容易地知道我們想達到的目的,驗證我們預測的目標和結果。
相比之下,通過大數(shù)據(jù)我們很容易獲得更深層次的東西。因為有數(shù)據(jù),我們通過加工、建模,可以把一些顯性的數(shù)據(jù)利用起來。小數(shù)據(jù)只能用一些能看得到的顯性數(shù)據(jù),而大數(shù)據(jù)可以發(fā)現(xiàn)更深層次的東西。從數(shù)據(jù)加工來說,小數(shù)據(jù)加工簡單、直觀,大數(shù)據(jù)需要通過復雜的處理。
從數(shù)據(jù)的最終使用角度來看,在過去,小數(shù)據(jù)要支撐我們的各種決策,直到現(xiàn)在也如此。舉個例子,從人力資源理論來講,一般的物理情況下,一個人能管控七個人,因為人的手、目測距離有限。那么七個人以上怎么辦?如果一個大公司有幾千、幾萬人,一個企業(yè)在全世界都有部署,那么依靠傳統(tǒng)的人力資源管理方式就行不通了。所以,這種情況下利用小數(shù)據(jù)進行決策更加有效。
我們?yōu)槭裁从么髷?shù)據(jù)?為什么大數(shù)據(jù)發(fā)展這么迅速?區(qū)塊鏈、人工智能都是大數(shù)據(jù)自然發(fā)展而來的一種技術,這就說明大數(shù)據(jù)發(fā)揮了更大的價值。大數(shù)據(jù)的產(chǎn)生能夠在將來提升人類對科學的第四范式,在過去,我們通常憑借經(jīng)驗和推理做出決策,而現(xiàn)在通過數(shù)據(jù)就能發(fā)現(xiàn)問題。
所以,從這個角度來說,小數(shù)據(jù)從采集、加工到最后的處理和分析過程中都具有價值,社會的經(jīng)濟活動還是需要小數(shù)據(jù)。但是大數(shù)據(jù)開辟了新的天地,提高了我們的認識和認知能力,所以大數(shù)據(jù)的價值確實是非常值得期待的。但是不能因為大數(shù)據(jù),就忽視了小數(shù)據(jù)。
Q:現(xiàn)在大數(shù)據(jù)非?;?,但是小數(shù)據(jù)如何切入?
田春華:我們在做大數(shù)據(jù)分析時,其實還是需要小數(shù)據(jù)的支撐,但需要的是具有代表性的小數(shù)據(jù),當利用小數(shù)據(jù)后再遷移到大數(shù)據(jù)進行大規(guī)模驗證,包括挖掘我們認識之外的東西,在大數(shù)據(jù)上是否能看到一些我們原來理解之外的東西?或者是看到一些目前解釋不了的東西?解釋不了的東西有可能存在規(guī)律,有可能是我們的測量手段或者是當前的數(shù)據(jù)采集方式有問題。
其實我們一直按照從小數(shù)據(jù)到大數(shù)據(jù)的迭代方式,先利用小數(shù)據(jù),再應用大數(shù)據(jù),從大數(shù)據(jù)的應用中再回到小數(shù)據(jù)反復迭代,然后再提升,這樣才能使大數(shù)據(jù)成功落地,而不是只談大數(shù)據(jù)不顧小數(shù)據(jù)。
如果脫離了小數(shù)據(jù)來談大數(shù)據(jù),對于企業(yè)來說具有很大的風險。
主持人:而且可能也會給企業(yè)帶來一些不好的效果。小數(shù)據(jù)見效更快,對于企業(yè)來說,小數(shù)據(jù)的直接價值更大。
田春華:不只是對企業(yè),對我們分析師來說,小數(shù)據(jù)或者是少量的數(shù)據(jù)更容易參透。其實很多事情和工程問題一樣,講究二八定律,人類把握80%的問題,而剩下的20%的問題交給統(tǒng)計或者智能進行挖掘,來解決20%的未知因素。
Q:在咱們?nèi)粘5墓ぷ鳟斨?,是不是小?shù)據(jù)應用得更多一些?
李紅:對,國家統(tǒng)計局有一個國民經(jīng)濟行業(yè)分類。為什么要分類?我們的社會充滿數(shù)據(jù),如何有條理、有規(guī)矩、有序地應用數(shù)據(jù)?還需要人為地把這些數(shù)據(jù)進行歸類、識別、分析。所以,為了解決好效率和質(zhì)量的問題,我們需要大量的小數(shù)據(jù)。
就像日常出行選擇交通方式時,如果距離非常近,最好騎自行車,這樣的話效率很高。如果開車的話,需要啟動、停車,效率反而降低。所以,不能因為大數(shù)據(jù)的價值高,就忽視了小數(shù)據(jù)。
Q:能否以小數(shù)據(jù)的應用為例,談談如何將其與大數(shù)據(jù)結合為企業(yè)解決問題?
田春華:我舉個例子:
我們幫金風科技(一家世界領先的風電設備制造商)做載荷仿真時,遇到的問題就是要加速仿真過程,因為工礦比較多,有一千多個工礦要仿真。所以,最初始的訴求也很簡單,通過智能化、小數(shù)據(jù),把瑣碎的過程自動化,還有解決計算時間較長的問題,另外,產(chǎn)生的仿真文件特別多,需要把用的結果自動抽出來。
這本身是一個很好的自動化小數(shù)據(jù),但是中間用了一些大數(shù)據(jù)計劃,其實更多是利用傳統(tǒng)的小數(shù)據(jù)。
用完之后,我們隱約意識到,一旦能把載荷仿真智能化之后,從業(yè)務上帶來的價值不僅僅是在企業(yè)內(nèi)部提升了載荷仿真團隊的工作效率,而且極大地改善了認證的階段。過去我們通常寫二三百頁的文檔作為報告,而認證機構把它還原到計算機中的過程則需要一周的時間。如果能把這些計算自動化,把計算結果、計算過程、原始資料都提交給認證機構,認證機構也省去了驗證的過程,我們也省去了寫企業(yè)幾百頁報告的麻煩。
后來我們更意識到了,這對企業(yè)整個的研發(fā)來說,就是協(xié)同研發(fā)、協(xié)同設計。過去,葉片廠商和塔架廠商都把自己設計好的文件提交到金風的研發(fā)團隊,研發(fā)團隊再整合起來進行仿真,之后如果發(fā)現(xiàn)某些環(huán)節(jié)需要調(diào)整,再返回給各廠商。
在實現(xiàn)了自動化之后,每個人可以獨立地提交文件,可以和別人現(xiàn)有的方法進行整合,然后馬上就會出具結果,這樣就使整個研發(fā)過程變成了一個并行的研發(fā)。
我們從最早非常小的一個點,慢慢走到需要用大數(shù)據(jù)來進行支撐。這是我們和業(yè)務部門都沒有想到的,事實證明一旦某個生產(chǎn)環(huán)節(jié)得到了加速,所帶來的是業(yè)務模式的轉(zhuǎn)變,而業(yè)務模式所對應的大數(shù)據(jù)后臺技術的要求是不一樣的。在企業(yè)內(nèi)部用安全、認證沒有問題,但對外我們還要建模性加密,包括各種引擎的分析模型分享等。
我們過去做過很多大部件的工程診斷,研發(fā)部門有很多經(jīng)驗模型,并且全部都驗證,大家對模型的應用非常有自信。
但當我們部署了大數(shù)據(jù)平臺之后,發(fā)現(xiàn)以往的經(jīng)驗應用到風機廠,幾乎沒有一個模型是準確的。這也是我們?yōu)槭裁春髞響迷谛?shù)據(jù)上做的模型,到大數(shù)據(jù)上去驗證,當驗證完成后,再回頭修改小數(shù)據(jù)。通過這種大數(shù)據(jù)、小數(shù)據(jù)迭代的方式,金風已經(jīng)成功做出上百的模型,可以應用在全球范圍內(nèi)的風機。
小數(shù)據(jù)為我們打下了很好的基礎,已經(jīng)八九不離十,剩余10%的間隙用大數(shù)據(jù)去彌補。如果沒有那80%、90%小數(shù)據(jù)的支撐,只依靠挖掘大數(shù)據(jù),很難保證其精準度。因為樣本不均衡,在工業(yè)中越嚴重的故障樣本量越小,我們沒有足夠的樣本來訓練一個可靠的模型。這就是為什么我們做出小數(shù)據(jù)之后,再用大數(shù)據(jù)去驗證反而見效更快。
Q:那么在傳統(tǒng)企業(yè)中,是否也碰到過上述情況?
李紅:在傳統(tǒng)企業(yè)中我們也遇到了這種問題。因為大數(shù)據(jù)被理解為一種技術,它是一種新的思維、新的能力,傳統(tǒng)企業(yè)和互聯(lián)網(wǎng)企業(yè)是不一樣的,我們在技術和思維能力之間還存在差距。
簡單說,我們在與CIO這個群體交流時發(fā)現(xiàn),大家都苦于企業(yè)沒有需求,不確定業(yè)務部門能否做一些大數(shù)據(jù)研究案例,以及業(yè)務部門不知道為什么做大數(shù)據(jù)。而職能部門也無法改善管理,因為職能部門也不知道怎么做大數(shù)據(jù)。
問題出在哪里?互聯(lián)網(wǎng)企業(yè)已經(jīng)實現(xiàn)了技術和能力的匹配,物聯(lián)網(wǎng)企業(yè)要想知道做什么,就要去搜集數(shù)據(jù)。那么在傳統(tǒng)企業(yè)中,大數(shù)據(jù)如何能發(fā)揮價值?在需求端、業(yè)務端、應用端他們還很難說出為什么要用大數(shù)據(jù),用大數(shù)據(jù)干什么?大數(shù)據(jù)從哪里來?他們正被這種問題困擾著。
所以,目前大數(shù)據(jù)所落地的傳統(tǒng)企業(yè)都是一些很具體的實戰(zhàn)型企業(yè),比如生產(chǎn)廠商。我們最近看到華倫集團率先在水電、火電設備上和具體的生產(chǎn)場景中,利用大數(shù)據(jù)進行突破。
目前,大數(shù)據(jù)在傳統(tǒng)企業(yè)里面一定要找到具體的應用場景和目標,要解決數(shù)據(jù)從哪兒來,什么是大數(shù)據(jù),大數(shù)據(jù)能做什么等問題。因為傳統(tǒng)企業(yè)必須見到效果了,或者是感覺到了大數(shù)據(jù)的價值,才會發(fā)展大數(shù)據(jù)。
所以,大數(shù)據(jù)在傳統(tǒng)企業(yè)的推進中要有一個過程。從技術發(fā)展的角度來說,我們從消費互聯(lián)網(wǎng)過渡到產(chǎn)業(yè)互聯(lián)網(wǎng)和工業(yè)互聯(lián)網(wǎng)階段,應該說大數(shù)據(jù)剛剛起步,無論是從理論上、應用上還是價值上來說,都是剛剛開始。
盡管現(xiàn)在依然是技術人員在技術層面上談大數(shù)據(jù),實際上,一旦傳統(tǒng)企業(yè)應用了大數(shù)據(jù),傳統(tǒng)企業(yè)轉(zhuǎn)型升級、創(chuàng)新發(fā)展、彎道超車都有很大可能,所以大數(shù)據(jù)的未來是非常好的。
Q:最后請兩位專家用一分鐘的時間總結一下大數(shù)據(jù)和小數(shù)據(jù)的關系。
田春華:我認為數(shù)據(jù)技術和業(yè)務不是割裂的關系,無論是大數(shù)據(jù)還是小數(shù)據(jù),我們在以數(shù)字化轉(zhuǎn)型或是數(shù)字化業(yè)務的視角去審視和推進整個數(shù)據(jù)建設時,都應當遵循三點:
1.有明確的業(yè)務規(guī)劃或者是業(yè)務場景。
2.要對當前整個行業(yè)環(huán)境包括企業(yè)的數(shù)據(jù)基礎進行摸底,當我們要發(fā)展大數(shù)據(jù)時,當前的數(shù)據(jù)基礎能不能支持現(xiàn)有的場景。
業(yè)務驅(qū)動還是要尋找業(yè)務場景,一方面是業(yè)務部門的努力,另一方面大數(shù)據(jù)公司也應努力地尋找業(yè)務場景、業(yè)務驅(qū)動,以合適的方式將可行的數(shù)據(jù)、高價值的信息及時推給相應的人。
3.從數(shù)據(jù)的角度審視我們的業(yè)務和問題,從而完善我們的業(yè)務。當通過數(shù)據(jù)分析發(fā)現(xiàn)問題后,反過來改善業(yè)務流程,形成業(yè)務和數(shù)據(jù)的閉環(huán)。
李紅:我們要重視小數(shù)據(jù)的利用價值,因為小數(shù)據(jù)事關我們的日常生活和工作,但是我們要大力推進大數(shù)據(jù)的應用發(fā)展,因為它關系到我們的產(chǎn)業(yè)升級、動能轉(zhuǎn)化、經(jīng)濟轉(zhuǎn)型和強國建設。所以,大數(shù)據(jù)決定我們的命運和未來。
數(shù)據(jù)本無大小,但運用數(shù)據(jù)的立場卻分大小。