“2013 Teradata大數(shù)據(jù)峰會”于4月23-24日在北京召開。Teradata天睿公司首席技術(shù)官寶立明(Stephen Brobst)在會上指出,大數(shù)據(jù)并非單純指某一技術(shù),這與Hadoop不同。解決方案供應(yīng)商總是說一切都是大數(shù)據(jù),這其實對IT業(yè)發(fā)展不利的。本刊記者就大數(shù)據(jù)領(lǐng)域相關(guān)問題采訪了Teradata天睿公司首席技術(shù)官寶立明。
Teradata天睿公司是全球領(lǐng)先的大數(shù)據(jù)分析和數(shù)據(jù)倉庫解決方案廠商,專注于整合數(shù)據(jù)倉庫、大數(shù)據(jù)分析和業(yè)務(wù)應(yīng)用,針對快速增長的傳統(tǒng)數(shù)據(jù),以及大數(shù)據(jù)時代的非結(jié)構(gòu)化和多結(jié)構(gòu)化數(shù)據(jù),提供全面的領(lǐng)先解決方案。
大數(shù)據(jù)第一步怎么走?
《新理財》:大數(shù)據(jù)是不是只屬于大型企業(yè)?如果是中小型公司或者初創(chuàng)的創(chuàng)業(yè)企業(yè),他們怎么去利用大數(shù)據(jù)去開展自己的業(yè)務(wù)呢?有什么樣的思路?
寶立明:當(dāng)然了,規(guī)模肯定是最基本的一點,你要有一定的規(guī)模,而且也要有專業(yè)技術(shù)人員,比如擁有像數(shù)據(jù)科學(xué)家這樣的人員,才有可能充分地利用大數(shù)據(jù)做相應(yīng)的數(shù)據(jù)分析。
而規(guī)模比較小的公司,在人員、技能方面可能有所缺失,所以通常他們會選擇做外包。而且,他們更多會選擇“數(shù)據(jù)倉庫即服務(wù)”這種模型,并不是說要建設(shè)自己的基礎(chǔ)設(shè)施。
對于中等規(guī)模的企業(yè),通常我們也不推薦用Hadoop,因為Hadoop有更高的復(fù)雜性,他們應(yīng)該更多地使用自己的數(shù)據(jù)探索平臺。
《新理財》:現(xiàn)在在很多企業(yè)中存在一個現(xiàn)象,雖然有很多數(shù)據(jù),但是不知道怎么樣邁出應(yīng)用大數(shù)據(jù)的第一步。您有什么建議?
寶立明:其實,要談到切入點應(yīng)該在哪里,我覺得應(yīng)該是看企業(yè)的商業(yè)策略或者商業(yè)戰(zhàn)略。企業(yè)需要從商業(yè)角度制定使用決策,而并非從技術(shù)角度。比如,如果要用大數(shù)據(jù)來做營銷,那么就要通過大數(shù)據(jù)來分析營銷狀況,以便幫助你針對客戶實現(xiàn)追加銷售或者交叉銷售;用大數(shù)據(jù)獲得企業(yè)風(fēng)險狀況,就可以通過大數(shù)據(jù)分析客戶的行業(yè)或者情感,確定這些因素會為企業(yè)帶來哪些風(fēng)險。另外,要用大數(shù)據(jù)欺詐的偵測,這都需要首先確定策略,決定了從哪個地方切入。對于大多數(shù)企業(yè)來說,通常都是從客戶做起,因為客戶是重中之重,客戶的行為是真正為企業(yè)創(chuàng)造價值的地方。
《新理財》:一些企業(yè)已經(jīng)在大數(shù)據(jù)應(yīng)用方面做了很多嘗試,他們發(fā)現(xiàn)有些數(shù)據(jù)其實是沒用的,甚至被稱為“數(shù)據(jù)污水”在數(shù)據(jù)采集過程中,如何排除或發(fā)現(xiàn)這些“數(shù)據(jù)污水”?有沒有比較好的工具或者解決方案?
寶立明:這個問題非常有意思。如果把“數(shù)據(jù)污水”加入到數(shù)據(jù)倉庫中,就會污染整個數(shù)據(jù)倉庫,就很難再從中發(fā)掘好的數(shù)據(jù)。這也是Teradata 提出統(tǒng)一數(shù)據(jù)架構(gòu)(UDA)概念的原因之一。針對Hadoop來說,它永遠是把所有的數(shù)據(jù)都存儲起來,但是對于企業(yè)數(shù)據(jù)倉庫來說,最好只存放經(jīng)過清洗的好數(shù)據(jù)。
不過,在談?wù)摗澳男?shù)據(jù)有用或者沒用”的時候,其實要分外小心,因為如果覺得這個數(shù)據(jù)是沒用的,很有可能只是暫時還沒有發(fā)現(xiàn)其價值所在,而最終一天可能發(fā)現(xiàn)其中的價值。其實,所有的數(shù)據(jù)都是有價值的,問題的關(guān)鍵是在什么時間能夠發(fā)現(xiàn)這些價值。所以,這樣就需要那些非常精明、聰明的數(shù)據(jù)科學(xué)家發(fā)現(xiàn)數(shù)據(jù)中蘊含的價值,由此我也建議說把那些數(shù)據(jù)稱為“數(shù)據(jù)污水”。
我們可以把尚未發(fā)現(xiàn)價值的那些數(shù)據(jù)稱為低價值密度的數(shù)據(jù),而對于已經(jīng)發(fā)現(xiàn)了價值的數(shù)據(jù),建議對給它進行更多的投入挖掘其洞察力。但是對那些你所稱作“污水?dāng)?shù)據(jù)”的數(shù)據(jù),就可以存儲在低成本的系統(tǒng)環(huán)境中,而且絕對不要隨意丟棄,假以時日它們其中潛藏的價值將會被挖掘出來。
為整合數(shù)據(jù)倉庫、數(shù)據(jù)探索以及Hadoop的優(yōu)勢, Teradata在業(yè)內(nèi)獨家創(chuàng)新架構(gòu)Teradata統(tǒng)一數(shù)據(jù)架構(gòu)(UDA),實現(xiàn)了Hadoop存儲、Teradata Aster達數(shù)據(jù)探索以及Teradata數(shù)據(jù)倉庫分析功能的整合,既能幫助企業(yè)滿足當(dāng)前的大數(shù)據(jù)分析,解決“數(shù)據(jù)污水”等問題,同時也為企業(yè)迎接更大規(guī)模的大數(shù)據(jù)規(guī)模奠定開放基礎(chǔ)。
《新理財》:如您談到,數(shù)據(jù)科學(xué)家是發(fā)現(xiàn)大數(shù)據(jù)價值的核心人才,在中國怎樣尋找像數(shù)據(jù)科學(xué)家這樣的數(shù)據(jù)分析人才?
寶立明:數(shù)據(jù)科學(xué)家是全新的崗位,對基于數(shù)據(jù)決策的企業(yè)非常重要,而其目前人才很稀缺。我們需要尋找在實驗科學(xué)方面具備一定基礎(chǔ)的人員,例如應(yīng)用物理學(xué)、應(yīng)用化學(xué)或社會科學(xué)專業(yè)的人員。總體來看,他們必須具備如下的特質(zhì):
好奇心。數(shù)據(jù)科學(xué)家應(yīng)該天生和數(shù)據(jù)打交道,會從不同角度看數(shù)據(jù)。
經(jīng)驗和直覺。從什么地方開始著手了解數(shù)據(jù),需要經(jīng)驗和直覺。
設(shè)計實驗的場景。知道如何虛擬和假設(shè)場景,具備分析這些數(shù)據(jù)以及其中原因的能力。
掌握統(tǒng)計學(xué)知識。實際上,很多人統(tǒng)計知識非常弱,甚至不清楚關(guān)聯(lián)關(guān)系、數(shù)據(jù)價值以及抽樣等。
數(shù)據(jù)挖掘能力。具備預(yù)測未來的知識和能力。
強大的溝通能力。有能力不用數(shù)學(xué)語言,而是用商業(yè)語言同別人交流溝通。
所以,數(shù)據(jù)科學(xué)家將是技術(shù)和商業(yè)人才的綜合體。在商業(yè)方面有很強的知識,對于技術(shù)有很深的感知,同時能夠很快接受這些技術(shù)。數(shù)據(jù)科學(xué)家可以貢獻出相應(yīng)數(shù)據(jù)的分析結(jié)果,讓決策者利用數(shù)據(jù)科學(xué)家的分析結(jié)果做出相應(yīng)的管理決策。
政府?dāng)?shù)據(jù)大有作為
《新理財》:現(xiàn)在大數(shù)據(jù)在企業(yè)領(lǐng)域已經(jīng)展開了比較廣泛的應(yīng)用,在有些政府部門實際上尚未足夠重視大數(shù)據(jù)。如何讓政府部門也積極參與進來?
寶立明:首先,在談到大數(shù)據(jù)的時候要非常謹慎,只有非傳統(tǒng)結(jié)構(gòu)性的數(shù)據(jù)才能夠被稱為大數(shù)據(jù)。的確,有很多政府部門是擁有大數(shù)據(jù)的,比如像美國的國土安全部就接觸到大量的大數(shù)據(jù),因為國土安全部收集的數(shù)據(jù),包括很多視頻或者網(wǎng)絡(luò)瀏覽點擊的數(shù)據(jù)等。Teradata提供了很多相應(yīng)的技術(shù)支持政府部門使用大數(shù)據(jù)。
另外,交通運輸部門也是一個普遍使用大數(shù)據(jù)的政府部門,例如在新加坡,我們已經(jīng)幫助新加坡地鐵運營系統(tǒng)實現(xiàn)地鐵、公交、出租車系統(tǒng)的數(shù)據(jù)收集。在軌道交通中安裝了越來越多的傳感器等,它們發(fā)回的這些數(shù)據(jù),其中包括交通流量,還有使用出租車、火車或者地鐵、公交車的各種頻次、使用的習(xí)慣等大量的數(shù)據(jù),這些數(shù)據(jù)都是需要收集起來做大數(shù)據(jù)分析的。
在醫(yī)療領(lǐng)域,我們也同樣會涉及到大數(shù)據(jù)。因為醫(yī)療部門的數(shù)據(jù)既包括傳統(tǒng)性的結(jié)構(gòu)數(shù)據(jù),也包括大數(shù)據(jù),如實驗室的結(jié)果、DNA的數(shù)據(jù)、醫(yī)學(xué)傳感器的數(shù)據(jù)等,這些都是需要進行分析的。Teradata在這方面也是投入很多,聯(lián)合政府幫助醫(yī)療部門提高醫(yī)療質(zhì)量,同時降低成本。同時,提高質(zhì)量和降低成本必須雙管齊下,必須要在保證質(zhì)量的同時降低成本,而這方面要想能夠行之有效就只能依靠數(shù)據(jù)和數(shù)據(jù)分析。