涂蘭敬
2014年中秋佳節(jié)降至,不管是饋贈親朋好友還是自己食用,選擇什么品牌的月餅都成為很多人重點考慮的問題。8月底,中國統(tǒng)計信息服務中心(CSISC)大數(shù)據(jù)研究實驗室發(fā)布了《2014年中國月餅品牌口碑研究報告》。該報告從品牌知名度、消費者互動度、質量認可度、企業(yè)美譽度、產(chǎn)品好評度、品牌健康度等6個維度評析今年月餅品牌口碑的優(yōu)劣。
不得不說,CSISC這份在大數(shù)據(jù)架構下統(tǒng)計出來的報告為人們購買月餅提供了重要的參考,而從月餅企業(yè)的角度來說也為其品牌聲譽管理提供了很好的參考方向。很顯然,從前幾年“尿布和啤酒”的案例到現(xiàn)在月餅品牌口碑的報告,大數(shù)據(jù)技術正從外來的概念走向更實際的本地應用。
大數(shù)據(jù)技術背后的推動力
幾年前還有很多人心存擔憂,大數(shù)據(jù)會不會又是一次IT概念的炒作。而現(xiàn)在,記者發(fā)現(xiàn),以Hadoop為代表的大數(shù)據(jù)技術HDFS和Mapreduce,還有其開源組件Hbase和Hive等一些大數(shù)據(jù)開源技術逐漸被開發(fā)者廣泛學習和應用起來。IDC發(fā)布的Hadoop軟件生態(tài)系統(tǒng)預測報告顯示,Hadoop市場正在以60%的年復合增長率高速擴張。IDC預計,到2016年,該市場規(guī)模將快速增長至8.13億美元。
事實上,大數(shù)據(jù)存在于人們?nèi)粘OM、溝通和使用移動互聯(lián)網(wǎng)的過程。人們不斷制造數(shù)據(jù),然后消費數(shù)據(jù),從數(shù)據(jù)中獲得價值,再不斷推動大數(shù)據(jù)技術需求突飛猛進的發(fā)展??梢哉f,大數(shù)據(jù)技術是數(shù)據(jù)驅動的,與此同時,大數(shù)據(jù)分析的結果反過來又在不斷地制造數(shù)據(jù)。
SAS軟件研究開發(fā)(北京)有限公司總經(jīng)理劉政表示,大數(shù)據(jù)技術正好滿足了當下人們對于數(shù)據(jù)分析的需求。劉政指出,互聯(lián)網(wǎng)時代之前已經(jīng)經(jīng)歷過大量業(yè)務數(shù)據(jù)積累的過程,而電子商務的成熟,社交媒體和移動互聯(lián)網(wǎng)的興起和制造業(yè)傳感設備的廣泛部署,一起觸發(fā)了大數(shù)據(jù)的爆炸式增長。這種爆炸式增長促進了大數(shù)據(jù)分析能力的提升,同時推動了大眾行為模式和消費模式的改變,進而推動商業(yè)模式的改變。
星環(huán)信息科技(上海)有限公司CTO孫元浩認為,之所以以Hadoop為代表的大數(shù)據(jù)技術獲得廣泛關注主要是因為其技術上的先進性。這類技術較好地解決了大規(guī)模系統(tǒng)的擴展性、高性能和高可用性難題,這是大型公司特別是大規(guī)?;ヂ?lián)網(wǎng)公司急需解決的問題。
從技術角度來看,推動這些大數(shù)據(jù)技術從誕生到成熟的主要驅動力還是企業(yè)的真實需求。從商業(yè)角度來看,互聯(lián)網(wǎng)時代知識傳播速度的加快讓更多的人獲知這些新技術,開源社區(qū)的發(fā)展也讓更多人可以參與到新技術的發(fā)展過程中來,同時,資本的力量也在推動這些新技術快速地走向成熟并商業(yè)化。
云基地大數(shù)據(jù)公司高級咨詢經(jīng)理馮大志提出兩點看法。一方面,Hadoop突出的分布式存儲和計算能力,對于傳統(tǒng)企業(yè)而言,增加了其數(shù)據(jù)挖掘所能處理的數(shù)據(jù)規(guī)模和效率。馮大志舉例說,國內(nèi)某知名保險公司,針對近一億客戶實現(xiàn)了全量的客戶分群、客戶流失模型的建立,針對保險產(chǎn)品相關性的分析,都建立在全量數(shù)據(jù)的分析基礎上。另外,相對于傳統(tǒng)的存儲、小型機、關系型數(shù)據(jù)庫的組合中,在不考慮維護成本的前提下,以Hadoop為代表的大數(shù)據(jù)技術確實具備了一定的性能優(yōu)勢和價格優(yōu)勢。
據(jù)馮大志透露,國內(nèi)某省移動公司的經(jīng)分系統(tǒng)是一套由幾十臺小型機構成具有近百個節(jié)點的大型數(shù)據(jù)倉庫系統(tǒng),不論系統(tǒng)本身的造價還是運維成本都相當高昂。馮大志認為,這么龐大的系統(tǒng)對于傳統(tǒng)的技術體系和價格體系是個雙重挑戰(zhàn)。
大數(shù)據(jù)的價值不止是技術
北大方正輿情產(chǎn)品總經(jīng)理李崇綱多年來專注于網(wǎng)絡輿情分析技術。李崇綱表示,大數(shù)據(jù)對于輿情分析的意義,首先是從思維和工作模式上的改變,其次才是技術上的改進。
李崇綱認為,不管是政府還是企業(yè)都應該從互聯(lián)網(wǎng)公司身上學習對輿情的管理,對網(wǎng)民的意見進行分析,以互聯(lián)網(wǎng)思維對輿情進行管理。在工作模式上,利用大數(shù)據(jù)分析技術,政府和企業(yè)可以獲取更多的數(shù)據(jù)并進行可視化展現(xiàn),也能夠變革現(xiàn)有輿情的管理模式。
基于自己在工作中的親身體驗,上海證交所總工程師白碩提出,大數(shù)據(jù)開創(chuàng)了“去貴族化”的數(shù)據(jù)處理解決方案的先河。
白碩認為,傳統(tǒng)企業(yè)的IT系統(tǒng)往往存在“貴族化”特性:采購成本昂貴、維護成本昂貴、平臺遷移成本更加昂貴。過去,傳統(tǒng)企業(yè)在安全運行的巨大壓力下,只能在這種“貴族化”和那種“貴族化”間進行選擇,用“貴族化”的解決方案來彰顯程序的價值。
因此,白碩指出:“大數(shù)據(jù)技術的真正有價值,既能不斷沖擊數(shù)據(jù)處理的極限,又能普遍降低非極限情況下數(shù)據(jù)處理的性價比。
相比較來看,一些傳統(tǒng)企業(yè)的IT人員已經(jīng)用慣了IOE(IBM、Oracle和EMC)的產(chǎn)品,忽然間讓他們在開源技術基礎上做開發(fā)和操作,往往會覺得不熟悉、不習慣。而且,傳統(tǒng)企業(yè)原有數(shù)據(jù)處理的系統(tǒng)已經(jīng)運作了十幾年了,IT人員的技術范疇都還是以原有IT系統(tǒng)為核心打造的,最為主要的是各種基礎設施的生命周期還非常長,新技術必須兼顧它們。從這個角度來看,大數(shù)據(jù)有利于祛除傳統(tǒng)企業(yè)身上的“貴族病”,更加有利于整合機構的業(yè)務、數(shù)據(jù)等資源,調動相關人員的積極性都能夠朝著價值最大化努力。
人是大數(shù)據(jù)的第一推動力
如果說,以Hadoop為代表的大數(shù)據(jù)是一頭小象,那么企業(yè)必須有能夠馴服它的馴獸師。在很多企業(yè)熱烈擁抱這類大數(shù)據(jù)技術時,精通大數(shù)據(jù)技術的相關人才也成為一個大缺口。英特爾中國研究院首席工程師吳甘沙就曾經(jīng)在一次演講中提出,人是大數(shù)據(jù)的第一推動力。
Forrester最新報告顯示,大多數(shù)公司只分析了已有數(shù)據(jù)的12%,剩余88%還沒有被充分利用。究其原因,大數(shù)據(jù)分析能力的缺乏是造成這種局面的主要原因。在這里,傳統(tǒng)企業(yè)與一些創(chuàng)新型和互聯(lián)網(wǎng)公司相比,數(shù)據(jù)分析的包袱更為沉重,大數(shù)據(jù)相關的技術人才更為缺乏。
中國民族證券信息技術部總經(jīng)理顏陽在一次沙龍上表示,該公司在2008年利用輕型化的通用硬件平臺,結合開源系統(tǒng)Greenplum構建了一個“去貴族化”的數(shù)據(jù)倉庫,成為業(yè)界的典范。但是,與此同時,顏陽也發(fā)出“累”的感嘆。
孫元浩表示,目前市場上能夠熟練運用Spark的人才都比較稀缺,因此公司不得不自己培養(yǎng)Scala程序員和Spark開發(fā)者。而劉政也表示,SAS需要復合型人才:一方面要有Hadoop領域的技術,另一方面公司強化分析和統(tǒng)計領域的專業(yè)知識,所以SAS只能堅持在項目中培養(yǎng)自己的人才。
與傳統(tǒng)企業(yè)不同,很多初創(chuàng)型公司或互聯(lián)網(wǎng)公司,它們沒有太多歷史數(shù)據(jù),核心團隊多為技術高手,因此在利用大數(shù)據(jù)技術時具有優(yōu)勢。
Teradata天睿公司大中華區(qū)大數(shù)據(jù)事業(yè)部總監(jiān)孔宇華在與多家傳統(tǒng)企業(yè)溝通時發(fā)現(xiàn),很多公司都表示已經(jīng)在用Hadoop做研究和應用,不過,還只限于存儲、預處理和一些基本的網(wǎng)頁分析。
而且,現(xiàn)在Hadoop技術發(fā)展得很快,用戶經(jīng)常會碰到新技術、新問題,需要到Hadoop開源社區(qū)去解決具體的問題,這樣,對傳統(tǒng)企業(yè)的業(yè)務需求來說進展就有些慢了。
因此,現(xiàn)在已經(jīng)有很多企業(yè)開始意識到,要想真正在Hadoop平臺上做數(shù)據(jù)分析、數(shù)據(jù)挖掘的應用,有兩種選擇,要么就是匯聚一個懂數(shù)據(jù)、懂分析、懂編程又要有技巧的技術團隊來操作,要么就是選擇某家商業(yè)公司推出的成熟的大數(shù)據(jù)平臺。