記者:目前大數(shù)據(jù)主要在哪些業(yè)務(wù)上得到應(yīng)用?
連晉波:數(shù)據(jù)在許多產(chǎn)業(yè)已使用了多年, 如金融業(yè)制定投資策略、網(wǎng)上交易平臺在已經(jīng)建立的分析基礎(chǔ)上推薦引擎、航空和保險行業(yè)使用分析來制定定價優(yōu)化模型、保險公司用于分析開發(fā)風(fēng)險評估模型、零售和投資領(lǐng)域、網(wǎng)絡(luò)行為分析等等。
EMC公司贊助了人類所面臨的大數(shù)據(jù)項目是一個全球性大眾媒體項目,專注于人類的新的實時收集、分析、印證和海量數(shù)據(jù)的可視化能力。該項目設(shè)有超過200個大數(shù)據(jù)是如何改變我們的生活的故事。
記者:您認(rèn)為大數(shù)據(jù)在媒體行業(yè)可以有何作為?
連晉波:大數(shù)據(jù)技術(shù)在媒體行業(yè)將大有作為,特別是全媒體時代。 除我們熟識的媒體數(shù)據(jù)管理、內(nèi)容分發(fā)等外,通過龐大的受眾,可以廣泛應(yīng)用到如 用戶行為分析、輿情分析、社會熱點分析和預(yù)測等等,通過大數(shù)據(jù)分析,新聞傳播、內(nèi)容推送將更有針對性,更精準(zhǔn),這些都是具有重大的政治和經(jīng)濟(jì)意義。
另外,通過大數(shù)據(jù)技術(shù),將幫助傳統(tǒng)媒體客戶增強(qiáng)競爭力和快速轉(zhuǎn)型。
記者:技術(shù)上,引入大數(shù)據(jù)需要在系統(tǒng)架構(gòu)上解決哪幾個方面的關(guān)鍵問題?
連晉波:大數(shù)據(jù)時代需要新的架構(gòu),主要在4個方面:
◎ 首先,建立一個向外擴(kuò)展(Scale-out)的存儲基礎(chǔ)設(shè)施,輕松管理PB級別的數(shù)據(jù),如Isilon集群存儲系統(tǒng),可以輕松管理單一文件系統(tǒng)達(dá)到20PB、實現(xiàn)100GB/s的吞吐能力。同時處理結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的大規(guī)模并行處理平臺?!?這里包含了并行處理大數(shù)據(jù)和處理快數(shù)據(jù)的能力。在Pivotal架構(gòu)中Greenplum和Gemfire分別承擔(dān)了類似的功能?!?大數(shù)據(jù)要求一種新的學(xué)科: 數(shù)據(jù)科學(xué)。傳統(tǒng)的BI專注于現(xiàn)有的數(shù)據(jù)管理和報告,目的是監(jiān)控和管理企業(yè)內(nèi)部。而新的數(shù)據(jù)科學(xué)應(yīng)用先進(jìn)的分析工具和算法來生成預(yù)測的見解和新的產(chǎn)品創(chuàng)新。◎ 敏捷的分析應(yīng)用。大數(shù)據(jù)應(yīng)用與以往不同,主要為移動設(shè)備訪問和社交網(wǎng)絡(luò)設(shè)計;必須使用新的框架靈活快速建立應(yīng)用;部署于云計算和虛擬化環(huán)境。
記者:海量信息分析平臺(greenplum)具有哪些特點?
連晉波:公司的Greenplum產(chǎn)品 通過提供可轉(zhuǎn)變組織數(shù)據(jù)使用方式的完整技術(shù)和服務(wù)平臺,推動著大數(shù)據(jù)分析的未來發(fā)展。目前已經(jīng)整合加入Pivotal框架中?!?Greenplum Database:利用行業(yè)領(lǐng)先的大規(guī)模并行處理 (MPP)數(shù)據(jù)庫,該數(shù)據(jù)庫旨在支持新一代大數(shù)據(jù)倉庫存儲和分析,并且能夠存儲和分析PB級別的數(shù)據(jù)。 ◎ Greenplum HD:實現(xiàn)創(chuàng)新,例如實時數(shù)據(jù)交互、更高的可靠性以及更簡單 Hadoop 部署和使用。 ◎ Greenplum Data Computing Appliance:通過業(yè)內(nèi)第一款完整大數(shù)據(jù)分析平臺的革命性模塊化體系結(jié)構(gòu),將無共享的MPP關(guān)系數(shù)據(jù)庫與企業(yè)級Apache Hadoop結(jié)合在一起。 ◎ Greenplum MR: Greenplum推出的MapR Apache Hadoop M5版本產(chǎn)品包提供了高性能 Hadoop平臺?!?/p>