劉林林
(山東質(zhì)量認(rèn)證中心 山東 250014)
“大數(shù)據(jù)”在物理學(xué)、生物學(xué)等自然科學(xué)領(lǐng)域以及軍事、金融、通訊等行業(yè)存在多年,卻因?yàn)榻陙砘ヂ?lián)網(wǎng)與信息行業(yè)的發(fā)展而引起人們關(guān)注。大數(shù)據(jù)在以Google、IBM、Amazon等為代表的互聯(lián)網(wǎng)與信息公司快速應(yīng)用發(fā)展,逐步蔓延到越來越多的金融、電力、通訊等傳統(tǒng)行業(yè),這些公司和行業(yè)從不同的維度進(jìn)行數(shù)據(jù)挖掘和分析,創(chuàng)造出更多的商業(yè)模式和經(jīng)濟(jì)增長(zhǎng)點(diǎn)。
大數(shù)據(jù)的價(jià)值不僅僅局限于它的初始收集目的,而在于收集后可以用于其他用途并可重復(fù)使用。目前,包括美國在內(nèi)的許多國家,都將大數(shù)據(jù)分析管理上升到國家戰(zhàn)略層面,從國家層面通盤考慮其發(fā)展戰(zhàn)略。
目前,可以依據(jù)不同的需求,從以下三個(gè)角度將大數(shù)據(jù)分析進(jìn)行分類。
以數(shù)據(jù)分析的實(shí)時(shí)性分類,可分為實(shí)時(shí)數(shù)據(jù)分析和離線數(shù)據(jù)分析。
“即時(shí)處理”是實(shí)時(shí)數(shù)據(jù)分析的主要特點(diǎn)。實(shí)時(shí)數(shù)據(jù)分析一般用于金融、移動(dòng)和互聯(lián)網(wǎng)B2C等產(chǎn)品,往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達(dá)到不影響用戶體驗(yàn)的目的。要滿足這樣的需求,可以采用精心設(shè)計(jì)的傳統(tǒng)關(guān)系型數(shù)據(jù)庫組成并行處理集群,或者采用一些內(nèi)存計(jì)算平臺(tái),或者采用 HDD的架構(gòu),這些無疑都需要比較高的軟硬件成本。目前比較新的海量數(shù)據(jù)實(shí)時(shí)分析工具有EMC的Greenplum、SAP的HANA等。
“先收集,后分析”是離線數(shù)據(jù)分析的主要特點(diǎn)。對(duì)于大多數(shù)反饋時(shí)間要求不是那么苛刻的應(yīng)用,比如離線統(tǒng)計(jì)分析、搜索引擎的反向索引計(jì)算、推薦引擎的計(jì)算等,應(yīng)采用離線分析的方式,通過數(shù)據(jù)采集工具將日志數(shù)據(jù)導(dǎo)入專用的分析平臺(tái)。但面對(duì)海量數(shù)據(jù),傳統(tǒng)的ETL工具往往徹底失效,主要原因是數(shù)據(jù)格式轉(zhuǎn)換的開銷太大,在性能上無法滿足海量數(shù)據(jù)的采集需求。互聯(lián)網(wǎng)企業(yè)的海量數(shù)據(jù)采集工具,有 Facebook開源的Scribe、LinkedIn開源的Kafka、Hadoop的Chukwa等,均可以滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求,并將這些數(shù)據(jù)上載到Hadoop中央系統(tǒng)上。
在實(shí)際應(yīng)用中由于業(yè)務(wù)需求的不同,數(shù)據(jù)分析的算法也差異巨大,而數(shù)據(jù)分析的算法復(fù)雜度和架構(gòu)是緊密關(guān)聯(lián)的。舉個(gè)例子,Redis是一個(gè)性能非常高的內(nèi)存Key-Value NoSQL,它支持List和Set、SortedSet等簡(jiǎn)單集合,如果你的數(shù)據(jù)分析需求簡(jiǎn)單地通過排序,鏈表就可以解決,同時(shí)總的數(shù)據(jù)量不大于內(nèi)存(準(zhǔn)確地說是內(nèi)存加上虛擬內(nèi)存再除以 2),那么無疑使用Redis會(huì)達(dá)到非常驚人的分析性能。
對(duì)于大多數(shù)統(tǒng)計(jì)分析,機(jī)器學(xué)習(xí)問題可以用 MapReduce算法改寫。MapReduce目前最擅長(zhǎng)的計(jì)算領(lǐng)域有流量統(tǒng)計(jì)、推薦引擎、趨勢(shì)分析、用戶行為分析、數(shù)據(jù)挖掘分類器、分布式索引等。
以數(shù)據(jù)量大小分類,分為內(nèi)存級(jí)別、BI級(jí)別、海量級(jí)別三種。這里的內(nèi)存級(jí)別指的是數(shù)據(jù)量不超過集群的內(nèi)存最大值。目前內(nèi)存的容量,如Facebook緩存在內(nèi)存的Memcached中的數(shù)據(jù)高達(dá)320TB,即使PC服務(wù)器,內(nèi)存也可以超過百GB。因此可以采用一些內(nèi)存數(shù)據(jù)庫,將熱點(diǎn)數(shù)據(jù)常駐內(nèi)存之中,從而取得非常快速的分析能力,非常適合實(shí)時(shí)分析業(yè)務(wù)。
BI級(jí)別指的是那些對(duì)于內(nèi)存來說太大的數(shù)據(jù)量,但一般可以將其放入傳統(tǒng)的BI產(chǎn)品和專門設(shè)計(jì)的BI數(shù)據(jù)庫之中進(jìn)行分析。目前主流的BI產(chǎn)品都有支持TB級(jí)以上的數(shù)據(jù)分析方案。海量級(jí)別指的是對(duì)于數(shù)據(jù)庫和BI產(chǎn)品已經(jīng)完全失效或者成本過高的數(shù)據(jù)量。海量數(shù)據(jù)級(jí)別的優(yōu)秀企業(yè)級(jí)產(chǎn)品也有很多,但基于軟硬件的成本原因,目前大多數(shù)互聯(lián)網(wǎng)企業(yè)采用Hadoop的HDFS分布式文件系統(tǒng)來存儲(chǔ)數(shù)據(jù),并使用MapReduce進(jìn)行分析。
今年年初,在美國召開的RSA2013大會(huì)結(jié)束以來,大數(shù)據(jù)安全已經(jīng)成了今年業(yè)界關(guān)注的熱點(diǎn)。眾多安全廠商都發(fā)布了大數(shù)據(jù)安全戰(zhàn)略,將大數(shù)據(jù)安全作為未來研發(fā)的重點(diǎn)。目前,從信息安全的角度看,大數(shù)據(jù)安全主要體現(xiàn)在以下五個(gè)方面:
大量的數(shù)據(jù)產(chǎn)生、存儲(chǔ)和分析,數(shù)據(jù)保密問題將在未來幾年內(nèi)成為一個(gè)更大的問題。對(duì)一個(gè)企業(yè)在數(shù)據(jù)存儲(chǔ)和部署的時(shí)候,有些時(shí)候容易交叉存儲(chǔ),把敏感信息一不小心部署到公開的或者不應(yīng)該部署到服務(wù)器上,更容易加大隱私的泄漏。企業(yè)必須盡快開始規(guī)劃新的數(shù)據(jù)保護(hù),同時(shí)監(jiān)測(cè)進(jìn)一步的立法和監(jiān)管的發(fā)展。
隨著越來越多的交易、對(duì)話、互動(dòng)和數(shù)據(jù)在網(wǎng)上進(jìn)行,這種刺激使得網(wǎng)絡(luò)犯罪分子比以往任何時(shí)候都要猖獗。今天的網(wǎng)絡(luò)犯罪分子都組織得更好、更專業(yè),并具備有力的工具和能力,以針對(duì)確定的目標(biāo)進(jìn)行攻擊。這種攻擊產(chǎn)生的后果,對(duì)企業(yè)可能意味著聲譽(yù)受損,法律責(zé)任,甚至財(cái)政破產(chǎn)。從近兩年所發(fā)生的一些互聯(lián)網(wǎng)公司的用戶帳號(hào)的信息失竊情況來看,大家可以發(fā)現(xiàn),一般失竊的量都是非常龐大的。大數(shù)據(jù)當(dāng)中數(shù)據(jù)量比較大,它的信息量也比較大,攻擊成本低,所以黑客更加樂意去攻擊。
攜手大數(shù)據(jù)的增長(zhǎng)的是新的移動(dòng)設(shè)備使用范圍的擴(kuò)大,用于收集、存儲(chǔ)、訪問和數(shù)據(jù)傳輸。企業(yè)現(xiàn)在面臨的企業(yè)員工在工作場(chǎng)所使用個(gè)人設(shè)備的安全管理挑戰(zhàn),必須平衡安全與生產(chǎn)力的需要。對(duì)員工習(xí)慣、使用痕跡的收集是企業(yè)信息安全重大威脅,尤其是當(dāng)這些混合了家庭和工作數(shù)據(jù)。企業(yè)應(yīng)當(dāng)確保其雇員接受相關(guān)的個(gè)人設(shè)備使用政策,并繼續(xù)在符合其既定的安全政策下管理移動(dòng)設(shè)備。
企業(yè)必須迅速采用和實(shí)施新技術(shù)的壓力,比如云服務(wù)。經(jīng)常面臨大數(shù)據(jù)的具有挑戰(zhàn)性的存儲(chǔ)和處理的需求。而這其中包含了不可預(yù)見的風(fēng)險(xiǎn)和意想不到的后果。在云中的大數(shù)據(jù)對(duì)于網(wǎng)絡(luò)犯罪分子來說,是一個(gè)極具吸引力的攻擊目標(biāo)。這對(duì)企業(yè)來說提出了更多的需求,他們必須采購戰(zhàn)略正確的安全的云。
隨著安全風(fēng)險(xiǎn)的越來越復(fù)雜,企業(yè)在應(yīng)對(duì)這些安全風(fēng)險(xiǎn)時(shí)越發(fā)感到吃力。大數(shù)據(jù)安全既包括對(duì)大數(shù)據(jù)本身的安全保護(hù),也包括通過對(duì)大數(shù)據(jù)的搜集、整合和分析,提供更多更好的安全情報(bào)。用戶將數(shù)據(jù)上傳到云,或從云中下載數(shù)據(jù)時(shí),都需要掃描和屏蔽惡意數(shù)據(jù);在云中,也需要通過定時(shí)掃描,檢查和屏蔽惡意數(shù)據(jù)。企業(yè)或個(gè)人應(yīng)樹立良好的大數(shù)據(jù)信息安全觀念,降低風(fēng)險(xiǎn),減少損失。
[1]覃雄派;王會(huì)舉;杜小勇;王珊.大數(shù)據(jù)分析——RDBMS與MapReduce的競(jìng)爭(zhēng)與共生. 軟件學(xué)報(bào).2012年01期.
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2013年12期