国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談大數(shù)據(jù)及大數(shù)據(jù)分析

2018-11-01 05:19呂躍超
電腦知識(shí)與技術(shù) 2018年18期
關(guān)鍵詞:大數(shù)據(jù)

呂躍超

摘要:認(rèn)識(shí)當(dāng)今的大數(shù)據(jù)環(huán)境、新型分析方法的基本原理和商機(jī)、所需的角色,以及垂直行業(yè)中具有代表性的大數(shù)據(jù)分析示例。明確大數(shù)據(jù),高級(jí)分析的四大業(yè)務(wù)驅(qū)動(dòng)因素,區(qū)分用于業(yè)務(wù)智能與用于數(shù)據(jù)科學(xué)的方法,描述數(shù)據(jù)科學(xué)家在新型大數(shù)據(jù)生態(tài)系統(tǒng)內(nèi)的角色。

關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu);數(shù)據(jù)存儲(chǔ)庫(kù)

中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)18-0001-02

人類(lèi)已經(jīng)進(jìn)入了信息時(shí)代,大數(shù)據(jù)將要融入人們的生活,那么什么是大數(shù)據(jù)?數(shù)據(jù)何以成為“大”數(shù)據(jù)?“大數(shù)據(jù)”是指數(shù)據(jù)的規(guī)模、分布、多樣性或時(shí)效性要求必須使用新型技術(shù)體系結(jié)構(gòu)和分析,以發(fā)掘新的業(yè)務(wù)價(jià)值源。

1 大數(shù)據(jù)的特征

大數(shù)據(jù)具有多項(xiàng)特征,其中3項(xiàng)較為突出,可作為界定特征:

1)巨大的數(shù)據(jù)量。

2)數(shù)據(jù)類(lèi)型和結(jié)構(gòu)的復(fù)雜性,非結(jié)構(gòu)化數(shù)據(jù)量與日俱增(現(xiàn)存數(shù)據(jù)中的 80%-90% 為非結(jié)構(gòu)化數(shù)據(jù))。

3)生成新數(shù)據(jù)的速度快。

此外,由于這類(lèi)數(shù)據(jù)規(guī)模過(guò)大或結(jié)構(gòu)層次過(guò)于復(fù)雜,因此僅采用傳統(tǒng)的數(shù)據(jù)庫(kù)或方法無(wú)法高效地對(duì)其進(jìn)行分析。

新興的大數(shù)據(jù)商機(jī)和解決方案數(shù)不勝數(shù)。這里列舉其中幾個(gè):Netflix 為您的下一次影碟租賃提供建議,通過(guò)動(dòng)態(tài)監(jiān)視橋體內(nèi)嵌的傳感器來(lái)檢測(cè)實(shí)時(shí)應(yīng)力和長(zhǎng)期腐蝕,零售商通過(guò)分析數(shù)字視頻流來(lái)優(yōu)化產(chǎn)品布局和顯示布局及各個(gè)商店的促銷(xiāo)空間,以上是大數(shù)據(jù)如何滲透到我們當(dāng)今生活的一些真實(shí)示例。

這些種類(lèi)的大數(shù)據(jù)問(wèn)題需要采用新的工具或技術(shù)來(lái)進(jìn)行存儲(chǔ)、管理以及實(shí)現(xiàn)業(yè)務(wù)優(yōu)化。此類(lèi)數(shù)據(jù)所需的新體系結(jié)構(gòu)由新工具、流程和規(guī)程提供支持,從而幫助組織創(chuàng)建、操作和管理這些極為龐大的數(shù)據(jù)集以及用于承載這些數(shù)據(jù)集的存儲(chǔ)環(huán)境。

2 大數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)

大數(shù)據(jù)表現(xiàn)為多種形式。從高度結(jié)構(gòu)化的金融數(shù)據(jù)到文本文件,再到多媒體文件和遺傳作圖,大數(shù)據(jù)幾乎無(wú)所不包。巨大的數(shù)據(jù)量是大數(shù)據(jù)一貫的特征。鑒于數(shù)據(jù)本身的復(fù)雜性,由此得出的必然結(jié)果是,首選的大數(shù)據(jù)處理方法是在并行計(jì)算環(huán)境中使用大規(guī)模并行處理(MPP),從而實(shí)現(xiàn)同時(shí)進(jìn)行并行接收以及數(shù)據(jù)加載和分析。大多數(shù)大數(shù)據(jù)在本質(zhì)上是非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),因此要求采用不同的方法和工具進(jìn)行處理和分析。

讓我們來(lái)詳細(xì)了解一下最顯著的特征大數(shù)據(jù)的結(jié)構(gòu),如圖1所示。

圖1顯示了不同類(lèi)型的數(shù)據(jù)結(jié)構(gòu),未來(lái) 80%-90% 的數(shù)據(jù)增長(zhǎng)將來(lái)自非結(jié)構(gòu)化數(shù)據(jù)類(lèi)型(半結(jié)構(gòu)化、準(zhǔn)結(jié)構(gòu)化和非結(jié)構(gòu)化)。

盡管圖1中顯示了四種不同的單獨(dú)數(shù)據(jù)類(lèi)型,但事實(shí)上,它們有時(shí)可能會(huì)混雜在一起。例如,您可能有一個(gè)用于存儲(chǔ)某軟件支持呼叫中心的呼叫日志的典型 RDBMS。這種情況下,您可能具有日期/時(shí)間戳、機(jī)器類(lèi)型、問(wèn)題類(lèi)型、操作系統(tǒng)等典型的結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)可能由支持服務(wù)臺(tái)人員通過(guò)下拉菜單 GUI 完成輸入。

此外,您還可能具有非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),例如取自問(wèn)題的電子郵件票據(jù)或技術(shù)問(wèn)題和解決方案的實(shí)際電話(huà)呼叫描述的自由格式呼叫日志數(shù)據(jù)。最重要的信息往往隱藏在這些數(shù)據(jù)中。另一種可能性是可能與結(jié)構(gòu)化數(shù)據(jù)相關(guān)聯(lián)的實(shí)際呼叫的語(yǔ)音記錄或音頻文稿。直到最近,大多數(shù)分析師還無(wú)法對(duì)此呼叫日志歷史記錄 RDBMS 中最常見(jiàn)和高度結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析,因?yàn)槲谋拘畔⒌耐诰蛐枰馁M(fèi)大量勞力,而且難以實(shí)現(xiàn)自動(dòng)運(yùn)行。

3 大數(shù)據(jù)四種主要的數(shù)據(jù)結(jié)構(gòu)類(lèi)型

人們最熟悉的往往是分析結(jié)構(gòu)化數(shù)據(jù),而半結(jié)構(gòu)化數(shù)據(jù)(在此處顯示為 XML)、準(zhǔn)結(jié)構(gòu)化數(shù)據(jù)(顯示為點(diǎn)擊流字符串)和非結(jié)構(gòu)化數(shù)據(jù)則帶來(lái)不同的挑戰(zhàn),并且需要使用不同的方法進(jìn)行分析。

對(duì)每種數(shù)據(jù)類(lèi)型,回答下列問(wèn)題:

1)對(duì)這些數(shù)據(jù)執(zhí)行哪些類(lèi)型的分析?

2)誰(shuí)將分析此類(lèi)數(shù)據(jù)?

3)它們分別適合什么類(lèi)型的數(shù)據(jù)存儲(chǔ)庫(kù),或者,存儲(chǔ)這類(lèi)數(shù)據(jù)以及對(duì)其執(zhí)行編錄可能有哪些要求?

4)誰(shuí)將使用這些數(shù)據(jù)?

5)誰(shuí)將管理并擁有這些數(shù)據(jù)?

4 分析師眼中的數(shù)據(jù)存儲(chǔ)庫(kù)

人們對(duì)電子表格往往愛(ài)恨交加。隨著電子表格的引入,業(yè)務(wù)用戶(hù)能夠?qū)Σ捎眯泻土薪Y(jié)構(gòu)的數(shù)據(jù)創(chuàng)建簡(jiǎn)單的邏輯,并針對(duì)業(yè)務(wù)問(wèn)題創(chuàng)建自己的分析。用戶(hù)無(wú)須進(jìn)行大量數(shù)據(jù)庫(kù)管理員方面的培訓(xùn)即可創(chuàng)建電子表格,這意味著業(yè)務(wù)用戶(hù)不必依賴(lài) IT 團(tuán)隊(duì)即可快速建立電子表格。電子表格的兩項(xiàng)主要好處是:它們可輕松進(jìn)行共享,并且終端用戶(hù)對(duì)涉及的邏輯擁有控制權(quán)。但是,電子表格的激增導(dǎo)致組織不得不面臨“多個(gè)事實(shí)版本”的困境,也就是說(shuō),無(wú)法確定您所擁有的電子表格是否是包含了最新數(shù)據(jù)和邏輯的正確版本。而且,一旦用戶(hù)丟失了筆記本電腦或電子表格出現(xiàn)損壞,這些數(shù)據(jù)及其邏輯就煙消云散了。許多組織至今仍在面臨這一挑戰(zhàn)(Excel 依然遍布在全球成百上千萬(wàn)臺(tái) PC 上),這也增加了集中管理數(shù)據(jù)的必要性。

隨著數(shù)據(jù)需求的不斷增長(zhǎng),Oracle、Teradata 和 Microsoft(通過(guò) SQL Server)等公司提供了可擴(kuò)展性更強(qiáng)的數(shù)據(jù)倉(cāng)庫(kù)解決方案。這些技術(shù)實(shí)現(xiàn)了數(shù)據(jù)的集中管理,從而提供了安全性、故障切換,以及依靠單一存儲(chǔ)庫(kù)即可讓用戶(hù)獲得用于財(cái)務(wù)報(bào)告或其他關(guān)鍵型任務(wù)的“官方”數(shù)據(jù)源等好處。這一結(jié)構(gòu)還能支持創(chuàng)建 OLAP 多維數(shù)據(jù)集和業(yè)務(wù)智能分析工具,從而為用戶(hù)提供快速訪(fǎng)問(wèn)此 RDBMS 內(nèi)的多維數(shù)據(jù),以及查找答案以簡(jiǎn)化報(bào)告需求的能力。一些供應(yīng)商還打包了更先進(jìn)的邏輯以及執(zhí)行更深入的分析方法(例如回歸和神經(jīng)網(wǎng)絡(luò)等)的功能。

企業(yè)數(shù)據(jù)倉(cāng)庫(kù)(EDW)對(duì)于報(bào)告任務(wù)和業(yè)務(wù)智能(BI)任務(wù)而言至關(guān)重要,盡管從分析師的角度而言,它們往往會(huì)限制數(shù)據(jù)分析師在執(zhí)行穩(wěn)健分析或數(shù)據(jù)探究時(shí)的靈活性。在此模型中,數(shù)據(jù)由 IT 團(tuán)隊(duì)和數(shù)據(jù)庫(kù)管理員管理和控制,分析師必須依賴(lài) IT 部門(mén)提供訪(fǎng)問(wèn)權(quán)并進(jìn)行數(shù)據(jù)架構(gòu)的更改。這種更嚴(yán)格的控制和監(jiān)督也意味著分析師獲取數(shù)據(jù)(通常必須從多個(gè)源獲取數(shù)據(jù))的周期時(shí)間更長(zhǎng)。另一項(xiàng)影響是,EDW 規(guī)則會(huì)限制分析師構(gòu)建數(shù)據(jù)集,這將導(dǎo)致組織內(nèi)出現(xiàn)影子系統(tǒng),這些影子系統(tǒng)包含用于構(gòu)建分析數(shù)據(jù)集的關(guān)鍵數(shù)據(jù),并由超級(jí)用戶(hù)在本地進(jìn)行管理。

分析沙盒可使用數(shù)據(jù)庫(kù)內(nèi)處理實(shí)現(xiàn)高性能計(jì)算。此方法將與組織內(nèi)的多個(gè)數(shù)據(jù)源建立關(guān)系,并可為分析師節(jié)省以單獨(dú)方式創(chuàng)建這些數(shù)據(jù)饋送的時(shí)間。用于深入分析的數(shù)據(jù)庫(kù)內(nèi)處理可縮短開(kāi)發(fā)和執(zhí)行新分析模型所需的周轉(zhuǎn)時(shí)間,同時(shí)降低(盡管無(wú)法完全消除)與在本地“影子”文件系統(tǒng)中存儲(chǔ)的數(shù)據(jù)相關(guān)的成本。此外,與 EDW 中典型的結(jié)構(gòu)化數(shù)據(jù)不同,分析沙盒可容納更多數(shù)據(jù)種類(lèi),例如,網(wǎng)絡(luò)大規(guī)模(Webscale)數(shù)據(jù)、原始數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

參考文獻(xiàn):

[1] EMC. 網(wǎng)絡(luò)存儲(chǔ)培訓(xùn)課件PPT[R]. 美國(guó):EMC公司, 2012.

猜你喜歡
大數(shù)據(jù)
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書(shū)出版的影響和推動(dòng)作用
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶(hù)端的傳統(tǒng)媒體轉(zhuǎn)型思路
增城市| 温泉县| 会宁县| 大田县| 太仆寺旗| 泾阳县| 吉隆县| 平原县| 南宁市| 通化县| 许昌市| 四子王旗| 恩平市| 富锦市| 太和县| 丹棱县| 合阳县| 什邡市| 沙湾县| 乌鲁木齐市| 兴义市| 刚察县| 锡林浩特市| 泗水县| 惠水县| 濮阳市| 白山市| 丹棱县| 临安市| 台安县| 白玉县| 莲花县| 曲靖市| 通河县| 青铜峡市| 乐业县| 敦化市| 濮阳县| 湖北省| 安福县| 滕州市|