国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

從混沌理念探究AWS數(shù)據(jù)“洞察”之道

2020-05-25 09:11韓麗佳
軟件和集成電路 2020年4期
關(guān)鍵詞:無序數(shù)據(jù)倉庫洞察

韓麗佳

杜甫有詩云“昔聞洞庭水”“乾坤日夜浮”,說那洞庭湖水乾坤日月都可包容映照,此種混沌宏大的意境之美在今天的AWS“數(shù)據(jù)湖”理念上也可窺知一二。

“在當(dāng)今的企業(yè)里面,企業(yè)的信息和數(shù)據(jù)流,就是企業(yè)的血液。以數(shù)字化轉(zhuǎn)型為例,我們要知道雖然數(shù)字化轉(zhuǎn)型包含很多方面的內(nèi)容,但其中很重要的一個(gè)內(nèi)容就是企業(yè)的數(shù)據(jù)化資產(chǎn)?!盇WS首席云計(jì)算企業(yè)戰(zhàn)略顧問張俠一針見血地指出,“從數(shù)據(jù)到信息再到知識,進(jìn)而產(chǎn)生洞察力,再指導(dǎo)我們行動(dòng),這是數(shù)據(jù)的意義所在。”

讓數(shù)據(jù)產(chǎn)生其應(yīng)有的洞察力,是大多數(shù)數(shù)據(jù)解決方案的目標(biāo)。AWS數(shù)據(jù)湖方案由何產(chǎn)生?又是如何實(shí)現(xiàn)這一目標(biāo)的?

應(yīng)和了混沌哲學(xué)的數(shù)據(jù)湖理論

混沌的原意是指先于一切事物而存在的廣袤虛無的空間。

我國著名物理學(xué)家、混沌學(xué)理論創(chuàng)始人之一、中科院院士郝柏林曾指出:“混沌研究的進(jìn)展,無疑是非線性科學(xué)最重要的成就之一。它使復(fù)雜系統(tǒng)的理論開始建立在‘有限性這個(gè)更符合客觀實(shí)現(xiàn)的基礎(chǔ)之上。”并且,世界各民族幾乎都有過從混沌創(chuàng)世到有序再回歸到混沌的古老信念。

所以,是不是可以這樣認(rèn)為,我們所處的世界就是一個(gè)由無限數(shù)據(jù)組成的混沌體,其中蘊(yùn)含的真理、信息包羅萬象,我們的數(shù)據(jù)科學(xué)其實(shí)就是從這個(gè)物質(zhì)世界混沌體中剝繭抽絲,從無序中尋找有序再回歸到數(shù)字世界混沌無序的過程。

過去的數(shù)據(jù)倉庫就像一個(gè)個(gè)分類整理好的倉儲(chǔ)小格子,它是把原始數(shù)據(jù)分類、提煉、整理之后才進(jìn)行存儲(chǔ)的。這可以看做是對混沌數(shù)據(jù)進(jìn)行有序的演化階段。但是隨著數(shù)據(jù)指數(shù)生長、數(shù)據(jù)來源更多、數(shù)據(jù)更加多元化、數(shù)據(jù)的使用者更多、數(shù)據(jù)分析工具更加多樣,“有序的”數(shù)據(jù)倉庫已經(jīng)不能夠滿足需求。

“傳統(tǒng)的方法,是從ERP、CRM、LOB、OLTP或者網(wǎng)站、移動(dòng)端、傳感器等產(chǎn)生的各種各樣基層數(shù)據(jù)中整理成數(shù)據(jù)倉庫,再形成商務(wù)智能。但這種方法會(huì)導(dǎo)致所謂的數(shù)據(jù)孤島,無法滿足數(shù)據(jù)的快速增長,也無法滿足大數(shù)據(jù)數(shù)量多、速度快、類別雜、數(shù)據(jù)真、價(jià)值大五個(gè)方面的要求。”張俠說道。

混沌理論的基本觀點(diǎn)認(rèn)為:任何系統(tǒng)都有生有滅,有自己演化的起點(diǎn)和終點(diǎn),并且系統(tǒng)演化的一般模式表現(xiàn)為從無序到有序、最后又回到無序之中。所以,數(shù)據(jù)湖便應(yīng)運(yùn)而生。

數(shù)據(jù)湖里存儲(chǔ)的數(shù)據(jù)都是未經(jīng)處理的原始數(shù)據(jù),這些數(shù)據(jù)包括表格、文本、聲音、圖像等。在數(shù)據(jù)湖中可以進(jìn)行數(shù)據(jù)的處理、分析、建模、加工,處理后的數(shù)據(jù)仍然可以留在湖中。根據(jù)數(shù)據(jù)湖理念形成的數(shù)據(jù)平臺,相較于傳統(tǒng)的數(shù)據(jù)倉庫來說,顯得有些“無序”,從無序的物理世界到“有序的”數(shù)據(jù)倉庫,再到“無序的”數(shù)據(jù)湖,這恰符合混沌理論系統(tǒng)的演化規(guī)律。但我們不得不承認(rèn)這樣的數(shù)據(jù)存儲(chǔ)集才具備龐大的數(shù)據(jù)存儲(chǔ)規(guī)模、T級別的計(jì)算能力、滿足多元化的數(shù)據(jù)信息交叉分析,以及大容量、高速度的數(shù)據(jù)管道。

2011年,數(shù)據(jù)湖概念就被??怂沟囊黄恼滤榻B了,它是針對數(shù)據(jù)倉庫中的開發(fā)周期長、維護(hù)、開發(fā)成本高、丟失細(xì)節(jié)數(shù)據(jù)等不足進(jìn)行的補(bǔ)充?!皵?shù)據(jù)湖就是一個(gè)中心數(shù)據(jù)存儲(chǔ)的容器,這個(gè)容器可以存儲(chǔ)各種各樣結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),在數(shù)據(jù)量層面上,這些數(shù)據(jù)非常容易快速縮放,我們有各種方法對這些數(shù)據(jù)可以進(jìn)行查詢、分析?!睆垈b這樣闡述道。

杜甫有詩云“昔聞洞庭水”“乾坤日夜浮”,說那洞庭湖水乾坤日月都可包容映照,此種混沌宏大的意境之美在今天的AWS“數(shù)據(jù)湖”理念上也可窺知一二。

AWS數(shù)據(jù)湖中的“混沌序”

數(shù)據(jù)湖中存儲(chǔ)的數(shù)據(jù)既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù),既有各種格式的原始數(shù)據(jù),也有經(jīng)過處理之后的數(shù)據(jù),可以說是混沌的、無序的,是包容的。

雖說混沌現(xiàn)象表面是無序的,但混沌區(qū)的系統(tǒng)行為有嚴(yán)格秩序,存在精致有序的結(jié)構(gòu),正如AWS針對數(shù)據(jù)移動(dòng)、存儲(chǔ)、分析所做的產(chǎn)品服務(wù)一樣,是混沌之下的有序。這種混沌既不是簡單的無序,也不是通常意義下的有序,科學(xué)家建議將其稱為“混沌序”。

其中AWS數(shù)據(jù)湖平臺主要有三大元素:一是Amazon S3/Glacier;二是AWS Glue;三是AWS Lake Formation。目前,AWS還沒有在中國提供Lake Formation服務(wù),但是可以預(yù)見這項(xiàng)服務(wù)將來肯定會(huì)在中國上線。

Amazon S3是AWS的一個(gè)最基礎(chǔ)的云服務(wù),可以存儲(chǔ)以任何二進(jìn)位為基礎(chǔ)的任何信息,包含結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),是容納數(shù)據(jù)湖的理想場所。

“Glue是膠水的意思,代表的是不同的數(shù)據(jù)庫服務(wù)之間的連接的作用?!睆垈b形象地引出了AWS Glue的兩個(gè)主要功能。一是ETL,ETL指的是Extract、Transform和Load,意思是數(shù)據(jù)的抽取、轉(zhuǎn)換和加載;二是數(shù)據(jù)目錄服務(wù)的功能,在從客戶選擇的數(shù)據(jù)源中把數(shù)據(jù)爬取出來之后,會(huì)自動(dòng)識別數(shù)據(jù)格式和模式(schema),構(gòu)建統(tǒng)一的數(shù)據(jù)目錄,并為客戶提供所選數(shù)據(jù)的中央視圖。這使得客戶很容易跨越各種數(shù)據(jù)存儲(chǔ),檢索和管理所有數(shù)據(jù),而不必手動(dòng)搬運(yùn)它們。

關(guān)于AWS Glue的便捷程度,北京殼木軟件有限責(zé)任公司(Camel Games)服務(wù)器主管張華表示:“AWS Glue幫助我們完成了復(fù)雜的ETL任務(wù),可以從數(shù)百個(gè)Amazon RDS數(shù)據(jù)庫中定時(shí)提取所需要的數(shù)據(jù),供數(shù)據(jù)分析部門進(jìn)行迅速而直觀的全局統(tǒng)計(jì),大大縮短了原本跨表查詢的時(shí)間?!?/p>

AWS Lake Formation是一項(xiàng)全托管式服務(wù),可以在幾天內(nèi)輕松建立安全的數(shù)據(jù)湖。只需定義數(shù)據(jù)源,制定要應(yīng)用的數(shù)據(jù)訪問和安全策略,Lake Formation就會(huì)從數(shù)據(jù)庫和對象存儲(chǔ)中收集并按目錄分類數(shù)據(jù),將數(shù)據(jù)移動(dòng)到新的Amazon S3數(shù)據(jù)湖,使用機(jī)器學(xué)習(xí)算法清理和分類數(shù)據(jù),并保護(hù)對敏感數(shù)據(jù)的訪問權(quán)限。

AWS數(shù)據(jù)湖洞察力的實(shí)現(xiàn)

在上述數(shù)據(jù)湖三大元素的基礎(chǔ)上,AWS部署了一系列的產(chǎn)品和服務(wù),來實(shí)現(xiàn)數(shù)據(jù)倉庫、大數(shù)據(jù)處理、交互查詢、運(yùn)營分析、數(shù)據(jù)交換、可視化、實(shí)時(shí)分析、推薦和預(yù)測分析等功能,以達(dá)到從數(shù)據(jù)到信息再到洞察再到行動(dòng)的目標(biāo)。

在AWS數(shù)據(jù)湖平臺所包含的產(chǎn)品服務(wù)中有一個(gè)云的產(chǎn)品,叫Amazon Redshift,它是一個(gè)云的數(shù)據(jù)倉庫,容量能夠被縮放,成本也只有傳統(tǒng)的數(shù)據(jù)庫的1/10左右,讓數(shù)據(jù)在云上就能夠?qū)崿F(xiàn)從數(shù)據(jù)庫到數(shù)據(jù)倉庫的遷移。

處理實(shí)時(shí)數(shù)據(jù)的服務(wù)叫做Amazon Kinesis,該服務(wù)能幫助客戶捕獲、處理、并存儲(chǔ)視頻流以作后續(xù)分析;搭建定制的應(yīng)有分析流數(shù)據(jù);將流數(shù)據(jù)導(dǎo)入AWS上的數(shù)據(jù)存儲(chǔ)服務(wù);使用SQL分析流數(shù)據(jù)。

特別值得一提的是,3月24日,AWS宣布Amazon Athena在由西云數(shù)據(jù)運(yùn)營的AWS中國(寧夏回族自治區(qū))區(qū)域正式上線。

Amazon Athena可以幫助客戶使用標(biāo)準(zhǔn)SQL語言,輕松分析Amazon Simple Storage Service(Amazon S3)中的數(shù)據(jù)。由于Athena是一種無服務(wù)器服務(wù),因此客戶不需要管理基礎(chǔ)設(shè)施,只需為他們消耗的資源付費(fèi)。Athena可以自動(dòng)擴(kuò)展,并行執(zhí)行查詢,所以即便是大型數(shù)據(jù)集和復(fù)雜的查詢,也能很快獲得查詢結(jié)果。

Amazon Athena在輔助數(shù)據(jù)傳輸行業(yè)領(lǐng)域的發(fā)展上表現(xiàn)亮眼。以茄子快傳為例,這是一家全球化的互聯(lián)網(wǎng)科技公司,它搭建了一個(gè)數(shù)字內(nèi)容連接入口,幫助全球200多個(gè)國家和地區(qū)的用戶獲取優(yōu)質(zhì)數(shù)字內(nèi)容。茄子快傳數(shù)據(jù)運(yùn)營負(fù)責(zé)人何誠表示:“茄子快傳的數(shù)據(jù)量大,分析維度多,業(yè)務(wù)也非常復(fù)雜,所以經(jīng)常需要多維度多顆粒度的高并發(fā)分析,AWS的分析工具很好地滿足了我們?nèi)粘5臄?shù)據(jù)提取和分析需求。使用Amazon Athena,我們可以輕松地運(yùn)行交互式查詢,分析數(shù)據(jù),不必構(gòu)建和部署額外的集群。同時(shí),我們運(yùn)行新數(shù)據(jù)分析所需的時(shí)間縮短了30%,大幅減少了成本與運(yùn)維方面的風(fēng)險(xiǎn)?!?/p>

還有許多數(shù)據(jù)分析產(chǎn)品服務(wù)無法一一介紹,但至此可以看出AWS已經(jīng)形成了一套比較成熟完備的數(shù)據(jù)湖技術(shù)體系,在未來混沌的數(shù)字世界的圖景上留下來濃墨重彩的一筆。

猜你喜歡
無序數(shù)據(jù)倉庫洞察
1月,無序中仍能保有些許期待
基于數(shù)據(jù)倉庫的數(shù)據(jù)傾斜解決方案研究
云的自傳
“洞察”號探測器的火星“第一眼”
“把把脈”,測測火星的“心跳”
“洞察號”登陸火星
剪刀+穿越+迷宮+……
數(shù)據(jù)倉庫系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
遠(yuǎn)行
數(shù)據(jù)復(fù)用在存儲(chǔ)數(shù)據(jù)倉庫中的運(yùn)用
分宜县| 襄垣县| 中阳县| 东光县| 乡城县| 澎湖县| 怀柔区| 双辽市| 邛崃市| 宝山区| 岳阳县| 凭祥市| 白玉县| 汉源县| 临高县| 丹棱县| 社旗县| 和林格尔县| 厦门市| 湖口县| 盐山县| 临桂县| 乐清市| 汉沽区| 开江县| 凌海市| 雅江县| 高淳县| 麻城市| 于田县| 中宁县| 灌阳县| 高阳县| 滁州市| 瑞丽市| 新干县| 绿春县| 灵武市| 宝坻区| 惠东县| 将乐县|