胡 鑫,孟 珍,王學(xué)志,林青慧
中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190
目前社會(huì)信息化進(jìn)程正在邁向網(wǎng)絡(luò)化信息技術(shù)的階段。這種由社會(huì)信息環(huán)境的變革而引發(fā)的社會(huì)數(shù)據(jù)環(huán)境的變革,給信息科學(xué)及相關(guān)產(chǎn)業(yè)發(fā)展帶來了巨大的挑戰(zhàn)和機(jī)遇。目前對(duì)“大數(shù)據(jù)”普遍認(rèn)可的定義是指在可容忍的時(shí)間范圍內(nèi)無法用傳統(tǒng)的信息技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、傳輸、存儲(chǔ)、管理、處理與應(yīng)用的數(shù)據(jù)集合,具有體積大 (volume)、速度快 (velocity)、模態(tài)多 (variety)、真?zhèn)坞y辨 (veracity)和價(jià)值高密度低 (value)的 5V 特性[1-3],傳統(tǒng)的來源于多余元統(tǒng)計(jì)、人工智能、模式識(shí)別等領(lǐng)域的數(shù)據(jù)分析理論,以及數(shù)據(jù)存儲(chǔ)、處理、分析、應(yīng)用等技術(shù)。同時(shí),從大數(shù)據(jù)工程技術(shù)創(chuàng)新發(fā)展的角度,亟需將大數(shù)據(jù)相關(guān)的理論、技術(shù)成果與國際上主流的技術(shù)框架相結(jié)合,針對(duì)互聯(lián)網(wǎng)應(yīng)用智能化和服務(wù)化的發(fā)展趨勢,以及離線分析與在線分析的應(yīng)用特點(diǎn),圍繞 Hadoop、Spark (內(nèi)存計(jì)算)、容器技術(shù)等主流的工程技術(shù)體系[4-8],開展大數(shù)據(jù)分析平臺(tái)開發(fā)與應(yīng)用,是促進(jìn)大數(shù)據(jù)科技發(fā)展的另一項(xiàng)必要和緊迫的工作。本文基于國外建設(shè)和開發(fā)的數(shù)據(jù)分析平臺(tái)的科研成果和實(shí)踐經(jīng)驗(yàn),介紹四個(gè)數(shù)據(jù)平臺(tái)的總體功能、建設(shè)思路及功能架構(gòu)。
大數(shù)據(jù)正在推動(dòng)傳統(tǒng)數(shù)據(jù)分析平臺(tái)發(fā)生根本性變化。要對(duì)如此大量和復(fù)雜的數(shù)據(jù)進(jìn)行任何類型的分析,擴(kuò)展硬件平臺(tái)就變得迫在眉睫,如果要在合理的時(shí)間內(nèi)滿足用戶的需求,選擇正確的硬件/軟件平臺(tái)就成為一個(gè)關(guān)鍵的決定。研究人員比以往任何時(shí)候都更致力于為大數(shù)據(jù)構(gòu)建新的數(shù)據(jù)分析技術(shù),這導(dǎo)致了許多不同算法和平臺(tái)的不斷發(fā)展。
目前有幾種大數(shù)據(jù)平臺(tái)都具有不同的特點(diǎn),選擇合適的平臺(tái)需要深入了解所有這些平臺(tái)的能力。特別是,平臺(tái)適應(yīng)不斷增長的數(shù)據(jù)處理需求的能力,在決定是否適合在特定平臺(tái)上構(gòu)建基于分析的解決方案方面起著至關(guān)重要的作用。開發(fā)一個(gè)模塊化的、可伸縮的基礎(chǔ)設(shè)施,用于存儲(chǔ)、訪問、查詢和處理大型 PB 級(jí)的科學(xué)數(shù)據(jù)集尤為重要。傳統(tǒng)的單機(jī)模式在面對(duì)處理具有這些特性的大數(shù)據(jù)時(shí)顯得力不從心,不僅存在著運(yùn)算效率低下的問題,而且并不能很好的容納不同類型的數(shù)據(jù),擴(kuò)展性較差。針對(duì)這些問題,采用云計(jì)算技術(shù)建立大數(shù)據(jù)分析平臺(tái)來對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)存儲(chǔ)、計(jì)算分析等[9],是當(dāng)今數(shù)據(jù)構(gòu)建的主要目的。主要有幾個(gè)目標(biāo),一是能夠訪問和處理大型數(shù)據(jù)集;二是為用戶提供個(gè)性化的存儲(chǔ)空間,不僅可以存儲(chǔ)在數(shù)據(jù)庫表的查詢結(jié)果,而且可以在文件中存儲(chǔ)額外的處理結(jié)果;三是提供一個(gè)協(xié)作共享環(huán)境,用戶可以單獨(dú)或以組的形式與他人共享數(shù)據(jù)集;最后一個(gè)目標(biāo)是提供可伸縮的計(jì)算能力,用于處理和分析大型數(shù)據(jù)存儲(chǔ)庫和用戶自己的數(shù)據(jù)。
數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)理念是以區(qū)域性智能數(shù)據(jù)中心和高速互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,按照互聯(lián)網(wǎng)服務(wù)體系的架構(gòu),以大規(guī)模海量數(shù)據(jù)存儲(chǔ)、處理和可視化分析等關(guān)鍵技術(shù)為支撐,實(shí)現(xiàn)以智能終端和互聯(lián)網(wǎng)為用戶提供數(shù)據(jù)存儲(chǔ)、管理和分析服務(wù)。
數(shù)據(jù)分析平臺(tái)的體系架構(gòu)如圖1 所示。區(qū)域智能數(shù)據(jù)中心提供基于云計(jì)算的大規(guī)模數(shù)據(jù)存儲(chǔ)及數(shù)據(jù)挖掘平臺(tái),通過平臺(tái)服務(wù)器對(duì)外接口提供數(shù)據(jù)存儲(chǔ)、分析和挖掘服務(wù)[10]。用戶使用 Web 瀏覽器或智能終端應(yīng)用程序提出數(shù)據(jù)存儲(chǔ)和分析的服務(wù)請求,經(jīng) Web 服務(wù)器通過互聯(lián)網(wǎng)將服務(wù)請求發(fā)送給數(shù)據(jù)中心平臺(tái)服務(wù)器,平臺(tái)服務(wù)器對(duì)服務(wù)請求進(jìn)行解析,發(fā)送給工作流引擎調(diào)度執(zhí)行,執(zhí)行結(jié)果通過互聯(lián)網(wǎng)發(fā)送給用戶終端。
(1)分布式存儲(chǔ):可以適應(yīng)多區(qū)域、多地形的分布通量數(shù)據(jù)進(jìn)行匯聚重建的需要。特別是可以滿足對(duì)通量數(shù)據(jù)實(shí)時(shí)采集、持續(xù)性增長、多特征提取和與此面臨的大數(shù)據(jù)分析實(shí)時(shí)性采集、持續(xù)性增長和大數(shù)據(jù)分析實(shí)時(shí)性和交互性的需要。
(2)分布式數(shù)據(jù)一體化運(yùn)行環(huán)境:針對(duì)大數(shù)據(jù)算法運(yùn)行的問題,相比傳統(tǒng)的 RDBMS 系統(tǒng),并突破 MapReduce 技術(shù)[11]的局限,大數(shù)據(jù)算法運(yùn)行環(huán)境是 SQL 語句和 MapReduce 一體的系統(tǒng)環(huán)境。云分析平臺(tái)是利用 X86 開放架構(gòu)服務(wù)器 PC 構(gòu)建的硬件系統(tǒng),它可以進(jìn)行大規(guī)模的數(shù)據(jù)計(jì)算和分布式存儲(chǔ),能夠解決 I/O 存在的問題[12],具有很高的保障性和擴(kuò)展性,各種數(shù)據(jù)資源可以按需制定。
(3)數(shù)據(jù)安全:按照 SaaS (軟件即服務(wù))的模式[13]需求,研究開發(fā)出數(shù)據(jù)挖掘在云環(huán)境下的隱私保護(hù)、數(shù)據(jù)審計(jì)技術(shù),確保大數(shù)據(jù)在挖掘過程中的數(shù)據(jù)安全,保護(hù)用戶的隱私。
(4)數(shù)據(jù)挖掘:突破傳統(tǒng)的數(shù)據(jù)挖掘技術(shù),創(chuàng)新基于 Open API 的大數(shù)據(jù)挖掘技術(shù),構(gòu)建基于 Open API 的大數(shù)據(jù)分析模式。
(5)可視化分析技術(shù):傳統(tǒng)的分析方法交互性和理解性存在一些不足,研究人機(jī)交互式和可視化數(shù)據(jù)挖掘新技術(shù),可以用于實(shí)現(xiàn)數(shù)據(jù)挖掘的人機(jī)交互功能。
(6)容器技術(shù):通過自動(dòng)注冊實(shí)現(xiàn)資源節(jié)點(diǎn)的擴(kuò)展。用戶不僅可以通過交互式組件、交互式編程組件或者交互式應(yīng)用程序組件來進(jìn)行分析工作,這些組件位于一個(gè)單獨(dú)的容器實(shí)例中,以便有效地隔離資源,還可以使用數(shù)據(jù)云中的數(shù)據(jù)存儲(chǔ)集和高性能計(jì)算機(jī)集群。
圖1 大數(shù)據(jù)分析平臺(tái)體系架構(gòu)Fig. 1 Big data analytics platform architecture
ODC[14]是一個(gè)非營利的開源項(xiàng)目,用于地理空間數(shù)據(jù)管理和分析,其動(dòng)機(jī)是需要更好的管理衛(wèi)星數(shù)據(jù)。目標(biāo)是通過提供開放且自由訪問的開發(fā)工具來增加衛(wèi)星數(shù)據(jù)的影響,并促進(jìn)社區(qū)開發(fā),維持和擴(kuò)大應(yīng)用的廣度和深度。
2.1.1 建設(shè)思路
ODC 用于訪問、管理和分析大量地理信息系統(tǒng) (GIS)數(shù)據(jù),即地球觀測 (EO)數(shù)據(jù)。因此它提供了一個(gè)由一系列數(shù)據(jù)結(jié)構(gòu)和工具組成的公共分析框架,這些結(jié)構(gòu)和工具有助于組織和分析大型網(wǎng)格數(shù)據(jù)集。雖然 ODC 是為分析時(shí)間豐富的地球觀測數(shù)據(jù)而開發(fā)的,但是平臺(tái)的靈活性也允許包含和分析其他網(wǎng)格化數(shù)據(jù)集,可能包括高程模型、地球物理網(wǎng)絡(luò)、插值曲面和模型輸出,一個(gè)關(guān)鍵的特性就是保留每個(gè)唯一的觀察值,這與許多用于處理大型網(wǎng)格數(shù)據(jù)集合的其他方法形成對(duì)比。
2.1.2 功能架構(gòu)
ODC 通過編制大量地球觀測數(shù)據(jù)、提供基于 Python 的 API,用于實(shí)現(xiàn)高性能查詢和數(shù)據(jù)訪問,讓用戶可以輕松的執(zhí)行數(shù)據(jù)分析。并且允許處理可擴(kuò)展的大陸規(guī)模存儲(chǔ)的數(shù)據(jù),跟蹤所有包含數(shù)據(jù)的來源,以便進(jìn)行質(zhì)量控制和更新。
核心作用就是充當(dāng)衛(wèi)星數(shù)據(jù)提供者和應(yīng)用程序之間的層,有一套開源工具幫助科學(xué)家使用 ODC 管理的數(shù)據(jù)進(jìn)行研究。
架構(gòu)流程具體為:衛(wèi)星數(shù)據(jù)→靈活的部署 (根據(jù)用戶應(yīng)用程序,ODC 可以部署在 HPC、云和本地安裝上。典型安裝在 Linux、MacOS 和 Windows 上運(yùn)行)→用戶決定[15]。
ODC 主要提供六個(gè)工具:
(1)命令行工具 (Command Line Tools):程序員/開發(fā)人員用來與 ODC 連接的工具。
(2)Web 應(yīng)用程序 Open Data Cube Explorer:一種可視化和交互性式 Web 應(yīng)用程序,允許用戶查看可用數(shù)據(jù)的目錄。
圖2 ODC 地理空間數(shù)據(jù)管理和分析軟件技術(shù)架構(gòu)圖Fig. 2 ODC geospatial data management and analysis software technical architecture diagram
(3)Open Data Cube Stats:在 ODC 系統(tǒng)上定義和執(zhí)行高級(jí)分析的優(yōu)化方法 (面向科研人員)。
(4)Web 用戶界面:一種 Web 應(yīng)用程序,允許開發(fā)人員以交互式方式展示和可視化算法的輸出。
(5)Jupyter Notebooks:以 EO 科學(xué)技術(shù)為中心的研究文獻(xiàn)。筆記本包含可執(zhí)行代碼,詳細(xì)說明了數(shù)據(jù)立方體在研究環(huán)境中的使用方式,是新用戶寶貴的參考資料。
(6)Web 服務(wù) Open Geospatial Consortium (OGC):可以將非 ODC 應(yīng)用程序連接到 ODC 的適配器。
地球觀測系統(tǒng)數(shù)據(jù)和信息系統(tǒng) (EOSDIS)是 NASA 地球科學(xué)數(shù)據(jù)系統(tǒng)計(jì)劃中一個(gè)關(guān)鍵的核心能力,提供的主要服務(wù)包括用戶支持、數(shù)據(jù)存檔、管理和分發(fā),以及信息管理和產(chǎn)品生成[16]。
2.2.1 建設(shè)思路
EOSDIS 是由一個(gè)科學(xué)組件和一個(gè)數(shù)據(jù)系統(tǒng)組成,以進(jìn)行長期的地表、生物圈、固體地球、大氣和海洋的全球觀測。關(guān)鍵是開發(fā)了一個(gè)系統(tǒng)來管理高速磁盤緩存,以使元數(shù)據(jù)可持續(xù)用于快速搜索,搜索范圍涉及存儲(chǔ)在磁帶上的數(shù)以百萬計(jì)的文件和 PB 級(jí)的主數(shù)據(jù)。
數(shù)據(jù)的原始來源或格式由公共元數(shù)據(jù)存儲(chǔ)庫 (CMR)提供支持。接收來自世界各地的多種格式、形式的數(shù)據(jù),并使用統(tǒng)一的元數(shù)據(jù)模型 (UMM)作為 Rosetta stone,交叉引用關(guān)鍵的和常見的元數(shù)據(jù)內(nèi)容。
2.2.2 功能架構(gòu)
EOSDIS 中有兩組元數(shù)據(jù)——結(jié)構(gòu)元數(shù)據(jù)和產(chǎn)品元數(shù)據(jù)[17],使用的元數(shù)據(jù)模型 (UMM)支持不同類型的數(shù)據(jù)搜索、發(fā)現(xiàn)和利用,與智能切換類似,可以在不同應(yīng)用程序之間傳輸數(shù)據(jù)集細(xì)節(jié),實(shí)現(xiàn)無縫轉(zhuǎn)換。搜索地球數(shù)據(jù)→更專業(yè)的數(shù)據(jù)提取工具,可以通過 shema.org 搜索操作實(shí)體在 UMM-S 中表示“智能切換”,該實(shí)體可用于任何可以利用 Collection 上下文的服務(wù),使用 shema.org,而不是像 OpenSearch 這樣的其他機(jī)制,允許通用搜索引擎綁定。
總體功能主要包括以下方面:
(1)處理系統(tǒng) Science Investigator-led Processing Systems (SIPS):科研人員可以對(duì)標(biāo)準(zhǔn)數(shù)據(jù)產(chǎn)品進(jìn)行前處理,并對(duì)數(shù)據(jù)進(jìn)行再處理以改進(jìn)算法。
(2)分布式活動(dòng)歸檔中心 Distributed Archive Centers (DAACs):與科學(xué)學(xué)科專業(yè)中心合作,歸檔和分發(fā) SIPS 和其他公司生產(chǎn)的標(biāo)準(zhǔn)數(shù)據(jù)產(chǎn)品。
(3)地球數(shù)據(jù)和核心服務(wù) Earth data and Core Services:允許用戶搜索、發(fā)現(xiàn)、可視化、精煉和訪問 NASA 地球觀測數(shù)據(jù),包括網(wǎng)絡(luò)和安全。
SciServer[18]是由美國國家科學(xué)基金會(huì) (NSF)支持的一個(gè)名為 SciServer 的新項(xiàng)目,旨在建立一個(gè)長期的、靈活的生態(tài)系統(tǒng),以便從觀測和模擬中獲取大量數(shù)據(jù)集。它運(yùn)用的是一種革命性的新方法,提供了從天文學(xué)到基因組學(xué)等多個(gè) PB 級(jí)科學(xué)數(shù)據(jù)集的訪問,以及一組簡單但功能強(qiáng)大的基于瀏覽器的工具,用于可視化和分析這些數(shù)據(jù)集,是一個(gè)完全集成的網(wǎng)絡(luò)基礎(chǔ)設(shè)施系統(tǒng),也是一個(gè)免費(fèi)的科學(xué)數(shù)據(jù)發(fā)布平臺(tái),它實(shí)現(xiàn)了安全存儲(chǔ)、共享文件和數(shù)據(jù)分析來進(jìn)行科學(xué)研究。
圖3 ODC 生態(tài)系統(tǒng)架構(gòu)圖Fig. 3 ODC ecosystem architecture diagram
圖4 EOSDIS 生態(tài)系統(tǒng)架構(gòu)圖Fig. 4 EOSDIS ecosystem architecture diagram
2.3.1 建設(shè)思路
為了減輕研究人員的負(fù)擔(dān),該團(tuán)隊(duì)開發(fā)了“SciDrive”,一種用于科學(xué)數(shù)據(jù)的云數(shù)據(jù)存儲(chǔ)系統(tǒng),允許科學(xué)家使用類似 DropBox 的界面上傳和共享數(shù)據(jù)。界面自動(dòng)將數(shù)據(jù)讀入數(shù)據(jù)庫,可以在線搜索并與其他數(shù)據(jù)源進(jìn)行交叉關(guān)聯(lián)。重點(diǎn)是 SciServer Computer 的開發(fā),提供了一個(gè)可伸縮的環(huán)境,可以針對(duì)大型機(jī)構(gòu)存儲(chǔ)庫和用戶自己的數(shù)據(jù)集在服務(wù)器端進(jìn)行定制分析。
2.3.2 功能架構(gòu)
SciServer 是一個(gè)完全集成的網(wǎng)絡(luò)基礎(chǔ)設(shè)施系統(tǒng),包含相關(guān)工具和服務(wù),使研究人員能夠應(yīng)對(duì)科學(xué)的大數(shù)據(jù),主要提供以下三種服務(wù)[19]:
(1)科學(xué)工作流系統(tǒng) CasJobs:允許用戶在大型數(shù)據(jù)集上運(yùn)行復(fù)雜的查詢,并保存和共享結(jié)果以供將來分析,是 SciServer 基礎(chǔ)結(jié)構(gòu)的核心,提供基于 Web 的查詢管理和數(shù)據(jù)庫服務(wù),擅長處理大型數(shù)據(jù)集。
(2)分布式存儲(chǔ)服務(wù) SciDrive:是一種類似 DroPBox 的分布式存儲(chǔ)服務(wù),用于在數(shù)據(jù)庫和平面文件系統(tǒng)之間進(jìn)行接口的科學(xué)數(shù)據(jù),并具有自動(dòng)元數(shù)據(jù)提取功能,可以自動(dòng)提取文件中的數(shù)據(jù)并插入 CasJobs 數(shù)據(jù)庫進(jìn)一步分析,也可以根據(jù)文件擴(kuò)展名類型提取特定內(nèi)容。
(3)批處理服務(wù) Compute Jobs:提供可以在后臺(tái)執(zhí)行的 Jupyter 筆記本或普通腳本的批處理。利用 Jupyter 實(shí)現(xiàn)協(xié)作研究,用戶可以在其中編寫自己的 Python 和 R 腳本,并在數(shù)據(jù)相同的服務(wù)器上執(zhí)行,允許用戶對(duì) SDSS 等大型數(shù)據(jù)集進(jìn)行高級(jí)分析,同時(shí)保持與數(shù)據(jù)接近。
圖5 SciServer 組件應(yīng)用Fig. 5 SciServer component application
SciServer 支持一種新方法,使研究人員可以使用 Terabytes 或 Petabytes 的科學(xué)數(shù)據(jù),而無需下載任何大型數(shù)據(jù)集。優(yōu)勢在于:(1)通過在線提供大數(shù)據(jù)搜索和分析功能,可以輕松比較數(shù)據(jù)集并發(fā)現(xiàn)它們之間新的連接;(2)通過提供全球訪問大型模擬數(shù)據(jù)集,可以為各地的科研人員開放計(jì)算科學(xué)資源;(3)通過提供基于云的科學(xué)數(shù)據(jù)存儲(chǔ)系統(tǒng),實(shí)現(xiàn)拖放界面在平面文件和數(shù)據(jù)庫之間自動(dòng)交互,允許科學(xué)家綜合不同的數(shù)據(jù)集并充分利用它們的內(nèi)容;(4)通過開發(fā)新的公民科學(xué)項(xiàng)目,為全球分布式數(shù)據(jù)增加了可拓展性;(5)通過添加一系列廣泛的協(xié)作功能,允許研究人員將他們的數(shù)據(jù)集與外部數(shù)據(jù)提供者提供的托管數(shù)據(jù)集關(guān)聯(lián)起來。
地球觀測衛(wèi)星[20]委員會(huì)于 1984年9月成立,其原始功能是協(xié)調(diào)地球觀測數(shù)據(jù),使社區(qū)更容易訪問和使用數(shù)據(jù),最初側(cè)重于互操作性,通過數(shù)據(jù)格式,儀器的相互校準(zhǔn),以及產(chǎn)品的通用。
2.4.1 建設(shè)思路
為應(yīng)對(duì)地球觀測衛(wèi)星的數(shù)量大幅增加等不斷變化的環(huán)境,地球觀測衛(wèi)星委員會(huì)不斷發(fā)展,變得更加復(fù)雜,并擴(kuò)大了其活動(dòng)的數(shù)量和范圍。CEOS 現(xiàn)側(cè)重于外部組織征收的有效要求,與其他衛(wèi)星協(xié)調(diào)機(jī)構(gòu) (例如氣象衛(wèi)星協(xié)調(diào)組,CGMS)密切合作,并繼續(xù)作為國際空間協(xié)調(diào)的主要論壇?;诘厍驍?shù)據(jù)提供一些工具和數(shù)據(jù)服務(wù)。
2.4.2 功能架構(gòu)
CEOS 提供的主要工具及服務(wù)包括:
(1)地球觀測 (EO)手冊和數(shù)據(jù)庫:EO 手冊介紹衛(wèi)星 EO 功能和應(yīng)用,在線數(shù)據(jù)庫詳細(xì)介紹當(dāng)前和未來的衛(wèi)星、儀器和測量功能。
(2)CEOS 可視化環(huán)境 (COVE):是一套基于瀏覽器的工具,用于搜索、分析和可視化實(shí)際和潛在的衛(wèi)星傳感器范圍。
(3)大氣成分 (ACC)門戶網(wǎng)站:ACC 門戶網(wǎng)站為科學(xué)家和增值組織使用遙感大氣成分?jǐn)?shù)據(jù)提供互操作性的訪問、工具和上下文指導(dǎo)。最初的重點(diǎn)是全球氣候觀測系統(tǒng) (GCOS)確定的基本其后變量 (ECV)。
(4)校準(zhǔn)/驗(yàn)證 (Cal/Val)門戶:CEOS Cal/ValPortal 為全球校準(zhǔn)和驗(yàn)證活動(dòng)提供支持,并專門確保傳感器互校準(zhǔn)的標(biāo)準(zhǔn)化??傮w目標(biāo)是提高該系統(tǒng)支持的所有傳感器的測量精度,并增加地球觀測平臺(tái)之間的互操作性。
(5)CARD4L 產(chǎn)品:CEOS 分析陸地準(zhǔn)備數(shù)據(jù) (CARD4L)的產(chǎn)品是光學(xué)和雷達(dá)數(shù)據(jù),已處理和組織到最低規(guī)格,允許立即分析。CARD4L 產(chǎn)品適用于廣泛的用戶,支持時(shí)間序列分析和數(shù)據(jù)互操作性。
數(shù)據(jù)應(yīng)用與分析平臺(tái)就是用于高性能分析的內(nèi)存數(shù)據(jù)庫,其設(shè)計(jì)的初衷是應(yīng)對(duì)大數(shù)據(jù)量和靈活性方面的挑戰(zhàn),來適應(yīng)大數(shù)據(jù)的需求,是大數(shù)據(jù)時(shí)代所必須的基礎(chǔ)設(shè)施。隨著不斷的發(fā)展,海量的數(shù)據(jù)資源與應(yīng)用場景等的出現(xiàn),用戶的主要問題是數(shù)據(jù)訪問,數(shù)據(jù)準(zhǔn)備和有效分析以支持用戶應(yīng)用程序,新的計(jì)算基礎(chǔ)架構(gòu)、技術(shù)和數(shù)據(jù)架構(gòu),如開放數(shù)據(jù)立方體 ODC 可以克服自由和開放數(shù)據(jù)量大幅增加所帶來的數(shù)據(jù)管理和分析挑戰(zhàn)。
從技術(shù)方面,例如 Apache Hadoop 套件包括提供大型數(shù)據(jù)集的實(shí)時(shí)讀寫及訪問等,具有高線性和可伸縮性。我們應(yīng)該認(rèn)識(shí)到大數(shù)據(jù)平臺(tái)開發(fā)中的影響因素,提出適應(yīng)的框架設(shè)計(jì),針對(duì)特定的問題尋找解決方案應(yīng)對(duì)一些技術(shù)挑戰(zhàn)。針對(duì)高成本的數(shù)據(jù)遷移和數(shù)據(jù)分析有必要提供一種科學(xué)數(shù)據(jù)云分析服務(wù)方法,提供有效的擴(kuò)展計(jì)算和存儲(chǔ)資源。