摘? 要:在物聯(lián)網(wǎng)和云技術(shù)的發(fā)展中,對(duì)于大數(shù)據(jù)視角下的綜合信息平臺(tái)進(jìn)行構(gòu)建,是為了在數(shù)據(jù)源擴(kuò)大,存儲(chǔ)技術(shù)不斷進(jìn)步的基礎(chǔ)上,采用信息化建設(shè)的方式,運(yùn)用結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)建設(shè)方法,對(duì)大數(shù)據(jù)進(jìn)行處理。建立在大數(shù)據(jù)平臺(tái)基礎(chǔ)上的綜合信息分析,能夠?qū)τ谛畔⑦M(jìn)行更海量的處理,為各行各業(yè)高效發(fā)展提供技術(shù)支撐。
關(guān)鍵詞:信息分析;大數(shù)據(jù)分析;平臺(tái)構(gòu)架
中圖分類號(hào):TP311.13? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)07-0160-02
Abstract:In the development of internet of things and cloud technology,the construction of integrated information platform from the perspective of large data is to process large data by using structured and unstructured data construction methods based on the expansion of data sources and the continuous progress of storage technology. Comprehensive information analysis based on big data platform can deal with more information and provide technical support for the efficient development of all walks of life.
Keywords:information analysis;big data analysis;platform architecture
0? 引? 言
隨著移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,海量數(shù)據(jù)處理的時(shí)代已經(jīng)到來,對(duì)海量數(shù)據(jù)進(jìn)行分析和處理,已經(jīng)成為各大公司都要面對(duì)的非常緊迫的任務(wù)。海量數(shù)據(jù)時(shí)代到來之后,數(shù)據(jù)分析公司預(yù)測(cè),數(shù)據(jù)的數(shù)量將是一個(gè)天文數(shù)字。如何具有可伸縮性、計(jì)算性能和成本上無可替代的運(yùn)算優(yōu)勢(shì),這需要通過以互聯(lián)網(wǎng)企業(yè)為主流的大數(shù)據(jù)分析平臺(tái)來?yè)?dān)當(dāng)起數(shù)據(jù)挖掘和多維分析以及海量存儲(chǔ)的任務(wù)。作為互聯(lián)網(wǎng)數(shù)據(jù)分析公司,在海量數(shù)據(jù)的分析領(lǐng)域上,應(yīng)對(duì)嚴(yán)苛的業(yè)務(wù)需求和數(shù)據(jù)壓力,要嘗試盡可能多的大數(shù)據(jù)分析方法,構(gòu)建出大數(shù)據(jù)平臺(tái)下的數(shù)據(jù)分析平臺(tái)結(jié)構(gòu)。
1? 大數(shù)據(jù)分析平臺(tái)的分類
在進(jìn)行大數(shù)據(jù)平臺(tái)的分類的時(shí)候,按照當(dāng)前的業(yè)務(wù)進(jìn)行多個(gè)角度的分析,針對(duì)不同的具體需求,可以對(duì)數(shù)據(jù)分析架構(gòu)進(jìn)行不同類別的分類,按照數(shù)據(jù)分析的實(shí)時(shí)性,可以進(jìn)行實(shí)時(shí)和離線數(shù)據(jù)兩個(gè)類別的分析。
實(shí)時(shí)分析用于移動(dòng)互聯(lián)網(wǎng)產(chǎn)品的分析中,在大量數(shù)據(jù)的分析過程中,不影響用戶體驗(yàn),同時(shí)又要滿足用戶分析要求,采用精心設(shè)計(jì)的傳統(tǒng)的數(shù)據(jù)庫(kù)組成方式進(jìn)行集群的處理,往往需要建設(shè)內(nèi)存計(jì)算平臺(tái),但是這樣做的軟硬件成本都是比較高的。
而比較新穎的數(shù)據(jù)分析工具進(jìn)行反饋的時(shí)間則縮短,在這基礎(chǔ)上通過機(jī)器學(xué)習(xí)搜索引擎實(shí)現(xiàn)推薦引擎的計(jì)算,應(yīng)用離線分析的分析方式,通過數(shù)據(jù)采集工具,將日志加以導(dǎo)入,對(duì)海量數(shù)據(jù)運(yùn)用傳統(tǒng)的工具進(jìn)行處理,運(yùn)用其應(yīng)對(duì)數(shù)據(jù)轉(zhuǎn)換的開銷過大的問題,在性能上追求滿足海量數(shù)據(jù)采集需求的任何要求?;ヂ?lián)網(wǎng)企業(yè)當(dāng)前較為先進(jìn)的包括Facebook等開發(fā)的各種軟件,能夠應(yīng)對(duì)每秒數(shù)百兆的日志數(shù)據(jù)采集和傳輸要求。在這種數(shù)據(jù)上傳的過程中,形成了大數(shù)據(jù)分析平臺(tái)的中央系統(tǒng)。
按照大數(shù)據(jù)的數(shù)量級(jí)進(jìn)行內(nèi)存級(jí)別的含量以及海量級(jí)別的分類,這些分類可以看到在大數(shù)據(jù)的分析架構(gòu)平臺(tái)上擁有快速的分析能力,能夠適時(shí)地進(jìn)行實(shí)時(shí)分析,潛力十足,高速數(shù)據(jù)分析已經(jīng)可以實(shí)現(xiàn)。
2? 大數(shù)據(jù)分析平臺(tái)的應(yīng)用
面對(duì)大數(shù)據(jù)分析,大數(shù)據(jù)平臺(tái)可以進(jìn)行表間關(guān)聯(lián)的混合存儲(chǔ)、數(shù)建分組和壓縮延遲加載。傳統(tǒng)數(shù)據(jù)庫(kù)中無法應(yīng)用優(yōu)化數(shù)據(jù)庫(kù)的技術(shù)方式,采用分片索引的技術(shù),將優(yōu)化后的技術(shù)應(yīng)用在數(shù)據(jù)分析性能中,例如:使用Hadoop平臺(tái),在模仿SQL數(shù)據(jù)分析的功能上,能夠采用優(yōu)化的方式進(jìn)行多維的分析,應(yīng)用事實(shí)表和維度表,關(guān)聯(lián)多維度性能的降低行列混合存儲(chǔ)模式,采用數(shù)據(jù)格式的特定分析方法對(duì)業(yè)務(wù)模型進(jìn)行變動(dòng)。此時(shí),海量數(shù)據(jù)轉(zhuǎn)換的格式代價(jià)相對(duì)降低。但是,目前采用這種多維分析的方法,雖然業(yè)務(wù)比較靈活多變,業(yè)務(wù)目鏡可以隨著業(yè)務(wù)維度和度量發(fā)生變化,但是在整個(gè)平臺(tái)建構(gòu)過程中,業(yè)務(wù)人員進(jìn)行快速改變,問題分析的角度容易受到影響,無法靈活地處理問題。因此,改用大數(shù)據(jù)分析結(jié)構(gòu),運(yùn)用Cube支持將維度和度量都交給業(yè)務(wù)人員,由業(yè)務(wù)員自己對(duì)維度進(jìn)行核定,度量,并進(jìn)行計(jì)算和分析,最終形成報(bào)表。這種方式可以在自定義維度上具有優(yōu)勢(shì)維度,可以根據(jù)業(yè)務(wù)需求進(jìn)行重新分組和劃分,而數(shù)據(jù)的非結(jié)構(gòu)特征則可以根據(jù)性別和學(xué)歷加以自定義。
即便是業(yè)務(wù)模型發(fā)生了變化,依然可以將多維立方體進(jìn)行重新定義。在Cube上進(jìn)行多維分析,限制了業(yè)務(wù)人員快速改變問題的思路。采用Hadoop多維分析平臺(tái)作為架構(gòu)分析,將海量的小日志文件進(jìn)行高速合并和傳輸,采用確保數(shù)據(jù)傳輸安全的方式,進(jìn)行日志數(shù)據(jù)中的維度信息的擴(kuò)展,將信息寫入數(shù)據(jù)日志中。數(shù)據(jù)冗余模塊在整個(gè)系統(tǒng)的瓶頸中進(jìn)行內(nèi)存的冗余,原始數(shù)據(jù)的設(shè)定,自動(dòng)生成多維分析語言,提交給集群之后,通過核心模塊,將多維分析命令進(jìn)行前端模塊的設(shè)置,運(yùn)用可視化的定義器進(jìn)行數(shù)據(jù)日志的維度和度量定義,通過多個(gè)工作流,根據(jù)業(yè)務(wù)進(jìn)行定制,數(shù)量輸入后海量數(shù)據(jù)會(huì)縮小很多,傳統(tǒng)的數(shù)據(jù)報(bào)表中這種難以展現(xiàn)的工作流程在新的數(shù)據(jù)平臺(tái)上得到了展現(xiàn)。
3? 智能云數(shù)據(jù)下構(gòu)建的智能樓宇物聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)
利用物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)的方式,將智能建筑中傳統(tǒng)的自動(dòng)化節(jié)能化技術(shù)加以完善,向著數(shù)字化方向演進(jìn)。不同門類的海量傳感器組件組成了智能建筑中的神經(jīng)網(wǎng)絡(luò),為建筑賦予了新的生命符號(hào)。智能樓宇系統(tǒng)十分復(fù)雜,包括消防、安防、供水、供電等。智能云數(shù)據(jù)構(gòu)建的樓宇物理網(wǎng)大數(shù)據(jù)平臺(tái),在進(jìn)行構(gòu)建的時(shí)候,安裝有各種傳感器,在運(yùn)行過程中,各類傳感器和模塊通過傳感器,將數(shù)據(jù)信息獲取和上傳,實(shí)現(xiàn)大數(shù)據(jù)的挖掘和利用,是傳統(tǒng)的樓宇數(shù)據(jù)運(yùn)行平臺(tái)無法比擬的。
以歷史大數(shù)據(jù)分析為主要功能的樓宇能源管理模型被建立起來,人工智能和人臉識(shí)別技術(shù)在智能安防模型中被加以應(yīng)用,通過研發(fā)BDOS大數(shù)據(jù)操作系統(tǒng)搭建出了物聯(lián)網(wǎng)大數(shù)據(jù)處理平臺(tái),將大數(shù)據(jù)底層設(shè)計(jì)架構(gòu)進(jìn)行了產(chǎn)品的整體技術(shù)解決和標(biāo)準(zhǔn)化的技術(shù)解決。應(yīng)用大數(shù)據(jù)平臺(tái)和智能云平臺(tái)實(shí)現(xiàn)大數(shù)據(jù)操作系統(tǒng)的運(yùn)行,降低用戶在云計(jì)算基礎(chǔ)上開發(fā)大數(shù)據(jù)的技術(shù)門檻。
同時(shí),數(shù)據(jù)的計(jì)算原則包括了在大量單一數(shù)據(jù)點(diǎn)進(jìn)行信息的提取,框架中可以包括流處理框架混合框架等等。對(duì)于大數(shù)據(jù)進(jìn)行庫(kù)處理,離不開引擎和框架這幾組定義。進(jìn)行引擎的設(shè)置的時(shí)候,需要對(duì)所處理的數(shù)據(jù)狀態(tài)進(jìn)行分類,每一個(gè)系統(tǒng)都有批處理方式,運(yùn)用流方式進(jìn)行連續(xù)不斷的數(shù)據(jù)的處理。在批處理上,運(yùn)用大容量靜態(tài)數(shù)據(jù)及完成計(jì)算過程,通過數(shù)據(jù)持久地保留在數(shù)據(jù)有限集合中,形成了海量數(shù)據(jù)集的批處理,批處理模式中的數(shù)據(jù)集需要具有計(jì)算總數(shù)和平均式的功能。
如果無法從持久存儲(chǔ)設(shè)備中進(jìn)行數(shù)據(jù)集的處理,則應(yīng)該充分考慮數(shù)量的量,并且提供充足的處理資源。在批處理處上應(yīng)對(duì)大量持久數(shù)據(jù)的表現(xiàn),在歷史數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上節(jié)省時(shí)間,對(duì)不適合處理的要求,盡量進(jìn)行離場(chǎng)處理。設(shè)計(jì)過程中充分考慮數(shù)據(jù)的量,采用批處理操作的模式,對(duì)開源社區(qū)的大數(shù)據(jù)框架進(jìn)行海量數(shù)據(jù)的處理,對(duì)集群節(jié)點(diǎn)帶的存儲(chǔ)和復(fù)制進(jìn)行協(xié)調(diào),確保節(jié)點(diǎn)故障不會(huì)發(fā)生。對(duì)于數(shù)據(jù)來源進(jìn)行存儲(chǔ)中間態(tài)的處理,要求在集群協(xié)調(diào)組建中,運(yùn)用底層資源和調(diào)度作業(yè)的運(yùn)行方式,對(duì)基層資源接口加以連接。
此時(shí),運(yùn)用迭代方式運(yùn)行工作負(fù)載最大,批處理模式則對(duì)每個(gè)鍵進(jìn)行數(shù)據(jù)子集的計(jì)算,將數(shù)據(jù)集成分拆之后,分配給所有可用節(jié)點(diǎn)。從文件系統(tǒng)中讀取數(shù)據(jù)及使用算法進(jìn)行基本處理,通過對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行計(jì)算,匯總成相應(yīng)的數(shù)值。這種批處理模式可以對(duì)任務(wù)進(jìn)行多次的寫入和執(zhí)行操作。每個(gè)層面磁盤空間上的資源相對(duì)較少,因此比起類似技術(shù)來說,這一類技術(shù)不適宜將一切都存儲(chǔ)在內(nèi)存中,在持久存儲(chǔ)上具有劣勢(shì)。因此,圍繞智能物聯(lián)網(wǎng)技術(shù)進(jìn)行了周邊技術(shù)的開發(fā),形成遼闊的生態(tài)系統(tǒng),處理框架和引擎,通過集成使用資源管理器處理的方式,得到了一批久經(jīng)考驗(yàn)的批處理模型。
這些模型能夠更靈活地運(yùn)用處理技術(shù),而且集成能力更強(qiáng),可以在不同技術(shù)的多種工作負(fù)載處理平臺(tái)上進(jìn)行底層技術(shù)的運(yùn)行。流處理系統(tǒng),采用的是與傳統(tǒng)數(shù)據(jù)計(jì)算模式不同的處理方式,針對(duì)各個(gè)數(shù)據(jù)集可以執(zhí)行操作,在對(duì)完整數(shù)據(jù)集進(jìn)行系統(tǒng)的數(shù)據(jù)總量的設(shè)置的時(shí)候,在特定時(shí)間內(nèi)進(jìn)行數(shù)據(jù)的更新,同一時(shí)間內(nèi)可以處理。不同狀態(tài)下的最少量的狀態(tài),大部分系統(tǒng)可以提供某些狀態(tài)的方法,但流處理主要針對(duì)副作用比較少的、功能性的處理進(jìn)行優(yōu)化,在處理優(yōu)化之后側(cè)重于離散步驟,針對(duì)任何一個(gè)數(shù)據(jù)執(zhí)行,處理更有優(yōu)勢(shì)。
對(duì)于不同結(jié)果的結(jié)合體進(jìn)行類似狀態(tài)管理,可以實(shí)現(xiàn)不同狀態(tài)下的管理機(jī)制的更高效。在進(jìn)行相對(duì)的業(yè)務(wù)制造處理的時(shí)候,關(guān)注一段時(shí)間內(nèi)對(duì)變化趨勢(shì)的數(shù)據(jù)進(jìn)行的實(shí)時(shí)處理,選擇最佳的工作負(fù)載。此時(shí),技術(shù)具有非常大量的數(shù)據(jù),以及非常好的無邊界數(shù)據(jù)的特點(diǎn),在流處理模式上可以對(duì)應(yīng)應(yīng)用操作,在拓?fù)涞奈膊渴褂孟嗷ミB接的系統(tǒng)輸入,建立起必要的處理模式,遴選操作是其中比較具有優(yōu)勢(shì)的。這種狀態(tài)處理可以不使用。
4? 結(jié)? 論
處理模式優(yōu)化后就可以進(jìn)行逐項(xiàng)的處理。點(diǎn)擊某個(gè)鏈接之后,用戶可以充分發(fā)揮框架與生俱來的優(yōu)勢(shì),提高處理的靈活性。在流處理的處理過程中,配合用戶使用純粹的流處理技術(shù),采用延遲處理數(shù)據(jù)的方法,保證每條信息都能被處理。對(duì)不同批次的數(shù)據(jù)進(jìn)按照順序進(jìn)行一次性批量處理,通過資源管理器進(jìn)行集成,為用戶提供了更多的選擇。隨著當(dāng)前計(jì)算機(jī)技術(shù)的不斷發(fā)展,目前對(duì)于已經(jīng)具備流處理能力以及框架處理能力和批處理和流處理混合處理功能的平臺(tái),多個(gè)團(tuán)隊(duì)在經(jīng)過不同處理階段的組織和協(xié)調(diào)之后,已經(jīng)可以實(shí)現(xiàn)很多處理工作的大幅簡(jiǎn)化,對(duì)于性能來說予以提升,對(duì)于工作成本來說予以大大的降低。為了滿足用戶科研的需求,在流處理模式上具體的策略方法為:將數(shù)據(jù)流采用小規(guī)模固定數(shù)據(jù)處理方式,實(shí)現(xiàn)內(nèi)存計(jì)算策略和先進(jìn)的調(diào)度機(jī)制的快速處理,最終形成一個(gè)獨(dú)立集群部署。這一平臺(tái)能夠進(jìn)行快速的批處理和流處理。對(duì)于不同類型的任務(wù),可以運(yùn)行一個(gè)集群加以處理。同時(shí),平臺(tái)包括各種庫(kù)的生存系統(tǒng),可以實(shí)現(xiàn)交互式查詢和機(jī)器學(xué)習(xí),對(duì)于生產(chǎn)力的大幅度提高也有著促進(jìn)作用。
參考文獻(xiàn):
[1] 孫雪娟.基于信息分析視角下的大數(shù)據(jù)分析平臺(tái)構(gòu)架研究 [J].信息通信,2017(11):96-98.
[2] 肖源,郝杰,劉瑩,等.信息分析視角下的大數(shù)據(jù)分析平臺(tái)構(gòu)架研究 [J].情報(bào)科學(xué),2016,34(9):83-89.
作者簡(jiǎn)介:趙楊晨(1998-),男,漢族,河南三門峽人,本科在讀,研究方向:電子、光電。