国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)分析技術(shù)現(xiàn)狀與展望

2020-11-24 17:40黃穎中國電子科技集團(tuán)公司第二十八研究所唐皋南京萊斯信息技術(shù)股份有限公司林浩坤華中科技大學(xué)
數(shù)碼世界 2020年3期
關(guān)鍵詞:數(shù)據(jù)處理數(shù)據(jù)挖掘可視化

黃穎 中國電子科技集團(tuán)公司第二十八研究所 唐皋 南京萊斯信息技術(shù)股份有限公司 林浩坤 華中科技大學(xué)

引言

大數(shù)據(jù)是自云計(jì)算應(yīng)用后最廣泛的計(jì)算機(jī)技術(shù)語言的應(yīng)用,大數(shù)據(jù)的應(yīng)用對于思維模式、商業(yè)的運(yùn)行模式、科研成果以及醫(yī)療診斷方面帶來了巨大的影響。隨著大數(shù)據(jù)的廣泛應(yīng)用和深入研究,大數(shù)據(jù)的關(guān)鍵特征現(xiàn)已總結(jié)為體量、速度、多樣化、質(zhì)量以及價(jià)值的全新5V概論。對大數(shù)據(jù)進(jìn)行信息分析,可以發(fā)現(xiàn)其蘊(yùn)藏的規(guī)律、知識(shí)及價(jià)值。

1 大數(shù)據(jù)分析定義

大數(shù)據(jù)分析是隨著數(shù)據(jù)量急劇膨脹而產(chǎn)生的對海量數(shù)據(jù)使用和提取有效信息的一種方法,一般會(huì)利用大數(shù)據(jù)的時(shí)間屬性,照相對應(yīng)的時(shí)間間隔記錄發(fā)生的重要變化,通過疊加每次變化的內(nèi)容,提取其中共性特征數(shù)據(jù),揭示隱藏在數(shù)據(jù)集合中的規(guī)律,發(fā)現(xiàn)出有價(jià)值的知識(shí)的過程。數(shù)據(jù)分析以發(fā)現(xiàn)有用知識(shí)為目的,主要包括清洗、集成、轉(zhuǎn)換、建模以及模型評估等過程,最終得到?jīng)Q策知識(shí)。這一過程通常會(huì)根據(jù)分析目標(biāo)進(jìn)行反復(fù)迭代,逐步求精。

大數(shù)據(jù)技術(shù)的發(fā)展與云計(jì)算、物聯(lián)網(wǎng)等新技術(shù)發(fā)展密切相關(guān)。云計(jì)算是以虛擬化技術(shù)為基礎(chǔ),以網(wǎng)絡(luò)為載體提供基礎(chǔ)架構(gòu)、平臺(tái)、軟件等服務(wù)的形式,整合大規(guī)模可擴(kuò)展的計(jì)算、存儲(chǔ)、數(shù)據(jù)、應(yīng)用等分布式計(jì)算資源進(jìn)行協(xié)同運(yùn)作的超級(jí)計(jì)算模式,云計(jì)算在大數(shù)據(jù)存儲(chǔ)和計(jì)算方面助力大數(shù)據(jù)的落地。而物聯(lián)網(wǎng)是指通過信息傳感設(shè)備,按照約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進(jìn)行信息交換和通信,以實(shí)現(xiàn)智能化識(shí)別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò),是在互聯(lián)網(wǎng)基礎(chǔ)上延伸和擴(kuò)展的網(wǎng)絡(luò),是大數(shù)據(jù)的重要來源。

2 大數(shù)據(jù)分析的關(guān)鍵技術(shù)

大數(shù)據(jù)分析關(guān)鍵技術(shù)包括數(shù)據(jù)清洗、數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)可視化和價(jià)值評估等幾方面。

大數(shù)據(jù)一般都具有不完整的、有噪聲和不一致等特點(diǎn),數(shù)據(jù)清洗技術(shù)是將異構(gòu)多源數(shù)據(jù)進(jìn)行加工,糾正數(shù)據(jù)中可識(shí)別的錯(cuò)誤,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值;另外還包括一些簡單的語義層的映射技術(shù)。

數(shù)據(jù)處理技術(shù)是要解決大數(shù)據(jù)分布式并行處理問題,包含Map Reduce批量處理框架、流式計(jì)算框架、圖計(jì)算等相關(guān)技術(shù)。Map Reduce批量處理框架將待處理任務(wù)劃分為若干子任務(wù),將其分配到不同節(jié)點(diǎn)上,實(shí)現(xiàn)了利用多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)對任務(wù)的協(xié)同計(jì)算,時(shí)延較大;流式計(jì)算框架對數(shù)據(jù)存儲(chǔ)并不關(guān)注,對流式數(shù)據(jù)的計(jì)算具有即時(shí)性、單遍處理、近似性的特點(diǎn);圖計(jì)算具有多迭代、稀疏結(jié)構(gòu)和細(xì)粒度等特點(diǎn),一般針對存儲(chǔ)在圖數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行計(jì)算處理。

數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中發(fā)現(xiàn)有趣模式的過程。數(shù)據(jù)挖掘是植根于場景的,應(yīng)用領(lǐng)域不同,應(yīng)用問題不同,采取的挖掘技術(shù)也不同,一般包括模式識(shí)別、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則挖掘等技術(shù)。

數(shù)據(jù)可視化是一門用形和色表達(dá)數(shù)據(jù)的藝術(shù),在大數(shù)據(jù)時(shí)代,龐大的數(shù)據(jù)量已遠(yuǎn)遠(yuǎn)超出人們的觀察、理解和處理數(shù)據(jù)的能力,因此“讓數(shù)據(jù)說話”,數(shù)據(jù)可視化對大數(shù)據(jù)分析越來越重要。最初可視化主要是使用統(tǒng)計(jì)圖標(biāo),后來隨著地理信息系統(tǒng)、時(shí)間線展示工具等發(fā)展,數(shù)據(jù)可視化呈現(xiàn)更加生動(dòng)、高效的形式。

價(jià)值評估是對大數(shù)據(jù)分析算法的評估,包括效果評估和性能評價(jià),效果評估是針對數(shù)據(jù)處理質(zhì)量的測量,性能評估主要是針對數(shù)據(jù)處理速度和穩(wěn)定性的測量。

3 大數(shù)據(jù)分析技術(shù)發(fā)展前景

隨著人工智能技術(shù)的發(fā)展,大數(shù)據(jù)分析技術(shù)也不斷發(fā)展。人工智能技術(shù)立足于神經(jīng)網(wǎng)絡(luò),同時(shí)發(fā)展出多層神經(jīng)網(wǎng)絡(luò),從而可以進(jìn)行深度機(jī)器學(xué)習(xí),與傳統(tǒng)的統(tǒng)計(jì)學(xué)等算法相比,這一算法并無多余的假設(shè)前提(比如線性建模需要假設(shè)數(shù)據(jù)之間的線性關(guān)系),而是完全利用輸入的數(shù)據(jù)自行模擬和構(gòu)建相應(yīng)的模型結(jié)構(gòu),這使基于機(jī)器學(xué)習(xí)建立的大數(shù)據(jù)分析算法更加靈活的、且可以根據(jù)不同的訓(xùn)練數(shù)據(jù)而擁有自優(yōu)化的能力。

目前基于人工智能的分析技術(shù)主要是從機(jī)器學(xué)習(xí)方面開展的大數(shù)據(jù)分析技術(shù)研究,分為大數(shù)據(jù)聚類、大數(shù)據(jù)關(guān)聯(lián)分析、大數(shù)據(jù)分類和大數(shù)據(jù)預(yù)測幾類技術(shù)。通過大量數(shù)據(jù)的訓(xùn)練,機(jī)器學(xué)習(xí)能夠總結(jié)出事件之間的相關(guān)性,可以提高大數(shù)據(jù)分析的精準(zhǔn)性。

雖然人工智能技術(shù)是大數(shù)據(jù)分析的利器,但面臨大數(shù)據(jù)問題時(shí),現(xiàn)有的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、計(jì)算智能等人工智能分析技術(shù)都存在許多不足,難以有效解決大數(shù)據(jù)的諸多問題,還需要在分布式深度學(xué)習(xí)算法、分布式優(yōu)化算法、機(jī)器學(xué)習(xí)模型并行策略、深度神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練等方面進(jìn)行進(jìn)一步研究。

猜你喜歡
數(shù)據(jù)處理數(shù)據(jù)挖掘可視化
基于CiteSpace的足三里穴研究可視化分析
自然資源可視化決策系統(tǒng)
改進(jìn)支持向量機(jī)在特征數(shù)據(jù)挖掘中的智能應(yīng)用
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
思維可視化
基于低頻功率數(shù)據(jù)處理的負(fù)荷分解方法
自然資源可視化決策系統(tǒng)
無人機(jī)測繪數(shù)據(jù)處理關(guān)鍵技術(shù)及運(yùn)用
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于事故數(shù)據(jù)挖掘的AEB路口測試場景