劉偉
中國人民大學 北京 100872
大數(shù)據(jù)信息作為人們生存發(fā)展最重要的資源,不僅包含著豐富的經(jīng)驗知識,而且還能夠在一定程度上促進我國經(jīng)濟社會的發(fā)展。為此,我們應(yīng)該加強對大數(shù)據(jù)分析方法的研究和創(chuàng)新。基于人工智能技術(shù)進行大數(shù)據(jù)分析的目的是為了在有限的時間內(nèi)發(fā)現(xiàn)信息之間的關(guān)聯(lián)性,探測出海量信息中的隱含信息,從而根據(jù)其特征制定計劃進行決策。
現(xiàn)階段,人工智能技術(shù)的應(yīng)用方向主要是在智能制造領(lǐng)域,所以提升人工智能技術(shù)在處理海量數(shù)據(jù)信息過程匯總的計算效率和資源配置能力就可以在一定程度上促進智能制造領(lǐng)域的發(fā)展。將人工智能技術(shù)有效地應(yīng)用到智能制造領(lǐng)域是未來社會發(fā)展的趨勢,這是因為該技術(shù)的應(yīng)用不僅能夠在生產(chǎn)領(lǐng)域中完成降低生產(chǎn)成本、提升生產(chǎn)效益、縮短產(chǎn)品制作周期的作用,而且還能夠幫助企業(yè)有效地規(guī)避風險。因此,基于人工智能技術(shù)進行大數(shù)據(jù)分析是非常必要的。
由于大數(shù)據(jù)的信息組成大多數(shù)都是橫跨各個專業(yè)領(lǐng)域、媒體的,所以在實際生活中無法將傳統(tǒng)的聚類計算法應(yīng)用于大數(shù)據(jù)聚類。為此,相關(guān)技術(shù)人員提出了映射與歸約相結(jié)合的編程模式[1]。有效地運用這種編程方式不僅能夠?qū)崿F(xiàn)傳統(tǒng)聚類算法的并行運算,增強計算的便捷化,而且還能完美地完成大數(shù)據(jù)信息的分類與集合?;诖?,相關(guān)的技術(shù)編程人員利用該編程模式不斷地將大數(shù)據(jù)的聚類算法進行創(chuàng)新,如利用Apache基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)構(gòu)架實現(xiàn)了K-means聚類算法,該算法的運行步驟分別是映射、分類、歸納;利用MapReduce編程框架不僅實現(xiàn)了凝聚式層次聚類分析,保證了文件信息傳輸?shù)挠行院捅C苄?,而且還實現(xiàn)了可以運用于密度計算的聚類方法。其中可以運用于密度計算的聚類方法除了可以有效地進行大數(shù)據(jù)信息的預處理,還可以查找到需要進行整合的信息做集中處理。另外,利用MapReduce編程框架還實現(xiàn)了并行冪迭代聚類的方法,這種計算方法是通過將數(shù)據(jù)信息進行有效壓縮來實現(xiàn)降低計算時間和對計算設(shè)備硬件的需求來完成的[2]。
綜上所述,隨著人們對大數(shù)據(jù)信息傳輸、儲存的要求不斷提升,采用傳統(tǒng)的聚類算法進行計算已經(jīng)無法滿足市場的需求。因此,需要相關(guān)工作人員能夠不斷創(chuàng)新并行聚類算法[3]。
在大數(shù)據(jù)時代下進行關(guān)聯(lián)分析其目的是為了能夠快速地查找到信息之間的聯(lián)系?,F(xiàn)階段,應(yīng)用比較廣泛的關(guān)聯(lián)分析算法有兩種,分別是Apriori關(guān)聯(lián)規(guī)則挖掘和FP-Growth關(guān)聯(lián)規(guī)則挖掘[5]。但是這兩種關(guān)聯(lián)分析算法的計算方式不同,Apriori關(guān)聯(lián)規(guī)則挖掘需要提前設(shè)定一個算法支持的閾值,然后再進行篩選,而FP-Growth關(guān)聯(lián)規(guī)則挖掘是需要建立一個頻繁模式樹,然后分兩次完成數(shù)據(jù)的掃描。Apriori關(guān)聯(lián)規(guī)則與FP-Growth關(guān)聯(lián)規(guī)則相比,不僅需要在頻繁模式下建立大量的數(shù)據(jù)樣本,而且還需要投入較多的時間成本,因此,在實際的應(yīng)用中,相關(guān)的技術(shù)人員應(yīng)該使用FP-Growth關(guān)聯(lián)規(guī)則的運算方法進行分布式并行化處理。例如在SPARK平臺中運用FP-Growth關(guān)聯(lián)規(guī)則算法,首先需要將相應(yīng)的數(shù)據(jù)信息進行分組,由大數(shù)據(jù)信息變成小數(shù)據(jù)信息,然后在運用FP-Growth算法得到頻繁項集[4]。
當前形勢下,大數(shù)據(jù)關(guān)聯(lián)分析已經(jīng)有效地運用到了交通方面。相關(guān)技術(shù)人員根據(jù)汽車的運行軌跡,提出了能夠處理大量小文件的并行頻繁模式增長算法,不僅可以對汽車運行所處的時空數(shù)據(jù)進行關(guān)聯(lián)分析,降低交通事故發(fā)生的概率,而且還能通過建立局部頻繁模式樹來有效地解決全局頻繁模式樹算法過慢的問題。
大數(shù)據(jù)分類是應(yīng)用于大數(shù)據(jù)挖掘的有效方式,它不僅能夠?qū)⑾嗤臄?shù)據(jù)信息進行整合處理,提升大數(shù)據(jù)挖掘的工作效率,而且還能夠幫助相關(guān)工作人員快速地查找需要的信息。當前,大數(shù)據(jù)分類已經(jīng)應(yīng)用到各個行業(yè)。例如在醫(yī)療診斷行業(yè)中,相關(guān)技術(shù)人員利用醫(yī)療大學的數(shù)據(jù)信息來研究輔助醫(yī)療診斷腫瘤問題,并有效地運用MapReduce編程框架中的K近鄰分類器對微陣列基因進行大數(shù)據(jù)分類來檢查癌癥患者攜帶的基因[6]。
為了增強大數(shù)據(jù)預測在大數(shù)據(jù)研究中的應(yīng)用性,相關(guān)技術(shù)人員開始不斷嘗試將其運用到各個領(lǐng)域。例如在金融行業(yè)中,可以運用機器學習算法來尋找市場之間的差異性和相似性,然后建立相應(yīng)的交易模型對市場商品的價格進行實時預測。在智能安全領(lǐng)域,可以通過結(jié)合云計算、幾何特征學習技術(shù)以及分布式文件系統(tǒng)來對網(wǎng)頁中可能出現(xiàn)的入侵攻擊進行合理的預測和把控,從而提升網(wǎng)絡(luò)系統(tǒng)的安全性[7]。
雖然當前大數(shù)據(jù)預測的應(yīng)用性較廣,但是依然存在著一些難以得到有效解決的難題。如包含有效信息的時間較少,從大量的數(shù)據(jù)信息中進行截取這些信息比較困難;在進行大數(shù)據(jù)的預測過程中雖然能夠獲得一個大范圍的數(shù)據(jù)信息,但是缺乏一定的精確性。
深度學習作為能夠提升機器學習的應(yīng)用效率方法之一,不僅可以實現(xiàn)使其有效地應(yīng)用到語言處理、圖像處理中,而且還能夠增強數(shù)據(jù)運算的效率。深度學習主要是處理海量密集型任務(wù)的,所以在構(gòu)建模型進行訓練的過程中需要對各個參數(shù)都進行迭代運算,但是這就需要消耗大量的時間成本。為此,相關(guān)技術(shù)人員嘗試運用Map Reduce、Spark平臺來進行分布式計算和分布式儲存。而這種與大數(shù)據(jù)平臺相結(jié)合的深度學習方式可以有效地降低數(shù)據(jù)信息運算的時間成本。
雖然這種運算方式具有一定的優(yōu)點,但是在實際運用中會非常容易出現(xiàn)由于數(shù)據(jù)樣本在質(zhì)量上的缺乏而導致難以不斷地優(yōu)化深度學習的數(shù)字模型。為此,相關(guān)技術(shù)人員提出了固定模型重用策略,這種方法的運用能夠從根本上減少固定模型對數(shù)據(jù)樣本的需求,從而提升運算的效率。同時還應(yīng)該對深度模型本身進行優(yōu)化,使其能夠在不斷地訓練中完成量變引起質(zhì)變的結(jié)果。除此之外,其他技術(shù)人員還提出了一種殘差學習法,這種方法需要運用到學習殘差函數(shù)來不斷地優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的訓練,從而提升數(shù)據(jù)攝取的準確度[8]。
在人工智能技術(shù)得到應(yīng)用的背景下,雖然它能夠在一定程度上為大數(shù)據(jù)信息的處理提供更多便利的條件,但是也使大數(shù)據(jù)分析方法面臨更多的難題。例如能夠處理小數(shù)據(jù)的人工智能方法不能直接運用到大數(shù)據(jù)分析中,這主要是由于在大數(shù)據(jù)中運用人工智能方法不僅會降低分布式計算的時間成本,而且還會無法有效地提升算法的性能。為此,相關(guān)技術(shù)人員首先應(yīng)該將考慮將大數(shù)據(jù)信息進行分布式計算[9]。當前,Map Reduce、Spark平臺已經(jīng)得到了廣泛應(yīng)用,所以工作人員只需要將機器學習的工作方式變成模型和數(shù)據(jù)共同協(xié)作工作的方式,將海量數(shù)據(jù)信息、模型根據(jù)相應(yīng)的邏輯性進行分割處理。而人工智能運算的分布策略可以分為維度分布和種群分布,而這兩種分布方式又可以繼續(xù)進行劃分,一般可以分為群智能和進化智能[10]。
提升算法的性能是增強大數(shù)據(jù)分析方法應(yīng)用率的有效措施,但是在實際的運算過程中,技術(shù)人員卻無法在提升算法性能的基礎(chǔ)上降低分布式計算的時間成本,提升算法的整體效益。為此,技術(shù)人員首先應(yīng)該考慮這一影響算法性能的因素有哪些,是否能夠在一定程度上降低分布式計算的時間成本。通常情況下,影響算法性能的只有算法本身設(shè)置的各種參數(shù)[11]。
雖然在當前形勢下在對大數(shù)據(jù)進行分析的過程中巧妙地利用人工智能技術(shù)能夠為各行各業(yè)帶來一定程度的便利,但是現(xiàn)階段我國對機器學習技術(shù)、深度學習技術(shù)以及計算智能技術(shù)的研究還難以滿足市場的需求,因此,我們應(yīng)該根據(jù)其需要進行進一步的研究。當前,我們的研究方向主要分為三種形式。第一,提升分布式深度學習算法的應(yīng)用效率。為了滿足用戶的需求,大數(shù)據(jù)平臺會運用分布式計算和分布式存儲的方式來統(tǒng)計用戶的使用習慣。但是這種方式也有一定的弊端,為此,我們應(yīng)該不斷地縮短深度學習模型的訓練時間,并且加強該模型在大數(shù)據(jù)分析中的應(yīng)用。第二,優(yōu)化分布式模型的算法。在海量數(shù)據(jù)信息中采用分布式算法能夠在保證其運算正確的基礎(chǔ)上提升其運算效率,保證數(shù)據(jù)信息傳輸?shù)臏蚀_性。第三,建立先進的大數(shù)據(jù)平臺。雖然當前大數(shù)據(jù)分析法應(yīng)用比較廣泛,但是采用的方法和技術(shù)并不適用于某些領(lǐng)域。因此,相關(guān)技術(shù)人員應(yīng)該針對大數(shù)據(jù)分析技術(shù)在相關(guān)領(lǐng)域的具體應(yīng)用情況進行分析,然后不斷地優(yōu)化其運算時間[12]。
當前,我國的人工智能大數(shù)據(jù)分析法已經(jīng)在某些領(lǐng)域得到了有效應(yīng)用,但是在實際的應(yīng)用中為了提升算法的應(yīng)用性,相關(guān)的技術(shù)人員首先應(yīng)該有目的性地對大數(shù)據(jù)聚類、關(guān)聯(lián)分析、分類以及預測這四種不同處理方式進行進一步的研究。同時還應(yīng)該根據(jù)深度學習模型的實際使用情況進行不斷的優(yōu)化創(chuàng)新,使其能夠在一定程度上提升算法的準確度。