張昊
(湖北第二師范學院計算機學院,湖北 武漢 430205)
在互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術快速發(fā)展背景下,計算機存儲空間和計算能力都得到了明顯提高,可以實現(xiàn)持續(xù)獲取海量的數(shù)據(jù),這就意味著人們正式走入了大數(shù)據(jù)時代。大數(shù)據(jù)技術的價值是真實而又巨大的,為了能夠充分發(fā)揮出其中存在的優(yōu)勢,就必須要解決像數(shù)據(jù)采集和信息抽取處理以及數(shù)據(jù)分析等技術問題。在此影響下,對數(shù)據(jù)獲取、存儲和管理等數(shù)據(jù)安全服務和隱私保護工作都提出了十分嚴格的要求,各種云計算信息技術急需硬件設備支持來解決技術問題。
除此之外,計算智能代表著人工智能時代新時期,是一種綜合性問題解決方法總稱,與傳統(tǒng)人工智能技術不同,計算智能不需要建立符合自身問題的模型,也不只是單純的知識表達,而是在數(shù)據(jù)觀測的基礎上進行處理,這一特點很容易處理大數(shù)據(jù)當中那些傳統(tǒng)人工智能技術無法解決的問題。從目前實際情況來看,計算機技術和人工智能技術都在快速發(fā)展,在圖像處理以及智能控制等多個領域的應用都十分普遍,并收獲了非常理想的成果。然而在不斷更新?lián)Q代的大數(shù)據(jù)背景下,計算智能方法也面臨著一定的挑戰(zhàn)。
很多不確定的復雜問題通過計算智能方法都可以輕松解決,同時也非常適合應用于多變且多樣化的大數(shù)據(jù)環(huán)境。計算智能方法也面臨著很多全新的挑戰(zhàn),大多數(shù)應用于小數(shù)據(jù)層面的計算智能方法已無法適用于當前海量且高速的大數(shù)據(jù)計算中,具體問題如下:受數(shù)據(jù)規(guī)模膨脹的影響,算法時空開銷也呈現(xiàn)出持續(xù)增漲的趨勢,能夠被小數(shù)據(jù)集所接受的計算難度,在大數(shù)據(jù)中也變得十分困難。其次,從大數(shù)據(jù)實際應用情況來看,數(shù)據(jù)是不斷變化和更新的,它無法直接傳輸?shù)接嬎銠C主機存儲器當中,也無法保留所有的樣本數(shù)據(jù),更不能像批量計算那樣構建出無偏訓練集。最后,在大數(shù)據(jù)時代環(huán)境中,數(shù)據(jù)采集能力和生產(chǎn)能力都在與日俱增,方法也越來越多樣,這也使得屬性數(shù)量在隨著數(shù)據(jù)規(guī)模不斷擴大而明顯增加,數(shù)據(jù)信息表現(xiàn)出高維且系數(shù)的特征[1]。
對此,面對大數(shù)據(jù)為計算智能帶來的挑戰(zhàn),未來需要重點從以下幾個方面進行研究:
一是要拓展計算智能算法,以此來更好地處理大規(guī)模業(yè)務,在問題規(guī)模持續(xù)擴增的同時,擴展算法模型也會發(fā)生相應的變化。由于大部分計算智能算法研究都是將大數(shù)據(jù)技術作為基本出發(fā)點,因此這些方法并不只是分析大數(shù)據(jù)這么簡單,而且關于大數(shù)據(jù)性能方面的分析也少之又少,如何將存在于小數(shù)據(jù)集上的計算智能算法轉移到大數(shù)據(jù)集之上,是未來需要重點研究的問題。從目前實際情況來看,加強算法的可擴展性是解決這類問題的主要手段,常見方法主要有線優(yōu)化、隨機算法、以哈希為基礎的算法和規(guī)模較大的集群分布式算法等四種。因此相關研究人員需要重點分析將這些措施與計算智能算法相結合的有效方法,同時還要考慮如何才能夠發(fā)展高擴展性的計算智能新算法。在此基礎上還要將原始問題進行簡化,在此期間,大規(guī)模復雜問題的解決措施就是分而治之,其關鍵就是如何抽象劃分問題。
二是粒計算的理論與計算模型可以從不同的角度和層次來進行分析,進而使問題能夠得到有效解決,為復雜問題的處理方式提供新思路[2]。粒計算在應對大數(shù)據(jù)中復雜問題處理期間具有非常關鍵的作用,屬于一種規(guī)范化計算模式,在智能化信息發(fā)展領域十分重要,然而在后期實際應用過程中,還需要探討如何告別當前初始階段。
三是在分析大數(shù)據(jù)信息時,考慮是否會用到原數(shù)據(jù)集中的信息,如果不是,將如何豐富更加高效且豐富的手段,這是需要重點研究的問題。在一些應用中,還需要對部分數(shù)據(jù)進行采樣處理,將滿足小數(shù)據(jù)集特點的傳統(tǒng)方式應用于大數(shù)據(jù)集當中,通過犧牲部分精確率來減少時空開銷。除此之外,在分析大數(shù)據(jù)集前提下來探索其中所存在的規(guī)律,也是一種十分可行的策略。
除了上述幾點研究發(fā)展之外,因為在很多大數(shù)據(jù)應用環(huán)境下,數(shù)據(jù)中所蘊含的規(guī)律是不斷變化和發(fā)展的。例如,互聯(lián)網(wǎng)熱點新聞討論熱度會隨著時間推移而發(fā)生變化,在新聞傳播和消失等各個環(huán)節(jié)中都有不同的變化,因此大數(shù)據(jù)分析并不只對某一時段的事件進行提前預測,還要體現(xiàn)數(shù)據(jù)的動態(tài)發(fā)展模式,這樣才可以充分體現(xiàn)數(shù)據(jù)中的潛在價值。另外,因為大數(shù)據(jù)價值密度不高,因此會經(jīng)常使異常模式突出較高的價值,比如日志數(shù)據(jù)的故障錯誤、輿情分析中的敏感事件以及金融業(yè)務中的敲詐行為等等。這些都需要應用發(fā)展迅速且可靠的方法來進行檢驗。
計算智能一般可以認為是人工神經(jīng)網(wǎng)絡、模糊系統(tǒng)以及演化計算三方面相互融合形成的全新計算方法。計算智能算法因其自身特點決定了在大數(shù)據(jù)分析過程中的重要價值。
首先,大數(shù)據(jù)本身復雜多樣且多變的特點決定了模型驅(qū)動方法存在本質(zhì)上的約束性,面對錯綜復雜的海量數(shù)據(jù)信息,通常很難建立精確模型完成演化計算[3]。同時大數(shù)據(jù)分析通常會隨著外界環(huán)境發(fā)生變化,這都是源自于系統(tǒng)本身和用戶的需求等方面在發(fā)生變化,傳統(tǒng)人工智能方式很難面對這樣的環(huán)境變化,這就導致最終算法失去了意義,而通過遺傳算法可以根據(jù)實際環(huán)境來優(yōu)化種群適應程度。
其次,精度也是大數(shù)據(jù)環(huán)境下的一項重要因素,針對不確定問題的處理和管理需求都源自于數(shù)據(jù)采集措施和自然環(huán)境等其他因素的干擾,在此基礎上也有大數(shù)據(jù)不確定的特點。所以針對不確定數(shù)據(jù)的挖掘成為了當前大數(shù)據(jù)分析過程中的重要問題。
最后,大數(shù)據(jù)的規(guī)模和復雜程度也需要分析較大的時空開銷,但是可能無法在精確的時間內(nèi)進行分析。計算智能方法擁有一定的啟發(fā)性,可以模擬人類和其他生物智慧來得到想要的答案,具有較高的自組織性和自適應性,能夠快速解決一些較為棘手的問題,規(guī)模龐大的問題處理也因此得到了有效手段。
人工神經(jīng)網(wǎng)絡是一種在模仿動物神經(jīng)系統(tǒng)前提下而實現(xiàn)的分布式信息處理模型,擁有良好的非線性映射能力和容錯性,是一種十分關鍵的計算智能算法。神經(jīng)網(wǎng)絡并不需要掌握任何先驗知識,和傳統(tǒng)計算方式相比,約束條件相對較少。從大數(shù)據(jù)角度來看,像設備傳感器、社交網(wǎng)絡以及搜索引擎等,這些數(shù)據(jù)都是持續(xù)變化的,因此無法像學習算法一樣在過去數(shù)據(jù)中建立起訓練集。另外,數(shù)據(jù)規(guī)模與產(chǎn)生的速度也會導致數(shù)據(jù)無法實現(xiàn)一次性導入。面對這樣的問題,需要利用深度在線學習方法,每次分析只需要一個樣本數(shù)據(jù)來更新目標函數(shù)即可。在此基礎上,感知器也是一種十分傳統(tǒng)的在線學習模型,是人工神經(jīng)網(wǎng)絡的重要結構,對于任何一種訓練樣本,感知器都可以準通過預測結果來判斷是否更新和連接權重。如果預測結果正確,那么權重將會不變。否則,就需要結合輸入樣本特征來更新。在理論方面,這樣的更新手段擁有較低的錯誤率,經(jīng)過標準化之后的訓練樣本將會與最短距離平方呈反比[4]。
在大數(shù)據(jù)使用過程中,數(shù)據(jù)很容易受精度和隨機性等非可控因素影響,最終會導致大部分數(shù)據(jù)表現(xiàn)出一定的模糊性。除了在采集期間導入模糊性之外,在實際使用過程中數(shù)據(jù)也要具備固定模糊性,例如電商網(wǎng)站和服務點評網(wǎng)站等等,用戶可以根據(jù)自己的感受來發(fā)表言論,這些信息都很難用簡單邏輯來表達,重點是要表達其中的不確定性,用語言來表述更加詳細的模糊概念[5]。對于模糊系統(tǒng)的研究屬于一種模糊現(xiàn)象,這樣的模糊性通常存在于事物的差異性方面,概念外延也因此具有一定的不分明性,使推理結果的可解釋性更強,是一種應用十分廣泛的計算智能算法。從語言變量描述角度來看擁有非常明顯的應用價值。
以遺傳演算為基礎的演化計算和粒子群優(yōu)化等為代表的群體智能計算方法,是應對復雜問題的重要手段。在實際應用期間的優(yōu)點在于,它不僅可以快速解決一些十分困難的問題。同時還可以用于解決約簡問題當中,進而有效解決數(shù)據(jù)量龐大的困擾。
遺傳算法自身不需要先驗知識,目前已廣泛應用于解決復雜問題當中。此外,遺傳算法還能夠進行數(shù)據(jù)簡化,因為加強決策力和流程優(yōu)化能力是大數(shù)據(jù)分析過程中的重要目標之一,所以計算智能算法擁有比傳統(tǒng)計算方法更廣的應用空間,差異目標優(yōu)化如今已成為演化計算的重要研究方向。
綜上所述,雖然大數(shù)據(jù)技術帶來了前所未有的發(fā)展機遇,但是對信息技術發(fā)展帶來了一定的挑戰(zhàn)。所以必須結合大數(shù)據(jù)技術特點進行全面分析,并總結歸納其中的計算智能方法應用措施,在分析缺陷問題的前提下,清楚了解未來主要研究方向,解決數(shù)據(jù)資源共享傳輸問題,利用豐富且開放的大數(shù)據(jù)技術最終發(fā)揮出計算智能算法的應用潛力,解決各種復雜性問題。