李莎莎+董思妤
摘 要 大數(shù)據(jù)學(xué)習(xí)成為大數(shù)據(jù)領(lǐng)域的一個(gè)熱點(diǎn)研究問(wèn)題。本文從大數(shù)據(jù)時(shí)代背景出發(fā),總結(jié)當(dāng)前大數(shù)據(jù)分析所面臨的機(jī)遇和挑戰(zhàn),闡述大數(shù)據(jù)學(xué)習(xí)系統(tǒng)相關(guān)的前沿技術(shù),并就大數(shù)據(jù)分析的發(fā)展方向和未來(lái)前景進(jìn)行討論。
關(guān)鍵詞 大數(shù)據(jù) 學(xué)習(xí)系統(tǒng) 數(shù)據(jù)挖掘
中圖分類(lèi)號(hào):C829.29 文獻(xiàn)標(biāo)識(shí)碼:A
當(dāng)今社會(huì),數(shù)據(jù)量正在以爆炸方式迅猛增長(zhǎng),數(shù)據(jù)表示形式千變?nèi)f化,標(biāo)志著我們已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。云計(jì)算、三網(wǎng)融合、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的出現(xiàn),更加催生了大數(shù)據(jù)時(shí)代的產(chǎn)生。在大數(shù)據(jù)時(shí)代下,其所需存儲(chǔ)、處理的數(shù)據(jù)量驚人,為大數(shù)據(jù)的分析和應(yīng)用帶來(lái)很多挑戰(zhàn)。若想充分發(fā)揮大數(shù)據(jù)所賦予的機(jī)遇和優(yōu)勢(shì),必須采取有效的數(shù)據(jù)學(xué)習(xí)與處理方法,從高質(zhì)量的大規(guī)模數(shù)據(jù)中提取隱含的、有用的信息,才能做出更加精準(zhǔn)、更加符合市場(chǎng)和客戶(hù)需求的決策。本文就當(dāng)前大數(shù)據(jù)分析技術(shù)面臨的挑戰(zhàn)和機(jī)遇,介紹大數(shù)據(jù)學(xué)習(xí)系統(tǒng)的關(guān)鍵技術(shù),最后對(duì)大數(shù)據(jù)分析技術(shù)的未來(lái)發(fā)展進(jìn)行討論。
1大數(shù)據(jù)帶來(lái)的機(jī)遇和挑戰(zhàn)
大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)革命。大數(shù)據(jù)挖掘和應(yīng)用可創(chuàng)造出超萬(wàn)億美元的價(jià)值,使人們可以利用以前不能有效利用的多種數(shù)據(jù)潛在信息,抓住被忽略的機(jī)遇。隨著數(shù)據(jù)存儲(chǔ)技術(shù)的成熟,大數(shù)據(jù)的重心將從存儲(chǔ)和傳輸,過(guò)渡到如何選擇高效的數(shù)據(jù)學(xué)習(xí)形式對(duì)數(shù)據(jù)進(jìn)行處理和利用,這需要根據(jù)大數(shù)據(jù)特點(diǎn)對(duì)傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行變革。此外,大數(shù)據(jù)的海量數(shù)據(jù),通常采用云端存儲(chǔ),數(shù)據(jù)管理比較分散,如何保證大數(shù)據(jù)的安全以及學(xué)習(xí)結(jié)果的可靠性對(duì)大數(shù)據(jù)學(xué)習(xí)技術(shù)提出了更高的要求。
2大數(shù)據(jù)學(xué)習(xí)關(guān)鍵技術(shù)
伴隨著需要處理的數(shù)據(jù)量多且增長(zhǎng)速度迅速的特點(diǎn),對(duì)數(shù)據(jù)學(xué)習(xí)的實(shí)時(shí)性、有效性提出了更高要求。大數(shù)據(jù)學(xué)習(xí)核心即為挖掘,從技術(shù)角度看,就是從大量的、復(fù)雜的、不規(guī)則的、隨機(jī)的、模糊的數(shù)據(jù)中獲取隱含的、人們事先未發(fā)覺(jué)的、有潛在價(jià)值的信息和知識(shí)的過(guò)程。有關(guān)智能計(jì)算中的大數(shù)據(jù)學(xué)習(xí)關(guān)鍵技術(shù)常見(jiàn)的有神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘和回歸分析等。
(1)神經(jīng)網(wǎng)絡(luò)。受生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和運(yùn)作的啟發(fā),模擬動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。應(yīng)用實(shí)例包括識(shí)別高價(jià)值客戶(hù)離開(kāi)特定公司的風(fēng)險(xiǎn),以及識(shí)別欺詐性的保險(xiǎn)理賠行為等。
(2)數(shù)據(jù)挖掘。結(jié)合統(tǒng)計(jì)數(shù)據(jù)和機(jī)器學(xué)習(xí)、使用數(shù)據(jù)庫(kù)管理技術(shù)從大型數(shù)據(jù)集中提取有用信息和知識(shí)的技術(shù)。根據(jù)其它屬性的值預(yù)測(cè)特定(目標(biāo))屬性的值,如回歸、分類(lèi)、異常檢測(cè)等,或?qū)ふ腋爬〝?shù)據(jù)中潛在聯(lián)系的模式,如關(guān)聯(lián)分析、演化分析、聚類(lèi)分析、序列模式挖掘等。
(3)回歸分析。確定當(dāng)一個(gè)或多個(gè)獨(dú)立變量值被修改時(shí)相關(guān)變量如何變化的統(tǒng)計(jì)方法。通常用于預(yù)測(cè)或預(yù)報(bào)。應(yīng)用實(shí)例如基于不同的市場(chǎng)和經(jīng)濟(jì)變量,或通過(guò)確定何種制造業(yè)參數(shù)對(duì)客戶(hù)滿(mǎn)意度影響最大來(lái)預(yù)測(cè)銷(xiāo)售量等。
(4)分類(lèi)分析。在訓(xùn)練集包含的數(shù)據(jù)點(diǎn)已經(jīng)被歸類(lèi)的基礎(chǔ)上,確定新的數(shù)據(jù)點(diǎn)所屬類(lèi)別的方法。典型應(yīng)用是在明確假設(shè)或客觀結(jié)果前提下,預(yù)測(cè)部分特定客戶(hù)行為(例如,購(gòu)買(mǎi)決策、流失率、消費(fèi)率等)。因?yàn)槭褂糜?xùn)練集,屬于監(jiān)督學(xué)習(xí),是無(wú)監(jiān)督學(xué)習(xí)類(lèi)型聚類(lèi)分析的反面。
(5)聚類(lèi)分析。一種多元化群體的分類(lèi)統(tǒng)計(jì)方法。在事先不知道的前提下,將一個(gè)集合分成較小的對(duì)象組,組內(nèi)對(duì)象具有相似特點(diǎn)。聚類(lèi)分析的典型例子是將消費(fèi)者分割成具有自相似性的群體做針對(duì)性營(yíng)銷(xiāo)。因?yàn)椴皇褂糜?xùn)練數(shù)據(jù),屬于無(wú)監(jiān)督學(xué)習(xí)類(lèi)型,是監(jiān)督學(xué)習(xí)類(lèi)型分類(lèi)分析的反面。
(6)關(guān)聯(lián)規(guī)則學(xué)習(xí)。在大數(shù)據(jù)集變量中發(fā)現(xiàn)感興趣關(guān)系(即“關(guān)聯(lián)規(guī)則”)的方法,包括多種生成和測(cè)試可能規(guī)則的算法。典型應(yīng)用是市場(chǎng)購(gòu)物籃分析,其中零售商可以決定哪些產(chǎn)品經(jīng)常一起購(gòu)買(mǎi)和如何使用這種營(yíng)銷(xiāo)信息。
(7)數(shù)據(jù)融合與集成。集成和分析來(lái)自多個(gè)源的數(shù)據(jù)的方法。典型應(yīng)用如,使用來(lái)自互聯(lián)網(wǎng)的傳感器數(shù)據(jù)綜合分析如煉油廠這樣的復(fù)雜分布式系統(tǒng)的性能。使用社會(huì)媒體數(shù)據(jù),經(jīng)過(guò)自然語(yǔ)言處理分析,并結(jié)合實(shí)時(shí)銷(xiāo)售數(shù)據(jù),確定營(yíng)銷(xiāo)活動(dòng)如何影響顧客的情緒和購(gòu)買(mǎi)行為等。
(8)機(jī)器學(xué)習(xí)。研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)并不斷改善自身的性能,是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑。自然語(yǔ)言處理是機(jī)器學(xué)習(xí)的一個(gè)例子。
3大數(shù)據(jù)分析未來(lái)趨勢(shì)
當(dāng)前的數(shù)據(jù)分析技術(shù)的研究可以分為6個(gè)重要方向:結(jié)構(gòu)化數(shù)據(jù)分析、文本數(shù)據(jù)分析、多媒體數(shù)據(jù)分析、Web數(shù)據(jù)分析、網(wǎng)絡(luò)數(shù)據(jù)分析和移動(dòng)數(shù)據(jù)分析。在今后大數(shù)據(jù)技術(shù)面臨的主要發(fā)展趨勢(shì):大數(shù)據(jù)與人工智能的融合;跨學(xué)科領(lǐng)域交叉的數(shù)據(jù)分析應(yīng)用;數(shù)據(jù)科學(xué)帶動(dòng)多學(xué)科融合。今后,深度學(xué)習(xí)成為大數(shù)據(jù)智能分析的核心技術(shù),利用大數(shù)據(jù)學(xué)習(xí)技術(shù)構(gòu)建大規(guī)模、有序化開(kāi)放式的知識(shí)體系成為大數(shù)據(jù)處理的關(guān)鍵。大數(shù)據(jù)與云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等的綜合應(yīng)用,大數(shù)據(jù)技術(shù)課程體系建設(shè)和人才培養(yǎng)快速發(fā)展都將成為未來(lái)趨勢(shì)。
4總結(jié)
保證大數(shù)據(jù)的質(zhì)量,如何建模、提取并利用隱藏在大數(shù)據(jù)中的信息成為擺在業(yè)界和學(xué)術(shù)界面前的重大難題。面對(duì)當(dāng)前大數(shù)據(jù)來(lái)源眾多、數(shù)據(jù)量大、數(shù)據(jù)增長(zhǎng)速度快等特點(diǎn),大數(shù)據(jù)學(xué)習(xí)面臨著極大的挑戰(zhàn)。闡述了大數(shù)據(jù)學(xué)習(xí)系統(tǒng)中的關(guān)鍵技術(shù),對(duì)大數(shù)據(jù)分析的未來(lái)發(fā)展趨勢(shì)進(jìn)行了討論,為選擇數(shù)據(jù)學(xué)習(xí)方式提供依據(jù)。
參考文獻(xiàn)
[1] 顧君忠.大數(shù)據(jù)與大數(shù)據(jù)分析[J].軟件產(chǎn)業(yè)與工程,2013(4):17-21.
[2] 任磊,杜一,馬帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報(bào),2014,25(9):1909-1936.
[3] 中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專(zhuān)家委員會(huì).2015年中國(guó)大數(shù)據(jù)發(fā)展趨勢(shì)預(yù)測(cè)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2015,11(1):48-52.