楊偉光
摘要
隨著信息數(shù)據(jù)時代的到來,實現(xiàn)了海量數(shù)據(jù)的存儲與計算人們統(tǒng)計和分析的數(shù)據(jù)量越來越大,因此這就給數(shù)據(jù)的存儲設(shè)備以及存儲方式提出了相應的挑戰(zhàn),數(shù)據(jù)處理的速度已經(jīng)成為大數(shù)據(jù)技術(shù)的關(guān)鍵所在。在傳統(tǒng)的大數(shù)據(jù)數(shù)據(jù)分析過程中,決策樹方法是最為常用的大數(shù)據(jù)分析方法,但是隨著海量數(shù)據(jù)的出現(xiàn),傳統(tǒng)的決策樹方法已經(jīng)不能夠滿足信息時代的需求,必須要對決策樹算法進行一定參數(shù)的優(yōu)化,以此來滿足現(xiàn)代信息社會對海量數(shù)據(jù)的處理要求。本文對基于決策樹算法分析的大數(shù)據(jù)研究進行了闡述,并且深入淺出的介紹了全速算法的運行平臺,并且分析了決策樹方法,在大數(shù)據(jù)分析中未來的發(fā)展方向,希望相關(guān)研究人員借鑒和參考。
【關(guān)鍵詞】大數(shù)據(jù) 決策樹 算法研究
21世紀是互聯(lián)網(wǎng)信息時代,網(wǎng)絡(luò)信息時代最為明顯的特征是海量數(shù)據(jù)融入到人們的社會生活各個角落,對這些海量數(shù)據(jù)進行提取和加工進行分析,從中得到相應的規(guī)律符合現(xiàn)在社會對于數(shù)據(jù)分析的要求。大數(shù)據(jù)由于其海量數(shù)據(jù)特征,因此傳統(tǒng)的存儲設(shè)備已經(jīng)不能夠滿足現(xiàn)代信息的需求,由于信息數(shù)據(jù)處理的方式發(fā)生了巨大的變革,傳統(tǒng)處理數(shù)據(jù)的技術(shù)已經(jīng)不能夠應用于大數(shù)據(jù)分析處理中。傳統(tǒng)的決策樹算法適用于數(shù)據(jù)集合較大的特征值計算,因此利用決策樹算法可以作為進行大數(shù)據(jù)分析的重要武器。傳統(tǒng)的決策樹算法由于其自身架構(gòu)的局限性,在處理海量數(shù)據(jù)特征是仍然存在相應的缺陷,不能夠達到充分分析數(shù)據(jù)特征的需求,因此在傳統(tǒng)的決策樹算法上必須要對其參數(shù)進行優(yōu)化,然后得到相應的特征值,最終求得大數(shù)據(jù)的整體特征。
1 決策樹算法的境界
決策樹算法是一種離散函數(shù)的逼近方法,它是一種比較典型的數(shù)據(jù)分類與處理的技術(shù)手段,決策樹算法首先對數(shù)據(jù)進行分類,然后利用歸納原則生成可讀的決策樹規(guī)則,最后對決策數(shù)據(jù)進行分析和判斷。從本質(zhì)上來講決策樹算法是一種通過歸類來解決數(shù)據(jù)特征的技術(shù)手段。
在決策樹算法中蘊含的規(guī)律的原理,必須要達到訓練程度較高以及規(guī)模較小的核心模型。在決策樹算法中主要分為兩步,第一步是生成決策樹;第二部是決策樹的減枝過程。決策樹的減枝過程就是對上一階段的決策樹進行檢驗,然后通過得到新的測試機來產(chǎn)生初步的規(guī)則。
2 基于決策樹算法的大數(shù)據(jù)處理技術(shù)優(yōu)化
2.1 特征值優(yōu)化算法
特征值優(yōu)化算法是指在原有的集合中將數(shù)據(jù)重新分類,然后形成一個數(shù)據(jù)子集,對數(shù)據(jù)子集進行處理分析。特征值優(yōu)化算法原理較為簡單,并且在實踐中應用較為簡便。利用特征選擇值進行算法計算主要可以分為兩類,一種是篩選器,一種是封裝器。篩選器是指集合內(nèi)部信息衡量,然后獨立于分類算法,這是一個預處理過程。通過相關(guān)系數(shù)標本進行評價,以達到數(shù)據(jù)處理的目的。
2.2 集中優(yōu)化算法
集中優(yōu)化算法適用于處理數(shù)據(jù)集合等較為龐大的計算模式,對其內(nèi)存進行計算過程中沒有方法將全部數(shù)據(jù)內(nèi)容一次性處理完畢,因此許多數(shù)據(jù)需要暫時存放在存儲器之中。由于決速算法自身的讀寫操作,因此讀寫速度比較緩慢,比較適合對這種決策樹算法采取優(yōu)化措施。減少其讀寫操作的程序成為了決策樹算法進行優(yōu)化的主要方向。在這其中SICU就是一種主要的優(yōu)化算法,這種優(yōu)化算法通過使用廣度排序以及優(yōu)先原則來達到減少存儲器內(nèi)部讀寫出生的目的,并且極大提高拳速算法的整體效率,除此之外還有boat算法的優(yōu)化。
2.3 分布式的計算方法
分布式計算方法對其子集進行了擴展,因此在數(shù)據(jù)處理能力上達到了空前的提高,他能夠有效加快數(shù)據(jù)讀取數(shù)據(jù)的整體能力,并且提高運行的整體速度,因此分布式算法開發(fā)比較早。此后谷歌開發(fā)了相應的可擴展式的計算機框架,這個計算機框架以控制器作為其整體的核心,然后對決策樹進行調(diào)控。調(diào)控的主要目的是利用大數(shù)據(jù)模型來進行整體的訓練。同時控制器能夠有效接入計算機群中,在學習決策樹模型中集成方法也可以解決大數(shù)據(jù)分布式的問題。
2.4 面向流數(shù)據(jù)的整體優(yōu)化算法
流數(shù)據(jù)整體優(yōu)化算法可以作為大數(shù)據(jù)的源頭,同時對于葉子階段相關(guān)的統(tǒng)計信息能夠有效進行處理,用于代替中間的決策節(jié)點,形成新的決策樹。在數(shù)據(jù)整體路以后實現(xiàn)節(jié)點分類處理。它能夠有效實現(xiàn)統(tǒng)計信息的更新。面向流數(shù)據(jù)的整體優(yōu)化算法使得時間成本得到優(yōu)化,但是其自身的缺點也很明顯,缺乏連續(xù)處理素質(zhì)的能力,同時還可能出現(xiàn)數(shù)據(jù)的漂流情況。最終的情況會導致大數(shù)據(jù)信息處理數(shù)據(jù)準確度有所降低。但是隨著現(xiàn)代研究的深入,面向流數(shù)據(jù)的整體優(yōu)化算法能夠有效支持數(shù)值屬性的優(yōu)化處理,因此預測的整體準確性得到了充分的提高,在大數(shù)據(jù)分析和處理中得到了廣泛的應用。
3 大數(shù)據(jù)處理的相關(guān)服務(wù)平臺
大數(shù)據(jù)數(shù)據(jù)處理基本上為開源的服務(wù)軟件,因此許多服務(wù)平臺都是非營利的組織,能夠提供不同組織的大數(shù)據(jù)開發(fā)平臺服務(wù)工作。當前比較流行的開源計算機集群系統(tǒng)中計算機集成系統(tǒng)的核心是機器的整體學習庫,并且在數(shù)據(jù)生成與預測方面有著廣泛的應用??傮w數(shù)據(jù)大數(shù)據(jù)處理中能夠簡化其機制,并且提供免費的開源式的計算機系統(tǒng),同時在機器學習方面能夠提供在線學習的模式。但是由于數(shù)據(jù)呈現(xiàn)整體多流失的模式發(fā)展,因此決策樹算法本身平臺不斷拓展,是其一個較為良好的選擇。
4 結(jié)束語
基于決策樹優(yōu)化算法,能夠有效解決大數(shù)據(jù)存儲以及分析的問題,它能夠有效加強數(shù)據(jù)的相關(guān)屬性質(zhì)量。在大數(shù)據(jù)存儲過程中經(jīng)常會出現(xiàn)屬性缺失,這些現(xiàn)象對于計算結(jié)果有很大的影響,可能會導致決策算法出現(xiàn)錯誤。對于缺失的數(shù)據(jù)處理一直是機器學習的相關(guān)重點研究內(nèi)容,因此也是決策樹算法重點研究關(guān)注的對象;必須要對于樣本的比例進行調(diào)整,在對數(shù)據(jù)進行分析處理時,由于樣本整體相差過大,可能會導致樣本數(shù)據(jù)分類被忽略,利用少數(shù)據(jù)進行分析是整個決策樹模型的關(guān)鍵所在;需要更新決策的模型,隨著時間的變化數(shù)據(jù)的匹配規(guī)律可能不能較好的匹配原有的參數(shù),必須要對新的模型進行改變,同時單一模型缺少對于數(shù)據(jù)的全面闡述,因此需要根據(jù)數(shù)據(jù)的變化來及時更新決策模型,這也是未來全是模型的相關(guān)發(fā)展研究方向。
參考文獻
[1]張棪,曹健.面向大數(shù)據(jù)分析的決策樹算法[J].計算機科學,2016(S1):374-379+383.
[2]杜麗英.基于數(shù)據(jù)挖掘的決策樹算法分析[J].吉林建筑工程學院學報,2014(05):48-50.