国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向高維數(shù)據(jù)的隨機森林算法優(yōu)化探討

2016-03-24 20:41:50羅超
2016年4期
關(guān)鍵詞:優(yōu)化

作者簡介:羅超,2003年畢業(yè)于湘潭大學(xué)測控技術(shù)與儀器專業(yè);2013年至2016年,就讀于人民大學(xué)統(tǒng)計學(xué)院;現(xiàn)任職于霍尼韋爾航空航天部門,專注于航空航天和空中交通管理大數(shù)據(jù)方向的研究和挖掘。

摘要:面向高位數(shù)據(jù)的隨機森林算法屬于數(shù)據(jù)挖掘領(lǐng)域中的一部分內(nèi)容,做好隨機森林算法的優(yōu)化工作,對于高維數(shù)據(jù)的分析及處理效率的提高有著極大的促進作用。文章主要論述的便是有關(guān)這方面的內(nèi)容。首先,文章針對隨機森林算法的定義及其泛化誤差進行了簡要的概述,繼而在此基礎(chǔ)上分析了高維數(shù)據(jù)的可視化及基于隨機森林的有監(jiān)督降維技術(shù),最后,文章對整個實驗的結(jié)果進行了分析,得出了最終優(yōu)化結(jié)論,希望能夠為數(shù)據(jù)挖掘領(lǐng)域提供具有參考價值的意見,同時也為面向高維數(shù)據(jù)的隨機森林算法優(yōu)化奠定堅實的基礎(chǔ)。

關(guān)鍵詞:高維數(shù)據(jù);隨機森林算法;優(yōu)化

一、引言

互聯(lián)網(wǎng)技術(shù)的出現(xiàn)及發(fā)展使得計算機逐漸進入了千家萬戶,并成為了各個領(lǐng)域處理數(shù)據(jù)的一個主要手段,目前,隨著社會的不斷進步,高維數(shù)據(jù)的增長速度也開始越來越快,海量的高維數(shù)據(jù)為其分析與處理過程帶來了困難。就目前的情況看,我國在對高維小樣本數(shù)據(jù)進行挖掘時還存在一定的問題,而將隨機森林算法應(yīng)用到高維數(shù)據(jù)的處理方面對其準(zhǔn)確性以及分析效率的提高都具有重要作用,因此,相關(guān)領(lǐng)域必須認(rèn)識到這一點,要做好其利用與優(yōu)化工作,這樣才能最大程度的保證我國數(shù)據(jù)挖掘技術(shù)的進一步提高。

二、隨機森林算法

想要做好面向高維數(shù)據(jù)的隨機森林算法優(yōu)化工作,首先就必須要對隨機森林算法達(dá)到一定程度的了解,這是優(yōu)化工作的基礎(chǔ),同時也是工作人員必須具備的基礎(chǔ)性知識。

(一)隨機森林算法定義

總的來說,隨機森林是一個樹形分類器的集合,其中元分類器是使用CART算法來構(gòu)建的未剪枝的分類回歸樹,在樹形分類器的集合中,分別存在代表輸入向量的部分以及代表獨立同分布的隨機向量的部分,一般情況下,想要得出隨機森林算法的結(jié)果,主要應(yīng)通過投票法來實現(xiàn)。

隨機森林這一算法的核心特點體現(xiàn)在其隨機性,主要表現(xiàn)為以下兩方面:首先,在選取訓(xùn)練樣本集時,隨機森林算法要求必須用Bagging算法來實現(xiàn),且必須要隨機對樣本進行選擇,這是這一算法隨機性的第一點體現(xiàn)。其次,在對隨機森林算法進行應(yīng)用時,需要選取分裂屬性集,而這一算法隨機性的第二點體現(xiàn)便在于對分裂屬性集的選取方面。例如:假設(shè)樣本一共存在X個屬性,可以指定其中一個屬性數(shù)Y小于等于X,這樣一來,可以通過全部樣本X中隨機抽取Y個屬性,將其作為分裂屬性集,而分裂方式則可以有多種選擇,通常情況下,為提高分裂效率,節(jié)省分裂時間,相關(guān)人員往往會選擇最容易分裂的方式進行分裂。

(二)隨機森林的泛化誤差

作為隨機森林算法中的一項重要內(nèi)容,對隨機森林泛化誤差進行了解對于了解以及應(yīng)用整個隨機森林算法具有重要作用。

對此,可以對學(xué)習(xí)器的輸入向量以及輸出標(biāo)記進行假設(shè),前者可以假設(shè)為X,后者可以假設(shè)為Y,除此之外,還需要對角色樹節(jié)點特征的隨機向量進行表示,通過對各向量的整合,可以得出隨機向量的間隔函數(shù),如下所示:

mg(X,Y)=Pθ(h(X,Θ)=j)

在函數(shù)中,等號前邊的mg(X,Y)通常用來表示樣本數(shù)據(jù)被分對與分措的概率之差,因此,對隨機森林泛化性能的確定便可以通過分類器的分類效果來確定,而分類器的分類效果則可以通過間隔函數(shù)看出,通常情況下,三者成正比。

分類器集合的泛化誤差如下所示:

PE*=PX,Y(mg(X,Y)<0)

隨機森林分類強度如下所示:

S=EX,Y(mg(X,Y))

隨機森林的泛化誤差的估計結(jié)果如下所示:

PE*≤P〖TX-〗(1-S2)/S2

根據(jù)對隨機森林泛化誤差估計結(jié)果的分析,可以發(fā)現(xiàn),隨著隨機森林中分類樹數(shù)目的增長,這一算法不會導(dǎo)致過擬合。

三、基于隨機森林的可視化

(一)高維數(shù)據(jù)可視化

人們在對世界已經(jīng)事物的了解過程中,往往首先利用的感覺器官便為眼睛,高維數(shù)據(jù)的可視化便利用了人類的這一特征。目前,面對海量的高維數(shù)據(jù),其數(shù)據(jù)挖掘過程十分困難,高維數(shù)據(jù)的可視化可以將數(shù)據(jù)以直觀的圖像形式呈現(xiàn)給工作人員,這對于其了解數(shù)據(jù)的特征及分布情況具有重要意義,因此對于數(shù)據(jù)挖掘的結(jié)果也便能夠很好的理解。高維數(shù)據(jù)的可視化充分利用了人腦功能,相對于以往傳統(tǒng)的分析方法講得到了很大程度的進步。

在數(shù)據(jù)挖掘領(lǐng)域,應(yīng)用效果較好的高維數(shù)據(jù)可視化方法包括很多種,其中平行坐標(biāo)法便屬于其中一種,所謂的平行坐標(biāo)法主要指的是通過對多為空間的各屬性對應(yīng)映射到二位空間中等距離的多個平行坐標(biāo)軸上的方法,去使每個樣本都能夠用多個坐標(biāo)軸上點之間的連接線段連接來表示??偟膩碚f,平行坐標(biāo)法具有使用簡單、容易理解的特點,因此得到了數(shù)據(jù)挖掘領(lǐng)域足夠的重視。

臉譜圖也是高維數(shù)據(jù)可視化中的一種方法,這一方法是通過事先設(shè)置好的人臉去對多維信息進行表示的一種方法,其中,每一個設(shè)置好的人臉中,其器官都是存在差別的,根據(jù)對不同人臉器官大小以及形狀方面差別的分析,便可以得出多維信息不同的屬性。臉譜圖這一方法充分利用了人眼睛這一器官的特性,由于眼睛對于人臉種種特征的分析及處理具有相當(dāng)精確的特點,因此,利用臉譜圖的方法對多維數(shù)據(jù)進行分析也會較其他方法更為精確,同時,可視化的特點也使其分析效率得到了極大程度的提高。

可視化的方法對于多維數(shù)據(jù)屬性等方面的分析具有巨大價值,但一旦數(shù)據(jù)達(dá)到了更高的維度,其分析過程便會相應(yīng)變得困難,此時,傳統(tǒng)的可視化方法明顯已經(jīng)無法滿足具體的分析需要,將PCA與平行坐標(biāo)的數(shù)據(jù)可視化結(jié)合起來進行應(yīng)用對于解決這一方面的困難具有重要價值。PCA的應(yīng)用可以將高維數(shù)據(jù)降維,這樣一來,可視化方法的應(yīng)用便能夠很好的發(fā)揮其效果。

(二)基于隨機森林的有監(jiān)督降維技術(shù)

從本質(zhì)上講,隨機森林算法屬于一種分類器算法,這一算法作用的實現(xiàn)是在分類與回歸樹兩者結(jié)合的基礎(chǔ)上完成的,總的來說,隨機森林是采用Bagging這一方法去對分類樹進行創(chuàng)建的,并利用隨機子空間方法對上述分類樹進行處理。所謂的隨機子空間方法主要指的是通過對特征的隨機選擇來將其作為每個節(jié)點處的候選特征個數(shù)的一種方法,通過這一方法的定義可以看出,其主要特征是具有隨機性,這一性質(zhì)是造成其分類樹之間差異度巨大的一個主要原因,因此在對數(shù)據(jù)進行分類的過程中會較容易。巨大的差異度使得這一方法別越來越多的應(yīng)用在了實踐過程中,同時其應(yīng)用均取得了良好的效果。

四、實驗和結(jié)果分析

實驗過程對于分析面向高維數(shù)據(jù)的隨機

森林算法優(yōu)化的實現(xiàn)具有重要作用。實驗過程首先需要對數(shù)據(jù)及實驗進行設(shè)計,繼而可以通過對圖像的繪制對隨機森林可視化結(jié)果進行分析,最后將其與無監(jiān)督降維可視化進行對比,分析出哪一種更適應(yīng)可視化過程的完成。

(一)數(shù)據(jù)和實驗設(shè)置

實驗所采用的樣本集如下:

通過樣本集列表可以看出,本次實驗主要采用了五個高維數(shù)據(jù)集,分別是Prostate Tumor、Leukemia、SRBCT、LungCancer以及Madelon五種、前四個高維數(shù)據(jù)集的來源為基因數(shù)據(jù)庫網(wǎng)站,而后者的主要來源則是UCI數(shù)據(jù)庫。

本次試驗是在R語言的基礎(chǔ)上完成的,實驗對象主要為帶類標(biāo)的數(shù)據(jù)集,數(shù)據(jù)集中數(shù)據(jù)的分類情況較為清晰,同時也遵循可視化方法應(yīng)用的原理,因此通過本次實驗以及對實驗結(jié)果的分析,是有條件得出可視化的應(yīng)用水平及效果的,同時也能夠得出面向高維數(shù)據(jù)的隨機森林算法優(yōu)化的方法。

(二)基于隨機森林的可視化結(jié)果與分析

對降維前后數(shù)據(jù)可視化結(jié)構(gòu)的分析是基于隨機森林的可視化結(jié)構(gòu)分析的基礎(chǔ)??偟膩碚f,未經(jīng)降維的原樣本集具有非線性復(fù)雜度,因此,必須要對未經(jīng)降維的數(shù)據(jù)進行散點圖矩陣可視化。在上述過程完成之后,相關(guān)人員需要做的便是利用RF對源數(shù)據(jù)進行進行有監(jiān)督的降維處理。降維處理的過程需要通過對圖像的繪制來完成,通過對繪制過后圖像的分析,各類數(shù)據(jù)能夠被有效分開,這對于可視化過程的順利實現(xiàn)十分有利。

上述降維過程主要針對前四個數(shù)據(jù)集,而對于第五個數(shù)據(jù)集來說,由于其具有可分性差的特點,因此也就對降維過程提出了很大的挑戰(zhàn),大量的實驗以及實踐經(jīng)驗表明,基于RF默認(rèn)參數(shù)的降維方法對于這一數(shù)據(jù)集可視化的實現(xiàn)并不適用,因此,有必要對RF參數(shù)進行調(diào)整,使其可視化過程能夠得到最大程度的保證。對RF參數(shù)進行調(diào)整以計算出最適合Madelon數(shù)據(jù)集的可視化的過程同樣需要通過對圖像的繪制來完成,通過各個參數(shù)下所繪制的圖像的對比,工作人員可以很容易看出哪一參數(shù)對于其可視化的完成比較有利。

(三)與無監(jiān)督降維可視化結(jié)果對比與分析

作為高維數(shù)據(jù)可視化中的一種降維方法,RF不僅可以實現(xiàn)有監(jiān)督降維,同時也適用于無監(jiān)督降維,所謂的無監(jiān)督降維主要指的是通過無監(jiān)督學(xué)習(xí)后得出的樣本相似度度量。相對于有監(jiān)督降維來說,無監(jiān)督降維的主要特點是沒有真實數(shù)據(jù)的參與,通過繪制完成的圖像可以發(fā)現(xiàn),相對于有監(jiān)督降維可視化技術(shù)來說,無監(jiān)督降維可視化技術(shù)在有效性方面還有所欠缺。因此,在對RF降維技術(shù)進行利用的過程中,要盡可能的利用有監(jiān)督降維可視化技術(shù)來完成,如果其中存在諸如Madelon這種數(shù)據(jù)集,則可以通過對RF參數(shù)進行修改的方式來實現(xiàn)降維,從而實現(xiàn)對有監(jiān)督降維可視化技術(shù)的應(yīng)用。

五、結(jié)束語

通過上述文章可以看出,在高維數(shù)據(jù)不斷出現(xiàn)并發(fā)展的今天,對數(shù)據(jù)進行分析已近成為了數(shù)據(jù)挖掘領(lǐng)域的一大難題。將隨機森林算法應(yīng)用到高維數(shù)據(jù)的分析中,對于分析結(jié)果準(zhǔn)確性及有效性的保證十分重要。高維數(shù)據(jù)的可視化對于其分析效率的提高具有重要作用,可視化過程可以通過RF降維來實現(xiàn),而RF降維又包括有監(jiān)督降維由無監(jiān)督降維兩種,實驗結(jié)果證明,前者相對于后者來說具有更高的利用價值。在利用隨機森林算法對高維數(shù)據(jù)進行分析與運算的過程中需要嚴(yán)格保證其隨機性,這對于計算過程十分重要。(作者單位:霍尼韋爾航空航天部門)

參考文獻(xiàn):

[1]姚登舉;楊靜;詹曉娟.基于隨機森林的特征選擇算法[J].吉林大學(xué)學(xué)報(工學(xué)版),2014(01).

[2]吳瀟雨;和敬涵;張沛;胡駿.基于灰色投影改進隨機森林算法的電力系統(tǒng)短期負(fù)荷預(yù)測[J].電力系統(tǒng)自動化,2015(12).

[3]黃哲學(xué);曹付元;李俊杰;陳小軍.面向大數(shù)據(jù)的海云數(shù)據(jù)系統(tǒng)關(guān)鍵技術(shù)研究[J].網(wǎng)絡(luò)新媒體技術(shù),2012(06).

[4]尹華;胡玉平.基于隨機森林的不平衡特征選擇算法[J].中山大學(xué)學(xué)報(自然科學(xué)版),2014(05).

[5]吳瓊;李運田;鄭獻(xiàn)衛(wèi).面向非平衡訓(xùn)練集分類的隨機森林算法優(yōu)化[J].工業(yè)控制計算機,2013(07).

[6]張雷;王琳琳;張旭東;劉世榮;孫鵬森;王同立.云南松分布模擬為例[J].生態(tài)學(xué)報,2014(03).

猜你喜歡
優(yōu)化
超限高層建筑結(jié)構(gòu)設(shè)計與優(yōu)化思考
PEMFC流道的多目標(biāo)優(yōu)化
能源工程(2022年1期)2022-03-29 01:06:28
民用建筑防煙排煙設(shè)計優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
由“形”啟“數(shù)”優(yōu)化運算——以2021年解析幾何高考題為例
圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
事業(yè)單位中固定資產(chǎn)會計處理的優(yōu)化
4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
幾種常見的負(fù)載均衡算法的優(yōu)化
電子制作(2017年20期)2017-04-26 06:57:45
福建省| 兴文县| 塔河县| 巨野县| 黄冈市| 塘沽区| 乌鲁木齐县| 利津县| 论坛| 呈贡县| 乐清市| 怀来县| 城固县| 清远市| 甘孜| 旅游| 介休市| 凤台县| 涡阳县| 湖口县| 东明县| 寿宁县| 九江县| 铜山县| 沽源县| 柞水县| 玉门市| 安顺市| 当阳市| 绥芬河市| 额济纳旗| 康马县| 漳平市| 二手房| 雷波县| 东丰县| 年辖:市辖区| 云龙县| 香港| 瑞金市| 都兰县|