張琪琪
摘 要 在大數(shù)據(jù)背景之下,數(shù)據(jù)挖掘技術(shù)已經(jīng)在商業(yè)、金融業(yè)和市場營銷等方面得到了廣泛的應(yīng)用。本文主要介紹了分箱離散化技術(shù)處理連續(xù)數(shù)據(jù),再使用改進(jìn)C4.5算法去構(gòu)建決策樹,并且利用后剪枝算法進(jìn)行模型優(yōu)化,不僅減少運(yùn)算的時(shí)間,提高運(yùn)算效率,而且增加了模型的準(zhǔn)確性。該方法應(yīng)用于企業(yè)員工培訓(xùn),對影響培訓(xùn)結(jié)果的員工年齡,性別,工齡,試卷難易程度,理論知識的學(xué)習(xí)以及實(shí)操課課時(shí)的安排情況等因素進(jìn)行分析,找到影響培訓(xùn)結(jié)果的關(guān)鍵因素,從而為企業(yè)或者公司制定出合理的培訓(xùn)計(jì)劃,提高員工培訓(xùn)的質(zhì)量,進(jìn)而提升企業(yè)的競爭力。
關(guān)鍵詞 分箱技術(shù) 數(shù)據(jù)挖掘 決策樹 C4.5算法
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A
0引言
企業(yè)對于員工的培訓(xùn),不僅能夠提高員工的知識水平和技能要求,而且增加了本企業(yè)所具有的獨(dú)特性,能夠區(qū)別于市場,占據(jù)一定的市場份額,日積月累也會成為本企業(yè)談判的籌碼。培訓(xùn)質(zhì)量的高低又關(guān)聯(lián)到了諸多的因素,例如員工年齡,性別差異,工齡長短,理論知識的學(xué)習(xí)以及實(shí)操課課時(shí)的安排情況等。選取決策樹C4.5算法進(jìn)行深層次的內(nèi)部挖掘,找出關(guān)鍵因素,讓決策制定者可以有明確的方向去努力,從而制定出合理高效的培訓(xùn)方案。
1決策樹
決策樹是一種比喻的說法,因?yàn)槠渖傻男螤铑愃朴谝豢玫沽⒌拇髽?,所以命名為“決策樹”。決策樹是由根節(jié)點(diǎn),分支,葉節(jié)點(diǎn)組成。對于根節(jié)點(diǎn)而言,它沒有父節(jié)點(diǎn),只有朝下的各個(gè)子節(jié)點(diǎn),葉節(jié)點(diǎn)作為最后一層節(jié)點(diǎn)沒有子節(jié)點(diǎn),在根節(jié)點(diǎn)和葉節(jié)點(diǎn)之外的所有節(jié)點(diǎn)都成為內(nèi)部節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都對應(yīng)一個(gè)數(shù)據(jù)樣本集。根節(jié)點(diǎn)和內(nèi)部節(jié)點(diǎn)都包含有一個(gè)對于屬性的測試,其分支用于將各個(gè)子節(jié)點(diǎn)連接起來,代表測試的結(jié)果,可以根據(jù)測試的結(jié)果將樣本集劃分為多個(gè)子集。每一個(gè)葉節(jié)點(diǎn)對應(yīng)于一個(gè)類別標(biāo)識符,表示對應(yīng)樣本集的類別。
2 C4.5改進(jìn)算法
在計(jì)算信息增益率時(shí),與ID3算法相比,C4.5算法用信息增益率代替了信息增益,找出其中信息增益率最高的屬性作為測試屬性,把候選樣本集劃分為若干子樣本集,對于每一個(gè)子樣本集用同樣的方法繼續(xù)分割直到不可分割或到達(dá)停止條件為之。
其中A是某一屬性,D是樣本數(shù)據(jù),v是對應(yīng)于A上測試的v個(gè)輸出,可以用屬性A劃分v個(gè)分區(qū)或者子集。
ID3中計(jì)算信息增益的式子如(2)所示:
(1)
(2)
而在C4.5改進(jìn)算法中,信息增益率代替了信息增益,其中Gain(A)=Grain(A)如下式(3)所示:
(3)
(4)
3分箱離散化技術(shù)在員工培訓(xùn)結(jié)果模型中的應(yīng)用
在C4.5改進(jìn)算法中,對于最佳分裂點(diǎn)的求取,即就是信息增益率最大的點(diǎn)的獲取一般都是要經(jīng)過對于劃分的原始樣本進(jìn)行多次掃描才能得到。假設(shè)對于一個(gè)樣本A,其屬于連續(xù)屬性,首先需要對于A中的值按照升序排列,就其一種比較典型的分裂方式來說,對于給定的A中的v個(gè)值,則需要v-1個(gè)可能的劃分。A的值ai和ai+1之間的中點(diǎn)就應(yīng)該是式子(5)所示:
(5)
這樣分割點(diǎn)就將樣本集劃分為兩個(gè)子集,分別是A≤v和A>v,分別計(jì)算每個(gè)分割點(diǎn)的信息增益率,選擇具有最大信息增益率Gain Ratio(v)的分割點(diǎn),而在序列v1,v2,…Vn中找到的最接近但又不超過局部閾值v的取值V成為屬性A的分割閾值。按照上述方法求出當(dāng)前候選屬性集中所有屬性的信息增益率,按照這樣的方法,直至對于每個(gè)樣本集不能分割為止。
針對以上方法在找取最佳分割點(diǎn)時(shí),多次掃描數(shù)據(jù)的問題,提出的分箱離散化技術(shù),對于樣本數(shù)據(jù)提前進(jìn)行分化處理,按照升序順序后采用等量劃分的思想,將數(shù)據(jù)存放入箱子中,每個(gè)箱子就看做一個(gè)新的樣本點(diǎn),這個(gè)數(shù)據(jù)的取值就是該箱子中所有數(shù)據(jù)的平均值,在遇到小數(shù)時(shí)采用四舍五入法,將其取整。
假設(shè)某一樣本中的部分?jǐn)?shù)據(jù)如下:
1,2,2,4,4,4,5,6,7,7,7,8,8,10,12,12,14,16,16,17
按照每箱5個(gè)數(shù)據(jù)進(jìn)行分箱操作:
1,2,2,4,4 對應(yīng)的數(shù)據(jù)點(diǎn)是 3
4,5,6,7,7 對應(yīng)的數(shù)據(jù)點(diǎn)是 6
7,8,8,10,12 對應(yīng)的數(shù)據(jù)點(diǎn)是 9
12,14,16,16,17 對應(yīng)的數(shù)據(jù)點(diǎn)是 15
這樣,這個(gè)部分樣本數(shù)據(jù)就變?yōu)榱?,6,9,15。與之前的一大串相比,確實(shí)簡化了數(shù)據(jù)樣本。這樣的操作相較于C4.5算法中尋找最佳分割點(diǎn)的方法要簡便許多,在同樣大的樣本下,經(jīng)過比較,該方法因?yàn)榍捌诘姆窒漕A(yù)處理數(shù)據(jù)之后,減少了許多的噪聲數(shù)據(jù)和冗余數(shù)據(jù),使得運(yùn)算的速度大大提高,準(zhǔn)確率也更靠近樣本原始數(shù)據(jù),有所提升。
4結(jié)束語
分箱離散化技術(shù)的應(yīng)用,使得改進(jìn)的C4.5算法在使用性能等各方面更加的良好,改掉了以往C4.5算法在數(shù)據(jù)預(yù)處理階段多次重復(fù)掃描數(shù)據(jù)的情況,減少了資源和時(shí)間的浪費(fèi)。分箱技術(shù)也更簡便快捷,沒有大量復(fù)雜的計(jì)算過程,簡便的計(jì)算就能快速的完成分箱造作,對于信息增益率的求取數(shù)目也大大減少,加快了決策樹的形成。
參考文獻(xiàn)
[1] 董曉娜.A公司人力資源培訓(xùn)體系優(yōu)化研究[D].北京:北京交通大學(xué).2017.
[2] 傅亞莉.數(shù)據(jù)挖掘技術(shù)C4.5算法在成績分析中的應(yīng)用[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2013.
[3] 黃愛輝.基于決策樹算法的考試成績分析系統(tǒng)的研究與開發(fā)[D].長沙:湖南大學(xué),2008.
[4] 韓家煒,裴健.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社,2012.