基于決策樹的薪資結構普查模型研究

2018-07-12 10:42盧昊寬文漢云

電腦知識與技術 2018年12期

盧昊寬文漢云

摘要：在對薪資結構進行普查時，由于薪資具有隱私的特性和各種不確定的因素，導致普查過程越來越難，精確度、時效性越來越低。為了快速、準確地了解薪資水平與結構，該文通過使用決策樹模型對Adult數(shù)據(jù)集進行判斷、訓練，生成對應的薪資劃分模型，將影響薪資階級的各個屬性建立起相應的關聯(lián)，可以分析與預測人們的生活水平與影響因素，仿真的結果表明決策樹模型能夠進行真實預測。

關鍵詞：薪資結構普查；決策樹；薪資劃分模型；數(shù)據(jù)集

中圖分類號：TP301 文獻標識碼：A 文章編號：1009-3044（2018）12-0265-02

決策樹算法的核心是歸納學習算法，最基本的特點是運算速度快、結果簡單、易于理解、方便將得到的模型轉換成對應的規(guī)則[1]。因此決策樹常常用于預測模型的生成[2-3]，對未來的數(shù)據(jù)進行預測。在薪資調查中由于個人隱私以及工作變動等問題存在，導致直接通過群眾調查結果存在著較大的誤差。希望能夠通過決策樹算法對已擁有的薪資數(shù)據(jù)進行訓練，得到一個較為精確的分類模型[4]，進一步縮短薪資普查周期、提高數(shù)據(jù)精確度以及真實度。

1 決策樹基本原理簡介

1.1決策樹算法理論

決策樹（Decision Tree）是一類基于回歸問題的對實例進行分類的樹形結構。決策樹呈樹狀結構，其模型類似于數(shù)據(jù)結構中的樹形圖[5]。在分類問題中，表示基于特征對實例進行分類的過程。它可以認為是if-then規(guī)則的集合，也可以認為是定義在特征空間與類空間上的條件概率分布，圖1是典型的決策樹：

ID3決策樹（Iterative Dichotomiser 3）算法，是Ross Quinlan發(fā)明的一種決策樹算法，該算法的特點是簡潔、運用廣泛。它是以奧卡姆剃刀原理為核心，盡量用較少的資源做更多的事情，因此對于該算法而言，越是小型的決策樹越優(yōu)于大的決策樹[6-7]。

1.2 C4.5決策樹算法介紹

C4.5決策樹算法是一種基于ID3決策樹算法改進后的一種算法，其與ID3決策樹算法最主要的區(qū)別是在于C4.5算法不再使用ID3決策樹算法的信息增益，而是使用了信息增益率這個概念。

2 決策樹在薪資結構普查中的應用

2.1數(shù)據(jù)源獲取

本文的數(shù)據(jù)來源于UCI機器學習庫的Adult數(shù)據(jù)集，該集合主要包含兩個部分，訓練集adult.data與adult.test。其中adult.data包含了32561調數(shù)據(jù)，總計有workclass、education、 occupation、relationship等總計16項屬性。

2.2薪資結構普查決策樹模型生成方案及流程

薪資結構普查決策樹算法：

Input：DataSet（adult.data），featureList（包含篩選過后的13個屬性集合）

Output：決策樹T

C4.5（DataSet，featureList）

Begin：

創(chuàng)建決策樹T，令T={}

創(chuàng)建根結點R

If：當前DataSet中的數(shù)據(jù)都屬于同一類

標記R的類別為該類，將R加入決策樹T。并返回T。

End If

If：當前featureList集合為空

標記R的類別為當前DataSet中樣本最多的類別，將R加入決策樹T。并返回T。

While（如果featureList不為空）

從featureList中選擇屬性F（選擇G_Ratio（DataSet，F(xiàn)）最大的屬性）

根據(jù)F的每一個值V，將DataSet劃分為不同的子集DS，對于每個DS：

·創(chuàng)建結點C

·IF：DS為空

結點C標記為DataSet中樣本最多的類

·Else

結點C=C4.5（DS，featureList-F）

·將結點C添加為R的子結點

End While

Return T

整體方案流程圖：

3 結果與討論

本算法是基于Python語言，PyCharm開發(fā)環(huán)境進行實現(xiàn)的，通過訓練數(shù)據(jù)adult.data對決策樹進行訓練建模，再通過測試數(shù)據(jù)對訓練所得的決策樹模型進行檢測，最終通過測試到的訓練所得的決策樹模型的正確率。并分別將決策樹模型與樸素貝葉斯算法（NaiveBayes），最近鄰算法（Nearest-neighbor）的正確率進行對比。

圖3為決策樹模型的測試結果，如圖所示，該程序主要分為三個部分：模型訓練、模型測試、以及模型正確率檢測，其中模型測試正確率高達85.54%，相比其他分類模型更為精確。

該算法在構建時易于實現(xiàn)，產(chǎn)生的分類規(guī)則容易理解，相對于其他分類算法而言精確率較高。但在決策樹構造過程當中需要進行多次的排序，因此需要花費大量時間，導致算法效率較低，并且可能出現(xiàn)過擬合情況。因此，該算法適用于非實時性的數(shù)據(jù)分析，并可建立所對應分類的影響屬性的關聯(lián)性。

4 結束語

該模型在訓練過程中表現(xiàn)較好，其正確率優(yōu)于其他傳統(tǒng)的分類模型，建立的分類規(guī)則通俗易懂，并成功的避免了大規(guī)模的薪資調查，可以盡量減少對他人隱私的關注，能夠合情合理地對未來的信息階級變化進行預測。但決策樹模型尚處于研究階段，由于需要對數(shù)據(jù)集進行多次掃描與排序，在部分情況下執(zhí)行效率相對較低。決策樹模型能使用于絕大多數(shù)場景，適應性較強，具有較大的應用價值，特別是在分類場合中。相信在未來，隨著決策樹算法的不斷優(yōu)化，決策樹算法來挖掘的數(shù)據(jù)越多，算法的效率和性能越好，算法的優(yōu)越性就越明顯。

參考文獻：

[1]潘琛，杜培軍，張海榮.決策樹分類法及其在遙感圖像處理中的應用[J].中國礦業(yè)大學地理信息與遙感科學系，測繪科學，2008，33（1）：76-78.

[2]楊靜，張楠男.決策樹算法的研究與應用[J].計算機技術于發(fā)展，2010，22（2）：116-120.

[3]馮少榮.決策樹算法的研究與改進[J].廈門大學學報，2007，46（4）：496-500.

[4]于卓.應用決策樹構建個人住房貸款風險評估模型[D].東北財經(jīng)大學，2007.

[5]唐華松，姚耀文.數(shù)據(jù)挖掘中決策樹算法的探討[J].計算機應用研究，2001（8）：18-22.

[6]戴南.基于決策樹的分類方法研究[D].南京師范大學，2003.

[7]張棪，曹健.運動目標圖像檢測與跟蹤問題研究[J].計算機科學，2016，43（6A）：374-383.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于決策樹的薪資結構普查模型研究