晏杰
(武夷學(xué)院 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,福建 武夷山 354300)
決策樹算法的研究及其在大學(xué)生心理健康數(shù)據(jù)處理中的應(yīng)用
晏杰
(武夷學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院,福建武夷山354300)
摘要:決策樹分類是數(shù)據(jù)挖掘中的一種重要方法。探討了決策樹算法的基本思想和常用算法,并將決策樹挖掘技術(shù)應(yīng)用于大學(xué)生心理健康數(shù)據(jù),分析挖掘影響大學(xué)生心理健康的因素。文章選擇C5.0算法,通過Clemen?tine12.0進(jìn)行決策樹挖掘模型的構(gòu)建,建立數(shù)據(jù)流,通過不斷測(cè)試分析,發(fā)現(xiàn)影響大學(xué)生心理健康主要癥狀是強(qiáng)迫癥。以強(qiáng)迫癥為分類目標(biāo)查看模型,可以了解到焦慮癥和人際關(guān)系也起到很大的影響作用。將目標(biāo)屬性分別設(shè)置為焦慮_程度和人際關(guān)系_程度,輸出變量設(shè)為剩余的9個(gè)因子變量,執(zhí)行數(shù)據(jù)流挖掘出導(dǎo)致強(qiáng)迫癥的主要原因,為指導(dǎo)心理健康的工作人員提供參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;心理健康;大學(xué)生
隨著社會(huì)的迅速發(fā)展,科學(xué)技術(shù)不斷進(jìn)步,人們的生活節(jié)奏在不斷加快。由于大學(xué)生受到來自不同方面的壓力,形成了復(fù)雜多樣的大學(xué)生心理問題,使得心理健康教育成為各高校正視大學(xué)生教育的重要內(nèi)容之一,對(duì)于大學(xué)生今后的人生規(guī)劃及健康發(fā)展具有重要意義。大多數(shù)高校在新生報(bào)到時(shí),采用癥狀自評(píng)量表SCL-90進(jìn)行心理健康測(cè)試,雖然積累了海量的心理數(shù)據(jù),但是僅僅停留在表面工作上,導(dǎo)致大量有用的規(guī)則和模式不能被提取,心理健康檔案沒有充分發(fā)揮它的作用。因此,本文借助數(shù)據(jù)挖掘中的決策樹技術(shù)對(duì)心理數(shù)據(jù)進(jìn)行挖掘,說明數(shù)據(jù)挖掘技術(shù)在學(xué)校的大學(xué)生心理輔導(dǎo)和決策中提供的參考作用。
顧名思義,決策樹是一棵樹,用來表示人們?yōu)榱俗龀瞿硞€(gè)決策而進(jìn)行的一系列判斷過程。決策樹算法采用的是自上而下的遞歸方式[1],其構(gòu)造的主要元素為訓(xùn)練元組及其相關(guān)標(biāo)號(hào),是一種逼近離散函數(shù)值的方法。同時(shí)它也是一個(gè)典型的分類方法,第一步是決策樹算法對(duì)數(shù)據(jù)進(jìn)行處理,然后基于歸納算法進(jìn)行可讀規(guī)則或決策樹的計(jì)算,接著對(duì)構(gòu)造好的決策樹進(jìn)行數(shù)據(jù)分析與處理。
決策樹的基本思想是對(duì)于給定的一組屬性,構(gòu)造決策樹的數(shù)量能夠達(dá)到某個(gè)高度。盡管存在更準(zhǔn)確的決策樹,但由于搜索的空間限制為指數(shù)級(jí),所以要找到最佳的決策樹在計(jì)算上是不可行的[2]。想要在合理的時(shí)間內(nèi),找到一個(gè)準(zhǔn)確率比較高的最佳決策樹,采用的算法非貪心算法莫屬,以一系列的局部最優(yōu)決策構(gòu)建決策樹分類數(shù)據(jù)。
2.1 ID3算法
ID3算法是由J R QUINLAN在1979年提出來的,主要針對(duì)離散型屬性數(shù)據(jù)。該算法利用信息增益最大的屬性建立決策樹,為了能獲得關(guān)于被測(cè)試記錄最大的類別信息,用信息增益作為屬性的選擇標(biāo)準(zhǔn),對(duì)每一個(gè)非結(jié)點(diǎn)進(jìn)行測(cè)試。通常采用這種方式選擇節(jié)點(diǎn)屬性是為了確保擁有最少的分支數(shù)量和最小的冗余度的決策樹。
ID3算法的基本策略如下[3]:
(1)樹開始于單個(gè)節(jié)點(diǎn)來代表訓(xùn)練樣本,它沒有入邊,但有零條或多條出邊;
(2)如果樣本都在同一個(gè)類中,則這個(gè)節(jié)點(diǎn)成為樹葉結(jié)點(diǎn)并標(biāo)記為該類別,即為內(nèi)部節(jié)點(diǎn),恰有一條入邊和兩條或多條出邊;
(3)否則為了幫助選擇合適的將樣本分類的屬性,算法將使用信息熵(稱為信息增益)作為啟發(fā)知識(shí),使特定樣本被分成幾個(gè)子集。該屬性就是一個(gè)測(cè)試屬性或相應(yīng)節(jié)點(diǎn)的審判屬性,且所有的屬性必須是離散值;
(4)測(cè)試屬性中的值都是已知的,若它是離散值,那么建立正確的分支,并據(jù)此劃分樣本;
(5)使用同樣的過程,自上而下的遞歸,直到滿足給定結(jié)點(diǎn)的所有樣本屬于同一類,沒有剩余屬性可以用來劃分樣本和分枝沒有樣本3個(gè)條件之一成立時(shí)就停止遞歸。
2.2 C4.5算法
C4.5算法是構(gòu)建決策樹中常用的一種算法,它形象直觀。C4.5算法在ID3算法的基礎(chǔ)上進(jìn)行了改進(jìn),不僅擁有ID3算法的優(yōu)點(diǎn),還增加了以下幾項(xiàng)功能:①用信息增益比例的概念;②合并具有連續(xù)值的屬性進(jìn)行;③可以對(duì)缺少屬性值的訓(xùn)練樣本進(jìn)行處理;④為了避免樹的不平衡可以通過使用不同的修剪技術(shù);⑤K次迭代交叉驗(yàn)證;⑥規(guī)則的產(chǎn)生。
使用C4.5算法訓(xùn)練所得的決策樹,不僅可以做狀態(tài)判斷樹,而且更有價(jià)值的是決策樹本身的結(jié)構(gòu)所表現(xiàn)出來的附加含義,即決策樹中的各個(gè)因素對(duì)目標(biāo)屬性的影響程度。一般情況下,如果某個(gè)屬性與目標(biāo)屬性完全相關(guān)時(shí),則完全可以由該屬性推測(cè)出目標(biāo)屬性的變化情況。根據(jù)C4.5算法原理可以了解到,決策樹選擇在信息增量最大的屬性上進(jìn)行節(jié)點(diǎn)的分裂[4],即對(duì)目標(biāo)屬性影響最大的因素就是決策樹中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的屬性。也就是說,一個(gè)屬性在決策樹中所處的位置越接近根節(jié)點(diǎn),則表示它對(duì)目標(biāo)屬性的影響作用就越大。C4.5算法當(dāng)訓(xùn)練集大得無法在內(nèi)存容納時(shí),程序就無法運(yùn)行,因此C4.5算法也只適合能夠駐留于內(nèi)存的數(shù)據(jù)集。
2.3 C5.0算法
C5.0是在C4.5的基礎(chǔ)上擴(kuò)展出來的,它屬于經(jīng)典的決策樹模型的算法之一,而且它是Clementine12.0的決策樹模型中的算法。它生成的決策樹有很多分支,目標(biāo)變量為分類變量,使用C5.0算法不僅生成決策樹還可以生成推理規(guī)則集。一般來說,C5.0模型要?jiǎng)澐謽颖救Q于能夠帶來最大信息增益的屬性[5]。C5.0算法可以處理數(shù)據(jù)不完整性,而且可以對(duì)不適合的屬性進(jìn)行標(biāo)記,保持資料的完整,還可以處理多種數(shù)據(jù)類型,如date、times、timestamps等,數(shù)據(jù)處理速度更快,內(nèi)存占用方面的性能大大提高,由于采用了提升(Boosting)方法,產(chǎn)生的決策樹是較小的,擁有更高的分類精度。其優(yōu)點(diǎn)主要表現(xiàn)為:在面對(duì)數(shù)據(jù)遺漏和輸入字段很多的問題時(shí)非常穩(wěn)??;通常不需要很長(zhǎng)的訓(xùn)練次數(shù)進(jìn)行估計(jì);C5.0模型比一些其他類型的模型易于理解,模型推出的規(guī)則有非常直觀的解釋;提供強(qiáng)大技術(shù)以提高分類的精度。但C5.0算法對(duì)連續(xù)性的字段比較難預(yù)測(cè)。
3.1 數(shù)據(jù)的選擇和預(yù)處理
本研究采用的數(shù)據(jù)來源于福建省某高校某一年級(jí)學(xué)生的SCL_90心理數(shù)據(jù),本次測(cè)試有1 643人,女生989人,男生654人。
數(shù)據(jù)挖掘的最關(guān)鍵的步驟是數(shù)據(jù)預(yù)處理,為了準(zhǔn)備用于建模的有效數(shù)據(jù)集,這一步在挖掘中是最耗時(shí)的過程[6]。數(shù)據(jù)預(yù)處理分為數(shù)據(jù)選擇、數(shù)據(jù)清洗、數(shù)據(jù)綜合、數(shù)據(jù)格式的子任務(wù)。因?yàn)檫x取的數(shù)據(jù)較多,存在著雜亂性、重復(fù)性和不完整,要保證數(shù)據(jù)的質(zhì)量就要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。對(duì)于選擇影響心理癥狀的屬性時(shí),分析數(shù)據(jù)表格,選取數(shù)據(jù)較全、特殊的屬性,如性別、家庭收入、是否單親等。對(duì)表中具有連續(xù)值的屬性,若存在缺失值,則填補(bǔ)該屬性值的平均值;若屬性的值為離散化存在缺失值,則找出出現(xiàn)頻率最高的屬性值,并用這個(gè)值來填補(bǔ)缺失值。
3.2 決策樹模型的構(gòu)建
采用Clementine12.0作為挖掘工具,它包含了多種算法模型,其中決策樹算法有:C&Rs樹、C5.0、CHAID、QUEST等模型,本文選擇C5.0算法,建立的數(shù)據(jù)流如圖1所示[7]。
圖1 決策樹挖掘數(shù)據(jù)流Fig.1 Data flow of date mining of decision tree
通過不斷測(cè)試分析,影響大學(xué)生心理健康主要癥狀是強(qiáng)迫癥。所以以強(qiáng)迫癥為分類目標(biāo)查看模型,可以得出如圖2所示的結(jié)果;根據(jù)C5.0算法原理,從圖2可以了解到焦慮癥和人際關(guān)系也起到很大的影響作用。將目標(biāo)屬性分別設(shè)置為焦慮_程度和人際關(guān)系_程度,輸出變量設(shè)為剩余的9個(gè)因子變量,執(zhí)行數(shù)據(jù)流,結(jié)果分別如下圖3和圖4所示;挖掘出導(dǎo)致強(qiáng)迫癥的主要原因如圖5所示。
圖2 強(qiáng)迫癥狀_程度模型結(jié)果Fig.2 Model of compulsion_degree
圖3 焦慮_程度模型結(jié)果Fig.3 Model of anxiety_degree
圖4 人際關(guān)系_程度模型結(jié)果Fig.4 Model of social relationship_degree
圖5 強(qiáng)迫癥狀決策樹挖掘結(jié)果Fig.5 Results of decision tree data mining of compulsion
3.3 評(píng)估和建議
從各個(gè)角度分析來看,整體而言,大學(xué)生的心理素質(zhì)是健康的。在此次應(yīng)用中,大學(xué)生心理中的強(qiáng)迫這項(xiàng)因子比率占據(jù)比較高。根據(jù)C5.0算法原理可知,焦慮、人際關(guān)系、偏執(zhí)這3項(xiàng)對(duì)目標(biāo)屬性強(qiáng)迫癥影響作用很大。
由圖2可以看出,若焦慮_程度=中,不論人際關(guān)系_程度如何,都有強(qiáng)迫癥傾向;若焦慮_程度=無時(shí),當(dāng)偏執(zhí)_程度=[輕、中],強(qiáng)迫癥狀_程度=輕,當(dāng)偏執(zhí)_程度=無,則與人際關(guān)系和敵對(duì)等有關(guān)系,若偏執(zhí)_程度="重" "極重",則強(qiáng)迫癥狀_程度=無;若焦慮_程度=輕,不論人際關(guān)系_程度如何,都有強(qiáng)迫癥傾向;若焦慮_程度=重,強(qiáng)迫癥狀_程度=中。
由圖3可以看出,若抑郁_程度=中,焦慮_程度=中;若抑郁_程度=無時(shí),當(dāng)恐怖_程度=中,焦慮_程度=輕,當(dāng)恐怖_程度=[無、輕、重],幾乎不存在焦慮;若抑郁_程度=輕,強(qiáng)迫癥狀_程度=無時(shí),不存在焦慮傾向;若抑郁_程度=重,焦慮_程度=重。
由圖4可以看出,若抑郁_程度=中,人際關(guān)系_程度=中;若抑郁_程度=無時(shí),當(dāng)恐怖_程度=輕且存在精神病時(shí),人際關(guān)系_程度=輕;若抑郁_程度=輕,存在強(qiáng)迫癥時(shí),則人際關(guān)系方面都存在問題。
由圖5可以看出在已知的挖掘結(jié)果中,發(fā)現(xiàn)導(dǎo)致大學(xué)生心理產(chǎn)生強(qiáng)迫癥的原因主要分布在家庭氛圍、家庭結(jié)構(gòu)、來源地。在和諧的家庭中長(zhǎng)大的孩子,身心愉悅,而家庭中充滿了爭(zhēng)吵,冷淡、溺愛、暴力,孩子的身心必然受創(chuàng),導(dǎo)致孩子心理健康問題也越來越多,越來越嚴(yán)重。健康家庭的孩子對(duì)生活充滿希望,對(duì)自己的感情生活也非常有信心。父母雙亡的大學(xué)生由于父母關(guān)愛的缺失,缺乏安全感,神經(jīng)敏感、感情脆弱,做事情總是畏首畏尾,其心理問題極為顯著。單親或父母離異的不健全家庭,總會(huì)不同程度、不同層面地對(duì)子女的心理健康有所傷害。
對(duì)于大學(xué)生來說,在學(xué)校提高心理素質(zhì),引導(dǎo)他們順利度過大學(xué)時(shí)光是十分重要的[8]。心理輔導(dǎo)工作者在與學(xué)生交流或接觸中,不僅要留意存在強(qiáng)迫癥的學(xué)生,也要多關(guān)注存在焦慮、人際關(guān)系癥狀的同學(xué)的行為舉止,做好預(yù)防工作。通過開設(shè)心理講座或課外心理教程,完善心理健康教育主渠道,采用多種多樣的教育方法,充實(shí)心理健康教育的內(nèi)容,同時(shí)備齊專業(yè)的心理輔導(dǎo)隊(duì)伍,這對(duì)于提高大學(xué)生整體心理健康水平是很重要的。
本文探討了決策樹算法的基本思想和常用算法,嘗試在大學(xué)生心理健康癥狀分析中引入數(shù)據(jù)挖掘技術(shù),利用數(shù)據(jù)挖掘工具Clementine12.0從數(shù)據(jù)中挖掘?qū)е麓髮W(xué)生心理問題的各因素之間的關(guān)系及主要因素等,從而發(fā)現(xiàn)了大量數(shù)據(jù)背后隱藏的規(guī)律與模式,為學(xué)校開展心理健康教育的規(guī)劃、決策提供更有效、更科學(xué)的依據(jù),使學(xué)校的心理輔導(dǎo)工作更有針對(duì)性。
參考文獻(xiàn)(References)
[1]紀(jì)希禹,韓秋明,李微.數(shù)據(jù)挖掘技術(shù)實(shí)例[M].北京:機(jī)械工業(yè)出版社,2009.
[2]張婧.基于數(shù)據(jù)挖掘的汽車售后服務(wù)業(yè)客戶消費(fèi)行為分析研究[D].武漢:武漢理工大學(xué),2009.
[3]高玉蓉.基于決策樹的土地利用現(xiàn)狀信息提前研究[D].杭州:浙江大學(xué),2006.
[4]吳小剛,周萍,彭文惠.決策樹算法在大學(xué)生心理健康測(cè)評(píng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2011(10):240-244.
[5]薛薇,陳歡歌.Clementine數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:電子工業(yè)出版社,2010.
[6]亓文娟,晏杰,郭磊,等.關(guān)聯(lián)規(guī)則挖掘在大學(xué)生心理健康測(cè)評(píng)系統(tǒng)中的應(yīng)用研究[J].湖南工業(yè)大學(xué)學(xué)報(bào),2013(11):94-99.
[7]熊蜀峰,聶黎明.基于C5.0算法的學(xué)生成績(jī)分析決策樹構(gòu)造[J].科技信息,2010(8):24-25.
[8]姜松.當(dāng)代大學(xué)生心理健康問題分析及教育方法[J].教育教學(xué)論壇,2014(3):55-56.
(責(zé)任編輯:范建鳳)
Research on Decision Tree and Its Application on Students′Mental Health Data Treatment
YAN Jie
(College of Mathematics and Computer Science,Wuyi University,Wuyishan 354300,F(xiàn)ujian,China)
Abstract:Classification of decision tree is an important method in data mining.The basic ideas and common algorithms of decision tree algorithm are discussed,the decision tree mining is applied to students′mental health data analysis,and to analyse the impacting factors on students′mental health.With the C5.0 algorithm,performed by Clementine 12.0,the decision tree mining model was constructed,the data flow was also set,with continuous test and analysis,discovered that compulsion was the main symptom which impacted the mental health of students.To view the model with compulsion as the classification object,it can be find out that anxiety and social relationship also have big influences.The target attribute were set as anxiety_degree and social relationship_degree,output variables were set as the left nine factors,dug out the main factors which cause the compulsion,to provide the reference to the mental health domain.
Keywords:data mining;decision tree;mental health;student
作者簡(jiǎn)介:晏杰(1977—),男,講師,碩士,研究方向:計(jì)算機(jī)應(yīng)用、算法與數(shù)據(jù)結(jié)構(gòu)及數(shù)據(jù)挖掘。
基金項(xiàng)目:福建省“大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃”項(xiàng)目(201310397022);武夷學(xué)院??蒲谢鹳Y助項(xiàng)目(XL201307)
收稿日期:2015-05-11
DOI:10.16389/j.cnki.cn42-1737/n.2015.04.016
中圖分類號(hào):TP391;R195
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1673-0143(2015)04-0371-05