国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

C4.5算法在大學生心理健康分析中的應(yīng)用

2016-09-20 08:14江家龍秦亮曦
現(xiàn)代計算機 2016年21期
關(guān)鍵詞:剪枝決策樹心理健康

江家龍,秦亮曦

(1.廣西大學計算機與信息工程學院,南寧 530004;2.廣西工商職業(yè)技術(shù)學院現(xiàn)教中心,南寧 530008)

C4.5算法在大學生心理健康分析中的應(yīng)用

江家龍1,2,秦亮曦1

(1.廣西大學計算機與信息工程學院,南寧 530004;2.廣西工商職業(yè)技術(shù)學院現(xiàn)教中心,南寧 530008)

大學生的心理健康問題受到了各高校和相關(guān)研究人員的普遍關(guān)注。采用C4.5算法對大學生的心理健康問題進行分類分析。通過收集學生基礎(chǔ)數(shù)據(jù)和SCL-90心理健康測評信息并提取相關(guān)屬性,以C4.5算法構(gòu)造大學生心理健康問題分類模型,發(fā)現(xiàn)影響學生心理健康的主要因素和它們之間的關(guān)系,并生成分類規(guī)則。利用測試集的數(shù)據(jù)對分類模型進行測試,測試結(jié)果表明該模型有較好的準確率。該模型一定程度上可為高校開展心理健康教育的規(guī)劃、決策提供參考。

C4.5算法;心理健康;決策樹

0 引言

作為受高等教育的群體,大學生在自身發(fā)展和追求過程中,承受著學業(yè)、生活、情感、就業(yè)等諸多壓力。一項對全國12.6萬名大學生的調(diào)查顯示,20.3%的大學生有心理問題。其中存在抑郁、焦慮、強迫、人際關(guān)系不良、人格障礙、精神疾病等心理問題或心理障礙約占16-30%[1]?!?010-2011年度大學生心理健康調(diào)查報告》顯示,27%的大學生認為自己經(jīng)常有心理方面的困擾。眾多的調(diào)查和研究表明心理健康不僅影響著大學生成長,還關(guān)系著校園的穩(wěn)定和社會的和諧發(fā)展。近年來,大多數(shù)高校都成立了心理健康中心或類似的機構(gòu)。心理健康課程的開設(shè)、講座的舉辦、問卷調(diào)查、網(wǎng)上測評、面對面的心理咨詢等,為大學生心理健康分析積累了豐富的數(shù)據(jù)資料。如何快速準確地對上述數(shù)據(jù)進行分析,探討影響學生心理健康的主要因素,針對性地進行心理健康教育,成為各高校迫切需要關(guān)注的問題。

目前數(shù)據(jù)挖掘在大學生心理健康分析的應(yīng)用,主要以決策樹分類算法為主。吳小剛[2]以SCL-90量表各個維度作為決策屬性,構(gòu)造了大學生心理問題模型。李鑫[3]通過Clementine 12.0工具,選擇C5.0算法,建立了大學生強迫、焦慮、人際關(guān)系問題癥狀的決策樹模型。高艷平[4]通過問卷調(diào)查,研究了學生性格、家庭和睦、家庭經(jīng)濟、精神病遺傳和學生有無心理疾病之間的關(guān)系,并采用C4.5算法構(gòu)建了相關(guān)心理模型。本文在文獻[2]基礎(chǔ)上,擬通過收集學生基礎(chǔ)數(shù)據(jù)和SCL-90心理健康測評信息并提取相關(guān)屬性,以C4.5算法構(gòu)造大學生心理問題模型。以期發(fā)現(xiàn)影響大學生心理健康的主要規(guī)律與模式,為大學生心理健康預(yù)防和教育提供更科學和有效的依據(jù)。

1 C4.5決策樹算法

針對ID3無法處理屬性值缺失、不能對連續(xù)屬性進行處理、計算信息增益時偏向取值較多的屬性等缺點,Quinlan對其進行了改進,提出了C4.5算法。該算法以信息增益率作為衡量標準,選取最高信息增益率的屬性作為分裂屬性。設(shè)集合S有s個數(shù)據(jù)樣本,Si是類Ci(i=l,…,m)中的樣本數(shù)。集合S在Ci分類中的期望信息量(也稱信息熵)[5]:

信息增益率為信息增益對分割信息量的比值:

2 基于C4.5算法的心理健康分析過程

2.1 數(shù)據(jù)采集

本文選取某高職院校2012-2014年度學生網(wǎng)上SCL-90心理健康測評信息,對象為2012級、2013級、2014級學生,共采集到7398個樣本。涵蓋了文、理、工等33個專業(yè),其中男生2161人,女生5237人,數(shù)據(jù)具有一定的代表性。

表1 學生測評信息綜合表

2.2 數(shù)據(jù)預(yù)處理

(1)數(shù)據(jù)清洗

學生的基礎(chǔ)數(shù)據(jù)來源于教務(wù)科研處,該數(shù)據(jù)經(jīng)學生本人和班主任認真核對,無數(shù)據(jù)缺失,所以不用清洗。雖然學生心理測評都是在專業(yè)心理老師指導下進行,但仍有部分學生敷衍了事如:答題不完全、答題答案完全一致。對這些數(shù)據(jù)必須進行清理,最后得到學生測評信息綜合表記錄為7289條。

(2)屬性選擇

學生姓名、專業(yè)、年級、民族等基礎(chǔ)數(shù)據(jù)對建立模型沒有影響,因此在構(gòu)造決策時不考慮這些屬性。SCL-90各個項目的答題情況是不能直接用于數(shù)據(jù)挖掘的,必須通過其答題情況將其轉(zhuǎn)化成相應(yīng)的因子分,同時為了對學生的健康情況進行分類,我們還必須加入一個總分屬性。經(jīng)過屬性處理后得到學生測評信息綜合表,如表1所示。

(3)數(shù)據(jù)泛化

數(shù)據(jù)泛化的目的是將數(shù)據(jù)清理后數(shù)據(jù)信息轉(zhuǎn)換成適合于挖掘的形式,建立一個真正適合挖掘算法的分析模型[5]。性別為“男”、“女”,無需泛化。學生的家庭地址,可以泛化為“農(nóng)村”、“城鎮(zhèn)”、“城市”,而屬性名稱也相應(yīng)改為生源地。SCL-90中的10個因子,當因子分Si∈[1,2)時泛化為“健康”,當因子分Si∈[2,3)時泛化為“輕度”,當因子分Si∈[3,4)時泛化為“中度”,當因子分Si∈[4,5]時泛化為“重度”。當總分S∈[90,160]泛化為“健康”用A表示,當總分S∈(160,200]泛化為“進一步檢查”用B表示,當總分S∈(200,250]泛化為“很明顯”用C表示,當總分S∈(250,450]泛化為“比較嚴重”用D表示,屬性名稱也相應(yīng)改為癥狀[3]。

經(jīng)過數(shù)據(jù)泛化之后,出現(xiàn)很多條重復(fù)的記錄。這些重復(fù)數(shù)據(jù)會增加數(shù)據(jù)分析的時間和計算量,降低分類的效率,因此將其刪除。經(jīng)過數(shù)據(jù)預(yù)處理后,最終得到可用于挖掘的數(shù)據(jù)1119條,隨機選取749用于決策樹訓練,其余370條用于決策樹模型的準確性評估。

表2 泛化后的學生測評信息綜合表

2.3 決策樹的構(gòu)造

在訓練集中癥狀A(yù)、B、C、D的子集數(shù)分別為S1= 161、S2=433、S3=109、S4=46。首先計算集合S分類的期望信息量:

然后計算各個決策屬性的信息量,以決策屬性“強迫”為例,分別計算其癥狀健康、輕度、中度和重度四個類別時的期望信息量。

(1)當強迫屬性值為健康時:

(2)當強迫屬性值為輕度時:

(3)當強迫屬性值為中度時:

(4)當強迫屬性值為重度時:

Gain(強迫)=I(S1,S2,S3,S4)-E(強迫)=0.364193019

訓練集S關(guān)于強迫的各個屬性分割信息量為:SplitInfo(強迫)=-

同理得其他屬性的信息增益率分別為:GainRatio(性別)=0.0038133,GainRatio(生源地)=0.0089437,GainRatio(軀體化)=0.2166676,GainRatio(人際關(guān)系)= 0.2629232,GainRatio(抑郁)=0.3134827,GainRatio(焦慮 )=0.3170075,GainRatio (敵對 )=0.1894517,GainRatio(恐怖)=0.158826,GainRatio(偏執(zhí))= 0.1782178,GainRatio(精神病性)=0.2484147,GainRatio(飲食睡眠)=0.1605511。

由以上可知焦慮的信息增益率最大,因此將其作為決策樹根節(jié)點,同時根據(jù)焦慮的屬性將訓練集分為4個分支。以此類推對每一分枝重復(fù)上述步驟,構(gòu)建根節(jié)點到葉子的決策樹。

2.4 決策樹剪枝

由于本文決策屬性較多,生成的決策樹比較大,為防止過擬合現(xiàn)象,我們要對生成的決策樹進行剪枝。Quinlan提出的PEP[6]剪枝算法,不需要獨立的剪枝集,誤差估計增加了連續(xù)性校正,剪枝效率和精確度都比較高。本文選用PEP剪枝算法進行剪枝,屬性名稱做了簡化,最后得到?jīng)Q策樹如圖1。

2.5 規(guī)則提取

由以上決策樹可以生成以下分類規(guī)則:

(1)IF焦慮=健康A(chǔ)ND強迫=健康A(chǔ)ND睡眠飲食=健康THEN心理健康分析=健康(A)

(2)IF焦慮=健康A(chǔ)ND強迫=健康A(chǔ)ND睡眠飲食=輕度AND恐怖=健康A(chǔ)ND人際關(guān)系=健康THEN心理健康分析=健康(A)

(3)IF焦慮=健康A(chǔ)ND強迫=健康A(chǔ)ND睡眠飲食=輕度AND恐怖=健康A(chǔ)ND人際關(guān)系=輕度THEN心理健康分析=進一步檢查(B)

(4)IF焦慮=健康A(chǔ)ND強迫=健康A(chǔ)ND睡眠飲食=輕度AND恐怖=輕度AND偏執(zhí)=健康THEN心理健康分析=健康(A)

從分類規(guī)則中發(fā)現(xiàn),焦慮、強迫、抑郁、人際關(guān)系在大學生心理健康問題中起著比較重要的作用。當學生無焦慮癥狀時心理疾病幾率較?。划攲W生焦慮、強迫、人際關(guān)系都有輕度癥狀的時候,學生存在心理疾病的可能性比較大;當學生焦慮輕度、強迫中度時,學生存在比較明顯的心理疾病,要加以干預(yù);當學生焦慮、人際關(guān)系都有中度癥狀或焦慮重度癥狀的時候,學生存在嚴重的心理疾病的可能性比較大,要及時進行心理疏導。

2.6 模型驗證

準確率是決策樹性能評價的重要指標。根據(jù)提取的分類規(guī)則對測試集中的370條記錄進行分類測試,測評結(jié)果為:一致298條,不一致72條,正確率80.54%,模型具有較好的預(yù)測能力。

圖1 剪枝后的決策樹

3 結(jié)語

本文探討了C4.5算法的相關(guān)理論,并詳細介紹了該算法在學生心理健康分析中應(yīng)用過程,構(gòu)建了大學生心理健康模型,發(fā)現(xiàn)了影響學生心理健康的主要因素和它們之間的關(guān)系。預(yù)測結(jié)果表明,該研究方法是可行的,該模型一定程度上可為高校開展心理健康教育的規(guī)劃、決策提供參考。

[1]劉建中.近20年大學生心理健康研究進展綜述[J].職業(yè)時空,2009,(10).

[2]吳小剛,周萍,彭文惠.決策樹算法在大學生心理健康評測中的應(yīng)用[J].計算機應(yīng)用軟件,2011,28(10):241.

[3]李鑫.決策樹算法的研究及其在大學生心理健康數(shù)據(jù)處理中的應(yīng)用[J].江漢大學學報(自然科學版),2015,43(6):371-375.

[4]高艷平,丁智.C4.5算法在高校學生心理教育方面的應(yīng)用研究[J].江西科學,2011,29(6):813.

[5]朱明.數(shù)據(jù)挖掘第二版.安徽合肥:中國科學技術(shù)大學出版社,2008:68-69.

[6]Quinlan J R.Simplifying Decision Trees[J].International Journal of Man-Machine Studies,1987,27(3):221-234.

Application of C4.5 Algorithm in the Mental Health Analysis of College Students

JIANG Jia-long1,2,QIN Liang-xi1
(1.School of Computer,Electronics and Information,Guangxi University,Nanning 530004;2.Department of Modern Educational Technology Center,Guangxi Vocational College of Technology and Business,Nanning 530008)

The mental health of college students has been widely concerned by all the universities and related researchers.Uses the C4.5 algorithm to analyze the mental health problems of college students.Based on the data collected from students and SCL-90 mental health assessment information and extracted the relevant properties.Constructs college students'mental health problems model base on C4.5 algorithm,finds the main factors influencing the students'mental health and the relationship between them,and generates classification rules.Prediction results show that the model has good accuracy.The model to some extent,can provide reference for the planning and decisionmaking of mental health education in colleges and universities.

C4.5 Algorithm;Mental Health;Decision Tree

1007-1423(2016)21-0015-05

10.3969/j.issn.1007-1423.2016.21.003

江家龍(1981-),男,廣西南寧人,講師,研究方向為計算機技術(shù)應(yīng)用

2016-04-27

2016-07-20

秦亮曦(1963-),男,廣西桂林人,教授,研究方向為數(shù)據(jù)挖掘、進化計算、管理信息系統(tǒng)

猜你喜歡
剪枝決策樹心理健康
人到晚年宜“剪枝”
心理健康
心理健康
心理健康
心理健康
基于YOLOv4-Tiny模型剪枝算法
基于激活-熵的分層迭代剪枝策略的CNN模型壓縮
決策樹和隨機森林方法在管理決策中的應(yīng)用
剪枝
決策樹學習的剪枝方法
凉城县| 象州县| 米泉市| 富宁县| 铅山县| 阿瓦提县| 钟山县| 青海省| 宜良县| 木里| 克山县| 潜江市| 凤庆县| 邮箱| 西藏| 甘德县| 斗六市| 威信县| 彭阳县| 青海省| 华容县| 龙南县| 手游| 延长县| 舞阳县| 锡林郭勒盟| 嵊泗县| 高雄县| 简阳市| 鸡西市| 宁陕县| 太仓市| 博白县| 法库县| 南阳市| 岳普湖县| 德惠市| 平潭县| 亳州市| 漳平市| 万全县|