路旭明 楊嘉琦 大連科技學(xué)院
大學(xué)生因受到不同方面的壓力形成了多種心理問題,因此,針對大學(xué)生進行的心理監(jiān)控具有非常重要的意義。本文利用決策樹中的ID3 和CART 算法實現(xiàn)大學(xué)的情緒分類,為高校的心理教育工作提供參考作用。
采用大數(shù)據(jù)技術(shù)對大學(xué)生在校園中產(chǎn)生的各類心理數(shù)據(jù)進行客觀分析和預(yù)測,可以有效的評價學(xué)生的心理狀態(tài),評估工作量對睡眠、活動、情緒、等的影響,使用6 個含有分類能力的特征,72 小時以內(nèi)的數(shù)據(jù),用決策樹算法對情緒做分類實驗。
決策樹算法采用的是自上而下的遞歸方式,是一種逼近離散函數(shù)值的方法。
1.ID3 算法
ID3 算法主要針對離散型屬性數(shù)據(jù)。該算法核心思想就是通過計算出的信息增益最大的特征來建立決策樹當前的節(jié)點。
2.CART 算法
CART 決策樹是Breiman L 等提出的決策樹模型構(gòu)造方法,基本構(gòu)造原理是通過對由測試屬性和目標類(或數(shù)值)組成的訓(xùn)練數(shù)據(jù)進行循環(huán)分析得到的二叉樹結(jié)構(gòu)。通過基尼系數(shù)來確定決策樹的最優(yōu)節(jié)點。
CART 是一棵二叉樹,每次分裂只產(chǎn)生兩個節(jié)點,把其中一個特征值當做一個節(jié)點,其他特征值當做另外一個節(jié)點。
1.清洗數(shù)據(jù)
數(shù)據(jù)挖掘的需要做數(shù)據(jù)預(yù)處理,為了準備用于建模的有效數(shù)據(jù)集,這一步在挖掘中是最耗時的過程,將json 中的數(shù)據(jù)轉(zhuǎn)換為csv文件,經(jīng)過數(shù)據(jù)清洗后,得到總數(shù)為128 條。
2.訓(xùn)練和測試算法
本文從清洗后的數(shù)據(jù)中隨機抽出70% 形成訓(xùn)練集,余下的30%作為測試集,得到訓(xùn)練好的決策樹結(jié)構(gòu),如圖1 所示。
本文以大學(xué)生的三種情緒:開心、焦慮、疲憊作為學(xué)習(xí)與分類目標。如圖1 所示,ID3 決策樹的Sleep_hour 的信息增益最大是最優(yōu)切分點,Class2_chanllenge反之,CART決策樹的Class_hours 是最優(yōu)切分點。
圖1 分類情緒的決策樹結(jié)構(gòu)Fig.1 Decision tree structure of classified emotions
使用決策樹對大學(xué)生情緒分類是本文主要討論的內(nèi)容。本文介紹了利用決策樹的ID3 與CART 算法對大學(xué)生的心理數(shù)據(jù)做情緒分類的過程,通過數(shù)據(jù)清洗、樣本拆分和訓(xùn)練測試,最終得到?jīng)Q策樹模型。實驗表明:決策樹算法對大學(xué)生的心理分類是可行的。進一步研究應(yīng)該思考如何將決策樹內(nèi)置到大學(xué)生心理檢測應(yīng)用中。