張繼美
摘要:隨著當前社會生活節(jié)奏加快、社會競爭激烈和就業(yè)壓力加大等,大學生心理問題日益成為高校和社會關注的焦點。高校開始重視大學生的心理健康教育,開展定期的大學生心理測評工作,積累了大量的心理檔案數(shù)據(jù)。對這些心理測評數(shù)據(jù)的分析篩選與研究也成為眾多高校教師和科研人員的研究方向之一。近年來數(shù)據(jù)挖掘技術在大學生心理領域中的研究日益廣泛,在對學生心理問題的分析研究中也出現(xiàn)了各種數(shù)據(jù)挖掘技術和算法。數(shù)據(jù)挖掘是上世紀末興起的一種智能數(shù)據(jù)分析技術,也被稱為數(shù)據(jù)庫知識發(fā)現(xiàn),它可以從數(shù)據(jù)庫、數(shù)據(jù)倉庫、或其他存儲庫中提取或挖掘出有用的知識[1]。
關鍵詞:數(shù)據(jù)挖掘;大學生心理;心理測評
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2015)26-0012-02
當前我們國家經(jīng)濟水平提高,網(wǎng)絡的快速發(fā)展帶來信息量的劇增,人們的物質生活水平大幅度提升,可人們心理負擔的加重和心理問題的出現(xiàn)也日益受到關注,特別是代表創(chuàng)新、青春與活力一群的現(xiàn)代大學生群體。隨著當前社會生活節(jié)奏加快與社會競爭激烈、就業(yè)壓力加大等,大學生還要面臨著對新環(huán)境的適應,專業(yè)方向的選擇與認同,人際關系的處理,青春的躁動和戀愛的問題等,致使大學生心理負重增大,心理、情緒、思維和觀念意識都在發(fā)生著變化。很多調查數(shù)據(jù)顯示出現(xiàn)心理問題的大學生比例在增加,很多校園惡性事件也源于學生心理問題,國家對大學生心理問題提起了重視,各高校也在加強大學生的心理健康教育。合理利用高校心理檔案系統(tǒng)中的大量數(shù)據(jù)進行研究工作,對高校加強心理健康教育、預防學生出現(xiàn)心理問題、進行心理干預和心理咨詢工作提供幫助。
學生綜合素質改革的要求下,結合計算機技術的現(xiàn)代化教育管理模式已經(jīng)應用在廣大高等院校。目前心理測評系統(tǒng)已經(jīng)應用到各高校中,很多高校每年都會對學生進行心理測評,而SCL-90心理測評量表是常用的心理測量量表之一。高校積累了大量的學生心理測評數(shù)據(jù),對這些心理測評數(shù)據(jù)的分析篩選與研究也成為眾多高校教師科研人員的研究方向之一。近年來數(shù)據(jù)挖掘技術在大學生心理領域中的研究日益廣泛,在對學生心理問題的分析研究中也出現(xiàn)了各種數(shù)據(jù)挖掘技術和算法。
1 數(shù)據(jù)挖掘概述
隨著計算機和信息時代的飛速發(fā)展,人們對數(shù)據(jù)的收集、存儲和訪問的能力大大提高,海量數(shù)據(jù)的快速增長已遠遠超過人們的理解,傳統(tǒng)的數(shù)據(jù)分析工具顯得力不從心。如何有效組織海量數(shù)據(jù),尋找有價值的知識,從而幫助人類做出正確決策,數(shù)據(jù)挖掘技術應運而生;數(shù)據(jù)挖掘是上世紀末興起的一種智能數(shù)據(jù)分析技術,也被稱為數(shù)據(jù)庫知識發(fā)現(xiàn),它可以從數(shù)據(jù)庫、數(shù)據(jù)倉庫、或其他存儲庫中提取或挖掘出有用的知識 [1]。
對于高校的學生心理檔案系統(tǒng),數(shù)據(jù)源主要包括學生基本信息、主要社會關系和個性心理特征等,其中個性心理特征一般使用相關的心理測量量表進行問卷測量。數(shù)據(jù)挖掘比較重要的環(huán)節(jié)是數(shù)據(jù)預處理,對采集的數(shù)據(jù)源進行清洗加工和提煉,提煉出高質量的樣本集再進行數(shù)據(jù)挖掘。從數(shù)據(jù)本身來考慮,數(shù)據(jù)挖掘通常需要有數(shù)據(jù)信息收集、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘實施過程、模式評估和知識表示等8個步驟。可以劃分為三個階段:數(shù)據(jù)準備、數(shù)據(jù)挖掘和結果知識表示。如圖1所示。
圖1 數(shù)據(jù)挖掘過程
2數(shù)據(jù)挖掘技術在大學生心理問題中研究應用
2.1聚類分析
聚類分析是指從一個給定的數(shù)據(jù)集的對象之間搜索有價值關系的數(shù)據(jù),是將研究對象分為相對同質的群組(clusters)的統(tǒng)計分析技術。聚類過程是一組物理或抽象的對象,根據(jù)它們之間的相似性,分為若干組,類似的對象分為一組,一個集群是由彼此相似的對象集合組成,不同的聚類對象是不相似的[2]。聚類方法主要包括劃分方法、分類方法和層次模型法、基本網(wǎng)格法或基于密度的分類方法等。李哲等[3]運用聚類分析方法對學生心理檔案數(shù)據(jù)進行分析,采用聚類分析的k-means算法將具有相似特征的學生劃分到同一組,再分析同組學生共性。
2.2決策樹技術
決策樹是一種典型的分類方法,是根據(jù)數(shù)據(jù)集特點構造分類器,把未知的數(shù)據(jù)樣本映射到給定的分類類別中,內部進行分類屬性的比較,根據(jù)屬性值的不同向下形成分支,從上到下最終成為一個類似的樹結構圖。每個內部節(jié)點的決策樹屬性表示一個測試,每個分支表示測試的結果,每一個葉節(jié)點表示一個類別,從根到葉結點的路徑形成一條合取規(guī)則。目前應用比較廣泛的典型決策樹算法主要有:ID3,C4.5,CART等。
如何構造決策樹的小尺寸和高精度是決策樹算法的核心內容,構造決策樹的過程中,第一步是根據(jù)訓練樣本集生成決策樹,第二步是通過對上一階段決策樹的檢驗和修正,剪除冗余分枝和影響準確性的分枝。
何廣東[4]運用ID3算法生成有無焦慮癥狀的決策樹模型,并通過對提取的規(guī)則進行分析得出結論,性別和家庭和睦程度是影響焦慮癥的最相關屬性。張俊生等[5]以大學生心理檔案系統(tǒng)中心理測量量表為數(shù)據(jù)源,篩選出心理異常學生為測評數(shù)據(jù)作為數(shù)據(jù)集,采用C4.5算法構造決策樹進行數(shù)據(jù)挖掘研究。周小剛等[6]選取廣東陽江職業(yè)技術學院學生的癥狀自評量表SCL-90的測評結果數(shù)據(jù)作為訓練樣本集,采用C4.5算法構造決策樹,挖掘出學生軀體化和敵對屬性在大學生心理健康問題中起比較重要的決定作用。
2.3 關聯(lián)規(guī)則分析
關聯(lián)規(guī)則挖掘剛開始是R.Agrawal等就超市的購物籃問題分析提出的,其目的是找到不同的商品超市交易數(shù)據(jù)庫之間的關系,發(fā)現(xiàn)超級市場中用戶購買的商品之間內在的關聯(lián)關系,并用知識的形式表示出來[1]。關聯(lián)規(guī)則的挖掘過程主要包括兩個步驟:第一步是找到所有的數(shù)據(jù)集高頻項目團隊,第二步是從這些高頻率項目團隊中產(chǎn)生關聯(lián)規(guī)則。關聯(lián)規(guī)則挖掘的指標是適用于數(shù)據(jù)記錄的離散值,如果原始索引在數(shù)據(jù)庫中是連續(xù)數(shù)據(jù),則需要先進行適當?shù)臄?shù)據(jù)離散化處理,再進行關聯(lián)規(guī)則的挖掘,處理是否合理會影響關聯(lián)規(guī)則挖掘的結果,因此數(shù)據(jù)處理是數(shù)據(jù)挖掘的重要步驟。
經(jīng)典的關聯(lián)規(guī)則挖掘算法有Apriori算法和FP-growth算法,Apriori算法多次掃描交易數(shù)據(jù)庫,每一次用候選高頻項目團隊產(chǎn)生頻繁集;FP-growth算法直接用樹結構得到一個頻繁集,降低掃描事務數(shù)據(jù)庫次數(shù),提高算法效率[1]。關聯(lián)規(guī)則挖掘技術已被廣泛應用于銀行,保險,電信,零售和市場營銷等方面。
何廣東[4]運用關聯(lián)規(guī)則的Apriori算法對學生有無焦慮癥狀進行挖掘,由關聯(lián)規(guī)則分析出家庭不和睦的學生表現(xiàn)出了焦慮癥狀。在學生心理管理系統(tǒng)中應用關聯(lián)規(guī)則挖掘技術,主要目標是尋找學生心理檔案的大量數(shù)據(jù)項中隱藏的某種聯(lián)系或相關性[7]。學生心理問題不能僅根據(jù)測量結果簡單判斷,應結合學生個人基本信息和主要社會關系等,挖掘出其中的關聯(lián)性。
2.4 其他數(shù)據(jù)挖掘技術
其他常用的數(shù)據(jù)挖掘技術有貝葉斯分類方法、神經(jīng)網(wǎng)絡分類方法、粗糙集方法、模糊集合方法和模糊評價方法等。黃中海[8]設計實現(xiàn)了基本CART決策樹算法、BP人工神經(jīng)網(wǎng)絡算法和模式識別網(wǎng)絡算法的大學生心理挖掘模型,并分別對三種分類挖掘模型進行測試、比較和分析,設計出綜合三種方法的數(shù)據(jù)挖掘內核程序。郭晶晶[9]通過向10個專業(yè)學生發(fā)放問卷的方式獲取數(shù)據(jù)源,然后分層抽樣收集學生問卷,構造心理評測模型,運用綜合模糊評價法分析計算出大學生心理健康的評判區(qū)間。
3 結束語
數(shù)據(jù)挖掘技術在大學生心理問題領域的研究及對大學生心理測評數(shù)據(jù)的分析研究是當前心理領域的研究熱點,還有很多數(shù)據(jù)挖掘算法可以應用。根據(jù)學生心理測評數(shù)據(jù)的特征選擇合適的數(shù)據(jù)挖掘算法是今后需要不斷研究和探索的一個方向。
參考文獻:
[1] 陳志泊. 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:清華大學出版社, 2009.
[2] 朱明. 數(shù)據(jù)挖掘[M].安徽:中國科學技術大學出版社, 2002.
[3] 李哲, 張映雪, 胡蕙. 聚類分析在大學生心理健康管理中的應用[J].湖北工程學院學報, 2014(11).
[4] 何廣東. 數(shù)據(jù)挖掘在大學生心理問題中應用[J].無線互聯(lián)科技, 2013(2).
[5] 張俊生, 張華. 決策樹算法在大學生心理檔案系統(tǒng)中的應用研究[J].價值工程, 2012(17).
[6] 周小剛, 周萍, 彭文惠. 決策樹算法在大學生心理健康評測中的應用[J].計算機應用與軟件, 2011(10).
[7] 張俊生, 張華. 數(shù)據(jù)挖掘在學生心理管理系統(tǒng)中應用[J]. 計算機與網(wǎng)絡, 2012(2).
[8] 黃中海. 數(shù)據(jù)挖掘在高等學生心理危機預防中的應用[D]. 武漢科技大學, 2015.
[9] 郭晶晶. 基于數(shù)據(jù)挖掘的大學生心理問題分析[J]. 淮北職業(yè)技術學院學報, 2015(2).