韋芬
(西安航空職業(yè)技術(shù)學院,陜西西安 710089)
大學生在個性、學習方式、情商、社會責任感、生活方式等方面有著不同的特征,這些特征可以塑造學生在教育過程中的行為[1-2]。在情緒層面用風險指標識別學生是較為重要的,因為這些因素會影響學生的幸福感和學業(yè)成績。因此,預測大學生消極情緒和心理問題已成為當前的一個重要研究課題[3-6]。
數(shù)據(jù)挖掘是一種數(shù)據(jù)處理技術(shù)[7-8],能將原始數(shù)據(jù)及時轉(zhuǎn)換為有用的信息。這些信息代表頻繁的行為,可以預測可能發(fā)生的事件,可用于制定具有重大影響的決策。
文獻[9-10]從一個普遍的角度概述了教育中的數(shù)據(jù)挖掘技術(shù)。文獻中提到教育數(shù)據(jù)挖掘是一個新興的跨學科研究領域,被稱為教育數(shù)據(jù)挖掘(Education Data Mining,EDM)。其涉及到開發(fā)分析任何支持學習或教育的信息系統(tǒng)生成的數(shù)據(jù)方法,主要尋找滿足數(shù)據(jù)集的最小支持和最小置信度的關(guān)聯(lián)規(guī)則。其中,Apriori 算法是在關(guān)聯(lián)規(guī)則挖掘技術(shù)中使用頻率最高的方法之一,實際利用價值高。但傳統(tǒng)Apriori 算法[11-13]需要在數(shù)據(jù)集中對事物進行多次搜索,能耗較大,且可能會得出數(shù)量較多的候選集,使得運行過程中能耗負擔不斷加重。
該文以心理管理系統(tǒng)中的嵌入式數(shù)據(jù)挖掘技術(shù)為研究對象,闡述了Apriori 挖掘技術(shù)在心理數(shù)據(jù)挖掘系統(tǒng)中的設計與實現(xiàn)過程,討論了影響學生心理健康的因素?;贑M_Apriori 和PM_Apriori 算法[14-16],改進了壓縮矩陣的Apriori 算法,并將改進后的Apriori 作為一個數(shù)據(jù)挖掘技術(shù)嵌入到現(xiàn)有的心理健康管理控制系統(tǒng)中,對包含學生學習心理發(fā)展特征的數(shù)據(jù)進行數(shù)據(jù)挖掘和特征提取。通過實驗可以證明,利用改進的Apriori 算法能夠方便、迅速地從海量數(shù)據(jù)庫中挖掘各種信息之間的關(guān)系,提供更具價值的結(jié)果。
目前,有幾種方法可以分析、轉(zhuǎn)換和利用結(jié)構(gòu)良好的數(shù)據(jù)。這些方法被分組在一個稱為KDD(Knowledge Discovery in Databases)的數(shù)據(jù)庫中,這一過程旨在將低級數(shù)據(jù)轉(zhuǎn)換成其他更緊湊、抽象或便于使用的形式。根據(jù)數(shù)據(jù)的性質(zhì)和應用步驟的不同,過程可能會較為復雜。該過程從獲取數(shù)據(jù)開始,逐步驗證所獲得的結(jié)果(模式),這些步驟和階段將作為該系統(tǒng)設計的指導思想。
1)數(shù)據(jù)庫建設:在這一過程中最主要的任務之一就是創(chuàng)建數(shù)據(jù)庫,將盡可能多的有用信息源包含在數(shù)據(jù)庫中。在這一項目中,其是通過在線調(diào)查或儀器測量來獲取學生心理特征。
2)數(shù)據(jù)預處理:一旦設計了數(shù)據(jù)庫,就必須選擇用于構(gòu)建結(jié)構(gòu)的屬性,這些屬性將允許查找可以動態(tài)挖掘信息之間的關(guān)聯(lián)。在這一步,需要了解學生心理特點的專家介入,確定其最具區(qū)別性的屬性,以便識別所處理數(shù)據(jù)特征之間的相關(guān)性。
3)數(shù)據(jù)挖掘:對前一階段選擇的屬性進行轉(zhuǎn)換,這涉及到眾多數(shù)據(jù)挖掘技術(shù),如探索性分析技術(shù)、聚類技術(shù)和模式挖掘技術(shù)。這一步涉及到數(shù)據(jù)挖掘過程的結(jié)果,數(shù)據(jù)挖掘是一個重復迭代的關(guān)鍵步驟。發(fā)現(xiàn)的信息取決于輸入數(shù)據(jù)的類型和質(zhì)量,故必須事先選擇合適的算法。
4)恢復、可視化和驗證:在數(shù)據(jù)挖掘步驟之后,必須將新的信息呈現(xiàn)給最終用戶或?qū)<疫M行評估。通常情況下經(jīng)過算法篩選出來的信息量較大,無法手動分析。因此系統(tǒng)要根據(jù)用戶的需要,向?qū)<姨峁┳钕嚓P(guān)的信息。另一方面,為了理解信息的語義,有必要提供一些工具。讓專家從研究結(jié)果中學習、了解學生的心理狀況,以便做出決策。因此,數(shù)據(jù)挖掘方法與可視化方法相結(jié)合,是該文心理管理系統(tǒng)設計中較為重要的一環(huán)。
根據(jù)已有的資料和文獻,基于數(shù)據(jù)挖掘的心理管理系統(tǒng)結(jié)構(gòu)如圖1 所示。該文通過數(shù)據(jù)挖掘模型層來挖掘目標數(shù)據(jù)集,用戶界面層可以查看數(shù)據(jù)挖掘分類結(jié)果,評價和分析知識挖掘的條件與規(guī)則。
圖1 基于數(shù)據(jù)挖掘的心理管理系統(tǒng)結(jié)構(gòu)
Apriori 算法采用的搜索方式主要思想如下:利用頻繁項集1-{L1} 查找頻繁項集2-{L2} 。相似地,利用{L2} 查找{L3},循環(huán)查找頻繁項集。為了使算法可以更加精準地挖掘信息,在心理專家提取數(shù)據(jù)屬性后,在算法搜索空間的壓縮矩陣中加入了Apriori屬性。該算法的基本思想是,首先確定所有的第一組頻率集,且這些頻率被設定為大于或等于預定義的最小支持度。然后,由頻率集生成可以滿足最小系統(tǒng)支持度和最小置信度的強關(guān)聯(lián)交易規(guī)則。一旦這些規(guī)則生成完畢,剩余的即為大于用戶給定的最小置信用戶規(guī)則。該文使用遞歸分析方法生成了所有的頻率集。
在實際應用中,由于Apriori 算法可能會產(chǎn)生大量的候選項集,且在算法執(zhí)行時,Apriori 算法對數(shù)據(jù)庫進行重復操作。當數(shù)據(jù)量過大時,讀寫操作過多會大幅降低計算效率。CM_Apriori 算法針對多次反復掃描矩陣的缺點作出了改進,而基于布爾矩陣的PM_Apriori 算法通過壓縮和減少候選項集的產(chǎn)生,有效提高了算法的綜合性能。
該文設計了一種基于CM_Apriori 算法和PM_Apriori 算法的Apriori 改進算法。首先,將關(guān)聯(lián)規(guī)則的來源數(shù)據(jù)庫D劃分為D1,D2,D3,…,Di(i=1,2,3,…,n),這些子數(shù)據(jù)庫相互獨立。利用Apriori 算法在數(shù)據(jù)庫中找到強度集Di和Li,縮短了掃描數(shù)據(jù)庫所需的時間,然后將所有強度集轉(zhuǎn)化為數(shù)據(jù)庫D中的潛在強度集。
利用改進的Apriori 算法多線程掃描事務數(shù)據(jù)庫分割的數(shù)據(jù)塊,構(gòu)建1-a 事務集位串和頻繁項集位串。對1-a 邏輯位串進行“與”運算,通過統(tǒng)計結(jié)果和給定的支持閾值相比較生成頻繁項集;位串頻繁項集的邏輯“或”運算,統(tǒng)計結(jié)果即為事務庫中重復出現(xiàn)候選項集的次數(shù)。改進的Apriori 算法具體可以分為以下幾個步驟:
1)定義挖掘規(guī)則所需的支持度和置信度閾值。
2)掃描事務庫,依次對庫中的事務項出現(xiàn)在每個事務中的次數(shù)進行統(tǒng)計,生成相應的“位串”,事務項出現(xiàn)在事務中被記錄為“1”,不出現(xiàn)則記錄為“0”。統(tǒng)計每個項目的位串可得每個候選項1-項集的支持度計數(shù),根據(jù)給定的支持度閾值選取大于或等于支持度閾值的候選項1-項集作為L1 項集的頻繁項集。
3)根據(jù)支持度遞增的順序?qū)1排序,得到序列S。
4)從L1的所有項中生成候選項集合C2。
5)將Ck位串中的所有項進行邏輯“與”運算,生成新位串中的個數(shù)為“1”的統(tǒng)計量。統(tǒng)計結(jié)果是新生成的支持數(shù)滿足候選項集的最小支持閾的項集,同時生成Lk的頻繁項集。根據(jù)序列S的二進制碼,Lk中的每一項生成一個位串,形成一個包含 ||Lk個位串的位集。使用兩個邏輯“或”操作執(zhí)行一個集合中的位字符串,并計算操作結(jié)果。運算結(jié)果中“1”的個數(shù)為k+1,重復次數(shù)為C,生成候選項(k+1)項集,按序列S生成候選項(k+1)。
6)循環(huán)執(zhí)行,直到滿足結(jié)束條件,最終結(jié)束算法。
基于眾多科研成果與相關(guān)文獻,設計了心理數(shù)據(jù)挖掘系統(tǒng)的基本框架和功能模塊,并完善評價系統(tǒng)與數(shù)據(jù)庫。心理數(shù)據(jù)挖掘是一個迭代的過程,需要有效的工具和高效率的算法,系統(tǒng)數(shù)據(jù)挖掘的流程設計如圖2 所示。
圖2 心理問題數(shù)據(jù)挖掘系統(tǒng)的流程
通過采用SCL-90 癥狀自評量表(SCL-90)計算得到抑郁(yy)、焦慮(jl)、敵對(dd)、恐怖(kb)、偏執(zhí)(pz)和精神?。╦s)等9 個心理因素癥狀。個人心理問題數(shù)據(jù)表的定義如表1 所示。根據(jù)離散化數(shù)據(jù)的分類規(guī)則,將心理癥狀因子和個體基本信息因子分為結(jié)合編碼屬性和心理分析等幾個項目。將預處理后的3 000 個原始數(shù)據(jù)輸出到Excel 中,基于改進的Apriori 算法、布爾矩陣以及建立的大學生心理相關(guān)分析模型,進行關(guān)聯(lián)規(guī)則挖掘。
表1 預處理后的部分數(shù)據(jù)
在關(guān)聯(lián)規(guī)則挖掘過程中,可以方便地根據(jù)Excel數(shù)據(jù)的需要在某些列中進行選擇,其是一種有效的數(shù)據(jù)挖掘方法,避免了使用JExcelAPI 來達到數(shù)據(jù)選擇的目的。通過使用改進的Apriori 關(guān)聯(lián)規(guī)則挖掘算法來發(fā)現(xiàn)9 個心理癥狀之間的隱藏關(guān)系,其部分結(jié)果如表2 所示。
表2 9個心理癥狀因子之間的部分關(guān)聯(lián)規(guī)則
根據(jù)價值關(guān)聯(lián)規(guī)則和設置不同的參數(shù)交易數(shù)量,對比測試案例不同數(shù)量的事務數(shù)據(jù)庫。實驗研究所需的原始信息數(shù)據(jù)由IBM 數(shù)據(jù)生成器產(chǎn)生,算法的性能通過系統(tǒng)運行工作時間來衡量。不同算法的性能測試結(jié)果如表3 和圖3 所示。
圖3 不同算法下的實驗性能對比
表3 運行時間結(jié)果統(tǒng)計
改進Apriori 方法來進一步壓縮矩陣,縮小算法的時間和空間消耗。其使用了多線程進行從事務集到布爾矩陣的轉(zhuǎn)化過程,并行操作與排序帶來的優(yōu)勢能夠幫助多事務數(shù)的處理。相比于PM_Apriori 算法,改進Apriori 算法的運行時間明顯縮短,運行效率提高了約8.9%~18.7%。
數(shù)據(jù)挖掘技術(shù)在學生心理管理系統(tǒng)中的應用,是現(xiàn)代大學生心理健康教育發(fā)展的成果。該文在嵌入式模塊開發(fā)期間,結(jié)合實際情況進行了相應的驗證。采用SCL-90 心理測量表和UPI 人格測驗項目成績表對大學生進行心理調(diào)查,以學生的基本情況,作為訓練集輸入。以高校學生的相關(guān)信息作為訓練數(shù)據(jù),構(gòu)建相應的屬性決策樹。根據(jù)對常用數(shù)據(jù)挖掘技術(shù)Apriori 的性能分析,提出了改進的Apriori 算法并通過實驗進行改進效果的檢驗。最終,將改進Apriori 數(shù)據(jù)挖掘技術(shù)嵌入到學生心理管理系統(tǒng)中。結(jié)果表明,改進Apriori 算法作為數(shù)據(jù)挖掘技術(shù)能夠減少系統(tǒng)運行時間,提高數(shù)據(jù)挖掘效率。