摘要:關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的重要研究?jī)?nèi)容.分析了關(guān)聯(lián)規(guī)則增量式更新算法FUP算法的思想,指出算法的優(yōu)缺點(diǎn)及改進(jìn)算法,為增量式關(guān)聯(lián)規(guī)則挖掘奠定理論基礎(chǔ).最后將該算法應(yīng)用于大學(xué)生心理健康測(cè)評(píng)數(shù)據(jù),從而使相關(guān)職能部門(mén)有效地制定大學(xué)生心理危機(jī)干預(yù)計(jì)劃、減少或消除危機(jī).
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;增量更新;FUP算法;心理健康
中圖分類(lèi)號(hào):TP311? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2019)01-0066-03
1 引言
在前期的研究中,我們采用統(tǒng)計(jì)分析和數(shù)據(jù)挖掘技術(shù)對(duì)大學(xué)生心理健康測(cè)評(píng)數(shù)據(jù)進(jìn)行了分析,特別是針對(duì)強(qiáng)迫癥和人際關(guān)系敏感癥兩種高比例心理疾病,采用關(guān)聯(lián)規(guī)則Apriori算法對(duì)性別、來(lái)源地、家庭結(jié)構(gòu)、獨(dú)生子女、學(xué)生干部、家庭月收入六個(gè)屬性和九個(gè)心理維度因子間的關(guān)系進(jìn)行了挖掘,挖掘結(jié)果為相關(guān)職能部門(mén)開(kāi)展大學(xué)生心理健康教育的規(guī)劃、決策提供了依據(jù),效果顯著.可是隨著時(shí)間的推移,大學(xué)生心理健康測(cè)評(píng)數(shù)據(jù)越來(lái)越多,前期得到的關(guān)聯(lián)規(guī)則結(jié)果會(huì)發(fā)生改變嗎?顯然數(shù)據(jù)挖掘是一個(gè)動(dòng)態(tài)的交互過(guò)程,如果繼續(xù)采用Apriori算法,則算法的效率非常低,同時(shí)浪費(fèi)了以前挖掘出來(lái)的信息.采用增量式關(guān)聯(lián)規(guī)則算法對(duì)增長(zhǎng)后的大學(xué)生心理數(shù)據(jù)進(jìn)行挖掘勢(shì)在必行.
2 增量式關(guān)聯(lián)規(guī)則
增量式關(guān)聯(lián)規(guī)則挖掘的主要思想是在更新的數(shù)據(jù)庫(kù)或參數(shù)上,充分利用原有挖掘規(guī)則,發(fā)現(xiàn)滿足條件的新規(guī)則,刪除失效的舊規(guī)則,目的是盡量減少計(jì)算量.增量式關(guān)聯(lián)規(guī)則挖掘算法主要解決以下三類(lèi)問(wèn)題:①即在原始數(shù)據(jù)庫(kù)D不變,最小支持度和置信度發(fā)生變化時(shí),如何生成D中新的關(guān)聯(lián)規(guī)則;②在最小支持度和置信度不變,數(shù)據(jù)庫(kù)發(fā)生更新時(shí),如何生成新數(shù)據(jù)庫(kù)D∪d或D-d的關(guān)聯(lián)規(guī)則;③在原始數(shù)據(jù)庫(kù)發(fā)生更新的同時(shí),最小支持度和置信度同時(shí)發(fā)生變化時(shí),如何生成新數(shù)據(jù)庫(kù)在新支持度下的關(guān)聯(lián)規(guī)則.馮玉才等人提出了IUA算法和PIUA算法[1],針對(duì)第一類(lèi)問(wèn)題進(jìn)行了研究.針對(duì)第二類(lèi)問(wèn)題,D.W.Cheung等人對(duì)新數(shù)據(jù)庫(kù)D∪d的情況提出FUP算法[2]和FUP2算法[3],其中FUP2算法同時(shí)考慮了新數(shù)據(jù)庫(kù)D∪d和D-d的情況.徐文拴等[4]針對(duì)第三類(lèi)情況中數(shù)據(jù)集增加和最小支持度同時(shí)變化的關(guān)聯(lián)規(guī)則更新問(wèn)題進(jìn)行了研究.本文重點(diǎn)研究關(guān)聯(lián)規(guī)則增量式更新算法FUP算法的思想,算法的優(yōu)缺點(diǎn)及改進(jìn),為增量式關(guān)聯(lián)規(guī)則挖掘奠定理論基礎(chǔ).
2.1 FUP算法的基本思想
當(dāng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)發(fā)生變化時(shí),為了獲取更新后的關(guān)聯(lián)規(guī)則,最簡(jiǎn)單的辦法是重新運(yùn)用Apriori算法對(duì)數(shù)據(jù)庫(kù)進(jìn)行挖掘,但是這樣做不僅算法效率較低,而且沒(méi)有充分利用以前挖掘的結(jié)果,在眾多的增量式關(guān)聯(lián)規(guī)則挖掘算法中,D.W.Cheung等提出的FUP算法最為典型,它是Apriori算法的改進(jìn)算法,與Apriori算法的框架一致[5],主要解決在支持度和置信度不變,數(shù)據(jù)集增加的情況下,如何生成新的頻繁項(xiàng)集的算法.
設(shè)原始數(shù)據(jù)集為D,新增數(shù)據(jù)集為d,則變化后的數(shù)據(jù)集為(D+d),假設(shè)已經(jīng)采用Apriori算法獲得原始數(shù)據(jù)集D的頻繁項(xiàng)集L(D),則FUP算法的基本思想是:
2.2 FUP算法的優(yōu)缺點(diǎn)
FUP算法在新增數(shù)據(jù)集與原始數(shù)據(jù)集相差不大的情況下,較Apriori算法在效率方面有了很多的提升,主要體現(xiàn)在Apriori算法需要多次掃描數(shù)據(jù)庫(kù),而FUP算法只有在確定項(xiàng)集t∈L(d)且t?埸L(D)的情況下,才需要掃描原始數(shù)據(jù)集;通過(guò)對(duì)K項(xiàng)集在原始數(shù)據(jù)集和新增數(shù)據(jù)集中是否頻繁的分析,可以過(guò)濾掉許多候選項(xiàng)集.FUP算法雖然對(duì)原始數(shù)據(jù)集挖掘結(jié)果進(jìn)行了使用,但是對(duì)于一些大數(shù)據(jù)集而言,該算法也存在著不足:由于候選項(xiàng)集的生成由Apriori連接來(lái)獲得,即使用L’k-1生成Ck,產(chǎn)生新增數(shù)據(jù)集的候選項(xiàng)集規(guī)模是巨大的,在處理這些候選項(xiàng)集時(shí)耗費(fèi)大量時(shí)間,而且其中有很多是非頻繁項(xiàng)集,影響了算法的效率;對(duì)候選項(xiàng)集進(jìn)行模式匹配時(shí)需要對(duì)整個(gè)數(shù)據(jù)庫(kù)進(jìn)行多次重復(fù)掃描,代價(jià)很大;算法對(duì)新增項(xiàng)目不敏感.
2.3 算法的改進(jìn)
針對(duì)FUP算法只考慮了支持度和置信度不變,數(shù)據(jù)集增加的情況,以及該算法存在的不足,眾多學(xué)者對(duì)該算法進(jìn)行了改進(jìn).文獻(xiàn)[4]針對(duì)數(shù)據(jù)庫(kù)和最小支持度同時(shí)發(fā)生變化的情況,提出了哈希增量更新算法HIUA,該算法結(jié)合hash定位以及鏈表插入、刪除的高效性,不生成候選項(xiàng)集,只掃描原始數(shù)據(jù)集一次,充分利用了原有的挖掘信息,算法效率較高.文獻(xiàn)[6]提出了基于臨時(shí)表的改進(jìn)算法MFUP,該算法適用于原始數(shù)據(jù)庫(kù)規(guī)模大,新增數(shù)據(jù)集相對(duì)小的情況,通過(guò)建立臨時(shí)表,來(lái)存放新增數(shù)據(jù)集的頻繁項(xiàng)集,充分利用原始數(shù)據(jù)集挖掘的結(jié)果,大大減少了對(duì)數(shù)據(jù)的重復(fù)掃描,提高了算法的效率.文獻(xiàn)[7]提出了IFU算法,用于解決數(shù)據(jù)庫(kù)和最小支持度都發(fā)生改變時(shí)關(guān)聯(lián)規(guī)則的增量式更新問(wèn)題,該算法減少了對(duì)原始數(shù)據(jù)集和新增數(shù)據(jù)集的掃描次數(shù),提高了算法的效率,但由于該算法使用了一次IUA算法,所以如何減少對(duì)原始數(shù)據(jù)集D的掃描次數(shù)有待進(jìn)一步研究.文獻(xiàn)[8]提出了一種基于矩陣的增量式關(guān)聯(lián)規(guī)則挖掘算法IUBM,采用數(shù)組結(jié)構(gòu)和位運(yùn)算,節(jié)省了大量?jī)?nèi)存空間,充分利用原始數(shù)據(jù)集挖掘的結(jié)果,僅掃描一次新增數(shù)據(jù)集,不需要掃描原始數(shù)據(jù)集,同時(shí)加入了剪枝算法,減少了大量不必要的比較和計(jì)算,該算法的時(shí)間復(fù)雜度和空間復(fù)雜度大大降低.
3 FUP算法在大學(xué)生心理危機(jī)預(yù)防中的應(yīng)用
大學(xué)生心理測(cè)評(píng)系統(tǒng)采用ASP.NET和C#,以SQL Server2008作為后臺(tái)數(shù)據(jù)庫(kù),通過(guò)ADO.NET技術(shù)對(duì)數(shù)據(jù)庫(kù)連接和訪問(wèn),采用三層B/S體系結(jié)構(gòu),實(shí)現(xiàn)了數(shù)據(jù)準(zhǔn)備、基本信息與心理癥狀關(guān)系、心理癥狀維度間關(guān)系挖掘等功能.抽取某高校2010- 2014四年的心理測(cè)評(píng)數(shù)據(jù)進(jìn)行測(cè)試分析[9].在挖掘過(guò)程中,我們可以對(duì)全體學(xué)生心理測(cè)評(píng)數(shù)據(jù)進(jìn)行分析,也可以分年級(jí)、院系、專(zhuān)業(yè)來(lái)進(jìn)行關(guān)聯(lián)挖掘.采用FUP算法對(duì)全體在校學(xué)生的心理數(shù)據(jù)進(jìn)行挖掘,九維心理癥狀維間關(guān)聯(lián)規(guī)則挖掘結(jié)果如表1所示,屬性與強(qiáng)迫癥狀間的關(guān)聯(lián)規(guī)則挖掘結(jié)果如表2所示.
通過(guò)挖掘結(jié)果我們可以看出心理維度間確實(shí)存在著某種潛在的關(guān)系,比如對(duì)于大學(xué)生中患有強(qiáng)迫癥狀的高比例人群,同時(shí)伴有焦慮、抑郁、人際關(guān)系敏感、偏執(zhí)等癥狀的可能性很高;患有人際關(guān)系敏感癥狀的學(xué)生中伴有抑郁、焦慮、恐怖、精神病等癥狀的可能性很高;計(jì)算機(jī)系的學(xué)生中患有偏執(zhí)癥狀的學(xué)生中伴有抑郁、焦慮、精神病等癥狀的可能性很高.單親家庭是個(gè)不容忽視的特殊群體,在測(cè)試的學(xué)生中雖然支持度不高,但是卻有著較高的置信度,顯然單親家庭由于親子關(guān)系的失調(diào)等原因帶給孩子的傷害是肯定的;生活在大中城市的學(xué)生較農(nóng)村學(xué)生而言,由于家長(zhǎng)教育觀念的不同,具有更大的學(xué)習(xí)、生活等各方面壓力,強(qiáng)迫癥狀更為明顯;擔(dān)任過(guò)學(xué)生干部的學(xué)生,社會(huì)閱歷較豐富,人際關(guān)系處理得比較好;來(lái)自農(nóng)村的學(xué)生,受物質(zhì)條件、生活環(huán)境與見(jiàn)聞等的影響,強(qiáng)迫癥狀的置信度較高;由于很多地方還是重男輕女的落后思想,導(dǎo)致女生患有強(qiáng)迫癥狀的比例遠(yuǎn)高于男生[10].這些挖掘結(jié)果與心理學(xué)上的認(rèn)知基本相似,與前期我們的研究結(jié)果基本一致,由于大學(xué)生心理咨詢中心長(zhǎng)期通過(guò)加強(qiáng)師資隊(duì)伍建設(shè)、開(kāi)展心理健康教育專(zhuān)題活動(dòng)和開(kāi)設(shè)心理健康系列校級(jí)選修課等多種途徑對(duì)學(xué)生心理危機(jī)進(jìn)行預(yù)防,患有軀體化、抑郁、強(qiáng)迫等九維心理癥狀的學(xué)生比例普遍有所降低,尤其是高比例的強(qiáng)迫癥和人際關(guān)系敏感癥狀都有所改善,充分說(shuō)明了關(guān)聯(lián)規(guī)則在大學(xué)生心理危機(jī)預(yù)防中的必要性.
4 總結(jié)
增量式關(guān)聯(lián)規(guī)則挖掘算法大致分為基于Apriori算法的增量更新算法和基于FP-tree的增量更新算法兩類(lèi).本文對(duì)基于Apriori算法的增量式關(guān)聯(lián)規(guī)則算法FUP算法的基本思想、優(yōu)缺點(diǎn)進(jìn)行了探討,同時(shí)針對(duì)算法不足提出了改進(jìn)算法,并將FUP算法應(yīng)用于大學(xué)生心理健康測(cè)評(píng)數(shù)據(jù),從而幫助學(xué)校心理輔導(dǎo)人員做到大學(xué)生心理危機(jī)預(yù)防與疏導(dǎo),推動(dòng)學(xué)校心理健康教育工作更進(jìn)一步的順利開(kāi)展.
參考文獻(xiàn):
〔1〕馮玉才,馮建琳.關(guān)聯(lián)規(guī)則增量式更新算法[J].軟件學(xué)報(bào),1998,9(4):301-306.
〔2〕David W Cheung,J.Han,V.Ng,et al.Maintenance of Discovered Association Rules in Large Databases:An Incremental Updating Technique[A].Proc of the 12th Int,1 Conf on Data Engineering[C].1996:106-114.
〔3〕杜孝平,羅憲,唐世渭.頻繁項(xiàng)集挖掘中的兩種哈希數(shù)構(gòu)建方法[J].計(jì)算機(jī)科學(xué),2002,29(12):138-140.
〔4〕徐文拴,辛運(yùn)幃.一種改進(jìn)的關(guān)聯(lián)規(guī)則維護(hù)算法[J].計(jì)算機(jī)工程與應(yīng)用.2006,42(18):178-180.
〔5〕梅俊,鄭剛.一種基于臨時(shí)表的關(guān)聯(lián)規(guī)則增量更新算法[J].安徽工程科技學(xué)院學(xué)報(bào),2010(3):44-47.
〔6〕唐璐,江紅,上官秋子.一種改進(jìn)的關(guān)聯(lián)規(guī)則的增量式更新算法[J].計(jì)算機(jī)應(yīng)用與軟件,2012(4):246-248.
〔7〕倪志偉,高雅卓,等.基于矩陣的增量式關(guān)聯(lián)規(guī)則挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(13):153-155.
〔8〕吳立鋒,侯睿,王江晴.基于關(guān)聯(lián)規(guī)則的增量更新算法[J].武漢理工大學(xué)學(xué)報(bào),2010(10):151-155.
〔9〕廖深基.關(guān)于加強(qiáng)和改進(jìn)大學(xué)生心理危機(jī)干預(yù)工作的思考[J].思想教育研究,2011(9):86-88.
〔10〕亓文娟,晏杰,等.關(guān)聯(lián)規(guī)則挖掘在大學(xué)生心理健康測(cè)評(píng)系統(tǒng)中的應(yīng)用研究[J].湖南工業(yè)大學(xué)學(xué)報(bào),2013(11):94-99.