国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)的Ap rio ri算法在大學(xué)生心理數(shù)據(jù)分析中的應(yīng)用

2011-12-27 08:15:54
關(guān)鍵詞:置信度事務(wù)數(shù)據(jù)挖掘

王 璇

(福建對(duì)外經(jīng)濟(jì)貿(mào)易職業(yè)技術(shù)學(xué)院,福州350016)

改進(jìn)的Ap rio ri算法在大學(xué)生心理數(shù)據(jù)分析中的應(yīng)用

王 璇

(福建對(duì)外經(jīng)濟(jì)貿(mào)易職業(yè)技術(shù)學(xué)院,福州350016)

在基于傳統(tǒng)的支持度—置信度評(píng)價(jià)框架的Ap riori挖掘算法的基礎(chǔ)上,加入了興趣度評(píng)價(jià)指標(biāo),并將其應(yīng)用到大學(xué)生心理測(cè)評(píng)數(shù)據(jù)的分析中,探尋不同的心理測(cè)評(píng)量表數(shù)據(jù)之間的聯(lián)系,有效地提高了系統(tǒng)的挖掘效率和挖掘效果.

關(guān)聯(lián)規(guī)則;Ap riori;興趣度;心理測(cè)評(píng)

高校開(kāi)展心理健康教育,首先要對(duì)學(xué)生的心理健康狀況有全面的了解,最直接的做法就是進(jìn)行心理測(cè)評(píng),再根據(jù)心理測(cè)評(píng)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,得出相應(yīng)的結(jié)論.但是,目前大多數(shù)的心理測(cè)評(píng)系統(tǒng)還是傳統(tǒng)的信息管理系統(tǒng),對(duì)數(shù)據(jù)沒(méi)有更深層次的分析和提煉,無(wú)法揭示出數(shù)據(jù)之間隱含的關(guān)聯(lián).使用關(guān)聯(lián)規(guī)則挖掘技術(shù)則可以從這些海量數(shù)據(jù)中發(fā)現(xiàn)不同的心理測(cè)評(píng)數(shù)據(jù)之間的關(guān)聯(lián),為學(xué)校更好地開(kāi)展心理健康教育提供科學(xué)的依據(jù).

本文將關(guān)聯(lián)規(guī)則挖掘技術(shù)運(yùn)用到大學(xué)生心理測(cè)評(píng)數(shù)據(jù)的分析中,并在經(jīng)典的Ap riori算法的框架上,加入了興趣度評(píng)價(jià),以此來(lái)進(jìn)一步評(píng)價(jià)挖掘出的關(guān)聯(lián)規(guī)則,從而提高挖掘結(jié)果的有效性.

1 基于數(shù)據(jù)挖掘的大學(xué)生心理測(cè)評(píng)數(shù)據(jù)挖掘系統(tǒng)

大學(xué)生心理數(shù)據(jù)挖掘系統(tǒng)采用C/S結(jié)構(gòu)模式,服務(wù)器端采用SQL Server 2005作為后臺(tái)數(shù)據(jù)庫(kù)管理系統(tǒng),客戶端應(yīng)用程序開(kāi)發(fā)平臺(tái)選擇Delphi工具,數(shù)據(jù)挖掘算法用C++語(yǔ)言實(shí)現(xiàn).管理人員通過(guò)客戶端軟件的人機(jī)交互界面實(shí)現(xiàn)心理測(cè)評(píng)數(shù)據(jù)的挖掘分析,具體包括從數(shù)據(jù)庫(kù)中抽取數(shù)據(jù)、清理數(shù)據(jù)、選擇挖掘模式、結(jié)果輸出、規(guī)則解釋等一個(gè)完整的數(shù)據(jù)挖掘過(guò)程.其具體的業(yè)務(wù)流程如圖1所示.

圖1 心理測(cè)評(píng)數(shù)據(jù)挖掘業(yè)務(wù)流程圖

這里的數(shù)據(jù)挖掘算法選擇了關(guān)聯(lián)規(guī)則挖掘中的Ap riori算法,并將其應(yīng)用到大學(xué)生心理測(cè)評(píng)數(shù)據(jù)的分析上,以此來(lái)對(duì)不同心理數(shù)據(jù)之間的關(guān)聯(lián)進(jìn)行深入的挖掘探討.例如,個(gè)體的心理健康水平是否與其人格特點(diǎn)有關(guān)聯(lián)?又有著怎樣的關(guān)聯(lián)?對(duì)此類問(wèn)題應(yīng)用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,挖掘出二者數(shù)據(jù)之間的潛在聯(lián)系,可以為心理測(cè)評(píng)量表的設(shè)計(jì)提供依據(jù),從而提高心理測(cè)評(píng)工作的科學(xué)性和客觀性.

2 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘概述

2.1 關(guān)聯(lián)規(guī)則基本概念

關(guān)聯(lián)規(guī)則挖掘[1]是數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要研究領(lǐng)域,它能從大量的數(shù)據(jù)項(xiàng)中挖掘出隱藏著的聯(lián)系或者相關(guān)性,挖掘出的關(guān)聯(lián)規(guī)則通常揭示了某種客觀規(guī)律或數(shù)據(jù)之間的依賴關(guān)系.根據(jù)這種規(guī)律或依賴關(guān)系,人們可以更科學(xué)地認(rèn)識(shí)客觀事物,合理地制定決策.

關(guān)聯(lián)規(guī)則用形如X?Y的蘊(yùn)含式來(lái)表示一條規(guī)則,表示事務(wù)X的出現(xiàn)會(huì)帶動(dòng)事務(wù)Y的出現(xiàn).其中,X稱為關(guān)聯(lián)規(guī)則的前件,Y稱為關(guān)聯(lián)規(guī)則的后件,?稱為關(guān)聯(lián)操作.

2.2 Ap riori算法描述

Ap riori算法[2]是一種最有影響的關(guān)聯(lián)規(guī)則挖掘算法.該算法基于一種稱為逐層搜索的迭代思想,首先找到頻繁1-項(xiàng)集,表示為L(zhǎng)1,然后用L1來(lái)生成L2,L2又用來(lái)生成L3,重復(fù)此過(guò)程,直到無(wú)法找到更多的頻繁項(xiàng)目集為止.每搜索一次,需要一次數(shù)據(jù)庫(kù)掃描,每一趟掃描中只考慮具有同一寬度K的所有K-項(xiàng)集.

算法1結(jié)合文獻(xiàn)[2]給出Ap riori算法.

輸入:事務(wù)數(shù)據(jù)庫(kù)D,最小支持度minsup.

輸出:頻繁項(xiàng)集L.

具體步驟:

算法中Ap riori_gen函數(shù)的功能是生成頻繁項(xiàng)集Lk的候選頻繁項(xiàng)集Ck,具體過(guò)程分為連接和剪枝2步進(jìn)行:首先以Lk-1為參數(shù),通過(guò)Lk-1自身的連接生成一個(gè)Lk的超集Ck;然后刪除Ck中所有(k-1)項(xiàng)子集不在Lk-1中的項(xiàng)集.另一個(gè)函數(shù)subset(Ck,t)的功能是找到包含在事務(wù)t中的所有候選項(xiàng)集.

2.3 傳統(tǒng)的關(guān)聯(lián)規(guī)則評(píng)價(jià)方法

由Apriori算法得到的頻繁項(xiàng)集即可生成相應(yīng)的關(guān)聯(lián)規(guī)則,但得到的關(guān)聯(lián)規(guī)則是否正確有效,還需要進(jìn)一步驗(yàn)證.傳統(tǒng)的關(guān)聯(lián)規(guī)則的評(píng)價(jià)方法是采用支持度 —置信度框架,即通過(guò)設(shè)置最小支持度閾值(minsup)和最小置信度閾值(mincnf)來(lái)剔除無(wú)效的關(guān)聯(lián)規(guī)則.

(1)支持度定義[3]:X和Y同時(shí)發(fā)生的事務(wù)占總事務(wù)的比率,即其中X∪Y?ti,ti∈T.

(2)置信度定義[3]:X和Y同時(shí)發(fā)生的事務(wù)與X發(fā)生的事務(wù)之比,即其中X?ti,Y∈ti,X∪Y?ti,ti∈T.

從以上定義得出的支持度用于衡量關(guān)聯(lián)規(guī)則的重要性,置信度用于衡量關(guān)聯(lián)規(guī)則的有效性.支持度高,說(shuō)明事務(wù)出現(xiàn)的概率高,挖掘出的關(guān)聯(lián)規(guī)則就越重要;置信度高,說(shuō)明事務(wù)之間的關(guān)聯(lián)程度高,其關(guān)聯(lián)規(guī)則也就越有效.關(guān)聯(lián)規(guī)則挖掘的結(jié)果就是要找出支持度和置信度均大于或等于預(yù)先指定的最小支持度m insup和最小置信度mincnf的規(guī)則,即強(qiáng)關(guān)聯(lián)規(guī)則.

傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法就是基于這種支持度—置信度框架來(lái)進(jìn)行關(guān)聯(lián)規(guī)則評(píng)價(jià)的,也就是找出數(shù)據(jù)集所有的強(qiáng)關(guān)聯(lián)規(guī)則.然而有研究發(fā)現(xiàn),強(qiáng)關(guān)聯(lián)規(guī)則并不一定是正確的,有時(shí)甚至是完全錯(cuò)誤的.例如:在學(xué)生心理測(cè)評(píng)數(shù)據(jù)庫(kù)中,性格爽直的學(xué)生占68%,無(wú)強(qiáng)迫癥狀的學(xué)生占66%,性格爽直且無(wú)強(qiáng)迫癥狀的學(xué)生占42%.現(xiàn)假設(shè)最小支持度域值為0.3,最小置信度域值為0.6,則經(jīng)過(guò)挖掘,可以得到“性格爽直 ?無(wú)強(qiáng)迫癥狀”,這條關(guān)聯(lián)規(guī)則的支持度為0.42,置信度為0.42/0.68=0.62,即性格爽直的學(xué)生中有62%無(wú)強(qiáng)迫癥狀.盡管該規(guī)則是強(qiáng)關(guān)聯(lián)規(guī)則,但顯然是錯(cuò)誤的,因?yàn)闊o(wú)強(qiáng)迫癥狀的學(xué)生本來(lái)就有66%,比62%的置信度還要高,說(shuō)明規(guī)則前件的出現(xiàn)反而降低了后件出現(xiàn)的可能性,這樣的規(guī)則需被濾去.因此,有必要在傳統(tǒng)的支持度 —置信度框架上加入其他的評(píng)價(jià)指標(biāo),以提高關(guān)聯(lián)規(guī)則挖掘結(jié)果的有效性.

3 加入興趣度的Ap rio ri算法

3.1 興趣度概念

對(duì)于關(guān)聯(lián)規(guī)則評(píng)價(jià)問(wèn)題,有學(xué)者提出了規(guī)則興趣度RI(Rule Interestingness)的度量方法[4].其原理是借用不確定推理中的主觀Bayes方法的充分性因子來(lái)對(duì)基于支持度 —置信度框架挖掘出的關(guān)聯(lián)規(guī)則進(jìn)行進(jìn)一步評(píng)價(jià).

對(duì)于一條關(guān)聯(lián)規(guī)則X?Y,興趣度RI定義[4]為:

由定義可知,興趣度RI反映了事務(wù)X和事務(wù)Y之間的關(guān)系:當(dāng)RI值大于1時(shí),表明事務(wù)X的發(fā)生會(huì)增加事務(wù)Y發(fā)生的概率,即事務(wù)X和事務(wù)Y是相關(guān)的,稱為正相關(guān)性,RI值越大,表明事務(wù)X和事務(wù)Y的相關(guān)性越大;當(dāng)RI值小于1時(shí),表明事務(wù)X的發(fā)生會(huì)降低事務(wù)Y發(fā)生的概率,稱為負(fù)相關(guān)性;當(dāng)RI值等于1時(shí),表明事務(wù)X和事務(wù)Y是相互獨(dú)立的,即事務(wù)X和事務(wù)Y之間不具有相關(guān)性.

在傳統(tǒng)的Ap riori算法挖掘出的關(guān)聯(lián)規(guī)則基礎(chǔ)上,再引入興趣度對(duì)規(guī)則有效性進(jìn)行衡量,淘汰興趣度 ≤1,即負(fù)相關(guān)性或無(wú)關(guān)的關(guān)聯(lián)規(guī)則,從而剔除一些無(wú)趣或錯(cuò)誤的規(guī)則,提高關(guān)聯(lián)規(guī)則的挖掘質(zhì)量.再以前面“性格爽直 ?無(wú)強(qiáng)迫癥狀”關(guān)聯(lián)規(guī)則為例,在支持度0.42,置信度0.62的基礎(chǔ)上,計(jì)算其興趣度:RI=0.62/0.66=0.939<1,因此可以將其淘汰.

3.2 加入興趣度的Ap riori算法描述

對(duì)算法1得到的項(xiàng)集內(nèi)的每條規(guī)則計(jì)算其置信度,先淘汰置信度小于最小置信度閾值的規(guī)則,再計(jì)算剩下規(guī)則的興趣度,淘汰興趣度小于最小興趣度閾值的規(guī)則,最后剩下的規(guī)則即為引入興趣度后所得到的最終結(jié)果.

算法2加入興趣度的Ap riori算法.

輸入:關(guān)聯(lián)規(guī)則X?Y,最小置信度閾值mincnf,最小興趣度閾值minri.

輸出:關(guān)聯(lián)規(guī)則X?Y或φ.

具體步驟:

3.3 算法驗(yàn)證

應(yīng)用加入興趣度的Ap rio ri算法,算法用C++語(yǔ)言實(shí)現(xiàn),程序運(yùn)行環(huán)境為 Window s XP、賽揚(yáng) 2.1G CPU、1G內(nèi)存,抽取某高校2010級(jí)學(xué)生心理測(cè)評(píng)數(shù)據(jù)庫(kù)中的部分?jǐn)?shù)據(jù)作為數(shù)據(jù)樣本集進(jìn)行測(cè)試,得到表1所示的挖掘統(tǒng)計(jì)結(jié)果.

表1 不同閾值設(shè)置的規(guī)則數(shù)量統(tǒng)計(jì)

根據(jù)表1的數(shù)據(jù)統(tǒng)計(jì),可以得出在沒(méi)有興趣度及不同興趣度閾值設(shè)置下的關(guān)聯(lián)規(guī)則數(shù)量的前后對(duì)比,如圖2所示.

圖2 不同興趣度閾值的關(guān)聯(lián)規(guī)則數(shù)量

從圖2可以看出,引入興趣度閾值后,生成的關(guān)聯(lián)規(guī)則數(shù)量急劇減少,同時(shí),隨著興趣度閾值的提高,淘汰了許多錯(cuò)誤或無(wú)用的規(guī)則,提高了挖掘結(jié)果的有效性.

4 大學(xué)生心理測(cè)評(píng)數(shù)據(jù)挖掘應(yīng)用實(shí)例

數(shù)據(jù)來(lái)源于某高校2010級(jí)學(xué)生的《大學(xué)生心理健康量表》與《大學(xué)生人格量表》的相關(guān)測(cè)評(píng)數(shù)據(jù),收回有效問(wèn)卷2 067份,經(jīng)過(guò)數(shù)據(jù)預(yù)處理,得到實(shí)際有效記錄1 988條作為關(guān)聯(lián)挖掘的數(shù)據(jù)樣本.具體包含心理健康量表中9個(gè)維度[5](強(qiáng)迫、敏感、抑郁、焦慮、敵對(duì)、偏執(zhí)、恐怖、軀體化、精神病傾向)和人格量表中7個(gè)因子[6](活躍、爽直、堅(jiān)韌、嚴(yán)謹(jǐn)、趨利、重情、隨和)共 16 個(gè)字段.

以強(qiáng)迫癥為例,挖掘不同人格因子與強(qiáng)迫癥之間的關(guān)聯(lián).在字段選擇步驟中,選擇7個(gè)人格因子和1個(gè)心理健康維度(強(qiáng)迫)作為關(guān)聯(lián)挖掘字段,再分別設(shè)置支持度=0.2,置信度=0.5,興趣度=1.2,如圖3所示.

圖3 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘界面

系統(tǒng)運(yùn)行后,挖掘出的關(guān)聯(lián)規(guī)則共36條,選擇其中與強(qiáng)迫癥相關(guān)的關(guān)聯(lián)規(guī)則,即規(guī)則后件為有癥狀或無(wú)癥狀的規(guī)則,得到的結(jié)果如表2所示.

表2 與強(qiáng)迫癥有關(guān)的關(guān)聯(lián)規(guī)則挖掘結(jié)果

5 結(jié) 語(yǔ)

本文在傳統(tǒng)的基于支持度—置信度框架的關(guān)聯(lián)規(guī)則評(píng)價(jià)體系中加入了興趣度評(píng)價(jià),并將加入興趣度的Ap riori算法應(yīng)用于大學(xué)生心理測(cè)評(píng)數(shù)據(jù)的分析中,挖掘出相關(guān)的規(guī)則.實(shí)踐證明,引入興趣度閾值可有效減少生成的關(guān)聯(lián)規(guī)則數(shù)量,淘汰掉一些無(wú)用的規(guī)則,進(jìn)而提高關(guān)聯(lián)規(guī)則的挖掘質(zhì)量.

[1]Dunham M H.數(shù)據(jù)挖掘教程[M].郭崇彗等譯.北京:清華大學(xué)出版社,2005:152-153,169-170.

[2]Agrawal R,Srikant R.Fast A lgorithm s fo r M ining Association Rules in Large Databases[C]//.Proceedings of the 1944 International Conference on Very Large Databases.San Francisco:Morgan kaufmann Publishers,1994:487-499.

[3]黃勇.基于關(guān)系數(shù)據(jù)庫(kù)的關(guān)聯(lián)規(guī)則挖掘算法的研究[D].安徽:安徽大學(xué),2006:11-12.

[4]Piatetsky-Shapior G,Fraw ley W J.Know ledge Discovery in Database[M].Cambridge,Massachusetts,USA:AAA I/M IT Press,2001:158-165.

[5]教育部《大學(xué)生心理健康測(cè)評(píng)系統(tǒng)》課題組.《中國(guó)大學(xué)生心理健康量表》的編制[J].心理與行為研究,2005,3(2):102-108.

[6]王登峰.《中國(guó)大學(xué)生人格量表》的編制[J].心理與行為研究,2005,3(2):88-94.

Application of the Improved Apriori Algorithm in College Students’Psychological Data Analysis

WANG Xuan
(Fujian International Business Economic College,Fuzhou 350016,China)

Based on the traditional support-confidence evaluation framework of Ap riori algorithm,joining the Rule Interestingness,the college students’psychological data is analyzed,and the relation between different psychological evaluation data is exp lored,so the system’s efficiency and effect are imp roved effectively.

association rules;Ap riori;rule interestingness;psychological evaluation

TP311.5

A

10.3969/j.issn.1671-6906.2011.01.009

1671-6906(2011)01-0035-04

2011-01-03

福建省教育廳2010-2011年度B類科技項(xiàng)目(JBS10324)

王 璇(1978-),女,福建福州人,講師,碩士.

猜你喜歡
置信度事務(wù)數(shù)據(jù)挖掘
“事物”與“事務(wù)”
基于分布式事務(wù)的門(mén)架數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
河湖事務(wù)
正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
基于GPGPU的離散數(shù)據(jù)挖掘研究
陇南市| 衡水市| 房山区| 北川| 昂仁县| 海伦市| 玉树县| 漳平市| 潮州市| 新晃| 瑞昌市| 宁陕县| 教育| 永吉县| 盐城市| 社旗县| 筠连县| 曲松县| 平武县| 梁河县| 华宁县| 桂林市| 岗巴县| 新田县| 砀山县| 黄大仙区| 平山县| 潞西市| 渑池县| 德惠市| 革吉县| 吉水县| 天全县| 丰台区| 洪泽县| 西林县| 称多县| 南皮县| 河东区| 麻阳| 德保县|