国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘算法基于關(guān)聯(lián)規(guī)則的分析和應(yīng)用

2017-04-17 20:34:02劉小燕
課程教育研究 2017年11期
關(guān)鍵詞:Apriori算法關(guān)聯(lián)規(guī)則

劉小燕

【摘要】本文主要對(duì)數(shù)據(jù)挖掘算法及關(guān)聯(lián)法則基礎(chǔ)上針對(duì)Apriori算法特點(diǎn)進(jìn)行分析,并提出了Apriori算法及關(guān)聯(lián)規(guī)則算法思路,通過(guò)改進(jìn)Apriori算法可效避免產(chǎn)生冗余規(guī)則,確保挖掘所得數(shù)據(jù)簡(jiǎn)潔完備。

【關(guān)鍵詞】數(shù)據(jù)挖掘算法 關(guān)聯(lián)規(guī)則 Apriori算法

【中圖分類號(hào)】G64 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2017)11-0240-01

數(shù)據(jù)挖掘另可稱之為數(shù)據(jù)庫(kù)中知識(shí)的發(fā)現(xiàn),是指在大量模糊的、不完全的、隨機(jī)的數(shù)據(jù)中,提取部分人們事先不知道的卻存在一定潛在應(yīng)用價(jià)值的信息及知識(shí)的整體過(guò)程,是發(fā)現(xiàn)知識(shí)挖掘知識(shí)的重要步驟。

1.關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則挖掘?qū)儆跀?shù)據(jù)挖掘算法中應(yīng)用最為廣發(fā)的算法之一,關(guān)聯(lián)規(guī)則挖掘值得是在大型數(shù)據(jù)集內(nèi)尋找存在有趣關(guān)聯(lián)的關(guān)系,進(jìn)而從數(shù)據(jù)集內(nèi)進(jìn)行相應(yīng)識(shí)別,也可稱為頻繁集,通過(guò)應(yīng)用頻繁集創(chuàng)造及描述關(guān)聯(lián)規(guī)則的一個(gè)過(guò)程。當(dāng)前Apriori 算法在數(shù)據(jù)分析、高層決策以及商業(yè)情報(bào)等多個(gè)領(lǐng)域得到應(yīng)用,經(jīng)典Apriori 算法需要借助數(shù)據(jù)庫(kù)進(jìn)行多次掃描生成大量候選集,因此經(jīng)典化算法挖掘能力一般產(chǎn)生較多冗余規(guī)則,因此通過(guò)數(shù)據(jù)挖掘算法基于關(guān)聯(lián)規(guī)則分析提出改進(jìn)Apriori 算法十分重要,可更好進(jìn)行關(guān)聯(lián)規(guī)則提取。

2.Apriori 算法

Apriori 算法應(yīng)用的突出特點(diǎn),即應(yīng)用時(shí)需通過(guò)多次數(shù)據(jù)庫(kù)掃描才能發(fā)現(xiàn)所有頻繁集。如果將最長(zhǎng)頻繁集長(zhǎng)度設(shè)為K,即應(yīng)用Apriori 算法是經(jīng)多次掃描得出的結(jié)果記為K,第1次實(shí)施掃描時(shí)Apriori 算法可計(jì)算得出數(shù)據(jù)庫(kù)單項(xiàng)目支持度,并滿足最小支持度1-強(qiáng)度集,集合L1。后續(xù)通過(guò)L1可陸續(xù)挖掘得出L2(2-強(qiáng)項(xiàng)集),依次循環(huán),通過(guò)反復(fù)N次掃描,可以N-1次掃描所得的N-1強(qiáng)項(xiàng)集集合LN-1為種子集,利用種子集生成N-強(qiáng)項(xiàng)集集合(候選集CN),通過(guò)計(jì)算候選集指出度,確定可滿足最小支持度N的強(qiáng)項(xiàng)集集合LN。通過(guò)上述過(guò)程的不斷重讀可不斷產(chǎn)生新強(qiáng)項(xiàng)集,直至無(wú)強(qiáng)項(xiàng)集產(chǎn)生。經(jīng)典Apriori 算法在應(yīng)用中存在較多不足,需要對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次掃描,對(duì)計(jì)算機(jī)資源進(jìn)行大量消耗。

3.改進(jìn)Apriori 算法

3.1 改進(jìn)思路

改進(jìn)Apriori 算法是在應(yīng)用可拓理論基礎(chǔ)上開(kāi)展的Apriori 算法,可拓性主要是指事物進(jìn)行拓展的可能性,因事物可拓性屬于其本身特有性質(zhì),主要包括相關(guān)性、發(fā)散性及蘊(yùn)含性方面,從自身向外、變通、平行以及組合、分解等角度提供多種變換途徑的可能性。將給定事物名稱設(shè)置為N,與其相關(guān)特征C量值定位V,將有序三元組R作為事物描述的基本元(物元),事物名稱主要包括三大要素,即名稱(N)、特征(C)及量值(V)?;诳赏乩碚搼?yīng)用改進(jìn)Apriori 算法主要包括兩個(gè)步驟,第一,大征集交運(yùn)算,以X1及X2為大征集,交運(yùn)算后將生成所得的征集描述為X,X為X1及X2包含子句的合取范式。第二,征集刪除運(yùn)算,將K元征集內(nèi)每個(gè)征集XK中k-1元子句實(shí)施檢查,若發(fā)現(xiàn)k-1元子句確定征集不屬于大征集,則需將其刪除。

3.2 改進(jìn)算法描述及性能驗(yàn)證

改進(jìn)Apriori 算法,首先需對(duì)數(shù)據(jù)庫(kù)(D)進(jìn)行掃描,將每條記錄內(nèi)元素均進(jìn)行統(tǒng)計(jì)記錄,得到元素集合(S),以S內(nèi)元素構(gòu)成單獨(dú)集合形成元候選集(H1),設(shè)置元計(jì)數(shù)單位(k,k=1),概念描述(Y)依次對(duì)Hk內(nèi)各征集XkyY支持度(s)及置信度(cEc0)進(jìn)行計(jì)算,輸出規(guī)則XkyY,若果Xk的cEc0可將其存入大征集Lk內(nèi),若Lk元素?cái)?shù)量低于2,需停止。Lk內(nèi)選擇2個(gè)不同征集Xki及Xkj,逐一進(jìn)行元素對(duì)比,若符合k-1 個(gè)元素,第k元素不同需將Xki元素與Xki第k個(gè)元素組成新元征集(k+1),將其存入Hk+1內(nèi)。針對(duì)Lk內(nèi)所有征集,兩兩進(jìn)行上述操作生成k+1候選集,確保k=k+1。為進(jìn)一步對(duì)改進(jìn)Apriori 算法進(jìn)行驗(yàn)證需采取VC++確保上述算法實(shí)現(xiàn),并借助SQL Server2005數(shù)據(jù)庫(kù)內(nèi)相關(guān)模擬實(shí)驗(yàn)數(shù)據(jù)進(jìn)行驗(yàn)證。借助改進(jìn)Apriori 算法進(jìn)行挖掘所得規(guī)則無(wú)冗余規(guī)則及遺漏規(guī)則,但最小支持度加大或數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)量增加時(shí),改進(jìn)算法運(yùn)行速度與Apriori 算法相比有所下降。

4.結(jié)束語(yǔ)

Apriori 算法應(yīng)用中仍存在一定不足之處,通過(guò)相應(yīng)改進(jìn),發(fā)現(xiàn)經(jīng)典Apriori 挖掘算法所得關(guān)聯(lián)規(guī)則內(nèi)包含較多冗余規(guī)則,基于挖掘算法進(jìn)行改進(jìn)后Apriori算法計(jì)算結(jié)果內(nèi)無(wú)冗余規(guī)則產(chǎn)生且無(wú)規(guī)則遺漏,簡(jiǎn)單且明了,通過(guò)實(shí)驗(yàn)數(shù)據(jù)分析發(fā)現(xiàn),改進(jìn)后Apriori算法執(zhí)行效率與經(jīng)典Apriori算法相比有所下降。

參考文獻(xiàn):

[1]方蓉.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法的分析及應(yīng)用[J].電子測(cè)試,2016,(1):36-38,16.

猜你喜歡
Apriori算法關(guān)聯(lián)規(guī)則
基于Hadoop平臺(tái)的并行DHP數(shù)據(jù)分析方法
基于Apriori算法的高校學(xué)生成績(jī)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
基于云平臺(tái)MapReduce的Apriori算法研究
基于關(guān)聯(lián)規(guī)則和時(shí)間閾值算法的5G基站部署研究
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評(píng)價(jià)體系中的應(yīng)用
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
基于RFID的汽車零件銷售策略支持模型
關(guān)聯(lián)規(guī)則在高校評(píng)教系統(tǒng)中的應(yīng)用
兰坪| 铁力市| 寿光市| 易门县| 靖远县| 宜黄县| 房产| 乐昌市| 安达市| 防城港市| 历史| 卢龙县| 阿拉善右旗| 佛冈县| 澳门| 大方县| 文登市| 沧源| 伊通| 昌吉市| 东源县| 福建省| 静安区| 桦川县| 勐海县| 秭归县| 舒兰市| 正安县| 阿瓦提县| 澳门| 富源县| 监利县| 全南县| 嘉峪关市| 古丈县| 阳泉市| 鹿邑县| 嘉黎县| 麻江县| 勐海县| 惠安县|