摘 要 在數(shù)據(jù)挖掘技術(shù)中,基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法是較為重要的一個(gè)課題,是我國信息技術(shù)領(lǐng)域的熱門研究課題。基于此,本文從數(shù)據(jù)挖掘算法入手,對基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法進(jìn)行了分析,將這一算法的原理作為基礎(chǔ),提出了提高數(shù)據(jù)挖掘算法概率的改進(jìn)措施,意在提高數(shù)據(jù)挖掘算法的處理效果,使其應(yīng)用于更多領(lǐng)域中。
【關(guān)鍵詞】關(guān)聯(lián)規(guī)則 數(shù)據(jù)挖掘算法 反饋機(jī)制
在基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法中,有很多算法,比如Apriori算法、完全頻繁項(xiàng)集挖掘算法以及Patition算法等。但是這些算法需要大量的候選集,導(dǎo)致數(shù)據(jù)挖掘的效率比較低。近些年來,很多研究學(xué)者都對數(shù)據(jù)挖掘算法效率的提升進(jìn)行了分析研究,也取得了一定的成效,然而就改進(jìn)的數(shù)據(jù)挖掘算法來說,存在著各自的優(yōu)缺點(diǎn)。因此,仍舊需要加強(qiáng)對數(shù)據(jù)挖掘算法的分析和研究。
1 數(shù)據(jù)挖掘算法概述
作為一種先進(jìn)的信息處理技術(shù),數(shù)據(jù)挖掘技術(shù)具有非常高的商業(yè)價(jià)值,該技術(shù)可以幫助人們改變傳統(tǒng)的聯(lián)機(jī)查詢,而是將數(shù)據(jù)的應(yīng)用提升到?jīng)Q策分析預(yù)測等方面。常用的數(shù)據(jù)挖掘技術(shù)主要包括規(guī)則歸納、支持向量、模糊集以及統(tǒng)計(jì)方法這四個(gè)特點(diǎn)。數(shù)據(jù)挖掘技術(shù)應(yīng)用的挖掘方法非常多,比如,當(dāng)代數(shù)學(xué)分析法、證據(jù)理論法、神經(jīng)網(wǎng)絡(luò)發(fā)以及遺傳算法等;數(shù)據(jù)挖掘技術(shù)的使用對象也比較廣泛,比如,空間數(shù)據(jù)庫、事態(tài)數(shù)據(jù)庫、多媒體數(shù)據(jù)庫以及遺產(chǎn)數(shù)據(jù)庫等。
2 基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法分析
2.1 算法的原理
在多種數(shù)據(jù)挖掘算法中,基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法是最基本的算法之一,這種算法的適用性和可操作性都比較強(qiáng),而且十分簡單。具體原理如下:首先進(jìn)行數(shù)據(jù)出現(xiàn)頻率支持度和關(guān)聯(lián)規(guī)則可信度的設(shè)定,然后通過特定的算法在已知的數(shù)據(jù)中找到滿足支持度要求的頻繁項(xiàng)集,并在該項(xiàng)集中應(yīng)用剪枝等多種策略來獲取滿足可信度要求的關(guān)聯(lián)規(guī)則。在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法中,頻繁項(xiàng)集的確定是重點(diǎn)研究內(nèi)容。
2.2 算法的改進(jìn)
2.2.1 實(shí)現(xiàn)機(jī)制
在以前對于數(shù)據(jù)挖掘算法的分析中,很多研究學(xué)者都將關(guān)注點(diǎn)房子阿勒數(shù)據(jù)挖掘模型和相關(guān)算法之上,但是從這一角度分析得出的結(jié)果較為孤立,數(shù)據(jù)處理的效果不是很理想。隨著研究的深入,專家學(xué)者們發(fā)現(xiàn),在對數(shù)據(jù)挖掘算法分析的過程中,不僅要對算法進(jìn)行研究,更要制定相應(yīng)的實(shí)現(xiàn)機(jī)制,這樣能夠?qū)⑼诰蛴?jì)劃真正轉(zhuǎn)變成對系統(tǒng)工作的控制,從而使挖掘項(xiàng)目取得較為理想的數(shù)據(jù)處理效果。與此同時(shí),在進(jìn)行挖掘算法的過程中,相關(guān)人員需要嚴(yán)格按照計(jì)算流程,這樣才能確保挖掘任務(wù)的準(zhǔn)確完成。
2.2.2 反饋機(jī)制
數(shù)據(jù)挖掘計(jì)算會(huì)受到很多因素的影響,有些因素比較難控制,從而使挖掘算法的數(shù)據(jù)處理結(jié)果具有一定的不可預(yù)測性。因此,需要為數(shù)據(jù)挖掘算法制定相應(yīng)的反饋機(jī)制,通過這一機(jī)制進(jìn)行數(shù)據(jù)處理結(jié)果的驗(yàn)證,還可以根據(jù)驗(yàn)證的狀況對結(jié)果進(jìn)行修正。在反饋機(jī)制反饋的過程中,不僅需要確保所挖掘數(shù)據(jù)的準(zhǔn)確性,更要確保這些數(shù)據(jù)是用戶重點(diǎn)關(guān)注的。這就需要對算法中的問題進(jìn)行約束,從而保證數(shù)據(jù)挖掘算法能夠滿足用戶的需求。
2.2.3 約束機(jī)制
在進(jìn)行數(shù)據(jù)挖掘算法的使用中,非常容易出現(xiàn)如下問題:計(jì)算人員會(huì)將重點(diǎn)放在系統(tǒng)處理中存在的問題,卻忽視了系統(tǒng)規(guī)模的控制,從而阻礙挖掘算法的有效應(yīng)用,使問題的解決過程更加困難,因此,需要構(gòu)建相應(yīng)的約束機(jī)制。在對挖掘的數(shù)據(jù)進(jìn)行約束時(shí),要對系統(tǒng)采取增量式擴(kuò)充措施,根據(jù)用戶的實(shí)際需求來明確數(shù)據(jù)挖掘算法的目標(biāo),按照相關(guān)的約束參數(shù),對需要解決的問題進(jìn)行實(shí)施驗(yàn)證,如果驗(yàn)證過程中明確了相關(guān)的數(shù)值之后,就能夠通過實(shí)驗(yàn)的交互式輸入來獲取較優(yōu)值,這種約束機(jī)制可以用于數(shù)據(jù)挖掘算法的全過程。與此同時(shí),在對數(shù)據(jù)進(jìn)行預(yù)處理的時(shí)候,需要正確設(shè)置約束的個(gè)數(shù),從而提高數(shù)據(jù)挖掘處理結(jié)果的準(zhǔn)確性,還能夠保證數(shù)據(jù)的規(guī)模,而且約束機(jī)制的應(yīng)用還能夠簡化數(shù)據(jù)挖掘算法。
在進(jìn)行約束類型的選擇時(shí),關(guān)聯(lián)規(guī)則能夠通過一次數(shù)據(jù)庫掃描挖掘算法,在減少I/O個(gè)數(shù)的前提下,提升數(shù)據(jù)量,從而提高計(jì)算機(jī)內(nèi)存的占用量。因此,在數(shù)據(jù)挖掘算法中,還要注重ISS容量控制,以此來減少CPU的占用量。相關(guān)人員可以對數(shù)據(jù)采取分批處理措施,以此來組織相關(guān)數(shù)據(jù),改善數(shù)據(jù)的結(jié)構(gòu),從而使數(shù)據(jù)形成獨(dú)立的關(guān)聯(lián)規(guī)則,在降低CPU的同時(shí),提高數(shù)據(jù)挖掘算法的準(zhǔn)確性。
3 結(jié)論
綜上所述,數(shù)據(jù)挖掘算法能夠從大量的數(shù)據(jù)中找到有價(jià)值的信息,從而解決相關(guān)問題。分析可得,通過本文的分析可知,基于關(guān)聯(lián)規(guī)則的挖掘算法需要構(gòu)建相應(yīng)的實(shí)現(xiàn)機(jī)制、反饋機(jī)制以及約束機(jī)制,這樣才能簡化數(shù)據(jù)挖掘算法,提高算法處理數(shù)據(jù)的準(zhǔn)確性和效率,從而使數(shù)據(jù)挖掘算法能夠獲得進(jìn)一步的應(yīng)用。希望本文能夠?yàn)橄嚓P(guān)人員探究基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法提供參考。
參考文獻(xiàn)
[1]李仕瓊.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘算法的分析研究[J].電子技術(shù)與軟件工程,2015(04):200.
[2]戴小廷.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法及其在智能物流中的應(yīng)用分析[J].科技和產(chǎn)業(yè),2014,14(02):113-116.
作者簡介
胡濤(1990-),女,湖南省衡陽縣人。碩士研究生學(xué)歷。主要研究方向?yàn)橛?jì)算機(jī)軟件工程。
作者單位
湖南交通工程學(xué)院電氣與信息工程系 湖南省衡陽市 421000