国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分析數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的提升及其應(yīng)用

2015-05-30 05:48張?zhí)锛?/span>
2015年29期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘提升

張?zhí)锛?/p>

摘要:在現(xiàn)代信息技術(shù)的發(fā)展背景下,數(shù)據(jù)挖掘成為數(shù)據(jù)庫(kù)中的重要知識(shí)發(fā)現(xiàn),逐漸成為一個(gè)跨學(xué)科程度較深的研究領(lǐng)域。而對(duì)關(guān)聯(lián)規(guī)則的分析是數(shù)據(jù)庫(kù)挖掘中的重要課題。關(guān)聯(lián)規(guī)則在有效的提升后,通過(guò)在各領(lǐng)域的發(fā)展中應(yīng)用,為其發(fā)展提供可靠的技術(shù)保證。本文簡(jiǎn)單闡述關(guān)聯(lián)規(guī)則的概念,探討其相應(yīng)分析的求解,檢驗(yàn)其相應(yīng)分析的適應(yīng)性,了解相應(yīng)分析適應(yīng)性的具體應(yīng)用。

關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;提升;應(yīng)用

在數(shù)據(jù)信息快速發(fā)展的背景下,在龐大的數(shù)據(jù)庫(kù)中挖掘有效的信息變得越來(lái)越困難,一般的數(shù)據(jù)挖掘技術(shù)很難在同時(shí)保證精確地、及時(shí)性、廣泛性,優(yōu)化具體的數(shù)據(jù)挖掘技術(shù)逐漸成為數(shù)據(jù)挖掘工作中的一個(gè)難題。利用有效的數(shù)據(jù)挖掘工具以及相應(yīng)的算法進(jìn)行有效的數(shù)據(jù)挖掘工作成為目前行業(yè)的重點(diǎn)話題。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,篩選出隱藏性較高,可信度較高,具有鮮明的特點(diǎn)的有效信息,是數(shù)據(jù)的一種高級(jí)處理的過(guò)程[1]。而數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則是一種主要的挖掘技術(shù),能夠指導(dǎo)整個(gè)數(shù)據(jù)挖掘工作的進(jìn)行,優(yōu)化相應(yīng)的數(shù)據(jù)挖掘工作,更好的適應(yīng)于各個(gè)行業(yè)的數(shù)據(jù)挖掘需求。

1.關(guān)聯(lián)規(guī)則的概念

關(guān)聯(lián)規(guī)則是一種X→Y的一種蘊(yùn)涵式,X和Y是關(guān)聯(lián)規(guī)則的先導(dǎo),關(guān)聯(lián)規(guī)則的XY存在一定的支持度與信任度。

早在1993年,Agrawal等人提出了關(guān)聯(lián)規(guī)則的概念。關(guān)聯(lián)規(guī)則被認(rèn)為是,假設(shè)I={I1,I2,…,Im}是項(xiàng)的集合,那么,給定一個(gè)用于交易的數(shù)據(jù)庫(kù)D,其中每一個(gè)交易都會(huì)與一個(gè)唯一的符號(hào)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在數(shù)據(jù)庫(kù)中的支持度應(yīng)該是數(shù)據(jù)庫(kù)中的事務(wù),同時(shí)包含的X、Y的概率,而信任度則是數(shù)據(jù)庫(kù)中的條件概率。一般情況下,如果能滿足具有最小的支持度和信任度,就可以認(rèn)為關(guān)聯(lián)規(guī)則是成立的。而最小的支持度和信任度是人為而定的。關(guān)聯(lián)規(guī)則,其核心的方法是頻集理論的遞推方法[2],它可以及時(shí)發(fā)現(xiàn)具體的交易中,數(shù)據(jù)庫(kù)中不同的商品之間存在的聯(lián)系,然后在后續(xù)的工作中,通過(guò)一定的規(guī)則找出客戶購(gòu)買行為模式。目前,利用關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)的方法已經(jīng)廣泛應(yīng)用在商業(yè)、電信等各個(gè)領(lǐng)域中,因此,對(duì)關(guān)聯(lián)規(guī)則的研究顯得尤為重要。

利用這樣的簡(jiǎn)單例子來(lái)說(shuō)明關(guān)聯(lián)規(guī)則的概念,上述的表格是顧客在超市購(gòu)買記錄的具體數(shù)據(jù)庫(kù)情況,包含了6個(gè)事務(wù),項(xiàng)集為I={乒乓球拍、乒乓球、運(yùn)動(dòng)鞋、網(wǎng)球}。分析關(guān)聯(lián)規(guī)則:乒乓球拍與乒乓球,事務(wù)1、2、3、4、6包含乒乓球拍,事務(wù)1、2、6同時(shí)包含乒乓球拍和乒乓球,X^Y=3, D=6,支持度(X^Y)/D=0.5;X=5, 置信度(X^Y)/X=0.6。若給定最小支持度A= 0.5,最小信任度B= 0.6,認(rèn)為購(gòu)買乒乓球拍和購(gòu)買乒乓球之間存在關(guān)聯(lián)。

2.相應(yīng)分析的求解

在數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則挖掘的對(duì)象一般是事務(wù)數(shù)據(jù)庫(kù)。在具體的事務(wù)數(shù)據(jù)庫(kù)中可以考察設(shè)計(jì)到眾多屬性的事務(wù),在上述的關(guān)聯(lián)規(guī)則概念的分析中,乒乓球拍與乒乓球等都是具有屬性的事務(wù)[3]。通過(guò)具體的數(shù)據(jù)庫(kù)分析,進(jìn)行關(guān)聯(lián)規(guī)則的統(tǒng)計(jì)描述,可以解決實(shí)際發(fā)展領(lǐng)域中的問(wèn)題,使不同的行業(yè)通過(guò)關(guān)聯(lián)規(guī)則在數(shù)據(jù)庫(kù)中篩選有用的信息,促進(jìn)其行業(yè)的發(fā)展。

在關(guān)聯(lián)規(guī)則中,進(jìn)行相應(yīng)性的分析,簡(jiǎn)單來(lái)說(shuō)就是分析兩組或者多組變量之間關(guān)系的有效方法。一般的離散情況下,對(duì)相應(yīng)性的分析要從資料出發(fā),建立因素之間的列聯(lián)表,這樣的列聯(lián)表可以是二維的也可以是三維的,然后對(duì)數(shù)據(jù)進(jìn)行分析。這種分析方法在幾維子空間上的建立如果是最優(yōu)化的狀態(tài),則表示這種相應(yīng)性的分析是完善合適的。

對(duì)相應(yīng)性分析進(jìn)行求解,明確各個(gè)要素之間的權(quán)重作用,分析權(quán)重矩陣,得到相應(yīng)的數(shù)據(jù)處理方法。

具體的求解方法參考胡定國(guó)和張潤(rùn)楚在1990年提出的具體理論[4]。

(1)卡方距離意義下的總的信息變差

要在計(jì)算的過(guò)程中,針對(duì)不同的因素的輪廓矩陣引入卡方距離:

d2(i,i′)=∑cj=11f-jfijfi.-fi′jfi′.和

d2(j,j′)=∑ri=11fi.fijf.j-fij′f.j′2.

按照一定的配合優(yōu)度的準(zhǔn)則,求卡方意義下的總信息變差,

tr(s)=tr(Q)=tr(S*)=tr(Q*),

其中,

S=F′D-1rFD-1c,Q=FD-1cF′D-1r,

S*=D-12cF′D-1rFD-12c,Q*=D-12rF′D-1cFD-12r.

在變差信息損失達(dá)到最小的意義下,求解因素間關(guān)系的最優(yōu)的聯(lián)立表示,這樣的求解要在低維空間中進(jìn)行。

(2)最優(yōu)的聯(lián)立表示

求解特征值和特征向量,注意相同的非零特征值,通過(guò)設(shè)立不同的關(guān)系式將進(jìn)行分析,得到空間中分析的對(duì)偶關(guān)系:

βαα=D-1cF′φα,βαφα=D-1cF′α, α=1,2,…,l0,

α=β-11αD-1cF′φα,φα=β-12αD-1rFα, α=1,2,…,l0.

這樣就被稱為相應(yīng)分析的聯(lián)立表示,當(dāng)a值取1或2……時(shí)可以稱為最優(yōu)聯(lián)立表示。

(3)進(jìn)一步求解分析

在具體的相應(yīng)性分析中,會(huì)給定常數(shù),然后得到在維子空間的最優(yōu)聯(lián)立表示,最后在聯(lián)立表示的基礎(chǔ)上分析各個(gè)因素之間的關(guān)系。

3.相應(yīng)分析的適應(yīng)性檢驗(yàn)

3.1適應(yīng)性檢驗(yàn)的主要思想

對(duì)相應(yīng)分析的適應(yīng)性檢驗(yàn)首先要明確其檢驗(yàn)的主要思想,在思想的指導(dǎo)下做進(jìn)一步的檢驗(yàn)。一般的檢驗(yàn)要根據(jù)數(shù)理統(tǒng)計(jì)理論來(lái)進(jìn)行,檢驗(yàn)兩個(gè)變量的獨(dú)立性[5]。

用以下公式進(jìn)行計(jì)算:

W0=k∑ri=1∑cj=1f2ijfi.f.j-1,

兩個(gè)變量的獨(dú)立性,與取樣的大小以及小于1的特征值的和的大小有密切的關(guān)系,在給定水平a的情況下,如果在a水平下兩組的因素是獨(dú)立的,就不需要做相應(yīng)的分析,也就是這樣的相應(yīng)分析沒(méi)有任何意義。所有的列聯(lián)表數(shù)據(jù)是反應(yīng)隨機(jī)誤差的,不能有效的包含兩組因素之間的關(guān)聯(lián)。如果在分析的過(guò)程中不進(jìn)行假設(shè),就可以用相應(yīng)分析來(lái)討論兩組因素之間的關(guān)聯(lián)關(guān)系。

3.2相應(yīng)分析的適應(yīng)性檢驗(yàn)和分析

對(duì)張潤(rùn)楚和朱建平在2002年提出的頻率矩陣進(jìn)行分析,根據(jù)相應(yīng)分析的求解步驟和具體的公式,得到統(tǒng)計(jì)量。而針對(duì)獨(dú)立性的檢驗(yàn),要在兩組因素獨(dú)立的假設(shè)下,根據(jù)擬合優(yōu)度檢驗(yàn)相關(guān)的理論。如果具體的假設(shè)被拒絕,要進(jìn)行進(jìn)一步的相應(yīng)分析。

相應(yīng)分析的檢驗(yàn)程序?yàn)椋簩?duì)于給定的水平a,首先要進(jìn)行零假設(shè)的禁煙,計(jì)算其統(tǒng)計(jì)量W0,判斷W0是否大于臨界值,如果大于,則檢驗(yàn)結(jié)束,可以得出;兩組因素之間沒(méi)有關(guān)聯(lián)關(guān)系,這種情況不需要做相應(yīng)的分析。如果對(duì)零假設(shè)進(jìn)行檢驗(yàn),計(jì)算的統(tǒng)計(jì)量小于臨界值,就可以取一個(gè)特征值進(jìn)行相應(yīng)的分析[6]。最后,要重復(fù)上述的分析和檢驗(yàn),進(jìn)而更好的描述各個(gè)因素之間的具體的關(guān)聯(lián)關(guān)系。

4.相應(yīng)分析適應(yīng)性的應(yīng)用

相應(yīng)性分析適應(yīng)性的應(yīng)用體現(xiàn)在各個(gè)行業(yè)中,利用相應(yīng)性分析來(lái)挖掘數(shù)據(jù)庫(kù)中的有用信息,為行業(yè)發(fā)展提供有效的建議,促進(jìn)其快速發(fā)展。

在數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,具體表現(xiàn)為相應(yīng)分析適應(yīng)性,因此,對(duì)相應(yīng)分析適應(yīng)性的應(yīng)用也就是關(guān)聯(lián)規(guī)則挖掘技術(shù)的應(yīng)用。

隨著數(shù)據(jù)挖掘技術(shù)以及各種挖掘工具的不斷發(fā)展和應(yīng)用,在諸如金融行業(yè)、超市零售行業(yè)、電信行業(yè)中,相應(yīng)分析適應(yīng)性的應(yīng)用廣泛而深入,通過(guò)積累的數(shù)據(jù),進(jìn)行有效的分析,能明確行業(yè)的發(fā)展情況,為具體行業(yè)的發(fā)展提出建設(shè)性的意見(jiàn)和參考。

以某地區(qū)中國(guó)電信移動(dòng)手機(jī)用戶繳費(fèi)情況數(shù)據(jù)庫(kù)為例,來(lái)分析相應(yīng)分析適用性的應(yīng)用。

2014年3月-2014年9月的用戶繳費(fèi)資料一共有189752條信息,基于用戶信息會(huì)發(fā)生變化的情況,按照月份建立信息系統(tǒng),根據(jù)消費(fèi)的分類構(gòu)建列聯(lián)資料。為了具有一定的對(duì)比性,將2014年4月某地區(qū)電信移動(dòng)通訊用戶的本地與長(zhǎng)途話費(fèi)作為多度的關(guān)聯(lián)相應(yīng)分析。

在具體的應(yīng)用中,首先對(duì)2014年3月資料提供的參數(shù)急性多度相應(yīng)分析,得到電信用戶2014年3月本地長(zhǎng)途話費(fèi)的適應(yīng)性檢驗(yàn)和多度關(guān)聯(lián)圖、三維關(guān)聯(lián)相應(yīng)分析。隨后進(jìn)行有效的分析。

3檔長(zhǎng)途話費(fèi)和4檔的本地話費(fèi),4檔的長(zhǎng)途話費(fèi)與5檔的本地話費(fèi)之間的關(guān)聯(lián)性較強(qiáng),而且兩種話費(fèi)之間的其他類別的關(guān)聯(lián)性也比較強(qiáng)。長(zhǎng)途話費(fèi) 5、6檔與本地話費(fèi)的6檔有離群的現(xiàn)象發(fā)生,能充分說(shuō)明,本地在電信引動(dòng)通訊的消費(fèi)上有一定的差距。利用三維關(guān)聯(lián)相應(yīng)分析,進(jìn)一步的描述長(zhǎng)途與本地話費(fèi)在不同的檔次之間的分布,把握兩組因素之間的各種關(guān)聯(lián)性。簡(jiǎn)單的舉例就是,如果本地的話費(fèi)1檔,從不同的角度看到它的離群性,但是本地話費(fèi)相比離群性,顯然情況比較好,對(duì)于這種情況,可以借助高度的關(guān)聯(lián)對(duì)其進(jìn)行進(jìn)一步的深入分析。

在數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則的提升及其應(yīng)用在具體的情況下,需要進(jìn)行相應(yīng)分析的適應(yīng)性研究與檢驗(yàn)。在原有相應(yīng)分析結(jié)果具有紕漏時(shí),要進(jìn)行多度的關(guān)聯(lián)分析,以及多個(gè)維度的可視化的分析,彌補(bǔ)原有分析的不足,從不同的角度,對(duì)因素之間的微妙的關(guān)聯(lián)關(guān)系進(jìn)行及時(shí)的把握,能起到描述因素之間的具體的關(guān)聯(lián)程度的作用。

面對(duì)大量的市場(chǎng)數(shù)據(jù),不同的數(shù)據(jù)挖掘單一整個(gè)行業(yè)的發(fā)展具有非常大的促進(jìn)作用。不僅可以從電信消費(fèi)的大量數(shù)據(jù)中得到整個(gè)行業(yè)發(fā)展的情況,為了解當(dāng)?shù)叵M(fèi)市場(chǎng)提供有效的資料。還可以利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則對(duì)超市商品的銷售數(shù)據(jù)進(jìn)行相應(yīng)分析,了解其商品之間的關(guān)聯(lián)性關(guān)系,對(duì)商品進(jìn)行分析和組合管理,可以更好的促進(jìn)超市商品的銷售,使整個(gè)超市的發(fā)展更加迅速。

結(jié)束語(yǔ)

數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則是挖掘有效數(shù)據(jù)的重要方法,其應(yīng)用領(lǐng)域非常廣泛,在具體的數(shù)據(jù)分析中,應(yīng)用關(guān)聯(lián)規(guī)則對(duì)數(shù)據(jù)進(jìn)行相應(yīng)分析,明確其適應(yīng)性,能為具體的工作提供可靠的信息,提高工作效率,促進(jìn)整個(gè)行業(yè)的快速發(fā)展。現(xiàn)階段,在數(shù)據(jù)挖掘的基礎(chǔ)上,提升整個(gè)關(guān)聯(lián)規(guī)則的效度,并將其應(yīng)用到更多的領(lǐng)域中可為各領(lǐng)域發(fā)展提供可靠的技術(shù)保證。(作者單位:北京優(yōu)購(gòu)文化發(fā)展有限公司)

參考文獻(xiàn):

[1]王彥增,曹正.基于WEKA數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的分析及應(yīng)用舉例[J].經(jīng)濟(jì)論壇,2013,01:165-167.

[2]王祥瑞.數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則挖掘的應(yīng)用研究[J].煤炭技術(shù),2011,08:205-207.

[3]楊帆,杜瑋,陳經(jīng)優(yōu).數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].電子技術(shù)與軟件工程,2014,21:216-217.

[4]頓毅杰.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集研究及算法設(shè)計(jì)[J].硅谷,2010,05:62+121.

[5]劉春,譚琨,安向明.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的研究與應(yīng)用[J].電腦學(xué)習(xí),2010,03:95-97.

[6]張成叔.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則挖掘方法的研究及應(yīng)用[J].軟件,2013,09:138+140.

猜你喜歡
關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘提升
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
提升小學(xué)語(yǔ)文課堂效率的策略與方法
提升小學(xué)生語(yǔ)文綜合素養(yǎng)的有效策略
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
如何提升公民生態(tài)意識(shí)
后進(jìn)生轉(zhuǎn)化和提升的實(shí)踐與思考
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用