国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于加權(quán)的多數(shù)據(jù)集時態(tài)關(guān)聯(lián)規(guī)則算法

2020-12-24 07:57:12耿麗娟
科技創(chuàng)新與應用 2020年26期

耿麗娟

摘? 要:文章將子數(shù)據(jù)集中的時態(tài)關(guān)聯(lián)規(guī)則的時態(tài)因素進行了區(qū)間歸一和延伸,再參考有效投票率進行規(guī)則剪輯,對剪輯后的子數(shù)據(jù)庫中的規(guī)則進行加權(quán)計算得到最終的時態(tài)關(guān)聯(lián)規(guī)則,最后通過算法偽代碼具體實現(xiàn)了該算法。

關(guān)鍵詞:加權(quán);多數(shù)據(jù)集;時態(tài)關(guān)聯(lián)規(guī)則

中圖分類號:TP311.131? ? ? ? ?文獻標志碼:A? ? ? ? ?文章編號:2095-2945(2020)26-0026-02

Abstract: In this paper, the temporal factors of the temporal association rules in the sub-data set are normalized and extended, and then the rules are edited with reference to the effective voter turnout rate, and the final temporal association rules are obtained by weighted calculation of the rules in the edited sub-database. Finally, the algorithm is implemented by pseudo code.

Keywords: weighting; multiple data sets; temporal association rules

1 概述

關(guān)聯(lián)規(guī)則描述了兩個或多個變量之間的某種潛在規(guī)則。其挖掘過程可概括為兩個步驟:第一,找出所有的頻繁項集;第二,根據(jù)頻繁項集確定強關(guān)聯(lián)規(guī)則。

2 時態(tài)關(guān)聯(lián)規(guī)則研究現(xiàn)狀

現(xiàn)行的時態(tài)關(guān)聯(lián)規(guī)則主要是針對單一數(shù)據(jù)庫進行挖掘。但應用較多的是多數(shù)據(jù)庫。多數(shù)據(jù)集的挖掘分為三個步驟:一,對多個數(shù)據(jù)集進行分類;二,對同類數(shù)據(jù)集進行局部模式分析;三,將挖掘到的知識進行合并[1]。

對時態(tài)關(guān)聯(lián)規(guī)則國內(nèi)外已經(jīng)有了相關(guān)的研究。歐陽繼紅等提出了一種權(quán)值合成模式[2],但該方法合成數(shù)據(jù)量很大。歐陽為民等提出了一個新的時態(tài)約束下的關(guān)聯(lián)規(guī)則算法[3]。Ale提到了在挖掘關(guān)聯(lián)規(guī)則時缺失時態(tài)信息的問題[4]。孟志青研究了一類基于時態(tài)約束的相鄰時態(tài)關(guān)聯(lián)問題,但沒有解決多時間粒度的問題[5]。朱建平等依據(jù)事務(wù)發(fā)生的順序構(gòu)造了加權(quán)關(guān)聯(lián)規(guī)則用來體現(xiàn)數(shù)據(jù)的時間價值,力求使規(guī)則的發(fā)現(xiàn)體現(xiàn)一種趨勢[6]。

3 以規(guī)則加權(quán)為基礎(chǔ)的多數(shù)據(jù)集時態(tài)關(guān)聯(lián)規(guī)則算法

3.1 主要思想和參數(shù)設(shè)置

以往在進行多數(shù)據(jù)集關(guān)聯(lián)規(guī)則加權(quán)算法時很少考慮到時態(tài)問題,本文將規(guī)則權(quán)值引入到多數(shù)據(jù)庫的時態(tài)關(guān)聯(lián)規(guī)則挖掘中。

(1)數(shù)據(jù)庫的權(quán)值

設(shè)D1,D2,…Dm為m個不同的數(shù)據(jù)庫,Num(Di)表示數(shù)據(jù)庫Di中的事務(wù)數(shù),則數(shù)據(jù)庫Di的權(quán)值為:

(2)關(guān)聯(lián)規(guī)則的權(quán)值

Si為Di中的關(guān)聯(lián)規(guī)則集,S={S1,S2,…Sm}為總關(guān)聯(lián)規(guī)則集,R1,R2,…Rn為總規(guī)則集S中具體的關(guān)聯(lián)規(guī)則。Num(Rk)表示具體規(guī)則Rk的數(shù)據(jù)庫數(shù)目,則我們定義關(guān)聯(lián)規(guī)則Rk的權(quán)值為:

(3)有效投票率

定義了有效投票率minωk,將規(guī)則的權(quán)值與之比較,將權(quán)值小于該閾值的無太大意義的規(guī)則刪除。

(4)合成模式

設(shè)D1,D2,…Dm為m個不同的數(shù)據(jù)庫,Si為Di中的關(guān)聯(lián)規(guī)則集,S={S1,S2,…Sm}為總關(guān)聯(lián)規(guī)則集supp1,supp2,...suppm

分別為各個數(shù)據(jù)庫的最小支持度,conf1,conf2,...confm分別為各個數(shù)據(jù)庫的最小置信度,對于特定的關(guān)聯(lián)規(guī)則“A?圯B”,設(shè)此規(guī)則在數(shù)據(jù)庫D1,D2,…Dm中的有效時間分別為[T1? T1],[T2? T2],…[Tm Tm],則合成后的支持度,置信度和有效時間分別為:

其中Extent-time函數(shù)包含延展和歸并兩步,關(guān)于時間區(qū)間的延展和歸并技術(shù)的具體實現(xiàn)過程參考文獻[2]。

(5)時態(tài)閾值?駐T

通過函數(shù)延展和歸并后的關(guān)聯(lián)規(guī)則的間區(qū)間差別很大,從幾個小時到幾天甚至幾周不等。因此定義了時態(tài)閾值?駐T,?駐T=[Tmin,Tmax]將規(guī)則合成后的時間區(qū)間與時態(tài)閾值比較,將時間區(qū)間不在此閾值范圍內(nèi)的的規(guī)則刪除。時態(tài)閾值的值應根據(jù)應用領(lǐng)域或者規(guī)則類別憑經(jīng)驗選取。

3.2 算法偽代碼

規(guī)則縮減算法(Rule Selection)

輸入:數(shù)據(jù)集庫D={D1,D2,…Dm};關(guān)聯(lián)規(guī)則集 S={S1,S2,…Sm};最小投票率minωR

輸出:縮減后的關(guān)聯(lián)規(guī)則集

(1)input? D, S, minωR

(2)for對于數(shù)據(jù)集中的每一個數(shù)據(jù)庫Di? do

for對于關(guān)聯(lián)規(guī)則集中的每一個關(guān)聯(lián)規(guī)則R? do

(3)output? S;

規(guī)則合成算法

輸入:關(guān)聯(lián)規(guī)則集 S={S1,S2,…Sm};minsupp;minconf;

輸出:合成后的關(guān)聯(lián)規(guī)則集

(1)input? S={S1,S2,…Sm},minsupp,minconf;

(2)call? Rule Selection(S);

(3)for對規(guī)則集中的每條規(guī)則A?圯B? do

(4)分別按照支持度和置信度的高低排列規(guī)則集S中的關(guān)聯(lián)規(guī)則R

(5)對于第四步中支持度和置信度大于閾值的關(guān)聯(lián)規(guī)則R判斷其時間區(qū)間是否滿足時態(tài)閾值的要求范圍

(6)輸出R中時間區(qū)間在時態(tài)閾值范圍內(nèi)的關(guān)聯(lián)規(guī)則R

4 結(jié)束語

本文介紹了時態(tài)關(guān)聯(lián)規(guī)則的研究現(xiàn)狀,在此基礎(chǔ)上提出了一種多數(shù)據(jù)集時態(tài)加權(quán)關(guān)聯(lián)算法,介紹了算法的思想和具體實現(xiàn),最后通過算法偽代碼具體實現(xiàn)了該算法。

參考文獻:

[1]唐懿芳,牛力,張師超.多數(shù)據(jù)源關(guān)聯(lián)規(guī)則挖掘算法研究[J].廣西師范大學學報(自然科學版),2002,20(4):27-31.

[2]歐陽繼紅,王仲佳,等.具有動態(tài)加權(quán)特性的關(guān)聯(lián)規(guī)則算法[J].吉林大學學報,2005(5),43(3):314-319.

[3]歐陽為民,蔡慶生.在數(shù)據(jù)庫中發(fā)現(xiàn)具有時態(tài)約束的關(guān)聯(lián)規(guī)則[J].軟件學報,1999,10(5):527-532.

[4]Ale J M,Rossi G H. An Approach to Cyclic Association Rules[C].In Proc. of the 2000 ACM Symposium on Applied Computing,2000:294-300.

[5]孟志青.一類相鄰時態(tài)關(guān)聯(lián)規(guī)則的知識發(fā)現(xiàn)問題[J].模式識別與人工智能,2001,14(4):458-462.

[6]朱建平,樂燕波.數(shù)據(jù)挖掘中加權(quán)時態(tài)關(guān)聯(lián)規(guī)則的構(gòu)造[J].計算機工程,2008,34(6):51-53.

鹿泉市| 三河市| 吉隆县| 河曲县| 湘西| 准格尔旗| 竹山县| 内乡县| 漠河县| 镇赉县| 新巴尔虎右旗| 浦城县| 侯马市| 定远县| 万山特区| 咸丰县| 新巴尔虎右旗| 青铜峡市| 五莲县| 河北省| 肇东市| 化州市| 天等县| 桦甸市| 汉沽区| 灵台县| 怀柔区| 江阴市| 凌源市| 遂溪县| 曲阳县| 平和县| 龙口市| 郎溪县| 磴口县| 天津市| 岳阳县| 清水县| 湟源县| 曲周县| 阳城县|