国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模糊數(shù)值約束的成績數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘

2020-12-14 04:37:08李毅
電腦知識與技術(shù) 2020年28期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則

李毅

摘要:綜合來說,基于對關(guān)聯(lián)規(guī)則的約束一般可以由成績數(shù)值信息數(shù)據(jù)生成。同時成績數(shù)據(jù)還可以和與之相關(guān)聯(lián)的數(shù)據(jù)共同構(gòu)成一條完善的成績記錄。鑒于此,本文主要分析如何借助模糊數(shù)值約束對相關(guān)的關(guān)聯(lián)規(guī)則進行約束 ,并結(jié)合一些實際案例對其約束方法的實效性進行分析。

關(guān)鍵詞:關(guān)聯(lián)規(guī)則;模糊數(shù)值約束;成績數(shù)據(jù)庫

中圖分類號:TP315 ? ? ?文獻標識碼:A

文章編號:1009-3044(2020)28-0051-03

1引言

為了對我校內(nèi)部的成人教育管理系統(tǒng)記錄的理念成績數(shù)據(jù)進行分析,并結(jié)合成績分析如何從諸多的歷史成績數(shù)據(jù)中挑選出一些比較具有針對性的數(shù)據(jù)來指導教學活動。下表是從校園歷年成績中選取出的一部分樣本實例:

為了更好地對數(shù)據(jù)信息進行挖掘和分析,可以借助信息數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則找到數(shù)據(jù)庫中各類數(shù)據(jù)之間的相關(guān)性。

為了更好地對數(shù)據(jù)之間的相關(guān)性進行分析,技術(shù)人員可以按照課程類別對事物數(shù)據(jù)庫進行分類,然后根據(jù)分類過程中各個項目之間存在的關(guān)聯(lián)規(guī)則進來有效挖掘問題。但是需要注意的是,如果使用傳統(tǒng)的數(shù)據(jù)管理挖掘方法進行數(shù)據(jù)挖掘和分析時,所選用事物數(shù)據(jù)庫內(nèi)部不得擁有過多的數(shù)值型項目。舉例來說,針對我校成人成績進行關(guān)聯(lián)規(guī)則挖掘時,其相關(guān)的規(guī)則為:高等數(shù)學成績較好、計算機基礎(chǔ)成績較好。其中,可以將成績好作為關(guān)聯(lián)規(guī)則進行約束。在針對傳統(tǒng)的關(guān)聯(lián)規(guī)則進行約束評價的過程中,往往采用“支持度-置信度”這類評價方法,但是這類評價方法不能從根本上反映出模糊約束數(shù)值的條件。鑒于此,在此基礎(chǔ)上,很多學者圍繞受約束的關(guān)聯(lián)規(guī)則進行了研究和分析。學者R.T.N提出了受約束的關(guān)聯(lián)查詢概念。而學者R.Srikant則對受約束的項集約束進行了分析,經(jīng)過分析后得出約束的項集中包含布爾表達式的頻繁項集。學者Robert J.BayardoJr還就稠密數(shù)據(jù)庫的特征進行了分析和研究,并在此基礎(chǔ)上提出了改進度的相關(guān)概念。

鑒于此,本文通過模糊關(guān)聯(lián)規(guī)則、模糊查詢以及語言量詞等技術(shù),對模糊數(shù)值約束的關(guān)聯(lián)規(guī)則挖掘問題進行了分析,并結(jié)合成人考試數(shù)據(jù)庫的現(xiàn)實案例對挖掘結(jié)果進行了分析。

2 模糊關(guān)聯(lián)規(guī)則

定義1 ?何為模糊關(guān)聯(lián)規(guī)則, 即在一個項目被限定的模糊數(shù)中,擁有很多包含關(guān)聯(lián)規(guī)則的前后項。一般情況下,評判模糊關(guān)聯(lián)規(guī)則的三個重要參數(shù)分別為:①支持度S;②置信度C;③真度。其數(shù)學表達式如下:

在公式中,[X、Y]分別代表去除調(diào)規(guī)則中模糊約束的前、后項項集,其中[T]表示事務記錄,[D]用來表示數(shù)據(jù)庫;[Q]則表示[Zadeh] 語言量詞,[P]代表模糊概率。結(jié)合定義1可以推導出相應的模糊關(guān)聯(lián)規(guī)則——高等數(shù)學的成績優(yōu)異;多數(shù)學生的計算機成績優(yōu)異。

同時,為了更好地確定相應的模糊關(guān)聯(lián)規(guī)則,可進行如下假設(shè):可以將該模糊關(guān)聯(lián)規(guī)則的支持度S設(shè)置為1,置信度設(shè)置1,此時的真度數(shù)值為0.8。由此可以得出以下結(jié)論:在一般情況下,高等數(shù)學成績較為優(yōu)異的學生其計算機基礎(chǔ)成績也較為優(yōu)異。其中的“成績優(yōu)異”分別是指高等數(shù)學成績和計算機數(shù)學成績這兩個模糊數(shù),而支持度和置信度可以用以表示集合項中的學生都學習過高等數(shù)學和計算機課程。而真度則主要用來展示高等數(shù)學成績和計算機基礎(chǔ)課程成績優(yōu)異學生的整體比例。

3 成績數(shù)據(jù)模糊化

在數(shù)學領(lǐng)域,成績優(yōu)異是一個較為模糊的概念,一般情況下,可以借助確定范圍的方法來對其進行加以明確。舉例來說,可以將閾值范圍處于[80,100]的分數(shù)劃分為成績好。但是就實際案例而言,由于成人教育學生生源類型較為復雜,不同科目對成績優(yōu)異的劃分區(qū)間,可能存在一定差異,并不以[80,100]為統(tǒng)一的劃分標準。但是如果將[80,100]作為唯一的劃分標準,又會對后期的真度數(shù)值計算產(chǎn)生影響。鑒于此,一般采用模糊集來對不同閾值內(nèi)的屬性值進行轉(zhuǎn)換。使用模糊集進行屬性值轉(zhuǎn)換的過程中,需要經(jīng)過以下兩步驟:首先,要建立和“成績優(yōu)異”相匹配的隸屬度函數(shù);其次,可以通過模糊查詢的方式找到和其屬性相對應的模糊數(shù)據(jù)庫。

3.1 隸屬度函數(shù)的定義

一般情況下,不同屬性成績數(shù)據(jù)的分布方式為正相關(guān),其隸屬度函數(shù)的定義為:

其中的值域為[μ(x)],[0,1]參數(shù):[P_max],各科目成績好數(shù)值的確定上限:[μ],各科成績的平均值:[σ],各科成績的標準差。

3.2模糊查詢

定義2 何為模糊查詢?模糊查詢主要是指在同一個關(guān)系數(shù)據(jù)庫內(nèi),其查詢語句where中的子句內(nèi)含有單個或者多個的模糊數(shù)。和普通查詢相比,模糊查詢不僅可以對滿足查詢條件的數(shù)集進行記錄,同時還可以對返回記錄的隸屬度進行記錄。舉例來說,可以用where子句中的邏輯預算符號“∧”和“∨”來指代子句中的,and或者or。

但是傳統(tǒng)查詢方式和模糊查詢方式仍然存在一定的差異,舉例來說:當輸入查詢指令select all workers whose weight is greater than 60 kg”時,此時該指令的具體含義為找出所有工人體重在60千克以上的,其布爾達描述特征也為體重>60kg。但是在模糊查詢之中,由于其使用模糊數(shù)如大小、高低等進行查詢,所以,可以用模糊數(shù)“有多重?”來進行模糊查詢。

3.3模糊數(shù)據(jù)記錄集的生成

結(jié)合我校的成人考試成績數(shù)據(jù)片段,為了從數(shù)據(jù)庫中找出高等數(shù)學成績數(shù)值處于優(yōu)異范圍內(nèi)的學生,可以進行如下模糊查詢:

其中,可以用大寫字母[Q]來替代[Query],用大寫字母[DB]來表示對應的關(guān)系數(shù)據(jù)庫,用Ti來表示第i條記錄。綜合起來用查詢語句可以表示為:“select * from DB where 高等數(shù)學成績= much”。這就是一條簡單的模糊數(shù)據(jù)查詢語句。但是值得注意的是,和標準的查詢語句不同,模糊查詢語句中的關(guān)系謂詞“高等數(shù)學成績”可用much進行表示。在這條魔術(shù)查詢語句的where子句之中,僅展示了一個關(guān)系謂詞,其隸屬度計算公式表示如下:

4 模糊關(guān)聯(lián)規(guī)則真度的計算

利用表2生成的模糊數(shù)據(jù)記錄集,對生成的模糊關(guān)聯(lián)規(guī)則計算真度可以判斷關(guān)聯(lián)規(guī)則與模糊數(shù)“大多數(shù)”是否相容。如果真度逼近1那么規(guī)則置信度越高;相反真度逼近0那么規(guī)則置信度就越低。通常對記錄數(shù)多的大型數(shù)據(jù)庫來說,相容程度較高的模糊關(guān)聯(lián)規(guī)則可以通過設(shè)定真度實現(xiàn)。計算真度步驟如下:

① 對模糊關(guān)聯(lián)規(guī)則計算滿足其屬性約束模糊數(shù)的模糊概率,計算公式為:

在公式中,用[i]表示第幾條記錄,用T來表示“∧”運算,用Ti來表示記錄,n用來表示所記錄的數(shù)量。根據(jù)學者Zadeh給出的語言量詞記錄概念可知,在語言量詞記錄中,Q (·)主要用來表示(most)的隸屬函數(shù),其真度的計算公式如下: τ= Q (P ).

以“高等數(shù)學成績優(yōu)異的學生多數(shù)計算機基礎(chǔ)成績也較為優(yōu)異”這條關(guān)聯(lián)規(guī)則為例,其真度計算公式如下:

那么如何判斷模糊關(guān)聯(lián)規(guī)則的可信度呢?一般情況下,可以通過分析預設(shè)的真度數(shù)值和實際的真度閾值數(shù)值來判斷模糊關(guān)聯(lián)規(guī)則的可信度。舉例來說,一條以“高等數(shù)學成績優(yōu)異、多數(shù)學生計算機基礎(chǔ)成績優(yōu)異”為主的模糊關(guān)聯(lián)規(guī)則,其真度閾值等于0.65,但是其實際的預設(shè)真度數(shù)值等于0.6,此時模糊真度關(guān)聯(lián)規(guī)則的真度數(shù)值超過預設(shè)真度數(shù)值,則可以判斷該模糊關(guān)聯(lián)規(guī)則的可信度較高。

5 挖掘結(jié)果分析

該模糊關(guān)聯(lián)規(guī)則查詢系統(tǒng)開發(fā)公司為微軟公司,開發(fā)工具為net,支持在win10系統(tǒng)中運行,使用后臺數(shù)據(jù)庫為[SQL Server2007]。成績數(shù)據(jù)來源年份為2002~2005年,容量約為15萬條左右。通過專家分析可知,該模糊查詢關(guān)聯(lián)規(guī)則的最小支持度數(shù)值=0.57,最小置信度數(shù)值=0.69,真度閾值=0.63。運用Apriori算法進行計算得出最終的關(guān)聯(lián)規(guī)則符號最小支持度和最小置信度。其最終的真度計算結(jié)果如表3所示:

根據(jù)專家學者的意見可以將其預設(shè)真度的下限指調(diào)整為0.7,根據(jù)表3數(shù)值得出如下結(jié)論:

一般情況下,高等數(shù)學和應用高等數(shù)學均較為成績優(yōu)異的學生其高等數(shù)學和應用高等數(shù)學兩門學科的成績普遍較為優(yōu)異,而表3中的模糊規(guī)則也對其進行了說明。由此可見,理科成績之間存在良性互動關(guān)系的可能性較高。同時,在理科成績和文科成績之間,也可以發(fā)現(xiàn)相似的關(guān)系。鑒于此,基層教師在實際的教學過程中,應該做好學科互動工作,借此來大幅提高學生的各科成績和課堂學習效果。

參考文獻:

[1] Srikant,vuq.Mining association rules withItemconstraints[C]. Proc. of the Third Int'l Conf. on Knowledge Discovery in DataBases and Data Mining.CA,USA:AAAI Press,1997:67-73.

[2] Ng R T,Lakshmanan L VS,Han J W,etal.Exploratory mining and pruning optimizations of constrained associations rules[C]//Proceedings of the 1998 ACM SIGMOD internationalconference on Management of data - SIGMOD '98.June1-4,1998.Seattle,Washington,USA.New York:ACM Press,1998:13-24.

[3] Bayardo R J,Agrawal J R . Constraint-based rule mining in large, dense database[J]. Data Mining and Knowledge Discovery,2000,4(2/3):217-240.

[4] 劉松.一種新的多層次關(guān)聯(lián)規(guī)則挖掘算法[J].微計算機信息,2006,22(12):223-225.

[5] Yager R R.Fuzzy summaries in database mining[C]//Proceedings the 11th Conference on Artificial Intelligence for Applications.20-23Feb.1995,LosAngeles,CA,USA.IEEE,1995:265-269.

[6] Zadeh L A.A computational approach to fuzzy quantifiers in natural languages[J].Computers& Mathematics with Applications,1983,9(1):149-184.

[7] AgrawalR,ImielińskiT,SwamiA.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93.May25-28,1993.Washington,D.C.,USA.New York:ACM Press,1993:207-216.

【通聯(lián)編輯:梁書】

猜你喜歡
關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)的研究與應用
工業(yè)大數(shù)據(jù)挖掘分析及應用前景研究
基于Apriori算法的高校學生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
基于關(guān)聯(lián)規(guī)則和時間閾值算法的5G基站部署研究
移動通信(2016年20期)2016-12-10 09:09:04
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
數(shù)據(jù)挖掘在高校課堂教學質(zhì)量評價體系中的應用
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進
中國市場(2016年36期)2016-10-19 04:10:44
基于關(guān)聯(lián)規(guī)則的計算機入侵檢測方法
基于關(guān)聯(lián)規(guī)則的中醫(yī)肺癌數(shù)據(jù)挖掘應用研究
科技視界(2016年12期)2016-05-25 11:09:58
夹江县| 金堂县| 鄢陵县| 义乌市| 肥西县| 九江市| 长宁区| 白沙| 康保县| 桦甸市| 皋兰县| 云南省| 元谋县| 东港市| 永春县| 星子县| 柳江县| 积石山| 诸暨市| 达拉特旗| 临桂县| 嘉鱼县| 孝昌县| 荣成市| 监利县| 武鸣县| 新乡市| 从化市| 永新县| 墨江| 台东市| 宜兰县| 北碚区| 宽甸| 东至县| 平昌县| 乌兰浩特市| 邢台县| 板桥市| 紫阳县| 锡林浩特市|