基于模糊數(shù)值約束的成績數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘

2020-12-14 04:37:08李毅

電腦知識與技術(shù) 2020年28期

李毅

摘要：綜合來說，基于對關(guān)聯(lián)規(guī)則的約束一般可以由成績數(shù)值信息數(shù)據(jù)生成。同時成績數(shù)據(jù)還可以和與之相關(guān)聯(lián)的數(shù)據(jù)共同構(gòu)成一條完善的成績記錄。鑒于此，本文主要分析如何借助模糊數(shù)值約束對相關(guān)的關(guān)聯(lián)規(guī)則進行約束，并結(jié)合一些實際案例對其約束方法的實效性進行分析。

關(guān)鍵詞：關(guān)聯(lián)規(guī)則;模糊數(shù)值約束;成績數(shù)據(jù)庫

中圖分類號：TP315 ? ? ?文獻標識碼：A

文章編號：1009-3044（2020）28-0051-03

1引言

為了對我校內(nèi)部的成人教育管理系統(tǒng)記錄的理念成績數(shù)據(jù)進行分析，并結(jié)合成績分析如何從諸多的歷史成績數(shù)據(jù)中挑選出一些比較具有針對性的數(shù)據(jù)來指導教學活動。下表是從校園歷年成績中選取出的一部分樣本實例：

為了更好地對數(shù)據(jù)信息進行挖掘和分析，可以借助信息數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則找到數(shù)據(jù)庫中各類數(shù)據(jù)之間的相關(guān)性。

為了更好地對數(shù)據(jù)之間的相關(guān)性進行分析，技術(shù)人員可以按照課程類別對事物數(shù)據(jù)庫進行分類，然后根據(jù)分類過程中各個項目之間存在的關(guān)聯(lián)規(guī)則進來有效挖掘問題。但是需要注意的是，如果使用傳統(tǒng)的數(shù)據(jù)管理挖掘方法進行數(shù)據(jù)挖掘和分析時，所選用事物數(shù)據(jù)庫內(nèi)部不得擁有過多的數(shù)值型項目。舉例來說，針對我校成人成績進行關(guān)聯(lián)規(guī)則挖掘時，其相關(guān)的規(guī)則為：高等數(shù)學成績較好、計算機基礎(chǔ)成績較好。其中，可以將成績好作為關(guān)聯(lián)規(guī)則進行約束。在針對傳統(tǒng)的關(guān)聯(lián)規(guī)則進行約束評價的過程中，往往采用“支持度-置信度”這類評價方法，但是這類評價方法不能從根本上反映出模糊約束數(shù)值的條件。鑒于此，在此基礎(chǔ)上，很多學者圍繞受約束的關(guān)聯(lián)規(guī)則進行了研究和分析。學者R.T.N提出了受約束的關(guān)聯(lián)查詢概念。而學者R.Srikant則對受約束的項集約束進行了分析，經(jīng)過分析后得出約束的項集中包含布爾表達式的頻繁項集。學者Robert J.BayardoJr還就稠密數(shù)據(jù)庫的特征進行了分析和研究，并在此基礎(chǔ)上提出了改進度的相關(guān)概念。

鑒于此，本文通過模糊關(guān)聯(lián)規(guī)則、模糊查詢以及語言量詞等技術(shù)，對模糊數(shù)值約束的關(guān)聯(lián)規(guī)則挖掘問題進行了分析，并結(jié)合成人考試數(shù)據(jù)庫的現(xiàn)實案例對挖掘結(jié)果進行了分析。

2 模糊關(guān)聯(lián)規(guī)則

定義1 ?何為模糊關(guān)聯(lián)規(guī)則，即在一個項目被限定的模糊數(shù)中，擁有很多包含關(guān)聯(lián)規(guī)則的前后項。一般情況下，評判模糊關(guān)聯(lián)規(guī)則的三個重要參數(shù)分別為：①支持度S;②置信度C;③真度。其數(shù)學表達式如下：

在公式中，[X、Y]分別代表去除調(diào)規(guī)則中模糊約束的前、后項項集，其中[T]表示事務記錄，[D]用來表示數(shù)據(jù)庫;[Q]則表示[Zadeh] 語言量詞，[P]代表模糊概率。結(jié)合定義1可以推導出相應的模糊關(guān)聯(lián)規(guī)則——高等數(shù)學的成績優(yōu)異;多數(shù)學生的計算機成績優(yōu)異。

同時，為了更好地確定相應的模糊關(guān)聯(lián)規(guī)則，可進行如下假設(shè)：可以將該模糊關(guān)聯(lián)規(guī)則的支持度S設(shè)置為1，置信度設(shè)置1，此時的真度數(shù)值為0.8。由此可以得出以下結(jié)論：在一般情況下，高等數(shù)學成績較為優(yōu)異的學生其計算機基礎(chǔ)成績也較為優(yōu)異。其中的“成績優(yōu)異”分別是指高等數(shù)學成績和計算機數(shù)學成績這兩個模糊數(shù)，而支持度和置信度可以用以表示集合項中的學生都學習過高等數(shù)學和計算機課程。而真度則主要用來展示高等數(shù)學成績和計算機基礎(chǔ)課程成績優(yōu)異學生的整體比例。

3 成績數(shù)據(jù)模糊化

在數(shù)學領(lǐng)域，成績優(yōu)異是一個較為模糊的概念，一般情況下，可以借助確定范圍的方法來對其進行加以明確。舉例來說，可以將閾值范圍處于[80，100]的分數(shù)劃分為成績好。但是就實際案例而言，由于成人教育學生生源類型較為復雜，不同科目對成績優(yōu)異的劃分區(qū)間，可能存在一定差異，并不以[80，100]為統(tǒng)一的劃分標準。但是如果將[80，100]作為唯一的劃分標準，又會對后期的真度數(shù)值計算產(chǎn)生影響。鑒于此，一般采用模糊集來對不同閾值內(nèi)的屬性值進行轉(zhuǎn)換。使用模糊集進行屬性值轉(zhuǎn)換的過程中，需要經(jīng)過以下兩步驟：首先，要建立和“成績優(yōu)異”相匹配的隸屬度函數(shù);其次，可以通過模糊查詢的方式找到和其屬性相對應的模糊數(shù)據(jù)庫。

3.1 隸屬度函數(shù)的定義

一般情況下，不同屬性成績數(shù)據(jù)的分布方式為正相關(guān)，其隸屬度函數(shù)的定義為：

其中的值域為[μ（x）]，[0，1]參數(shù)：[P_max]，各科目成績好數(shù)值的確定上限：[μ]，各科成績的平均值：[σ]，各科成績的標準差。

3.2模糊查詢

定義2 何為模糊查詢？模糊查詢主要是指在同一個關(guān)系數(shù)據(jù)庫內(nèi)，其查詢語句where中的子句內(nèi)含有單個或者多個的模糊數(shù)。和普通查詢相比，模糊查詢不僅可以對滿足查詢條件的數(shù)集進行記錄，同時還可以對返回記錄的隸屬度進行記錄。舉例來說，可以用where子句中的邏輯預算符號“∧”和“∨”來指代子句中的，and或者or。

但是傳統(tǒng)查詢方式和模糊查詢方式仍然存在一定的差異，舉例來說：當輸入查詢指令select all workers whose weight is greater than 60 kg”時，此時該指令的具體含義為找出所有工人體重在60千克以上的，其布爾達描述特征也為體重>60kg。但是在模糊查詢之中，由于其使用模糊數(shù)如大小、高低等進行查詢，所以，可以用模糊數(shù)“有多重？”來進行模糊查詢。

3.3模糊數(shù)據(jù)記錄集的生成

結(jié)合我校的成人考試成績數(shù)據(jù)片段，為了從數(shù)據(jù)庫中找出高等數(shù)學成績數(shù)值處于優(yōu)異范圍內(nèi)的學生，可以進行如下模糊查詢：

其中，可以用大寫字母[Q]來替代[Query]，用大寫字母[DB]來表示對應的關(guān)系數(shù)據(jù)庫，用Ti來表示第i條記錄。綜合起來用查詢語句可以表示為：“select * from DB where 高等數(shù)學成績= much”。這就是一條簡單的模糊數(shù)據(jù)查詢語句。但是值得注意的是，和標準的查詢語句不同，模糊查詢語句中的關(guān)系謂詞“高等數(shù)學成績”可用much進行表示。在這條魔術(shù)查詢語句的where子句之中，僅展示了一個關(guān)系謂詞，其隸屬度計算公式表示如下：

4 模糊關(guān)聯(lián)規(guī)則真度的計算

利用表2生成的模糊數(shù)據(jù)記錄集，對生成的模糊關(guān)聯(lián)規(guī)則計算真度可以判斷關(guān)聯(lián)規(guī)則與模糊數(shù)“大多數(shù)”是否相容。如果真度逼近1那么規(guī)則置信度越高;相反真度逼近0那么規(guī)則置信度就越低。通常對記錄數(shù)多的大型數(shù)據(jù)庫來說，相容程度較高的模糊關(guān)聯(lián)規(guī)則可以通過設(shè)定真度實現(xiàn)。計算真度步驟如下：

① 對模糊關(guān)聯(lián)規(guī)則計算滿足其屬性約束模糊數(shù)的模糊概率，計算公式為：

在公式中，用[i]表示第幾條記錄，用T來表示“∧”運算，用Ti來表示記錄，n用來表示所記錄的數(shù)量。根據(jù)學者Zadeh給出的語言量詞記錄概念可知，在語言量詞記錄中，Q （·）主要用來表示（most）的隸屬函數(shù)，其真度的計算公式如下： τ= Q （P ）.

以“高等數(shù)學成績優(yōu)異的學生多數(shù)計算機基礎(chǔ)成績也較為優(yōu)異”這條關(guān)聯(lián)規(guī)則為例，其真度計算公式如下：

那么如何判斷模糊關(guān)聯(lián)規(guī)則的可信度呢？一般情況下，可以通過分析預設(shè)的真度數(shù)值和實際的真度閾值數(shù)值來判斷模糊關(guān)聯(lián)規(guī)則的可信度。舉例來說，一條以“高等數(shù)學成績優(yōu)異、多數(shù)學生計算機基礎(chǔ)成績優(yōu)異”為主的模糊關(guān)聯(lián)規(guī)則，其真度閾值等于0.65，但是其實際的預設(shè)真度數(shù)值等于0.6，此時模糊真度關(guān)聯(lián)規(guī)則的真度數(shù)值超過預設(shè)真度數(shù)值，則可以判斷該模糊關(guān)聯(lián)規(guī)則的可信度較高。

5 挖掘結(jié)果分析

該模糊關(guān)聯(lián)規(guī)則查詢系統(tǒng)開發(fā)公司為微軟公司，開發(fā)工具為net，支持在win10系統(tǒng)中運行，使用后臺數(shù)據(jù)庫為[SQL Server2007]。成績數(shù)據(jù)來源年份為2002～2005年，容量約為15萬條左右。通過專家分析可知，該模糊查詢關(guān)聯(lián)規(guī)則的最小支持度數(shù)值=0.57，最小置信度數(shù)值=0.69，真度閾值=0.63。運用Apriori算法進行計算得出最終的關(guān)聯(lián)規(guī)則符號最小支持度和最小置信度。其最終的真度計算結(jié)果如表3所示：

根據(jù)專家學者的意見可以將其預設(shè)真度的下限指調(diào)整為0.7，根據(jù)表3數(shù)值得出如下結(jié)論：

一般情況下，高等數(shù)學和應用高等數(shù)學均較為成績優(yōu)異的學生其高等數(shù)學和應用高等數(shù)學兩門學科的成績普遍較為優(yōu)異，而表3中的模糊規(guī)則也對其進行了說明。由此可見，理科成績之間存在良性互動關(guān)系的可能性較高。同時，在理科成績和文科成績之間，也可以發(fā)現(xiàn)相似的關(guān)系。鑒于此，基層教師在實際的教學過程中，應該做好學科互動工作，借此來大幅提高學生的各科成績和課堂學習效果。

參考文獻：

[1] Srikant，vuq.Mining association rules withItemconstraints[C]. Proc. of the Third Int'l Conf. on Knowledge Discovery in DataBases and Data Mining.CA，USA：AAAI Press，1997：67-73.

[2] Ng R T，Lakshmanan L VS，Han J W，etal.Exploratory mining and pruning optimizations of constrained associations rules[C]//Proceedings of the 1998 ACM SIGMOD internationalconference on Management of data - SIGMOD '98.June1-4，1998.Seattle，Washington，USA.New York：ACM Press，1998：13-24.

[3] Bayardo R J，Agrawal J R . Constraint-based rule mining in large， dense database[J]. Data Mining and Knowledge Discovery，2000，4（2/3）：217-240.

[4] 劉松.一種新的多層次關(guān)聯(lián)規(guī)則挖掘算法[J].微計算機信息，2006，22（12）：223-225.

[5] Yager R R.Fuzzy summaries in database mining[C]//Proceedings the 11th Conference on Artificial Intelligence for Applications.20-23Feb.1995，LosAngeles，CA，USA.IEEE，1995：265-269.

[6] Zadeh L A.A computational approach to fuzzy quantifiers in natural languages[J].Computers& Mathematics with Applications，1983，9（1）：149-184.

[7] AgrawalR，ImielińskiT，SwamiA.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93.May25-28，1993.Washington，D.C.，USA.New York：ACM Press，1993：207-216.

【通聯(lián)編輯：梁書】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于模糊數(shù)值約束的成績數(shù)據(jù)庫關(guān)聯(lián)規(guī)則挖掘