李毅
摘要:綜合來說,基于對關(guān)聯(lián)規(guī)則的約束一般可以由成績數(shù)值信息數(shù)據(jù)生成。同時成績數(shù)據(jù)還可以和與之相關(guān)聯(lián)的數(shù)據(jù)共同構(gòu)成一條完善的成績記錄。鑒于此,本文主要分析如何借助模糊數(shù)值約束對相關(guān)的關(guān)聯(lián)規(guī)則進行約束 ,并結(jié)合一些實際案例對其約束方法的實效性進行分析。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;模糊數(shù)值約束;成績數(shù)據(jù)庫
中圖分類號:TP315 ? ? ?文獻標識碼:A
文章編號:1009-3044(2020)28-0051-03
1引言
為了對我校內(nèi)部的成人教育管理系統(tǒng)記錄的理念成績數(shù)據(jù)進行分析,并結(jié)合成績分析如何從諸多的歷史成績數(shù)據(jù)中挑選出一些比較具有針對性的數(shù)據(jù)來指導教學活動。下表是從校園歷年成績中選取出的一部分樣本實例:
為了更好地對數(shù)據(jù)信息進行挖掘和分析,可以借助信息數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則找到數(shù)據(jù)庫中各類數(shù)據(jù)之間的相關(guān)性。
為了更好地對數(shù)據(jù)之間的相關(guān)性進行分析,技術(shù)人員可以按照課程類別對事物數(shù)據(jù)庫進行分類,然后根據(jù)分類過程中各個項目之間存在的關(guān)聯(lián)規(guī)則進來有效挖掘問題。但是需要注意的是,如果使用傳統(tǒng)的數(shù)據(jù)管理挖掘方法進行數(shù)據(jù)挖掘和分析時,所選用事物數(shù)據(jù)庫內(nèi)部不得擁有過多的數(shù)值型項目。舉例來說,針對我校成人成績進行關(guān)聯(lián)規(guī)則挖掘時,其相關(guān)的規(guī)則為:高等數(shù)學成績較好、計算機基礎(chǔ)成績較好。其中,可以將成績好作為關(guān)聯(lián)規(guī)則進行約束。在針對傳統(tǒng)的關(guān)聯(lián)規(guī)則進行約束評價的過程中,往往采用“支持度-置信度”這類評價方法,但是這類評價方法不能從根本上反映出模糊約束數(shù)值的條件。鑒于此,在此基礎(chǔ)上,很多學者圍繞受約束的關(guān)聯(lián)規(guī)則進行了研究和分析。學者R.T.N提出了受約束的關(guān)聯(lián)查詢概念。而學者R.Srikant則對受約束的項集約束進行了分析,經(jīng)過分析后得出約束的項集中包含布爾表達式的頻繁項集。學者Robert J.BayardoJr還就稠密數(shù)據(jù)庫的特征進行了分析和研究,并在此基礎(chǔ)上提出了改進度的相關(guān)概念。
鑒于此,本文通過模糊關(guān)聯(lián)規(guī)則、模糊查詢以及語言量詞等技術(shù),對模糊數(shù)值約束的關(guān)聯(lián)規(guī)則挖掘問題進行了分析,并結(jié)合成人考試數(shù)據(jù)庫的現(xiàn)實案例對挖掘結(jié)果進行了分析。
2 模糊關(guān)聯(lián)規(guī)則
定義1 ?何為模糊關(guān)聯(lián)規(guī)則, 即在一個項目被限定的模糊數(shù)中,擁有很多包含關(guān)聯(lián)規(guī)則的前后項。一般情況下,評判模糊關(guān)聯(lián)規(guī)則的三個重要參數(shù)分別為:①支持度S;②置信度C;③真度。其數(shù)學表達式如下:
在公式中,[X、Y]分別代表去除調(diào)規(guī)則中模糊約束的前、后項項集,其中[T]表示事務記錄,[D]用來表示數(shù)據(jù)庫;[Q]則表示[Zadeh] 語言量詞,[P]代表模糊概率。結(jié)合定義1可以推導出相應的模糊關(guān)聯(lián)規(guī)則——高等數(shù)學的成績優(yōu)異;多數(shù)學生的計算機成績優(yōu)異。
同時,為了更好地確定相應的模糊關(guān)聯(lián)規(guī)則,可進行如下假設(shè):可以將該模糊關(guān)聯(lián)規(guī)則的支持度S設(shè)置為1,置信度設(shè)置1,此時的真度數(shù)值為0.8。由此可以得出以下結(jié)論:在一般情況下,高等數(shù)學成績較為優(yōu)異的學生其計算機基礎(chǔ)成績也較為優(yōu)異。其中的“成績優(yōu)異”分別是指高等數(shù)學成績和計算機數(shù)學成績這兩個模糊數(shù),而支持度和置信度可以用以表示集合項中的學生都學習過高等數(shù)學和計算機課程。而真度則主要用來展示高等數(shù)學成績和計算機基礎(chǔ)課程成績優(yōu)異學生的整體比例。
3 成績數(shù)據(jù)模糊化
在數(shù)學領(lǐng)域,成績優(yōu)異是一個較為模糊的概念,一般情況下,可以借助確定范圍的方法來對其進行加以明確。舉例來說,可以將閾值范圍處于[80,100]的分數(shù)劃分為成績好。但是就實際案例而言,由于成人教育學生生源類型較為復雜,不同科目對成績優(yōu)異的劃分區(qū)間,可能存在一定差異,并不以[80,100]為統(tǒng)一的劃分標準。但是如果將[80,100]作為唯一的劃分標準,又會對后期的真度數(shù)值計算產(chǎn)生影響。鑒于此,一般采用模糊集來對不同閾值內(nèi)的屬性值進行轉(zhuǎn)換。使用模糊集進行屬性值轉(zhuǎn)換的過程中,需要經(jīng)過以下兩步驟:首先,要建立和“成績優(yōu)異”相匹配的隸屬度函數(shù);其次,可以通過模糊查詢的方式找到和其屬性相對應的模糊數(shù)據(jù)庫。
3.1 隸屬度函數(shù)的定義
一般情況下,不同屬性成績數(shù)據(jù)的分布方式為正相關(guān),其隸屬度函數(shù)的定義為:
其中的值域為[μ(x)],[0,1]參數(shù):[P_max],各科目成績好數(shù)值的確定上限:[μ],各科成績的平均值:[σ],各科成績的標準差。
3.2模糊查詢
定義2 何為模糊查詢?模糊查詢主要是指在同一個關(guān)系數(shù)據(jù)庫內(nèi),其查詢語句where中的子句內(nèi)含有單個或者多個的模糊數(shù)。和普通查詢相比,模糊查詢不僅可以對滿足查詢條件的數(shù)集進行記錄,同時還可以對返回記錄的隸屬度進行記錄。舉例來說,可以用where子句中的邏輯預算符號“∧”和“∨”來指代子句中的,and或者or。
但是傳統(tǒng)查詢方式和模糊查詢方式仍然存在一定的差異,舉例來說:當輸入查詢指令select all workers whose weight is greater than 60 kg”時,此時該指令的具體含義為找出所有工人體重在60千克以上的,其布爾達描述特征也為體重>60kg。但是在模糊查詢之中,由于其使用模糊數(shù)如大小、高低等進行查詢,所以,可以用模糊數(shù)“有多重?”來進行模糊查詢。
3.3模糊數(shù)據(jù)記錄集的生成
結(jié)合我校的成人考試成績數(shù)據(jù)片段,為了從數(shù)據(jù)庫中找出高等數(shù)學成績數(shù)值處于優(yōu)異范圍內(nèi)的學生,可以進行如下模糊查詢:
其中,可以用大寫字母[Q]來替代[Query],用大寫字母[DB]來表示對應的關(guān)系數(shù)據(jù)庫,用Ti來表示第i條記錄。綜合起來用查詢語句可以表示為:“select * from DB where 高等數(shù)學成績= much”。這就是一條簡單的模糊數(shù)據(jù)查詢語句。但是值得注意的是,和標準的查詢語句不同,模糊查詢語句中的關(guān)系謂詞“高等數(shù)學成績”可用much進行表示。在這條魔術(shù)查詢語句的where子句之中,僅展示了一個關(guān)系謂詞,其隸屬度計算公式表示如下:
4 模糊關(guān)聯(lián)規(guī)則真度的計算
利用表2生成的模糊數(shù)據(jù)記錄集,對生成的模糊關(guān)聯(lián)規(guī)則計算真度可以判斷關(guān)聯(lián)規(guī)則與模糊數(shù)“大多數(shù)”是否相容。如果真度逼近1那么規(guī)則置信度越高;相反真度逼近0那么規(guī)則置信度就越低。通常對記錄數(shù)多的大型數(shù)據(jù)庫來說,相容程度較高的模糊關(guān)聯(lián)規(guī)則可以通過設(shè)定真度實現(xiàn)。計算真度步驟如下:
① 對模糊關(guān)聯(lián)規(guī)則計算滿足其屬性約束模糊數(shù)的模糊概率,計算公式為:
在公式中,用[i]表示第幾條記錄,用T來表示“∧”運算,用Ti來表示記錄,n用來表示所記錄的數(shù)量。根據(jù)學者Zadeh給出的語言量詞記錄概念可知,在語言量詞記錄中,Q (·)主要用來表示(most)的隸屬函數(shù),其真度的計算公式如下: τ= Q (P ).
以“高等數(shù)學成績優(yōu)異的學生多數(shù)計算機基礎(chǔ)成績也較為優(yōu)異”這條關(guān)聯(lián)規(guī)則為例,其真度計算公式如下:
那么如何判斷模糊關(guān)聯(lián)規(guī)則的可信度呢?一般情況下,可以通過分析預設(shè)的真度數(shù)值和實際的真度閾值數(shù)值來判斷模糊關(guān)聯(lián)規(guī)則的可信度。舉例來說,一條以“高等數(shù)學成績優(yōu)異、多數(shù)學生計算機基礎(chǔ)成績優(yōu)異”為主的模糊關(guān)聯(lián)規(guī)則,其真度閾值等于0.65,但是其實際的預設(shè)真度數(shù)值等于0.6,此時模糊真度關(guān)聯(lián)規(guī)則的真度數(shù)值超過預設(shè)真度數(shù)值,則可以判斷該模糊關(guān)聯(lián)規(guī)則的可信度較高。
5 挖掘結(jié)果分析
該模糊關(guān)聯(lián)規(guī)則查詢系統(tǒng)開發(fā)公司為微軟公司,開發(fā)工具為net,支持在win10系統(tǒng)中運行,使用后臺數(shù)據(jù)庫為[SQL Server2007]。成績數(shù)據(jù)來源年份為2002~2005年,容量約為15萬條左右。通過專家分析可知,該模糊查詢關(guān)聯(lián)規(guī)則的最小支持度數(shù)值=0.57,最小置信度數(shù)值=0.69,真度閾值=0.63。運用Apriori算法進行計算得出最終的關(guān)聯(lián)規(guī)則符號最小支持度和最小置信度。其最終的真度計算結(jié)果如表3所示:
根據(jù)專家學者的意見可以將其預設(shè)真度的下限指調(diào)整為0.7,根據(jù)表3數(shù)值得出如下結(jié)論:
一般情況下,高等數(shù)學和應用高等數(shù)學均較為成績優(yōu)異的學生其高等數(shù)學和應用高等數(shù)學兩門學科的成績普遍較為優(yōu)異,而表3中的模糊規(guī)則也對其進行了說明。由此可見,理科成績之間存在良性互動關(guān)系的可能性較高。同時,在理科成績和文科成績之間,也可以發(fā)現(xiàn)相似的關(guān)系。鑒于此,基層教師在實際的教學過程中,應該做好學科互動工作,借此來大幅提高學生的各科成績和課堂學習效果。
參考文獻:
[1] Srikant,vuq.Mining association rules withItemconstraints[C]. Proc. of the Third Int'l Conf. on Knowledge Discovery in DataBases and Data Mining.CA,USA:AAAI Press,1997:67-73.
[2] Ng R T,Lakshmanan L VS,Han J W,etal.Exploratory mining and pruning optimizations of constrained associations rules[C]//Proceedings of the 1998 ACM SIGMOD internationalconference on Management of data - SIGMOD '98.June1-4,1998.Seattle,Washington,USA.New York:ACM Press,1998:13-24.
[3] Bayardo R J,Agrawal J R . Constraint-based rule mining in large, dense database[J]. Data Mining and Knowledge Discovery,2000,4(2/3):217-240.
[4] 劉松.一種新的多層次關(guān)聯(lián)規(guī)則挖掘算法[J].微計算機信息,2006,22(12):223-225.
[5] Yager R R.Fuzzy summaries in database mining[C]//Proceedings the 11th Conference on Artificial Intelligence for Applications.20-23Feb.1995,LosAngeles,CA,USA.IEEE,1995:265-269.
[6] Zadeh L A.A computational approach to fuzzy quantifiers in natural languages[J].Computers& Mathematics with Applications,1983,9(1):149-184.
[7] AgrawalR,ImielińskiT,SwamiA.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93.May25-28,1993.Washington,D.C.,USA.New York:ACM Press,1993:207-216.
【通聯(lián)編輯:梁書】