李海霞
基于可變精度粗糙集模型的有導師機器學習
李海霞
(莆田學院 信息工程學院,福建莆田 351100)
機器學習是人工智能領域中重要的研究課題,基于經(jīng)典粗糙集的機器學習,只有學習者的分類被完全包含在導師的分類中時,才形成決策規(guī)則,條件比較苛刻;而基于可變精度粗糙集理論的有導師機器學習,根據(jù)學習者的分類包含在導師的分類中的包含度αi,與事先給定的精度系數(shù)β的比較,來求取具有一定相容性的決策規(guī)則,該方法更具有靈活和實用性。
粗糙集;可變精度粗糙集;導師;機器學習;人工智能
機器學習是人工智能領域中重要的研究課題,粗糙集理論[1]可以作為機器學習中研究某些問題的理論基礎。有導師學習[1-2]是一種從例子中學習的方法,導師具有某一論域U的知識,能夠?qū)φ撚虻脑剡M行分類,學習者的任務是學習導師的知識。也就是學習者要利用導師提供的能夠分類的例子,根據(jù)他們的特征,從中導出相容決策規(guī)則,即從決策表導出相容決策算法。在決策表中,條件屬性就是學習者的屬性,決策屬性就是導師的屬性。
Pawlak提出的粗糙集模型處理的分類必須是完全正確的或肯定的,但實際應用中,數(shù)據(jù)中包含噪音是難免的,為了提高在實際應用中對噪音數(shù)據(jù)的適應能力,Ziarko[3-4]提出了可變精度粗糙集模型,簡稱VPRS模型。
本文介紹的基于可變精度粗糙集模型[5-7]的有導師機器學習,把從決策表導出相容決策算法的條件由粗糙集的絕對包含弱化為可變精度粗糙集的多數(shù)包含,這樣從決策表導出的決策算法允許一定的錯誤分類率存在,使得機器學習更符合實際、更具靈活性。
定義1 設X和Y為論域U的非空子集,0≤α≤1,定義包含度關系:
當0.5<α≤1,則定義了Y對X的α—多數(shù)包含度關系,即X中有50%以上的元素被Y包含(或X與Y的公共元素占X的50%以上)。多數(shù)包含關系允許一定程度的錯誤分類率存在,或者說具有一定的容錯能力,α體現(xiàn)了多數(shù)包含程度,1-α體現(xiàn)了誤分類率。
定義2 給定論域U,不可分辨關系R?U×U,X?U,β∈(0.5,1],則
分別稱為X關于R的β下近似,X關于R的β上近似。
可變精度粗糙集模型通過設置精度系數(shù)β,放寬了經(jīng)典粗集理論對邊界的嚴格定義。柔化了邊界。通常β的取值有兩種方式,Ziarko把β定義為分類誤差率[3],β的取值范圍為[0.0,0.5),而An等人定義β為分類正確率[8],β的取值范圍為[0.5,1),這里采用An等人的定義方式。
可變精度體現(xiàn)在β的可變上。根據(jù)β的取值不同,得到的X關于R的β下近似、上近似不同。
由定義2可以看出,可變精度粗糙集模型的近似定義是基于多數(shù)包含的。
為了便于與經(jīng)典粗糙集比較,在此將經(jīng)典粗糙集的上、下近似用包含度定義如下
定義3 給定論域U,不可分辨關系R?U×U,X?U,則:
分別稱為X關于R的下近似,X關于R的上近似。
由定義2與定義3比較可知,經(jīng)典粗糙集模型建立在絕對包含的基礎上,它是可變精度粗糙集模型在最大包含即β=1時的特例,但β=1與β<1在對分類的影響上有很大的本質(zhì)區(qū)別。通過引入可變精度粗糙集模型,利用包含度(來描述有導師機器學習中,學習者學習導師知識的程度。當α≥β時,可導出有一定容錯能力的相容決策規(guī)則。α可視為規(guī)則的相容度、機器學習程度。
在機器學習中,有導師學習是一種從例子中學習的方法。導師具有某一論域U的知識,學習者的任務是學習導師的知識。也就是學習者要利用導師提供的能夠分類的例子,根據(jù)他們的特征,從中導出相容決策規(guī)則。按照粗集理論的說法,有導師學習就是從決策表導出相容決策算法。在決策表中,條件屬性就是學習者的屬性,決策屬性就是導師的屬性。本文介紹的基于可變精度粗集的機器學習,把從決策表導出相容決策算法的條件由粗集的絕對包含弱化為可變精度粗集的多數(shù)包含。
基于經(jīng)典粗糙集的有導師機器學習,當導師分類的下近似為(時,學習者無法學習導師的知識。針對此,本文引入了基于可變精度粗糙集的有導師機器學習,當經(jīng)典粗糙集中導師分類的下近似為(時,可以根據(jù)導師分類包含學習者分類的包含度((學習者學習導師知識的程度),以及實際可接受的錯誤分類率β,推出具有一定容錯能力的相容決策規(guī)則。
下面的例子對基于粗糙集的有導師機器學習和基于可變精度粗糙集的有導師機器學習作了比較?;诳勺兙却植诩挠袑煓C器學習中,當學習者學習導師的知識的程度很大時,可以粗略地認為,學習者學習了導師的所有知識。
例 如表1所示。論域由8個研究對象構(gòu)成,每一個對象都由學習者屬性C={a,b,c}的集合描述,學習者的屬性分別表示為Va={高,矮},Vb={黑,紅,黃},Vc={藍,棕}。根據(jù)導師的分類,每一個對象被分成“+”或“-”類,因此導師屬性值Ve={+,-},它代表了學習者基于C的屬性值要學習的概念。
表1 某一知識表達系統(tǒng)
解 以學習者的屬性{b},導師的屬性值{+}為例,其他情況類似。
首先看看基于經(jīng)典粗糙集的學習情況:
根據(jù)學習者屬性{b}的劃分:
U/ind(b)={x1={1,2,3},x2={4,6},x3={5,7,8}}
des(x1)=(頭發(fā):黑)
des(x2)=(頭發(fā):紅)
des(x3)=(頭發(fā):黃)
導師的劃分:
U/ind{e}={y1={1,4,5,7},y2={2,3,6,8}}
des(y1)=(分類:+)
des(y2)=(分類:-)
首先求xi(i=1,2,3){頭發(fā)}與y1{+}的包含度,根據(jù)定義1:
根據(jù)定義3,由于包含度αi≠1(i=1,2,3),即導師分類y1的下近似為Φ,故沒有相容規(guī)則。根據(jù)基于經(jīng)典粗糙集的有導師機器學習,學習者無法學習導師的知識。
下面通過可變精度粗糙集,來看一下學習者的學習情況。
根據(jù)定義2,比較包含度αi與精度系數(shù)β∈(1/2,1](β根據(jù)可接受的錯誤分類率,事先給定)的大小,若αi≥β,則形成相容決策規(guī)則,其中的αi定義為該規(guī)則的相容度,機器學習的學習程度。
如果取β=0.6,根據(jù)求得的包含度αi和給定的β比較,則只有(α3=2/3)≥(β=0.6),即y1的(下近似為x3,故規(guī)則:(頭發(fā):黃)→(e:+)在允許一定的錯誤分類的情況下是相容的,即可學習的。
如果取β=0.8,則y1的β下近似為?,則所有規(guī)則都是不相容的、學習者無法學習導師的知識。
由此可以看出,基于可變精度粗糙集模型的有導師機器學習,允許一定的錯誤分類率存在,能夠?qū)С鼍哂幸欢ㄏ嗳荻鹊臎Q策規(guī)則。更符合實際、更具靈活性。
給定某一知識表達系統(tǒng)K=(U,C,D)(U為論域,C為學習者屬性,D為導師屬性),和精度系數(shù)β∈(1/2,1]
1)分別求學習者屬性的劃分xi和導師的劃分yj;
2)根據(jù)定義1,求xi與yj的包含度αij;
3)求出滿足αij≥β的決策規(guī)則。該決策規(guī)則是相容度為αij的決策規(guī)則。
基于可變精度粗糙集的有導師機器學習,根據(jù)學習者的分類包含在導師的分類中的包含度αi,與事先給定的精度系數(shù)β值的比較,來求取具有一定相容性的決策規(guī)則,從而能夠更深層次地理解并更好地利用數(shù)據(jù)特性。正是由于β的取值,導致了一定程度的錯誤分類率的存在。通過上面例子的比較,可以看出,基于可變精度粗糙集的有導師機器學習更具有靈活性和實用性。根據(jù)實際情況,來選取β∈(0.5,1]值,獲取具有不同程度相容性的決策規(guī)則。
[1] 曾黃麟.粗集理論及其應用[M].重慶:重慶大學出版社,1995.
[2] 吳武琴,高曉紅,劉文奇.一種改進的基于粗糙集理論的有導師學習方法[J].昆明理工大學學報:理工版,2008,33(3):122-124.
[3] ZiarkoW.Variable precision rough setmodel[J].Journal of computer and System Science,1993,46:39-59.
[4] Ziarko W.Analysis of uncertain information inthe framework of variable precision rough sets[J].Foundations of Computing and Decision Sciences,1993,18:381-396.
[5] 王加陽,陳松喬,羅安.可變精度粗集模型研究[J].計算機與數(shù)字工程,2005,33(8):53-54.
[6] 楊習貝,楊靜宇,於東軍,等.不完備信息系統(tǒng)中的可變精度分類粗糙集模型[J].系統(tǒng)工程理論與實踐,2008,5:116-121.
[7] 張明,唐振民,徐維艷,等.可變粒度粗糙集[J].計算機科學,2011,10(38):220-247.
[8] AN A,Shan N,Chan C N,et al.Discovering rules forwater demand prediction:an enhanced rough-setapproach[J].Engineering Application and Artificial Intelligence,1996,9(6):645-653.
Supervised Machine Learning Based on Variable Precision Rough Set Theory
LIHa i-x ia
(Department of Information,Science and Engineering Putian University,Putian 351100,China)
Machine learning is an important ruestion for discussion in the Artificial intelligence.Based on classical rough set,and with learner’s classification completely included in the tutor’s classification,Machine learning can form decision rule.The condition is very rigorous.Rather,Supervised machine learning based on variable precision rough set theory obtains certain compatibility decision rules according to the comparison of the inclusion degreeαithat learners’classification is included in the tutor’s classification with the given the precision coefficientβ.This method is more flexible and practical.
rough set;variable precision rough set;tutor;machine learning;artificial intelligence
TP181
符:A
1009-0312(2014)03-0050-04
2013-12-26
李海霞(1980—),女,甘肅莊浪人,講師,碩士,主要從事人工智能與數(shù)據(jù)挖掘、粗糙集方面研究。