李 萍, 趙莎莎
(阜陽師范學(xué)院 信息工程學(xué)院,安徽 阜陽 236041)
?
人腦分類機理的構(gòu)造性學(xué)習(xí)方法
李萍, 趙莎莎
(阜陽師范學(xué)院 信息工程學(xué)院,安徽 阜陽 236041)
摘要:構(gòu)造性學(xué)習(xí)(CML)算法訓(xùn)練分類器對有些樣本會有“拒認狀態(tài)”,構(gòu)造性學(xué)習(xí)算法中對這一狀況的處理使用就近原則,然而,這種方法無法體現(xiàn)數(shù)據(jù)之間的聯(lián)系.為了能更好地體現(xiàn)數(shù)據(jù)間的聯(lián)系,提出了人腦分類機理的構(gòu)造性學(xué)習(xí)方法(HB-CML).在測試階段,把測試樣本、訓(xùn)練樣本都考慮進來,利用人腦對數(shù)據(jù)的自動分類機理,對“拒認狀態(tài)”樣本進行分類標(biāo)記.同時,選取UCI數(shù)據(jù)集進行實驗.結(jié)果表明:與CML算法相比,該方法的分類更為有效.
關(guān)鍵詞:構(gòu)造性機器學(xué)習(xí);人腦分類;覆蓋算法
構(gòu)造性機器學(xué)習(xí)通過在樣本集C上尋找一組覆蓋簇,使這些覆蓋簇把不同類別的數(shù)據(jù)點分隔開來[1].這種方法比較容易構(gòu)造網(wǎng)絡(luò)且能高效地處理多分類問題[2].然而,在利用標(biāo)記樣本訓(xùn)練分類器時無法考慮到測試樣本的數(shù)據(jù)特點及其與標(biāo)記樣本間的數(shù)據(jù)關(guān)系,從而導(dǎo)致在對測試樣本進行標(biāo)記時可能會出現(xiàn)“拒認狀態(tài)”的樣本.傳統(tǒng)的覆蓋算法在對拒認樣本進行標(biāo)記時是按照就近原則進行標(biāo)記的,仍然是只考慮了已標(biāo)記樣本的數(shù)據(jù)特點,忽略了未標(biāo)記樣本的數(shù)據(jù)信息,從而影響其分類效率.
Zhu等人經(jīng)過研究發(fā)現(xiàn),人腦在對空間中的樣本進行分類時,自覺地考慮了未標(biāo)記樣本的空間位置,可以說是一種半監(jiān)督分類模式[3].考慮到未標(biāo)記樣本的數(shù)據(jù)信息,提出了人腦分類機理的構(gòu)造性學(xué)習(xí)方法.該方法在應(yīng)用已標(biāo)記樣本數(shù)據(jù)信息的同時,還考慮了未標(biāo)記樣本的數(shù)據(jù)信息,及已標(biāo)記樣本和未標(biāo)記樣本間的位置關(guān)系,從而提高機器學(xué)習(xí)的效率.
1覆蓋算法
覆蓋算法步驟:
輸入:已標(biāo)記樣本C,即訓(xùn)練樣本
輸出:覆蓋簇{F(i)}
(1)將C中的點投影到以原點為中心、以R′為半徑的球面上,其中R′需要大于訓(xùn)練樣本C中樣本模的最大值;初始化i=1;k為不同類別數(shù);
(2)構(gòu)造第i個覆蓋F(i);
1)若C(i)中點全部被覆蓋住,轉(zhuǎn)(3),否則,任取C(i)中還沒有被覆蓋的點ct;計算
作以ct為中心、b=d(t)為閾值的覆蓋F(ct);C(i)表示第i類樣本集.
2)把F(ct)所覆蓋的所有點的重心計算出來,并將其也映射到以原點為中心、以R′為半徑的球面上,設(shè)ct′為投影后落在球面上的點,用上述同樣的方法求出ct′的球形領(lǐng)域F(ct′);
3)若F(ct′)覆蓋的點數(shù)比F(ct)所覆蓋的點數(shù)多,則令ct′→ct,b′→b,轉(zhuǎn)2),否則,轉(zhuǎn)1);
(3)若i 覆蓋算法對測試樣本標(biāo)記時按照就近原則進行,對于“拒認狀態(tài)”樣本也是通過計算到各個覆蓋領(lǐng)域的距離按照就近原則進行標(biāo)記的,這種方法忽略了未標(biāo)記樣本的數(shù)據(jù)信息,這部分數(shù)據(jù)資源被浪費了,把大量無標(biāo)記樣本的數(shù)據(jù)信息特征加入到分類器的測試階段可以優(yōu)化分類效果. 2人腦分類機理的構(gòu)造性學(xué)習(xí)方法 2.1人腦自覺分類機理 圖1 二分類問題 Zhu等人經(jīng)過研究發(fā)現(xiàn),人腦在對空間中的樣本進行分類的時候,自覺地考慮了未標(biāo)記樣本之間已經(jīng)與已標(biāo)記樣本之間的空間位置關(guān)系,我們用圖1簡單說明人腦的這種分類機理,以二分類為例.圖中“●”和“▲”分別表示兩種不同類別的已標(biāo)記樣本,“○”和“△”分別表示相應(yīng)類別的未標(biāo)記樣本,“☆”表示待測定的未標(biāo)記樣本,(a)中有兩個標(biāo)記樣本和一個待測定樣本,(b)中除了有兩個已標(biāo)記樣本和一個待測定樣本外,要有一些未標(biāo)記樣本.(a)和(b)中的待測定樣本到兩個標(biāo)記樣本的距離相同,但是通過觀察人類大腦會把(a)中的“☆”歸為“▲”類,而把(b)中的“☆”歸為“●”類. 可見人腦在對待測定樣本進行標(biāo)記時,除了利用待測樣本與各已標(biāo)記樣本的距離,還考慮了未標(biāo)記樣本的位置,這種測定更有說服力[4]. 2.2人腦分類機理的構(gòu)造性學(xué)習(xí)方法 本文根據(jù)人腦自覺考慮未標(biāo)記樣本的分類機理,提出了人腦分類機理的構(gòu)造性學(xué)習(xí)方法,其主要價值體現(xiàn)在分類器的測試階段,在對“拒認狀態(tài)”樣本進行標(biāo)記時,自覺地考慮了已標(biāo)記樣本、未標(biāo)記樣本的空間位置,及它們與“拒認狀態(tài)”樣本的位置關(guān)系,來確定其類別. 人腦分類機理的構(gòu)造性學(xué)習(xí)算法流程: 輸入:已標(biāo)記樣本集L,待測樣本集U; 輸出:待測樣本集U的類別. (1)利用覆蓋算法訓(xùn)練分類器,即覆蓋簇; (2)對U中的各個待測樣本,計算它們是否被覆蓋住,若全部被覆蓋住即沒有“拒認狀態(tài)”樣本,那么按照覆蓋簇的類別對這些待測樣本進行分類,算法結(jié)束.否則,記“拒認狀態(tài)”樣本集為R,x為R中任一樣本,記S為空集,轉(zhuǎn)(3); (3)計算L、U兩組數(shù)據(jù)集中距離x最近的樣本y,若y?R,將x及S中的樣本標(biāo)記成與y相同,將x及S移出R,令S為空集,轉(zhuǎn)(4),否則將x移出U,令S=S∪{x},令x=y,轉(zhuǎn)(3); (4)若R為空集,算法結(jié)束.否則,令x為R中任一樣本,記S為空集,轉(zhuǎn)(3). 3實驗結(jié)果及分析 表1 5種數(shù)據(jù)集及正負樣本比例 表2 兩種算法分類正確率 從UCI中選了5種數(shù)據(jù)集作為實驗對象,如表1所示,對于各個數(shù)據(jù)集,我們選出75%作為訓(xùn)練樣本,剩下的25%作為測試樣本. 采用本文提出的人腦分類機理的構(gòu)造性學(xué)習(xí)算法(HB-CML)和采用CML得出的分類正確率結(jié)果如表2所示.從表中可以很容易地看出,應(yīng)用人腦自覺分類策略后的覆蓋算法相對于CML的分類效果得到了普遍提高.這說明本文提出的基于人腦分類機理的覆蓋算法,能夠利用已標(biāo)記樣本和待測試樣本,以及它們之間的空間幾何關(guān)系,對“拒認狀態(tài)”樣本進行合理標(biāo)記,從而提高分類器的分類精度. 4結(jié)語 本文利用人腦自覺分類機理的思想,根據(jù)待測試樣本與已標(biāo)記樣本之間的空間幾何位置關(guān)系,給出了一種基于人腦分類機理的構(gòu)造性學(xué)習(xí)方法,并以UIC數(shù)據(jù)為例,通過實驗說明該方法能夠有效提高分類率.但是,該算法還存在不足的地方,對某些數(shù)據(jù)集來說,分類正確率提高的并不顯著.還需要繼續(xù)對“拒認狀態(tài)”樣本進行研究,同時更深地研究人腦自覺分類機理,從而進一步提高該算法的性能. [參考文獻] [1]張鈴,張鈸.多層前向網(wǎng)絡(luò)的交叉覆蓋算法[J].軟件學(xué)報,1999,10(7):737-742. [2]王倫文,張鈴.構(gòu)造性神經(jīng)網(wǎng)絡(luò)綜述[J].模式識別與人工智能,2008,21(1):49-55. [3]ZHU X J,TIMOTHY R,RUICHEN Q,et al.Humans perform semi- supervised classification too[C]∥ Proceedings of the 22nd National Conference on Artificial Intelligence.Menlo Park,Calif:AAAI Press,2007:864- 869. [4]李昆侖,曹錚,曹麗蘋,等.半監(jiān)督聚類的若干新進展[J].模式識別與人工智能,2009,22(5):735-742. [責(zé)任編輯馬云彤] Constructive Learning Method Based onClassification Mechanism of Human Brain LI Ping, ZHAO Sha-sha ( School of Information Engineering, Fuyang Teachers College, Fuyang 236041, China ) Abstract:“Refusing to be classified” test examples will be produced using Constructive Machine Learning (CML) algorithm and the examples will be labeled according to principle of proximity, however the connections between data is ignored. So a constructive learning method based on human brain algorithm (HB-CML) is designed to reflect the connections between labeled and unlabeled samples. During the testing phase, the“refusing to be classified” test examples are labeled by automatic data classification mechanism of human brain using labeled and unlabeled samples. At the same time, experiment is conducted on UCI data set and results show that the algorithm is more effective than the CML algorithm. Key words:constructive machine learning; classification based on human brain; covering algorithm 中圖分類號:TP18 文獻標(biāo)志碼:A 作者簡介:李萍(1985—),女,安徽阜南人,阜陽師范學(xué)院信息工程學(xué)院講師,碩士,主要從事智能計算及其應(yīng)用研究. 基金項目:阜陽師范學(xué)院校級項目(2015FSKJ13);阜陽師范學(xué)院信息工程學(xué)院院級項目(2015FXXZK01) 收稿日期:2015-07-12 文章編號:1008-5564(2016)01-0045-03