趙清夢 周中洪
【關(guān)鍵詞】Fisher 判別法;分類;SPSS 軟件
研究鳶尾花的分類,原因是它對分類判別有著重要的意義。從形態(tài)上對植物的種類進(jìn)行區(qū)分鳶尾花有很多種類,但有時(shí)肉眼也難以辨別,需要專業(yè)的知識才能對其所屬的種類進(jìn)行判斷。因此研究鳶尾花的分類,根據(jù)鳶尾花的某些屬性,建立有效的數(shù)學(xué)模型,對鳶尾花的種類進(jìn)行分類十分重要。
鳶尾花的判別分析在最近幾年逐步發(fā)展,代雪珍等[1]就逐步判別分析法在鳶尾花分類中的研究問題中提出運(yùn)用判別分析法對UCI數(shù)據(jù)集中鳶尾花的數(shù)據(jù)進(jìn)行分類,并得出該方法誤判率小,擬合效果較好的結(jié)論;唐宇政[2]在基于歐氏距離的判別分析——鳶尾花分類問題探究中得出利用歐式距離判別法能較好地實(shí)現(xiàn)對鳶尾花的分類;康彩麗[3]在有導(dǎo)師學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)對鳶尾花種類識別中的應(yīng)用中得到有導(dǎo)師學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)中的GRNN及PNN算法可以解決分類識別問題,具有一定的優(yōu)越性,能很好地對鳶尾花進(jìn)行種類識別。
Fisher判別法是判別分析方法之一[4]。它常被應(yīng)用于多元分析,可以說判別分析是多元分析的一個分支。當(dāng)有一個不知所屬類別的樣本時(shí),可以使用判別分析計(jì)算其所屬類別。判別分析的原理是根據(jù)一個既定的判斷規(guī)則,構(gòu)造一個或者多個判斷函數(shù),然后根據(jù)未知組別的大量的數(shù)據(jù)計(jì)算得到判斷函數(shù)的系數(shù),最后根據(jù)得到的判斷函數(shù)計(jì)算未知樣本所屬類別。
根據(jù)判別標(biāo)準(zhǔn)的不同,可以將判別分析方法分為馬氏距離判別、貝葉斯判別法、Fisher判別等。其中,F(xiàn)isher判別法的核心思想是降維,用P維向量x=(x1,x2,...,xp)' 的少數(shù)幾個線性組合y1=a'1x,y2=a'2x,...,yr=a'rx(一般r會遠(yuǎn)小于p)來替換最初的p個向量x1,x2,...,xp,從而達(dá)到降維的效果,最后利用這r個判別式y(tǒng)1,y2,...,yr判斷樣本所屬的類別。
Fisher判別法存在以下的優(yōu)勢:若樣本總體的平均值向量共線行較高,運(yùn)用Fisher判別法會簡化判斷步驟,只需要幾個判斷函數(shù)就能判斷樣本所屬的類別;并且Fisher判別法的使用不要求樣本總體滿足特定的要求,因而其應(yīng)用的范圍非常廣泛。在使用Fisher判別分析法時(shí)不需要對數(shù)據(jù)進(jìn)行特別的處理,因?yàn)槠鋵颖颈旧頉]有特別的要求,同時(shí)還可以利用SPSS軟件進(jìn)行數(shù)據(jù)處理,提高計(jì)算的正確率并能夠消除數(shù)據(jù)量計(jì)算過大的缺點(diǎn)。
(一)數(shù)據(jù)選取
本次數(shù)據(jù)選取為花朵種類及其特征的數(shù)據(jù),將花分為訓(xùn)練集和測試集,通過訓(xùn)練集花種類的特征來判別測試集的種類。
已知花的種類為三類,共150朵,每個種類均50朵。每朵花都提取了四個特征,其中變量“sl”為花的萼片長度,“sw”為萼片寬度,“pl”為花瓣長度,“pw”為花瓣寬度。種類中:“Setosa”我們用“1”來表示,“versiclr”用“2”表示,“virgnica”用“3”來表示。
(二)數(shù)據(jù)分析
鳶尾花的每個種類均有50個,我們選取每組40個作為訓(xùn)練集,10個作為測試集。本次的分類判別方法選用的是費(fèi)歇爾斯判別法。 通過分類函數(shù)的公式可以計(jì)算得出判別結(jié)果,最終得到在本次試驗(yàn)中,對測試組的判別為100%。
判別分析是根據(jù)觀察或測量到的若干變量值判斷研究對象如何分類的方法。判別分析是在已知分類數(shù)目的情況下,根據(jù)一定的指標(biāo)對未知的數(shù)據(jù)進(jìn)行歸類。本文運(yùn)用總體的Fisher判別分析法對鳶尾花的數(shù)據(jù)進(jìn)行分類,結(jié)果顯示其誤判率非常小,擬合效果很好,說明能夠依據(jù)鳶尾花的花萼和花瓣的長度和寬度建立Fisher判別模型進(jìn)行判定,可以解決判別樣本的問題,這為未知鳶尾花的分類判別提供了統(tǒng)計(jì)學(xué)上的理論依據(jù)和發(fā)展思路。