国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

農(nóng)作物品種最佳聚類方法研究

2017-01-06 07:20:51杜海平
山西農(nóng)業(yè)科學(xué) 2016年7期
關(guān)鍵詞:類間原始數(shù)據(jù)性狀

杜海平

(山西省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)科技信息研究所,山西太原030031)

農(nóng)作物品種最佳聚類方法研究

杜海平

(山西省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)科技信息研究所,山西太原030031)

篩選中國知網(wǎng)上的期刊文獻,選擇4篇文章中的4種豆類數(shù)據(jù)作為評判標(biāo)準(zhǔn),對數(shù)據(jù)變換7種方法、樣品間5種距離公式、類間7種距離定義,共組合成的245種分類方法,應(yīng)用系統(tǒng)聚類分析、方差分析、非參數(shù)檢驗和描述性統(tǒng)計分析等方法進行了比較研究。結(jié)果表明,過去最常使用的類間最短距離法和類平均距離法都不是最佳的類間距離方法,它們的準(zhǔn)確性極顯著地低于最小離差平方和法;原始數(shù)據(jù)Z標(biāo)準(zhǔn)化變換也不是最佳的變換方法,而是“全距從0到1”、“全距從-1到1”、“1的最大量”這3種變換方法;樣品間5種距離分類最準(zhǔn)確的是Manhattan距離,其次才是歐氏距離。據(jù)此得出了最佳的聚類方法和步驟。

農(nóng)作物品種;聚類方法;數(shù)據(jù)變換;類間距離;樣品間距離

聚類分析是根據(jù)事物的多個數(shù)值特征來觀察事物個體之間或樣品之間的親疏關(guān)系和相似程度的一種多元統(tǒng)計分析方法,內(nèi)容涉及面廣,分類方法多而雜[1-3],其理論上還不是至善至美,但是它比憑感官分類效果要好、分類結(jié)果明確,借助計算機和統(tǒng)計軟件,分類速度很快。

在農(nóng)業(yè)和生物學(xué)研究中,聚類分析有著廣泛的應(yīng)用,比如品種分類、生產(chǎn)性狀分類、表型性狀分類、土壤分類等。經(jīng)過分類,可以發(fā)現(xiàn)每類的特征,再通過特定試驗,從而可以應(yīng)用方差分析、相關(guān)分析、回歸分析等進一步揭示類群間的關(guān)系。

聚類分析是根據(jù)樣品之間的親疏關(guān)系進行分類,親疏關(guān)系是根據(jù)樣品與樣品之間、類與類之間的距離遠近來衡量的,而距離遠近又與多種距離公式和聚類方法的選擇有關(guān)。

從應(yīng)用的角度,申慧芳等[4-6]使用最短距離法,李莉等[7-9]使用最長距離法,要燕杰等[10-12]使用類間平均法,趙明輝等[13-15]使用離差平方和法,孫敏等[16]使用質(zhì)心聚類法。從理論的角度,陳慶富等[17-18]推崇最短距離法,向曉群[19]持相反態(tài)度;張文彤等[20-21]認為,類平均距離法表現(xiàn)最為優(yōu)異,克勞斯·巴克豪斯等[22]卻認為Ward法最好,而蓋鈞鎰[23]認為最小組內(nèi)平方和法和組平均法效果都較好。因此,產(chǎn)生了折中辦法,李靜萍等[24-25]建議,盡量多用幾種距離公式和分類方法進行聚類分析,從多種結(jié)果中找出合適的分類,于是對同樣一批樣品進行分類,由于多種選擇,就會得到多種分類結(jié)果。這就造成了許多科技人員在使用聚類分析方法時的疑惑和困難,計算量、工作量大增,而分類結(jié)果卻未盡合理。

為了對多種距離公式、聚類方法及數(shù)據(jù)轉(zhuǎn)換方法的不同組合進行比較,探索最佳的聚類分析方法,本研究僅從農(nóng)業(yè)科研試驗數(shù)據(jù)的角度出發(fā),選用4種豆類品種作為評判比較標(biāo)準(zhǔn),經(jīng)過數(shù)千次的計算、分析、驗證,尋找基于SPSS軟件當(dāng)中系統(tǒng)聚類方法下所有組合的最優(yōu)聚類搭配,以期給農(nóng)業(yè)科技人員在對農(nóng)作物品種應(yīng)用聚類分析時提供理論依據(jù)和實際操作方法。

1 材料和方法

1.1 數(shù)據(jù)來源

4組豆類數(shù)據(jù),即綠豆、紅小豆、豌豆、大豆,分別來源于文獻[4-5,7,26]。

1.2 數(shù)據(jù)選取方法

從品種上考慮,第1,2組采用文獻[4-5]中的全部品種;第3組只取用文獻[7]中的10個品種,剔除5個極端值品種;第4組取用文獻[26]中的第1個試驗點品種,剔除第2個點的品種。

從性狀上考慮,選取4組豆類共有性狀的數(shù)據(jù),它們是“株高、分枝數(shù)、主莖節(jié)數(shù)、單株莢數(shù)、單莢粒數(shù)、百粒質(zhì)量、生育期、單株產(chǎn)量”。

另外,根據(jù)公式“單株粒數(shù)=單株產(chǎn)量/(百粒質(zhì)量/100),單莢粒數(shù)=單株粒數(shù)/單株莢數(shù)”,計算補充了第3組中“單莢粒數(shù)”的數(shù)據(jù)缺失。

除8個生物學(xué)性狀變量外,再增加一個變量“豆類”,相當(dāng)于方差分析中的處理,它有4個水平,分別是綠豆、紅小豆、豌豆和大豆。這樣,這組數(shù)據(jù)共有9個變量45個品種。其中,綠豆12個品種,紅小豆13個品種,豌豆10個品種,大豆10個品種(表1)。

表1 原始數(shù)據(jù)

續(xù)表1

1.3 研究方法

本研究基于SPSS統(tǒng)計軟件,采用系統(tǒng)聚類方法,對樣品間5種距離公式、類間7種距離公式、數(shù)據(jù)變換7種方法這三者之間245個組合都進行一次聚類分析,要求把所選樣品分為四類,以此聚類結(jié)果與標(biāo)準(zhǔn)的四類范本進行比較,統(tǒng)計出分錯類樣品的數(shù)目,再應(yīng)用統(tǒng)計手段進行分析,從而得出不同聚類組合之間的優(yōu)劣。本研究中“樣品”等同于品種,只是它適用范圍更廣。

1.4 距離公式定義及數(shù)據(jù)變換方法

假設(shè)有n個樣品Xi,對每個樣品Xi觀測了m個指標(biāo)或性狀,即Xi=[xi1xi2… xim],其中xik為第i個樣品的第k個指標(biāo)的觀測值。這樣,得到原始觀測數(shù)據(jù)陣如下。

設(shè)第i個樣品Xi與第j個樣品Xj之間的距離用dij表示,即dij=d(Xi,Xj)。

從以上各公式可以看出,各指標(biāo)或性狀的單位要相同才能進行運算,才有實際意義,否則需要先對各指標(biāo)進行標(biāo)準(zhǔn)化變換后才能使用這些公式。

類間平均距離(組間聯(lián)接法),即2類之間兩兩樣品距離之和的平均值。

類內(nèi)平均距離(組內(nèi)聯(lián)接法),即兩類合并為一類后所有樣品兩兩間距離之和的平均值。

最近鄰元素法,即2類之間最近2個樣品的距離作為2類之間的距離。

最遠鄰元素法(完全連接法),即2類間最遠的2個樣品的距離作為2類之間的距離。

重心聚類法(質(zhì)心聚類法),即2類中各自樣品均值之間的距離作為類間距離。

中間距離法(中位數(shù)法或median method):Gk與任一類Gr的距離公式如下。

Ward法(離差平方和法),即兩類合并后增加的離差平方和作為兩類間的距離,選擇使離差平方和增加最小的兩類合并,直到所有的樣品歸為一類為止。

1.4.3 原始數(shù)據(jù)7種轉(zhuǎn)換方法

1.4.3.1 不轉(zhuǎn)換 不對原始數(shù)據(jù)進行標(biāo)準(zhǔn)化。

1.4.3.2 Z得分 將原數(shù)標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的數(shù)值。計算方法為原數(shù)減去其變量均值,再除以標(biāo)準(zhǔn)差;如果標(biāo)準(zhǔn)差為0,轉(zhuǎn)換后的值也為0。

1.4.3.3 全距從-1到1 將原數(shù)標(biāo)準(zhǔn)化為-1~1的數(shù)值。計算方法為原數(shù)減去均值,再除以極差;若極差為0,則原值不變。該方法適用有負值情況。

1.4.3.4 全距從0到1 將原數(shù)變換為0~1的值。計算方法為原數(shù)減去其變量中最小值,再除以極差;若極差為0,則變換后的值設(shè)為0.5。

1.4.3.5 1的最大量 將原數(shù)標(biāo)準(zhǔn)化為最大不超過1的數(shù)值。計算方法為原數(shù)除以其變量中最大值;如果最大值為0,則為原數(shù)除以其變量中最小值的絕對值,再加1。

1.4.3.6 均值為1 將原數(shù)標(biāo)準(zhǔn)化為均值為1的數(shù)值。計算方法為原數(shù)除以其變量的均值;如果均值為0,則為原數(shù)加1。

1.4.3.7 標(biāo)準(zhǔn)差為1 將原數(shù)標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)差為1的數(shù)值。計算方法為原數(shù)除以其變量的標(biāo)準(zhǔn)差;如果標(biāo)準(zhǔn)差為0,則原數(shù)值不變。

1.5 系統(tǒng)聚類過程

將n個樣本或樣品看成n類,計算所有樣品兩兩之間的距離;把最短距離的2個樣品聚成一類,于是總類數(shù)就減少了一類,變成了n-1類;繼續(xù)計算樣品之間、或樣品與類之間、或類與類之間的距離;每次都把距離最短的聚成一類,這樣每次減少一類;循環(huán)往復(fù),直到最后所有樣品聚成了一個大類。

2 結(jié)果與分析

2.1 4種豆類間差異顯著性分析

從表1中8個指標(biāo)的平均數(shù)可以看出,它們各自在4種豆類之間都有不同程度的差異,但是其差異是否能夠達到把4種豆類區(qū)分清楚的顯著程度,還有必要進行方差分析。

經(jīng)過檢驗、數(shù)據(jù)轉(zhuǎn)換、再檢驗,數(shù)據(jù)符合正態(tài)性和方差同質(zhì)性;顯然,數(shù)據(jù)也符合獨立性。這樣,數(shù)據(jù)具備了方差分析的3個必要條件,可以進行方差分析。

多變量方差分析顯示,4種豆類在8個指標(biāo)的總體上差異極顯著。8個指標(biāo)各自的單變量方差分析顯示,除分枝數(shù)不顯著外,其他7個指標(biāo)各自在4種豆類間都差異極顯著。對極顯著的7個指標(biāo)分別進行4種豆類間的多重比較,結(jié)果表明,絕大多數(shù)都顯著,只有紅小豆與綠豆在株高間、單株莢數(shù)間差異不顯著。

綜上所述,4種豆類除在分枝數(shù)上差異不顯著、紅小豆與綠豆在株高和單株莢數(shù)上差異不顯著外,其他40個多重比較間都差異顯著或極顯著,有很好的分類基礎(chǔ),與直觀上認為它們?nèi)菀妆粎^(qū)分的判斷是一致的。因此,把這4種豆類作為評判眾多聚類方法優(yōu)劣的標(biāo)準(zhǔn)是可行的。

2.2 對原始數(shù)據(jù)進行分類的結(jié)果與分析

使用樣品間距離與類間距離的35種組合方法,分別對原始數(shù)據(jù)進行聚類分析。結(jié)果表明,35種方法中,有34種不能準(zhǔn)確把45個品種分成四類,只有Ward法對應(yīng)Manhattan距離這個組合能夠準(zhǔn)確分成四類(圖1),完全正確率小于3%。在圖1中2.6處樣品被分成了4類,分別是綠豆、紅小豆、大豆和豌豆。

在35次聚類中,分錯最多的是最近鄰元素法和中間距離法分別對應(yīng)Chebychev距離這2個組合,它們把綠豆、紅小豆和大豆都分到同一類里,而把豌豆拆分為3類,分錯數(shù)達27個,分錯率達60%。

由此可見,如果直接對原始數(shù)據(jù)進行分類,其分類效果很差,因為各變量單位不統(tǒng)一,數(shù)量級別差異也大。所以,要想提高分類的正確率,必須對原始數(shù)據(jù)進行一定的變換處理。

2.3 7種數(shù)據(jù)變換(包括原始數(shù)據(jù))的分類結(jié)果與分析

對7種數(shù)據(jù)變換、7種類間距離、5種樣品間距離,共245種組合方法的聚類結(jié)果,匯總其分類樣品數(shù),結(jié)果如表2所示。

表2 原始數(shù)據(jù)7種變換下分錯樣品數(shù)匯總

續(xù)表2

由表2可知,“原始數(shù)據(jù)”這一列中,只有Ward法對應(yīng)的D行為0,表示分類正確。“Z得分變換”一列中,分類效果最好的是Ward法,其次是類內(nèi)平均距離法。但能夠準(zhǔn)確分成四類的只有類間距離Ward法對應(yīng)的B行和D行,即Ward法對應(yīng)平方Euclidean距離和Manhattan距離的分類效果最好。Ward法對應(yīng)的另外3行各分錯了一個樣品;類內(nèi)平均距離法對應(yīng)的A行分錯了5個,對應(yīng)的B行分錯了3個,對應(yīng)的C行分錯了5個??梢?,經(jīng)過Z標(biāo)準(zhǔn)化變換,分類正確率有明顯的提高。

為準(zhǔn)確把握各種方法和距離的優(yōu)劣,本該應(yīng)用方差分析和多重比較進一步分析,但是通過檢驗,發(fā)現(xiàn)此表數(shù)據(jù)不滿足正態(tài)性和方差同質(zhì)性要求,只能改用非參數(shù)檢驗和描述性統(tǒng)計進行分析。

通過Kruskal Wallis檢驗,得出類間7種距離之間、數(shù)據(jù)變換7種方法之間差異極顯著,而樣品間5種距離之間差異不顯著。

經(jīng)Mann-Whitney檢驗顯示,Ward法分錯數(shù)極顯著低于其他6種方法;數(shù)據(jù)變換中,“1的最大量”、“均值為1”、“全距從-1到1”、“全距從0到1”都極顯著低于原始數(shù)據(jù)的分錯數(shù),但這4個間差異不顯著,有必要加入新的品種數(shù)據(jù)進一步分析。2.4 60個品種的分類結(jié)果與分析

把前面分析時剔除的15個品種(1.2中5個豌豆品種和10個大豆品種),也參與了分類。豌豆品種變成15個,大豆品種變成20個,綠豆和紅小豆分別還是12,13個品種。對這60個品種進行245次聚類分析,對分錯數(shù)結(jié)果進行獨立樣本的非參數(shù)檢驗等分析。其部分分析結(jié)果如圖2~4、表3所示。

由圖2~4可知,類間距離、數(shù)據(jù)變換、樣品間距離分錯數(shù)最少的分別是Ward法、“全距從-1到1”和“全距從0到1”、Manhattan距離,并且通過Mann-Whitney檢驗,顯示它們的分錯數(shù)都極顯著低于別的距離或方法的分錯數(shù)。

表3 60個品種Ward法變換下分類錯誤匯總

3 結(jié)論與討論

本研究以4種豆類數(shù)據(jù)為評判標(biāo)準(zhǔn),進行了大量的推演和計算,最后得出了比較可靠的品種最佳聚類方法。首先,選擇數(shù)據(jù)變換方法。這一步是為了消除不同指標(biāo)不同量綱的影響和數(shù)量級別落差大的影響。在最常用的7種數(shù)據(jù)變換方法中,得出最好的方法是“全距從0到1”、“全距從-1到1”、“1的最大量”(因為它們3個在配合使用Ward法和Manhattan距離以及原始數(shù)據(jù)沒有負數(shù)時差異不大)。其次,選擇類間距離。類間距離顯然應(yīng)該選Ward方法,它的分類準(zhǔn)確性遠高于其他6種方法。第三,選擇樣品間距離。最好的樣品間距離方法是Manhattan距離,其次是Euclidean距離和Minkowski距離3次方。

為了驗證上述最優(yōu)組合在某一類樣品比較少的情況下準(zhǔn)確性如何,本研究把表1每一類只留2個品種、而其他三類品種數(shù)不變,又針對2.4中60個品種把每一類只留3個品種,而其他三類品種數(shù)不變,共8種情況,進行了數(shù)千次計算分析,得出了和上面一致的結(jié)論。

本研究的缺憾是樣本量仍然不是很大,每類樣本數(shù)沒有超過20個,有待以后收集更多的數(shù)據(jù)進一步檢驗這種最優(yōu)組合方法的外延正確率。

[1]Jain A K.Data clustering:50 years beyond k-means[J].Pattern Recognition Letters,2010,31(8):651-666.

[2]孫吉貴,劉杰,趙連宇.聚類算法研究 [J].軟件學(xué)報,2008,19(1):48-61.

[3]王駿,王士同,鄧趙紅.聚類分析研究中的若干問題[J].控制與決策,2012,27(3):321-328.

[4]申慧芳,李國柱.不同綠豆突變體主要農(nóng)藝性狀的多元遺傳分析[J].激光生物學(xué)報,2010,19(2):194-200.

[5]申慧芳,李國柱.紅小豆主要數(shù)量性狀的主成分與聚類分析[J].山西農(nóng)業(yè)科學(xué),2012,40(4):310-313,385.

[6]張學(xué)余,蘇一軍,李國輝,等.部分地方雞種蛋品質(zhì)與生態(tài)環(huán)境的聚類和主成分分析[J].天津農(nóng)業(yè)科學(xué),2013,19(1):47-50.

[7]李莉,萬正煌,焦春海,等.外引豌豆資源的鑒定及主要數(shù)量性狀的主成分分析[J].湖北農(nóng)業(yè)科學(xué),2014,53(23):5643-5648.

[8]王林海,王曉偉,詹克慧,等.黃淮麥區(qū)部分小麥種質(zhì)資源農(nóng)藝性狀的聚類分析[J].中國農(nóng)學(xué)通報,2008,24(4):186-191.

[9]馬蓉麗,焦彥生,成妍,等.基于表型性狀的辣椒資源遺傳多樣性分析[J].山西農(nóng)業(yè)科學(xué),2015,43(12):1577-1581.

[10]要燕杰,高翔,吳丹,等.小麥農(nóng)藝性狀與品質(zhì)特性的多元分析與評價[J].植物遺傳資源學(xué)報,2014,15(1):38-47.

[11]王成,閆峰,崔秀輝,等.綠豆農(nóng)藝性狀的遺傳多樣性分析[J].雜糧作物,2010,30(3):182-184.

[12]葉偉慶,王光琴,楊芬霞,等.信宜懷鄉(xiāng)雞體質(zhì)量與體尺性狀的相關(guān)性及聚類分析[J].河南農(nóng)業(yè)科學(xué),2015,44(2):132-134.

[13]趙明輝,李會敏,孟祥海,等.斯洛伐克104份冬小麥種質(zhì)資源農(nóng)藝性狀的分析及評價 [J].華北農(nóng)學(xué)報,2014,29(增刊):120-124.

[14]史鳳玉,朱英波,龍茹,等.野生大豆抗大豆花葉病毒病評價、聚類及性狀間相關(guān)分析[J].大豆科學(xué),2010,29(6):976-981.

[15]孫振綱,姜艷麗,陳耕,等.27個陸地棉新種質(zhì)材料主要性狀研究及聚類分析[J].山西農(nóng)業(yè)科學(xué),2015,43(7):773-776.

[16]孫敏,黎娟,周清明,等.湖南濃香型煙葉不同類型區(qū)化學(xué)成分比較[J].天津農(nóng)業(yè)科學(xué),2016,22(5):58-62,66.

[17]陳慶富.生物統(tǒng)計學(xué) [M].北京:高等教育出版社,2011:225,238.

[18]方開泰.實用多元統(tǒng)計分析[M].上海:華東師范大學(xué)出版社,1992:241.

[19]何曉群.多元統(tǒng)計分析[M].2版.北京:中國人民大學(xué)出版社,2009:73.

[20]張文彤,董偉.SPSS統(tǒng)計分析高級教程[M].2版.北京:高等教育出版社,2013:298.

[21]李衛(wèi)東.應(yīng)用多元統(tǒng)計分析[M].北京:北京大學(xué)出版社,2008:129.

[22]克勞斯·巴克豪斯,本德·埃里克森,伍爾夫·普林克,等.多元統(tǒng)計分析方法[M].上海:世紀(jì)出版集團格致出版社,上海人民出版社,2009:328.

[23]蓋鈞鎰.試驗統(tǒng)計方法[M].4版.北京:中國農(nóng)業(yè)出版社,2013:215.

[24]李靜萍.多元統(tǒng)計分析[M].北京:中國人民大學(xué)出版社,2015:49,65.

[25]顧志峰,葉乃好,石耀華.實用生物統(tǒng)計學(xué)[M].北京:科學(xué)出版社,2012:245.

[26]張玉革,胡緒彬.基于主成分和聚類分析的大豆品種生物學(xué)性狀的比較研究[J].大豆科學(xué),2004,23(3):178-183.

Study on the Best Clustering M ethod of Crop Varieties

DU Haiping
(InstituteofAgricultural Information,Shanxi Academy ofAgricultural Sciences,Taiyuan 030031,China)

Screening CNKI journal literature,four kinds of legume data from four articles were used as evaluation criteria.245 clustering methods consisting of 7 methods of data transformation,5 distance formulas between samples,7 distance definitions between classes were compared by cluster analysis,ANOVA,nonparametric test and descriptive statistical analysis.The results showed that, nearest neighbor and between-groups linkage used most commonly in the past were not the best clustering method,because their accuracy was significantly lower than Ward's method.Z standardization was not the best method of data transformation,but it was the "Range from 0 to 1","Range from-1 to 1"and"Maximum Magnitude of 1"3 kinds of transformation methods.Among the 5 distance formulasbetween samples,themostaccurate classification was the Manhattan distance,followed by the Euclidean distance.Accordingly, we got the bestclusteringmethodsand steps.

crop varieties;clusteringmethod;data transformation;between-classdistance;distance between samples

TP399

A

1002-2481(2016)07-0918-07

10.3969/j.issn.1002-2481.2016.07.07

2016-03-21

山西省農(nóng)業(yè)科學(xué)院科技攻關(guān)項目(2012ygg30)

杜海平(1962-),男,山西太原人,助理研究員,主要從事試驗統(tǒng)計分析和大數(shù)據(jù)應(yīng)用研究工作。

猜你喜歡
類間原始數(shù)據(jù)性狀
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
基于OTSU改進的布匹檢測算法研究
基于貝葉斯估計的多類間方差目標(biāo)提取*
寶鐸草的性狀及顯微鑒定研究
基于類間相對均勻性的紙張表面缺陷檢測
全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術(shù)實現(xiàn)5 級自動駕駛
汽車零部件(2017年4期)2017-07-12 17:05:53
基于改進最大類間方差法的手勢分割方法研究
9種常用中藥材的性狀真?zhèn)舞b別
對“性狀分離比模擬”實驗的改進
虎林市| 无棣县| 精河县| 拉孜县| 乐至县| 海盐县| 策勒县| 威远县| 全椒县| 临沧市| 淳安县| 余庆县| 清原| 两当县| 建平县| 驻马店市| 察隅县| 华亭县| 铜川市| 高雄市| 黑龙江省| 沂水县| 永城市| 余干县| 泗水县| 奉贤区| 卓资县| 兴隆县| 青神县| 土默特右旗| 珲春市| 沧州市| 揭东县| 平顺县| 天等县| 临西县| 社旗县| 平昌县| 重庆市| 兴文县| 宣恩县|