孟 軍,徐 勇,于金明,吳秋峰
(東北農(nóng)業(yè)大學 a.理學院;b工程學院,哈爾濱 150030)
?
基于譜聚類算法黑龍江墾區(qū)農(nóng)業(yè)機械裝備水平聚類分析
孟 軍a,徐 勇b,于金明b,吳秋峰a
(東北農(nóng)業(yè)大學 a.理學院;b工程學院,哈爾濱 150030)
針對黑龍江省墾區(qū)各農(nóng)場的農(nóng)業(yè)機械裝備水平差異性較大及數(shù)據(jù)維數(shù)高的問題,基于譜聚類算法的聚類方法,對2013-2015年墾區(qū)東部36個農(nóng)場的統(tǒng)計數(shù)據(jù)進行了聚類分析。結(jié)合各農(nóng)場農(nóng)業(yè)生產(chǎn)總值變化速率與平均機耕面積農(nóng)機總動力變化速率之間的關(guān)系,將聚類結(jié)果定義為發(fā)達農(nóng)場、中等發(fā)達農(nóng)場、不發(fā)達農(nóng)場3類。結(jié)果表明:聚類較為準確,符合墾區(qū)農(nóng)業(yè)機械裝備水平差異性較大的事實,能夠反應墾區(qū)農(nóng)業(yè)機械裝備水平現(xiàn)狀,可為墾區(qū)未來經(jīng)濟的協(xié)調(diào)發(fā)展和農(nóng)業(yè)機械管理等方面提供理論依據(jù)和有效建議。
農(nóng)業(yè)機械裝備水平; 譜聚類算法; 差異;黑龍江墾區(qū)
黑龍江墾區(qū)經(jīng)過60年的開發(fā)建設,已成為我國最大的國有農(nóng)場群和農(nóng)業(yè)機械裝備現(xiàn)代化程度最高的墾區(qū)。農(nóng)業(yè)機械裝備合理規(guī)劃有利于糧食綜合生產(chǎn)能力的進一步提高,更有利于農(nóng)場經(jīng)濟的發(fā)展[1]??v觀黑龍江省東部墾區(qū)的36個農(nóng)場,各農(nóng)場之間的農(nóng)業(yè)機械化裝備水平存在明顯的差異性??陀^真實地對各地區(qū)進行農(nóng)機裝備水平差異合理分析和評價,是優(yōu)化農(nóng)機裝備結(jié)構(gòu)的重要措施[2]。因此,對農(nóng)場現(xiàn)有農(nóng)機裝備水平聚類,不但可為農(nóng)場管理部門提供理論依據(jù),還可以客觀地對農(nóng)場機械裝備的結(jié)構(gòu)化進行合理調(diào)整。
本文對黑龍江墾區(qū)東部36個農(nóng)場的農(nóng)業(yè)機械裝備水平進行聚類分析,在聚類分析上采用譜聚類算法。建立在譜圖理論基礎上,與傳統(tǒng)的聚類算法相比,能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解。本文根據(jù)統(tǒng)計數(shù),將影響墾區(qū)農(nóng)場農(nóng)業(yè)機械裝備水平差異的各項指標定義為影響差異性的不同維數(shù),計算各維數(shù)間數(shù)據(jù)點的相似度矩陣,進而將具有數(shù)據(jù)結(jié)構(gòu)相似的農(nóng)場聚為同一類別。以往對農(nóng)業(yè)機械裝備水平的聚類和分類問題都是將選取的數(shù)據(jù)進行分析后去掉影響因素小的數(shù)據(jù),往往不能全面反映數(shù)據(jù)內(nèi)部結(jié)構(gòu),導致聚類精度不高;但該算法將影響因素中的每一個數(shù)據(jù)都考慮在內(nèi),提高了聚類的精度。常見的K-means聚類算法、EM算法等都是建立在凸球形的樣本空間上,但當樣本空間不為凸時,算法會陷入局部最優(yōu);直到譜聚類方法被提出,有效地克服了傳統(tǒng)聚類算法的以上缺點。為此,針對墾區(qū)農(nóng)場統(tǒng)計數(shù)據(jù)的龐大和屬性多的特點,本文提出的算法可提高聚類精度及計算速度,且使計算結(jié)果全局最優(yōu)。
本研究依據(jù)黑龍江農(nóng)墾統(tǒng)計年鑒提供的數(shù)據(jù)對農(nóng)場進行了聚類并結(jié)合實際情況分析聚類結(jié)果,目的在于正確評價農(nóng)業(yè)機械化裝備程度及發(fā)展趨勢,為實現(xiàn)農(nóng)業(yè)現(xiàn)代化提供理論依據(jù)與建議。
黑龍江墾區(qū)的農(nóng)業(yè)機械裝備水平可以全面反映墾區(qū)農(nóng)業(yè)發(fā)展現(xiàn)狀及趨勢[3],所以應該建立有效的農(nóng)業(yè)機械裝備水平的指標體系。該研究結(jié)合黑龍江墾區(qū)實際情況,為了充分體現(xiàn)農(nóng)業(yè)機械化裝備水平的特征,并按照評價指標體系建立的原則,即系統(tǒng)性原則,典型性原則,動態(tài)性原則,簡明科學性原則,可比、可操作、可量化原則,以及綜合性原則建立如圖1中的評價指標體系。該體系包括3個層次:第1層次為目標層,即以農(nóng)業(yè)機械化裝備水平為評價總目標。第2層次為二級指標,為評價農(nóng)業(yè)機械化裝備水平,選取包括總量指標、單位面積農(nóng)業(yè)機械裝備量、單位面積農(nóng)具裝備配套量;為更好、更全面地量化二級指標,分別在各個二級指標下設定三級指標。第3層次為具體的8項可量化的三級評價指標。
圖1 農(nóng)業(yè)機械裝備水平指標體系Fig.1 Level index system of agricultural machinery and equipment
譜聚類算法是基于譜圖理論[4]中圖的最優(yōu)劃分思想提出的,它將聚類問題模擬成對無向圖的劃分,本質(zhì)是將數(shù)據(jù)點聚類問題轉(zhuǎn)化成對無向圖的最優(yōu)分割的問題。譜聚類算法將樣本數(shù)據(jù)集中的每個數(shù)據(jù)點看作圖的每個節(jié)點V,頂點之間用邊E連接,其權(quán)重即為數(shù)據(jù)點的相似度W,進而構(gòu)造出一個無向加權(quán)圖G=(V,E)[5]。通過以上的變換可以將原來的聚類問題轉(zhuǎn)化成在圖G上的最優(yōu)劃分問題。
標準譜聚類算法主要應用高斯核函數(shù)計算數(shù)據(jù)點之間的相似度,譜聚類算法通用流程[6]為
(1)
i,j=1,2,…,n
根據(jù)式(1)所得相似度矩陣S采用k-近鄰、ξ-近鄰、全連通的其中一種對相似矩陣進行稀疏化處理得到相似矩陣為
W:
wij≥0, i=1,2,…,n; j=1,2,…,n
wij=wji
矩陣變換得到度矩陣D為
(2)
i=1,2,…,n
度矩陣D減去連接矩陣W得到頂點集的拉普拉斯矩陣L[7]。非歸一化拉普拉斯矩陣為
L=D-W
(3)
規(guī)一化拉普拉斯矩陣具有如下性質(zhì),則有
Lsym=D-1/2LD-1/2=I-D-1/2WD-1/2
(4)
Lrw=D-1L=I-D-1W
(5)
其中,式(4)和式(5)中的L即為式(3)中的非歸一化拉普拉斯矩陣;Lsym是對稱矩陣;Lrw是一個隨機游走矩陣,通常是非對稱的。
譜聚類算法根據(jù)構(gòu)建的拉普拉斯矩陣,求解其前k個特征值并構(gòu)建特征向量,然后采用K-means算法對特征向量聚類出k個流行結(jié)構(gòu)。算法步驟描述如下:
1)構(gòu)造基于樣本空間相似度的相似度圖,并計算相似度矩陣W及度矩陣D。
2 )計算拉普拉斯L。依據(jù)需要解決的實際應用問題采用非歸一化的拉普拉斯矩陣或歸一化的拉普拉斯矩陣或者歸一化的拉普拉斯矩陣Lsym或者Lrw。
3 )計算拉普拉斯L的前k個特征值及其對應的特征向量v1,v2,…,vn(k為需要將數(shù)據(jù)集進行聚類的個數(shù))。
4 )采用經(jīng)典K-means[8]聚類算法對特征向量空間的特征向量進行聚類,得到聚類結(jié)果C1,C2,…,Ck。
基于譜聚類算法,選取2013-2015年8項指標數(shù)據(jù)的平均值,對黑龍江東部36個農(nóng)場進行聚類。數(shù)據(jù)預處理,首先對選取的指標數(shù)據(jù)按照公式(6)進行無量綱化處理[11-13],則有
(6)
2013-2015年8項指標數(shù)據(jù)平均值處理后分別設為2013-2015年間機耕總面積平均值x1(hm2);農(nóng)業(yè)生產(chǎn)總值x2(萬元);農(nóng)業(yè)機械總動力x3(kW);單位耕地面積聯(lián)合收割機數(shù)量x4(臺/hm2);單位耕地面積大中型拖拉機數(shù)量x5(臺/hm2);單位耕地面積小型拖拉機數(shù)量x6(臺/hm2);單位耕地面積大中型拖拉機配套農(nóng)具x7(臺/hm2);單位耕地面積小型拖拉機配套農(nóng)具x8(臺/hm2)。具體數(shù)據(jù)如表1所示。
本文應用MatLab軟件進行程序編寫。首先,輸入處理后的數(shù)據(jù)集為X=(x1,x2,x3,x4,x5,x6,x7,x8,x9,x10)。第2步通過高斯核函數(shù)計算數(shù)據(jù)對之間距離,按照公式(1)計算得相似度矩陣W。其計算過程中數(shù)據(jù)點間距離越大相似度越低,保證相似度大的農(nóng)場聚為同一類的概率增大,而相似度較小的農(nóng)場疏遠 。第3步按照公式(4)構(gòu)造拉普拉斯矩陣L,最后采用經(jīng)典K-means算法對L的特征向量進行聚類,聚類結(jié)果如表2所示。
表 1 黑龍江東部36個農(nóng)場2013-2015年間平均農(nóng)業(yè)機械裝備統(tǒng)計數(shù)據(jù)Table 1 Heilongjiang eastern 36 farm 2013-2015 three years average agricultural machinery and equipment statistics
續(xù)表1
表 2 黑龍江墾區(qū)東部36個農(nóng)場農(nóng)機裝備水平聚類結(jié)果Table 2 Heilongjiang reclamation area east of 36 farm agricultural equipment level clustering results
結(jié)合以上聚類結(jié)果、各農(nóng)場農(nóng)業(yè)機械總動力和農(nóng)業(yè)生產(chǎn)總值增長速率可以看出:第1類農(nóng)場農(nóng)業(yè)生產(chǎn)總值和農(nóng)業(yè)機械總動力分別是3類結(jié)果中平均值增長較快的一類,如圖2所示;通過了解該類農(nóng)場的地貌環(huán)境等信息及圖3中農(nóng)業(yè)機械裝備數(shù)量配比圖可以將該類農(nóng)場歸納為農(nóng)業(yè)機械裝備水平較高,大中型機械與小型機械結(jié)構(gòu)較為合理的農(nóng)場。如友誼、八五三、八五二等農(nóng)場擁有土地面積大的地塊居多,且大中型農(nóng)業(yè)機械裝備數(shù)量及配套農(nóng)機具數(shù)量多,小型拖拉機及設備較少,農(nóng)機裝備配比較合理,因此農(nóng)業(yè)生產(chǎn)總值增長速率較快,屬于大中型農(nóng)業(yè)機械裝備占主導地位農(nóng)場,故定義為發(fā)達農(nóng)場。
第2類農(nóng)場農(nóng)業(yè)機械裝備水平處于中等平穩(wěn)發(fā)展趨勢,農(nóng)業(yè)生產(chǎn)總值與農(nóng)業(yè)機械總動力都屬于緩慢增長類型,呈現(xiàn)較平穩(wěn)增長趨勢,屬于中等發(fā)達農(nóng)場。
圖2 3類農(nóng)場農(nóng)業(yè)機械總動和農(nóng)業(yè)生產(chǎn)總值平均增長速率Fig.2 Three types of farm agricultural machinery and agricultural total average GDP growth rate
1.二九0 2.綏濱 3.江濱 4.軍川 5.名山 6.延軍 7.共青 8.寶泉嶺 9.新華 10.晉陽 11.湯原 12.依蘭 13.梧桐河 14.友誼 15.五九七 16.八五二 17.八五三 18.饒河 19.二九一 20.雙鴨山 21.江川 22.曙光 23.北興 24.紅旗嶺 25.寶山 26.八五九 27.勝利 28.七星 29.勤得利 30.大興 31.青龍山 32.前進 33.創(chuàng)業(yè) 34.紅衛(wèi) 35.前哨 36.前鋒圖3 36個農(nóng)場機耕面積平均大中型拖拉機及小型拖拉機數(shù)量Fig.2 The 36 farm tractor area of large and medium-sized tractors and the average number of small tractors
由圖2中可看出:第3類農(nóng)場平均農(nóng)業(yè)機械總動力和農(nóng)業(yè)生產(chǎn)總值增長速率較慢。通過了解該類農(nóng)場實際地理環(huán)境發(fā)現(xiàn),這些農(nóng)場農(nóng)機裝備結(jié)構(gòu)配比不合理。如湯原農(nóng)場地塊小且分散,地理位置復雜,適合小型拖拉機耕種;然而該農(nóng)場大中型拖拉機數(shù)量相對較多,不因地制宜地選取合適本農(nóng)場地塊的農(nóng)業(yè)機械裝備,導致作業(yè)過程中出現(xiàn)大型機械閑置,小型機械不夠的不平衡現(xiàn)象。曙光農(nóng)場無論是大中型拖拉機數(shù)量還是小型拖拉機數(shù)量都相對較少,導致春種秋收時期機械裝備不夠用的情況,這種不合理的農(nóng)機裝備配比影響著該農(nóng)場的農(nóng)業(yè)生產(chǎn)總值,甚至有些農(nóng)場呈現(xiàn)負增長情況,屬于不發(fā)達農(nóng)場。
黑龍江墾區(qū)東部36個農(nóng)場農(nóng)業(yè)機械化裝備水平差異性很大,本文通過對2013-2015年間10項數(shù)據(jù)指標的平均值進行基于譜聚類算法的聚類分析,聚類結(jié)果分為3類。同時,結(jié)合實際情況將3類農(nóng)場概括為發(fā)達農(nóng)場、較發(fā)達農(nóng)場和不發(fā)達農(nóng)場。發(fā)達農(nóng)場經(jīng)濟效益高、農(nóng)業(yè)機械化裝備水平高,農(nóng)場各方面呈現(xiàn)協(xié)調(diào)發(fā)展的態(tài)勢。較為發(fā)達農(nóng)場農(nóng)業(yè)機械裝備水平較高,屬于農(nóng)業(yè)機械裝備水平帶動經(jīng)濟發(fā)展的農(nóng)場,隨著農(nóng)業(yè)機械總動力的平穩(wěn)增長農(nóng)業(yè)生產(chǎn)總值也趨于平穩(wěn)增長趨勢,適度增加農(nóng)業(yè)機械投資以及提高農(nóng)業(yè)機械的使用效率有助于農(nóng)場未來經(jīng)濟穩(wěn)定增長。非發(fā)達農(nóng)場機械化水平并不高,農(nóng)業(yè)經(jīng)濟效益發(fā)展滯后,大中型拖拉機和小型拖拉機比例嚴重失調(diào),相關(guān)部門應根據(jù)本農(nóng)場環(huán)境和地理位置合理的購置新型機器,也可以嘗試同其余機械裝備結(jié)構(gòu)不合理的農(nóng)場進行等價交換,如擁有大中型拖拉機過剩的農(nóng)場交換本農(nóng)場缺乏的小型拖拉機等。政府決策部門應加大農(nóng)業(yè)機械化投資,并制定相關(guān)政策合理調(diào)配農(nóng)業(yè)機械,根據(jù)農(nóng)場具體環(huán)境,配備相應農(nóng)機具,提升農(nóng)業(yè)經(jīng)濟效益。
本文的研究可為各個農(nóng)場的農(nóng)機維修部門提供參考意見,發(fā)達農(nóng)場實施采購大中型農(nóng)機維修材料為宜。較發(fā)達農(nóng)場根據(jù)不同農(nóng)場條件采購大量相應農(nóng)機維修設備為宜。
[1] 黨召娣.我國農(nóng)業(yè)機械化水平現(xiàn)狀及重要性簡述[J].南方農(nóng)業(yè),2014,8(12):63-67.
[2] 袁玉萍,安增龍.基于支持向量機的農(nóng)機裝備水平差異分類研究[J].中國農(nóng)業(yè)大學學報,2015,20(4):167-173.
[3] 孫福田.農(nóng)業(yè)機械化對農(nóng)業(yè)發(fā)展的貢獻及農(nóng)業(yè)機械化裝備水平的研究[D].哈爾濱:東北農(nóng)業(yè)大學,2004.
[4] Zelnik-Manor L,Perona P.Self-tuning spectral clustering[J].Advances in Neural Information Processing Systems,2004,17:1601-1608.
[5] 1.Z Wu, R Leahy.An optimal graph theoretic approach to data clustering:theory and its application to image segmentation[J].IEEE Trans on PAMI,1993,15( 11):1101-1113.
[6] 蔡曉妍,戴冠中,楊黎斌.譜聚類算法綜述[J].計算機科學,2008,35(7):14-18.
[7] 公茂果,焦李成,馬文萍,等.基于流形距離的人工免疫無監(jiān)督分類與識別算法[J].自動化學報,2008,34(3):367-375.
[8] Chi Y,Song XD.On evolutionary spectral clustering[J].ACM Transactions on Knowledge Discovery from Data,2009,3(4):17-47.
[9] 王淑艷,孟軍,柏繼云.區(qū)域可持續(xù)農(nóng)業(yè)定量綜合評價[J].農(nóng)機化研究, 2009,31(1):56-58.
[10] 王福林.農(nóng)業(yè)系統(tǒng)工程[M].北京:中國農(nóng)業(yè)出版社,2009.
[11] 堵秀鳳,張健,張宏民.數(shù)學建模[M].北京:北京航空航天大學出版社,2011:179-190.
Analysis of Heilongjiang Reclamation Area Agricultural Mechanization Level Clustering Based on Spectral Clustering Algorithm
Meng Juna, Xu Yongb, Yu Jinmingb, Wu Qiufenga
(a.College of Science; b.College of Engineering, Northeast Agricultural University, Harbin 150030, China)
With problems about the difference in agricultural mechanization level and high dimension data of Heilongjiang ,proposed the clustering method which based on spectral clustering algorithm to analyze the statistics of 36 farms from 2013-2015 in the reclamation area of the East.Combined with the relationship between the farm variation rate of agricultural GDP and average area of tractor agricultural machinery total power rate of change , the result of cluster is defined developed farm, more developed farm, underdeveloped farm. The result of clustering is accurate which can consistent with the reclamation area agricultural mechanization level difference of large fact and reflect the reclamation area agriculture machinery and equipment level of the status quo. It can provide a theoretical basis and effective suggestions for the future in the coordinated development of economy and the agricultural machinery management.
the level of agricultural machinery and equipment; spectral clustering; difference; Heilongjiang reclamation area
2016-03-24
公益性行業(yè)(農(nóng)業(yè))科研專項(2015-2019)
孟 軍(1965-),男,哈爾濱人,教授,博士生導師,(E-mail)1135044376@qq.com。
徐 勇(1990-),男,黑龍江雙鴨山人,碩士研究生,(E-mail) 249858881@qq.com。
S231
A
1003-188X(2017)03-0026-06