趙亞亞 張澤人 代永富
摘要:時(shí)值實(shí)施鄉(xiāng)村振興戰(zhàn)略的關(guān)鍵時(shí)期,農(nóng)村電商發(fā)展出現(xiàn)高峰,為加強(qiáng)其供應(yīng)鏈體系建設(shè),對(duì)農(nóng)產(chǎn)品進(jìn)行銷量預(yù)測(cè)。針對(duì)影響銷量的未知因素和干擾項(xiàng)眾多的問(wèn)題,提出基于K-means聚類的偏二叉樹(shù)SVM銷量區(qū)間預(yù)測(cè)模型。用BP神經(jīng)網(wǎng)絡(luò)時(shí)間序列對(duì)陜西大棗價(jià)格進(jìn)行預(yù)測(cè),根據(jù)質(zhì)量、價(jià)格、時(shí)間三個(gè)因素,利用聚類算法對(duì)樣本劃分類別,偏二叉樹(shù)SVM進(jìn)行分類,將銷量預(yù)測(cè)在聚類區(qū)間內(nèi)。實(shí)驗(yàn)結(jié)果表明,該模型有著極高的預(yù)測(cè)精度,可用于農(nóng)產(chǎn)品銷量預(yù)測(cè)。
關(guān)鍵詞:機(jī)器學(xué)習(xí);時(shí)間序列預(yù)測(cè)模型;BP神經(jīng)網(wǎng)絡(luò);K均值法聚類;偏二叉樹(shù)svM
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2020)07-22-04
0引言
當(dāng)前是實(shí)現(xiàn)鄉(xiāng)村振興戰(zhàn)略的關(guān)鍵時(shí)期,農(nóng)村電商是一個(gè)有力的破局之道,幫助農(nóng)村電商預(yù)測(cè)未來(lái)農(nóng)村產(chǎn)業(yè)發(fā)展方向,使農(nóng)民及時(shí)調(diào)整生產(chǎn)方案,實(shí)現(xiàn)精準(zhǔn)產(chǎn)銷,助力國(guó)家全面脫貧。因此,預(yù)測(cè)各種農(nóng)產(chǎn)品的銷量顯得尤為重要。
目前國(guó)內(nèi)對(duì)農(nóng)產(chǎn)品銷量預(yù)測(cè)的研究方法眾多,如人工神經(jīng)網(wǎng)絡(luò)模型、回歸分析、時(shí)間序列分析模型和支持向量機(jī)模型。這些方法在不同的方面取得了較好的效果,但仍存在局限性。人工神經(jīng)網(wǎng)絡(luò)法易造成過(guò)擬合態(tài),且可能與實(shí)踐情況偏離較大,陷入局部最優(yōu)解。回歸分析法其擬合效果與數(shù)據(jù)量密切相關(guān),對(duì)數(shù)據(jù)不全的農(nóng)產(chǎn)品預(yù)測(cè)并不理想。時(shí)間序列分析法可能會(huì)因?yàn)檗r(nóng)產(chǎn)品銷量因素多而導(dǎo)致其計(jì)算結(jié)果的可信度較差。支持向量機(jī)法對(duì)數(shù)據(jù)量過(guò)大的情況,計(jì)算機(jī)的求解能力將會(huì)減弱。
機(jī)器學(xué)習(xí)在預(yù)測(cè)方面有著強(qiáng)大的能力,比如說(shuō)皇冠模型(ICM)。本文在此基礎(chǔ)上,綜合考慮上述的方法的優(yōu)點(diǎn)和缺點(diǎn),采用BP神經(jīng)網(wǎng)絡(luò)時(shí)間序列對(duì)價(jià)格進(jìn)行預(yù)測(cè),并提出一種基于聚類算法的偏二叉樹(shù)SVM農(nóng)產(chǎn)品銷量區(qū)間預(yù)測(cè)模型,克服定量估計(jì)誤差難以控制的缺陷??紤]到傳統(tǒng)決策樹(shù)SVM方法的誤差積累問(wèn)題,本文運(yùn)用聚類算法,根據(jù)劃分難易程度,按序分割,進(jìn)一步優(yōu)化模型,從而盡可能地利用較少的特征信息對(duì)產(chǎn)量精準(zhǔn)預(yù)測(cè),以減少多種干擾因素對(duì)產(chǎn)量預(yù)測(cè)誤差的不確定性,同時(shí)將產(chǎn)量預(yù)測(cè)的準(zhǔn)確性控制在可指導(dǎo)生產(chǎn)范圍內(nèi),對(duì)農(nóng)民的生產(chǎn)量進(jìn)行科學(xué)引導(dǎo)。
1理論與問(wèn)題分析
1.1關(guān)于大棗價(jià)格的分析
1.1.1理論基礎(chǔ)
基于BP神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè):認(rèn)為時(shí)間是決定變化的一個(gè)條件,未來(lái)與前面m個(gè)值之間可以用函數(shù)關(guān)系進(jìn)行擬合,以BP神經(jīng)網(wǎng)絡(luò)為工具,將前幾年數(shù)據(jù)進(jìn)行滾動(dòng)排列作為輸入值,后一年作為輸出值。以時(shí)序分析為方法來(lái)擬合一個(gè)函數(shù)關(guān)系式,變量之間應(yīng)滿足:
1.1.2問(wèn)題分析
采集2014-2019陜西大棗的價(jià)格數(shù)據(jù)(單位:元/斤),通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)價(jià)格隨時(shí)間的變化具有動(dòng)態(tài)性、隨機(jī)性和復(fù)雜性。時(shí)間序列分析法可以很好的解決變量于一定區(qū)域內(nèi)隨時(shí)間動(dòng)態(tài)變化的自相關(guān)問(wèn)題,BP神經(jīng)網(wǎng)絡(luò)在處理不確定和非線性的問(wèn)題上,有著極大優(yōu)勢(shì)。所以,通過(guò)BP神經(jīng)網(wǎng)絡(luò)對(duì)該函數(shù)關(guān)系進(jìn)行擬合,建立基于BP神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)模型。
1.2關(guān)于大棗銷量的分析
1.2.1理論基礎(chǔ)
偏二叉樹(shù)SVM模型:對(duì)傳統(tǒng)DT-SVM模型優(yōu)化。越上層節(jié)點(diǎn)的分類器的分類性能對(duì)整個(gè)分類模型的可推廣性影響越大。基于此,在生成二叉樹(shù)過(guò)程中,優(yōu)先分割出易分離的類別。同時(shí),各內(nèi)節(jié)點(diǎn)由一個(gè)類與其余類構(gòu)造分割超平面,生成的二叉樹(shù)成為偏二叉樹(shù)。
1.2.2問(wèn)題分析
傳統(tǒng)預(yù)測(cè)模型大多是通過(guò)建立數(shù)學(xué)模型定量預(yù)測(cè)。結(jié)合生活實(shí)際情況,影響陜西大棗銷量的因素有很多,如天氣、品牌與包裝、市場(chǎng)建設(shè)等等。若直接對(duì)其銷量采用定量預(yù)測(cè),效果會(huì)差強(qiáng)人意。為減少誤差,選取大棗近六年每半個(gè)月銷量數(shù)據(jù)進(jìn)行區(qū)間預(yù)測(cè)。
把銷量分為若干個(gè)區(qū)間,去預(yù)測(cè)未來(lái)銷量所在區(qū)間,將問(wèn)題轉(zhuǎn)化為多分類問(wèn)題。而一般的決策樹(shù)結(jié)構(gòu)涵蓋著誤差積累的缺點(diǎn);SVM多分類問(wèn)題的傳統(tǒng)方法one-against-one、one-against-rest可能產(chǎn)生不可分區(qū)域?qū)е路诸愬e(cuò)誤。對(duì)此,采取一種基于聚類算法的偏二叉樹(shù)SVM來(lái)解決問(wèn)題。
2模型建立與求解
2.1價(jià)格預(yù)測(cè)模型
2.1.1模型建立
Step 1數(shù)據(jù)預(yù)處理
將不同品質(zhì)大棗價(jià)格(元/斤)隨時(shí)間變化的數(shù)據(jù)整合起來(lái),對(duì)樣本數(shù)據(jù)進(jìn)行歸一化:
其中,x和x分別為歸一化處理前后值;Xmin和Xmax分別為原數(shù)據(jù)最小值和最大值。
Step 2網(wǎng)絡(luò)構(gòu)建和訓(xùn)練
輸入輸出層設(shè)計(jì):通過(guò)多次試驗(yàn)發(fā)現(xiàn)輸入層為五個(gè)神經(jīng)元效果最好,即依次將連續(xù)五年的大棗同一品質(zhì)的數(shù)據(jù)作為網(wǎng)絡(luò)的實(shí)際輸入,其后一年作為網(wǎng)絡(luò)的期望輸出,按此方式滾動(dòng)排列得到32組樣本。
隱層設(shè)計(jì):初步擬定四個(gè)神經(jīng)元數(shù),利用試湊法的思想,從而得到一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)5-8-1,如圖2。
網(wǎng)絡(luò)訓(xùn)練:選取purelin為輸出函數(shù),tansig為隱層函數(shù)。使用MATLAB神經(jīng)網(wǎng)絡(luò)工具箱,隨機(jī)選取70%的數(shù)據(jù)樣本,15%驗(yàn)證樣本,15%測(cè)試樣本,運(yùn)用trainglm函數(shù)和L-M算法訓(xùn)練網(wǎng)絡(luò)。
2.1.2模型求解
(1)求解網(wǎng)絡(luò)
通過(guò)MATLAB2018的神經(jīng)網(wǎng)絡(luò)工具箱對(duì)上述構(gòu)建的模型進(jìn)行訓(xùn)練,確定相關(guān)參數(shù)的選取后,經(jīng)過(guò)9次迭代,訓(xùn)練完成。
(2)模型檢驗(yàn)
基于traimlm訓(xùn)練構(gòu)神經(jīng)網(wǎng)絡(luò)誤差分布,如圖3所示。
由圖可見(jiàn),實(shí)際輸出在期望輸出附近比較集中,測(cè)試樣本誤差控制在0.05以內(nèi)。結(jié)合實(shí)際情況,即誤差控制在0.1元以內(nèi)。說(shuō)明訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型精度較高,可靠性較強(qiáng)。用該模型對(duì)2020年上半年大棗價(jià)格進(jìn)行預(yù)測(cè),如表1。
2.2銷量預(yù)測(cè)模型
2.2.1模型建立
(1)數(shù)據(jù)預(yù)處理
使用機(jī)器學(xué)習(xí)原型聚類里的k均值算法將采集的2014年到2019年的陜西普通大棗半月銷量數(shù)據(jù)進(jìn)行聚類,得到銷售量可能位于的k個(gè)區(qū)間。以大棗的三個(gè)屬性為:品質(zhì)、價(jià)格和年份為自變量,對(duì)這三個(gè)特征向量數(shù)據(jù)歸一化處理在[-1,1]之間,極大減少價(jià)格的取值優(yōu)勢(shì)。
(2)建立偏二叉樹(shù)SVM模型
定義:兩類的距離等于它們最近的兩個(gè)樣本的歐氏距離,即:
其中dp,q。為不同類sp和sq的距離。
以此類距離,利用聚類分析的方法,讓與其他類距離最遠(yuǎn)的類最先劃分出來(lái),此時(shí)構(gòu)造的最優(yōu)超平面具有較好的推廣性。然后在剩余的類中重復(fù)該操作,直至不能劃分為止。這時(shí),就生成了一個(gè)偏二叉樹(shù)。以下為算法流程。
⑤對(duì)每個(gè)節(jié)點(diǎn)使用傳統(tǒng)二值SVM訓(xùn)練算法最優(yōu)超平面。將第n1類樣本作為正樣本集,其余樣本作為負(fù)樣本集,構(gòu)造根節(jié)點(diǎn)處的SVM子分類器。類似地訓(xùn)練其余節(jié)點(diǎn),直到生成所有的二值子分類器,得到完整的基于二叉樹(shù)多類別SVM分類模型,然后用于大棗產(chǎn)量預(yù)測(cè)。
⑥算法結(jié)束。
(3)SVM訓(xùn)練
為了增加高維空間的計(jì)算能力,同時(shí)減少最優(yōu)參數(shù)集搜索空間,我們使用高斯核函數(shù)函數(shù)進(jìn)行訓(xùn)練,即:考慮到模型的性能與常數(shù)(c,y)有關(guān),用crossvali-dation的想法選取c和y在{2-5,2-1,…,25}內(nèi)精度最高下的c和y,若有多種組和精度達(dá)到最高,則選取c最小的一組,防止懲罰系數(shù)過(guò)高導(dǎo)致的過(guò)學(xué)習(xí)態(tài)。KKT停止條件的容許誤差設(shè)為0.001。對(duì)所有SVM子分類器依次進(jìn)行訓(xùn)練,形成分類器。
2.2.2模型求解
(1)銷量聚類
使用SPSS軟件確定最佳聚類數(shù),依據(jù)試湊法的思想,結(jié)合生活經(jīng)驗(yàn),首先選取15個(gè)聚類數(shù),然后依次更改聚類數(shù),具體分析每次的聚類效果。最終確定最佳聚類數(shù)為10個(gè),如表2。再利用MATLAB軟件導(dǎo)出每組聚類成員,并且將其特征向量數(shù)據(jù)歸一化處理。
(2)模型求解及檢驗(yàn)
數(shù)據(jù)集規(guī)模為576個(gè)樣本,選取70%的樣本,按照模型思路,采用聚類算法生成決策樹(shù)模型。余下30%的樣本進(jìn)行測(cè)試,得到大棗的測(cè)試精度為98.53%,這說(shuō)明該算法的分類精度極高。使用該模型對(duì)2020年平均半月銷售量進(jìn)行預(yù)測(cè)。如表3。
3結(jié)束語(yǔ)
價(jià)格的時(shí)間序列模型,通過(guò)BP神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn),算法收斂速度快,學(xué)習(xí)效率高,并且可以實(shí)現(xiàn)復(fù)雜的非線性映射,效果較好。
利用偏二叉樹(shù)SVM多分類方法的銷量區(qū)間預(yù)測(cè)是一種模糊預(yù)測(cè),預(yù)測(cè)的是一個(gè)銷量區(qū)間,更準(zhǔn)確且符合生活實(shí)際。運(yùn)用機(jī)器學(xué)習(xí)的多分類方法,將原型聚類、支持向量機(jī)和決策樹(shù)三者有效結(jié)合。既解決了傳統(tǒng)的線性不可分問(wèn)題,又解決了決策樹(shù)SVM的誤差累計(jì)問(wèn)題,從而建立可信度極高的預(yù)測(cè)模型。事實(shí)上,可以再結(jié)合傳統(tǒng)的定值預(yù)測(cè)模型,結(jié)果會(huì)更加精準(zhǔn)。
模型利于推廣到其他農(nóng)產(chǎn)品的銷量預(yù)測(cè)上,且隨著數(shù)據(jù)量的加大,模型預(yù)測(cè)精確性會(huì)進(jìn)一步提高。本文的模型只建立于主要影響因素價(jià)格和年份上,其他次要因素和不可抗力因素或者一般化或者忽略。在外界環(huán)境發(fā)生較大變化時(shí),模型可靠性降低,其實(shí)際應(yīng)用能力也將會(huì)減弱,需重新訓(xùn)練模型。