基于機(jī)器學(xué)習(xí)的農(nóng)產(chǎn)品銷量區(qū)間預(yù)測(cè)

2020-08-06 15:01趙亞亞張澤人代永富

計(jì)算機(jī)時(shí)代 2020年7期

關(guān)鍵詞：BP神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)

趙亞亞張澤人代永富

摘要：時(shí)值實(shí)施鄉(xiāng)村振興戰(zhàn)略的關(guān)鍵時(shí)期，農(nóng)村電商發(fā)展出現(xiàn)高峰，為加強(qiáng)其供應(yīng)鏈體系建設(shè)，對(duì)農(nóng)產(chǎn)品進(jìn)行銷量預(yù)測(cè)。針對(duì)影響銷量的未知因素和干擾項(xiàng)眾多的問(wèn)題，提出基于K-means聚類的偏二叉樹(shù)SVM銷量區(qū)間預(yù)測(cè)模型。用BP神經(jīng)網(wǎng)絡(luò)時(shí)間序列對(duì)陜西大棗價(jià)格進(jìn)行預(yù)測(cè)，根據(jù)質(zhì)量、價(jià)格、時(shí)間三個(gè)因素，利用聚類算法對(duì)樣本劃分類別，偏二叉樹(shù)SVM進(jìn)行分類，將銷量預(yù)測(cè)在聚類區(qū)間內(nèi)。實(shí)驗(yàn)結(jié)果表明，該模型有著極高的預(yù)測(cè)精度，可用于農(nóng)產(chǎn)品銷量預(yù)測(cè)。

關(guān)鍵詞：機(jī)器學(xué)習(xí);時(shí)間序列預(yù)測(cè)模型;BP神經(jīng)網(wǎng)絡(luò);K均值法聚類;偏二叉樹(shù)svM

中圖分類號(hào)：TP181 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1006-8228（2020）07-22-04

0引言

當(dāng)前是實(shí)現(xiàn)鄉(xiāng)村振興戰(zhàn)略的關(guān)鍵時(shí)期，農(nóng)村電商是一個(gè)有力的破局之道，幫助農(nóng)村電商預(yù)測(cè)未來(lái)農(nóng)村產(chǎn)業(yè)發(fā)展方向，使農(nóng)民及時(shí)調(diào)整生產(chǎn)方案，實(shí)現(xiàn)精準(zhǔn)產(chǎn)銷，助力國(guó)家全面脫貧。因此，預(yù)測(cè)各種農(nóng)產(chǎn)品的銷量顯得尤為重要。

目前國(guó)內(nèi)對(duì)農(nóng)產(chǎn)品銷量預(yù)測(cè)的研究方法眾多，如人工神經(jīng)網(wǎng)絡(luò)模型、回歸分析、時(shí)間序列分析模型和支持向量機(jī)模型。這些方法在不同的方面取得了較好的效果，但仍存在局限性。人工神經(jīng)網(wǎng)絡(luò)法易造成過(guò)擬合態(tài)，且可能與實(shí)踐情況偏離較大，陷入局部最優(yōu)解。回歸分析法其擬合效果與數(shù)據(jù)量密切相關(guān)，對(duì)數(shù)據(jù)不全的農(nóng)產(chǎn)品預(yù)測(cè)并不理想。時(shí)間序列分析法可能會(huì)因?yàn)檗r(nóng)產(chǎn)品銷量因素多而導(dǎo)致其計(jì)算結(jié)果的可信度較差。支持向量機(jī)法對(duì)數(shù)據(jù)量過(guò)大的情況，計(jì)算機(jī)的求解能力將會(huì)減弱。

機(jī)器學(xué)習(xí)在預(yù)測(cè)方面有著強(qiáng)大的能力，比如說(shuō)皇冠模型（ICM）。本文在此基礎(chǔ)上，綜合考慮上述的方法的優(yōu)點(diǎn)和缺點(diǎn)，采用BP神經(jīng)網(wǎng)絡(luò)時(shí)間序列對(duì)價(jià)格進(jìn)行預(yù)測(cè)，并提出一種基于聚類算法的偏二叉樹(shù)SVM農(nóng)產(chǎn)品銷量區(qū)間預(yù)測(cè)模型，克服定量估計(jì)誤差難以控制的缺陷?？紤]到傳統(tǒng)決策樹(shù)SVM方法的誤差積累問(wèn)題，本文運(yùn)用聚類算法，根據(jù)劃分難易程度，按序分割，進(jìn)一步優(yōu)化模型，從而盡可能地利用較少的特征信息對(duì)產(chǎn)量精準(zhǔn)預(yù)測(cè)，以減少多種干擾因素對(duì)產(chǎn)量預(yù)測(cè)誤差的不確定性，同時(shí)將產(chǎn)量預(yù)測(cè)的準(zhǔn)確性控制在可指導(dǎo)生產(chǎn)范圍內(nèi)，對(duì)農(nóng)民的生產(chǎn)量進(jìn)行科學(xué)引導(dǎo)。

1理論與問(wèn)題分析

1.1關(guān)于大棗價(jià)格的分析

1.1.1理論基礎(chǔ)

基于BP神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)：認(rèn)為時(shí)間是決定變化的一個(gè)條件，未來(lái)與前面m個(gè)值之間可以用函數(shù)關(guān)系進(jìn)行擬合，以BP神經(jīng)網(wǎng)絡(luò)為工具，將前幾年數(shù)據(jù)進(jìn)行滾動(dòng)排列作為輸入值，后一年作為輸出值。以時(shí)序分析為方法來(lái)擬合一個(gè)函數(shù)關(guān)系式，變量之間應(yīng)滿足：

1.1.2問(wèn)題分析

采集2014-2019陜西大棗的價(jià)格數(shù)據(jù)（單位：元/斤），通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)價(jià)格隨時(shí)間的變化具有動(dòng)態(tài)性、隨機(jī)性和復(fù)雜性。時(shí)間序列分析法可以很好的解決變量于一定區(qū)域內(nèi)隨時(shí)間動(dòng)態(tài)變化的自相關(guān)問(wèn)題，BP神經(jīng)網(wǎng)絡(luò)在處理不確定和非線性的問(wèn)題上，有著極大優(yōu)勢(shì)。所以，通過(guò)BP神經(jīng)網(wǎng)絡(luò)對(duì)該函數(shù)關(guān)系進(jìn)行擬合，建立基于BP神經(jīng)網(wǎng)絡(luò)的時(shí)間序列預(yù)測(cè)模型。

1.2關(guān)于大棗銷量的分析

1.2.1理論基礎(chǔ)

偏二叉樹(shù)SVM模型：對(duì)傳統(tǒng)DT-SVM模型優(yōu)化。越上層節(jié)點(diǎn)的分類器的分類性能對(duì)整個(gè)分類模型的可推廣性影響越大。基于此，在生成二叉樹(shù)過(guò)程中，優(yōu)先分割出易分離的類別。同時(shí)，各內(nèi)節(jié)點(diǎn)由一個(gè)類與其余類構(gòu)造分割超平面，生成的二叉樹(shù)成為偏二叉樹(shù)。

1.2.2問(wèn)題分析

傳統(tǒng)預(yù)測(cè)模型大多是通過(guò)建立數(shù)學(xué)模型定量預(yù)測(cè)。結(jié)合生活實(shí)際情況，影響陜西大棗銷量的因素有很多，如天氣、品牌與包裝、市場(chǎng)建設(shè)等等。若直接對(duì)其銷量采用定量預(yù)測(cè)，效果會(huì)差強(qiáng)人意。為減少誤差，選取大棗近六年每半個(gè)月銷量數(shù)據(jù)進(jìn)行區(qū)間預(yù)測(cè)。

把銷量分為若干個(gè)區(qū)間，去預(yù)測(cè)未來(lái)銷量所在區(qū)間，將問(wèn)題轉(zhuǎn)化為多分類問(wèn)題。而一般的決策樹(shù)結(jié)構(gòu)涵蓋著誤差積累的缺點(diǎn);SVM多分類問(wèn)題的傳統(tǒng)方法one-against-one、one-against-rest可能產(chǎn)生不可分區(qū)域?qū)е路诸愬e(cuò)誤。對(duì)此，采取一種基于聚類算法的偏二叉樹(shù)SVM來(lái)解決問(wèn)題。

2模型建立與求解

2.1價(jià)格預(yù)測(cè)模型

2.1.1模型建立

Step 1數(shù)據(jù)預(yù)處理

將不同品質(zhì)大棗價(jià)格（元/斤）隨時(shí)間變化的數(shù)據(jù)整合起來(lái)，對(duì)樣本數(shù)據(jù)進(jìn)行歸一化：

其中，x和x分別為歸一化處理前后值;Xmin和Xmax分別為原數(shù)據(jù)最小值和最大值。

Step 2網(wǎng)絡(luò)構(gòu)建和訓(xùn)練

輸入輸出層設(shè)計(jì)：通過(guò)多次試驗(yàn)發(fā)現(xiàn)輸入層為五個(gè)神經(jīng)元效果最好，即依次將連續(xù)五年的大棗同一品質(zhì)的數(shù)據(jù)作為網(wǎng)絡(luò)的實(shí)際輸入，其后一年作為網(wǎng)絡(luò)的期望輸出，按此方式滾動(dòng)排列得到32組樣本。

隱層設(shè)計(jì)：初步擬定四個(gè)神經(jīng)元數(shù)，利用試湊法的思想，從而得到一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)5-8-1，如圖2。

網(wǎng)絡(luò)訓(xùn)練：選取purelin為輸出函數(shù)，tansig為隱層函數(shù)。使用MATLAB神經(jīng)網(wǎng)絡(luò)工具箱，隨機(jī)選取70%的數(shù)據(jù)樣本，15%驗(yàn)證樣本，15%測(cè)試樣本，運(yùn)用trainglm函數(shù)和L-M算法訓(xùn)練網(wǎng)絡(luò)。

2.1.2模型求解

（1）求解網(wǎng)絡(luò)

通過(guò)MATLAB2018的神經(jīng)網(wǎng)絡(luò)工具箱對(duì)上述構(gòu)建的模型進(jìn)行訓(xùn)練，確定相關(guān)參數(shù)的選取后，經(jīng)過(guò)9次迭代，訓(xùn)練完成。

（2）模型檢驗(yàn)

基于traimlm訓(xùn)練構(gòu)神經(jīng)網(wǎng)絡(luò)誤差分布，如圖3所示。

由圖可見(jiàn)，實(shí)際輸出在期望輸出附近比較集中，測(cè)試樣本誤差控制在0.05以內(nèi)。結(jié)合實(shí)際情況，即誤差控制在0.1元以內(nèi)。說(shuō)明訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型精度較高，可靠性較強(qiáng)。用該模型對(duì)2020年上半年大棗價(jià)格進(jìn)行預(yù)測(cè)，如表1。

2.2銷量預(yù)測(cè)模型

2.2.1模型建立

（1）數(shù)據(jù)預(yù)處理

使用機(jī)器學(xué)習(xí)原型聚類里的k均值算法將采集的2014年到2019年的陜西普通大棗半月銷量數(shù)據(jù)進(jìn)行聚類，得到銷售量可能位于的k個(gè)區(qū)間。以大棗的三個(gè)屬性為：品質(zhì)、價(jià)格和年份為自變量，對(duì)這三個(gè)特征向量數(shù)據(jù)歸一化處理在[-1，1]之間，極大減少價(jià)格的取值優(yōu)勢(shì)。

（2）建立偏二叉樹(shù)SVM模型

定義：兩類的距離等于它們最近的兩個(gè)樣本的歐氏距離，即：

其中dp，q。為不同類sp和sq的距離。

以此類距離，利用聚類分析的方法，讓與其他類距離最遠(yuǎn)的類最先劃分出來(lái)，此時(shí)構(gòu)造的最優(yōu)超平面具有較好的推廣性。然后在剩余的類中重復(fù)該操作，直至不能劃分為止。這時(shí)，就生成了一個(gè)偏二叉樹(shù)。以下為算法流程。

⑤對(duì)每個(gè)節(jié)點(diǎn)使用傳統(tǒng)二值SVM訓(xùn)練算法最優(yōu)超平面。將第n1類樣本作為正樣本集，其余樣本作為負(fù)樣本集，構(gòu)造根節(jié)點(diǎn)處的SVM子分類器。類似地訓(xùn)練其余節(jié)點(diǎn)，直到生成所有的二值子分類器，得到完整的基于二叉樹(shù)多類別SVM分類模型，然后用于大棗產(chǎn)量預(yù)測(cè)。

⑥算法結(jié)束。

（3）SVM訓(xùn)練

為了增加高維空間的計(jì)算能力，同時(shí)減少最優(yōu)參數(shù)集搜索空間，我們使用高斯核函數(shù)函數(shù)進(jìn)行訓(xùn)練，即：考慮到模型的性能與常數(shù)（c，y）有關(guān)，用crossvali-dation的想法選取c和y在{2^-5，2^-1，…，2⁵}內(nèi)精度最高下的c和y，若有多種組和精度達(dá)到最高，則選取c最小的一組，防止懲罰系數(shù)過(guò)高導(dǎo)致的過(guò)學(xué)習(xí)態(tài)。KKT停止條件的容許誤差設(shè)為0.001。對(duì)所有SVM子分類器依次進(jìn)行訓(xùn)練，形成分類器。

2.2.2模型求解

（1）銷量聚類

使用SPSS軟件確定最佳聚類數(shù)，依據(jù)試湊法的思想，結(jié)合生活經(jīng)驗(yàn)，首先選取15個(gè)聚類數(shù)，然后依次更改聚類數(shù)，具體分析每次的聚類效果。最終確定最佳聚類數(shù)為10個(gè)，如表2。再利用MATLAB軟件導(dǎo)出每組聚類成員，并且將其特征向量數(shù)據(jù)歸一化處理。

（2）模型求解及檢驗(yàn)

數(shù)據(jù)集規(guī)模為576個(gè)樣本，選取70%的樣本，按照模型思路，采用聚類算法生成決策樹(shù)模型。余下30%的樣本進(jìn)行測(cè)試，得到大棗的測(cè)試精度為98.53%，這說(shuō)明該算法的分類精度極高。使用該模型對(duì)2020年平均半月銷售量進(jìn)行預(yù)測(cè)。如表3。

3結(jié)束語(yǔ)

價(jià)格的時(shí)間序列模型，通過(guò)BP神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)，算法收斂速度快，學(xué)習(xí)效率高，并且可以實(shí)現(xiàn)復(fù)雜的非線性映射，效果較好。

利用偏二叉樹(shù)SVM多分類方法的銷量區(qū)間預(yù)測(cè)是一種模糊預(yù)測(cè)，預(yù)測(cè)的是一個(gè)銷量區(qū)間，更準(zhǔn)確且符合生活實(shí)際。運(yùn)用機(jī)器學(xué)習(xí)的多分類方法，將原型聚類、支持向量機(jī)和決策樹(shù)三者有效結(jié)合。既解決了傳統(tǒng)的線性不可分問(wèn)題，又解決了決策樹(shù)SVM的誤差累計(jì)問(wèn)題，從而建立可信度極高的預(yù)測(cè)模型。事實(shí)上，可以再結(jié)合傳統(tǒng)的定值預(yù)測(cè)模型，結(jié)果會(huì)更加精準(zhǔn)。

模型利于推廣到其他農(nóng)產(chǎn)品的銷量預(yù)測(cè)上，且隨著數(shù)據(jù)量的加大，模型預(yù)測(cè)精確性會(huì)進(jìn)一步提高。本文的模型只建立于主要影響因素價(jià)格和年份上，其他次要因素和不可抗力因素或者一般化或者忽略。在外界環(huán)境發(fā)生較大變化時(shí)，模型可靠性降低，其實(shí)際應(yīng)用能力也將會(huì)減弱，需重新訓(xùn)練模型。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于機(jī)器學(xué)習(xí)的農(nóng)產(chǎn)品銷量區(qū)間預(yù)測(cè)