基于關(guān)聯(lián)規(guī)則與多元線性回歸的云南省甘蔗產(chǎn)量預(yù)測(cè)模型

2022-02-07 02:08劉振洋趙家松胡仁傑劉笠溶

廣東農(nóng)業(yè)科學(xué) 2022年12期

劉振洋，趙家松，胡仁傑，劉笠溶

（云南農(nóng)業(yè)大學(xué)大數(shù)據(jù)學(xué)院，云南昆明 650201）

【研究意義】甘蔗產(chǎn)業(yè)是云南省特色產(chǎn)業(yè)之一，更是扶貧產(chǎn)業(yè)之一，云南甘蔗種植面積、產(chǎn)量和產(chǎn)糖量均居全國(guó)第二位，僅次于廣西，云南省16 個(gè)地州中有10 個(gè)地州產(chǎn)糖，主要集中在臨滄、德宏、保山、普洱、文山、西雙版納、玉溪、紅河8 個(gè)地州、市、縣，全省129 個(gè)縣（市）中有52 個(gè)縣（市、區(qū)）種植甘蔗，多為沿邊少數(shù)民族地區(qū)。對(duì)云南省甘蔗產(chǎn)量的研究既有助于云南省特色產(chǎn)業(yè)的發(fā)展，也可對(duì)邊區(qū)經(jīng)濟(jì)發(fā)展起到推動(dòng)作用［1］。產(chǎn)量預(yù)測(cè)模型是當(dāng)前產(chǎn)量研究的重要方法之一，通過預(yù)測(cè)農(nóng)作物的產(chǎn)量，有助于農(nóng)作物的種植規(guī)劃和市場(chǎng)調(diào)控。目前主要的產(chǎn)量預(yù)測(cè)模型有BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Cart 回歸樹、線性回歸等，這些模型在產(chǎn)量預(yù)測(cè)方面的應(yīng)用均較為成熟。

【前人研究進(jìn)展】BP 神經(jīng)網(wǎng)絡(luò)模型在產(chǎn)量預(yù)測(cè)方向的使用最為廣泛。彭秋連等［2］、許鑫等［3］將BP 神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于農(nóng)作物產(chǎn)量預(yù)測(cè)上，其相對(duì)誤差始終維持較低水平；李修華等［4］使用遺傳算法對(duì)BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn)，創(chuàng)新性地采用基于遺傳算法的BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)甘蔗產(chǎn)量進(jìn)行預(yù)測(cè)，其相對(duì)誤差和決定系數(shù)相對(duì)于BP神經(jīng)網(wǎng)絡(luò)模型，都有了較大改進(jìn)。此外，胡程磊等［5］、張浩等［6］提出基于BP 神經(jīng)網(wǎng)絡(luò)的IPSO-BP 神經(jīng)網(wǎng)絡(luò)模型和AIGA-BP 神經(jīng)網(wǎng)絡(luò)模型，在糧食產(chǎn)量預(yù)測(cè)方向上的預(yù)測(cè)精度維持在一個(gè)較高水平，對(duì)比BP 神經(jīng)網(wǎng)絡(luò)模型也有極大的提升。

支持向量機(jī)作為當(dāng)前機(jī)器學(xué)習(xí)的主流算法，也被大量應(yīng)用于產(chǎn)量預(yù)測(cè)研究，段東瑤等［7］將SVM 模型使用于綠茶加工含水量變化預(yù)測(cè)，模型預(yù)測(cè)精度較高，擬合度較好，具有很強(qiáng)的參考價(jià)值；趙桂芝等［8］、施瑤等［9］提出基于PSO 算法優(yōu)化的SVM 模型和基于SAFA 算法優(yōu)化的LSSVM模型，為糧食產(chǎn)量預(yù)測(cè)提供了新的途徑。Cart 回歸樹作為數(shù)據(jù)挖掘的經(jīng)典算法，也可以被用于產(chǎn)量預(yù)測(cè)方向，陳湘芳等［10］使用Cart 回歸樹對(duì)黃瓜產(chǎn)量進(jìn)行預(yù)測(cè)，預(yù)測(cè)模型的誤差較小且具有良好的準(zhǔn)確性。灰色模型也被常用于產(chǎn)量預(yù)測(cè)，余永松等［11］、張永強(qiáng)等［12］使用灰色模型對(duì)蔬菜和花生產(chǎn)量進(jìn)行預(yù)測(cè)，其模型收斂速度較快且相對(duì)誤差較?。粏趟缮旱龋?3］還將馬爾科夫鏈用于提高灰色模型的精度，對(duì)肉類產(chǎn)量進(jìn)行了很好的預(yù)測(cè)。

基于其簡(jiǎn)潔和穩(wěn)定的特點(diǎn)，線性回歸也是產(chǎn)量預(yù)測(cè)方面使用較為廣泛的算法之一。研究表明，將多元線性回歸算法用于國(guó)內(nèi)外多種農(nóng)作物的產(chǎn)量預(yù)測(cè)，利用多元線性回歸算法構(gòu)建的模型在經(jīng)濟(jì)作物和糧食作物的產(chǎn)量預(yù)測(cè)上，都保持較低的誤差和較高的擬合度，證明了線性回歸算法在產(chǎn)量預(yù)測(cè)領(lǐng)域的可行性和實(shí)用性［14-20］。關(guān)聯(lián)規(guī)則算法作為數(shù)據(jù)挖掘的重要算法之一，在農(nóng)業(yè)數(shù)據(jù)分析上同樣取得很好的成果。徐霖［21］將關(guān)聯(lián)規(guī)則算法應(yīng)用于土壤肥力評(píng)價(jià)系統(tǒng)中，計(jì)算分析得到土壤肥力與農(nóng)作物產(chǎn)量之間的關(guān)聯(lián)關(guān)系。Santosh 等［22］使用關(guān)聯(lián)規(guī)則中的Apriori 算法，開發(fā)出一套基于消費(fèi)者數(shù)據(jù)和生產(chǎn)者的農(nóng)業(yè)推薦系統(tǒng)，為農(nóng)業(yè)生產(chǎn)者購買生產(chǎn)資料提供推薦，降低生產(chǎn)風(fēng)險(xiǎn)；Hira 等［23］使用關(guān)聯(lián)規(guī)則算法建立多維模型，對(duì)農(nóng)業(yè)種植中的各農(nóng)業(yè)參數(shù)之間的關(guān)系進(jìn)行分析，最終得到多條關(guān)聯(lián)性較強(qiáng)的規(guī)則，為農(nóng)業(yè)種植提供指導(dǎo)作用；Niketa 等［24］發(fā)現(xiàn)多種關(guān)聯(lián)規(guī)則算法在農(nóng)業(yè)中的應(yīng)用，主要用于闡明不同氣候與作物生產(chǎn)之間的隱藏模式和關(guān)聯(lián)、農(nóng)業(yè)害蟲控制等；Inam 等［25］使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)多條水稻產(chǎn)量最高水平的強(qiáng)過濾關(guān)聯(lián)規(guī)則，對(duì)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行優(yōu)化，建立神經(jīng)網(wǎng)絡(luò)模型對(duì)水稻產(chǎn)量進(jìn)行預(yù)測(cè)?？梢?，對(duì)于農(nóng)業(yè)數(shù)據(jù)的分析，關(guān)聯(lián)規(guī)則法具有很強(qiáng)的可行性和優(yōu)越性。

【本研究切入點(diǎn)】從以上研究可以發(fā)現(xiàn)，線性回歸算法被廣泛應(yīng)用于產(chǎn)量預(yù)測(cè)模型構(gòu)建，模型將產(chǎn)量作為樣本輸出，通過輸入多個(gè)樣本特征對(duì)產(chǎn)量進(jìn)行預(yù)測(cè)。而關(guān)聯(lián)規(guī)則算法對(duì)農(nóng)業(yè)數(shù)據(jù)分析的應(yīng)用可以被用于選擇樣本特征，選擇關(guān)聯(lián)性較強(qiáng)的因素作為樣本特征，可以提高產(chǎn)量預(yù)測(cè)模型的準(zhǔn)確性。【擬解決的關(guān)鍵問題】構(gòu)建基于關(guān)聯(lián)規(guī)則和多元線性回歸的甘蔗產(chǎn)量預(yù)測(cè)模型，為云南甘蔗糖業(yè)的發(fā)展提供科學(xué)依據(jù)。

1 材料與方法

1.1 數(shù)據(jù)來源

本研究所用數(shù)據(jù)來自于云南統(tǒng)計(jì)年鑒中5 個(gè)甘蔗主產(chǎn)區(qū)（普洱、臨滄、文山、紅河、德宏）2008—2020 年的甘蔗產(chǎn)量、種植條件以及氣象條件數(shù)據(jù)，其中種植條件包括水庫數(shù)、氮肥用量、磷肥用量、鉀肥用量、復(fù)合肥用量、地膜使用量、甘蔗種植面積，氣象條件包括年均氣溫和年降水量。以2008—2018年的數(shù)據(jù)作為訓(xùn)練集，用于模型的訓(xùn)練；以2019—2020 年的數(shù)據(jù)作為測(cè)試集，用于測(cè)試模型精度，以紅河為例，具體原始數(shù)據(jù)見表1。

表1 云南紅河2008—2020 年甘蔗產(chǎn)量、種植條件及氣象數(shù)據(jù)Table 1 Sugarcane production,planting conditions and meteorological data in Honghe from 2008 to 2020

1.2 數(shù)據(jù)預(yù)處理

收集數(shù)據(jù)的過程中往往會(huì)出現(xiàn)數(shù)據(jù)缺失或臟數(shù)據(jù)的情況，如果不加以處理，將會(huì)影響最終預(yù)測(cè)模型的精度。云南統(tǒng)計(jì)年鑒缺少2008—2011 年各地州平均氣溫和年降水量的數(shù)據(jù)，出現(xiàn)數(shù)據(jù)缺失的情況。針對(duì)這種情況，本研究采用均值填充缺失值的預(yù)處理方法，即用2012—2018 年各地州平均氣溫和年降水量的數(shù)據(jù)取平均值對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)全，并對(duì)不同年份相同因素所使用的統(tǒng)計(jì)單位進(jìn)行統(tǒng)一化，保證訓(xùn)練集數(shù)據(jù)的精確度。

1.3 模型構(gòu)建

1.3.1 模型算法數(shù)據(jù)挖掘的意義在于從大量數(shù)據(jù)中通過算法搜索其中隱藏的信息，將有價(jià)值的信息總結(jié)為知識(shí)。數(shù)據(jù)挖掘的主要方法包括關(guān)聯(lián)規(guī)則、決策樹、線性回歸、神經(jīng)網(wǎng)絡(luò)等，本研究主要采用關(guān)聯(lián)規(guī)則和線性回歸構(gòu)建預(yù)測(cè)模型，具體算法則采用Apriori 和多元線性回歸算法。

Apriori 算法基于其簡(jiǎn)便性和可靠性，已經(jīng)成為關(guān)聯(lián)規(guī)則中使用范圍最廣的算法，被廣泛應(yīng)用于規(guī)則的挖掘和知識(shí)的發(fā)現(xiàn)。選用Apriori 算法可以對(duì)不同因素與甘蔗產(chǎn)量的關(guān)聯(lián)性進(jìn)行分析，從中找出甘蔗產(chǎn)量的強(qiáng)關(guān)聯(lián)因素，由于在模型的實(shí)際構(gòu)建中，弱關(guān)聯(lián)因素和無關(guān)聯(lián)因素會(huì)導(dǎo)致模型的精度下降和關(guān)聯(lián)性降低，因此保留強(qiáng)關(guān)聯(lián)因素作為構(gòu)建預(yù)測(cè)模型的樣本特征，同時(shí)舍棄弱關(guān)聯(lián)和無關(guān)聯(lián)因素。

多元線性回歸算法是當(dāng)前使用最為廣泛的線性回歸算法之一，該算法在產(chǎn)量預(yù)測(cè)中應(yīng)用十分廣泛。多元線性回歸算法可以表示多個(gè)樣本特征與樣本輸出之間的線性關(guān)系，其一般形式表示為：

式中，y為樣本輸出，x1，x2,……xn為n個(gè)樣本特征，β0為常數(shù)，β1，β2,……βn為回歸系數(shù)。

多元線性回歸算法可以通過輸入多個(gè)樣本特征得到相應(yīng)的樣本輸出，從而達(dá)到預(yù)測(cè)目的，因此采用多元線性回歸算法構(gòu)建產(chǎn)量預(yù)測(cè)模型。在得到甘蔗產(chǎn)量的強(qiáng)關(guān)聯(lián)因素后，以甘蔗產(chǎn)量的強(qiáng)關(guān)聯(lián)因素作為多元線性回歸的樣本特征，構(gòu)建多元線性回歸模型。

1.3.2 甘蔗產(chǎn)量影響因素分析由于Apriori 算法需要的數(shù)據(jù)格式是二元的，所以首先需要對(duì)數(shù)據(jù)進(jìn)行二元化處理，轉(zhuǎn)化為Apriori 算法需要的數(shù)據(jù)格式。數(shù)據(jù)處理方法為分別將每個(gè)地區(qū)2008—2017 年的數(shù) 據(jù)轉(zhuǎn)化為10×10 階的矩陣S1，2009—2018 年的數(shù)據(jù)以同樣的方式轉(zhuǎn)化為10×10階的矩陣S2，將S2與S1進(jìn)行比較，對(duì)應(yīng)位置的數(shù)據(jù)同比上升的記錄為1，同比未上升的記錄為0，轉(zhuǎn)化結(jié)果為新的10×10 階矩陣S3。以臨滄市的甘蔗種植條件、氣象條件數(shù)據(jù)及甘蔗產(chǎn)量數(shù)據(jù)為例，具體轉(zhuǎn)化過程如圖1 所示。

圖1 矩陣轉(zhuǎn)化過程Fig.1 Matrix transformation process

在得到每個(gè)地區(qū)的S3后，將所有5 個(gè)地區(qū)的S3合并為一個(gè)50×10 階矩陣，記作S4，使用Apriori 算法對(duì)S4進(jìn)行分析，計(jì)算每個(gè)影響因素對(duì)甘蔗產(chǎn)量的支持度、置信度、提升度，結(jié)果如表2 所示。

1.3.3 多元線性回歸預(yù)測(cè)模型構(gòu)建關(guān)聯(lián)規(guī)則是形如A=＞B 的蘊(yùn)含式，其中A 稱為規(guī)則前件，B稱為規(guī)則后件。通常用支持度和置信度作為關(guān)聯(lián)規(guī)則的價(jià)值度量，其中支持度反映A 與B 同時(shí)出現(xiàn)的概率，揭示規(guī)則的有用性；置信度反映A 出現(xiàn)時(shí)B 也出現(xiàn)的可能性大小，揭示規(guī)則的可靠性。同時(shí)滿足最小支持度閾值（min_sup）和最小置信度閾值（min_conf）的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則，本研究設(shè)置min_sup=0.4、min_conf=0.5。由表2 可知，包括種植因素和氣候因素在內(nèi)，甘蔗產(chǎn)量的影響因素共有9 個(gè)，其中年均氣溫與年降水量?jī)蓚€(gè)因素對(duì)甘蔗產(chǎn)量的支持度和置信度分別小于0.4 和0.5，因此年均氣溫與年降水量?jī)蓚€(gè)因素對(duì)于甘蔗產(chǎn)量而言是弱關(guān)聯(lián)因素。

表2 各影響因素關(guān)聯(lián)規(guī)則計(jì)算結(jié)果Table 2 Association rule calculation results of various influencing factors

此外，考慮到置信度忽略了規(guī)則后件中項(xiàng)集的支持度，引入規(guī)則的提升度有助于解決這個(gè)問題。規(guī)則的提升度可以有效判斷規(guī)則是否有實(shí)際價(jià)值，如果A=＞B 的提升度大于1，則說明A 和B 正相關(guān)。表1 中水庫數(shù)、復(fù)合肥用量?jī)蓚€(gè)因素對(duì)甘蔗產(chǎn)量的提升度小于1，這兩個(gè)因素也作為弱關(guān)聯(lián)因素。

根據(jù)上述數(shù)據(jù)分析，基于關(guān)聯(lián)規(guī)則方法，將甘蔗產(chǎn)量的影響因素由9 個(gè)縮減為5 個(gè)，使用氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積5 個(gè)與甘蔗產(chǎn)量正相關(guān)的強(qiáng)關(guān)聯(lián)因素作為多元線性回歸模型的樣本特征，構(gòu)建多元線性回歸模型，具體模型如下式所示：

式中，y為甘蔗產(chǎn)量，x1，x2，……x5分別為氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積，β0為常數(shù)項(xiàng)，β1，β2，……β5分別為對(duì)應(yīng)樣本特征的回歸系數(shù)。將5 個(gè)樣本特征的訓(xùn)練集數(shù)據(jù)代入模型進(jìn)行訓(xùn)練，可以得到不同地區(qū)預(yù)測(cè)模型的回歸系數(shù)和β0，以回歸系數(shù)和β0構(gòu)建多元線性回歸模型，作為最終的甘蔗產(chǎn)量預(yù)測(cè)模型。

2 結(jié)果與分析

2.1 模型構(gòu)建結(jié)果

將Apriori 算法分析出的5 個(gè)強(qiáng)關(guān)聯(lián)因素作為樣本特征，并設(shè)置甘蔗產(chǎn)量為目標(biāo)變量（樣本輸出），可以得到云南省各地州的多元線性回歸預(yù)測(cè)模型。通過代入回歸系數(shù)及β0，各地州甘蔗產(chǎn)量預(yù)測(cè)模型如表3 所示。

表3 甘蔗產(chǎn)量預(yù)測(cè)模型Table 3 Prediction model of sugarcane yield

2.2 模型測(cè)試與評(píng)判

R2是評(píng)判多元線性回歸模型的重要標(biāo)準(zhǔn)之一，在多元線性回歸模型中，R2代表著多元線性回歸模型的擬合程度，R2越接近1，模型的擬合程度越好。此外，平均誤差也是評(píng)判模型精準(zhǔn)度的重要指標(biāo)，將測(cè)試集數(shù)據(jù)代入各地州甘蔗產(chǎn)量預(yù)測(cè)模型后，可以計(jì)算出預(yù)測(cè)模型的平均誤差。由表4 可知，各地州甘蔗產(chǎn)量預(yù)測(cè)模型的平均誤差處于2.1%～8.6%之間，R2處于0.857～0.997 之間，表明各地州甘蔗產(chǎn)量預(yù)測(cè)模型的平均誤差較小、擬合程度較好，該模型具有較好的參考性和研究?jī)r(jià)值。

表4 甘蔗產(chǎn)量預(yù)測(cè)模型平均誤差及R2Table 4 Average error and R2 of prediction model of sugarcane yield

2.3 模型對(duì)比

BP 神經(jīng)網(wǎng)絡(luò)模型作為產(chǎn)量預(yù)測(cè)領(lǐng)域使用最為廣泛的模型，在產(chǎn)量預(yù)測(cè)方面有許多應(yīng)用，通過與其對(duì)比可以說明基于關(guān)聯(lián)規(guī)則的多元線性回歸模型在預(yù)測(cè)精度上的優(yōu)劣勢(shì)，分別構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)模型和多元線性回歸模型，代入測(cè)試集數(shù)據(jù)對(duì)甘蔗產(chǎn)量進(jìn)行預(yù)測(cè)用于計(jì)算平均誤差，并將兩種預(yù)測(cè)模型的平均誤差與基于關(guān)聯(lián)規(guī)則的多元線性回歸模型的平均誤差進(jìn)行對(duì)比分析。取9 個(gè)樣本特征，代入訓(xùn)練集數(shù)據(jù)構(gòu)建兩種預(yù)測(cè)模型，并分別對(duì)兩種預(yù)測(cè)模型依次代入測(cè)試集數(shù)據(jù)進(jìn)行驗(yàn)證。

在使用相同樣本特征的情況下，基于關(guān)聯(lián)規(guī)則的多元線性回歸模型的平均誤差在2.1%～8.6%之間，而多元線性回歸模型的平均誤差在10.7%～32.2%之間，BP 神經(jīng)網(wǎng)絡(luò)模型的平均誤差則在8.4%～29.6%之間，具體對(duì)比結(jié)果如表5 所示。

表5 各模型平均誤差對(duì)比Table 5 Comparison of average errors of various models

3 實(shí)證分析

為驗(yàn)證模型的可靠性與實(shí)用性，將2019 年云南省5 個(gè)甘蔗主產(chǎn)區(qū)（普洱、臨滄、文山、紅河、德宏）的甘蔗種植條件數(shù)據(jù)以及氣象條件數(shù)據(jù)代入模型，獲得模型的預(yù)測(cè)產(chǎn)量，并與實(shí)際的甘蔗產(chǎn)量數(shù)據(jù)進(jìn)行對(duì)比，計(jì)算相對(duì)誤差，結(jié)果（表6）表明，模型預(yù)測(cè)產(chǎn)量和實(shí)際的甘蔗產(chǎn)量較為接近，相對(duì)誤差較小，具有較強(qiáng)的可靠性和實(shí)用性。

表6 各地區(qū)2019 年模型預(yù)測(cè)產(chǎn)量與實(shí)際產(chǎn)量及相對(duì)誤差Table 6 Relative error between predicted output of model and actual output of each region in 2019

4 討論

得益于數(shù)據(jù)挖掘和人工智能技術(shù)的蓬勃發(fā)展，農(nóng)業(yè)生產(chǎn)中產(chǎn)生的大量數(shù)據(jù)得到充分的挖掘和利用，以產(chǎn)量預(yù)測(cè)為例，其中獲得的知識(shí)被反作用于農(nóng)業(yè)生產(chǎn)，讓農(nóng)業(yè)生產(chǎn)逐步邁入數(shù)據(jù)時(shí)代。前人研究表明，在目前國(guó)內(nèi)外產(chǎn)量預(yù)測(cè)領(lǐng)域，線性回歸、BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Cart 回歸樹等算法具有大量的應(yīng)用成果。但隨著樣本特征的增加和種植環(huán)境的復(fù)雜化，產(chǎn)量預(yù)測(cè)模型的擬合度會(huì)出現(xiàn)下降趨勢(shì)，Niazian 等［26］使用多元線性回歸算法構(gòu)建預(yù)測(cè)模型，對(duì)阿朱萬種子產(chǎn)量進(jìn)行預(yù)測(cè)，其模型訓(xùn)練集R2為0.81、測(cè)試集R2為0.79。Abdipoura 等［27］使用多元線性回歸算法對(duì)紅花種子產(chǎn)量進(jìn)行預(yù)測(cè)，其模型訓(xùn)練集R2=0.71、測(cè)試集R2=0.686。針對(duì)這種情況，許多學(xué)者采用優(yōu)化算法對(duì)基礎(chǔ)模型進(jìn)行優(yōu)化從而提高模型的準(zhǔn)確率，如遺傳算法、IPSO 算法對(duì)BP 神經(jīng)網(wǎng)絡(luò)的優(yōu)化，PSO 算法和SAFA 算法對(duì)SVM 的優(yōu)化，均大大提高了模型的準(zhǔn)確率和擬合度。本研究基于前人優(yōu)化模型理念，利用關(guān)聯(lián)規(guī)則算法對(duì)樣本特征和樣本輸出之間的關(guān)聯(lián)性進(jìn)行分析，篩選出強(qiáng)關(guān)聯(lián)的樣本特征，對(duì)多元線性回歸算法進(jìn)行優(yōu)化，降低復(fù)雜環(huán)境和多個(gè)樣本特征對(duì)多元線性回歸算法的影響，在相同條件下提高了多元線性回歸算法的準(zhǔn)確率和擬合度。

與其他類型的產(chǎn)量預(yù)測(cè)模型類似，本研究所提出的甘蔗產(chǎn)量預(yù)測(cè)模型在地域和時(shí)效上存在一定的局限性。對(duì)云南省甘蔗主產(chǎn)區(qū)以外的地區(qū)，模型的準(zhǔn)確率和擬合度不能得到保證，而且隨著時(shí)間的推移和種植數(shù)據(jù)的不斷增加，模型的準(zhǔn)確率也會(huì)發(fā)生變化。為獲取更精準(zhǔn)的預(yù)測(cè)效果，需要考慮將未來產(chǎn)生的甘蔗產(chǎn)量數(shù)據(jù)、種植條件數(shù)據(jù)以及氣象條件數(shù)據(jù)加入訓(xùn)練集，對(duì)模型進(jìn)行更新訓(xùn)練，保證模型的可靠性與時(shí)效性。

5 結(jié)論

本研究構(gòu)建基于關(guān)聯(lián)規(guī)則算法的多元線性回歸模型，根據(jù)測(cè)試集的測(cè)試結(jié)果可以看出，該模型精度在91%～97%之間，R2在0.857～0.997，表明基于關(guān)聯(lián)規(guī)則的多元線性回歸模型具有較高的預(yù)測(cè)精度和擬合度，預(yù)測(cè)結(jié)果較為準(zhǔn)確，為甘蔗產(chǎn)量預(yù)測(cè)模型提供了新的方法。由于使用的數(shù)據(jù)集皆為云南統(tǒng)計(jì)年鑒的真實(shí)數(shù)據(jù)，因此該模型具有一定的應(yīng)用價(jià)值，可以被用于云南省的甘蔗產(chǎn)量研究。同時(shí)，該模型表明關(guān)聯(lián)規(guī)則算法對(duì)多元線性回歸算法的改進(jìn)作用，可為后續(xù)的產(chǎn)量預(yù)測(cè)模型提供新的改進(jìn)思路。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡