劉振洋,趙家松,胡仁傑,劉笠溶
(云南農(nóng)業(yè)大學(xué)大數(shù)據(jù)學(xué)院,云南 昆明 650201)
【研究意義】甘蔗產(chǎn)業(yè)是云南省特色產(chǎn)業(yè)之一,更是扶貧產(chǎn)業(yè)之一,云南甘蔗種植面積、產(chǎn)量和產(chǎn)糖量均居全國(guó)第二位,僅次于廣西,云南省16 個(gè)地州中有10 個(gè)地州產(chǎn)糖,主要集中在臨滄、德宏、保山、普洱、文山、西雙版納、玉溪、紅河8 個(gè)地州、市、縣,全省129 個(gè)縣(市)中有52 個(gè)縣(市、區(qū))種植甘蔗,多為沿邊少數(shù)民族地區(qū)。對(duì)云南省甘蔗產(chǎn)量的研究既有助于云南省特色產(chǎn)業(yè)的發(fā)展,也可對(duì)邊區(qū)經(jīng)濟(jì)發(fā)展起到推動(dòng)作用[1]。產(chǎn)量預(yù)測(cè)模型是當(dāng)前產(chǎn)量研究的重要方法之一,通過預(yù)測(cè)農(nóng)作物的產(chǎn)量,有助于農(nóng)作物的種植規(guī)劃和市場(chǎng)調(diào)控。目前主要的產(chǎn)量預(yù)測(cè)模型有BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Cart 回歸樹、線性回歸等,這些模型在產(chǎn)量預(yù)測(cè)方面的應(yīng)用均較為成熟。
【前人研究進(jìn)展】BP 神經(jīng)網(wǎng)絡(luò)模型在產(chǎn)量預(yù)測(cè)方向的使用最為廣泛。彭秋連等[2]、許鑫等[3]將BP 神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于農(nóng)作物產(chǎn)量預(yù)測(cè)上,其相對(duì)誤差始終維持較低水平;李修華等[4]使用遺傳算法對(duì)BP 神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),創(chuàng)新性地采用基于遺傳算法的BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)甘蔗產(chǎn)量進(jìn)行預(yù)測(cè),其相對(duì)誤差和決定系數(shù)相對(duì)于BP神經(jīng)網(wǎng)絡(luò)模型,都有了較大改進(jìn)。此外,胡程磊等[5]、張浩等[6]提出基于BP 神經(jīng)網(wǎng)絡(luò)的IPSO-BP 神經(jīng)網(wǎng)絡(luò)模型和AIGA-BP 神經(jīng)網(wǎng)絡(luò)模型,在糧食產(chǎn)量預(yù)測(cè)方向上的預(yù)測(cè)精度維持在一個(gè)較高水平,對(duì)比BP 神經(jīng)網(wǎng)絡(luò)模型也有極大的提升。
支持向量機(jī)作為當(dāng)前機(jī)器學(xué)習(xí)的主流算法,也被大量應(yīng)用于產(chǎn)量預(yù)測(cè)研究,段東瑤等[7]將SVM 模型使用于綠茶加工含水量變化預(yù)測(cè),模型預(yù)測(cè)精度較高,擬合度較好,具有很強(qiáng)的參考價(jià)值;趙桂芝等[8]、施瑤等[9]提出基于PSO 算法優(yōu)化的SVM 模型和基于SAFA 算法優(yōu)化的LSSVM模型,為糧食產(chǎn)量預(yù)測(cè)提供了新的途徑。Cart 回歸樹作為數(shù)據(jù)挖掘的經(jīng)典算法,也可以被用于產(chǎn)量預(yù)測(cè)方向,陳湘芳等[10]使用Cart 回歸樹對(duì)黃瓜產(chǎn)量進(jìn)行預(yù)測(cè),預(yù)測(cè)模型的誤差較小且具有良好的準(zhǔn)確性。灰色模型也被常用于產(chǎn)量預(yù)測(cè),余永松等[11]、張永強(qiáng)等[12]使用灰色模型對(duì)蔬菜和花生產(chǎn)量進(jìn)行預(yù)測(cè),其模型收斂速度較快且相對(duì)誤差較?。粏趟缮旱龋?3]還將馬爾科夫鏈用于提高灰色模型的精度,對(duì)肉類產(chǎn)量進(jìn)行了很好的預(yù)測(cè)。
基于其簡(jiǎn)潔和穩(wěn)定的特點(diǎn),線性回歸也是產(chǎn)量預(yù)測(cè)方面使用較為廣泛的算法之一。研究表明,將多元線性回歸算法用于國(guó)內(nèi)外多種農(nóng)作物的產(chǎn)量預(yù)測(cè),利用多元線性回歸算法構(gòu)建的模型在經(jīng)濟(jì)作物和糧食作物的產(chǎn)量預(yù)測(cè)上,都保持較低的誤差和較高的擬合度,證明了線性回歸算法在產(chǎn)量預(yù)測(cè)領(lǐng)域的可行性和實(shí)用性[14-20]。關(guān)聯(lián)規(guī)則算法作為數(shù)據(jù)挖掘的重要算法之一,在農(nóng)業(yè)數(shù)據(jù)分析上同樣取得很好的成果。徐霖[21]將關(guān)聯(lián)規(guī)則算法應(yīng)用于土壤肥力評(píng)價(jià)系統(tǒng)中,計(jì)算分析得到土壤肥力與農(nóng)作物產(chǎn)量之間的關(guān)聯(lián)關(guān)系。Santosh 等[22]使用關(guān)聯(lián)規(guī)則中的Apriori 算法,開發(fā)出一套基于消費(fèi)者數(shù)據(jù)和生產(chǎn)者的農(nóng)業(yè)推薦系統(tǒng),為農(nóng)業(yè)生產(chǎn)者購買生產(chǎn)資料提供推薦,降低生產(chǎn)風(fēng)險(xiǎn);Hira 等[23]使用關(guān)聯(lián)規(guī)則算法建立多維模型,對(duì)農(nóng)業(yè)種植中的各農(nóng)業(yè)參數(shù)之間的關(guān)系進(jìn)行分析,最終得到多條關(guān)聯(lián)性較強(qiáng)的規(guī)則,為農(nóng)業(yè)種植提供指導(dǎo)作用;Niketa 等[24]發(fā)現(xiàn)多種關(guān)聯(lián)規(guī)則算法在農(nóng)業(yè)中的應(yīng)用,主要用于闡明不同氣候與作物生產(chǎn)之間的隱藏模式和關(guān)聯(lián)、農(nóng)業(yè)害蟲控制等;Inam 等[25]使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)多條水稻產(chǎn)量最高水平的強(qiáng)過濾關(guān)聯(lián)規(guī)則,對(duì)神經(jīng)網(wǎng)絡(luò)算法進(jìn)行優(yōu)化,建立神經(jīng)網(wǎng)絡(luò)模型對(duì)水稻產(chǎn)量進(jìn)行預(yù)測(cè)??梢?,對(duì)于農(nóng)業(yè)數(shù)據(jù)的分析,關(guān)聯(lián)規(guī)則法具有很強(qiáng)的可行性和優(yōu)越性。
【本研究切入點(diǎn)】從以上研究可以發(fā)現(xiàn),線性回歸算法被廣泛應(yīng)用于產(chǎn)量預(yù)測(cè)模型構(gòu)建,模型將產(chǎn)量作為樣本輸出,通過輸入多個(gè)樣本特征對(duì)產(chǎn)量進(jìn)行預(yù)測(cè)。而關(guān)聯(lián)規(guī)則算法對(duì)農(nóng)業(yè)數(shù)據(jù)分析的應(yīng)用可以被用于選擇樣本特征,選擇關(guān)聯(lián)性較強(qiáng)的因素作為樣本特征,可以提高產(chǎn)量預(yù)測(cè)模型的準(zhǔn)確性。【擬解決的關(guān)鍵問題】構(gòu)建基于關(guān)聯(lián)規(guī)則和多元線性回歸的甘蔗產(chǎn)量預(yù)測(cè)模型,為云南甘蔗糖業(yè)的發(fā)展提供科學(xué)依據(jù)。
本研究所用數(shù)據(jù)來自于云南統(tǒng)計(jì)年鑒中5 個(gè)甘蔗主產(chǎn)區(qū)(普洱、臨滄、文山、紅河、德宏)2008—2020 年的甘蔗產(chǎn)量、種植條件以及氣象條件數(shù)據(jù),其中種植條件包括水庫數(shù)、氮肥用量、磷肥用量、鉀肥用量、復(fù)合肥用量、地膜使用量、甘蔗種植面積,氣象條件包括年均氣溫和年降水量。以2008—2018年的數(shù)據(jù)作為訓(xùn)練集,用于模型的訓(xùn)練;以2019—2020 年的數(shù)據(jù)作為測(cè)試集,用于測(cè)試模型精度,以紅河為例,具體原始數(shù)據(jù)見表1。
表1 云南紅河2008—2020 年甘蔗產(chǎn)量、種植條件及氣象數(shù)據(jù)Table 1 Sugarcane production,planting conditions and meteorological data in Honghe from 2008 to 2020
收集數(shù)據(jù)的過程中往往會(huì)出現(xiàn)數(shù)據(jù)缺失或臟數(shù)據(jù)的情況,如果不加以處理,將會(huì)影響最終預(yù)測(cè)模型的精度。云南統(tǒng)計(jì)年鑒缺少2008—2011 年各地州平均氣溫和年降水量的數(shù)據(jù),出現(xiàn)數(shù)據(jù)缺失的情況。針對(duì)這種情況,本研究采用均值填充缺失值的預(yù)處理方法,即用2012—2018 年各地州平均氣溫和年降水量的數(shù)據(jù)取平均值對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)全,并對(duì)不同年份相同因素所使用的統(tǒng)計(jì)單位進(jìn)行統(tǒng)一化,保證訓(xùn)練集數(shù)據(jù)的精確度。
1.3.1 模型算法 數(shù)據(jù)挖掘的意義在于從大量數(shù)據(jù)中通過算法搜索其中隱藏的信息,將有價(jià)值的信息總結(jié)為知識(shí)。數(shù)據(jù)挖掘的主要方法包括關(guān)聯(lián)規(guī)則、決策樹、線性回歸、神經(jīng)網(wǎng)絡(luò)等,本研究主要采用關(guān)聯(lián)規(guī)則和線性回歸構(gòu)建預(yù)測(cè)模型,具體算法則采用Apriori 和多元線性回歸算法。
Apriori 算法基于其簡(jiǎn)便性和可靠性,已經(jīng)成為關(guān)聯(lián)規(guī)則中使用范圍最廣的算法,被廣泛應(yīng)用于規(guī)則的挖掘和知識(shí)的發(fā)現(xiàn)。選用Apriori 算法可以對(duì)不同因素與甘蔗產(chǎn)量的關(guān)聯(lián)性進(jìn)行分析,從中找出甘蔗產(chǎn)量的強(qiáng)關(guān)聯(lián)因素,由于在模型的實(shí)際構(gòu)建中,弱關(guān)聯(lián)因素和無關(guān)聯(lián)因素會(huì)導(dǎo)致模型的精度下降和關(guān)聯(lián)性降低,因此保留強(qiáng)關(guān)聯(lián)因素作為構(gòu)建預(yù)測(cè)模型的樣本特征,同時(shí)舍棄弱關(guān)聯(lián)和無關(guān)聯(lián)因素。
多元線性回歸算法是當(dāng)前使用最為廣泛的線性回歸算法之一,該算法在產(chǎn)量預(yù)測(cè)中應(yīng)用十分廣泛。多元線性回歸算法可以表示多個(gè)樣本特征與樣本輸出之間的線性關(guān)系,其一般形式表示為:
式中,y為樣本輸出,x1,x2,……xn為n個(gè)樣本特征,β0為常數(shù),β1,β2,……βn為回歸系數(shù)。
多元線性回歸算法可以通過輸入多個(gè)樣本特征得到相應(yīng)的樣本輸出,從而達(dá)到預(yù)測(cè)目的,因此采用多元線性回歸算法構(gòu)建產(chǎn)量預(yù)測(cè)模型。在得到甘蔗產(chǎn)量的強(qiáng)關(guān)聯(lián)因素后,以甘蔗產(chǎn)量的強(qiáng)關(guān)聯(lián)因素作為多元線性回歸的樣本特征,構(gòu)建多元線性回歸模型。
1.3.2 甘蔗產(chǎn)量影響因素分析 由于Apriori 算法需要的數(shù)據(jù)格式是二元的,所以首先需要對(duì)數(shù)據(jù)進(jìn)行二元化處理,轉(zhuǎn)化為Apriori 算法需要的數(shù)據(jù)格式。數(shù)據(jù)處理方法為分別將每個(gè)地區(qū)2008—2017 年的數(shù) 據(jù)轉(zhuǎn)化 為10×10 階的矩 陣S1,2009—2018 年的數(shù)據(jù)以同樣的方式轉(zhuǎn)化為10×10階的矩陣S2,將S2與S1進(jìn)行比較,對(duì)應(yīng)位置的數(shù)據(jù)同比上升的記錄為1,同比未上升的記錄為0,轉(zhuǎn)化結(jié)果為新的10×10 階矩陣S3。以臨滄市的甘蔗種植條件、氣象條件數(shù)據(jù)及甘蔗產(chǎn)量數(shù)據(jù)為例,具體轉(zhuǎn)化過程如圖1 所示。
圖1 矩陣轉(zhuǎn)化過程Fig.1 Matrix transformation process
在得到每個(gè)地區(qū)的S3后,將所有5 個(gè)地區(qū)的S3合并為一個(gè)50×10 階矩陣,記作S4,使用Apriori 算法對(duì)S4進(jìn)行分析,計(jì)算每個(gè)影響因素對(duì)甘蔗產(chǎn)量的支持度、置信度、提升度,結(jié)果如表2 所示。
1.3.3 多元線性回歸預(yù)測(cè)模型構(gòu)建 關(guān)聯(lián)規(guī)則是形如A=>B 的蘊(yùn)含式,其中A 稱為規(guī)則前件,B稱為規(guī)則后件。通常用支持度和置信度作為關(guān)聯(lián)規(guī)則的價(jià)值度量,其中支持度反映A 與B 同時(shí)出現(xiàn)的概率,揭示規(guī)則的有用性;置信度反映A 出現(xiàn)時(shí)B 也出現(xiàn)的可能性大小,揭示規(guī)則的可靠性。同時(shí)滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱為強(qiáng)關(guān)聯(lián)規(guī)則,本研究設(shè)置min_sup=0.4、min_conf=0.5。由表2 可知,包括種植因素和氣候因素在內(nèi),甘蔗產(chǎn)量的影響因素共有9 個(gè),其中年均氣溫與年降水量?jī)蓚€(gè)因素對(duì)甘蔗產(chǎn)量的支持度和置信度分別小于0.4 和0.5,因此年均氣溫與年降水量?jī)蓚€(gè)因素對(duì)于甘蔗產(chǎn)量而言是弱關(guān)聯(lián)因素。
表2 各影響因素關(guān)聯(lián)規(guī)則計(jì)算結(jié)果Table 2 Association rule calculation results of various influencing factors
此外,考慮到置信度忽略了規(guī)則后件中項(xiàng)集的支持度,引入規(guī)則的提升度有助于解決這個(gè)問題。規(guī)則的提升度可以有效判斷規(guī)則是否有實(shí)際價(jià)值,如果A=>B 的提升度大于1,則說明A 和B 正相關(guān)。表1 中水庫數(shù)、復(fù)合肥用量?jī)蓚€(gè)因素對(duì)甘蔗產(chǎn)量的提升度小于1,這兩個(gè)因素也作為弱關(guān)聯(lián)因素。
根據(jù)上述數(shù)據(jù)分析,基于關(guān)聯(lián)規(guī)則方法,將甘蔗產(chǎn)量的影響因素由9 個(gè)縮減為5 個(gè),使用氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積5 個(gè)與甘蔗產(chǎn)量正相關(guān)的強(qiáng)關(guān)聯(lián)因素作為多元線性回歸模型的樣本特征,構(gòu)建多元線性回歸模型,具體模型如下式所示:
式中,y為甘蔗產(chǎn)量,x1,x2,……x5分別為氮肥用量、磷肥用量、鉀肥用量、地膜使用量、甘蔗種植面積,β0為常數(shù)項(xiàng),β1,β2,……β5分別為對(duì)應(yīng)樣本特征的回歸系數(shù)。將5 個(gè)樣本特征的訓(xùn)練集數(shù)據(jù)代入模型進(jìn)行訓(xùn)練,可以得到不同地區(qū)預(yù)測(cè)模型的回歸系數(shù)和β0,以回歸系數(shù)和β0構(gòu)建多元線性回歸模型,作為最終的甘蔗產(chǎn)量預(yù)測(cè)模型。
將Apriori 算法分析出的5 個(gè)強(qiáng)關(guān)聯(lián)因素作為樣本特征,并設(shè)置甘蔗產(chǎn)量為目標(biāo)變量(樣本輸出),可以得到云南省各地州的多元線性回歸預(yù)測(cè)模型。通過代入回歸系數(shù)及β0,各地州甘蔗產(chǎn)量預(yù)測(cè)模型如表3 所示。
表3 甘蔗產(chǎn)量預(yù)測(cè)模型Table 3 Prediction model of sugarcane yield
R2是評(píng)判多元線性回歸模型的重要標(biāo)準(zhǔn)之一,在多元線性回歸模型中,R2代表著多元線性回歸模型的擬合程度,R2越接近1,模型的擬合程度越好。此外,平均誤差也是評(píng)判模型精準(zhǔn)度的重要指標(biāo),將測(cè)試集數(shù)據(jù)代入各地州甘蔗產(chǎn)量預(yù)測(cè)模型后,可以計(jì)算出預(yù)測(cè)模型的平均誤差。由表4 可知,各地州甘蔗產(chǎn)量預(yù)測(cè)模型的平均誤差處于2.1%~8.6%之間,R2處于0.857~0.997 之間,表明各地州甘蔗產(chǎn)量預(yù)測(cè)模型的平均誤差較小、擬合程度較好,該模型具有較好的參考性和研究?jī)r(jià)值。
表4 甘蔗產(chǎn)量預(yù)測(cè)模型平均誤差及R2Table 4 Average error and R2 of prediction model of sugarcane yield
BP 神經(jīng)網(wǎng)絡(luò)模型作為產(chǎn)量預(yù)測(cè)領(lǐng)域使用最為廣泛的模型,在產(chǎn)量預(yù)測(cè)方面有許多應(yīng)用,通過與其對(duì)比可以說明基于關(guān)聯(lián)規(guī)則的多元線性回歸模型在預(yù)測(cè)精度上的優(yōu)劣勢(shì),分別構(gòu)建BP 神經(jīng)網(wǎng)絡(luò)模型和多元線性回歸模型,代入測(cè)試集數(shù)據(jù)對(duì)甘蔗產(chǎn)量進(jìn)行預(yù)測(cè)用于計(jì)算平均誤差,并將兩種預(yù)測(cè)模型的平均誤差與基于關(guān)聯(lián)規(guī)則的多元線性回歸模型的平均誤差進(jìn)行對(duì)比分析。取9 個(gè)樣本特征,代入訓(xùn)練集數(shù)據(jù)構(gòu)建兩種預(yù)測(cè)模型,并分別對(duì)兩種預(yù)測(cè)模型依次代入測(cè)試集數(shù)據(jù)進(jìn)行驗(yàn)證。
在使用相同樣本特征的情況下,基于關(guān)聯(lián)規(guī)則的多元線性回歸模型的平均誤差在2.1%~8.6%之間,而多元線性回歸模型的平均誤差在10.7%~32.2%之間,BP 神經(jīng)網(wǎng)絡(luò)模型的平均誤差則在8.4%~29.6%之間,具體對(duì)比結(jié)果如表5 所示。
表5 各模型平均誤差對(duì)比Table 5 Comparison of average errors of various models
為驗(yàn)證模型的可靠性與實(shí)用性,將2019 年云南省5 個(gè)甘蔗主產(chǎn)區(qū)(普洱、臨滄、文山、紅河、德宏)的甘蔗種植條件數(shù)據(jù)以及氣象條件數(shù)據(jù)代入模型,獲得模型的預(yù)測(cè)產(chǎn)量,并與實(shí)際的甘蔗產(chǎn)量數(shù)據(jù)進(jìn)行對(duì)比,計(jì)算相對(duì)誤差,結(jié)果(表6)表明,模型預(yù)測(cè)產(chǎn)量和實(shí)際的甘蔗產(chǎn)量較為接近,相對(duì)誤差較小,具有較強(qiáng)的可靠性和實(shí)用性。
表6 各地區(qū)2019 年模型預(yù)測(cè)產(chǎn)量與實(shí)際產(chǎn)量及相對(duì)誤差Table 6 Relative error between predicted output of model and actual output of each region in 2019
得益于數(shù)據(jù)挖掘和人工智能技術(shù)的蓬勃發(fā)展,農(nóng)業(yè)生產(chǎn)中產(chǎn)生的大量數(shù)據(jù)得到充分的挖掘和利用,以產(chǎn)量預(yù)測(cè)為例,其中獲得的知識(shí)被反作用于農(nóng)業(yè)生產(chǎn),讓農(nóng)業(yè)生產(chǎn)逐步邁入數(shù)據(jù)時(shí)代。前人研究表明,在目前國(guó)內(nèi)外產(chǎn)量預(yù)測(cè)領(lǐng)域,線性回歸、BP 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、Cart 回歸樹等算法具有大量的應(yīng)用成果。但隨著樣本特征的增加和種植環(huán)境的復(fù)雜化,產(chǎn)量預(yù)測(cè)模型的擬合度會(huì)出現(xiàn)下降趨勢(shì),Niazian 等[26]使用多元線性回歸算法構(gòu)建預(yù)測(cè)模型,對(duì)阿朱萬種子產(chǎn)量進(jìn)行預(yù)測(cè),其模型訓(xùn)練集R2為0.81、測(cè)試集R2為0.79。Abdipoura 等[27]使用多元線性回歸算法對(duì)紅花種子產(chǎn)量進(jìn)行預(yù)測(cè),其模型訓(xùn)練集R2=0.71、測(cè)試集R2=0.686。針對(duì)這種情況,許多學(xué)者采用優(yōu)化算法對(duì)基礎(chǔ)模型進(jìn)行優(yōu)化從而提高模型的準(zhǔn)確率,如遺傳算法、IPSO 算法對(duì)BP 神經(jīng)網(wǎng)絡(luò)的優(yōu)化,PSO 算法和SAFA 算法對(duì)SVM 的優(yōu)化,均大大提高了模型的準(zhǔn)確率和擬合度。本研究基于前人優(yōu)化模型理念,利用關(guān)聯(lián)規(guī)則算法對(duì)樣本特征和樣本輸出之間的關(guān)聯(lián)性進(jìn)行分析,篩選出強(qiáng)關(guān)聯(lián)的樣本特征,對(duì)多元線性回歸算法進(jìn)行優(yōu)化,降低復(fù)雜環(huán)境和多個(gè)樣本特征對(duì)多元線性回歸算法的影響,在相同條件下提高了多元線性回歸算法的準(zhǔn)確率和擬合度。
與其他類型的產(chǎn)量預(yù)測(cè)模型類似,本研究所提出的甘蔗產(chǎn)量預(yù)測(cè)模型在地域和時(shí)效上存在一定的局限性。對(duì)云南省甘蔗主產(chǎn)區(qū)以外的地區(qū),模型的準(zhǔn)確率和擬合度不能得到保證,而且隨著時(shí)間的推移和種植數(shù)據(jù)的不斷增加,模型的準(zhǔn)確率也會(huì)發(fā)生變化。為獲取更精準(zhǔn)的預(yù)測(cè)效果,需要考慮將未來產(chǎn)生的甘蔗產(chǎn)量數(shù)據(jù)、種植條件數(shù)據(jù)以及氣象條件數(shù)據(jù)加入訓(xùn)練集,對(duì)模型進(jìn)行更新訓(xùn)練,保證模型的可靠性與時(shí)效性。
本研究構(gòu)建基于關(guān)聯(lián)規(guī)則算法的多元線性回歸模型,根據(jù)測(cè)試集的測(cè)試結(jié)果可以看出,該模型精度在91%~97%之間,R2在0.857~0.997,表明基于關(guān)聯(lián)規(guī)則的多元線性回歸模型具有較高的預(yù)測(cè)精度和擬合度,預(yù)測(cè)結(jié)果較為準(zhǔn)確,為甘蔗產(chǎn)量預(yù)測(cè)模型提供了新的方法。由于使用的數(shù)據(jù)集皆為云南統(tǒng)計(jì)年鑒的真實(shí)數(shù)據(jù),因此該模型具有一定的應(yīng)用價(jià)值,可以被用于云南省的甘蔗產(chǎn)量研究。同時(shí),該模型表明關(guān)聯(lián)規(guī)則算法對(duì)多元線性回歸算法的改進(jìn)作用,可為后續(xù)的產(chǎn)量預(yù)測(cè)模型提供新的改進(jìn)思路。