国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CatBoost 算法的藍(lán)莓生態(tài)適宜性評(píng)估模型*

2023-05-12 02:26:30昌文峰
關(guān)鍵詞:麻江縣藍(lán)莓特征

昌文峰 王 霄 楊 靖 覃 濤

(貴州大學(xué)電氣工程學(xué)院 貴陽 550025)

1 引言

藍(lán)莓又名越桔、越橘、藍(lán)漿果,是杜鵑花科、越橘屬植物,營(yíng)養(yǎng)價(jià)值極高,因此也被譽(yù)為“水果皇后”。藍(lán)莓在消費(fèi)市場(chǎng)深受大眾的喜歡[1~3],藍(lán)莓產(chǎn)業(yè)帶來的經(jīng)濟(jì)效益使得越來越多的國(guó)家和地區(qū)開始大規(guī)模種植藍(lán)莓,而藍(lán)莓的生態(tài)適宜性也直接關(guān)乎藍(lán)莓果實(shí)的品質(zhì)和產(chǎn)量[4~7]。因此,對(duì)藍(lán)莓的生態(tài)適宜性進(jìn)行評(píng)估,合理地選取藍(lán)莓種植區(qū)域,對(duì)提升藍(lán)莓果實(shí)品質(zhì)及產(chǎn)量、提高藍(lán)莓產(chǎn)業(yè)經(jīng)濟(jì)效益具有重要意義。

近年來,國(guó)內(nèi)外對(duì)藍(lán)莓生態(tài)適宜性的研究也越來越多。曹春根等[8]利用數(shù)理統(tǒng)計(jì)方法,在浙江省西南部地區(qū)調(diào)查種植在不同地點(diǎn)、不同海拔、不同土壤類別中的藍(lán)莓樹體生長(zhǎng)量和果實(shí)性狀產(chǎn)量等,分析了藍(lán)莓在其山地種植的適宜性。董麗等[9]利用已提取數(shù)據(jù)組定量化擬合土壤pH變化對(duì)不同品種藍(lán)莓樹體生長(zhǎng)的影響差異。秦公偉等[10]利用判斷矩陣法、線性加權(quán)求和法和層次聚類分析法對(duì)陜西省藍(lán)莓生長(zhǎng)的潛在適生區(qū)進(jìn)行了劃分研究。茍?bào)w忠等[11]采用地累積指數(shù)法和內(nèi)梅羅污染指數(shù)法等方法對(duì)貴州省麻江縣藍(lán)莓種植基地土壤重金屬元素富集程度和潛在生態(tài)風(fēng)險(xiǎn)進(jìn)行了評(píng)價(jià)。莫建國(guó)等[12]采用相關(guān)分析法分析了不同生育期氣象條件對(duì)藍(lán)莓品質(zhì)形成的影響。Vera 等[13]確定了在智利南部的一個(gè)農(nóng)場(chǎng)建立和管理高叢藍(lán)莓作物的農(nóng)場(chǎng)領(lǐng)土單位,制定了一個(gè)農(nóng)場(chǎng)級(jí)別的特征,并根據(jù)其接受能力對(duì)地區(qū)和地點(diǎn)進(jìn)行了藍(lán)莓生態(tài)適宜性分類。眾多的藍(lán)莓生態(tài)適宜性的研究都是傳統(tǒng)數(shù)理統(tǒng)計(jì)方法和決策方法,該類方法具有主觀性過強(qiáng)的缺陷,降低生態(tài)適宜性的評(píng)價(jià)結(jié)果,進(jìn)而影響到藍(lán)莓產(chǎn)業(yè)的發(fā)展和果農(nóng)的增收。

隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)技術(shù)越來越多地應(yīng)用于社會(huì)各個(gè)領(lǐng)域[14]。麻江縣作為貴州省藍(lán)莓種植面積最廣的區(qū)縣,采用機(jī)器學(xué)習(xí)算法對(duì)藍(lán)莓生態(tài)適宜性進(jìn)行科學(xué)性和精細(xì)化的評(píng)價(jià)區(qū)劃,可為麻江縣藍(lán)莓產(chǎn)業(yè)發(fā)展規(guī)劃制定提供理論依據(jù)。本研究以適合在貴州黔東南州區(qū)域種植的兔眼藍(lán)莓為研究對(duì)象,確定藍(lán)莓生態(tài)適宜性指標(biāo),通過機(jī)器學(xué)習(xí)算法對(duì)麻江縣藍(lán)莓生態(tài)適宜性進(jìn)行模型構(gòu)建及主要影響因素分析,并采用ArcMAP 10.8 軟件對(duì)麻江縣藍(lán)莓生態(tài)適宜性地圖進(jìn)行繪制。通過實(shí)驗(yàn)發(fā)現(xiàn),CatBoost 算法在藍(lán)莓生態(tài)適宜性評(píng)估效果比傳統(tǒng)機(jī)器學(xué)習(xí)模型效果更優(yōu),能為藍(lán)莓園區(qū)選址規(guī)劃和藍(lán)莓種植提供更客觀合理的科學(xué)依據(jù),進(jìn)而減少藍(lán)莓災(zāi)害、提高藍(lán)莓生產(chǎn)率、增加果農(nóng)經(jīng)濟(jì)收入。

2 方法和資料

2.1 基本資料和數(shù)據(jù)來源

貴州省麻江縣DEM(數(shù)字高程模型,Digital El?evation Model)數(shù)據(jù)來自地理空間數(shù)據(jù)云的ASTER GDEM 數(shù)據(jù),DEM 數(shù)據(jù)包括坡度、坡向、高程和ND?VI(歸一化植被指數(shù),Normalized Difference Vegeta?tion Index)。氣象數(shù)據(jù)來源于貴州省氣象局2015年-2019 年逐月平均氣溫、降水量、≥10℃積溫(3月-9 月)等,土壤類型數(shù)據(jù)來源于中國(guó)土壤數(shù)據(jù)庫(Soil Science Database),包括土壤pH 和土壤有機(jī)碳含量等。數(shù)據(jù)基本來源見表1,研究區(qū)麻江縣概況見圖1。

表1 數(shù)據(jù)來源情況

圖1 麻江縣概況圖

2.2 理論方法

CatBoost(CB)是一種基于梯度提升決策樹(Gradient Boost Decision Tree,GBDT)改進(jìn)的新型算法框架,該算法以對(duì)稱決策樹為基學(xué)習(xí)器,具有參數(shù)較少、支持類別變量和高準(zhǔn)確性等特點(diǎn),能夠高效合理地處理類別型特征;此外,CB 著重解決梯度偏差和預(yù)測(cè)偏移問題,對(duì)減少過擬合發(fā)生有良好效果,能有效提升算法準(zhǔn)確性和泛化能力[15~17]。在傳統(tǒng)GBDT 算法中,處理類別型特征常用方式是利用類別特征標(biāo)簽平均值進(jìn)行替代,并且將標(biāo)簽平均值作為節(jié)點(diǎn)分裂標(biāo)準(zhǔn)[18~19],用公式表示為

這種方法雖然簡(jiǎn)單易實(shí)現(xiàn),但存在一個(gè)明顯的缺點(diǎn):特征往往比標(biāo)簽包含更豐富的信息,若用直接用標(biāo)簽平均值來代替特征,當(dāng)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集數(shù)據(jù)結(jié)構(gòu)和分布不一致時(shí)會(huì)出現(xiàn)條件偏移問題。

CB算法加入先驗(yàn)項(xiàng)和權(quán)重系數(shù),減少噪聲和低頻率類別型數(shù)據(jù)對(duì)于數(shù)據(jù)分布的影響,用公式表示為

式中:p是添加的先驗(yàn)項(xiàng);a是權(quán)重系數(shù),通常大于0。

由于藍(lán)莓生態(tài)適宜性評(píng)價(jià)數(shù)據(jù)集中的特征多為類別特征,因此選用CB 算法能夠更大程度地學(xué)習(xí)到更多的信息,進(jìn)而提升模型性能,圖2 為CB 算法流程圖。

圖2 CB算法流程圖

3 適宜性模型實(shí)驗(yàn)分析

3.1 特征數(shù)據(jù)預(yù)處理

通過收集麻江縣龍崩上等19 個(gè)藍(lán)莓種植基地?cái)?shù)據(jù)信息,獲取藍(lán)莓適宜性特征數(shù)據(jù)共796 例,其中藍(lán)莓適宜性良好408 例,藍(lán)莓適宜性非良好388例。藍(lán)莓生態(tài)適宜性特征10個(gè),分別為坡度、坡向、高程、年降雨量、月均溫、≥10 ℃積溫、土壤pH、土壤有機(jī)碳含量、光照強(qiáng)度和歸一化植被覆蓋指數(shù)。

由于藍(lán)莓適宜性特征數(shù)據(jù)采集來源較多,因此藍(lán)莓適宜性特征集往往會(huì)存在特征數(shù)據(jù)重復(fù)、特征數(shù)據(jù)缺失、特征數(shù)據(jù)異常以及各特征數(shù)據(jù)之間量綱不統(tǒng)一等問題。這些問題會(huì)在一定程度上降低適宜性評(píng)估模型的預(yù)測(cè)精度,甚至?xí)?dǎo)致模型預(yù)測(cè)失敗,因此需要對(duì)特征數(shù)據(jù)集進(jìn)行預(yù)處理工作,主要包括:1)刪除重復(fù)特征數(shù)據(jù);2)補(bǔ)充缺失特征數(shù)據(jù),類別特征采用眾數(shù)補(bǔ)充,連續(xù)特征采用平均值補(bǔ)充;3)對(duì)特征數(shù)據(jù)進(jìn)行分桶,根據(jù)數(shù)據(jù)分布按分位點(diǎn)對(duì)連續(xù)特征進(jìn)行分桶并標(biāo)簽編碼(label encode),類別特征直接進(jìn)行標(biāo)簽編碼[20]。具體編碼方式如表2所示。

表2 適宜性特征編碼情況

3.2 實(shí)驗(yàn)環(huán)境與參數(shù)配置

本文研究實(shí)驗(yàn)環(huán)境為jupyter notebook,package主要包括python3.8、numpy、pandas、scikit-learn、im?blearn 等。采用LR、SVM、RF 和CB 算法構(gòu)建四種不同的麻江縣藍(lán)莓生態(tài)適宜性評(píng)估模型。針對(duì)不同模型需對(duì)其參數(shù)優(yōu)化使模型表現(xiàn)出更佳性能。

對(duì)LR、SVM 和RF 評(píng)估模型采用貝葉斯超參數(shù)優(yōu)化方法獲取最佳參數(shù)組合[21],不同模型超參數(shù)優(yōu)化結(jié)果如圖3、4、5所示。

圖3 LR模型超參數(shù)優(yōu)化

圖4 SVM模型超參數(shù)優(yōu)化

圖5 RF模型超參數(shù)優(yōu)化

對(duì)于CB模型,由于參數(shù)過多,考慮到時(shí)間消耗和計(jì)算能力,很難利用貝葉斯優(yōu)化其超參數(shù)。本文采用階梯式的網(wǎng)格搜索對(duì)CB 模型進(jìn)行調(diào)參,即一部分參數(shù)調(diào)整至模型最佳后,基于此模型調(diào)整另外一部分參數(shù),每部分參數(shù)采用網(wǎng)格搜索的方式依次進(jìn)行。根據(jù)問題的特性,部分超參數(shù)需要進(jìn)行特定的 限 制,主 要 對(duì)iterations、learning_rate、depth、l2_leaf_reg四個(gè)參數(shù)進(jìn)行調(diào)參,具體步驟如下。

1)初始化一些基本變量,設(shè)定loss_function=Logloss、eval_metric=AUC、task_type=CPU;

2)確定learning_rate 和iterations 的數(shù)量,先設(shè)定learning_rate=0.1,early_stop=500;采用早停的方式確定iteration數(shù)量;

3)確定樹的生長(zhǎng)深度,設(shè)定depth 參數(shù)的取值區(qū)間在[4,10],步長(zhǎng)為1;

4)確定正則化強(qiáng)度,設(shè)定l2_leaf_reg 參數(shù)的取值區(qū)間在[0,10],步長(zhǎng)為1;

5)降低學(xué)習(xí)率,最后降低學(xué)習(xí)率的同時(shí)增加數(shù)的數(shù)量,learning_rate 參數(shù)取值為[0.01,0.1],步長(zhǎng)0.01。

通過超參數(shù)尋優(yōu),最終確定CB 模型的超參數(shù)組 合 為[loss_function:Logloss,eval_metric:AUC,task_type:CPU,learning_rate:0.03,iterations:10,depth:10,l2_leaf_reg:8]。

3.3 實(shí)驗(yàn)分析

在模型評(píng)估過程中,分類問題往往需要使用不同的指標(biāo)進(jìn)行評(píng)估,從而完成模型訓(xùn)練的迭代過程。本研究提出精確率(P)、召回率(R)、綜合評(píng)價(jià)指標(biāo)(F1)[22]和AUC 作為評(píng)價(jià)指標(biāo),計(jì)算公式如下:

AUC(Area Under Curve)為ROC 曲線的線下面積大小,ROC 全稱是“受試者工作特征”(Receiver Operating Characteristic Curve)曲線。將模型的預(yù)測(cè)結(jié)果進(jìn)行排序,按照順序?qū)颖咀鳛檎M(jìn)行預(yù)測(cè),每次計(jì)算真正率(True Positive Rate,TPR)、假正率(False Positive Rate,F(xiàn)PR),分別作為橫、縱坐標(biāo)軸,公式定義:

本文選取AUC 作為模型最重要的評(píng)估指標(biāo),進(jìn)行對(duì)比分析。一般介于0.5~1,AUC值越大,說明模型泛化能力越好,預(yù)測(cè)表現(xiàn)越好。

本文選取貴州省黔東南州19 個(gè)藍(lán)莓種植基地的796 例藍(lán)莓生態(tài)適宜性數(shù)據(jù)作為數(shù)據(jù)集,將數(shù)據(jù)集前70%作為訓(xùn)練集,后30%的數(shù)據(jù)作為測(cè)試集。采用LR、SVM、RF 和CB 四種算法搭建麻江縣藍(lán)莓適宜性評(píng)估模型并進(jìn)行實(shí)驗(yàn)對(duì)比,為避免實(shí)驗(yàn)結(jié)果偶然性,提高實(shí)驗(yàn)結(jié)果可靠度,本文對(duì)不同模型進(jìn)行多次實(shí)驗(yàn),模型評(píng)估指標(biāo)綜合對(duì)比如圖6、圖7所示。

圖6 ROC曲線對(duì)比圖

圖7 不同模型在各評(píng)估指標(biāo)上的標(biāo)準(zhǔn)差

通過實(shí)驗(yàn)分析得,基于CB 算法的藍(lán)莓生態(tài)適宜性評(píng)估模型在AUC指標(biāo)上得分最高,值為0.897,LR、SVM 和RF 的AUC 得分分別為0.855、0.864 和0.875。進(jìn)而分析可知CB 模型具有最佳的表現(xiàn)性能,比LR、SVM 和RF 模型高4.9%、3.8%、2.5%,并且在召回率、精確率和綜合評(píng)價(jià)指標(biāo)方面都有著優(yōu)秀表現(xiàn)。

3.4 適宜性地圖繪制

在本文所選的機(jī)器學(xué)習(xí)中,除SVM 外,評(píng)估結(jié)果具有自然概率意義,概率值為0 表示不適宜藍(lán)莓生長(zhǎng),概率值為1則表示適宜藍(lán)莓生長(zhǎng),從0~1表示藍(lán)莓生態(tài)適宜性等級(jí)遞增。因此,通過模型輸出的結(jié)果可直接劃分每個(gè)單位的生態(tài)適宜性等級(jí)。SVM模型原理上無法直接給出預(yù)測(cè)結(jié)果的概率,但本文通過5 折交叉驗(yàn)證進(jìn)行模型的預(yù)測(cè),同樣可以滿足結(jié)果具有自然概率意義的要求。

將麻江縣藍(lán)莓生態(tài)適宜性劃分為5 個(gè)等級(jí):[0~0.20) 不適宜區(qū)、[0.2~0.40) 較不適宜區(qū)、[0.40~0.60) 基本適宜區(qū)、[0.60~0.80) 較適宜區(qū)、[0.80~1]最適宜區(qū)[10]?;诓煌u(píng)估模型繪制麻江縣藍(lán)莓生態(tài)適宜性評(píng)價(jià)地圖如圖8所示。

圖8 麻江縣藍(lán)莓生態(tài)適宜性評(píng)價(jià)地圖

目前麻江縣多數(shù)藍(lán)莓種植點(diǎn)分布縣東南區(qū)域,市場(chǎng)表明該區(qū)域藍(lán)莓品質(zhì)產(chǎn)量較好。由圖8 麻江縣藍(lán)莓生態(tài)適宜性評(píng)價(jià)地圖分析可見,區(qū)劃最適宜區(qū)和較適宜區(qū)主要分布在縣東南部的宣威鎮(zhèn)和龍山鎮(zhèn),與實(shí)際種植區(qū)域情況基本相吻合。由此可見,采用CB 模型構(gòu)建的藍(lán)莓生態(tài)適宜性評(píng)估模型結(jié)果較好,區(qū)劃結(jié)果也具有可靠性。

由于模型原理差異性,SVM模型無法給出藍(lán)莓生態(tài)適宜性特征的重要性分析。除SVM 模型外,從各模型特征重要性得分可知,高程和≥10 ℃積溫兩個(gè)特征在不同模型獲得很高的分值,說明這兩個(gè)特征對(duì)藍(lán)莓生態(tài)適宜性影響程度更高,是影響藍(lán)莓生長(zhǎng)的重要因素。各模型特征重要性如圖9所示。

圖9 不同評(píng)估模型特征重要性

4 結(jié)語

本文通過多平臺(tái)收集藍(lán)莓生態(tài)適宜性特征數(shù)據(jù),構(gòu)建了麻江縣藍(lán)莓生態(tài)適宜性特征數(shù)據(jù)集。根據(jù)數(shù)據(jù)集特點(diǎn),利用CB 算法構(gòu)建藍(lán)莓生態(tài)適宜性評(píng)估模型,與其他傳統(tǒng)機(jī)器學(xué)習(xí)算法模型進(jìn)行對(duì)比分析,依據(jù)各模型評(píng)估結(jié)果繪制麻江縣藍(lán)莓生態(tài)適宜性評(píng)價(jià)地圖。實(shí)驗(yàn)結(jié)果表明,CB 算法對(duì)特征數(shù)據(jù)信息挖掘更充分,模型評(píng)估效果明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。但模型效果仍有進(jìn)步空間,且單一模型效果不具備較強(qiáng)的魯棒性。因此,我們后續(xù)的研究方向旨在收集更豐富的藍(lán)莓適宜性特征數(shù)據(jù),提高數(shù)據(jù)集質(zhì)量以及融合多模型進(jìn)行藍(lán)莓生態(tài)適宜性評(píng)估,進(jìn)一步提升評(píng)估結(jié)果準(zhǔn)確性。

猜你喜歡
麻江縣藍(lán)莓特征
麻江縣關(guān)工委開展青少年關(guān)愛幫扶活動(dòng)
下一代英才(2023年3期)2023-04-18 01:05:50
藍(lán)莓建園技術(shù)
河北果樹(2021年4期)2021-12-02 01:15:08
藍(lán)莓姑娘
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
西海岸的藍(lán)莓名片
商周刊(2017年5期)2017-08-22 03:35:22
甜甜的藍(lán)莓果
麻江縣渠道防滲改造的具體措施
晴隆縣關(guān)工委來麻江縣考察學(xué)習(xí)“五好”關(guān)工委創(chuàng)建工作
晚晴(2014年9期)2014-09-19 14:05:19
宾阳县| 方山县| 白银市| 金昌市| 囊谦县| 竹北市| 扶风县| 淳化县| 新丰县| 门头沟区| 河津市| 牡丹江市| 达州市| 家居| 阿荣旗| 淮北市| 松溪县| 宝清县| 西平县| 修武县| 安图县| 锡林浩特市| 樟树市| 涞源县| 贺州市| 霍林郭勒市| 朝阳市| 禄丰县| 凤台县| 年辖:市辖区| 万安县| 武胜县| 通河县| 大厂| 扬州市| 礼泉县| 尉犁县| 宝坻区| 塔城市| 内丘县| 苗栗市|