巴桑旺堆 平措占堆 朱彥賓
摘要 ? ?本研究測定革吉那布地區(qū)102頭2歲齡的牦牛相關體尺性狀(體高、體長和胸圍)與體重,按不同比例劃分訓練集和測試集,利用傳統(tǒng)的一般線性模型方法和機器學習方法(高斯過程回歸、支持向量機)分別構(gòu)建體尺性狀與體重之間的回歸預測模型,比較線性回歸模型與機器學習模型在利用體尺性狀預測體重時的準確性。結(jié)果表明,隨著訓練集數(shù)據(jù)的增加,線性回歸模型的預測結(jié)果較穩(wěn)定在0.71~0.80之間,而機器學習方法的預測準確性最高可達0.91。在訓練集數(shù)據(jù)充足的情況下,相比于一般線性模型的方法,利用機器學習方法進行預測具有更高的準確性。
關鍵詞 ? ?牦牛;機器學習;線性模型;體重;體尺性狀
中圖分類號 ? ?S823.8+5 ? ? ? ? 文獻標識碼 ? ?A
文章編號 ? 1007-5739(2019)23-0205-02 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 開放科學(資源服務)標識碼(OSID)
Abstract ? ?In this study,the body size traits (body height,body length and chest circumference)and body weight of 102 2-year old yaks in Ginnabu area were measured,and the training set and test set were divided according to different proportions,using traditional general linear model methods and machines learning methods(Gaussian process regression,support vector machine)constructed a regression prediction model between body size traits and body weight to compare the accuracy of linear regression models with machine learning models in predicting body weight using body size traits.The results showed that with the increase of training set data,the prediction results of the linear regression model were stable between 0.71 and 0.80,while the prediction accuracy of the machine learning method was up to 0.91.Under the condition of sufficient training set data,machine learning method has higher accuracy than general linear model method.
Key words ? ?yak;machine learning;linear model;body weight;body size trait
體重和體尺性狀是牦牛遺傳育種過程中的重要選育指標。體重是決定牦牛產(chǎn)肉性能的主要指標,體尺性狀可反映牦牛的體軀結(jié)構(gòu)、生產(chǎn)性能、發(fā)育、飼養(yǎng)管理等狀況,是衡量選育效果的重要指標。由于牦牛體型較大且存在一定野性,導致直接測定體重較為困難,而體尺性狀的測定相對簡潔準確。有研究發(fā)現(xiàn),在牦牛的發(fā)育過程中,體尺性狀與體重之間具有十分緊密的相關性。
窮 達等[1]研究發(fā)現(xiàn),嘉黎成年母牦牛體重與體長、體高、胸圍、管圍的相關系數(shù)分別為0.828、0.887、0.807、0.712,且其相關系數(shù)達到了極顯著水平(P<0.01),最終得到了3個估測體重的回歸模型,以用于實際評估。窮 達等[2]測定了32組那曲成年母牦牛的體尺和體重數(shù)據(jù),利用Linear過程進行相關分析并建立了最優(yōu)回歸模型。
羅海青等[3]測定了110頭6~10月齡大通牦牛母牛的體重和體尺數(shù)據(jù),利用Pearson和Linear方法分析了體高、體斜長和胸圍3個指標與體重的相關系數(shù)分別為0.702、0.879、0.977,且經(jīng)矯正后均達極顯著水平,建立了最優(yōu)回歸方程。
文勇立等[4]采用多元回歸和通徑分析方法分析了67頭麥洼牦公牛和88頭牦母牛的體型性狀對體重的影響,結(jié)果發(fā)現(xiàn),影響牦公牛和牦母牛體重的最主要相關性狀分別為胸圍和體長,其次為胸寬、體高和管圍等。裴 杰等[5-6]隨機選取了88頭6~12月齡的大通公牛和247頭8~10月齡的無角牦牛,利用Excel和SPSS軟件構(gòu)建了體尺與體重性狀的多元線性回歸與通徑分析模型,結(jié)果發(fā)現(xiàn),胸圍對牦牛體重的直接影響最大。
文勇立等[7]利用主成分和因子分析方法分析了276頭九龍牦牛的9個體型線性性狀,結(jié)果發(fā)現(xiàn),牦公牛3個因子表達式分值、牦母牛5個因子表達式分值的累積方差貢獻率分別高達86.407%和81.931%,因而此因子表達式分值可用于牦牛體型的評估。文勇立等[8]利用上述同樣的方法,分析了170頭麥洼牦牛的8個體型性狀,提取到了累積方差貢獻率達89.601%的3個因子,命名了整體結(jié)構(gòu)因子,主要解釋了麥洼牦母牛體形的整體結(jié)構(gòu)信息,具有較高的經(jīng)濟和選育價值。孫國強等[9]利用373頭1歲齡牦牛和608頭2歲齡牦牛的體重、體尺指標數(shù)據(jù)進行研究,結(jié)果表明,對不同年齡的牦牛群體體重影響最大的體型性狀不同,在1歲齡和2歲齡牦牛群體中,管圍和體斜長對體重影響最大,并建立體重與體尺各指標的多元線性回歸方程,為牦牛的實際生產(chǎn)和科研提供了參考。
目前,利用機器學習模型方法分析牦牛體尺指標和體重之間相關性的報道較少。本研究利用機器學習方法中的高斯回歸和支持向量機方法預測體重,并與傳統(tǒng)的線性回歸方法進行結(jié)果比較,以期為機器學習方法用于利用體尺指標預測體重的工作提供參考。
1 ? ?材料與方法
1.1 ? ?試驗材料
供試牦牛為西藏革吉那布地區(qū)的2歲齡牦牛。
1.2 ? ?測定內(nèi)容與方法
于2018年9—12月對供試的102頭2歲齡牦牛進行空腹測定體尺性狀并稱重。測定指標為體長、體高、胸圍和體重。體高即從鬐甲最高點至地面的垂直距離;體長即由肩端至坐骨結(jié)節(jié)后端的直線距離;胸圍即由肩胛骨后緣垂直體軸繞胸1周的周長。
1.3 ? ?數(shù)據(jù)分析
利用R語言軟件的kernlab包中的高斯過程回歸與支持向量機(SVM)進行建模,并將預測結(jié)果與一般線性回歸模型進行對比[10]。將102頭牦牛體尺、體重的測定數(shù)據(jù)隨機分為訓練集與預測集,并以10%為遞增,從總數(shù)據(jù)集分別選20%、30%~90%數(shù)量的數(shù)據(jù)作為訓練集,預測集為總數(shù)據(jù)集除去訓練集的剩余部分。以訓練集作為機器學習訓練部分,分別用一般線性模型、高斯過程回歸與支持向量機3種方法得到相應體尺與體重的模型,然后將模型運用到預測集中得到體重預測值,最后計算牦牛體重的預測值與真實值之間的相關系數(shù)。針對不同百分比的訓練集,分別構(gòu)建3種模型且每種模型構(gòu)建均重復5次,將體重的真實值與預測值之間相關系數(shù)的均值作為預測準確性的結(jié)果。每個比例均重復5次,相關系數(shù)均值作為當前比例下的模型準確性結(jié)果。
主要模型包括一般線性模型、高斯過程回歸模型和支持向量機模型。其中,一般線性模型或多元回歸模型是一個統(tǒng)計線性模型。一般線性模型中假設誤差呈多元正態(tài)分布,且在測量之間不相關。當誤差不符合多元正態(tài)分布時,可以放寬假設來使用廣義線性模型。高斯過程回歸在統(tǒng)計學中是一種內(nèi)插方法,其內(nèi)插值由先前協(xié)方差控制的高斯過程建模確定。當存在適當?shù)南闰灱僭O時,高斯過程回歸能給出中間值的最佳線性無偏預測。該方法被廣泛應用于域空間分析和計算機實驗。支持向量機(SVM)也叫支持向量網(wǎng)絡,其是具有相關學習算法的監(jiān)督學習模型,是一種新型的機器學習方法,支持向量機采用結(jié)構(gòu)風險最小化原則。分析用于分類和回歸分析的數(shù)據(jù)。
2 ? ?結(jié)果與分析
由表1可知,體重性狀的變異系數(shù)達13.28%,相對體尺指標較大。說明2歲齡革吉那布牦牛個體體重差異較大,這也說明了體重指標具有較高的選育意義。
由表2可知,一般線性回歸模型和機器學習模型方法得到的真實值與預測值之間具有一定的相關性。一般線性回歸相關性穩(wěn)定在0.71~0.80之間,波動較小,而利用機器學習的2種方法進行建模預測的結(jié)果隨著訓練集數(shù)據(jù)的增加而逐漸增加。當訓練集占比小于50%時,線性模型明顯優(yōu)于機器學習,但是隨著占比的增加,機器學習方法預測的相關性也在明顯提高;當訓練集占比在50%~60%范圍時,機器學習與線性回歸效果接近;當訓練集占比大于60%時,機器學習方法的預測準確性逐漸優(yōu)于一般線性模型。
3 ? ?結(jié)論與討論
近年來,一些畜禽養(yǎng)殖業(yè)為了獲取更高的利益和提高生產(chǎn)效率而犧牲動物福利[11],研究者越來越多地關注由此帶來的負面影響。如果將人工智能和機器視覺的科技技術結(jié)合到實際生產(chǎn)中,能夠降低月齡較小的牦牛應激水平,這會在提高生產(chǎn)性能、繁殖性能和改善動物福利等方面發(fā)揮重要作用。2歲齡的牦牛體型較大、野性較強,如果能基于機器視覺的方法測定體尺指標,能夠減少直接接觸,降低危險性。劉衛(wèi)民等[12]結(jié)合攝像機標定、輪廓提取、SIFT特征點匹配等圖像處理技術將機器視覺應用于奶牛體尺測量,實現(xiàn)了奶牛體尺的視覺測量。江 杰等[13]利用機器視覺方法提供了一種新的測量羊的體尺指標的途徑,實現(xiàn)了無接觸式測量體尺指標,減少了應激反應和對羊體造成的傷害。張婧婧等[14]首先利用 Matlab得到馬體輪廓,然后在2D圖像上精確定位馬體坐標,最后利用Matlab GUI工具初步完成系統(tǒng)的仿真測試,并據(jù)此提出了基于線性回歸理論和機器視覺技術的馬體尺測量方法,具有測量依據(jù)和借鑒意義。Brandl等[15]與Kyungkoo等[16]利用機器視覺的方法對豬的體尺指標進行估計,取得了較好的結(jié)果。Kyungkoo等[16]研究結(jié)果顯示,該機器視覺方法的決定系數(shù)可達到0.79。
本研究中傳統(tǒng)的線性模型預測結(jié)果比較穩(wěn)定且具有一定準確性,說明了利用牦牛的體尺指標進行體重預測具有可行性。機器學習方法在小數(shù)據(jù)量上準確度相對較低,但是隨著測試數(shù)據(jù)量的增多準確度會顯著提高。本研究中當測試數(shù)據(jù)達到90%左右時,機器學習模型的結(jié)果明顯優(yōu)于線性模型,在提高體尺性狀預測體重的準確性方面具有積極意義??梢灶A期隨著大規(guī)模養(yǎng)殖以及將來人工智能自動采集數(shù)據(jù)技術的普及,隨著數(shù)據(jù)量的提升,機器學習方法預測的體重將更準確。本研究使用的機器學習的模型可為未來開發(fā)新回歸模型提供一定的參考,在大規(guī)模養(yǎng)殖、科學育種等方面起到一定的協(xié)助和參考作用。
本研究尚存在一些局限性,需在后續(xù)研究中進行優(yōu)化。因牦牛數(shù)量和體重體尺測定本身存在一些困難,本研究僅測定了102頭牦牛體高、體長和胸圍3個體尺性狀對體重進行預測。機器學習方法代碼采用默認參數(shù),如果需要更精確的回歸模型,則需要更多的測定數(shù)據(jù)量和體尺性狀,進行多次模擬回歸過程,以選擇出最優(yōu)參數(shù),進而構(gòu)建最優(yōu)模型。
4 ? ?參考文獻
[1] 窮達,彭措巴姆.西藏嘉黎成年母牦牛體重與體尺指標的相關與回歸分析[J].畜牧與飼料科學,2011,32 (6):11-12.
[2] 窮達,朗巴曲宗.那曲成年母牦牛的體重與體尺指標的相關與回歸分析[J].安徽農(nóng)業(yè)科學,2011,39(16):9715-9716.
[3] 羅海青,趙壽保.大通牦牛體重與體尺指標的相關回歸分析[J].黑龍江動物繁殖,2016,24(1):11-12.
[4] 文勇立,林小偉,鐘光輝,等.麥洼牦牛體型線性性狀對體重的影響[J].畜禽業(yè),2002,(8):4-6.
[5] 裴杰,褚敏,包鵬甲,等.大通牦牛體尺與體重性狀的多元線性回歸與通徑分析[J].遺傳育種與繁殖,2017,37(6):9-13.
[6] 裴杰,王宏博,褚敏,等.無角牦牛體尺性狀對體重影響的通徑分析[J].生物技術通報,2018,34(6):102-108.
[7] 文勇立,鐘光輝,字向東,等.九龍牦牛體型線性性狀研究[J].四川畜牧獸醫(yī),2002,29(5):29-31.
[8] 文勇立,林小偉,鐘光輝,等.麥洼牦牛體型線性性狀的因子分析[J].畜禽業(yè),2002(6):2-3.
[9] 孫國強,李九花,郝力壯,等.青海省生長期牦牛體重與體尺指標關系模型的構(gòu)建[J].黑龍江畜牧獸醫(yī),2018(3):225-229.
[10] KARATZOGLOU A,SMOLA A,HORNIK K.Kernlab:kernel-based machine learning lab[EB/OL].(2018-08-10)[2019-04-20].https://cran.r-project.org/web/packages/kernlab/index.html.
[11] 馬珊珊.家畜生態(tài)與動物福利在生產(chǎn)中的應用[J].飼料廣角,2014,(24):37-40.
[12] 劉衛(wèi)民.基于機器視覺的奶牛體尺參數(shù)測量研究[D].泰安:山東農(nóng)業(yè)大學,2016.
[13] 江杰,岳偉,曹孟珍.基于機器視覺的羊體體尺測量方法研究[J].內(nèi)蒙古科技大學學報,2015,34(4):322-327.
[14] 張婧婧,李勇偉.基于機器視覺的馬體尺測量系統(tǒng)設計與研究[J].計算機測量與控制,2017,25(12):17-20.
[15] BRAND N,JORGENSEN E.Determination of live weight of pigs from dimensions measured using image analysis[J].Computers and Electronics in Agriculture,1996,15(1):57-72.
[16] KYUNGKOO J,SI J K,HYUN W J.Estimating pig weights from images without constraint on posture and illumination[J].Computers and Electr-onics in Agriculture,2018,153:169-176.