楊威,俞守華
(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院,廣州 510642)
基于行為學(xué)指標(biāo)數(shù)據(jù)的豬只行為分類
楊威,俞守華
(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院,廣州 510642)
將視頻監(jiān)控技術(shù)應(yīng)用于規(guī)?;B(yǎng)豬場(chǎng)能大大減少人力,提高效率。豬只行為分類是通過圖像處理計(jì)數(shù)從視頻中獲得豬只信息后的圖像信息分析階段,如何從大量數(shù)據(jù)中挖掘出豬只的行為是完成實(shí)現(xiàn)豬只智能監(jiān)控的關(guān)鍵。通過圖像處理將豬只行為信息提取量化后,生豬的行為識(shí)別轉(zhuǎn)化成對(duì)行為指標(biāo)信息的分類問題。首先論述豬只行為識(shí)別的關(guān)鍵行為學(xué)指標(biāo),然后引入決策樹分類算法,貝葉斯網(wǎng)絡(luò)分類算法,基于規(guī)則歸納的分類算法等三種分類方法對(duì)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),并對(duì)豬只數(shù)據(jù)進(jìn)行分類預(yù)測(cè)后評(píng)估三種模型的表現(xiàn)。結(jié)果顯示,選取的行為學(xué)指標(biāo)對(duì)豬只行為具有較高的區(qū)分度,J48決策樹分類算法較樸素貝葉斯和基于規(guī)則生成的分類算法的準(zhǔn)確率均達(dá)到96%以上,提取的規(guī)則能作為豬只行為分類的判斷標(biāo)準(zhǔn)。
廣東省科技計(jì)劃項(xiàng)目(No.2012A020602043)
中國(guó)是世界養(yǎng)豬大國(guó),2016年我國(guó)生豬出欄頭數(shù)為68502萬(wàn)頭,豬肉產(chǎn)量為5299萬(wàn)噸,年末生豬存欄達(dá)43504萬(wàn)頭[1]。養(yǎng)殖業(yè)的現(xiàn)代化和居民對(duì)肉類消費(fèi)的不斷增長(zhǎng)使得規(guī)?;B(yǎng)殖場(chǎng)逐漸代替了傳統(tǒng)的家庭圈養(yǎng)方式。然而若繼續(xù)在規(guī)模化養(yǎng)豬場(chǎng)中采用傳統(tǒng)的人工監(jiān)控手段,不僅實(shí)時(shí)性不高,精度低,費(fèi)時(shí)費(fèi)力,且容易因疲勞造成漏檢。在健康養(yǎng)殖的理念下,找到適應(yīng)現(xiàn)代化規(guī)?;B(yǎng)豬場(chǎng)的監(jiān)控方案,對(duì)規(guī)?;B(yǎng)豬場(chǎng)實(shí)施有效的監(jiān)控管理,及時(shí)發(fā)現(xiàn)存在的問題和采取措施,改善養(yǎng)殖環(huán)境,降低病害發(fā)生率對(duì)保證安全順利生產(chǎn)具有重要的意義。國(guó)內(nèi)外學(xué)者在豬只的智能監(jiān)控方面進(jìn)行了諸多研究,有對(duì)豬只運(yùn)動(dòng)特征的快速提取[2],有單只豬只側(cè)面輪廓提取[3],基于特征提取及特征優(yōu)選的豬只姿態(tài)識(shí)別研究[4]也有對(duì)豬只攻擊性行為進(jìn)行監(jiān)控的研究[5-6]。豬只行為識(shí)別是在正確的檢測(cè)和跟蹤的基礎(chǔ)上,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行的指標(biāo)信息分類。通過正確的行為分類及時(shí)找出異常行為,是豬只視頻智能監(jiān)控系統(tǒng)的主要目標(biāo)和重要環(huán)節(jié)。因此,找到恰當(dāng)?shù)姆诸愔笜?biāo)及合適的分類方法對(duì)系統(tǒng)功能的實(shí)現(xiàn)具有重要意義。
本研究是建立在對(duì)豬只的識(shí)別和跟蹤的基礎(chǔ)上,結(jié)合行為學(xué)指標(biāo)對(duì)豬只的行為進(jìn)行分類研究。數(shù)據(jù)來(lái)源為廣東省科技計(jì)劃項(xiàng)目“豬只采食與排泄行為智能識(shí)別及異常預(yù)警系統(tǒng)”(2012A020602043)從廣州市從化、增城和天河三個(gè)不同豬舍規(guī)格的規(guī)?;B(yǎng)豬場(chǎng)采集的視頻圖像中利用圖像處理技術(shù)提取的豬只行為學(xué)指標(biāo)數(shù)據(jù)。
1.1 生豬的行為識(shí)別的行為學(xué)指標(biāo)
對(duì)監(jiān)控視頻中的豬只進(jìn)行實(shí)時(shí)地跟蹤時(shí),需要提取出能夠反映豬只行為的指標(biāo)信息。目前常用的行為學(xué)指標(biāo)包括運(yùn)動(dòng)速度、運(yùn)動(dòng)距離、運(yùn)動(dòng)軌跡、停留區(qū)域和停留時(shí)間等,多個(gè)行為學(xué)指標(biāo)的結(jié)合能有效提高識(shí)別的準(zhǔn)確度。這些指標(biāo)又可分為兩類:運(yùn)動(dòng)參數(shù)和體態(tài)特征。運(yùn)動(dòng)參數(shù)在一定程度上反映的是動(dòng)物的活躍程度,提供判斷動(dòng)物健康狀態(tài)的客觀依據(jù)。而體態(tài)特征則含有更多心理信息,在行為識(shí)別中具有更重要的意義[6-9]。
本文采用的運(yùn)動(dòng)參數(shù)包括:所停留區(qū)域及時(shí)間,運(yùn)動(dòng)距離,運(yùn)動(dòng)速度等;體態(tài)特征包括:周長(zhǎng)面積比,長(zhǎng)短軸之比,hu幾何矩等。
運(yùn)動(dòng)距離通過兩幀間豬只質(zhì)心移動(dòng)的距離來(lái)表示:
運(yùn)動(dòng)速度為生豬在單位時(shí)間內(nèi)運(yùn)動(dòng)的距離:
其中,V(i+1,i)表示生豬在相鄰兩幀間運(yùn)動(dòng)的速度,D(i+1,i)表示生豬在相鄰兩幀間運(yùn)動(dòng)距離,ti+1-ti表示相鄰兩幀的時(shí)間間隔。
周長(zhǎng)面積比描述的是生豬二維形狀的不規(guī)則情況。計(jì)算方法如式(3):
當(dāng)形狀越不規(guī)則,F(xiàn)值越小;反之,值越大。其中,C和A分別表示生豬二維形狀的周長(zhǎng)和面積。
長(zhǎng)短軸之比描述生豬二維形狀的細(xì)長(zhǎng)程度。其計(jì)算方法是根據(jù)公式:
其中L和S分別表示生豬形狀的外接橢圓的長(zhǎng)軸和短軸長(zhǎng)度。
Hu幾何矩是一種全局不變量,對(duì)噪聲不太敏感,且不論目標(biāo)是否封閉,均能較好的識(shí)別目標(biāo)。Hu幾何矩特征的定義和計(jì)算公式建立在對(duì)一個(gè)區(qū)域內(nèi)部灰度值或邊界灰度值分析基礎(chǔ)上的,是一個(gè)全局量的描述,描述了對(duì)象的整體特征[5]。
1.2 決策樹分類算法
在數(shù)據(jù)挖掘中,決策樹是一個(gè)預(yù)測(cè)模型,它代表對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。決策樹是一種樹形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每一個(gè)葉節(jié)點(diǎn)代表一種類別。決策分類樹是一種十分常用的分類算法。C4.5是一系列用在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的分類問題中的算法。它的目標(biāo)是監(jiān)督學(xué)習(xí):給定一個(gè)數(shù)據(jù)集,其中的每一個(gè)元組都能用一組屬性值來(lái)描述,每一個(gè)元組屬于一個(gè)互斥的類別中的某一類。C4.5的目標(biāo)是通過學(xué)習(xí),找到一個(gè)從屬性值到類別的映射關(guān)系,并且這個(gè)映射能用于對(duì)新的類別未知的實(shí)體進(jìn)行分類。
1.3 貝葉斯分類器
貝葉斯分類器的分類原理是通過某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。也就是說(shuō),貝葉斯分類器是最小錯(cuò)誤率意義上的優(yōu)化。目前研究較多的貝葉斯分類器主要有四種,分別是:Naive Bayes、TAN、BAN 和 GBN。樸素貝葉斯分類器工作必須有一個(gè)前提假設(shè),特征屬性之間的關(guān)系必須是獨(dú)立的,只有在這個(gè)假設(shè)前提下,樸素貝葉斯分類器才能工作地比較好。但是在現(xiàn)實(shí)世界中,這種假設(shè)并不成立。所以另一種算法就被提出即貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)的定義并不復(fù)雜,一個(gè)貝葉斯網(wǎng)絡(luò)就是一個(gè)有向無(wú)環(huán)圖,圖中的每一個(gè)節(jié)點(diǎn)代表著一個(gè)隨機(jī)變量(可以理解為樣本的特征屬性),對(duì)應(yīng)著每一個(gè)節(jié)點(diǎn)貝葉斯網(wǎng)絡(luò)還有一張條件概率表(CPT)。作為一種基于概率的不確定性推理方法,貝葉斯網(wǎng)絡(luò)在處理不確定信息的智能化系統(tǒng)中取得了重要的應(yīng)用。
1.4 基于規(guī)則歸納的RIPPER算法
RIPPER算法是William W.Cohen在1995年提出的規(guī)則歸納算法,是對(duì)IREP算法的改進(jìn)。RIPPER算法具備可讀性、可解釋性強(qiáng),易于優(yōu)化等特點(diǎn)。該算法是基于正負(fù)實(shí)例集合的規(guī)則學(xué)習(xí)算法,通過重復(fù)增量裁減機(jī)制生成分類規(guī)則,減少過擬合的可能性并提高規(guī)則的準(zhǔn)確度。在處理多分類問題時(shí),RIPPER算法先按照類標(biāo)簽出現(xiàn)的頻率對(duì)其進(jìn)行排序,設(shè){C1,C2, Ck}為頻率從小到大排序后的集合。在第一次迭代中,把C1的樣例標(biāo)記為正,其他標(biāo)記為反例,使用順序覆蓋算法產(chǎn)生區(qū)分正例和反例的規(guī)則,重復(fù)該過程,直到剩下頻率最高的類別Ck。這種產(chǎn)生規(guī)則的特殊性,使得它對(duì)于不平衡的數(shù)據(jù)集分類性能比C4.5決策樹算法要好。RIPPER算法時(shí)間復(fù)雜度為O(nlog2n),在包含大量噪聲數(shù)據(jù)的測(cè)試集上仍然能保持較高的運(yùn)行效率。但當(dāng)數(shù)特征集很大的情形下,計(jì)算復(fù)雜度也隨之增大。在Weka中RIPPER的實(shí)現(xiàn)方法時(shí)JRip。該算法在RIPPER的基礎(chǔ)上進(jìn)行了有一定修改,但準(zhǔn)確度和規(guī)則生成并無(wú)太大區(qū)別。
2.1 確定問題
本文主要希望對(duì)比決策樹分類算法、貝葉斯網(wǎng)絡(luò)分類算法和基于規(guī)則歸納的分類算法RIPPER在豬只采食、排泄、站立、趴窩、慢走、跑動(dòng)等行為進(jìn)行分類的效果。行并從不同算法的對(duì)比中找出易混淆的行為類別,分析原因,反饋行為指標(biāo)的選擇,從而選擇合適的分類算法并對(duì)不同行為的分類混淆進(jìn)行了解以便為后續(xù)改進(jìn)行為分類指標(biāo)提供參考。
2.2 數(shù)據(jù)探測(cè)
通過前期對(duì)豬只視頻的實(shí)驗(yàn)觀察標(biāo)記,本文得到了4311條豬只行為數(shù)據(jù)標(biāo)記數(shù)據(jù),其中站立477條,趴窩891條,采食1799條,排泄454條,慢走342條,跑動(dòng)348條。每條數(shù)據(jù)包含16個(gè)屬性,如表1所示。
表1 豬只行為分類屬性說(shuō)明
2.3 數(shù)據(jù)預(yù)處理
錄入的4311條數(shù)據(jù)完整,各屬性數(shù)據(jù)完整,分布正常,未發(fā)現(xiàn)異常數(shù)據(jù)。ID用于標(biāo)識(shí)每一條數(shù)據(jù)。px與py是表示豬只當(dāng)前所在的橫縱坐標(biāo),用于確定Speed指標(biāo)和Distance指標(biāo),故將這兩個(gè)屬性去除,保留Speed和Distance。最終經(jīng)過預(yù)處理后,保留了dis?tance等12個(gè)屬性,一個(gè)類屬性behavior。經(jīng)過選擇后的屬性是數(shù)據(jù)相對(duì)集中對(duì)于豬只行為分類關(guān)聯(lián)最大的屬性,可以提高模型分類的準(zhǔn)確率。
2.4 數(shù)據(jù)挖掘
本文的目的是通過對(duì)行為學(xué)指標(biāo)信息數(shù)據(jù)進(jìn)行分類實(shí)現(xiàn)對(duì)豬只行為類別的識(shí)別。為了選擇合適的分類算法,選用了C4.5,貝葉斯網(wǎng)絡(luò)分類器和RIPPER三種分類算法進(jìn)行比較分析。
作為對(duì)照,先采用ZeroR進(jìn)行分類,ZeroR的原理是只選擇概率最大的屬性作為分類標(biāo)準(zhǔn)。ZeroR的準(zhǔn)確率為41.8%。如果分類器的結(jié)果小于ZeroR則說(shuō)明使用的分類器不適用于本實(shí)驗(yàn)對(duì)象,若高于此值則說(shuō)明采用的方法是有效的。實(shí)驗(yàn)過程中采用十折交叉驗(yàn)證,為了使取得的結(jié)果更具一般性,設(shè)置隨機(jī)數(shù)種子1,3,5,7,10進(jìn)行五次實(shí)驗(yàn)并求得其平均精度。
2.5 結(jié)果分析
實(shí)驗(yàn)結(jié)果如表2所示。
表2 三種分類算法對(duì)比
從結(jié)果來(lái)看,三種分類器的準(zhǔn)確度均達(dá)到96%以上,運(yùn)行時(shí)間來(lái)看J48和貝葉斯網(wǎng)絡(luò)算法0.15s要小于Jrip 的 0.56s。
進(jìn)一步,我們來(lái)分析各個(gè)算法分類后的混淆矩陣。對(duì)于混淆矩陣,對(duì)角線上的數(shù)表明相應(yīng)類別分類正確的實(shí)例個(gè)數(shù),其他點(diǎn)表示錯(cuò)誤分類的實(shí)例。對(duì)于J48我們選擇最接近平均精度的,隨機(jī)種子為7時(shí)的混淆矩陣。
圖1 J48決策樹算法混淆矩陣
從混淆矩陣可以看出,分類表現(xiàn)十分優(yōu)秀,落在斜對(duì)角線外的數(shù)據(jù)遠(yuǎn)遠(yuǎn)小于斜對(duì)角線上的數(shù)據(jù),這說(shuō)明,各種行為的分類都十分準(zhǔn)確。從混淆矩陣中,我們還可以看出,站立行為易與采食行為混淆,慢走易與跑動(dòng)混淆。
運(yùn)行J48分類器后,可生成分類決策樹,如圖2所示:
圖2 J48決策樹(部分)
根據(jù)得到的決策樹我們可以得到?jīng)Q策規(guī)則,如在圖2中的決策樹,我們可以的得到如下規(guī)則:If zone=1,2 and hu3<=0.001251,then behavior=趴窩;If zone=1,hu3>0.001251 and hu1<=0.383548,then behavior=站立。本文實(shí)驗(yàn)數(shù)據(jù)生成的決策樹一共有43片葉子,即生成了43個(gè)規(guī)則。在實(shí)際應(yīng)用中,需要根據(jù)獲取的更多實(shí)際數(shù)據(jù)不斷地訓(xùn)練算法規(guī)則,從而提高分類方法的魯棒性和準(zhǔn)確率。
貝葉斯網(wǎng)絡(luò)分類器取第五次運(yùn)行結(jié)果的混淆矩陣進(jìn)行分析。
圖3 貝葉斯網(wǎng)絡(luò)算法混淆矩陣
可以看到在貝葉斯網(wǎng)絡(luò)分類算法中,站立與采食,站立與慢走,慢走與跑動(dòng)是較容易混淆的組合。
對(duì)于JRip的混淆矩陣進(jìn)行分析可以看得出,該算法中站立與采食、慢走與跑動(dòng)及慢走與站立均是易混淆的組合。
圖4 JRip算法混淆矩陣
從實(shí)驗(yàn)結(jié)果分析,對(duì)于本實(shí)驗(yàn)的對(duì)象,三種方法均滿足下一步應(yīng)用的要求。其中,J48分類器的效果最好,貝葉斯網(wǎng)絡(luò)分類器、JRip算法與J48相差較小,而從運(yùn)行時(shí)間上來(lái)看JRip與前面兩者相差較大,這與算法過程中的頻繁剪枝相關(guān)。另外,各分類器均達(dá)到96%以上的準(zhǔn)確度,說(shuō)明選取的行為學(xué)指標(biāo)作為分類屬性的有效性,具有較高的區(qū)分度。從識(shí)別的行為類別來(lái)看,站立、采食、趴窩等行為識(shí)別度較高。而在各個(gè)算法中,站立與采食,慢走與跑動(dòng)都是易混淆的組合,這說(shuō)明對(duì)于現(xiàn)有指標(biāo)來(lái)說(shuō),這兩個(gè)組合的區(qū)分度較其他組合小。因此,在今后的研究中,可以通過提取更復(fù)雜的行為特征提高這兩組行為的區(qū)分度。本實(shí)驗(yàn)達(dá)到了預(yù)期目的,找到了合適的分類方法,并為進(jìn)一步研究的提供了方向。
[1]中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局.2016年國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)[EB].http://www.stats.gov.cn/tjsj/zxfb./201702/t20170228_1467424.html
[2]肖德琴,馮愛晶,楊秋妹,劉儉,張哲.基于視頻追蹤的豬只運(yùn)動(dòng)快速檢測(cè)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,(10):351-357+331.
[3]黨亞男.基于特征提取及特征優(yōu)選的豬只姿態(tài)識(shí)別研究[D].太原理工大學(xué),2015.
[4]馬麗,紀(jì)濱,劉宏申,朱偉興,李偉,張濤.單只豬輪廓圖的側(cè)視圖識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2013,(10):168-174.
[5]謝徵.基于決策樹支持向量機(jī)的豬只姿態(tài)分類與異常行為分析[D].太原理工大學(xué),2015.
[6]Hu M K.Visual Pattern Recognition by Moment Invariant[J].IRE Transactions on Information Theory,1962,8(2):179-187.
[7]陳顯周,俞守華,區(qū)晶瑩.異常挖掘在豬只行為數(shù)據(jù)分析上的應(yīng)用,農(nóng)業(yè)現(xiàn)代化研究,2011,32(monog):52-55周勇鈞,
[8]俞守華,區(qū)晶瑩.多特征Camshift和Kalman濾波結(jié)合的豬只智能跟蹤[J].廣東農(nóng)業(yè)科學(xué),2013,09:174-177+188.
[9]許丹純,俞守華,區(qū)晶瑩,周勇鈞.可拓分析法在豬場(chǎng)環(huán)境安全預(yù)警中的應(yīng)用[J].廣東農(nóng)業(yè)科學(xué),2011,23:160-163.
[10]Oczak,M.,et al.,Classification of Aggressive Behaviour n Pigs by Activity Index and Multilayer Feed Forward Neural Network.Biosystems Engineering,2014.119:89-97.
Pig Behavior Classification Based on Behavior Indexes Data
YANG Wei,YU Shou-hua
(College of Mathematic and Informatic,South China Agricultural University,Guangzhou 510642)
The application of visual recognition on large scale pig farm can greatly save manpower and increase efficiency.Pig behavior classification is one of the key problems to be solved for building an effective video surveillance system.Pig behavior recognition can be regarded as the classification of behavior index information via proper classification algorithm.Introduces the key indexes of pig behavior,introduces three kinds of classification methods including C4.5,Bayes Net and RIPPER,and uses the three algorithms to analyze pig behavior data.The re?sults analysis indicates that these three algorithm all have an accuracy above 96%,and the J48 which is Weka platform's version of C4.5 al?gorithm,has better performance than the other two methods considering accuracy and time-consuming.
楊威(1990-),男,湖南株洲人,碩士研究生,研究方向?yàn)檗r(nóng)業(yè)信息化
俞守華(1964-),男,福建福州人,博士,教授,研究方向?yàn)檗r(nóng)業(yè)信息化、系統(tǒng)工程,E-mail:segrad@scau.edu.cn
2017-03-22
2017-06-06
1007-1423(2017)17-0035-05
10.3969/j.issn.1007-1423.2017.17.007
行為學(xué)指標(biāo);豬只行為分類;數(shù)據(jù)挖掘;決策樹分類算法;基于規(guī)則生成的分類算法
Behavior Indexes;Pig Behavior Classification;Data Mining;Decision Tree;RIPPER