袁超,沈明霞,姚文,劉龍申,陳佳
(1.南京農(nóng)業(yè)大學(xué)工學(xué)院,江蘇 南京 210031;2.南京農(nóng)業(yè)大學(xué)人工智能學(xué)院,江蘇 南京 210031;3.南京農(nóng)業(yè)大學(xué)動(dòng)物科技學(xué)院,江蘇 南京 210095;4.農(nóng)業(yè)農(nóng)村部養(yǎng)殖裝備重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210031;5.江蘇智慧牧業(yè)裝備科技創(chuàng)新中心,江蘇 南京 210031)
肉雞是我國(guó)主要消費(fèi)禽類,高密度籠養(yǎng)模式下其呼吸系統(tǒng)疾病日益凸顯[1]。發(fā)聲作為其與外界溝通的一種重要渠道[2],其包含的數(shù)據(jù)信息經(jīng)提取處理可應(yīng)用于健康監(jiān)測(cè)、行為分析等相關(guān)研究。
國(guó)內(nèi)外學(xué)者在應(yīng)用聲學(xué)技術(shù)監(jiān)測(cè)生物健康方面取得了一定的研究成果。Carpentier等[3]提取犢牛叫聲的信噪比和能量包絡(luò)等抗噪能力較強(qiáng)的特征,利用功率譜、頻譜質(zhì)心閾值實(shí)現(xiàn)小牛咳嗽聲和非咳嗽聲分類,識(shí)別準(zhǔn)確率達(dá)94.2%。Rizwan等[4]提取梅爾頻率倒譜系數(shù)(MFCC)特征作為算法輸入,通過極端學(xué)習(xí)機(jī)和支持向量機(jī)(support vector machines,SVM)完成模型訓(xùn)練后雞只的啰音發(fā)聲進(jìn)行檢測(cè)分類,以此為依據(jù)區(qū)分患病雞只,試驗(yàn)結(jié)果證明了針對(duì)雞只異常發(fā)聲實(shí)現(xiàn)自動(dòng)監(jiān)測(cè)的可行性。Mahdavian等[5]對(duì)比了羅斯和科布兩種基因型肉雞患呼吸系統(tǒng)疾病的發(fā)聲數(shù)據(jù),算法模型對(duì)健康雞只的識(shí)別準(zhǔn)確率為95%,對(duì)患病雞只的識(shí)別準(zhǔn)確率為72%,分析試驗(yàn)結(jié)果發(fā)現(xiàn)患病雞只識(shí)別準(zhǔn)確率偏低的原因是部分雞只發(fā)聲會(huì)被誤檢為非發(fā)聲內(nèi)容。趙建等[6]在小波閾值的基礎(chǔ)上開發(fā)了一種多窗譜維納算法,實(shí)現(xiàn)豬只發(fā)聲的去噪處理,提取了所獲得的39維MFCC,利用深度神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型(hidden markov model,HMM)搭建了豬只咳嗽聲識(shí)別模型。徐亞妮等[7]使用模糊C均值聚類改進(jìn)方法對(duì)梅山母豬的咳嗽聲和尖叫聲進(jìn)行了聚類分析,取得了較好的分類效果,總體識(shí)別準(zhǔn)確率分別約為83.4%和 83.1%。Liu等[8]以平養(yǎng)白羽肉雞為試驗(yàn)對(duì)象,提取小波變換MFCC和相關(guān)距離Fisher準(zhǔn)則作為特征指標(biāo),搭載HMM模型,平均識(shí)別準(zhǔn)確率為93.8%。Sun等[9]從時(shí)域頻域、MFCC以及稀疏表示等方面提取白羽肉雞咳嗽信號(hào)特征,利用隨機(jī)森林實(shí)現(xiàn)歸一化處理,搭建基于Softmax分類器和SVM的分類模型,識(shí)別準(zhǔn)確率分別達(dá)97.81%和98.71%。
雞只的發(fā)聲識(shí)別技術(shù)正向深度學(xué)習(xí)轉(zhuǎn)變,且其發(fā)聲特征與生長(zhǎng)階段具有相關(guān)性[10]。本文將生命周期引入雞只咳嗽識(shí)別研究,細(xì)分為10~19日齡、20~29日齡和30日齡后,將提取發(fā)聲信號(hào)的Filter Bank(FBank)、MFCC特征作為VGG16、ResNet18兩種神經(jīng)網(wǎng)絡(luò)的輸入,實(shí)現(xiàn)籠養(yǎng)白羽肉雞在不同生長(zhǎng)階段的咳嗽檢測(cè)。
試驗(yàn)數(shù)據(jù)于2021年7月3日至8月1日在廣東省云浮市新興縣溫氏悅塘高效養(yǎng)殖小區(qū)完成采集。試驗(yàn)對(duì)象為籠養(yǎng)白羽肉雞,雞籠尺寸800 cm×420 cm×2 100 cm,養(yǎng)殖密度為15~20只/籠。
音頻采集設(shè)備為佳創(chuàng)樂4G-A400錄音拾音器,內(nèi)存64 GB,采集精度16位,采樣頻率48 kHz,每段音頻時(shí)長(zhǎng)1 h,命名格式為“年-月-日-時(shí)-分-秒”,存儲(chǔ)格式為wav。搭配5 V、3 000 mA移動(dòng)電池。
在養(yǎng)殖舍同步采集10~19日齡、20~29日齡、30日齡后3個(gè)生長(zhǎng)階段的發(fā)聲數(shù)據(jù)。10日齡前雞只因?qū)粑到y(tǒng)疾病不易感而未參與試驗(yàn)。為降低原始音頻受噪聲的影響,設(shè)置采集時(shí)間為每日00:00—03:00,該時(shí)段舍內(nèi)熄燈,雞只雜亂發(fā)聲大幅降低。采集時(shí)將拾音器置于呼吸系統(tǒng)疾病發(fā)作嚴(yán)重的區(qū)域,記錄當(dāng)日日齡信息。共采集錄音數(shù)據(jù)120 h,3個(gè)日齡階段各40 h。數(shù)據(jù)采集設(shè)備如圖1所示。
1.3 數(shù)據(jù)預(yù)處理及數(shù)據(jù)集劃分
為避免后續(xù)試驗(yàn)受噪聲影響導(dǎo)致關(guān)聯(lián)性降低,需對(duì)原始音頻數(shù)據(jù)進(jìn)行預(yù)處理以提高數(shù)據(jù)可用性[11-12]。
1.3.1 濾波去噪對(duì)采集的音頻進(jìn)行時(shí)域分析,結(jié)合人耳偵聽劃分目標(biāo)聲音信號(hào)與背景噪聲信號(hào)。各類聲音信號(hào)時(shí)域波形如圖2所示。其中,目標(biāo)聲音信號(hào)包括咳嗽聲、鳴叫聲、啰音、怪叫,背景噪聲包括高頻噪聲(如音頻噪聲)以及低頻噪聲(如設(shè)施噪聲)。
圖2 各類肉雞聲音時(shí)域波形圖Fig.2 Time-domain waveforms of various sounds of broilers
使用6階巴特沃茲帶通數(shù)字濾波器濾除低頻噪聲[13],設(shè)置截止頻率為1 800和3 500 Hz。通過譜減法抑制高頻噪聲信號(hào)頻率點(diǎn),獲取較為純凈的發(fā)聲信號(hào)[14]。最終去噪效果如圖3所示。
圖3 去噪前后肉雞聲音對(duì)比Fig.3 Comparison of broiler sound before and after denoising
1.3.2 端點(diǎn)檢測(cè)雜音干擾導(dǎo)致信噪比低是影響端點(diǎn)檢測(cè)準(zhǔn)確性的主要因素。在低信噪比條件下,使用頻帶能量與譜熵的比值作為參數(shù)實(shí)現(xiàn)端點(diǎn)檢測(cè)[15],可抑制噪聲的突發(fā)性干擾,檢測(cè)結(jié)果如圖4所示。依據(jù)端點(diǎn)檢測(cè)結(jié)果切割去噪音頻數(shù)據(jù),獲取單一發(fā)聲段用以搭建數(shù)據(jù)集。
1.3.3 數(shù)據(jù)集劃分對(duì)端點(diǎn)檢測(cè)結(jié)果進(jìn)行人耳偵聽,依照咳嗽聲(cough)、鳴叫聲(chirp)、其他聲(others)進(jìn)行分類,獲取的有效發(fā)聲段為:10~19日齡3 329聲,其中咳嗽聲1 112聲,鳴叫聲1 217聲,其他聲1 000聲;20~29日齡3 405聲,其中咳嗽聲1 151聲,鳴叫聲1 254聲,其他聲1 000聲;30日齡后2 992聲,其中咳嗽聲966聲,鳴叫聲1 026聲,其他聲1 000聲。數(shù)據(jù)集以8∶1∶1樣本占比設(shè)置訓(xùn)練集、驗(yàn)證集與測(cè)試集。數(shù)據(jù)集結(jié)構(gòu)如表1所示。
表1 數(shù)據(jù)集組成Table 1 Data set composition
由于濾波器組間重疊,原始信息保留度高,相鄰FBank特征間具有強(qiáng)相關(guān)性。進(jìn)一步做離散余弦變換(discrete cosine transform,DCT)可得到MFCC特征,該特征辨別度更高,貼合人耳對(duì)聲音感知的非線性特性[16-17]。
1.4.1 時(shí)頻轉(zhuǎn)換通過對(duì)聲音信號(hào)進(jìn)行預(yù)加重處理,可以降低頻率損失,突出共振峰,使信號(hào)頻譜在整個(gè)低頻至高頻的頻帶上維持平衡,提高輸出信噪比。
(1)
式中:S(n)為n時(shí)刻采樣值;預(yù)加重系數(shù)α設(shè)置為0.97。
根據(jù)奈奎斯特采樣定律,設(shè)置采樣頻率為48 kHz,幀長(zhǎng)(N)為25 ms,重疊區(qū)域(M)為10 ms,將聲音信號(hào)切割為短時(shí)幀,保持幀段之間部分重疊,避免發(fā)生頻譜泄漏。分幀完成后使用漢明窗增加單一短時(shí)幀起止點(diǎn)之間的連續(xù)性與平滑度。
漢明窗函數(shù)W(n)公式為:
(2)
式中:N為窗口長(zhǎng)度。
將信號(hào)轉(zhuǎn)換至頻域進(jìn)行分析,對(duì)分幀信號(hào)進(jìn)行2 048點(diǎn)短時(shí)傅里葉變換(short time Fourier transform,STFT),提取頻譜信息。短時(shí)傅里葉變換頻域值Sn(W)公式為:
(3)
式中:s(n)為第n個(gè)采樣點(diǎn)的采樣值;m為漢明窗長(zhǎng)度;w為角頻率;R為窗口隨時(shí)間滑動(dòng)的距離;W為漢明窗函數(shù)。
在短時(shí)傅里葉變換的基礎(chǔ)上對(duì)頻譜取模后平方,提取信號(hào)的功率譜。功率譜值P公式為:
(4)
式中:si為第i幀信號(hào)。
1.4.2 特征提取使功率譜通過固定Mel刻度的三角濾波器組,提取頻帶并進(jìn)行子帶劃分后利用對(duì)數(shù)變換可提取FBank特征,在此基礎(chǔ)上通過DCT提取MFCC特征。特征提取流程如圖5。
圖5 雞只發(fā)聲特征提取算法流程圖Fig.5 The flow chart of broilers vocalizationfeature extraction algorithm
對(duì)FBank、MFCC特征做一階和二階差分,經(jīng)零-均值標(biāo)準(zhǔn)化處理后得到三維數(shù)組,保存為npy格式文件。圖6為各日齡段內(nèi)雞只音頻信號(hào)的發(fā)聲特征,圖中左列為FBank特征,右列為MFCC特征,橫向從上至下分別為靜態(tài)特征及其一階和二階差分圖,其中使用⊿代表一階差分,⊿2代表二階差分。
圖6 各日齡雞不同發(fā)聲類別FBank、MFCC特征及其一階(⊿)、二階差分(⊿2)示意圖Fig.6 Schematic diagram of the sound FBank and MFCC characteristics of different vocalization categoriesand their first-order(⊿)and second-order(⊿2)differences in each age of broilers
觀察發(fā)現(xiàn),不同日齡段內(nèi)同類別聲音的FBank、MFCC特征差異明顯,同一日齡段內(nèi)不同類別聲音間也存在較大區(qū)別。
將上述特征組合輸入VGG16、ResNet18兩種神經(jīng)網(wǎng)絡(luò),搭建全生命周期雞只咳嗽識(shí)別模型,完成訓(xùn)練后輸出查準(zhǔn)率、召回率、準(zhǔn)確率等性能指標(biāo)評(píng)價(jià)模型優(yōu)劣。模型訓(xùn)練流程如圖7所示。
圖7 雞咳嗽聲識(shí)別模型訓(xùn)練流程Fig.7 The training process of the cough sound recognition model of broilers
1.5.1 VGG16網(wǎng)絡(luò)模型結(jié)構(gòu)根據(jù)不同設(shè)計(jì)的VGG-block塊,VGG目前存在6種結(jié)構(gòu),其中VGG16使用最為廣泛[18],網(wǎng)絡(luò)結(jié)構(gòu)如圖8。該模型中,13個(gè)卷積層與5個(gè)池化層交叉相接,激活層使用ReLU函數(shù),最后由3個(gè)全連接層接入Softmax分類器構(gòu)成完整的VGG網(wǎng)絡(luò)結(jié)構(gòu)。
VGG16在所有卷積層內(nèi)均使用2次3×3小卷積核替代1次5×5的大卷積核,維持相同范圍感受野的同時(shí)增強(qiáng)了特征提取能力。每個(gè)卷積層后使用1次ReLU激活函數(shù)提高表達(dá)能力。在2~3個(gè)卷積層后連接1個(gè)2×2池化核的池化層,對(duì)數(shù)據(jù)特征進(jìn)行最大池化處理增加網(wǎng)絡(luò)稀疏性。全部卷積層后使用3個(gè)全連接層進(jìn)行分類計(jì)算,2個(gè)全連接層間通過Dropout處理降低參數(shù)量,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),完成回歸輸出。
1.5.2 ResNet18網(wǎng)絡(luò)模型結(jié)構(gòu)殘差神經(jīng)網(wǎng)絡(luò)(residual neural network,ResNet)用以解決模型訓(xùn)練過程中伴隨誤差逆向傳播出現(xiàn)的梯度消失、梯度爆炸等問題[19]。針對(duì)網(wǎng)絡(luò)深度加深時(shí)深層網(wǎng)絡(luò)相較淺層網(wǎng)絡(luò)反而表現(xiàn)更差的退化問題,ResNet利用殘差網(wǎng)絡(luò)實(shí)現(xiàn)優(yōu)化,殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖9-a所示。
通過殘差網(wǎng)絡(luò),期望的輸出H(x)由輸入x經(jīng)過兩路運(yùn)算后進(jìn)行疊加,其中一路為輸入x經(jīng)恒等變換后直連至輸出,另一路為輸入x經(jīng)卷積、激活等操作后得到F(x)。根據(jù)H(x)的計(jì)算方式,可以推斷出網(wǎng)絡(luò)由第n層傳導(dǎo)至深層第N層的前向傳播計(jì)算公式:
(5)
式中:HN(x)為第N層輸出;xn為第n層輸入;wi為第i層權(quán)重。
分析上式可知,殘差網(wǎng)絡(luò)中的前向傳播采用了連加操作,根據(jù)逆向傳播的導(dǎo)數(shù)鏈?zhǔn)椒▌t,x的梯度和損失函數(shù)ε的關(guān)系可以表示為:
(6)
殘差網(wǎng)絡(luò)的逆向傳播過程只有鏈?zhǔn)椒▌t前部參與運(yùn)算,且左邊x的求導(dǎo)結(jié)果始終保持為1,使得殘差網(wǎng)絡(luò)在梯度很小或很大時(shí)仍可由第N層穩(wěn)定傳播至第n層,從而規(guī)避了梯度消失與梯度爆炸的出現(xiàn)。圖9-b 所示為ResNet18的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。
1.5.3 模型訓(xùn)練及參數(shù)設(shè)置神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的初始權(quán)值隨機(jī)生成,在學(xué)習(xí)過程中根據(jù)算法設(shè)置學(xué)習(xí)率η以及迭代次數(shù)N,利用優(yōu)化函數(shù)通過N次迭代不斷調(diào)節(jié)權(quán)值來(lái)實(shí)現(xiàn)損失函數(shù)的最小化,進(jìn)而提高模型性能。神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過程如下:
1)統(tǒng)一模型輸入:端點(diǎn)檢測(cè)所得單段發(fā)聲數(shù)據(jù)時(shí)長(zhǎng)上存在浮動(dòng),分幀后總幀數(shù)目不一致。本文統(tǒng)計(jì)數(shù)據(jù)樣本后規(guī)定輸入音頻長(zhǎng)度保持45幀,控制模型的輸入尺寸為40*64*3。
2)超參數(shù)初始化:隨機(jī)生成初始權(quán)值打亂神經(jīng)網(wǎng)絡(luò)對(duì)稱性,每一輪訓(xùn)練過程(Epoch)中使用Shuffle函數(shù)隨機(jī)樣本排序。單次訓(xùn)練使用數(shù)據(jù)樣本64個(gè),全部數(shù)據(jù)遍歷完成記為一次Epoch結(jié)束。Epoch初始值設(shè)置100,學(xué)習(xí)率η設(shè)置0.001,動(dòng)量設(shè)置0.9,學(xué)習(xí)衰減率設(shè)置0.98。優(yōu)化器選用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD),公式為:
gt=θt-1f(θt-1)
(7)
Δθt=-η*gt
(8)
式中:θ為模型參數(shù);η為學(xué)習(xí)率;gt為損失關(guān)于參數(shù)的梯度;f為代價(jià)函數(shù)。
損失函數(shù)選用交叉熵?fù)p失(cross-entropy loss function,CELF),公式為
(9)
式中:p為樣本真實(shí)分布;q為模型預(yù)測(cè)的樣本分布;p(x)為期望輸出;q(x)為實(shí)際輸出。
3)模型訓(xùn)練:通過損失計(jì)算在單次迭代后自調(diào)整參數(shù)設(shè)置,以50個(gè)Epoch為間隔進(jìn)行一次學(xué)習(xí)率降低。全部輪次結(jié)束后根據(jù)訓(xùn)練集與驗(yàn)證集的結(jié)果分析,損失與精確率誤差約為2%,正常結(jié)束訓(xùn)練。
算法基于Pytorch深度學(xué)習(xí)開發(fā)庫(kù)搭建,模型訓(xùn)練使用的工作站有效內(nèi)存31.1 GB,配置1塊GTX1080Ti顯卡、2塊Xeon Gold 5118 CPU。
模型訓(xùn)練結(jié)果以混淆矩陣形式輸出?;诨煜仃噷?duì)各類標(biāo)簽識(shí)別結(jié)果的個(gè)數(shù)統(tǒng)計(jì),得出準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)以及F1-score,綜合衡量各模型優(yōu)劣[20]。
從表2可見:各日齡4種識(shí)別模型均能較為準(zhǔn)確進(jìn)行雞只發(fā)聲的分類識(shí)別,總體準(zhǔn)確率均在92%以上。同一神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),10~19日齡FBank-VGG16較MFCC-VGG16的總體準(zhǔn)確率高1.14%,FBank-ResNet18較MFCC-ResNet18的總體識(shí)別準(zhǔn)確率高1.74%。20~29日齡,FBank-VGG16較MFCC-VGG16的總體識(shí)別率高 5.51%,FBank-ResNet18較MFCC-ResNet18總體準(zhǔn)確率高5.74%。30日齡后,MFCC-VGG16較FBank-VGG16總體準(zhǔn)確率高1.8%,MFCC-ResNet18較FBank-ResNet18總體準(zhǔn)確率高1.49%??梢钥闯?30日齡前FBank特征的識(shí)別效果更好,組合VGG16神經(jīng)網(wǎng)絡(luò),總體準(zhǔn)確率10~19日齡為94.29%,20~29日齡為97.65%,高于其他模型組合。2種特征的識(shí)別效果在20~29日齡差距最大,30日齡后MFCC特征的識(shí)別效果比FBank更好,組合ResNet18神經(jīng)網(wǎng)絡(luò),總體準(zhǔn)確率最高達(dá)98.66%。伴隨日齡的增長(zhǎng)各模型組合對(duì)雞只發(fā)聲分類的準(zhǔn)確率均有所提高,增幅為3%~7%。
表2 各日齡雞4種模型的識(shí)別效果Table 2 Recognition effect of 4 models under different age of broilers %
為了驗(yàn)證深度學(xué)習(xí)算法對(duì)雞只發(fā)聲分類識(shí)別的性能提升,使用提取的FBank、MFCC特征作為支持向量機(jī)的輸入,對(duì)比分析各日齡卷積神經(jīng)網(wǎng)絡(luò)模型與傳統(tǒng)機(jī)器學(xué)習(xí)模型對(duì)雞只發(fā)聲分類的識(shí)別效果[21]。該分類器基于Scikitlearn庫(kù)實(shí)現(xiàn),分類決策函數(shù)g(x)為:
(10)
式中:αiyi為權(quán)值;x為輸入;β為輸入的截距;N為樣本數(shù)目;K(xi,x)為決策函數(shù)。
核函數(shù)使用徑向基核函數(shù)(radial basis function,RBF),泛化參數(shù)設(shè)置為1.0,學(xué)習(xí)率設(shè)置為0.001,正則化參數(shù)設(shè)置為0.01,訓(xùn)練輪次100次。訓(xùn)練結(jié)果對(duì)比如表3所示:使用SVM分類器通過提取2種特征在3種日齡條件下完成訓(xùn)練的識(shí)別模型總體準(zhǔn)確率為82%~86%。3個(gè)日齡段,基于FBank特征,SVM較卷積神經(jīng)網(wǎng)絡(luò)總體準(zhǔn)確率分別降低11.14%、13.53%、14.09%,基于MFCC特征分別降低10.86%、7.64%、12.08%。本方法較SVM具有更高的性能,在雞咳嗽聲識(shí)別中更具優(yōu)勢(shì)。
為了驗(yàn)證二分類模型與三分類模型在咳嗽聲識(shí)別上的優(yōu)劣,基于數(shù)據(jù)量均衡,在鳴叫聲與其他聲數(shù)據(jù)集中各隨機(jī)抽取1/2合并為“非咳嗽類”(non-cough),與原咳嗽類(cough)一起作為二分類模型數(shù)據(jù)集。在10~19日齡、20~29日齡完成FBank-VGG16識(shí)別模型的二分類訓(xùn)練,30日齡后完成MFCC-ResNet18模型的二分類訓(xùn)練。從圖10可見,“非咳嗽類”參與訓(xùn)練后識(shí)別模型在3個(gè)日齡段內(nèi)的總體準(zhǔn)確率和識(shí)別咳嗽聲的精準(zhǔn)率都出現(xiàn)了不同程度下降。3種日齡段二分類模型的總體準(zhǔn)確率分別為88.24%、87.67%、83.25%,較三分類模型下降6.05%、9.98%、15.41%;隨著日齡的增長(zhǎng),三分類模型準(zhǔn)確率上升的同時(shí)二分類模型呈現(xiàn)下降趨勢(shì);二分類模型對(duì)咳嗽聲識(shí)別的精確率分別為86.09%、87.18%、81.82%,較三分類模型降低8.5%、10.21%、17.14%。這表明,在肉雞咳嗽聲識(shí)別中三分類模型通過將“非咳嗽類”進(jìn)一步的細(xì)分為子類“鳴叫類”和“其他類”,提高了模型整體的識(shí)別能力,針對(duì)咳嗽聲的識(shí)別更具優(yōu)勢(shì)。
圖10 各日齡雞二分類(上)及三分類(下)識(shí)別模型的混淆矩陣Fig.10 Confusion matrices of two classification(up)and three classification(down)recognition models at different ages of broilers
雞只在不同生長(zhǎng)階段對(duì)呼吸系統(tǒng)疾病的易感程度不同,不同生長(zhǎng)周期患病雞只的發(fā)聲狀態(tài)有所區(qū)別,模型在不同日齡段的識(shí)別性能也隨之變化。從圖11可見,隨日齡增長(zhǎng),輸入為FBank特征時(shí)2種識(shí)別模型準(zhǔn)確率基本一致。該類模型在20~29日齡識(shí)別效果最好,較10~19日齡增加3%~5%,30日齡后略微衰退。MFCC-VGG16模型準(zhǔn)確率增加約5%,在30日齡后識(shí)別效果優(yōu)于FBank類模型。MFCC-ResNet18較其他識(shí)別模型識(shí)別準(zhǔn)確率高,在30日齡后準(zhǔn)確率增加最大,約為7%,總體準(zhǔn)確率為98.66%。
圖11 各識(shí)別模型在不同日齡雞測(cè)試集上的準(zhǔn)確率Fig.11 The accuracy of each recognition model on thetest set in different age of broilers
1)本文通過譜減法與數(shù)字濾波處理原始音頻噪聲,利用能熵比例端點(diǎn)檢測(cè)法切除無(wú)效聲段,提取FBank、MFCC特征,輸入VGG16、ResNet18兩種神經(jīng)網(wǎng)絡(luò),對(duì)比3個(gè)日齡段的各模型的識(shí)別效果。結(jié)果顯示:4種識(shí)別模型均能準(zhǔn)確實(shí)現(xiàn)發(fā)聲分類。10~19日齡、20~29日齡FBank-VGG16識(shí)別效果最好,準(zhǔn)確率為94.29%、97.65%,30日齡后MFCC-ResNet18模型識(shí)別準(zhǔn)確率最高,為98.66%。雞只日齡增長(zhǎng)對(duì)各類模型的識(shí)別準(zhǔn)確率都有一定的提升效果,總體上漲3%~7%。隨著雞只發(fā)育成熟,各類聲音的發(fā)聲特征更具明顯性,提高了模型學(xué)習(xí)能力。30日齡后雞只生長(zhǎng)進(jìn)入平穩(wěn)期,各類模型識(shí)別準(zhǔn)確率均達(dá)97%以上,對(duì)實(shí)際生產(chǎn)中籠養(yǎng)雞呼吸系統(tǒng)疾病的預(yù)警具有一定的應(yīng)用價(jià)值。
2)相同數(shù)據(jù)集下對(duì)比SVM分類器,本試驗(yàn)方法在3個(gè)日齡段基于FBank特征總體準(zhǔn)確率分別提高11.14%、13.53%、14.09%,基于MFCC特征分別提高10.86%、7.64%、12.08%。與二分類模型相比,3個(gè)日齡段內(nèi)三分類模型的準(zhǔn)確率分別上升6.05%、9.98%、15.41%。
3)鑒于本研究對(duì)籠養(yǎng)白羽肉雞咳嗽聲、鳴叫聲以及其他聲的準(zhǔn)確識(shí)別,可在此基礎(chǔ)上細(xì)化雞只的異常發(fā)聲類別,探究雞只異常發(fā)聲與所患病種之間的關(guān)聯(lián)性。
南京農(nóng)業(yè)大學(xué)學(xué)報(bào)2023年5期