石 瑞,艾山·吾買爾,早克熱·卡德爾,王中玉,杰恩斯艾力·努爾達(dá)艾勒
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué)新疆多語種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊 830046)
體育器材作為進(jìn)行體育運(yùn)動(dòng)必不可少的一部分,在體育賽事和健身運(yùn)動(dòng)中都占有重要地位.近年來,人工智能的飛速發(fā)展,為體育發(fā)展帶來重大的機(jī)遇和影響.其中計(jì)算機(jī)視覺在體育領(lǐng)域中得到了廣泛的應(yīng)用,如體育運(yùn)動(dòng)視頻分類[1]、體育動(dòng)作識(shí)別[2]、人體姿態(tài)分析[3]、體育視頻描述[4]和智能健身指導(dǎo)等.在這些技術(shù)的影響下,促進(jìn)了運(yùn)動(dòng)與人工智能的有機(jī)結(jié)合,使得全民健身活動(dòng)和體育賽事向智能化、多樣化和科學(xué)化的方向發(fā)展.
圖片分類作為計(jì)算機(jī)視覺中重要根基,是圖像分割、物體跟蹤和行為識(shí)別等其他高層視覺任務(wù)的基礎(chǔ),所以準(zhǔn)確識(shí)別體育器材對(duì)于體育賽事的發(fā)展具有重要應(yīng)用價(jià)值.隨著大規(guī)模標(biāo)記數(shù)據(jù)的產(chǎn)生[5]及計(jì)算機(jī)計(jì)算能力的快速提升,卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)入快速發(fā)展期,基于CNN的圖像分類方法無須經(jīng)過煩瑣的預(yù)處理、特征提取等中間建模過程,采用端到端的結(jié)構(gòu),由數(shù)據(jù)驅(qū)動(dòng)自動(dòng)提取深層的抽象特征,減少了人工設(shè)計(jì)特征產(chǎn)生的不完備性.自2012年深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet[6]在圖像識(shí)別中取得巨大成功后,引爆了深度學(xué)習(xí)的熱潮,再到2014 年的GoogleNet[7]、VGG[8]和2015年的ResNet[9]神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺任務(wù)中也取得越來越好的效果.但目前相關(guān)研究沒有涉及專門體育器材圖像分類,只是在公開的數(shù)據(jù)集[10]中的部分體育器材進(jìn)行了探索,對(duì)更為復(fù)雜多樣的運(yùn)動(dòng)還少有涉及,這限制了人工智能技術(shù)在體育領(lǐng)域的實(shí)踐和應(yīng)用.
豐富的圖像數(shù)據(jù)集是進(jìn)行深度神經(jīng)網(wǎng)絡(luò)建立和參數(shù)優(yōu)化的基礎(chǔ),當(dāng)前體育器材分類算法還沒有公開的專用數(shù)據(jù)集,因此本文構(gòu)建了一個(gè)涉及69類體育器材的數(shù)據(jù)集SED.對(duì)于多類別小規(guī)模數(shù)據(jù)集、單一模型預(yù)測(cè)效果不能達(dá)到預(yù)期的準(zhǔn)確率,本文提出一種將模型融合與遷移學(xué)習(xí)相結(jié)合的體育器材圖像分類方法,使用在公開數(shù)據(jù)集上完成預(yù)訓(xùn)練的經(jīng)典卷積神經(jīng)神經(jīng)網(wǎng)絡(luò)模型ResNet50和InceptionV3分別進(jìn)行圖像的特征提取.由于不同卷積神經(jīng)網(wǎng)絡(luò)在提取特征時(shí)表現(xiàn)的學(xué)習(xí)過程不同,為了利用不同模型之間的互補(bǔ)性,達(dá)到更優(yōu)化的性能,進(jìn)行雙模型融合.然后將該融合的網(wǎng)絡(luò)用于69類體育器材圖像遷移訓(xùn)練.
Inception模型是Szegedy等[7]在ImageNet大型視覺識(shí)別挑戰(zhàn)中,提出的一種深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),并于2014年ILSVRC挑戰(zhàn)賽中獲得冠軍.InceptionV3模型是谷歌Inception系列里面的第三代模型,采用非對(duì)稱卷積(Asymmetric Convolutions)方式,對(duì)較大的卷積進(jìn)行拆分操作,使得不同卷積核存在不同大小的感受野,模型將n×n的卷積分解成一維的n×1和1×n卷積的串聯(lián),這樣更有利于圖像高維特征的提取,在提高模型參數(shù)計(jì)算效率的同時(shí),也減少了模型過擬合.為了減少網(wǎng)絡(luò)的設(shè)計(jì)空間,采用模塊化結(jié)構(gòu),最后實(shí)現(xiàn)拼接,達(dá)到不同尺度的特征融合.InceptionV3模塊結(jié)構(gòu)圖如圖1所示.
圖1 InceptionV3模塊結(jié)構(gòu)圖
深度殘差網(wǎng)絡(luò)(Deep Residual Networks,ResNet)在2015年獲得ILSVRC比賽冠軍.網(wǎng)絡(luò)深度的增加可以提取更豐富的特征信息,但深度網(wǎng)絡(luò)會(huì)引發(fā)梯度消失和梯度爆炸問題,ResNet利用殘差學(xué)習(xí)來解決深度網(wǎng)絡(luò)的退化問題,使得訓(xùn)練更深層次的網(wǎng)絡(luò)成為可能.ResNet50網(wǎng)絡(luò)有50層,首先對(duì)輸入做卷積操作,之后包含4個(gè)殘差塊(Residual Block),每一個(gè)殘差塊有2個(gè)基本的塊,分別為Conv Block和Identity Block,其中Conv Block作用是改變網(wǎng)絡(luò)的維度;Identity Block用于加深網(wǎng)絡(luò).每一個(gè)殘差塊結(jié)構(gòu)如圖2所示.
圖2 殘差學(xué)習(xí)單元
將學(xué)習(xí)到的特征記為H(x),這樣殘差就表示為F(x)=H(x)-x,殘差單元可表示為:
yj=H(xj)+F(xj,Wj);
(1)
xj+1=f(yj).
(2)
其中:xj和xj+1分別表示第j個(gè)殘差單元的輸入與輸出,f為激活函數(shù)Relu.推導(dǎo)得從淺層j到深層J的學(xué)習(xí)特征可表示為
(3)
在實(shí)際操作中殘差不等于零,殘差函數(shù)會(huì)使得對(duì)堆積層在輸入特征基礎(chǔ)上學(xué)習(xí)到新的特征,以此擁有更好的性能.
在卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練中,當(dāng)訓(xùn)練效果不夠理想,訓(xùn)練樣本不夠豐富,重新調(diào)整參數(shù)構(gòu)建CNN模型比較麻煩時(shí),會(huì)考慮使用遷移學(xué)習(xí)的方法[11].Zeiler等[12]讓卷積神經(jīng)網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后將網(wǎng)絡(luò)分別在圖像分類數(shù)據(jù)集Caltech-101和Caltech-256上進(jìn)行遷移訓(xùn)練和測(cè)試.其圖像分類準(zhǔn)確率提高約40%.Donahue等[13]是把一個(gè)大規(guī)模數(shù)據(jù)集學(xué)習(xí)到的模型,遷移到其他數(shù)據(jù)集上進(jìn)行預(yù)測(cè).從而來解決某些數(shù)據(jù)集有標(biāo)簽數(shù)據(jù)少的問題.由此看出遷移學(xué)習(xí)可以提高模型的分類能力.除了卷積神經(jīng)網(wǎng)絡(luò)在各個(gè)領(lǐng)域的遷移學(xué)習(xí)研究,Razavian等[14]還對(duì)卷積神經(jīng)網(wǎng)絡(luò)不同層次特征的遷移學(xué)習(xí)效果進(jìn)行了探索,發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的高層特征相對(duì)于低層特征具有更好的遷移學(xué)習(xí)能力.
由于本文中體育器材數(shù)據(jù)集和ImageNet大規(guī)模數(shù)據(jù)集均由不同類別的圖像和類別數(shù)量組成,這2個(gè)數(shù)據(jù)集相互關(guān)聯(lián)但又存在一定的差異.因此將經(jīng)典的預(yù)訓(xùn)練CNN圖像分類模型與遷移學(xué)習(xí)相結(jié)合來進(jìn)行體育器材圖片分類的研究是可行的.
特定領(lǐng)域的研究需要專門的圖像數(shù)據(jù)集,針對(duì)體育器材分類任務(wù),目前尚未有標(biāo)準(zhǔn)的專用數(shù)據(jù)集,本文按照?qǐng)D像分類任務(wù)文件格式構(gòu)建了一個(gè)新的體育器材圖像數(shù)據(jù)集SED(Sports Equipment Dataset),該數(shù)據(jù)集基本囊括了現(xiàn)在常見的體育器材,包括球類運(yùn)動(dòng)器材、田徑賽器材、游泳器材、拳擊器材和健身訓(xùn)練器材.圖3給出了SED部分體育器材樣本圖.
圖3 SED部分體育器材樣本
針對(duì)提出的數(shù)據(jù),數(shù)據(jù)集的構(gòu)造過程中主要采用網(wǎng)絡(luò)爬蟲技術(shù)(80%)和相機(jī)拍攝(20%)的方式獲取,具體構(gòu)造流程:首先統(tǒng)計(jì)確定待構(gòu)造數(shù)據(jù)集中體育器材種類名單,再根據(jù)確定的名單采用網(wǎng)絡(luò)爬蟲技術(shù)和人工拍照進(jìn)行圖片的獲取,最后通過人工對(duì)圖片進(jìn)行篩選.本文設(shè)計(jì)的數(shù)據(jù)采集與過濾標(biāo)準(zhǔn),主要從類別多樣性和圖片的質(zhì)量?jī)煞矫婵紤].
2.1.1 圖片類別的多樣性
為了確保所構(gòu)建的數(shù)據(jù)集類別的多樣化,我們查閱了有關(guān)體育運(yùn)動(dòng)所涉及的各種器材、裝備及用品,再結(jié)合體育賽事和健身運(yùn)動(dòng)項(xiàng)目,最后確定69種類別,如表1所示.
表1 體育器材數(shù)據(jù)集種類統(tǒng)計(jì)
2.1.2 圖片質(zhì)量篩選
在圖像質(zhì)量篩選過程中,主要采用人工篩選的方法.通過爬蟲采集到的圖片存在一些不能很好表征圖像的數(shù)據(jù),例如按照體育器材名稱搜索的圖片與實(shí)際的體育器材不相符、圖片中體育器材的特征不明顯和圖片中包含多個(gè)體育器材無法對(duì)圖片給出對(duì)應(yīng)的類別,如圖4所示.對(duì)這部分圖像進(jìn)行篩除.最終構(gòu)造出一個(gè)包含7 728張圖片的體育器材數(shù)據(jù)集.圖4(a)名稱與實(shí)際體育器材不相符,圖4(b)圖片中體育器材的特征不明顯,圖4(c)無法對(duì)一張圖片給出對(duì)應(yīng)的類別
(a)花劍;(b)起跑器;(c)腹肌板
大規(guī)模和多樣化的體育器材數(shù)據(jù)集是有效訓(xùn)練圖像分類模型并且增強(qiáng)其泛化能力的關(guān)鍵,數(shù)據(jù)集各類運(yùn)動(dòng)器材應(yīng)保持充足的樣本數(shù),考慮到體育器材種類繁多,但不同體育器材流行度不一樣,對(duì)于體育賽事所用的體育器材能夠采集到圖片數(shù)量會(huì)稍多,這會(huì)導(dǎo)致采集到的體育器材數(shù)量層次不齊,因此,通過對(duì)比收集難易程度以及篩選出的有用圖片數(shù)量來確定每一類的樣本數(shù).最后確定每一類的樣本數(shù)量為到100~130張,體育器材數(shù)據(jù)集采集量的分布直方圖如圖5所示.
圖5 體育器材數(shù)據(jù)集采集量的分布直方圖
目前沒有公開的體育器材識(shí)別研究數(shù)據(jù)集,所以針對(duì)現(xiàn)有公開數(shù)據(jù)集中所包含的體育器材種類進(jìn)行分析,表2列出公開數(shù)據(jù)集中含有體育器材種類的數(shù)據(jù),顯然,它們各自存在著一些問題,包括體育器材種類偏少、圖像背景單一、僅含體育器材區(qū)域樣本,數(shù)據(jù)樣本分布不均勻.本文在構(gòu)建數(shù)據(jù)集時(shí),考慮多方面因素如樣本的多樣性、樣本數(shù)量均衡性、場(chǎng)景多樣化使得數(shù)據(jù)集更符合真實(shí)場(chǎng)景的需要,有利于提高模型的泛化能力.
表2 數(shù)據(jù)集各指標(biāo)對(duì)比
不同模型具有不同卷積核大小和體系結(jié)構(gòu),從而能學(xué)習(xí)不同方面的圖像表示,于是考慮通過2個(gè)有差異的網(wǎng)絡(luò)來分別提取特征,融合后構(gòu)成組合特征,再利用組合后的特征構(gòu)來建體育器材圖片分類器.殘差網(wǎng)絡(luò)ResNet50通過跨層特征融合提高了其網(wǎng)絡(luò)特征提取能力,InceptionV3采用不同結(jié)構(gòu)的 Inception 模塊堆疊,提高多種尺寸圖片的特征提取能力,并將不同尺寸的特征進(jìn)行融合,豐富每層所提取的圖像特征.基于此將這2種模型作為特征提取器.
在深度學(xué)習(xí)中,經(jīng)常會(huì)用到特征融合來提高模型性能[16],當(dāng)前流行的融合方式主要有Add(Addition)和Concat(Concentrate).Add操作是信息之間的疊加,對(duì)輸入特征相對(duì)應(yīng)的像素進(jìn)行數(shù)學(xué)相加,增加每一維度下的信息量,不增加特征的數(shù)量,如ResNet網(wǎng)絡(luò).Add操作公式為
(4)
其中:X={X1,X2,…,Xcx},Y={Y1,Y2,…,Xcy}分別為輸入的兩路特征,用Cx表示輸入特征X的通道數(shù),Cy表示輸入特征Y的通道數(shù),*表示卷積,1c表示1*1*c的張量,經(jīng)過Add操作后,特征圖的通道數(shù)不變,C=Cx=Cy,Add操作要求兩路輸入特征維度一樣.
Concat經(jīng)常用于特征的拼接,它可以將多個(gè)卷積層的特征或者是將輸出層的信息進(jìn)行拼接,增加特征的數(shù)量,保留更多的特征信息,從而提高模型性能,如DenseNet[17].對(duì)輸入的兩路特征X,Y進(jìn)行Concat操作,Concat操作也要求兩路輸入特征維度一致,但是Cx與Cy可以不相等,經(jīng)過Concat操作后,特征圖的通道數(shù)為Cx+Cy.本文主要采用Concat融合方式來對(duì)提取的特征進(jìn)行融合.公式為
(5)
由于所構(gòu)建的SED數(shù)據(jù)集中體育器材圖片數(shù)量遠(yuǎn)不及訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)模型所需要的大規(guī)模數(shù)據(jù)集,僅依賴本文構(gòu)建的數(shù)據(jù)集無法獲得性能較好的分類模型,因此采用遷移學(xué)習(xí)方法,為了防止模型過擬合且最大化保證遷移的知識(shí)不被破壞,凍結(jié)CNN模型全連接層之前的卷積層,來提取圖像的特征,對(duì)提取到的特征進(jìn)行融合拼接,再利用數(shù)據(jù)集對(duì)新分類器參數(shù)進(jìn)行訓(xùn)練微調(diào).對(duì)新信息的適應(yīng)體現(xiàn)在遷移模塊后面的全連接層網(wǎng)絡(luò)上.具體的融合方法如圖6所示.
圖6 基于ResNet50和InceptionV3模型融合算法框架圖
本文提出的模型融合包括以下4個(gè)部分:預(yù)處理、特征提取、特征融合以及圖片分類.
(1)數(shù)據(jù)預(yù)處理:InceptionV3和ResNet50對(duì)輸入圖片尺寸大小要求不一致,所以設(shè)計(jì)兩種預(yù)處理方式,針對(duì)InceptionV3模型,將圖像尺寸標(biāo)準(zhǔn)化為299×299像素;對(duì)于ResNet50模型,將圖像尺寸標(biāo)準(zhǔn)化為256×256像素.對(duì)兩種尺寸的圖片再進(jìn)行隨機(jī)旋轉(zhuǎn)和水平翻轉(zhuǎn),最后分別對(duì)圖像進(jìn)行歸一標(biāo)準(zhǔn)化,輸入到特征提取網(wǎng)絡(luò)中;
(2)特征提取:將預(yù)處理后的圖片分別作為兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,并刪除網(wǎng)絡(luò)模型的全連接層,凍結(jié)兩個(gè)網(wǎng)絡(luò)全連接層之前中的卷積模塊參數(shù),對(duì)圖片進(jìn)行特征提??;
(3)特征融合:將兩個(gè)網(wǎng)絡(luò)模型提取的特征進(jìn)行融合;
(4)圖片分類:通過一層全連接層將融合的特征輸入到分類器中,完成分類.
本文使用Pytorch框架作為體育器材圖片分類模型搭建和訓(xùn)練平臺(tái),表3為實(shí)驗(yàn)的軟件及硬件配置.
表3 實(shí)驗(yàn)環(huán)境配置參數(shù)
網(wǎng)絡(luò)模型的超參數(shù)設(shè)置如下:對(duì)收集來的數(shù)據(jù)按照8∶1∶1的方式劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集.訓(xùn)練時(shí)采用動(dòng)量梯度下降法優(yōu)化模型,動(dòng)量大小為0.9,正則化系數(shù)為0.001,初始學(xué)習(xí)率大小為0.1,同時(shí)采用等間隔調(diào)整學(xué)習(xí)率方法來更新學(xué)習(xí)率大小.每50次學(xué)習(xí)率下降10%,模型訓(xùn)練次數(shù)為100.Batch_size設(shè)置為64.
準(zhǔn)確率是最常見的評(píng)價(jià)指標(biāo),通常來說,準(zhǔn)確率越高,分類器越好.但是使用準(zhǔn)確率評(píng)價(jià)模型存在一個(gè)問題,即當(dāng)數(shù)據(jù)的類別不均衡時(shí),準(zhǔn)確率就不能客觀評(píng)價(jià)模型的優(yōu)劣.鑒于此,又采用平均精確率P、平均召回率R和平均值F1指標(biāo)來對(duì)模型做進(jìn)一步比較.P是指預(yù)測(cè)為正例的數(shù)據(jù)里,預(yù)測(cè)正確的數(shù)據(jù)比例;R是指真實(shí)為正例的數(shù)據(jù)里,預(yù)測(cè)正確的數(shù)據(jù)比例;F1值又稱F1分?jǐn)?shù),同時(shí)兼顧分類模型的P和R,可看作是模型P和R的一種加權(quán)平均,計(jì)算公式分別為:
(6)
(7)
(8)
(9)
式中:TTP表示真正例,即真實(shí)類別為正例,預(yù)測(cè)類別為正例;TTn表示真負(fù)例,即真實(shí)類別為負(fù)例,預(yù)測(cè)類別為負(fù)例;TFP表示假正例,即真實(shí)類別為負(fù)例,預(yù)測(cè)類別為正例;TFn表示假負(fù)例,即真實(shí)類別為正例,預(yù)測(cè)類別為負(fù)例.
為了測(cè)量多分類任務(wù)中不同模型之間的性能差異,采用平均值,即所有類別的每一個(gè)統(tǒng)計(jì)指標(biāo)值的算數(shù)平均值進(jìn)行評(píng)價(jià)[18].首先,計(jì)算每個(gè)混淆矩陣的精確度Pi和召回率Ri,將其表示為(P1,R1),(P2,R2),…,(Pn,Rn).再通過計(jì)算各精確率和召回率的平均值,得到平均精確率P、平均召回率R和平均F1值,計(jì)算公式通過公式(10)—(12)給出.
(10)
(11)
(12)
4.3.1 基于ResNet50和InceptionV3模型融合實(shí)驗(yàn)結(jié)果對(duì)比
本文實(shí)驗(yàn)均在自建的SED數(shù)據(jù)集上進(jìn)行,使用經(jīng)典CNN模型AlexNet、Vgg16、ResNet50、InceptionV3與本文方法進(jìn)行實(shí)驗(yàn)對(duì)比,對(duì)比結(jié)果如表4所示,本文算法相較于單個(gè)CNN模型在A,P,R,F(xiàn)1上都有較為明顯的提升.與單模型ResNet50相比A,P,R,F(xiàn)1分別提升2%,1.6%,1.7%,1.5%.和單模型InceptionV3相比A,P,R,F(xiàn)1分別提升6.8%,7.6%,7.5%,7.8%.這驗(yàn)證了將模型特征的融合確實(shí)能對(duì)圖片分類有提升效果.
表4 各模型在自建數(shù)據(jù)集中測(cè)試結(jié)果對(duì)比
4.3.2 遷移學(xué)習(xí)對(duì)實(shí)驗(yàn)結(jié)果的影響
為了驗(yàn)證遷移學(xué)習(xí)對(duì)CNN在SED數(shù)據(jù)集上的必要性和有效性,進(jìn)行了遷移學(xué)習(xí)和不使用遷移學(xué)習(xí)的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示.實(shí)驗(yàn)結(jié)果表明,基于遷移學(xué)習(xí)的融合模型在測(cè)試集上的A,P,R和F1值較不使用遷移學(xué)習(xí)融合模型分別提升21%,18%,20%,20%.采用遷移學(xué)習(xí)方法后,數(shù)據(jù)限制就不再明顯,這對(duì)于小數(shù)據(jù)集而言,提升效果非常顯著.
表5 遷移學(xué)習(xí)與不使用遷移學(xué)習(xí)結(jié)果對(duì)比(*代表不使用遷移學(xué)習(xí))
4.3.3 消融實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證選取ResNet50和InceptionV3模型進(jìn)行融合的有效性,再次做了相關(guān)的消融實(shí)驗(yàn),比較不同模型融合的檢測(cè)性能,實(shí)驗(yàn)結(jié)果如表4所示.其中將A和B融合的模型用Cat_A_B表示,例如Cat_AlexNet_Vgg16代表將AlexNet和Vgg16模型進(jìn)行融合.
對(duì)于模型融合來說,通??色@得比單模型更好的泛化性,至少對(duì)于較弱模型來說能有一定的提升(見表6),表6中,Cat_AlexNet_Vgg16、Cat_AlexNet_ResNet50、Cat_Vgg16_InceptionV3、Cat_ResNet50_InceptionV3相比于表現(xiàn)較弱的單模型性能都有一定提升.但也發(fā)現(xiàn)Cat_AlexNet_InceptionV3和Cat_Vgg16_ResNet50沒有明顯的提升.分析原因,通過表4中的單模型結(jié)果來看,對(duì)于ResNet50和Vgg16在SED上表現(xiàn)較好,這2個(gè)模型雖然在結(jié)構(gòu)上有一定的區(qū)別,但本質(zhì)上是通過不斷加深網(wǎng)絡(luò)結(jié)構(gòu)來提升性能.對(duì)于我們自建的體育器材數(shù)據(jù)集涉及種類較多,其中超類中的很多子類別差異性較小,所以通過較深的網(wǎng)絡(luò)模型來提取更豐富的特征從而達(dá)到較好的分類效果.模型的融合一般是來做信息互補(bǔ)的,將2個(gè)較為相似的網(wǎng)絡(luò)進(jìn)行融合,效果并不會(huì)變好.所以Cat_Vgg16_ResNet50效果提升并不明顯.
表6 不同模型融合測(cè)試結(jié)果對(duì)比
對(duì)于單模型AlexNet和InceptionV3在SED上效果較差,分析原因可知,AlexNet的深度只有8層,且SED數(shù)據(jù)集涉及樣本較多但數(shù)據(jù)數(shù)量較少,學(xué)不出較好的特征,從而導(dǎo)致效果較差.對(duì)于InceptionV3網(wǎng)絡(luò),其目標(biāo)并不是精準(zhǔn)化特征提取,而是通過使網(wǎng)絡(luò)變寬,提高特征張量寬度,復(fù)用更多的特征,來提高分類性能.這種網(wǎng)絡(luò)更適合于圖像中目標(biāo)大小差別很大的圖片.對(duì)于本文的數(shù)據(jù)集,涉及的場(chǎng)景較豐富,同種器材在不同場(chǎng)景下的大小也不一致,這給InceptionV3網(wǎng)絡(luò)帶來一定挑戰(zhàn),將這兩個(gè)較弱的模型融合后,并不能取得很好的效果.因此要選出好而不同的模型進(jìn)行融合才能達(dá)到更好的效果,對(duì)于本文的數(shù)據(jù)集,選取選取2個(gè)網(wǎng)絡(luò)結(jié)構(gòu)差異較大的網(wǎng)絡(luò)ResNet50和InceptionV3結(jié)合,ResNet50在深度上有優(yōu)勢(shì),InceptionV3在網(wǎng)絡(luò)的寬度上有優(yōu)勢(shì),將二者的優(yōu)勢(shì)進(jìn)行互補(bǔ).從而達(dá)到提升分類性能的效果.
此外還比較了兩種特征融合方式,結(jié)果如表7所示,由表7可發(fā)現(xiàn)基于Add操作的融合方式的性能低于基于Concat操作.分析原因:(1)直接Add操作會(huì)對(duì)信息造成負(fù)面影響.如果兩個(gè)被加的向量不具備同類特征含義時(shí),通過Add操作,會(huì)得到新的特征,這個(gè)新的特征可以反映原始特征的一些特性,但是原始特征的一些信息也會(huì)在這個(gè)過程中損失,Concat是將原始特征直接拼接,讓網(wǎng)絡(luò)去學(xué)習(xí)如何融合特征,在這個(gè)過程中信息不會(huì)損失.(2)逐元素加和的方式要求不同層的特征具有完全一致的通道數(shù)量.Concat不受通道數(shù)量的限制,拼接為橫向或縱向空間上的疊加.雖然會(huì)改變維度,但能夠保留更多的特征信息.
表7 不同融合方法的模型性能比較
4.3.4 基于ResNet50和InceptionV3模型融合的F1值分析
為進(jìn)一步驗(yàn)證本文方法的有效性,對(duì)ResNet50、InceptionV3和Cat_ResNet50_InceptionV3 3種模型在所有超類上的F1值進(jìn)行比較.如表8所示.
由表8可知,該體育器材圖片數(shù)據(jù)集在單模型上訓(xùn)練時(shí),ResNet50在所有的超類中能表現(xiàn)出較好的結(jié)果,再次證明了ResNet50網(wǎng)絡(luò)的性能優(yōu)勢(shì).利用Concat的融合將ResNet50和InceptionV3模型融合后,融合模型在球類、冰雪器材和健身器材類的F1值比ResNet50的F1值分別提升了3.6%,5.9%,2.0%.相比較于InceptionV3,F(xiàn)1值在所有超類中都有提高,幅度在1.7%~11.4%之間.雖然InceptionV3在總體超類上的性能低于ResNet50,但是對(duì)于超類中的子類,與ResNet50融合后還是有一定的優(yōu)勢(shì),為了更直觀的說明這種優(yōu)勢(shì),列舉了通過融合InceptionV3和ResNet50模型后F1值提升較為明顯的類別,如表9所示.針對(duì)下述舉例的類別,雖然在每個(gè)單模型表現(xiàn)的性能不是很好,但是在模型進(jìn)行融合后上,效果有很顯著地提升.
表9 提升效果明顯類別的F1值
4.3.5 識(shí)別結(jié)果測(cè)試
測(cè)試了6張圖片,分別將圖片傳入Resnet50和Cat_ResNet50_InceptionV3模型中進(jìn)行分類識(shí)別,結(jié)果如圖7所示,可以看出,模型的融合能夠提升一定的識(shí)別效率.因此本文提出模型特征融合方法對(duì)體育器材圖像識(shí)別是有效的.
圖7 體育器材圖片識(shí)別效果
針對(duì)現(xiàn)有基準(zhǔn)體育器材圖像數(shù)據(jù)集的種類較少、缺乏實(shí)用性等問題,本文構(gòu)建了體育器材數(shù)據(jù)集SED.相比之下,SED數(shù)據(jù)集在種類數(shù)量和可拓展性方面具有較大的優(yōu)勢(shì).當(dāng)樣本的種類增加但數(shù)量卻不足時(shí),會(huì)帶來分類精確率和泛化能力弱的問題,基于此本文提出模型融合與遷移學(xué)習(xí)相結(jié)合的體育器材分類方法,通過模型融合結(jié)合多方位信息來獲取更準(zhǔn)確的分類,再利用遷移學(xué)習(xí)來解決體育器材數(shù)據(jù)有限的問題.最終在測(cè)試集上得到A為85%,P為85.6%,R為85%,平均F1值為84.7%.相比于單獨(dú)使用卷積神經(jīng)網(wǎng)絡(luò)模型的方法準(zhǔn)確率有所提升.但是目前仍然有一些尚待解決和值得研究的問題:(1)目前采用的融合方法,僅僅是對(duì)兩個(gè)模型提取出的特征進(jìn)行單純地融合,下一步希望探索嘗試更有效的特征融合方法.(2)需進(jìn)一步擴(kuò)建數(shù)據(jù)集,并嘗試將目標(biāo)檢測(cè)功能添加到模型中,進(jìn)一步提高模型的識(shí)別率和實(shí)用性.(3)目前僅僅是在實(shí)驗(yàn)室搜集的圖片集上達(dá)到不錯(cuò)的分類效果,還需要其他的圖片進(jìn)行驗(yàn)證.