国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

偽標(biāo)簽置信選擇的半監(jiān)督集成學(xué)習(xí)視頻語(yǔ)義檢測(cè)

2019-10-23 12:23尹玉詹永照姜震
計(jì)算機(jī)應(yīng)用 2019年8期

尹玉 詹永照 姜震

摘 要:在視頻語(yǔ)義檢測(cè)中,有標(biāo)記樣本不足會(huì)嚴(yán)重影響檢測(cè)的性能,而且偽標(biāo)簽樣本中的噪聲也會(huì)導(dǎo)致集成學(xué)習(xí)基分類器性能提升不足。為此,提出一種偽標(biāo)簽置信選擇的半監(jiān)督集成學(xué)習(xí)算法。首先,在三個(gè)不同的特征空間上訓(xùn)練出三個(gè)基分類器,得到基分類器的標(biāo)簽矢量;然后,引入加權(quán)融合樣本所屬某個(gè)類別的最大概率與次大概率的誤差和樣本所屬某個(gè)類別的最大概率與樣本所屬其他各類別的平均概率的誤差,作為基分類器的標(biāo)簽置信度,并融合標(biāo)簽矢量和標(biāo)簽置信度得到樣本的偽標(biāo)簽和集成置信度;接著,選擇集成置信度高的樣本加入到有標(biāo)簽的樣本集,迭代訓(xùn)練基分類器;最后,采用訓(xùn)練好的基分類器集成協(xié)作檢測(cè)視頻語(yǔ)義概念。該算法在實(shí)驗(yàn)數(shù)據(jù)集UCF11上的平均準(zhǔn)確率到達(dá)了83.48%,與Co-KNN-SVM算法相比,平均準(zhǔn)確率提高了3.48個(gè)百分點(diǎn)。該算法選擇的偽標(biāo)簽?zāi)荏w現(xiàn)樣本所屬類別與其他類別的總體差異性,又能體現(xiàn)所屬類別的唯一性,可減少利用偽標(biāo)簽樣本的風(fēng)險(xiǎn),有效提高視頻語(yǔ)義概念檢測(cè)的準(zhǔn)確率。

關(guān)鍵詞:視頻語(yǔ)義概念檢測(cè);半監(jiān)督;集成學(xué)習(xí);偽標(biāo)簽;置信度

中圖分類號(hào):?TP391.41

文獻(xiàn)標(biāo)志碼:A

Semi-supervised ensemble learning for video semantic detection based on pseudo-label confidence selection

YIN Yu, ZHAN Yongzhao*, JIANG Zhen

School of Computer Science and Telecommunication Engineering, Jiangsu University, Zhenjiang Jiangsu 212013, China

Abstract:

Focusing on the problems in video semantic detection that the insufficience of labeled samples would seriously affect the performance of the detection and the performances of the base classifiers in ensemble learning would be improved deficiently due to noise in the pseudo-label samples, a semi-supervised ensemble learning algorithm based on pseudo-label confidence selection was proposed. Firstly, three base classifiers were trained in three different feature spaces to get the label vectors of the base classifiers. Secondly, the error between the maximum and submaximal probability of a certain class of weighted fusion samples and the error between the maximum probability of a certain class of samples and the average probability of the other classes of samples were introduced as the label confidences of the base classifiers, and the pseudo-label and integrated confidence of samples were obtained through fusing label vectors and label confidences. Thirdly, samples with high degree of integrated confidence were added to the labeled sample set, and base classifiers were trained iteratively. Finally, the trained base classifiers were integrated to detect the video semantic concept collaboratively. The average accuracy of the algorithm on the experimental data set UCF11 reaches 83.48%. Compared with Co-KNN-SVM algorithm, the average accuracy is increased by 3.48 percentage points. The selected pseudo-label by the algorithm can reflect the overall variation among the class of samples and other classes, as well as the uniqueness of the class of samples, which can reduce the risk of using pseudo-label samples, and effectively improve the accuracy of video semantic concept detection.

Key words:

video semantic concept detection; semi-supervised; ensemble learning; pseudo-label; confidence

0 引言

在多媒體技術(shù)和互聯(lián)網(wǎng)技術(shù)大發(fā)展的環(huán)境下,視頻資源得到了人們的廣泛關(guān)注。近些年來(lái),智能攜帶設(shè)備所代表的移動(dòng)互聯(lián)網(wǎng)的興起,視頻特別是短視頻依然是人們最感興趣的內(nèi)容之一。在這種情況下,如何快速又準(zhǔn)確地幫助用戶獲取其關(guān)注的語(yǔ)義概念[1],更有效地檢測(cè)出視頻事件,已經(jīng)成為當(dāng)前迫切需要解決的問(wèn)題[2-4]。

網(wǎng)絡(luò)視頻檢索早先是采用人工標(biāo)注視頻語(yǔ)義概念,由已標(biāo)注的視頻語(yǔ)義概念實(shí)現(xiàn)檢索;但是手工標(biāo)注十分耗時(shí),同時(shí)由于每個(gè)人對(duì)視頻理解的差異性,手動(dòng)標(biāo)注還具有主觀性,無(wú)法應(yīng)對(duì)大量而豐富多彩的視頻內(nèi)容檢索任務(wù)。為了克服手工標(biāo)注的缺點(diǎn),研究者們提出了基于內(nèi)容的視頻檢索檢測(cè)方法,但是這種方法采用的是視頻的低層視覺(jué)特征進(jìn)行相似性檢索檢測(cè),不能體現(xiàn)視頻的高層語(yǔ)義信息。為了跨越低層特征到高層語(yǔ)義概念之間的語(yǔ)義鴻溝,基于語(yǔ)義的視頻檢測(cè)技術(shù)應(yīng)運(yùn)而生。基于語(yǔ)義的視頻檢測(cè)技術(shù)利用人們所理解的視頻內(nèi)容的高層語(yǔ)義概念建立了低層特征與高層語(yǔ)義概念之間的映射關(guān)系,并使用這種映射關(guān)系實(shí)現(xiàn)視頻內(nèi)容的檢測(cè),使計(jì)算機(jī)對(duì)視頻的理解更貼近人的思維,所表達(dá)出的語(yǔ)義概念更加準(zhǔn)確,因此基于語(yǔ)義的視頻檢測(cè)技術(shù)已成為了當(dāng)今研究視頻檢索檢測(cè)的熱門(mén)和熱點(diǎn)。

基于語(yǔ)義的視頻檢測(cè)最關(guān)鍵的技術(shù)之一是語(yǔ)義模型的建立。充分的視頻語(yǔ)義模型的描述和其泛化能力是提高視頻語(yǔ)義概念檢測(cè)準(zhǔn)確性的關(guān)鍵所在,但是在現(xiàn)實(shí)應(yīng)用中,由于訓(xùn)練模型的有標(biāo)記樣本嚴(yán)重不足,而未標(biāo)記樣本往往很容易收集,因此如何利用這些大量的未標(biāo)記樣本來(lái)更合理地建立視頻語(yǔ)義概念模型并使其具有良好的泛化性能,就成為了研究重點(diǎn)。半監(jiān)督學(xué)習(xí)[5]恰恰提供了一條利用“廉價(jià)”的未標(biāo)記樣本的途徑,它能自動(dòng)地利用未標(biāo)記樣本來(lái)提升語(yǔ)義概念分類器模型的性能;但是預(yù)測(cè)效果不好的分類器會(huì)造成誤差傳播,導(dǎo)致最終學(xué)習(xí)得到的分類器的性能提升不足。而集成學(xué)習(xí)[6]則是通過(guò)構(gòu)建并結(jié)合多個(gè)有差異的分類器來(lái)協(xié)同完成學(xué)習(xí)任務(wù),可以有效地抑制誤差傳播,從而可以獲得比單一分類器更顯著的性能提升和泛化效果。

目前利用對(duì)無(wú)標(biāo)記樣本進(jìn)行半監(jiān)督集成學(xué)習(xí)獲得的偽標(biāo)簽樣本來(lái)增強(qiáng)分類器訓(xùn)練還存在著偽標(biāo)簽樣本引入的噪聲問(wèn)題[7-9],如何更置信地選擇偽標(biāo)簽樣本促進(jìn)分類器的協(xié)同學(xué)習(xí)、提升視頻語(yǔ)義概念檢測(cè)性能仍需進(jìn)一步研究。

為了保證集成學(xué)習(xí)的基分類器的差異性,解決半監(jiān)督學(xué)習(xí)的分類器效果不理想導(dǎo)致的偽標(biāo)簽誤差傳播問(wèn)題,本文提出一種偽標(biāo)簽置信選擇的半監(jiān)督集成學(xué)習(xí)的視頻語(yǔ)義檢測(cè)方法。該方法利用不同特征所訓(xùn)練出的基分類器進(jìn)行偽標(biāo)簽預(yù)測(cè),引入加權(quán)融合樣本所屬某個(gè)類別的最大概率與次大概率的誤差和樣本所屬某個(gè)類別的最大概率與樣本所屬其他各類別的平均概率誤差,來(lái)確定樣本作為偽標(biāo)簽的置信度,融合選擇偽標(biāo)簽置信度高的樣本加入到有標(biāo)簽的樣本集,迭代訓(xùn)練基分類器,最后采用訓(xùn)練好的基分類器集成融合檢測(cè)視頻語(yǔ)義概念,以期有效減小利用未標(biāo)記樣本的風(fēng)險(xiǎn),提高視頻語(yǔ)義概念檢測(cè)的準(zhǔn)確性。

1 相關(guān)研究

1.1 基于多特征的視頻語(yǔ)義檢測(cè)方法

基于多特征的視頻語(yǔ)義檢測(cè)就是利用不同的特征提取算法,采用不同的結(jié)合策略對(duì)視頻中的對(duì)象進(jìn)行檢測(cè)的方法。它主要分兩類,第一類是只利用視頻中視覺(jué)圖像特征進(jìn)行語(yǔ)義檢測(cè)。此類方法分別使用基于視覺(jué)圖像的特征提取算法對(duì)視頻進(jìn)行特征提取,然后將得到的特征向量采用某種方法結(jié)合,形成統(tǒng)一的特征向量。文獻(xiàn)[10]利用多特征加權(quán)融合方法提取行人特征,與前一幀中的行人特征信息進(jìn)行匹配;文獻(xiàn)[11]分別提取顏色、區(qū)域和紋理特征向量,然后結(jié)合這些特征向量和主成分分析(Principal Component Analysis, PCA)得到用于分類的低維特征向量;

這里的兩幅彩色RGB特征圖是根據(jù)不同的特征公式得到的兩個(gè)不同的特征。

文獻(xiàn)[12]把根據(jù)不同的特征公式得到的兩幅彩色RGB(Red Green Blue)特征圖、紋理特征圖和運(yùn)動(dòng)特征圖這四個(gè)特征映射通過(guò)四元數(shù)離散余弦變換,組合生成四元數(shù)特征。第二類則是利用視覺(jué)圖像特征以外的特征和視覺(jué)圖像特征相結(jié)合的方法來(lái)表達(dá)視頻的特征。在文獻(xiàn)[13]中提取人物衣服的顏色以及人物聲音作為視頻特征,而文獻(xiàn)[14]則結(jié)合顏色和紋理的圖像特征和相應(yīng)的文本特征作為視頻的特征。這類特征組合方法雖然有較好的效果,但并不是所有的視頻都會(huì)具有音頻或文本等特征,所以該類特征組合方法有較大的局限性。而在視頻語(yǔ)義檢測(cè)中所采用的特征提取方法,既要表達(dá)人們觀看視頻時(shí)所關(guān)注的人或物體的顏色、輪廓和紋理等信息,又要適應(yīng)環(huán)境和人或物體的運(yùn)動(dòng)而導(dǎo)致的變化。HSV(Hue Saturation Value)顏色模型恰恰符合人眼的視覺(jué)特征,直接用色調(diào)(Hue, H)、飽和度(Saturation, S)和亮度(Value, V)這三要素來(lái)表達(dá)顏色空間。而局部二值模式(Local Binary Pattern, LBP)是一種描述圖像局部紋理的特征提取方法,主要反映像素與周?chē)袼刂g的關(guān)系,它具有灰度不變性和旋轉(zhuǎn)不變性。方向梯度直方圖(Histogram of Oriented Gradients, HOG)是一種進(jìn)行物體檢測(cè)的特征描述方法,通過(guò)計(jì)算局部區(qū)域的每個(gè)像素的梯度,并且統(tǒng)計(jì)直方圖來(lái)構(gòu)成特征,具有幾何和光學(xué)的形變不變性。根據(jù)以上三種特征提取方法的特點(diǎn),本文通過(guò)使用這三種特征提取方法所訓(xùn)練出的代表不同特征視角的分類器來(lái)保證集成學(xué)習(xí)基分類器的差異性。

1.2 半監(jiān)督與集成學(xué)習(xí)視頻語(yǔ)義檢測(cè)方法

有不少研究者研究了基于半監(jiān)督學(xué)習(xí)的視頻語(yǔ)義檢測(cè)方法。Martin等[15]提出了一個(gè)完整的、一般的和模塊化的半監(jiān)督系統(tǒng),它能夠檢測(cè)和跟蹤多攝像機(jī)運(yùn)動(dòng)視頻中的每個(gè)運(yùn)動(dòng)員,而且為了匹配跨攝像機(jī)的軌跡,重點(diǎn)研究了所檢測(cè)出的斑點(diǎn)的不同軌跡的融合。

Zhan等[16]提出了一種基于視頻語(yǔ)義檢測(cè)的自適應(yīng)概率超圖的半監(jiān)督增量學(xué)習(xí)方法。在概率超圖模型中,可以自適應(yīng)地決定頂點(diǎn)是否屬于超集。該模型可以克服傳統(tǒng)概率超圖模型中屬于同一超集的固定數(shù)頂點(diǎn)的缺陷,具有很強(qiáng)的魯棒性。

Misra等[17]提出了一種半監(jiān)督的方法,該方法在長(zhǎng)視頻中定位多個(gè)未知對(duì)象實(shí)例,從少量有標(biāo)簽框開(kāi)始,學(xué)習(xí)和標(biāo)注數(shù)十萬(wàn)個(gè)對(duì)象實(shí)例;同時(shí)還提出了用于約束半監(jiān)督學(xué)習(xí)過(guò)程的準(zhǔn)則。實(shí)驗(yàn)通過(guò)評(píng)估各種度量上的自動(dòng)標(biāo)記數(shù)據(jù)驗(yàn)證了該方法的有效性。但這些方法在不同程度上存在著偽標(biāo)簽樣本引入的噪聲問(wèn)題,限制了語(yǔ)義概念分類模型性能的提升。

在基于集成學(xué)習(xí)的視頻語(yǔ)義概念檢測(cè)方面,Yang等[18]提出了一種積極的增強(qiáng)型集成學(xué)習(xí)框架,包含了新的采樣技術(shù)和基于基本學(xué)習(xí)算法的集成學(xué)習(xí)機(jī)制,在探索性實(shí)驗(yàn)中證明了該框架的有效性。

Mitrea等[19]主要研究視頻監(jiān)控多實(shí)例人物檢索問(wèn)題,使用增強(qiáng)、打包和混合(堆疊)這三種基于集成學(xué)習(xí)的技術(shù)訓(xùn)練多個(gè)學(xué)習(xí)器,并且組合其輸出。該方案在評(píng)估系統(tǒng)中也得到了較好的結(jié)果。

文獻(xiàn)[9]提出了一種協(xié)同訓(xùn)練半監(jiān)督學(xué)習(xí)方法——Co-KNN-SVM,該方法利用K近鄰(K-Nearest Neighbors, KNN)和支持向量機(jī)(Support Vector Machine, SVM)作為基分類器,分別用這兩個(gè)基分類器對(duì)無(wú)標(biāo)簽樣本進(jìn)行預(yù)測(cè),形成偽標(biāo)簽樣本集,然后利用偽標(biāo)簽選擇策略,選擇出具有較高置信度的樣本加入到對(duì)方訓(xùn)練集中迭代訓(xùn)練,利用這兩個(gè)性能較好的基分類器進(jìn)行視頻語(yǔ)義概念檢測(cè)分類。但這些方法還未更合理考慮利用各分類器檢測(cè)的置信度來(lái)融合檢測(cè)語(yǔ)義概念,影響了語(yǔ)義概念檢測(cè)分類性能的進(jìn)一步提升。

2 偽標(biāo)簽置信選擇的半監(jiān)督集成分類器訓(xùn)練

2.1 算法的基本思想

現(xiàn)有研究已表明集成特征不同的基分類器進(jìn)行任務(wù)的分類可提高分類的性能[20-22],然而在有標(biāo)簽訓(xùn)練樣本有限的情形下,各基分類器訓(xùn)練不足會(huì)影響分類性能,從而影響集成分類的最終分類性能與泛化能力。偽標(biāo)簽置信選擇的半監(jiān)督集成分類器訓(xùn)練的基本思想是:采用半監(jiān)督集成學(xué)習(xí)在無(wú)標(biāo)簽的樣本中更置信地判斷出其標(biāo)簽,即偽標(biāo)簽,并將置信度高的偽標(biāo)簽樣本選擇出來(lái),加入到有標(biāo)簽的訓(xùn)練樣本集中重新訓(xùn)練各基分類器,以便提升各基分類器的分類性能,從而提升集成分類最終的分類性能與泛化能力。本文算法將樣本集分為:有標(biāo)簽樣本集DL、無(wú)標(biāo)簽樣本集DU和預(yù)測(cè)試樣本集DT,分別采用HSV、LBP和HOG方法對(duì)視頻關(guān)鍵幀進(jìn)特征提取,使用這些有差異性的特征作為各自的支持向量機(jī)基分類器SVMHSV、SVMLBP和SVMHOG訓(xùn)練和預(yù)測(cè)試的特征向量。

首先,在有標(biāo)簽樣本集DL上訓(xùn)練三個(gè)基分類器;然后,使用這三個(gè)分類器對(duì)無(wú)標(biāo)簽樣本集DU進(jìn)行預(yù)測(cè),得到相應(yīng)的樣本偽標(biāo)簽和置信度,

并根據(jù)偽標(biāo)簽融合選擇策略選擇置信度最高的前m個(gè)偽標(biāo)簽樣本,將這些樣本從DU中刪去并加入到DL中,從而形成新的DL和DU,

再進(jìn)一步迭代訓(xùn)練基分類器,并用預(yù)測(cè)試樣本集DT進(jìn)行集成分類測(cè)試,從而獲得集成分類性能更高的基分類器,直到無(wú)標(biāo)簽樣本集DU為空或集成分類性能已無(wú)法再提升為止。本文算法的處理流程如圖1所示。

2.2 偽標(biāo)簽選擇策略

在半監(jiān)督學(xué)習(xí)偽標(biāo)簽樣本重新注入過(guò)程中,需要根據(jù)置信度選擇偽標(biāo)簽樣本。傳統(tǒng)的方法是選擇基分類器的最大類預(yù)測(cè)概率作為選擇偽標(biāo)簽樣本為該類的置信度,文獻(xiàn)[9]提出了對(duì)基分類器采用樣本所屬某個(gè)類別的最大概率與次大概率的誤差作為該基分類器的置信度。但是這些置信度并沒(méi)有充分表達(dá)樣本的隨機(jī)分布特性,因此這些置信度無(wú)法合理地權(quán)衡樣本所屬類別與其他類別的總體差異性和所屬類別的唯一性。所以本文考慮加權(quán)融合樣本所屬某個(gè)類別的最大概率與次大概率的誤差和樣本所屬某個(gè)類別的最大概率與樣本所屬其他各類別的平均概率誤差,以確定樣本作為基分類器對(duì)偽標(biāo)簽選擇的置信度,該置信度既可考慮樣本所屬類別與其他類別的總體差異性,又可考慮所屬類別的唯一性。該置信度算式如下:

Cg( x )= (1-λ)(Pmaxg( x )-Psubmaxg( x ))+

λ Pmaxg( x )- 1 n-1

∑ n-1 i=1, ?pg,i( x )≠Pmaxg( x )

pg,i(x)

(1)

其中:Cg( x )表示基分類器g判別樣本 x 所屬某個(gè)類別的標(biāo)簽置信度,g∈{SVMHSV,SVMLBP,SVMHOG};Pmaxg( x )表示基分類器g判別樣本 x 所屬某個(gè)類別的最大概率;Psubmaxg( x )表示基分類器g判別樣本 x 所屬某個(gè)類別的次大概率; 1 n-1

∑ n-1 i=1, ?pg,i( x )≠Pmaxg( x )

pg,i( x )表示基分類器g判別樣本 x 所屬某個(gè)類別的除了最大概率之外的概率平均值;pg,i( x )表示基分類器g判別樣本 x 所屬類別i的概率;λ為置信度參數(shù),0<λ<1;n為數(shù)據(jù)樣本集的類別總數(shù)。

本置信度算式有效性和可行性分析:

式(1)等號(hào)右邊的第一項(xiàng)(+號(hào)前的項(xiàng))是測(cè)量樣本所屬某個(gè)類別的最大概率與所屬另一類別且是所有類別中的次大概率的誤差,該誤差越大,表明分類器將樣本鑒別為最大概率的類別越確定、越唯一。這與文獻(xiàn)[9]的思想是一致的,文獻(xiàn)[9]的置信度是本置信度的特例。式(1)等號(hào)右邊的第二項(xiàng)(+號(hào)后的項(xiàng))是測(cè)量樣本所屬某個(gè)類別的最大概率與樣本所屬其他各類別的平均概率誤差,該誤差越大,相對(duì)其他類別來(lái)看,分類器將樣本鑒別為最大概率的類別越值得肯定。因此本置信度算式綜合考慮了以上2項(xiàng)的誤差,既可衡量分類器判別類別的唯一性程度,又可衡量分類器判別類別值得認(rèn)可的程度,故本置信度算式是有效和可行的。

3 多分類器集成的視頻語(yǔ)義概念檢測(cè)

對(duì)一個(gè)待檢測(cè)視頻樣本 x k,本文的多分類器集成的視頻語(yǔ)義檢測(cè)是基于待測(cè)樣本在每個(gè)基分類器檢測(cè)的語(yǔ)義概念類別的置信度的,集成融合各基分類器的檢測(cè)類別矢量和置信度,將集成檢測(cè)置信度最高的類別作為最終的視頻語(yǔ)義概念類別。該算法有以下四個(gè)步驟:

首先,對(duì)待檢測(cè)視頻樣本 x k

取k個(gè)關(guān)鍵幀,選用HSV、LBP和HOG這三種特征提取方法分別對(duì)這些關(guān)鍵幀進(jìn)行特征提取并形成特征向量;

其次,分別利用迭代訓(xùn)練得到的更優(yōu)基分類器SVMHSV、SVMLBP和SVMHOG對(duì)待檢測(cè)樣本 x k進(jìn)行預(yù)測(cè),得到預(yù)測(cè)標(biāo)簽矢量 y HSV( x k)、? y LBP( x k)和 y HOG( x k);

再次,使用式(1)得到各分類器的標(biāo)簽置信度CHSV( x k)、CLBP( x k)和CHOG( x k),再利用式(2)集成融合各基分類器的檢測(cè)類別標(biāo)簽矢量和標(biāo)簽置信度;

最后,利用式(3)和(4)將集成檢測(cè)置信度最高的類別作為最終的視頻語(yǔ)義概念類別。

多分類器集成的視頻語(yǔ)義概念檢測(cè)具體算法如算法2所示。

算法2

多分類器集成的視頻語(yǔ)義概念檢測(cè)算法。

輸入

已經(jīng)訓(xùn)練好的具有更優(yōu)性能的三個(gè)基分類器SVMHSV,SVMLBP,SVMHOG,待檢測(cè)視頻樣本 x k。

輸出

視頻樣本 x k的視頻語(yǔ)義概念類別l x k。

步驟1? 對(duì)待檢測(cè)視頻樣本 x k取k個(gè)關(guān)鍵幀,選用HSV、LBP和HOG這三種特征提取方法分別對(duì)這些關(guān)鍵幀進(jìn)行特征提取并形成特征向量。

步驟2? ?x k SVMHSV? ?y HSV x k, x k SVMLBP? ?y LBP x k,? x k SVMHOG? ?y HOG x k。

步驟3? ?x k 式(1)? CHSV x k, x k 式(1)? CLBP x k, x k 式(1)? CHOG x k,L( x ) 式(2)? a1,a2,…,an。

步驟4? 利用式(3)和(4)將集成檢測(cè)置信度最高的類別作為最終的視頻語(yǔ)義概念類別l x k。

返回:視頻樣本 x k的視頻語(yǔ)義概念類別l x k。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)采用的數(shù)據(jù)集是UCF YouTube Action數(shù)據(jù)集(UCF11)。在UCF11中,所有的視頻都轉(zhuǎn)換為29.97幀/s(frames per second, fps),并且完成了所有視頻的注釋。該數(shù)據(jù)集包含11個(gè)動(dòng)作類別:投籃球(basketball shooting)、

騎自行車(chē)(biking/cycling)、

跳水(diving)、打高爾夫(golf swinging)、騎馬(horse back riding)、顛球(soccer juggling)、蕩秋千(swinging)、打網(wǎng)球(tennis swinging)、蹦麻(trampoline jumping)、打排球(volleyball spiking)和溜狗(walking with a dog),如圖2所示。每個(gè)類別有25個(gè)組,每組有4個(gè)以上的視頻片段,同一組中的視頻具有相同的目標(biāo)、類似的背景和類似的視角等特點(diǎn)。在以上數(shù)據(jù)集上,利用基于視頻片段邊界的方法來(lái)進(jìn)行對(duì)視頻進(jìn)行關(guān)鍵幀提取,選取視頻片段的第一幀、中間幀和最后一幀這三幀作為關(guān)鍵幀,然后在這些關(guān)鍵幀的基礎(chǔ)上,利用本文提出的算法進(jìn)行視頻語(yǔ)義檢測(cè)。

4.2 置信度參數(shù)的實(shí)驗(yàn)分析

在半監(jiān)督學(xué)習(xí)偽標(biāo)簽樣本重新注入過(guò)程中,需要根據(jù)置信度選擇偽標(biāo)簽樣本。本文的置信度選擇方法如式(1)所示。該置信度是兩種誤差的加權(quán)融合,其中λ是置信度參數(shù)。在預(yù)測(cè)試集上,讓?duì)嗽赱0.1, 0.9]區(qū)間變化,得到了不同的置信度參數(shù)下的視頻語(yǔ)義概念預(yù)測(cè)準(zhǔn)確率的變化情況,如圖3所示。從圖3可以看出,在隨著λ增大,視頻語(yǔ)義概念預(yù)測(cè)準(zhǔn)確率逐步提高,這說(shuō)明代表類別概率波動(dòng)的誤差在分類器分類的置信度確定中有重要的貢獻(xiàn)。當(dāng)λ=0.7時(shí),預(yù)測(cè)準(zhǔn)確率達(dá)到最佳狀態(tài),所以本文將選用λ=0.7作為分類器分類的置信度參數(shù)。

4.3 實(shí)驗(yàn)對(duì)比分析

為了驗(yàn)證本文算法的有效性,本文選擇在HSV、LBP、HOG和HSV+LBP+HOG這四種特征空間下訓(xùn)練的SVM分類器和Co-KNN-SVM算法[9]與本文的算法進(jìn)行對(duì)比實(shí)驗(yàn),并采用十折交叉驗(yàn)證來(lái)計(jì)算各算法的檢測(cè)分類準(zhǔn)確率。

表1給出了分別在220、440、660個(gè)有標(biāo)記樣本下不同方法的平均檢測(cè)準(zhǔn)確率。由表1可知,由于本文的方法和Co-KNN-SVM采用了半監(jiān)督集成學(xué)習(xí),可以利用偽標(biāo)簽樣本來(lái)提升分類器性能,所以它們都比單獨(dú)使用SVM分類器進(jìn)行視頻語(yǔ)義檢測(cè)具有更高的準(zhǔn)確性。但是Co-KNN-SVM算法是基分類器KNN和SVM分別把置信度較高的偽標(biāo)簽樣本加入到對(duì)方的有標(biāo)簽訓(xùn)練集中,這樣會(huì)很容易引入噪聲,而本文算法是集成三個(gè)分類器,采用了更加合理的置信度選擇標(biāo)準(zhǔn),選取置信度較高的偽標(biāo)簽樣本加入到有標(biāo)簽訓(xùn)練集中進(jìn)行迭代訓(xùn)練,該置信度選擇策略既體現(xiàn)了樣本所屬類別與其他類別的總體差異性,又能體現(xiàn)所屬類別的唯一性,可有效降低偽標(biāo)簽樣本引入的噪聲,從而提升分類器的泛化能力,所以分類準(zhǔn)確率高于Co-KNN-SVM方法,在有標(biāo)記樣本數(shù)為220、440和660時(shí),本文方法比Co-KNN-SVM方法分別高出255個(gè)百分點(diǎn)、1.40個(gè)百分點(diǎn)和3.48個(gè)百分點(diǎn)。

表2給出了本文方法分別在220、440、660個(gè)有標(biāo)記樣本下11個(gè)類別的初始檢測(cè)準(zhǔn)確率和最終檢測(cè)準(zhǔn)確率。從表2可以看出,本文方法在三種有標(biāo)記樣本數(shù)下,經(jīng)過(guò)迭代集成訓(xùn)練,每個(gè)類別的檢測(cè)準(zhǔn)確率都有了較大的提升。在有標(biāo)記樣本數(shù)為220時(shí),diving、tennis swinging和volleyball spiking三類的檢測(cè)準(zhǔn)確率達(dá)到了90%以上,平均檢測(cè)準(zhǔn)確率提高了2220個(gè)百分點(diǎn)。在有標(biāo)記樣本數(shù)為440時(shí),平均檢測(cè)準(zhǔn)確率提高了13.36個(gè)百分點(diǎn)。在有標(biāo)記樣本數(shù)為660時(shí),basketball shooting類的最終檢測(cè)準(zhǔn)確率也提升到了90%以上,平均檢測(cè)準(zhǔn)確率提高了8.99個(gè)百分點(diǎn)。這說(shuō)明采用偽標(biāo)簽置信選擇的半監(jiān)督集成分類器迭代訓(xùn)練方法能有效提高視頻語(yǔ)義概念檢測(cè)準(zhǔn)確率。

同時(shí),又對(duì)目前優(yōu)秀的視頻語(yǔ)義概念檢測(cè)分類方法在UCF11數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)行比較。文獻(xiàn)[23]采用多特征的早期和晚期融合,并且結(jié)合場(chǎng)景上下文去處理視頻樣本,檢測(cè)分類準(zhǔn)確率達(dá)到了73.20%;文獻(xiàn)[24]采用將光流場(chǎng)和哈里斯三維角探測(cè)器相結(jié)合的方法來(lái)獲得一種新的視頻序列的時(shí)空估計(jì),然后從估計(jì)動(dòng)作區(qū)域中提取局部特征,最后利用SVM進(jìn)行檢測(cè),檢測(cè)分類準(zhǔn)確率達(dá)到了76.06%;文獻(xiàn)[25]研究了基于多通道的時(shí)空興趣點(diǎn)的視頻語(yǔ)義概念問(wèn)題,檢測(cè)分類準(zhǔn)確率達(dá)到了78.6%;本文方法檢測(cè)的準(zhǔn)確率分別比文獻(xiàn)[23] 、文獻(xiàn)[24] 和文獻(xiàn)[25]方法提高了10.28個(gè)百分點(diǎn)、7.42個(gè)百分點(diǎn)和4.88個(gè)百分點(diǎn)。這說(shuō)明采用偽標(biāo)簽置信選擇的半監(jiān)督集成分類器迭代訓(xùn)練的多分類器集成的檢測(cè)分類方法能更合理融合多分類器協(xié)同檢測(cè)分類,有效提高視頻語(yǔ)義概念檢測(cè)準(zhǔn)確率。

5 結(jié)語(yǔ)

本文針對(duì)有標(biāo)記樣本不足會(huì)嚴(yán)重影響視頻語(yǔ)義概念分類器的檢測(cè)性能,以及由于在半監(jiān)督集成學(xué)習(xí)中偽標(biāo)簽樣本選擇置信不足而影響集成分類器性能提升有限的問(wèn)題,提出了一種偽標(biāo)簽置信選擇的半監(jiān)督集成學(xué)習(xí)的視頻語(yǔ)義概念檢測(cè)方法。該方法引入加權(quán)融合樣本所屬某個(gè)類別的最大概率與次大概率的誤差和樣本所屬某個(gè)類別的最大概率與樣本所屬其他各類別的平均概率誤差,來(lái)確定基分類器將樣本作為偽標(biāo)簽的置信度,融合選擇偽標(biāo)簽置信度高的樣本加入到有標(biāo)簽的樣本集,迭代訓(xùn)練基分類器,這種偽標(biāo)簽的選擇可有效減少利用偽標(biāo)簽樣本的風(fēng)險(xiǎn);再利用這種方法訓(xùn)練好的基分類器集成檢測(cè)視頻語(yǔ)義概念。實(shí)驗(yàn)結(jié)果表明,本文提出的方法與其他方法相比,能有效減少偽標(biāo)簽樣本引入的噪聲,同時(shí)更合理融合多分類器協(xié)同檢測(cè)分類,提升了視頻語(yǔ)義檢測(cè)的準(zhǔn)確性。在未來(lái)的工作中,可考慮引入基于深度學(xué)習(xí)的視頻特征與半監(jiān)督分類器集成學(xué)習(xí)相結(jié)合的方法,實(shí)現(xiàn)更有效的視頻語(yǔ)義概念檢測(cè)。

參考文獻(xiàn)

[1]?UEKI K, KOBAYASHI T. Object detection oriented feature pooling for video semantic indexing [C]// Proceedings of the 12th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. Setúbal: SciTePress, 2017, 5: 44-51.

[2]?KIKUCHI K, UEKI K, OGAWA T, et al. Video semantic indexing using object detection-derived features [C]// Proceedings of the 24th European Signal Processing Conference. Piscataway, NJ: IEEE, 2016: 1288-1292.

[3]??QUEMY A, JAMROG K, JANISZEWSKI M. Unsupervised video? semantic partitioning using IBM Watson and topic modelling [C]// Proceedings of the Workshops of the EDBT/ICDT 2018 Joint Conference. Piscataway, NJ: IEEE, 2018: 44-49.?Proceedings of the 2018 Workshops of the International Conference on Extending Database Technology and the International Conference on Database Theory. Vienna: CEUR-WS, 2018, 2083: 44-49.

[4]?SHELHAMER E, RAKELLY K, HOFFMAN J, et al. Clockwork convnets for video semantic segmentation [C]// Proceedings of the 14th European Conference on Computer Vision, LNCS 9915. Berlin: Springer, 2016: 852-868.

[5]?BULL L, WORDEN K, MANSON G, et al. Active learning for semi-supervised structural health monitoring [J]. Journal of Sound and Vibration, 2018, 437: 373-388.

[6]?ZHOU Z-H. Ensemble Methods: Foundations and Algorithms [M]. 1st ed. Boca Raton, FL: Chapman & Hall, 2012: 47-66.

[7]?JANG W D, KIM C-S. Semi-supervised video object segmentation using multiple random walkers [C]// Proceedings of the 27th British Machine Vision Conference. Guildford, UK: BMVA Press, 2016: 57.1-57.13.?http://www.bmva.org/bmvc/2016/papers/paper057/index.html

[8]?KUMAR V, NAMBOODIRI A, JAWAHAR C V. Semi-supervised annotation of faces in image collection [J]. Signal, Image and Video Processing, 2018, 12(1): 141-149.

[9]?景陳勇,詹永照,姜震.基于混合式協(xié)同訓(xùn)練的人體動(dòng)作識(shí)別算法研究[J].計(jì)算機(jī)科學(xué),2017,44(7):275-278. (JING C Y, ZHAN Y Z, JIANG Z. Research on action recognition algorithm based on hybrid cooperative training [J]. Computer Science, 2017, 44(7): 275-278.)

[10]?WANG X, SONG H, CUI H. Pedestrian abnormal event detection based on multi-feature fusion in traffic video [J]. Optik, 2018, 154: 22-32.

[11]?LI P, WANG H. Video semantic classification based on ELM and multi-features fusion [C]// Proceedings of the 2014 International Conference on Network Security and Communication Engineering. Leiden: CRC Press, 2015: 305-308.?NSCE 2014

[12]?嚴(yán)云洋, 杜靜, 高尚兵, 等. 融合多特征的視頻火焰檢測(cè)[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2015, 27(3): 433-440. (YAN Y Y, DU J, GAO S B, et al. Video flame detection based on fusion of multi-feature [J]. Journal of Computer-Aded Design & Computer Graphics, 2015, 27(3): 433-440.)

[13]?蔣鵬, 秦小麟. 一種基于多特征的視頻人物聚類方法[J].計(jì)算機(jī)科學(xué),2008,35(5):240-242,245. (JIANG P, QIN X L. Automated person indexing in video [J]. Computer Science, 2008, 35(5): 240-242, 245.)

[14]?陳芬,賴茂生.多特征視頻分類挖掘?qū)嶒?yàn)研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2012,28(5):76-80. (CHEN F, LAI M S. Video classification using multiple features [J]. New Technology of Library and Information Service, 2012, 28 (5): 76-80.)

[15]??MARTN R, MARTNEZ J M. A semi-supervised system for players detection and tracking in multi-camera soccer videos [J]. Multimedia Tools & Applications, 2014, 73(3): 1617-1642.

[16]?ZHAN Y, SUN J, NIU D, et al. A semi-supervised incremental learning method based on adaptive probabilistic hypergraph for video semantic detection [J]. Multimedia Tools & Applications, 2015, 74(15): 5513-5531.

[17]??MISRA I, SHRIVASTAVA A, HEBERT M. Watch and learn:? semi-supervised learning of object detectors from videos [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3593-3602.

[18]?YANG Y, CHEN S. Ensemble learning from imbalanced data set for video event detection [C]// Proceedings of the 16th IEEE International Conference on Information Reuse and Integration. Piscataway, NJ: IEEE, 2015: 82-89.

[19]?MITREA C A, CARATA S, IONESCU B, et al. Ensemble-based learning using few training samples for video surveillance scenarios [C]// Proceedings of the 5th International Conference on Image Processing, Theory, Tools and Applications. Piscataway, NJ: IEEE, 2015: 93-98.

[20]?SHI W, JIANG M. Face recognition based on multi-view: ensemble learning [C]// Proceedings of the 1st Chinese Conference on Pattern Recognition and Computer Vision, LNCS 11258. Cham: Springer, 2018: 127-136.

[21]?ZHANG Y, HUANG Q, MA X, et al. Using multi-features and ensemble learning method for imbalanced malware classification [C]// Proceedings of the 2016 IEEE Trustcom/BigDataSE/ISPA. Piscataway, NJ: IEEE, 2016: 965-973.?15th IEEE International Conference on Trust, Security and Privacy in Computing and Communications

[22]?ALBUKHANAJER W A, JIN Y, BRIFFA J A. Classifier ensembles for image identification using multi-objective Pareto features [J]. Neurocomputing, 2017, 238: 316-327.

[23]?REDDY K K, SHAH M. Recognizing 50 human action categories of web videos [J]. Machine Vision and Applications, 2013, 24(5): 971-981.

[24]?LIU D, SHYU M, ZHAO G. Spatial-temporal motion information integration for action detection and recognition in non-static background [C]// Proceedings of the 14th International Conference on Information Reuse and Integration. Washington, DC: IEEE Computer Society, 2013: 626-633.

[25]?EVERTS I, GEMERT J C van, GEVERS T. Evaluation of color STIPs for human action recognition [C]// Proceedings of the 26th IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 2850-2857.

习水县| 长春市| 宁波市| 博野县| 芷江| 南雄市| 巩义市| 图片| 胶南市| 镶黄旗| 正安县| 海城市| 衡东县| 三台县| 吴旗县| 中西区| 密山市| 杭州市| 长海县| 肃宁县| 喀喇| 峨眉山市| 芦山县| 西林县| 德阳市| 海南省| 桐柏县| 逊克县| 略阳县| 德州市| 辽源市| 八宿县| 浮梁县| 凌源市| 九寨沟县| 桐乡市| 鹤庆县| 景谷| 日喀则市| 白朗县| 英吉沙县|