国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于遷移學(xué)習(xí)的行人檢測研究進展

2014-08-05 02:40:56王向東錢躍良
計算機工程與應(yīng)用 2014年24期
關(guān)鍵詞:檢測器行人分類器

邵 松,劉 宏,王向東,錢躍良

1.中國科學(xué)院 計算技術(shù)研究所 普適計算研究中心,北京 100190

2.中國科學(xué)院 計算技術(shù)研究所 移動計算與新型終端北京市重點實驗室,北京 100190

基于遷移學(xué)習(xí)的行人檢測研究進展

邵 松1,2,劉 宏1,2,王向東1,2,錢躍良1,2

1.中國科學(xué)院 計算技術(shù)研究所 普適計算研究中心,北京 100190

2.中國科學(xué)院 計算技術(shù)研究所 移動計算與新型終端北京市重點實驗室,北京 100190

1 引言

行人檢測是指在輸入的圖像或視頻中確定是否存在行人,并給出其位置、尺度大小等信息。它在智能視頻監(jiān)控、車輛輔助駕駛、人體行為分析等方面有著廣泛的應(yīng)用,是計算機視覺領(lǐng)域的核心技術(shù)之一。同時由于背景的動態(tài)變化,以及視角、尺度、遮擋和姿態(tài)等的影響造成行人外觀的多樣性,使得行人檢測成為計算機視覺領(lǐng)域的研究熱點和難點。

現(xiàn)有的行人檢測方法可以分為兩類:基于背景建模的方法和基于機器學(xué)習(xí)的方法。背景建模法通過建立背景模型,利用背景減分割出前景,進一步判斷和提取其中的行人目標(biāo)。這類方法的抗干擾能力不強,適用于攝像頭固定的監(jiān)控場景,難以處理背景的動態(tài)變化以及攝像頭運動情況下拍攝的動態(tài)場景?;跈C器學(xué)習(xí)的方法,從大量訓(xùn)練樣本中提取特征來構(gòu)建行人分類器或檢測器,利用滑動窗口機制在圖像中進行行人目標(biāo)的搜索和定位。相對于基于背景建模的方法,這類方法對于動態(tài)場景具有更好的魯棒性,逐漸成為當(dāng)前的主流研究方法,其核心在于行人目標(biāo)的特征描述和分類器構(gòu)造。

在特征描述方面,早期的行人檢測多采用如紋理、梯度、邊緣等單一特征[1-4]。單一特征的描述能力畢竟有限,近年來出現(xiàn)了多特征融合方法[5-7],將具有互補特性的特征進行融合,進一步改善了檢測效果。分類器用于確定最優(yōu)的決策邊界,是影響檢測性能的另一個關(guān)鍵因素。目前行人檢測領(lǐng)域最具代表性的分類器是支持向量機(SVM)和Adaboost分類器。前者通過將數(shù)據(jù)映射到高維空間來尋找最大間隔的最優(yōu)分類面,而后者是一種自適應(yīng)Boosting算法,將一些弱分類器通過線性加權(quán)組合成強分類器[1]。近年來出現(xiàn)了許多改進方法[8-13],進一步提升了行人檢測的性能和速度。經(jīng)過十幾年的發(fā)展,基于機器學(xué)習(xí)的行人檢測技術(shù)獲得了長足的進步,正如Dollar綜述文獻[14]提到的,在INRIA數(shù)據(jù)集上進行訓(xùn)練和測試時,在每幅圖像平均輸出1個誤報的情況下,漏檢率從最初Viola等[1]的47.5%減少到目前Benenson等[15]的6.8%。

雖然基于機器學(xué)習(xí)的行人檢測技術(shù)取得了很大的進步,但是由于場景背景的復(fù)雜性,以及行人表觀的多樣性,難以訓(xùn)練一個對于所有場景都適用的通用檢測器。Dollar等[14]對現(xiàn)有十幾個行人分類器的實驗結(jié)果也表明,在INRIA數(shù)據(jù)集上訓(xùn)練好的分類器,直接用于其他不同場景下的行人檢測,漏檢率將提高20%到50%。針對不同場景下的行人檢測任務(wù),現(xiàn)有的行人檢測系統(tǒng),一般采集并手工標(biāo)注該場景下的大量樣本來訓(xùn)練分類器。如果場景發(fā)生變化,需要重新采集和標(biāo)注大量的樣本,重新訓(xùn)練分類器,耗時耗力,難以在實際應(yīng)用中推廣。

已有檢測器在新場景下的行人檢測性能急劇下降,其主要原因是由于新舊場景的拍攝背景、視角、行人姿態(tài)和尺寸等方面可能存在差異,使得原有訓(xùn)練集和新場景中的樣本遵從不同的數(shù)據(jù)分布。而目前大多數(shù)行人檢測方法基于統(tǒng)計學(xué)習(xí)方法,前提是數(shù)據(jù)的同分布假設(shè),而當(dāng)新舊場景存在分布差異時,原有檢測器在新場景下難以有效地檢測行人,這其實是傳統(tǒng)的統(tǒng)計機器學(xué)習(xí)方法普遍存在的推廣性難題。由于在某些場景或領(lǐng)域難以得到大量樣本數(shù)據(jù),對樣本標(biāo)注會耗費大量人力和物力,而且從頭學(xué)習(xí)也非常耗時,基于此難題,遷移學(xué)習(xí)(Transfer Learning)或領(lǐng)域自適應(yīng)方法(Domain Adaptation)[16-19]逐步引入機器學(xué)習(xí)領(lǐng)域。遷移學(xué)習(xí)與傳統(tǒng)的統(tǒng)計學(xué)習(xí)方法不同,遷移學(xué)習(xí)研究不同數(shù)據(jù)分布下的學(xué)習(xí)問題,利用從一個場景或環(huán)境中學(xué)習(xí)到的知識來幫助新環(huán)境中的學(xué)習(xí)任務(wù)[19]。

隨著監(jiān)控視頻,車載視頻的不斷涌現(xiàn),大量不同場景下的行人檢測任務(wù)變得越來越迫切,為了減少繁瑣的人工標(biāo)注,充分利用已有檢測器及其大量樣本,基于遷移學(xué)習(xí)機制,研究已有行人檢測器在新場景下的適應(yīng)性問題具有重要的學(xué)術(shù)價值和實際意義。從當(dāng)前國內(nèi)外研究現(xiàn)狀來看,這方面的研究受到越來越多的關(guān)注,本文針對檢測器適應(yīng)性問題所涉及的樣本獲取,遷移學(xué)習(xí)機制等方面進行介紹,并從幾個方面對現(xiàn)有方法進行分析和比較,最后對該技術(shù)的未來發(fā)展方向進行展望。

2 研究現(xiàn)狀

2.1 新場景下樣本的獲取方法

由前所述,由于原有訓(xùn)練樣本和新場景樣本的數(shù)據(jù)分布可能存在差異,導(dǎo)致已有檢測器在新場景下的檢測性能下降,為了實現(xiàn)已有檢測器和樣本在新場景下的遷移和自適應(yīng),首先需要獲取新場景的行人樣本。高質(zhì)量的目標(biāo)場景樣本能為后續(xù)的樣本遷移和分類器訓(xùn)練等過程提供有效的引導(dǎo)。

目前在視頻行人檢測領(lǐng)域,新場景下樣本的獲取方法主要有兩種:一種是采用手工標(biāo)注少量樣本的方法[20],該方法的樣本標(biāo)注可靠性較高,但是少量樣本不足以代表新場景的數(shù)據(jù)分布特性;另一種是利用已有檢測器,自動從目標(biāo)場景中檢測并選取正樣本和負(fù)樣本,重新訓(xùn)練檢測器,這是視頻行人檢測領(lǐng)域目前廣泛采用的方法[21-30],這類方法方便快捷,其關(guān)鍵問題是如何提高自動檢測和選取樣本的可靠性。

樣本的自動獲取方法在分類器的在線更新中被廣泛采用,Nair等[21]針對固定攝像頭,使用背景減除方法來獲取目標(biāo)樣本。這種方法產(chǎn)生的樣本可靠性不高,容易使檢測器發(fā)生漂移。Rosenberg等[22]使用了一種半監(jiān)督的self-training方法,選取得分較高的檢測結(jié)果作為目標(biāo)樣本,但是這些樣本不能充分反映新場景的數(shù)據(jù)分布特性。一些研究[23-26]使用協(xié)同訓(xùn)練框架,先基于兩種不同類型的特征和少量標(biāo)注數(shù)據(jù)學(xué)習(xí)兩個檢測器,然后交替地將其中一個檢測器用于目標(biāo)場景,收集可靠性較高的樣本重新訓(xùn)練另外一個檢測器。要保證協(xié)同訓(xùn)練的效果,兩個檢測器的特征需要互相獨立,要設(shè)計完全獨立的特征較為困難。Sharma等[27]對于初步的行人檢測結(jié)果進行跟蹤,通過選擇漏檢和誤報作為正樣本和負(fù)樣本,選擇的樣本更有針對性,通過在線增量式學(xué)習(xí)提高分類器的適應(yīng)性。這些方法主要針對同一場景下的檢測器進行在線學(xué)習(xí),由于同一場景下的數(shù)據(jù)分布具有相似性,所以自動標(biāo)注的噪聲較少。

由于新舊場景數(shù)據(jù)分布可能存在差異,利用以上方法在新場景下自動獲取的樣本難免存在標(biāo)注噪聲,即樣本的標(biāo)注可靠性不高。在初始檢測結(jié)果基礎(chǔ)上,結(jié)合多種策略對樣本標(biāo)注結(jié)果進行調(diào)整,提高樣本標(biāo)注的可靠性,是必不可少的重要步驟。Wang等[28]先使用原始檢測器在新場景下進行行人檢測,然后結(jié)合運動、大小、位置、外觀和路線模型等上下文信息,為每個樣本計算置信度,進行樣本篩選,其效果的提高主要依賴于行人或車輛的運動路線,具有一定的局限性。Wang等[29]進一步使用置信度的傳播來代替直接設(shè)定閾值進行篩選,對樣本標(biāo)注噪聲具有一定的魯棒性。Liang等[30]根據(jù)行人尺度、運動等上下文信息和置信度值對自動標(biāo)注的目標(biāo)樣本進行篩選,得到target templates。然后基于稀疏編碼,衡量目標(biāo)樣本和target templates間的相似度,賦予其不同的權(quán)重。表1對現(xiàn)有的樣本獲取方法進行了總結(jié)和比較。

表1 樣本獲取方法比較

綜上所述,新場景下標(biāo)注樣本的獲取是后續(xù)遷移學(xué)習(xí)的基礎(chǔ)。手工標(biāo)注少量樣本雖然保證了樣本的可靠性,但是少量樣本不足以代表整個新場景的數(shù)據(jù)分布特點。將已有檢測器直接用于新場景進行樣本的自動標(biāo)注是目前常用的方法,而原有檢測器的性能和泛化能力對于標(biāo)注效果有著重要影響。另外,自動標(biāo)注不可避免地存在標(biāo)注噪聲,如何利用多種策略以及新場景的上下文信息進行樣本置信度的調(diào)整,從而進行初始檢測樣本的篩選,提高新場景下標(biāo)注樣本的可靠性,還需要進一步研究。

2.2 遷移學(xué)習(xí)及在行人檢測中的研究進展

雖然已經(jīng)提出了各種方法從目標(biāo)場景中自動獲取樣本,但樣本中不可避免地含有標(biāo)注噪聲,會影響檢測器的訓(xùn)練效果,而且有時難以從目標(biāo)場景中獲得足夠多的樣本。與此同時,在源數(shù)據(jù)集中還有大量標(biāo)注的樣本可用。為充分利用這些資源,遷移學(xué)習(xí)或領(lǐng)域自適應(yīng)方法[16-19]近年來逐步在機器學(xué)習(xí)領(lǐng)域得到應(yīng)用和發(fā)展。遷移學(xué)習(xí)的整體框架如圖1所示,其對已有的知識進行提取和遷移,利用這些知識輔助完成新場景下的檢測任務(wù)。遷移學(xué)習(xí)與傳統(tǒng)的機器學(xué)習(xí)不同,不再采用同分布假設(shè),而是利用從一個環(huán)境中學(xué)習(xí)到的知識來幫助新環(huán)境中的學(xué)習(xí)任務(wù)。

圖1 遷移學(xué)習(xí)圖示

遷移學(xué)習(xí)目前已成功用于自然語言處理、信息檢索、物體識別和場景分類等領(lǐng)域。遷移學(xué)習(xí)在視頻行人檢測中的研究才剛剛起步,遷移學(xué)習(xí)中的“源領(lǐng)域”在本文中對應(yīng)已有訓(xùn)練數(shù)據(jù),“目標(biāo)領(lǐng)域”對應(yīng)新場景視頻數(shù)據(jù),“源任務(wù)”和“目標(biāo)任務(wù)”對應(yīng)行人檢測,目前文獻主要涉及基于實例的遷移和基于特征表示的遷移兩個方面,下面將對已有方法進行介紹和分析。

2.2.1 基于實例遷移的行人檢測

基于實例的遷移學(xué)習(xí)方法認(rèn)為,雖然源領(lǐng)域和目標(biāo)領(lǐng)域的數(shù)據(jù)分布不一致,但源數(shù)據(jù)集中可能存在一些樣本和目標(biāo)樣本比較相似,可以將這部分?jǐn)?shù)據(jù)遷移到目標(biāo)場景中,輔助檢測器的訓(xùn)練和優(yōu)化。其關(guān)鍵問題是如何度量源樣本和目標(biāo)樣本的相似度,以及如何同目標(biāo)樣本相結(jié)合進行新場景下的檢測器訓(xùn)練。

(1)源樣本遷移方法

現(xiàn)有的研究多采用對源樣本重新賦權(quán)的方式,權(quán)重越大,表明源樣本和目標(biāo)樣本越相似,在訓(xùn)練過程中起的作用越大,而如何度量源樣本和目標(biāo)樣本的相似度是一個關(guān)鍵問題。

其中,Wang等[29]利用基于圖的表示和KNN算法(K-Nearest Neighbor algorithm),將樣本看作圖上的點,計算樣本間的歐氏距離作為邊長,構(gòu)建每個目標(biāo)樣本的K鄰域,然后將目標(biāo)樣本與鄰域內(nèi)所有源樣本的邊長轉(zhuǎn)換為相應(yīng)權(quán)重。則每個源樣本的相似度等于其所屬的所有鄰域中目標(biāo)樣本的置信度和兩者間權(quán)重的乘積求和。這種方法利用了鄰域內(nèi)目標(biāo)樣本的置信度和距離,但樣本間的歐氏距離可能無法準(zhǔn)確反映樣本間的差異。

Liang等[30]使用稀疏編碼的思想來計算樣本間的相似度。首先根據(jù)上下文信息對目標(biāo)樣本計算置信度并進行篩選,然后將源樣本作為基向量,將挑選出的目標(biāo)樣本進行投影,得到稀疏系數(shù)。則每個源樣本的權(quán)重等于投影在上面的所有目標(biāo)樣本對應(yīng)的稀疏系數(shù)與其置信度的乘積之和。稀疏向量比較緊湊,能反映樣本間的距離,但直接用源樣本做基向量,未必具有良好的代表性和區(qū)分性。

Cao等[31]利用流形學(xué)習(xí)方法篩選出原場景中與新場景中相似度較高的樣本。首先對每個目標(biāo)樣本,用KNN算法找到其在源數(shù)據(jù)集中的近鄰,然后利用Isomap(Isometric Mapping)方法將所有樣本映射到同一個低維流形空間中。接著計算所有樣本的中心點,在流形圖上找到每個樣本到中心點的路徑,并將路徑上的源樣本加入到目標(biāo)樣本集中,但是流形空間的計算復(fù)雜度較高。

Tao等[32]和Duan等[33]則通過多核函數(shù),將樣本映射到高維特征空間,用MMD(Maximum Mean Discrepancy)準(zhǔn)則度量源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集間的分布差異。通過最小化數(shù)據(jù)集間的分布差異和結(jié)構(gòu)風(fēng)險函數(shù),學(xué)習(xí)一個合適的多核空間和分類函數(shù),實現(xiàn)對源數(shù)據(jù)集的整體遷移。此類方法如何選擇合適的核函數(shù)是關(guān)鍵,而且容易受數(shù)據(jù)分布差異影響。

(2)檢測器訓(xùn)練方法

經(jīng)過自動標(biāo)注目標(biāo)樣本和遷移源樣本,得到了由賦權(quán)的源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集共同組成的訓(xùn)練集,用于學(xué)習(xí)一個適用于目標(biāo)場景的檢測器。但自動標(biāo)注難免存在錯誤,而源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集又存在數(shù)據(jù)分布差異,因此直接利用這些不夠可靠的訓(xùn)練樣本訓(xùn)練檢測器,難以取得很好的效果。

為了提高檢測性能,設(shè)計一個具有遷移學(xué)習(xí)能力的訓(xùn)練方法,更加合理有效地利用源樣本和目標(biāo)樣本是一個關(guān)鍵問題。

Wang等[29]提出了一個通用性較好的遷移框架:Confidence-Encoded SVM,在原始的SVM目標(biāo)函數(shù)中加入對源樣本和目標(biāo)樣本的懲罰項,并使用置信度的傳播來處理目標(biāo)樣本中的噪聲。獲取檢測器后,重新標(biāo)注目標(biāo)樣本和遷移源樣本,進行新一輪的訓(xùn)練。經(jīng)過多輪優(yōu)化過程后,輸出最終的檢測器。Liang等[30]采用了和Wang等[29]相似的框架,但使用對目標(biāo)樣本賦權(quán)代替置信度的傳播,簡化了目標(biāo)函數(shù)的構(gòu)造和訓(xùn)練過程。

Cao等[31]對Adaboost算法進行擴展,提出了ITLAda-Boost方法,通過計算分類器在源和目標(biāo)數(shù)據(jù)集上的錯分率來動態(tài)調(diào)整樣本權(quán)重,被錯分的源樣本權(quán)重逐漸減小,而被錯分的目標(biāo)樣本權(quán)重逐漸增大。最終的分類器由每輪得到的分類器線性加權(quán)組合而成。

Tao等[32]在多核空間用MMD準(zhǔn)則度量源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的分布差異,通過最小化數(shù)據(jù)集間的MMD和結(jié)構(gòu)風(fēng)險函數(shù),同時學(xué)習(xí)一個多核組合空間和SVM分類器。Duan等[33]采用和Tao等[32]類似的過程得到多核SVM作為初始判別函數(shù),對未標(biāo)注的目標(biāo)數(shù)據(jù)進行類別劃分。然后利用局部學(xué)習(xí)思想,根據(jù)鄰居樣本的標(biāo)簽信息對每個目標(biāo)樣本的類別進行局部重構(gòu)。最后再利用這些目標(biāo)樣本學(xué)習(xí)一個更加魯棒的分類器。該方法考慮了樣本局部分布特征,能在一定程度上提升遷移效果。

Huang等[34]提出了組合多核遷移學(xué)習(xí)算法(kEMKLT)和遞增多核遷移學(xué)習(xí)算法(kIMKLT)。首先通過學(xué)習(xí)一個多核函數(shù)將樣本映射到高維空間,然后選擇相似度較大的部分源樣本加入目標(biāo)數(shù)據(jù)集,重新學(xué)習(xí)多核SVM分類器,迭代多次。二者不同之處在于前者的最終預(yù)測結(jié)果由每次迭代的預(yù)測結(jié)果加權(quán)組合得到,而后者只使用最后得到的SVM分類器進行預(yù)測,而核函數(shù)的選擇對結(jié)果影響較大。

Tang等[35]不僅在目標(biāo)函數(shù)中加入樣本的懲罰項,還引入?yún)?shù)來控制參加訓(xùn)練的源樣本和目標(biāo)樣本數(shù)目。通過最小化目標(biāo)函數(shù),舍棄一些懲罰值過大的樣本,并且隨著訓(xùn)練的進行,減少訓(xùn)練集中源樣本數(shù)目并增加目標(biāo)樣本數(shù)目,提高訓(xùn)練集的樣本質(zhì)量,該方法充分利用了目標(biāo)樣本。

最近的一些研究[36-37]考慮了多個源數(shù)據(jù)集的情況。張等[36]假設(shè)源訓(xùn)練數(shù)據(jù)來自多個不同的源領(lǐng)域,然后基于每個源數(shù)據(jù)集和少量目標(biāo)數(shù)據(jù)訓(xùn)練一個弱分類器,計算該分類器在目標(biāo)訓(xùn)練集上的分類誤差,作為其權(quán)重。弱分類器權(quán)重的大小反映了對應(yīng)的源數(shù)據(jù)集對于目標(biāo)任務(wù)學(xué)習(xí)的幫助大小。賦權(quán)后的弱分類器連接起來構(gòu)成當(dāng)前候選分類器,然后根據(jù)候選分類器在訓(xùn)練集上的誤差更新源樣本權(quán)重,進行下一輪迭代。

于等[37]根據(jù)多個源數(shù)據(jù)集中樣本的共性,來調(diào)節(jié)源樣本在訓(xùn)練過程中的權(quán)重,提出了基于分類一致性的遷移學(xué)習(xí)算法。該研究基于Boosting框架,在每次迭代過程中,通過學(xué)習(xí)源數(shù)據(jù)集得到多個分類器,然后利用熵度量源樣本在這些分類器上的分類一致性,對樣本權(quán)重進行調(diào)整。即在不同分類器上分類結(jié)果保持一致的樣本權(quán)重較高,分類結(jié)果差別較大的樣本權(quán)重較低。文獻[36]是對多個源領(lǐng)域的知識進行遷移和集成,文獻[37]則考慮從多個源領(lǐng)域中挖掘共有的知識用于遷移學(xué)習(xí)過程。

考慮到樣本的標(biāo)注噪聲和數(shù)據(jù)集間的分布差異,以上研究通過對目標(biāo)函數(shù)的改造和訓(xùn)練方法的設(shè)計,較好地將兩部分?jǐn)?shù)據(jù)融合起來,用于目標(biāo)場景的學(xué)習(xí)。一些研究使用了多輪迭代的學(xué)習(xí)過程[29-31,34-37],相比一次性的遷移,雖然比較耗時,但能有效改善樣本質(zhì)量,從而提高了檢測器對當(dāng)前場景的適應(yīng)性。

綜上所述,基于實例的遷移是目前最為常用的一種遷移學(xué)習(xí)方法,主要涉及如何篩選源樣本以及如何有效利用源樣本重新訓(xùn)練檢測器。實例遷移的目的是篩選出較好貼合目標(biāo)場景數(shù)據(jù)分布的其他場景樣本。現(xiàn)有方法大多將衡量場景數(shù)據(jù)分布的差異轉(zhuǎn)化為度量新舊樣本之間的相似度,其關(guān)鍵在于樣本的特征描述和樣本間的相似度計算方法。另外,根據(jù)相似度進行樣本篩選也很重要,相似度太高的樣本并不能增強數(shù)據(jù)集的代表性,相似度過低的樣本又很可能誤導(dǎo)訓(xùn)練過程。特別是在檢測器重新訓(xùn)練階段,如何通過一定的策略不斷調(diào)整樣本比例或者權(quán)重,來盡量減少這方面的影響尤其重要。但是,當(dāng)新舊場景的數(shù)據(jù)分布差異過大時,一次訓(xùn)練的效果不夠理想。檢測器應(yīng)該具有持續(xù)優(yōu)化樣本和調(diào)整分類界面的能力,因此多輪迭代是一種更好的學(xué)習(xí)策略。

2.2.2 基于特征遷移的行人檢測

基于實例的遷移方法適用于源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集差別較小的情況,否則難以找到與目標(biāo)樣本相似的源樣本進行遷移。而基于特征的遷移方法則是尋找特征層面的公共知識進行遷移,對于數(shù)據(jù)集差別較大的情況也適用。

目前在行人檢測領(lǐng)域基于特征遷移的文獻相對較少,要找到一種映射方法或者新的特征表示并不容易。

有些研究[38-39]使用稀疏編碼來實現(xiàn)特征的遷移學(xué)習(xí)。稀疏編碼方法首先在未標(biāo)記樣本集中學(xué)到一組基向量來近似表征這些樣本,然后將有標(biāo)記的訓(xùn)練樣本轉(zhuǎn)換為稀疏編碼,用于訓(xùn)練分類器。由于編碼比較緊湊,能很好體現(xiàn)圖像的邊緣結(jié)構(gòu)[38],所以可以適應(yīng)一定程度的場景變化。Liu等[39]使用SIFT特征點代替隨機取點和SIFT特征空間取代灰度空間,提高了稀疏編碼的可用性。這類方法的關(guān)鍵是保證基向量的代表性和區(qū)分性。

Wang等[40]首先將原有檢測器用于目標(biāo)場景,收集檢測結(jié)果,然后從中采樣得到若干16×16的圖像塊。對圖像塊提取HOG特征,使用分層的K均值算法構(gòu)造詞匯樹,然后利用詞匯樹將置信度高的行人目標(biāo)檢測結(jié)果編碼為二進制向量。通過計算待分類樣本與這些向量間的相似度來進行行人分類。這種方法的思想類似稀疏編碼,認(rèn)為樣本可以由小的圖像塊基元進行表示,不直接尋找不同領(lǐng)域間特征的變換關(guān)系,而是將特征轉(zhuǎn)化為一種統(tǒng)一的表示形式。

Pang等[41]認(rèn)為新場景下的特征位置發(fā)生變化,但在原有特征位置周圍呈現(xiàn)正態(tài)分布。因此,對于boosting結(jié)構(gòu)的級聯(lián)分類器,先對原有檢測器中的每個強分類器,使用特征移位生成特征池,然后通過最小化covariate損耗函數(shù)找到最優(yōu)的特征位置,對分類器進行更新。最后的目標(biāo)檢測器由各個更新后的分類器級聯(lián)得到。

Tang等[35]將特征分為源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集共有的特征以及目標(biāo)場景特有的特征。通過調(diào)節(jié)特有特征部分的權(quán)重向量的L1范數(shù)大小來控制其參與訓(xùn)練的程度。開始時只使用共有的特征進行檢測器的學(xué)習(xí),在訓(xùn)練后期,當(dāng)目標(biāo)樣本比重足夠大,模型對于當(dāng)前場景更有針對性時,加入目標(biāo)場景特有的特征,進一步提高檢測器的適應(yīng)能力。

類似的,張等[42]也將特征分為源領(lǐng)域和目標(biāo)領(lǐng)域共享的特征以及各自特有的特征兩部分,并將特征投影到再生核Hilbert空間,通過減少領(lǐng)域間共享特征在Hilbert空間中的嵌入期望距離(EMD)實現(xiàn)特征的有效遷移。以SVM分類器為基礎(chǔ),在目標(biāo)函數(shù)中加入共享特征和特有特征的結(jié)構(gòu)風(fēng)險函數(shù),進行整體優(yōu)化,這種融合異構(gòu)特征的子空間遷移算法,能夠保證共享特征和異構(gòu)特征之間達到較好的平衡。

綜上所述,基于特征表示的遷移實質(zhì)是尋找新舊特征之間的映射關(guān)系。為此,需要基于新舊樣本的差異或者場景的其他信息進行推測,對舊的特征進行變換和調(diào)整。而基于實例的遷移學(xué)習(xí)也涉及到特征的調(diào)整,比如基于候選特征池的檢測器在重新訓(xùn)練過程中會重新學(xué)習(xí)和挑選特征的位置和類型等?;谔卣鞅硎镜倪w移的好處在于不需要新舊場景具有一定的相似度,在樣本無法有效遷移的情況下也能使用。但是很多時候特征和場景變化之間的關(guān)系并不容易衡量,一些方法使用的假設(shè)也不具有普遍適用性,直接對特征進行改造較為困難。因此,在行人檢測領(lǐng)域,基于特征表示的遷移更適用于某些特定的場景,比如能夠找到較為明顯的依據(jù)推斷出新舊特征之間的映射關(guān)系等。

2.2.3 基于實例遷移和特征遷移的比較

針對行人檢測任務(wù),基于實例的遷移和基于特征表示的遷移方法各有特點。如果原有標(biāo)注樣本足夠多、代表性足夠強,通常能找到一些與目標(biāo)樣本相似的源樣本用于遷移。因此,現(xiàn)有研究大多使用基于實例的遷移學(xué)習(xí)算法,將一個已有行人檢測器遷移到新場景中。當(dāng)原始樣本和目標(biāo)樣本差別較大時,難以進行樣本的遷移,可以考慮采用基于特征的遷移學(xué)習(xí)方法。可見,基于實例的遷移方法通常具有更強的遷移能力,而基于特征的遷移方法則適用范圍更廣[43]。表2對二者在基本思路、遷移能力、適用范圍和文獻數(shù)量等方面做了分析和比較。

表2 行人檢測中的遷移方法比較

2.3 現(xiàn)狀總結(jié)和分析

面對新場景下的行人檢測任務(wù),由于和原有訓(xùn)練樣本往往存在一定的數(shù)據(jù)分布差異,導(dǎo)致已有檢測器在新場景下的檢測性能發(fā)生顯著下降,為避免重新標(biāo)注大量樣本和充分利用原有樣本和分類器,基于遷移學(xué)習(xí)的行人檢測研究得到越來越多的關(guān)注。以上內(nèi)容從新場景下樣本的獲取,以及基于實例的遷移和基于特征表示的遷移等方面對現(xiàn)有方法進行了分析和比較。

新場景樣本獲取的關(guān)鍵問題是樣本自動標(biāo)注和去噪方法,其目的是提高新場景樣本的可靠性和代表性。而遷移學(xué)習(xí)則基于獲取的目標(biāo)樣本,通過引入其他場景樣本或者改造已有特征,對檢測器進行優(yōu)化訓(xùn)練,使之能夠適應(yīng)新場景的行人檢測任務(wù)。根據(jù)以上研究現(xiàn)狀,將基于遷移學(xué)習(xí)的行人檢測涉及到的關(guān)鍵技術(shù)總結(jié)如圖2所示。

圖2 遷移學(xué)習(xí)關(guān)鍵技術(shù)

以上從涉及的關(guān)鍵技術(shù)角度進行了總結(jié),在遷移學(xué)習(xí)的整個系統(tǒng)流程方面可以參考圖3所示。首先需要獲取新場景的相關(guān)信息,這些信息能夠反映場景特性,但還不足以對檢測器進行有效的重新訓(xùn)練。然后基于獲取的信息,對新舊場景進行比較分析,找出場景之間的差異?,F(xiàn)有的多數(shù)方法還是將場景差異轉(zhuǎn)化為新舊樣本間的差異,利用新場景下手工或者自動標(biāo)注的樣本和已有標(biāo)注樣本進行比較,為基于實例的遷移學(xué)習(xí)提供依據(jù)。還有一些方法試圖根據(jù)場景差異推導(dǎo)特征之間的映射關(guān)系,對已有特征進行調(diào)整和改造,進行基于特征表示的遷移。最后,將這些遷移的知識和新場景下獲取的信息融合起來,在遷移學(xué)習(xí)框架下對已有的檢測器進行重新訓(xùn)練和優(yōu)化,從而實現(xiàn)已有檢測器對于新場景的自適應(yīng)。

圖3 整體結(jié)構(gòu)圖示

3 未來研究展望

雖然現(xiàn)有方法在一定程度上改善了新場景下的行人檢測效果,但距離實際應(yīng)用還有很大差距。將來的研究需要從以下幾個方面著手:

(1)改善已有行人檢測器的初始檢測結(jié)果

由于新舊場景的數(shù)據(jù)分布往往存在差異,已有行人檢測器在新場景下的檢測性能會出現(xiàn)顯著下降。其主要原因是統(tǒng)計學(xué)習(xí)方法的訓(xùn)練目標(biāo)是最小化經(jīng)驗風(fēng)險,沒有充分考慮分類模型的泛化能力。因此提升已有行人檢測器的泛化能力,改善新場景下的樣本初始檢測結(jié)果十分必要。

(2)提高目標(biāo)樣本的可靠性和代表性

新場景下自動獲取的樣本,不可避免地存在標(biāo)注噪聲?,F(xiàn)有方法有的直接利用高置信度樣本,有的利用場景上下文信息對樣本置信度進行調(diào)整,一定程度上改善了樣本的可靠性。但是對低置信度樣本的利用不夠,這些樣本往往在一定程度上反映了新舊場景數(shù)據(jù)分布的差異,如何充分利用這部分樣本提高目標(biāo)樣本的代表性有待進一步研究。

(3)新舊樣本間的相似性度量

從最初利用歐氏距離到借助多核函數(shù)、稀疏編碼和流形學(xué)習(xí)等技術(shù)來度量樣本間的相似性,現(xiàn)有方法在一定程度上改善了樣本遷移效果。但核函數(shù)的選擇,基向量的學(xué)習(xí)和流形空間的構(gòu)造對于相似性度量結(jié)果有重要影響,有必要進一步改進現(xiàn)有方法并研究新的樣本相似性度量方法。

(4)深度挖掘目標(biāo)場景信息

場景中的各種上下文信息能夠有效地反映場景的某些特性,可用于樣本的置信度調(diào)整,新舊樣本相似性度量以及特征映射關(guān)系推導(dǎo)等?,F(xiàn)有方法對于場景上下文信息的挖掘和利用還很有限,提出的一些模型不具有推廣性。如何更好地挖掘和利用場景上下文信息,改善檢測器對于新場景的適應(yīng)性,還需要進一步研究。

(5)設(shè)計持續(xù)優(yōu)化的遷移學(xué)習(xí)框架

不少現(xiàn)有方法從新場景中一次性地獲取目標(biāo)樣本,如果新舊場景存在較大的分布差異,這些目標(biāo)樣本的可靠性和代表性不高,往往不能很好地反映目標(biāo)場景的數(shù)據(jù)分布特性。而好的目標(biāo)樣本是影響檢測器性能的關(guān)鍵因素,因此需要研究基于多輪迭代優(yōu)化的遷移學(xué)習(xí)方法,從而不斷改進新場景樣本質(zhì)量,提高檢測器性能。

(6)新舊場景間數(shù)據(jù)分布的整體差異性度量

為了構(gòu)建一個具有推廣性的檢測器自適應(yīng)框架,應(yīng)該進一步研究和度量原數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間的差異程度,根據(jù)度量結(jié)果再選擇合適的方法進行遷移學(xué)習(xí)。例如,如果差異較小,可以考慮基于實例的遷移,如果差異較大,則采用基于特征的方式或者只使用目標(biāo)樣本來優(yōu)化檢測器,避免出現(xiàn)負(fù)遷移現(xiàn)象。

綜上所述,如何利用已有行人檢測器和訓(xùn)練樣本,提高新場景下的行人檢測效果,是計算機視覺領(lǐng)域的一個難點,具有重要的理論研究價值和實際應(yīng)用前景。目前基于遷移學(xué)習(xí)的行人檢測研究雖然取得了一些進展,但是還有許多問題有待進一步研究和探索。

[1]Viola P,Jones M.Rapid object detection using a boosted cascade of simple features[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Kauai,HI,USA,2001:511-518.

[2]Wu Bo,Nevatia R.Detection of multiple,partially occluded humans in a single image by Bayesian combination of edgelet part detectors[C]//Proceedings of IEEE International Conference on Computer Vision,Beijing,China,2005:90-97.

[3]Sabzmeydani P,Mori G.Detecting pedestrians by learning shapelet features[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Minneapolis,Minnesota,USA,2007:1-8.

[4]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,San Diego,CA,USA,2005:886-893.

[5]Wang Xiaoyu,Han T X,Yan Shuicheng.An HOG-LBP human detector with partial occlusion handling[C]//Proceedings of IEEE International Conference on Computer Vision,Kyoto,Japan,2009.

[6]Wojek C,Schiele B.A performance evaluation of single and multi-feature people detection[C]//Proceedings of DAGM Symposium on Pattern Recognition,Munich,Germany,2008:82-91.

[7]Dollar P,Tu Zhuowen,Perona P,et al.Integral channel features[C]//Proceedings of British Machine Vision Conference,London,UK,2009:1-11.

[8]Maji S,Berg A,Malik J.Classification using intersection kernel svms is efficient[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Anchorage,Alaska,USA,2008:1-8.

[9]Kim T K,Cipolla R.MCBoost:Multiple Classifiers Boosting for perceptual co-clustering of images and visual features[C]//Proceedings of IEEE Conference on Neural Information Processing Systems,Vancouver,British Columbia,Canada,2008:841-856.

[10]Xu Yanwu,Cao Xianbin,Qiao Hong.An efficient tree classifier ensemble-based approach for pedestrian detection[J]. IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2011,41(1):107-117.

[11]Liu Hong,Xu Tao,Wang Xiangdong,et al.Robust human detection based on related hog features and cascaded adaboost and svm classifiers[C]//Proceedings of International Conference on Multimedia Modeling,Huangshan,China,2013:345-355.

[12]Dollar P,Belongie S,Perona P.The fastest pedestrian detector in the West[C]//Proceedings of British Machine Vision Conference,Aberystwyth,UK,2010:1-11.

[13]Dollar P,Appel R,Kienzle W.Crosstalk cascades for framerate pedestrian detection[C]//Proceedings of European Conference on Computer Vision,F(xiàn)irenze,Italy,2012:645-659.

[14]Dollar P,Wojek C,Schiele B,et al.Pedestrian detection:an evaluation of the state of the art[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(4).

[15]Benenson R,Mathias M,Timofte R.Pedestrian detection at 100 frames per second[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Providence,Rhode Island,2012:2903-2910.

[16]Thrun S,Pratt L.Learning to learn[M].Holland:Kluwer Academic Publishers,1998.

[17]Raina R,Battle A,Lee H,et al.Self-taught learning:transfer learning from unlabeled data[C]//Proceedings of International Conference on Machine Learning,Corvallis,Oregon,USA,2007:759-766.

[18]Daume H,Marcu D.Domain adaptation for statistical classifiers[J].Journal of Artificial Intelligence Research,2006,26(1):101-126.

[19]Pan S J,Yang Qiang.A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.

[20]Melville P,Mooney R J.Diverse ensembles for active learning[C]//Proceedings of International Conference on Machine Learning,Banff,Alberta,Canada,2004:584-591.

[21]Nair V,Clark J.An unsupervised online learning framework for moving object detection[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Washington DC,USA,2004:317-324.

[22]Rosenberg C,Hebert M,Schneiderman H.Semi-supervised self-training of object detection models[C]//Proceedings of IEEE Workshop on Application of Computer Vision,Breckenridge,CO,USA,2005:29-36.

[23]Javed O,Ali S,Shah M.Online detection and classification of moving objects using progressively improving detectors[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,San Diego,CA,USA,2005:696-701.

[24]Levin A,Viola P,F(xiàn)reund Y.Unsupervised improvement of visual detectors using co-training[C]//Proceedings of IEEE International Conference on Computer Vision,Nice,F(xiàn)rance,2003:626-633.

[25]Roth P,Grabner H,Skocaj D,et al.On-line conservative learning for person detection[C]//Proceedings of IEEE International Workshop on Performance Evaluation of Tracking and Surveillance,Breckenridge,Colorado,USA,2005:223-230.

[26]Wu Bo,Nevatia R.Improving part based object detection by unsupervised online boosting[C]//Proceedings of IEEE Conference on CVPR,USA,2007:1-8.

[27]Sharma P,Huang Chang,Nevatia R.Unsupervised incremental learning for improved object detection in a video[C]//Proceedings of IEEE Conference on CVPR,Providence,Rhode Island,USA,2012:3298-3305.

[28]Wang Meng,Wang Xiaogang.Automatic adaptation of a generic pedestrian detector to a specific traffic scene[C]// Proceedings of IEEE Conference on CVPR,Colorado Springs,CO,USA,2011:3401-3408.

[29]Wang Meng,Li Wei,Wang Xiaogang.Transferring a generic pedestrian detector towards specific scenes[C]//Proceedings of IEEE Conference on CVPR,Providence,Rhode Island,USA,2012:3274-3281.

[30]Liang Feidie,Tang Sheng,Wang Yu,et al.A sparse coding based transfer learning framework for pedestrian detection[C]//Proceedings of International Conference on Multimedia Modeling,Huangshan,China,2013:272-282.

[31]Cao Xianbin,Wang Zhong,Yan Pingkun,et al.Transfer learning for pedestrian detection[J].Neurocomputing,2013,100:51-57.

[32]陶劍文,王士同.多核局部領(lǐng)域適應(yīng)學(xué)習(xí)[J].軟件學(xué)報,2012,23(9):2297-2310.

[33]Duan Lixin,Tsang I W,Xu Dong.Domain transfer multiple kernel learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(3):465-479.

[34]黃育釗.基于樣本遷移的多核學(xué)習(xí)算法研究[D].廣州:中山大學(xué),2010.

[35]Tang K,Ramanathan V,Li Feifei,et al.Shifting weights:adapting object detectors from image to video[C]//Proceedings of IEEE Conference on Neural Information Processing Systems,Lake Tahoe,Nevada,USA,2012:647-655.

[36]張倩,李海港,李明,等.基于多源動態(tài)TrAdaBoost的實例遷移學(xué)習(xí)方法[J].中國礦業(yè)大學(xué)學(xué)報,2014(4).

[37]于立萍,唐煥玲.基于分類一致性的遷移學(xué)習(xí)及其在行人檢測中的應(yīng)用[J].山東大學(xué)學(xué)報:工學(xué)版,2013,43(4).

[38]謝堯芳,蘇松志,李紹滋.基于稀疏編碼的遷移學(xué)習(xí)及其在行人檢測中的應(yīng)用[J].廈門大學(xué)學(xué)報:自然科學(xué)版,2010,49(2):186-192.

[39]劉揚,程健,盧漢清.基于目標(biāo)局部特征的遷移式學(xué)習(xí)[C]//中國圖象圖形學(xué)會.第十四屆全國圖象圖形學(xué)學(xué)術(shù)會議論文集.北京:清華大學(xué)出版社,2008.

[40]Wang Xiaoyu,Hua Gang,Han T X.Detection by detections:non-parametric detector adaptation for a video[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,Providence,Rhode Island,USA,2012:350-357.

[41]Pang Junbiao,Huang Qingming,Yan Shuicheng,et al. Transferring boosted detectors towards viewpoint and scene adaptiveness[J].IEEE Transactions on Image Processing,2011,20(5):1388-1400.

[42]張景祥,王士同,鄧趙紅,等.融合異構(gòu)特征的子空間遷移學(xué)習(xí)算法[J].自動化學(xué)報,2014,40(2):236-246.

[43]戴文淵.基于實例和特征的遷移學(xué)習(xí)算法研究[D].上海:上海交通大學(xué),2008.

SHAO Song1,2,LIU Hong1,2,WANG Xiangdong1,2,QIAN Yueliang1,2

1.Research Center for Pervasive Computing,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China
2.Beijing Key Laboratory of Mobile Computing and Pervasive Device,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190,China

Pedestrian detection is an active area of research with challenge in computer vision.In recent years,pedestrian detection based on machine learning has achieved great development.However,since data of various application scenes are under different data distributions,the performance of a well-trained detector drops significantly in a new scene.In order to avoid the effort of manual labeling and make full use of the original detector and labeled samples,pedestrian detection based on transfer learning has attracted more and more attention.This paper reviews pedestrian detection based on transfer learning,involving sample collection,transfer learning and detector optimization.Recent research on this topic is summarized and compared in different ways.Future directions are discussed.

pedestrian detection;detector;transfer learning;domain adaptation

行人檢測是計算機視覺的研究熱點和難點,近年來基于機器學(xué)習(xí)的行人檢測技術(shù)取得了長足的進步,但由于不同場景的數(shù)據(jù)分布存在差異,已有檢測器在新場景下的行人檢測性能出現(xiàn)顯著下降。為了避免繁瑣的人工標(biāo)注,充分利用原有檢測器和標(biāo)注樣本,基于遷移學(xué)習(xí)的行人檢測研究受到越來越多的關(guān)注。對其中涉及到的樣本獲取、遷移學(xué)習(xí)機制等關(guān)鍵技術(shù)進行綜述,并從多個角度對現(xiàn)有方法進行分析和比較,最后對該技術(shù)的未來進行展望。

行人檢測;檢測器;遷移學(xué)習(xí);場景自適應(yīng)

A

TP391

10.3778/j.issn.1002-8331.1311-0358

SHAO Song,LIU Hong,WANG Xiangdong,et al.Review of pedestrian detection based on transfer learning.Computer Engineering and Applications,2014,50(24):156-163.

國家自然科學(xué)基金(No.61202209);北京市自然科學(xué)基金(No.4142051)。

邵松,碩士研究生,主要研究方向為視頻圖像中的目標(biāo)檢測、模式識別;劉宏,通訊作者,博士,副研究員,碩士生導(dǎo)師,CCF高級會員,主要研究方向為視頻圖像處理、模式識別和智能人機交互;王向東,博士,高級工程師,主要研究方向為智能人機交互、模式識別;錢躍良,正高級工程師,主要研究方向為智能人機交互、多媒體技術(shù)。E-mail:hliu@ict.ac.cn

2013-11-25

2014-06-06

1002-8331(2014)24-0156-08

CNKI網(wǎng)絡(luò)優(yōu)先出版:2014-07-11,http∶//www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1311-0358.html

猜你喜歡
檢測器行人分類器
毒舌出沒,行人避讓
意林(2021年5期)2021-04-18 12:21:17
路不為尋找者而設(shè)
揚子江(2019年1期)2019-03-08 02:52:34
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
我是行人
車道微波車輛檢測器的應(yīng)用
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
一種霧霾檢測器的研究與設(shè)計
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
一體化火焰檢測器常見故障分析
河南科技(2014年22期)2014-02-27 14:18:12
大埔区| 报价| 清水河县| 阜平县| 齐齐哈尔市| 宁安市| 亚东县| 海口市| 丰镇市| 阳春市| 读书| 依安县| 蒙城县| 贵定县| 镇坪县| 车致| 集安市| 宁安市| 吴江市| 揭东县| 泸溪县| 盐城市| 二连浩特市| 瑞安市| 石柱| 德阳市| 利津县| 通州区| 石棉县| 通化市| 恩施市| 娱乐| 河南省| 疏附县| 彭泽县| 碌曲县| 仙游县| 广丰县| 仙桃市| 成武县| 长兴县|