TUOD遮擋圖像庫的設(shè)計與實現(xiàn)

2018-02-23 02:26劉宸昊馬惠敏

圖學(xué)學(xué)報 2018年6期

高磊，劉宸昊，馬惠敏

高磊，劉宸昊，馬惠敏

(清華大學(xué)電子工程系，北京 100084)

遮擋問題是復(fù)雜場景圖像中一個普遍存在的現(xiàn)象，探索遮擋對圖像認(rèn)知的影響規(guī)律、建立具有抗遮擋能力的認(rèn)知模型直接關(guān)系到計算機(jī)視覺技術(shù)的實際應(yīng)用，是一個迫切需要解決的科學(xué)問題。通過研究復(fù)雜場景圖像中的遮擋問題，探索遮擋對圖像認(rèn)知的影響規(guī)律，建立一個評估檢測識別算法的抗遮擋能力、研究圖像認(rèn)知模型及抗遮擋規(guī)律的TUOD (Tsinghua University Occlusion Database)遮擋圖像庫。首先，根據(jù)遮擋對圖像識別的影響，提出遮擋部件、遮擋面積、遮擋關(guān)系、遮擋復(fù)雜度4個維度的圖像遮擋屬性，建立了圖像遮擋程度量化標(biāo)準(zhǔn)；其次，基于遮擋維度提出一個新的層次化圖像庫組織結(jié)構(gòu)，以此為基礎(chǔ)進(jìn)行數(shù)據(jù)庫構(gòu)建。從PASCAL VOC和ImageNet中進(jìn)行圖像篩選和處理，構(gòu)建了一個包括飛機(jī)、車輛、人、動物4大類，共2 100張圖片的TUOD遮擋圖像庫。利用TUOD圖像庫，結(jié)合機(jī)器學(xué)習(xí)理論，通過實驗比較分析不同遮擋維度對Faster R-CNN算法的影響。實驗表明，TUOD遮擋圖像庫能夠為算法的抗遮擋能力提供量化評估標(biāo)準(zhǔn)。TUOD遮擋圖像庫的建立為提高抗遮擋算法的性能奠定了基礎(chǔ)，具有實用性。

遮擋維度；遮擋規(guī)律；抗遮擋能力評估；遮擋圖像庫

遮擋作為復(fù)雜場景圖像中一個普遍存在的現(xiàn)象，對圖像識別率影響很大，是面對各種復(fù)雜情況的自動駕駛視覺導(dǎo)航、公共安全視頻監(jiān)控等實際應(yīng)用無法回避的核心問題，是計算機(jī)視覺、模式識別、目標(biāo)識別與跟蹤等研究領(lǐng)域的重點和難點[1-2]。但因圖像中的遮擋具有復(fù)雜語義，缺少對遮擋元素進(jìn)行量化分析的相關(guān)研究，本文通過遮擋認(rèn)知理論分析，建立一個能夠量化評估圖像認(rèn)知模型及算法抗遮擋性能的遮擋圖像庫，提供有效的數(shù)據(jù)和評價標(biāo)準(zhǔn)，在視覺導(dǎo)航、視頻監(jiān)控、醫(yī)療診斷、工業(yè)產(chǎn)品檢測等方面有著重要的實用價值和廣闊的發(fā)展前景。

在實際場景中遮擋現(xiàn)象不可避免，情況也千差萬別，隨著深度學(xué)習(xí)等檢測、識別方法的提出，計算機(jī)視覺在簡單圖像、理想測試場景中的目標(biāo)檢測與識別上得到了很大的突破，國際上研究工作也開始轉(zhuǎn)向復(fù)雜圖像等更難的實際應(yīng)用場景。為了滿足計算機(jī)視覺的發(fā)展，尤其是圖像分割、目標(biāo)檢測識別方法的研究需要，先后出現(xiàn)了一些國際評測平臺：2005年歐盟建立了PASCAL (pattern analysis，statistical modelling and computational learning)數(shù)據(jù)集[3]，開啟了VOC(visual object classes)挑戰(zhàn)；2010年斯坦福大學(xué)建立了當(dāng)時世界上最大的ImageNet圖像庫[4]，為相關(guān)圖像研究提供數(shù)據(jù)源和國際評測平臺，其中的圖像基本上都是辨識度很高的簡單圖像；2014年微軟推出了圖像復(fù)雜度很高的COCO (common objects in context)圖像數(shù)據(jù)集[5]，其中大量場景非常復(fù)雜，存在嚴(yán)重的目標(biāo)聚集和遮擋現(xiàn)象；另外還有自動駕駛KITTI庫[6]、加州理工學(xué)院的Caltech行人數(shù)據(jù)庫[7]，雖有涉及到物體識別和遮擋圖像，但僅將數(shù)據(jù)庫根據(jù)遮擋情況簡單分為無遮擋、部分遮擋、嚴(yán)重遮擋，未能對遮擋現(xiàn)象給出量化評估標(biāo)準(zhǔn)，缺乏對抗遮擋檢測、識別方法的支撐。

1 遮擋認(rèn)知理論分析

圖像庫的建設(shè)是很多研究中非常重要的一個環(huán)節(jié)，但是現(xiàn)有的圖像庫缺乏對遮擋的量化描述，通常僅以類似圖1的形式根據(jù)遮擋面積對圖像物體的復(fù)雜度進(jìn)行分級(例如：簡單、中等、困難)。然而，遮擋對圖像識別的影響的要素很多，僅以遮擋面積進(jìn)行衡量是不完備的。例如，被遮擋的部件、自遮擋或互遮擋關(guān)系、是否相似遮擋等要素對物體識別都會帶來不同程度的影響。已有一些研究通常對某種特定的遮擋要素進(jìn)行分析，但缺乏全面的系統(tǒng)的規(guī)律挖掘。

圖1 飛機(jī)的幾種簡單遮擋類型

研究發(fā)現(xiàn)，遮擋區(qū)域的大小以及物體關(guān)鍵部件是否被遮擋是影響識別的重要因素，現(xiàn)有研究針對特定種類的識別對象進(jìn)行了討論，研究了遮擋不同部件對識別性能的影響。例如，WRIGHT等[8]發(fā)現(xiàn)，在對人臉器官如鼻子、嘴、眼睛的人工遮擋時，人臉的識別率不同，其重要性排序為：眼睛>嘴>鼻子。EKENEL和STIEFELHAGEN[9]從關(guān)鍵特征遮擋方面介紹了一種基于局部紋理識別的人臉識別算法，對預(yù)先存在遮擋的一組圖片進(jìn)行對比測試，發(fā)現(xiàn)戴墨鏡人臉的識別率遠(yuǎn)低于圍圍巾人臉的識別率。然而，這些研究大都針對結(jié)構(gòu)規(guī)則的特定類別，難以推廣到一般物體。

從以上特定類別的規(guī)則物體的研究可以看出，影響物體識別的遮擋要素非常多，且耦合性很強。具體而言，有以下幾點關(guān)鍵要素：

(1) 遮擋不同部件對物體識別的影響通常不同；

(2) 同一部件被遮擋面積大小對物體識別的影響也不同；

(3) 遮擋物與被遮擋物之間的關(guān)系(是否自遮擋、是否相似)會對物體識別帶來影響；

(4) 圖像信息復(fù)雜難度會對識別跟蹤帶來影響。

此外，不同識別算法對同一遮擋情況的敏感度也不同?，F(xiàn)有的遮擋識別研究缺乏規(guī)則的、一致的和系統(tǒng)的分析。很多已有研究對遮擋的關(guān)鍵部件的選擇很大程度上依賴于人的主觀決定，容易出現(xiàn)遺漏。另外，已有研究通常只針對特定算法進(jìn)行遮擋評估，缺乏一般性的對比分析。

因此，為了優(yōu)化抗遮擋算法，需要對遮擋影響物體識別性能的規(guī)律進(jìn)行系統(tǒng)的研究。本文建立了一個用于評估檢測識別算法抗遮擋能力、研究圖像認(rèn)知抗遮擋規(guī)律及模型的遮擋圖像庫。此圖像庫可以通過仿真平臺完成對算法性能的分析和評估。在建庫時，采用層次模型系統(tǒng)，以遮擋的分類為依據(jù)，既覆蓋了典型遮擋，又保證了圖像庫的結(jié)構(gòu)化和可擴(kuò)展性。

2 圖像庫的設(shè)計與構(gòu)建

2.1 圖像入庫原則

對于采集到的圖像需要經(jīng)過嚴(yán)格的評定標(biāo)準(zhǔn)，以保證其適用于仿真平臺上對追蹤算法的驗證，主要有以下幾個方面的要求：

(1) 對應(yīng)單一遮擋，由于圖像庫的作用是分析檢測識別算法的抗遮擋性能，提出遮擋圖像認(rèn)知模型評估方法，因此圖像應(yīng)明確和突出所存在的遮擋，不宜包含多種遮擋，以避免對評估結(jié)果造成不良影響；

(2) 保證圖像庫的適用性，所采集得到的圖像應(yīng)當(dāng)可以應(yīng)用于對任何的算法的評估，同時應(yīng)保證加入的遮擋相對典型和具有說服力；

(3) 應(yīng)保證遮擋圖片數(shù)量，有足夠的圖像包含遮擋，以減小對算法的評估結(jié)果的隨機(jī)性，增強結(jié)果的有效性。

符合標(biāo)準(zhǔn)的圖像即可入庫，可以用來檢測算法對相應(yīng)遮擋的抗干擾性能。

建庫體系流程主要部分為圖像分類、采集圖片、遮擋屬性定義、遮擋圖片標(biāo)注和圖像入庫5個部分，整個的圖像建庫流程如圖2所示。

圖2 圖像建庫流程

依據(jù)上述原則，本文選取帶有遮擋的目標(biāo)圖像，采用Labelme[10]工具對圖像分別按照遮擋部件、遮擋面積、遮擋關(guān)系和遮擋復(fù)雜度4個遮擋描述維度進(jìn)行標(biāo)注，生成XML文件，建立遮擋圖像集合。其中，部件指目標(biāo)元素具有的典型特征，如對于“車”這個類別，關(guān)鍵部件包含車頭、車燈、車輪、車窗等；遮擋面積根據(jù)在遮擋規(guī)律研究中學(xué)習(xí)得到的閾值劃分成若干級，如<20%、20%~50%、51%~70%、>70%；遮擋關(guān)系分為同類/不同類物體之間的遮擋、自遮擋/互遮擋等；遮擋復(fù)雜度描述了人在認(rèn)知遮擋圖像時的眼動行為特征。最后，將集合映射到樹形分類結(jié)構(gòu)中，在每個遮擋維度中添加對應(yīng)的帶有遮擋的圖像，形成TUOD圖像庫，結(jié)構(gòu)如圖3所示。本文構(gòu)建的遮擋圖像庫與現(xiàn)有的圖像庫的對比見表1。

2.2 遮擋元素標(biāo)注

2.2.1 遮擋部件的標(biāo)注

由于不同部件的遮擋情況對物體識別有著不同程度的影響，本文需要建立部件級別的數(shù)據(jù)標(biāo)注，標(biāo)出遮擋物體各個部件是否被遮擋以及部件被遮擋的比例，在物體部件標(biāo)注中，需要對物體按部件進(jìn)行劃分，并進(jìn)行像素級的標(biāo)注。在此基礎(chǔ)上本文根據(jù)部件的缺失程度、部件的遮擋類型對圖像進(jìn)行分類，和已有的部件分割數(shù)據(jù)集相比，強調(diào)了被遮擋部件的標(biāo)注。按照圖像內(nèi)容對遮擋物體與被遮擋物體進(jìn)行分類，并將類別進(jìn)行編號，以便入庫，之后再對入庫圖片進(jìn)行粗分類和細(xì)分類：粗分類指將圖像中被遮擋物體與遮擋物體按種類分組；細(xì)分類指將被遮擋部分按照遮擋部位進(jìn)行分組。如圖4所示：圖片中救護(hù)車被人群遮擋，標(biāo)注“車輪”為遮擋部位。

圖3 圖像庫結(jié)構(gòu)

表1 圖像庫特征比較

圖4 遮擋部件標(biāo)注

2.2.2 遮擋面積的標(biāo)注

遮擋面積的計算必須基于遮擋物體與被遮擋物體的輪廓的提取，本文在像素級部件標(biāo)注的基礎(chǔ)上，研究中采用人工物體補全的方式，進(jìn)行遮擋標(biāo)注，從而計算出遮擋面積比例。物體補全方法是通過人工繪出遮擋物和被遮擋部分的輪廓，恢復(fù)物體整體形狀信息，計算遮擋面積，如圖5所示，對遮擋物(人群)和被遮擋物(救護(hù)車)進(jìn)行標(biāo)注，重合部分(藍(lán)色)為被遮擋物的遮擋面積。計算公式為

其中，1為遮擋物(人)面積；2為被遮擋物(車輛)面積；1U2為整體面積。計算得到不同遮擋面積比例的圖像實例如圖6所示。

圖5 物體補全方法

圖6 遮擋面積圖像示例

2.2.3 遮擋關(guān)系的標(biāo)注

已有研究表明，物體間紋理相似性的差異對通用算法的抗遮擋能力有很大影響，根據(jù)遮擋物體與被遮擋物體是否為同一類物體分為同類物體遮擋與非同類物體遮擋；根據(jù)遮擋物體與被遮擋物體是否為同一物體分為自遮擋(目標(biāo)物體自身的一部分遮擋了的另一部分)與互遮擋(兩個不同物體之間存在遮擋)。在此基礎(chǔ)上，本文研究標(biāo)注了更細(xì)致的圖像中遮擋物體之間的關(guān)系。遮擋關(guān)系標(biāo)注的實例如圖7所示。

圖7 遮擋關(guān)系標(biāo)注

2.2.4 遮擋復(fù)雜度

眼動儀用于記錄人在處理視覺信息時的眼動軌跡特征，廣泛用于注意、視知覺、閱讀等領(lǐng)域的研究。本文利用眼動儀結(jié)合視線焦點檢測技術(shù)定義遮擋復(fù)雜度，通過對觀察者眼動軌跡的分析可得到觀察者注視點序列，描繪注視點軌跡的方法如下：

心理護(hù)理與健康教育可以讓患者的心理狀態(tài)得到有效的改善，不僅是提升手術(shù)治療效果的關(guān)鍵，同時也是疾病轉(zhuǎn)歸的關(guān)鍵[3-4]。根據(jù)患者的心理情緒給予心理疏導(dǎo)，每天和患者進(jìn)行交流與溝通并及時為患者講解疾病相關(guān)的知識以及臨床治療措施、必要性以及療效等，從而有效的減輕心理顧慮，為患者預(yù)后健康生活提供有效的幫助和支持[5]。

圖8 駐留熱點圖和注視軌跡圖

3 遮擋對識別算法的影響實驗分析

本文建立的TUOD圖像庫旨在提供適用于研究圖像識別、圖像檢測[11-15]、圖像分割[16]等計算機(jī)視覺任務(wù)中的遮擋問題的平臺。為了進(jìn)一步說明的TUOD的實用性，本文就物體識別與檢測任務(wù)進(jìn)行了以下實驗：①采用不同物體檢測算法進(jìn)行對比實驗分析；②采用控制變量的方法對不同遮擋條件下的物體識別性能進(jìn)行評估分析。

3.1 不同物體檢測算法性能比較

本文選用了傳統(tǒng)的DPM anti occlusion capability[17]算法和深度學(xué)習(xí)中的基于Caffe[18]的VGG-16[19]網(wǎng)絡(luò)兩種不同的物體檢測算法對TUOD圖像庫進(jìn)行了實驗。對實驗結(jié)果的物體檢測準(zhǔn)確率進(jìn)行了分析，結(jié)果見表2。根據(jù)數(shù)據(jù)標(biāo)注，計算待檢測物體被遮擋的面積比例，作為描述圖像中存在遮擋情況的描述要素，按照遮擋比例<20%、20%~50%、>50%對圖像進(jìn)行分類。

表2 不同物體檢測算法性能比較

由實驗結(jié)果可以看出，在本文TUOD圖像庫上可以實現(xiàn)對不同算法在不同遮擋程度條件下的檢測性能的比較。除本文依照遮擋比例上述劃定方法外，使用者還可以自行選取閾值進(jìn)行劃分，或利用本文的像素級標(biāo)注設(shè)計針對遮擋問題的劃分方式。

3.2 不同遮擋條件下物體識別性能評估分析

本文采用控制變量的方法對不同物體檢測模型在遮擋面積和幾何關(guān)系加權(quán)的遮擋面積兩種不同遮擋條件下的物體識別性能進(jìn)行評估分析，以驗證本數(shù)據(jù)庫對于遮擋圖片分類量化的準(zhǔn)確性。實驗步驟如下：

步驟1.利用主流算法，對庫中圖像進(jìn)行目標(biāo)識別，并判斷識別結(jié)果；

步驟2.對遮擋圖像進(jìn)行相應(yīng)的遮擋強度(如遮擋面積、遮擋復(fù)雜度等)計算；

本文采用基于Caffe的VGG-16網(wǎng)絡(luò)，利用網(wǎng)絡(luò)在PASCAL VOC2012數(shù)據(jù)集上的預(yù)訓(xùn)練模型，對本數(shù)據(jù)庫中的圖像中的人、動物以及車輛目標(biāo)進(jìn)行識別，得到相應(yīng)物體的檢測框(bounding box)。進(jìn)一步將識別結(jié)果與物體框標(biāo)注進(jìn)行比較，計算其交并比，并設(shè)定交并比>0.7作為正確識別的閾值。

本文對圖像庫進(jìn)行了物體識別算法實驗，得到約400個物體檢測框。在此檢測的基礎(chǔ)上，本文按照圖像中遮擋比例<20%、20%~50%、>50%劃分，統(tǒng)計物體檢測準(zhǔn)確率，檢測準(zhǔn)確率隨遮擋程度的變化如圖9所示。

圖9 VGG-16物體識別效果隨遮擋面積比例的變化情況

在此基礎(chǔ)上，本文研究進(jìn)一步提出了基于幾何位置的遮擋特征描述方法，對圖片像素按照其在物體多邊形中的幾何位置進(jìn)行加權(quán)，加權(quán)方法為：

進(jìn)行加權(quán)；

(2) 利用邊緣和角點檢測子矩陣對標(biāo)注多邊形邊緣的二值圖進(jìn)行卷積，以強化物體邊緣。此外，絕大多數(shù)物體的上部都對物體識別具有相對更顯著的影響，因此，本文對上述兩個權(quán)值矩陣再按照從上到下的位置進(jìn)行加權(quán)，然后求和得到按幾何位置加權(quán)的遮擋程度，加權(quán)圖像的示例如圖10所示。對于加權(quán)遮擋比例按照0.2、0.4分為不同子集，檢測分析的結(jié)果如圖11所示。

圖11 VGG-16物體識別效果隨加權(quán)遮擋面積比例的變化情況

由實驗分析驗證，被檢測的VGG-16算法的識別性能隨標(biāo)注的遮擋程度呈現(xiàn)顯著變化，遮擋程度越強，算法的識別效果越差；此外，在不同的遮擋要素下，算法性能的變化趨勢存在明顯區(qū)別，例如，從圖12可觀察到，在相似遮擋面積下，引入幾何位置加權(quán)的遮擋面積計算可以有效地突出輪廓缺失及撕裂性遮擋對物體識別的影響。以上兩點表明，本文研究建立的遮擋圖像庫可以為算法抗遮擋性能的評估提供量化實驗的平臺。

圖12 相似遮擋面積下不同遮擋復(fù)雜度造成識別性能衰減

4 結(jié) 論

本文提出了基于遮擋維度描述的方法，對遮擋元素進(jìn)行標(biāo)注，建立了TUOD遮擋圖像庫。圖像庫采用層狀結(jié)構(gòu)，以遮擋的分類為依據(jù)，使圖像庫的結(jié)構(gòu)嚴(yán)謹(jǐn)又不乏靈活性，便于探索遮擋因素影響物體識別檢測算法的規(guī)律。TUOD圖像庫體現(xiàn)出了針對性和完整性，克服了以往圖像庫中遮擋分類與標(biāo)注不詳細(xì)、缺乏量化的不足，保證了圖像庫的彈性和容量，使得圖像庫的圖片易于處理和檢索，具有更普遍的適用意義。相比較之下，本遮擋圖像庫：①建立了針對遮擋的圖像難度函數(shù)模型和圖像遮擋程度量化標(biāo)準(zhǔn)；②創(chuàng)新性的定義了4個遮擋維度，提出遮擋圖像庫的組織結(jié)構(gòu)，標(biāo)注遮擋屬性；③對VGG-16算法的抗遮擋性能進(jìn)行分析，為抗遮擋算法的優(yōu)化和改進(jìn)奠定了基礎(chǔ)。

本文希望通過構(gòu)建含有遮擋的圖像庫，以達(dá)到評估算法性能的目標(biāo)，從而進(jìn)一步針對性地優(yōu)化識別檢測算法，以克服目前目標(biāo)識別檢測過程中所面臨的種種困難，研究遮擋對圖像認(rèn)知的影響規(guī)律，為復(fù)雜場景中的目標(biāo)檢測、識別應(yīng)用提供抗遮擋圖像認(rèn)知模型和算法，為計算機(jī)視覺提供新的理論和方法。

[1] 高艷霞. 基于Gabor+ PCA特征與粒子群算法的部分遮擋人耳識別研究[J]. 圖學(xué)學(xué)報, 2014, 35(1): 100-104.

[2] 羅月童, 朱會國, 韓娟, 等. 遮擋線索增強的最大密度投影算法[J]. 圖學(xué)學(xué)報, 2014 , 35(3): 343-349.

[3] EVERINGHAM M, ESLAMI S M A, VAN GOOL L, et al. The pascal visual object classes challenge: a retrospective [J]. International Journal of Computer Vision, 2015, 111(1): 98-136.

[4] DENG J, DONG W, SOCHER R, et al. Imagenet: a large-scale hierarchical image database [C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 248-255.

[5] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: common objects in context [M]//Computer Vision–ECCV 2014. Berlin: Springer, 2014: 740-755.

[6] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset [J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.

[7] WU T F, LI B, ZHU S C. Learning and-or model to represent context and occlusion for car detection and viewpoint estimation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(9): 1829-1843.

[8] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.

[9] EKENEL H K, STIEFELHAGEN R. Why is facial occlusion a challenging problem? [M]//Advances in Biometrics. Berlin: Springer, 2009: 299-308.

[10] RUSSELL B C, TORRALBA A, MURPHY K P, et al. LabelMe: a database and web-based tool for image annotation. International Journal of Computer Vision, 2008, 77(1-3): 157-173.

[11] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.

[12] GIIRSHIEK R. Fast r-cnn [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1440-1448.

[13] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[14] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]//European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.

[15] WANG X, MA H, CHEN X. Geodesic weighted Bayesian model for saliency optimization [J]. Pattern Recognition Letters, 2016, 75(c): 1-8.

[16] WANG X, MA H M, CHEN X Z, et al. Edge preserving and multi-scale contextual neural network for salient object detection [J]. IEEE Transactions on Image Processing, 2018, 27(1): 121-134.

[17] FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition, New York: IEEE Press, 2008: 1-8.

[18] JIA Y Q, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]//Proceedings of the 22nd ACM international conference on Multimedia. New York: ACM Press, 2014: 675-678.

[19] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2018-03-02]. https://x-algo. cn/wp-content/uploads/2017/01/VERY-DEEP-CONVOLUTIONAL-NETWORK-SFOR-LARGE-SCALE-IMAGE-RECOGNITION.pdf.

Design and Implementation of Tsinghua University Occlusion Image Database

GAO Lei, LIU Chenhao, MA Huimin

(Department of Electronic Engineering, Tsinghua University, Beijing 100084, China)

Occlusion is a common phenomenon in images characteristic of complex scenes. Discovering the pattern of how occlusion affects image cognition and establishing a cognition model insusceptible to occlusion is closely related to the utilization of computer vision technologies, and it is also an important and pressing scientific problem to be solved. By analyzing occlusion in complex scenes and how occlusion affects image cognition, this paper established the Tsinghua University Occlusion Image Database for evaluating the anti-occlusion performance of algorithms and studying image cognition model. Firstly, based on occlusion’s impact on image cognition, this paper proposed a 4-dimension occlusion attribute including occluded part, occluded area, occlusion relationship and occlusion complexity, as well as a quantification standard for the extent of occlusion. Then we proposed a novel hierarchical dataset structure, based on which the database could be constructed. This paper established TUOD database which consists of 2 100 images extracted from PASCAL VOC and Image Net databases. Those images covered 4 major object types: aeroplane, car, person and animal. An experiment was conducted to analyze the influence of each dimension of occlusion attribute on the performance of Faster R-CNN using images in TUOD. As is shown in the aforementioned experiment, TUOD database can provide quantitative criteria for the anti-occlusion performance of algorithms and thus it is highly practical and lays the foundation for improving the anti-occlusion performance of object recognition algorithms in complex scenes.

influence of occlusion classification; assessment of anti occlusion capability; assessment of anti occlusion capability; occlusion image database

TP391.4

10.11996/JG.j.2095-302X.2018061084

2095-302X(2018)06-1084-08

2017-05-04；

2017-05-09

國家重點研發(fā)計劃項目(2016YFB0100900)；自然科學(xué)基金項目(61171113)

高磊(1984-)，男，河北邯鄲人，碩士研究生。主要研究方向為圖像識別。E-mail：leigaogl@126.com

馬惠敏(1972-)，女，河南洛陽人，副教授，博士。主要研究方向為圖像識別。E-mail：mhmpub@tsinghua.edu.cn

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

TUOD遮擋圖像庫的設(shè)計與實現(xiàn)

1 遮擋認(rèn)知理論分析

2 圖像庫的設(shè)計與構(gòu)建

2.1 圖像入庫原則

2.2 遮擋元素標(biāo)注

3 遮擋對識別算法的影響實驗分析

3.1 不同物體檢測算法性能比較

3.2 不同遮擋條件下物體識別性能評估分析

4 結(jié) 論