融合施工場景及空間關(guān)系的圖像描述生成模型

2020-06-18 03:42徐守坤吉晨晨倪楚涵

計算機工程 2020年6期

徐守坤,吉晨晨,倪楚涵,李寧

(常州大學(xué) 信息科學(xué)與工程學(xué)院數(shù)理學(xué)院,江蘇常州 213164)

0 概述

圖像描述生成是圖像理解領(lǐng)域的研究熱點,而對圖像場景空間關(guān)系的準確描述在圖像理解中至關(guān)重要?；S、建筑工地等施工場景環(huán)境多變,存在多種不安全因素,其中人和危險物的空間關(guān)系是一個重要方面,例如人站在腳手架上或塔吊機的機臂下方時就存在安全隱患。對圖像施工場景中空間關(guān)系的準確描述可為施工管理提供理論指導(dǎo)和技術(shù)支持,也有助于提高施工現(xiàn)場安全管理水平,防范和降低安全隱患,保證現(xiàn)場的安全性。因此,研究施工場景中空間關(guān)系的圖像描述具有重要意義。目前,關(guān)于建筑施工的研究主要側(cè)重于對不安全行為的潛因分析和施工現(xiàn)場的安全行為檢測,關(guān)于建筑施工場景圖像描述的研究較少。

本文提出一種基于施工場景的圖像描述生成模型。針對施工場景需要檢測施工人員的安全狀態(tài)、人員與危險物的空間位置關(guān)系,以及最終生成描述語句的特殊性,進行目標檢測與關(guān)系檢測,基于模板和規(guī)則相結(jié)合的方法構(gòu)建針對施工場景的圖像描述模型,重點研究對象之間的空間關(guān)系,并融合目標檢測、空間關(guān)系語義建模、基于規(guī)則和模板的文本生成技術(shù)對多個場景進行實驗驗證。

1 相關(guān)工作

傳統(tǒng)目標檢測方法大部分基于低層圖像特征,如圖像對比度[1-2]、顏色[3-4]和紋理[5-7]等。近年來,基于深度學(xué)習(xí)的目標檢測方法,特別是基于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的目標檢測方法,較傳統(tǒng)目標檢測方法取得更優(yōu)異的效果。文獻[8]提出兩種深度神經(jīng)網(wǎng)絡(luò)融合局部估計的像素和全局建議搜索區(qū)域可實現(xiàn)突出目標檢測。文獻[9]使用多個通用的CNN多尺度特征預(yù)測各像素的顯著程度。雖然上述方法具有較好的效果,但是沒有很好地處理底層細節(jié),而且采用的模型包含了多個完全連接層,這些連接層計算量較大,且易丟失輸入圖像空間信息。為解決該問題,文獻[10]提出深層次顯著性網(wǎng)絡(luò)來學(xué)習(xí)全局結(jié)構(gòu),通過整合上下文信息逐步細化顯著性映射細節(jié)。文獻[11]開發(fā)出深度遞歸的全卷積神經(jīng)網(wǎng)絡(luò),將粗預(yù)測作為顯著先驗知識,并逐步細化生成的預(yù)測。

在關(guān)系檢測方面,文獻[12-13]通過網(wǎng)絡(luò)學(xué)習(xí)上面、下面、里面和周圍4種空間關(guān)系以改善圖像分割精度。文獻[14-15]提出一種檢測相鄰物體間物理支撐關(guān)系的方法。文獻[16-17]通過研究對象間語義關(guān)系(例如動作或交互),將每種可能的語義關(guān)系組合作為一個可視短語類進行關(guān)系檢測,該方法采用手工標注且只能檢測到少量常見的視覺關(guān)系。近年來,基于深度學(xué)習(xí)的視覺關(guān)系檢測體系結(jié)構(gòu)引起研究人員的關(guān)注[18-20]。文獻[18]加入?yún)⑴c對象信息或字幕的語言線索進行關(guān)系檢測。文獻[19]將關(guān)系作為連接場景圖中兩個對象節(jié)點的有向邊,通過迭代構(gòu)造場景圖推導(dǎo)出對象間關(guān)系。文獻[20]采用邊界框方法標注出主體對象和相關(guān)對象,并通過網(wǎng)絡(luò)學(xué)習(xí)邊界框內(nèi)的視覺特征。

在圖像字幕生成方面,基于模板的方法是使用預(yù)先定義模板生成語句,并用模板中的插槽填充圖像實體[21-23]。采用該方法將可視化內(nèi)容表示為一個三元組,其生成的描述語句雖然語法正確但是語言僵化不靈活?；诤铣傻姆椒ㄊ菍z索到的文本片段或者實體拼接成一個圖像描述語句[24-26]。該方法通過復(fù)雜的預(yù)定義規(guī)則來檢索文本片段或?qū)嶓w以生成完整的圖像標題[27]。與基于模板的方法相比,基于合成的方法生成的圖像描述更具有表現(xiàn)力,但是其參數(shù)個數(shù)具有不確定性,因而測試時計算量較大?；谡Z言模型的方法是將圖像和語言結(jié)合到一個多模態(tài)嵌入空間中,使用基于神經(jīng)網(wǎng)絡(luò)的語言模型生成圖像標題[28-30]。文獻[28]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對不同長度的標題進行解碼。文獻[29]采用LSTM解碼器對上下文的圖像描述進行解碼。文獻[31]提出一種多模態(tài)對數(shù)雙線性神經(jīng)語言模型,該模型通過圖像特征的偏置來解碼圖像標題。文獻[32]將CNN編碼的圖像和分析標準正則學(xué)習(xí)到的語義嵌入作為LSTM解碼器的輸入。文獻[33]將注意力機制與LSTM解碼器結(jié)合,在字幕生成過程中注重圖像的各部分。

2 圖像描述模型設(shè)計

建筑施工場景環(huán)境具有多變性。施工現(xiàn)場通常存在多種不安全因素,包括施工人員未按規(guī)定佩戴安全帽導(dǎo)致被墜落物體擊傷,以及腳手架、塔吊等因局部結(jié)構(gòu)工程失穩(wěn)造成機械設(shè)備傾覆、結(jié)構(gòu)坍塌或人員傷亡等,因而本文主要研究以下場景:1)安全防護場景,如施工人員佩戴安全帽的狀態(tài);2)高空作業(yè)場景,如施工人員在腳手架上;3)地面作業(yè)場景,如施工人員在塔吊下方。在安全防護場景中檢測施工人員是否佩戴安全帽,在高空作業(yè)場景和地面作業(yè)場景中檢測人與腳手架、塔吊的空間位置關(guān)系,并最終生成空間關(guān)系圖像描述語句。

本文生成空間關(guān)系圖像描述的模型包括3個階段,如圖1所示。第1階段是采用YOLOv3網(wǎng)絡(luò)進行目標檢測;第2階段是采用關(guān)系檢測模型結(jié)合對象坐標框信息進行關(guān)系檢測,從待測圖像中檢測所有對象之間的空間關(guān)系;第3階段是基于規(guī)則和模板的方法生成關(guān)于空間關(guān)系的圖像描述。

2.1 目標檢測

本文使用YOLOv3網(wǎng)絡(luò)進行目標檢測,這是因為該網(wǎng)絡(luò)融合分辨率不同的特征圖,具有較高檢測精度和效率。對于分離式模型,目標檢測網(wǎng)絡(luò)性能越好,關(guān)系檢測結(jié)果越優(yōu)。YOLOv3網(wǎng)絡(luò)包含Darknet-53特征提取層和3層輸出層,其中Darknet-53特征提取層由DBL層和res_unit構(gòu)成,YOLO輸出層由尺度為13×13×255、26×26×255、52×52×255的3種特征圖譜構(gòu)成,如圖2所示。該網(wǎng)絡(luò)結(jié)構(gòu)可提高對不同尺寸物體和遮擋物體的檢測精度。YOLOv3網(wǎng)絡(luò)以躍層連接的方式進行,收斂效果優(yōu)異,且采用多尺度訓(xùn)練策略增強了該網(wǎng)絡(luò)的魯棒性。

圖2 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)

圖2中DBL層為YOLOv3網(wǎng)絡(luò)的基本組件,由卷積層、BN層和Leaky relu激活函數(shù)組成,BN層、Leaky relu激活函數(shù)和卷積層不可分離(最后一層卷積除外)。Resn(n為數(shù)字,表示res_block中含有n個res_unit)為YOLOv3網(wǎng)絡(luò)的大組件,通常有res1、res2、…、res8等。張量拼接(Concat)是將darknet中間層和后面某一層的上采樣進行拼接。拼接操作和殘差層的add操作不同,拼接操作會擴充張量維度,而add操作只直接相加不會改變張量維度。

YOLOv3網(wǎng)絡(luò)采用多尺度輸出并大量使用殘差的躍層連接,是一個全卷積網(wǎng)絡(luò)。這種殘差結(jié)構(gòu)使得YOLOv3網(wǎng)絡(luò)在結(jié)構(gòu)很深的情況下仍能正常收斂,從而實現(xiàn)模型的正常訓(xùn)練。在通常情況下,網(wǎng)絡(luò)結(jié)構(gòu)越深,其提取的特征越好,且分類和檢測效果越佳。殘差網(wǎng)絡(luò)中的1×1卷積使用了網(wǎng)絡(luò)的思想,通過減少參數(shù)數(shù)量一定程度上減少了計算量。

YOLOv3網(wǎng)絡(luò)檢測的每個對象均有一個邊界框代表其空間信息和對象分類概率,表示為:

Po={Pi}i=1,2,…,N+1

(1)

其中,Pi為待測物體屬于類別i的概率,N為對象類別總數(shù),N+1是作為背景的對象個數(shù)。每個被檢測對象的位置記為(X,Y,W,H),其中,(X,Y)為圖像平面上邊框左上角點的歸一化坐標,(W,H)為邊界框的標準化寬度和高度。

YOLOv3網(wǎng)絡(luò)目標檢測過程具體如下:

1)輸入自制目標檢測數(shù)據(jù)集(以下稱為自制數(shù)據(jù)集)并將其預(yù)處理為YOLO格式數(shù)據(jù)集。

2)送入YOLOv3網(wǎng)絡(luò)訓(xùn)練模型,網(wǎng)絡(luò)將圖片分成S×S個網(wǎng)格,每個單元格用來檢測中心點在單元格內(nèi)的目標,并通過非極大值抑制篩選出最終目標檢測框。

3)測試圖像,若檢測目標得分大于閾值則標注出圖像中對象及輸出對象得分,否則將顯示無法檢測出圖像中的對象。

自制數(shù)據(jù)集標注了對象和場景類別,在此數(shù)據(jù)集上訓(xùn)練模型參數(shù),可使得模型能捕捉圖像中的物體信息,同時包含許多場景先驗信息用于捕捉圖像中的場景信息。在一般情況下,將對象及其特定空間關(guān)系抽象為一種場景,該場景包括3個方面:1)場景中行為主體表現(xiàn)出不同的行為特征,如施工人員是否佩戴安全帽;2)場景基本不變或者變化很小,如施工樓層等;3)在同一空間中,對象之間的不同位置關(guān)系形成不同場景,如腳手架和塔吊等。自制數(shù)據(jù)集通過收集施工現(xiàn)場圖片,按照上述場景的定義進行標注以支持安全防護、高空作業(yè)、地面作業(yè)等場景分析。

2.2 關(guān)系檢測

視覺關(guān)系的一般表達式為<主語,謂語,賓語>,組件謂語為一個動作(如戴著),或者為相對位置(如左邊、右邊)。關(guān)系檢測的任務(wù)是檢測和定位圖像中出現(xiàn)的所有對象,并預(yù)測任意兩個對象之間所有可能的空間關(guān)系。關(guān)系檢測過程如下:

1)輸入自制關(guān)系檢測數(shù)據(jù)集和由目標檢測模型訓(xùn)練得到的權(quán)重文件,對數(shù)據(jù)集進行預(yù)處理。

2)送入關(guān)系檢測模型進行訓(xùn)練,采用轉(zhuǎn)換嵌入(TransE)算法學(xué)習(xí)主語到賓語之間的轉(zhuǎn)換嵌入,通過特征提取層提取對象的類別信息、位置和視覺特征,預(yù)測對象之間的關(guān)系。

3)測試圖像,若檢測到對象對關(guān)系的得分大于閾值則標注出圖像中成對的對象及輸出對象間關(guān)系的三元組,否則無法檢測出圖像中對象之間的關(guān)系。

2.2.1 空間關(guān)系上下左右的定義

定義對象oi的幾何中心,其中(xi1,yi1)和(xi2,yi2)分別是對象oi左上角和右下角的坐標:

center(oi)=[centerx(oi),centery(oi)]=

(2)

定義lx(oi) 和lx(oj)分別為對象oi和oj邊界框在x方向上的長度,如果

|centerx(oi)-centerx(oj)|<ε(lx(oi)+lx(oj))

(3)

則定義在x方向上兩個對象位于同一位置,否則,如果:

center(oi)

(4)

則認為對象oi在oj的左邊,否則認為對象oi在oj的右邊。

定義ly(oi) 和ly(oj)分別為對象oi和oj邊界框在y方向上的長度,如果:

|centery(oi)-centery(oj)|<ε(ly(oi)+ly(oj))

(5)

則定義在y方向上兩個對象位于同一位置,否則,如果:

center(oi)

(6)

則認為對象oi在oj的上邊,否則認為對象oi在oj的下邊。

2.2.2 關(guān)系檢測模型

本文使用TransE算法作為關(guān)系檢測模型的基礎(chǔ),并加入特征提取層,其中TransE算法通過在低維空間中映射對象和謂語特征對可視化關(guān)系建模,特征提取層以全卷積方式實現(xiàn)目標關(guān)系知識的遷移。該模型融合了語言先驗知識并提高了關(guān)系檢測準確率,其建立在傳統(tǒng)對象檢測模型基礎(chǔ)上,可以與YOLOv3網(wǎng)絡(luò)很好地銜接,從而預(yù)測出對象之間的空間關(guān)系。空間關(guān)系采用廣泛使用的形式,其中s和o分別表示主語和賓語類別,p表示關(guān)系謂語。關(guān)系檢測模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其中Ws、Wo是特征空間到關(guān)系空間映射的矩陣。

圖3 關(guān)系檢測網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)結(jié)構(gòu)的相關(guān)定義為:

定義1(轉(zhuǎn)換嵌入) 通過在低維空間里將目標和謂語進行建模生成視覺關(guān)系,低維空間里的關(guān)系三元組被認為是一種向量轉(zhuǎn)換,如“人+上方≈危險源”。通過減少變量可避免學(xué)習(xí)大量主語、謂語、賓語的表示關(guān)系,即使主語或者賓語有較大變換,只需學(xué)習(xí)空間關(guān)系里的“上方”轉(zhuǎn)換向量。

定義2(關(guān)系中的知識轉(zhuǎn)換) 網(wǎng)絡(luò)中對象和謂語之間的知識轉(zhuǎn)移結(jié)合。通過一種特征提取層提取轉(zhuǎn)換嵌入中對象的三種類型特征:分類(類概率)、位置(邊界框坐標和比例)和視覺特征。

定義3(類別信息) 一個目標檢測網(wǎng)絡(luò)中的(N+1)維向量,用來表示目標的類概率。類別信息在各種視覺任務(wù)中被廣泛用作語義屬性。

定義4(位置) 一個表示邊界框參數(shù)的四維向量。前兩個參數(shù)表示比例不變的平移,后兩個參數(shù)表示相對于主體或者目標其在對數(shù)空間的高或?qū)挼淖儞Q。以主體為例:

(7)

其中,(x,y,w,h)和(x′,y′,w′,h′)分別是主體和目標的坐標。位置特征用于檢測空間關(guān)系和動詞。

定義5(視覺特征) 一個從空間卷積特征轉(zhuǎn)換而來的d維向量。物體的視覺特征通過使用線性插值從卷積特征映射提取出來,因而對象和關(guān)系之間的信息、位置、視覺特征可以單一的前向或后向傳遞。

2.2.3 坐標信息確認

關(guān)系檢測模型可檢測出圖像中對象與對象、對象與場景之間的空間關(guān)系,對于同一類對象間的關(guān)系無法區(qū)分,例如關(guān)系檢測模型檢測的關(guān)系包含“人在人的左邊”“人戴著安全帽”“人在人的右邊”,但是無法區(qū)分圖中戴著安全帽的人在左邊還是右邊,因而還需利用坐標信息進一步區(qū)分對象間的關(guān)系。

南通集裝箱多式聯(lián)運尚處于起步階段，絕大多數(shù)企業(yè)不具備策劃、組織、協(xié)調(diào)多式聯(lián)運的能力和經(jīng)驗，整體服務(wù)水平處于較低層次。各企業(yè)間沒有統(tǒng)一的信息協(xié)調(diào)平臺，各企業(yè)系統(tǒng)各自獨立運行，還處于一種分割的各自為戰(zhàn)的狀態(tài)，這也不利用構(gòu)建完善的、通暢的集裝箱聯(lián)運體系，無法實現(xiàn)無縫鏈接，聯(lián)運效率難以提升。

關(guān)系檢測模型中存在對象坐標框信息,利用該信息可區(qū)分同類對象之間的空間關(guān)系,即對象1位于對象2的某個位置。關(guān)系檢測模型輸出關(guān)系短語由主語、謂語和賓語組成,本文將關(guān)系檢測模型檢測到的多個關(guān)系短語通過以下方式來確認對象間的關(guān)系:關(guān)系檢測模型預(yù)測出第一個關(guān)系短語,定義一個存放對象邊界信息的列表并建立索引,將主語的坐標框信息存放于列表中,獲取該坐標框信息的索引并添加到主語后,將賓語的坐標框信息與列表中存儲的坐標框信息進行對比,如果無相同的坐標框信息就重新存放于列表中,獲取該坐標信息的索引并添加到賓語后。其他關(guān)系短語的主語與賓語對象按照上述方式進一步區(qū)分,每次向列表中存放對象坐標框信息時,都必須與列表中的邊界框坐標信息進行對比,確保存放在列表中的坐標框信息不重復(fù),以保證每個對象有唯一的下標。經(jīng)實驗驗證,該方法具有較好的實驗效果,可以區(qū)分戴著安全帽的人在左邊還是右邊。

2.3 基于規(guī)則和模板的空間關(guān)系描述方法

2.3.1 空間關(guān)系描述的規(guī)則

根據(jù)關(guān)系檢測模型的檢測結(jié)果,制定空間關(guān)系描述規(guī)則:從上下關(guān)系考慮,根據(jù)人是否在危險源的上方或者下方來確定施工場景中是否存在安全隱患;從左右關(guān)系考慮,由于單人情況下無需判斷左右關(guān)系,所以只制定了兩人和多人情況下的規(guī)則,根據(jù)各對象之間的左右關(guān)系以及目標對象是否佩戴安全帽來確定左邊、右邊的人是否佩戴安全帽。空間關(guān)系描述規(guī)則的具體內(nèi)容如表1所示。

表1 空間關(guān)系描述規(guī)則

2.3.2 空間關(guān)系描述的生成

在采用模板生成空間關(guān)系描述過程中,可采用模板生成技術(shù)根據(jù)需求設(shè)計出可能出現(xiàn)的語言情況,并制定相應(yīng)情況的模板,模板中有常量也有變量?？臻g關(guān)系描述的表達具有一定規(guī)律,可根據(jù)人們描述空間關(guān)系的固有規(guī)律來制定描述的固定模板為:“<變量1>位置的人<變量2>安全帽。”該固定模板以檢測到的信息作為字符串嵌入模板中替換變量。

2.4 空間關(guān)系的圖像描述

一幅圖像生成一個包含空間關(guān)系語句(字幕)的過程如圖4所示。關(guān)系檢測模型檢測的關(guān)系短語、根據(jù)圖像字幕數(shù)據(jù)集生成的語句模板與制定的規(guī)則三者結(jié)合生成圖像字幕。

圖4 圖像字幕生成過程框架

空間關(guān)系描述是將圖像中對象之間存在的空間關(guān)系以自然語言的形式進行描述,其中空間關(guān)系既包括人戴安全帽的隱性空間關(guān)系,也包括人處于參考對象某個位置的顯性空間關(guān)系。通常只有將隱性和顯性的空間關(guān)系相結(jié)合,才能貼切、詳細地描述一幅圖像。下面以關(guān)系檢測模型得到的空間關(guān)系示例圖(見圖5)為例來說明如何進行有空間關(guān)系的圖像描述。

圖5 空間關(guān)系示例圖

空間關(guān)系描述的語句通常為固定句式,例如“<變量1>位置的人<變量2>安全帽”等,所以空間關(guān)系描述可由模板生成技術(shù)生成。由圖5可以看出,檢測的空間關(guān)系包含了“人1戴安全帽2”“人3戴安全帽4”“人1在人3的左邊”“人3在人1的右邊”4種關(guān)系,再采用基于規(guī)則的方法匹配滿足4種關(guān)系條件的結(jié)果,將<變量1>替換成“左邊”、<變量2>替換成“戴”,最終采用基于規(guī)則和模板的方法生成空間關(guān)系的自然語言描述為:“左邊的人戴安全帽并且右邊的人戴安全帽”。

3 實驗與結(jié)果分析

3.1 實驗環(huán)境

實驗采用GeForce GTX 1080 Ti軟件、CUDNN6.0軟件、CUDA8.0軟件和Ubuntu16.04軟件作為圖形處理器(Graphics Processing Unit,GPU),內(nèi)存為12 GB。本文基于tensorfow框架進行實驗操作,該框架支持GPU運算。

3.2 數(shù)據(jù)集

目前在國內(nèi)外尚未發(fā)現(xiàn)公開的施工現(xiàn)場工人作業(yè)圖像標準數(shù)據(jù)集,實驗所用的3 050張圖片通過從公共數(shù)據(jù)集篩選、從“視覺中國”網(wǎng)站收集和自行拍照等方式獲得,其中包含了具有不同施工背景和不同質(zhì)量施工場景的圖片。根據(jù)目標檢測實驗需求,將上述圖片標注為VOC2007數(shù)據(jù)集格式,用labelimg進行標注,保存后生成與所標注圖片文件名相同的xml文件,如圖6所示,分別對每一類圖片進行人工標注。

圖6 圖片標注示例圖

3.2.2 關(guān)系檢測數(shù)據(jù)集

視覺關(guān)系檢測(Visual Relationship Detection,VRD)數(shù)據(jù)集[17]:使用VRD數(shù)據(jù)集進行關(guān)系檢測模型的訓(xùn)練,模型在參數(shù)調(diào)整完成后進行再遷移,替換為自制數(shù)據(jù)集進行訓(xùn)練。VRD數(shù)據(jù)集共有5 000張圖像,包含100個對象類別和70個關(guān)系。具體而言,VRD數(shù)據(jù)集包含37 993個關(guān)系三元組注釋,每個對象類別包含6 672個唯一三元組注釋和24.25個關(guān)系。實驗從VRD數(shù)據(jù)集取4 000張圖像作為訓(xùn)練樣本、1 000張圖像用于測試。其中,1 877個關(guān)系只存在于零樣本評估的測試集中。

自制數(shù)據(jù)集:將目標檢測數(shù)據(jù)集中收集的圖片按照VRD數(shù)據(jù)集的格式制作用于關(guān)系檢測實驗,標注“人在危險物的上方或下方”“人和人的左右關(guān)系”“人是否佩戴安全帽”以及各個對象的坐標信息,最終生成json格式文件。

3.2.3 圖像字幕生成數(shù)據(jù)集

用于研究圖像字幕生成的公共數(shù)據(jù)集有COCO數(shù)據(jù)集、Flickr30k數(shù)據(jù)集等,但上述公共數(shù)據(jù)集中均沒有基于施工場景的圖像字幕數(shù)據(jù)集,因而本文實驗使用的圖像字幕生成數(shù)據(jù)集是由目標檢測實驗中收集的3 050張圖片按照COCO數(shù)據(jù)集格式制作得到。通過自編程實現(xiàn)圖片統(tǒng)一命名和統(tǒng)一格式處理,具體流程為:編寫一個腳本程序自動獲取圖片文件名、高度、寬度信息,并將其寫進json文件,為每張圖片人工標注五句話。標注流程為:對每句caption進行中文描述→翻譯成英文→檢查時態(tài)(現(xiàn)在時或現(xiàn)在進行時)→檢查語法→復(fù)制到captions_train2018.json文件對應(yīng)的字幕中→檢查整句話→完成全部圖片標注后將captions_train2018.json文件內(nèi)容復(fù)制到https://www.bejson.com/網(wǎng)址中檢查是否為規(guī)范的json文件。

3.3 目標檢測實驗

3.3.1 數(shù)據(jù)集預(yù)處理

自制數(shù)據(jù)集為VOC2007格式,目標檢測實驗使用YOLOV3網(wǎng)絡(luò),因而需先將VOC格式的標注轉(zhuǎn)換為YOLO格式的txt標注,并對YOLOv3網(wǎng)絡(luò)配置文件的參數(shù)進行修改,具體包括:修改filters參數(shù)(該參數(shù)為輸出特征圖的數(shù)量;其值取決于類別、坐標和masks的數(shù)量);修改anchors參數(shù)(該參數(shù)值由kmeans聚類算法得到,分別為27、17、52、128、53、34、85、56、88、189、134、223、152、120、205、257、374、588)。

3.3.2 網(wǎng)絡(luò)訓(xùn)練與測試

目標檢測實驗分為網(wǎng)絡(luò)訓(xùn)練和網(wǎng)絡(luò)測試2個階段。

1)網(wǎng)絡(luò)訓(xùn)練階段:先初始化網(wǎng)絡(luò)訓(xùn)練參數(shù):batch參數(shù)(一批樣本數(shù)量)設(shè)置為64;動量參數(shù)設(shè)置為0.9,使用小批量隨機梯度下降進行優(yōu)化;權(quán)重衰減參數(shù)設(shè)置為0.005,設(shè)置該值是為防止過擬合;學(xué)習(xí)率由原來算法中的0.005變?yōu)?.001。YOLOv3網(wǎng)絡(luò)采用多尺度進行網(wǎng)絡(luò)訓(xùn)練,增強了網(wǎng)絡(luò)對不同尺寸圖像的魯棒性,圖片尺寸為320×320～608×608,采樣間隔為32。實驗中網(wǎng)絡(luò)結(jié)構(gòu)部分參數(shù)如表2所示。

表2 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)部分參數(shù)

2)網(wǎng)絡(luò)測試階段:輸入一張待檢測圖片到Y(jié)OLOv3網(wǎng)絡(luò),輸出一張檢測到目標對象的圖片。

3.3.3 評估指標

目標檢測有多種評價指標,例如目標檢測精度、檢測效率和定位準確性等,每種評價指標的性能側(cè)重點不同。本文實驗側(cè)重于考察目標檢測精度,因此采用多個類別平均精度的平均值(mean Average Precision,mAP)作為描述目標檢測精度的評估指標。mAP取值范圍為[0,1],mAP值越大表示目標檢測精度越高。精確度的計算公式如下:

(8)

其中,TP(True Positive)為被模型預(yù)測為正值的正樣本;FP(False Positive)為被模型預(yù)測為負值的正樣本。

3.3.4 結(jié)果與分析

由圖7可以看出,當YOLOv3網(wǎng)絡(luò)開始訓(xùn)練時,損失值高達6 000;隨著YOLOv3網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)的增加,損失值逐漸降低;當YOLOv3網(wǎng)絡(luò)訓(xùn)練迭代次數(shù)達到5 000次時,損失值趨于恒定約為0.1。從損失值的收斂情況看,YOLOv3網(wǎng)絡(luò)的訓(xùn)練結(jié)果較理想。

圖7 YOLOv3網(wǎng)絡(luò)訓(xùn)練過程中損失值隨迭代次數(shù) 的變化曲線

目標檢測實驗的部分檢測結(jié)果如圖8所示?？梢娡ㄟ^目標檢測實驗檢測出人、安全帽和腳手架等對象,這表明YOLOv3網(wǎng)絡(luò)可實現(xiàn)對目標對象較準確地定位。

圖8 目標檢測實驗的部分檢測結(jié)果

3.4 關(guān)系檢測實驗

3.4.1 數(shù)據(jù)集預(yù)處理

訓(xùn)練用圖使用一個“主謂賓”三元組來標記,其中每個不同的主體或者目標用邊界框進行注釋。

3.4.2 網(wǎng)絡(luò)訓(xùn)練與測試

關(guān)系檢測實驗分為網(wǎng)絡(luò)訓(xùn)練和網(wǎng)絡(luò)測試2個階段。

1)網(wǎng)絡(luò)訓(xùn)練階段:圖像尺寸設(shè)置為600像素(最大不能超過1 000像素),一個圖像和128個隨機選擇的三元組作為每個批次的輸入。首先在VRD數(shù)據(jù)集上訓(xùn)練模型,模型訓(xùn)練完畢后再用自制數(shù)據(jù)集進行訓(xùn)練。采用Adam優(yōu)化器計算各參數(shù)的自適應(yīng)學(xué)習(xí)率。初始學(xué)習(xí)率均設(shè)置為0.000 01,batch參數(shù)設(shè)置為50,每測試50個樣本更新一次參數(shù)。在每次學(xué)習(xí)過程中,將學(xué)習(xí)后的權(quán)重衰減按照固定比例降低,權(quán)重衰減參數(shù)設(shè)置為0.005。關(guān)系檢測網(wǎng)絡(luò)結(jié)構(gòu)的部分參數(shù)如表3所示。

表3 關(guān)系檢測網(wǎng)絡(luò)結(jié)構(gòu)部分參數(shù)

2)網(wǎng)絡(luò)測試:輸入一張未標注的圖片到關(guān)系檢測模型,輸出一個檢測到不同目標的集合,并且輸出每一對目標之間關(guān)系的預(yù)測評分。

3.4.3 評估指標

實驗使用召回率(Recall@N)評估關(guān)系檢測模型對空間關(guān)系檢測的有效性[34],Rec@N用來計算每個圖像前N個預(yù)測中所包含正確關(guān)系實例的比例,計算公式如下:

(9)

其中,FN(False Negative)表示被模型預(yù)測為負值的正樣本。

3.4.4 結(jié)果與分析

關(guān)系檢測實驗的部分檢測結(jié)果如圖9所示?？梢娡ㄟ^關(guān)系檢測實驗檢測出單人場景中人與物之間的關(guān)系、多人場景中人與人間的關(guān)系,這表明關(guān)系檢測模型可較準確地檢測對象之間的空間關(guān)系。

圖9 關(guān)系檢測實驗的部分檢測結(jié)果

利用坐標信息區(qū)分同類對象的關(guān)系檢測實驗部分檢測結(jié)果如圖10所示?？梢娡ㄟ^實驗檢測出人1在人3的左邊,這表明加入坐標信息后關(guān)系檢測模型可區(qū)分出同類對象間的空間關(guān)系。

圖10 利用坐標信息的關(guān)系檢測實驗部分檢測結(jié)果

除了本文采用的關(guān)系檢測方法(以下稱為本文方法)外,常用的關(guān)系檢測方法還有Lu’s系列方法和STA方法。Lu’s系列方法采用單獨預(yù)測對象和關(guān)系謂語,結(jié)合語言先驗知識進行關(guān)系預(yù)測。STA方法采用訓(xùn)練前重組策略,降低關(guān)系對于對象的依賴性再進行關(guān)系預(yù)測。本文方法以TransE算法和特征提取層為基礎(chǔ)結(jié)合坐標信息檢測對象間的關(guān)系。分別采用Lu’s-V方法[18]、Lu’s-VLK方法、STA方法[35]和本文方法在VRD公共數(shù)據(jù)集和自制數(shù)據(jù)集上進行實驗,結(jié)果如表4所示?？梢姴捎肔u’s-V方法和Lu’s-VLK方法得到的召回率較低;采用STA方法得到的召回率略有提升;采用本文方法得到的評估指標分數(shù)較高,在VRD公共數(shù)據(jù)集和自制數(shù)據(jù)集上采用本文方法得到的召回率比采用STA方法得到的分別提高18.63%和20.03%,這表明本文方法更適用于檢測對象之間的空間關(guān)系。

表4 不同關(guān)系檢測方法在不同數(shù)據(jù)集上得到的召回率

3.5 空間關(guān)系圖像描述實驗

3.5.1 數(shù)據(jù)集預(yù)處理

將圖像字幕數(shù)據(jù)集分割為單詞,按單詞出現(xiàn)的頻率進行篩選后建立詞匯字典,詞匯字典里包含單詞、詞頻、單詞編號,出現(xiàn)頻率低于4次的單詞不被收入詞匯字典。

3.5.2 圖像字幕生成的過程

關(guān)系檢測模型檢測的空間關(guān)系為“人1戴著安全帽2”“人1在人3的左邊”“人3在人1的右邊”,根據(jù)定義的規(guī)則,可得到關(guān)系檢測結(jié)果為“左邊的人戴著安全帽”。句子模板為The man helmet,結(jié)合關(guān)系檢測的結(jié)果信息和定義的規(guī)則,將替換成left、替換成wears,最終基于規(guī)則和模板的空間關(guān)系描述方法生成的語句為The left man wears helmet(左邊的人戴著安全帽)。

3.5.3 評估指標

本文采用雙語評估替補(Bilingual Evaluation Understudy,BLEU)方法和METEOR方法對生成的語句進行整體評估[36-37]。BLEU方法將候選翻譯結(jié)果的N-gram算法與參考結(jié)果的N-gram算法匹配的個數(shù)進行對比。這些匹配與位置無關(guān),匹配個數(shù)越多說明候選翻譯越好。BLEU方法是一種改進的精度度量方法,缺點為語句簡短,其計算值為不同長度N-gram算法的加權(quán)幾何平均值。METEOR方法通過將翻譯假設(shè)與參考譯文對齊并計算語句相似度評分來評估翻譯假設(shè)。對于一個假設(shè)引用對,可能的對齊空間通過詳盡地確定語句之間所有可能的匹配而構(gòu)建。如果單詞的表面形式相同,則表明單詞匹配;如果詞干相同,則表明詞干匹配;如果短語在適當?shù)尼屃x表中被列出,則表明短語匹配。

3.5.4 結(jié)果分析

將本文模型與m-RNN、NIC、Soft-Attention、Hard-Attention等主流模型在自制數(shù)據(jù)集上的精度進行對比,結(jié)果如表5所示?？梢娕cm-RNN模型和NIC模型相比,本文模型在BLEU-3、BLEU-4、METEOR等評價指標上分數(shù)較高(評估指標值越高,說明模型性能越好),其中本文模型的BLEU-4值比NIC模型提高7.3%。這是因為NIC模型是較早提出的端到端模型,采用CNN網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)生成圖像描述,因而本文模型的性能整體優(yōu)于NIC模型的。與Soft-Attention模型和Hard-Attention模型相比,本文模型的METEOR值略低,但是反映句子連貫性和準確率的BLEU-4值較高,其中本文模型的BLEU-4值比Soft-Attention模型提高7.1%,比Hard-Attention模型提高6.3%。這是因為Soft-Attention模型雖然在NIC模型的基礎(chǔ)上增加了注意力機制,但是沒有考慮描述圖像中對象之間的空間關(guān)系,所以本文模型的性能比Soft-Attention模型更優(yōu)。

表5 本文模型與其他模型在自制數(shù)據(jù)集上的評價指標情況

由表6可以看出,與NIC模型相比,本文模型生成的語句具有更好的空間關(guān)系語義表達,能更準確地描述施工場景中包含的空間位置關(guān)系。在建筑施工場景中,當兩個人都戴了安全帽時,本文模型描述為“左邊的人戴著安全帽并且右邊的人戴著安全帽”;當兩個人中只有一個人戴了安全帽時,本文模型明確描述出是左邊的還是右邊的人戴著安全帽。

表6 本文模型與NIC模型生成的圖像描述對比

4 結(jié)束語

本文提出一種融合施工場景及空間關(guān)系的圖像描述生成模型。通過使用YOLOv3網(wǎng)絡(luò)目標檢測模型訓(xùn)練得到權(quán)重文件,將其與數(shù)據(jù)集輸入到關(guān)系檢測模型,基于規(guī)則和模板的方法生成圖像描述。實驗結(jié)果表明,本文模型較m-RNN、NIC、Soft-Attention、Hard-Attention模型在圖像描述生成任務(wù)上取得更好的效果,能很好地解決施工現(xiàn)場中人的安全性推斷和描述問題。但是本文模型生成的描述語句句式較單一,內(nèi)容上缺乏細節(jié)描述,下一步將對此進行研究以生成更生動的圖像描述語句。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡