饒佳莉 繆 君
(1、航空工業(yè)江西洪都航空工業(yè)集團有限責(zé)任公司,江西 南昌330000 2、南昌航空大學(xué),江西 南昌330063)
基于圖像的房間布局估計是計算機視覺研究領(lǐng)域的基本問題之一,其在室內(nèi)導(dǎo)航,場景重建/渲染和增強現(xiàn)實等方面有廣泛的用處[1-2]。
單幅圖像估計房間布局的目標(biāo)是描繪室內(nèi)場景的2D 矩形表示。傳統(tǒng)的布局估計算法主要利用圖像紋理或邊緣等信息進行滅點檢測,并使用結(jié)構(gòu)化的支持向量機或條件隨機場等算法生成房間的布局估計。近年來,隨著用于語義分割的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的快速發(fā)展[3-4],研究人員開始使用CNN 進行房間布局估計。Mallyal 等[5]首先訓(xùn)練一個全卷積網(wǎng)絡(luò)(FCN)模型,產(chǎn)生信息性邊緣圖取代手工設(shè)計的低級圖像特征提取。然后將預(yù)測的邊緣圖用于對消失線進行采樣,以進行布局假設(shè)的生成和排名。Dasgupta 等[6]使用FCN 學(xué)習(xí)語義表面標(biāo)簽,例如左墻、前墻、右墻、天花板和地面。然后,使用連接的組件和孔填充技術(shù)來完善FCN 的每像素原始預(yù)測,然后使用經(jīng)典的消失點/線采樣方法來生成房間布局。但是,盡管結(jié)果有所改善,但這些方法仍使用CNN 來生成一組新的“低級”功能,并且未能充分利用CNN 的端到端學(xué)習(xí)能力。
本文的框架是一個CNN 網(wǎng)絡(luò),如圖1 所示,它使用2D 關(guān)鍵點來描繪房間布局結(jié)構(gòu)。網(wǎng)絡(luò)的輸入是單張RGB 圖像,輸出是一組特定順序的2D 關(guān)鍵點,并帶有關(guān)聯(lián)的房間類型。關(guān)鍵點估計的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)來源于語義分割算法。該網(wǎng)絡(luò)對Badrinarayanan 等人提出的SegNet 架構(gòu)進行了修改。SegNet 框架由編碼器和解碼器子網(wǎng)組成。編碼器將輸入圖像映射到較低分辨率的特征圖,然后解碼器的作用是將低分辨率編碼的特征圖上采樣為完整圖像。
為了將這種方法推廣到多種房間類型,一些研究者使用單圖像3D 解釋器網(wǎng)絡(luò),為每個布局類別訓(xùn)練一個網(wǎng)絡(luò)。但是,為了最大化效率,我們可以增加輸出層中的通道數(shù),以匹配所有11 種房間類型的總共48 個關(guān)鍵點,如圖2 所示。并且還添加了一個專門的層,該層連接圖像分類層,以進行房間類型預(yù)測。
訓(xùn)練示例表示為(I,y,t),其中y 代表輸入圖像I 的房間類型為t 的k 個關(guān)鍵點的真實坐標(biāo)。在訓(xùn)練階段,歐式損失被作為代價函數(shù)布局關(guān)鍵點熱圖回歸,并將交叉熵?fù)p失用于房間類型預(yù)測。給定關(guān)鍵點熱圖回歸器φ(從解碼器子網(wǎng)輸出)和房間類型分類器ψ(從全連接層輸出),式(1)表示了損失函數(shù):
損失函數(shù)中的第一項將預(yù)測的熱圖與針對每個關(guān)鍵點分別綜合的真實熱圖進行比較。每個關(guān)鍵點熱圖的Ground Truth是一個以真實關(guān)鍵點位置為中心的2D 高斯,標(biāo)準(zhǔn)偏差為5 個像素。損失函數(shù)中的第二項是全連接層相對于正確的房間類型類別標(biāo)簽產(chǎn)生高置信度值。
本文的算法在Hedau[7]數(shù)據(jù)集和LSUN 房間布局?jǐn)?shù)據(jù)集[8]上進行了測試。網(wǎng)絡(luò)輸入為分辨率為320×320 的RGB 圖像,輸出為分辨率為40×40 的房間布局重點熱圖,并帶有相應(yīng)的房間類型類標(biāo)簽。我們使用通過時間的反向傳播(BPTT)算法訓(xùn)練批大小為20 隨機最速下降次數(shù)、回合率(dropout)為0.5、動量為0.9、權(quán)重衰減為0.0005 的模型。初始學(xué)習(xí)率為0.00001,在周期(epoch)150 和200 時分別降低5 倍。所有變量都使用相同的方案,總共有225 個批次(epoch)。每個卷積層之后使用批處理歸一化和ReLU 激活函數(shù)來改進訓(xùn)練過程。(圖3)
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
圖2 布局類型1-11
圖3 布局估計實驗結(jié)果
本文展示了一種簡單直接的方法,將房間布局估算作為關(guān)鍵點本地化問題。該網(wǎng)絡(luò)架構(gòu)及其擴展可以進行端到端的訓(xùn)練,以執(zhí)行準(zhǔn)確而有效的房間布局估算。所提出的方法在大量工作中表現(xiàn)良好,它們使用了幾何啟發(fā)的多步處理管道。將來希望采用門控機制以允許傳入信號改變循環(huán)單元的狀態(tài),并將網(wǎng)絡(luò)擴展為用于構(gòu)建房間布局圖的順序數(shù)據(jù)。