王凱麗 董言治
摘要:指稱表達通常在人們尋找某個特定對象時應用廣泛,機器人通過視覺和聽覺的融合信息來理解指稱表達指令,并執(zhí)行相應的操作。針對上述任務,通過建立一個結合視聽融合的指稱表達的數(shù)據(jù)集,根據(jù)該數(shù)據(jù)集在真實世界中進行物體的操作,驗證數(shù)據(jù)集的有效性。并且使用程序獲得嚴格控制的指令分布,提出一種新的驗證指標,以驗證數(shù)據(jù)集的有效性。實驗結果表明,該數(shù)據(jù)集能夠有效的應用于視聽具身指稱表達任務,獲得滿意的實驗結果。
關鍵詞:視聽融合? 指稱表達? 目標識別
中圖分類號:TP39? 文獻標志碼:A
引言
為了成為人類的有效助手,機器人必須通過理解我們的物質世界,并且通過自然語言與人類進行互動。例如,“左手邊的玻璃杯”、“遞給我裝有膠囊的瓶子”等。這些看似簡單的任務需要一系列豐富的能力,包括物體識別,音頻分類,機械臂抓取,跨越視覺、聽覺和語言、操作領域。
近年來,已經(jīng)提出很多方法,來解決人機交互的自然語言的基礎問題。與傳統(tǒng)的視覺問答任務不同,指稱表達任務不僅要與語言文本進行理解,還要結合視覺信息,利用兩種模態(tài)的特征進行定位預測。為了解決這個問題,現(xiàn)有的兩階段方法主要通過從一組候選區(qū)域內選擇最優(yōu)的匹配區(qū)域,首先利用傳統(tǒng)的算法或者預先訓練好的檢測網(wǎng)絡,對給定圖像的顯著區(qū)域提取它們的特征,之后在第二階段進行進一步的細致推理。這類方法通常具有很高的性能,但他們耗費的計算時間較長,計算效率低下。而單階段的方法則是主要利用目標檢測領域的單階段模型,僅從經(jīng)過一次的輸入圖像中提取特征,然后直接預測輸出區(qū)域的位置。
相比之下,我們的任務不僅僅要對物體進行簡單的識別,并且需要根據(jù)操作指令的指示表達部分定位到指定物體,并且在視覺無法判斷的情況下,能夠結合聽覺進行探索。在現(xiàn)存的數(shù)據(jù)集中,并沒有適合我們任務的數(shù)據(jù)集,因此,在我們的工作中,結合指稱表達以實現(xiàn)多模態(tài)融合的任務顯得十分重要。
1相關數(shù)據(jù)集介紹
近年來,很多研究進行了多次嘗試來減輕VQA數(shù)據(jù)集的系統(tǒng)性偏差,但它們未能提供一個充分的解決方案。
與此同時,Goyal等人將VQA1.0中的大多數(shù)問題與一對相似的圖片聯(lián)系起來,結果是不同的答案。雖然提供了部分的緩解,但這種方法不能解決開放的問題,使他們的答案分布很大程度上不平衡。
在創(chuàng)建適應視聽融合的指稱表達任務時,我們從CLEVR任務中獲得了靈感,該任務由合成圖像上的合成問題組成。然而,它只有少量的對象類別和屬性,使得它特別容易記憶所有組合,從而降低了其有效的組合程度。
我們的視聽融合的指稱表達數(shù)據(jù)集操作的是真實圖像和大型語義空間,這使得它更具挑戰(zhàn)性。盡管我們的問題不像其他VQA數(shù)據(jù)集那樣自然,但它們顯示了豐富的詞匯和多樣化的語言和語法結構[8]。
2數(shù)據(jù)集制作方法
2.1聽覺數(shù)據(jù)集
在整個實驗設置當中,我們設置了12類常見的對象,圖1為容器內容物的展示。所有的容器形狀大小顏色都是相同的,僅僅依靠視覺信息難以分別出類別,在我們的實驗環(huán)境下,我們收集聽覺信息來辨別物體種類。
實驗物體的種類設置多元化,如圖2所示,在不同的動作下,我們繪制了典型物體的波形圖展示了分類的可能性。
2.2指令數(shù)據(jù)集
我們設計了兩種類型的操作指令,其中對整個場景的位置關系的表述,以及相應的操作任務。分別為存在性指令、分類性指令,如表1所示。舉例來說“找到中間的瓶子,并把它放在紅色的碗中”根據(jù)這樣的指令,可以找出特定的目標物體。
這些模板涵蓋了各種各樣的情況,需要機器人與環(huán)境之間不同程度的交互。例如,存在性指令可能需要來自機器人的一次操作就能夠獲得答案,因為機械臂在探索瓶子內的物體時,可能第一個探索的對象就是我們要尋找的目標物體。然而,分類性指令需要探索所有的瓶子,直到將我們分類的目標物體全部放在對應的指稱表達的位置關系當中。
2.3數(shù)據(jù)集制作
對于視聽融合任務指稱表達的數(shù)據(jù)集的制作,我們采用數(shù)據(jù)集標注的方法進行研究。
對于聽覺數(shù)據(jù)集,每個類別的物體,分別利用機械臂按照坐標軸的三個軸進行晃動以及增加一個貼合人類的晃動作用來收集聲音數(shù)據(jù)。聲音數(shù)據(jù)集的大小為每個類別通過不同的動作采集了400組數(shù)據(jù),整個數(shù)據(jù)大小為4800,這樣充分囊括了在實際情況下可能出現(xiàn)的音頻。
對于指稱表達模塊的標注,我們采用人工標注的方法進行研究。
通過以上方法可以按照我們設計的模板來自動生成,模板包含了幾個基本的函數(shù)生成器,其子函數(shù)包含了物體的位置關系、尺寸、顏色等基本屬性。對應于不同的指令類別,我們根據(jù)其屬性關系以及整個場景的復雜度設計了符合實際情況的指令集。存在性指令和分類性指令的大小為每個144,這部分也充分包含了實際情況下可能出現(xiàn)的場景和操作需求。
3驗證結果
我們分別單獨測試了兩種數(shù)據(jù)集的實用性,對于指示表達部分,通常的指示表達模型用預先訓練過的CNN來提取圖像特征,利用單詞編碼和循環(huán)神經(jīng)網(wǎng)絡來獲取操作指令的特征部分,并把它們投影到一個公共的向量空間,之后在計算它們的相似度,選擇最近的候選特征框作為最終的預測結果。
我們構建了一個類似的CNN+LSTM 的模型測試其性能,并且同樣使用了最先進的模型測試我們的數(shù)據(jù)集,分別是利用了MAttNet、MUTATT、MCNet測試其整個性能。實驗結果如表2所示:
實驗結果表明,在最先進的模型下,我們的操作指令數(shù)據(jù)集依然能夠在測試集和驗證集下保持可觀的準確率,這為整體視聽任務提供了有效的保障。
對于音頻信號,需要提取其梅爾倒譜系數(shù)(MFCC)并把它作為送入深度學習網(wǎng)絡中的特征向量。這種預處理過程中可為整個模型提供良好的魯棒性和識別率。
利用處理好的聲音數(shù)據(jù),我們按照4:1的比例用作訓練集和測試集,我們實驗對比了2D卷積網(wǎng)絡(Conv2d),雙向長短期記憶網(wǎng)絡(Bi-LSTM),雙向門控循環(huán)單元(Bi-GRU)。隨著迭代次數(shù)的不斷增加,我們的準確率在訓練集和測試集上不斷提高,訓練曲線如圖3所示。實驗結果表面在不同的模型下,聽覺數(shù)據(jù)的準確率依舊能夠保持正常的水準。
4總結
在本文中,我們設計了一個新的多模態(tài)數(shù)據(jù)集來展示日常生活中的任務需求。并且我們對此數(shù)據(jù)集進行有效的分析。利用了較為先進的指示表達模型,并進行了實驗評價,在聽覺數(shù)據(jù)部分,我們同樣利用多個模型驗證其有效性。未來的工作包括為更多真實世界場景中的開發(fā)全自動視覺識別方法,并結合語言學和聽覺的端對端的模型。
參考文獻
[1]Michal Nazarczuk and Krystian Mikolajczyk. V2a-vision to action:Learning robotic arm actions based on vision and language. In Proceedings of the Asian Conference on Computer Vision,2020.
[2]任澤裕,王振超,柯尊旺,李哲,吾守爾·斯拉木.多模態(tài)數(shù)據(jù)融合綜述[J].計算機工程與應用,2021,57(18):49-64.
[3]張康. 基于深度學習的多模態(tài)數(shù)據(jù)特征融合問題的研究[D].齊魯工業(yè)大學,2021.
[4]丁祥武,譚佳,王梅.一種分類數(shù)據(jù)聚類算法及其高效并行實現(xiàn)[J].計算機應用與軟件,2017,34(07):249-256.
[5]張值銘,楊德剛.基于多線程爬蟲和OpenCV的人臉數(shù)據(jù)集制作方法[J].現(xiàn)代信息科技,2020,4(18):98-103.
[6]陳海燕,高原鼠兔圖像數(shù)據(jù)集制作軟件. 甘肅省,蘭州理工大學,2019-11-01.
[7]李子康. 基于視聽融合的導盲機器人的設計與研究[D].河北工業(yè)大學,2017.
[8]高晴晴. 基于深度學習的視聽信息融合方法研究[D].河北工業(yè)大學,2016.
[9]祁艷飛. 智能機器人雙傳感融合技術研究[D].南京理工大學,2016.
煙臺大學科技創(chuàng)新基金項目(YDYB2109)。
作者簡介:王凱麗,主研領域:人工智能?? 董言治,副教授。