王瑞平,吳士泓,張美航,王小平
1.遠(yuǎn)光軟件股份有限公司遠(yuǎn)光研究院,廣東 珠海 519085
2.華中科技大學(xué) 人工智能與自動(dòng)化學(xué)院,武漢 430074
3.武漢科技大學(xué) 機(jī)械自動(dòng)化學(xué)院,武漢 430081
視覺問答是隨計(jì)算機(jī)視覺和自然語言處理的成熟而衍生出的一門多學(xué)科跨模態(tài)人機(jī)交互技術(shù),其過程伴隨著對(duì)視覺和語言特征的感知、識(shí)別和理解,以及跨模態(tài)融合推理,具有重要的理論研究價(jià)值,此外,視覺問答也被認(rèn)為是人工智能邁向更高層次的重要途徑,極具應(yīng)用潛力。
視覺問答系統(tǒng)主要由三部分組成,分別是視覺特征處理、語言特征處理和跨模態(tài)特征融合。語言特征處理是視覺問答任務(wù)的重點(diǎn)和難點(diǎn)之一,其核心方法和理論源于自然語言處理。語言特征處理涉及的關(guān)鍵技術(shù)包括但不限于命名實(shí)體識(shí)別、常識(shí)推理、關(guān)系抽取和邏輯推理,此外,還包括跨模態(tài)融合及答案生成。
針對(duì)視覺問答中的語言處理方法,相關(guān)綜述已經(jīng)對(duì)其進(jìn)行了歸納總結(jié)。例如Zhang等人[1]從圖像和視頻問答入手,簡要分析了相關(guān)研究中所使用的語言處理方法,并指出不論在圖像問答還是視頻問答,LSTM[2]和GRU[3]都是當(dāng)前最受歡迎的語言編碼方式;Manmadhan和Kovoor[4]對(duì)語言處理方法的研究則更為具體和深入,他們以單詞和文本嵌入為切入點(diǎn)進(jìn)行分類闡述,討論了詞嵌入近來的發(fā)展趨勢,并對(duì)最先進(jìn)視覺問答模型中所使用語言處理方法進(jìn)行了對(duì)比分析,其中使用情況統(tǒng)計(jì)結(jié)果如圖1所示。
圖1 語言處理方法使用情況統(tǒng)計(jì)Fig.1 Usage statistics of language processing methods
更普遍的情況出現(xiàn)在已公開發(fā)表的視覺問答論文當(dāng)中,每一篇研究視覺問答的文章都會(huì)對(duì)所涉及語言處理方法進(jìn)行描述。例如Zhang 等人[5]使用雙向GRU 進(jìn)行詞表達(dá),以實(shí)現(xiàn)問題表征,而在答案生成階段,則使用了基礎(chǔ)GRU方法,同樣使用雙向GRU進(jìn)行問題表達(dá)的還有Urooj等人[6];Sharma等人[7]利用GRU進(jìn)行問題表達(dá),使用LSTM執(zhí)行答案生成;Rahman等人[8]使用GloVe[9]+LSTM 的方式來編碼輸入問題,其中GloVe 執(zhí)行單詞嵌入,LSTM 用于問題特征生成和與視覺特征的融合;Whitehead 等人[10]使用了BERT[11]對(duì)語言特征進(jìn)行提取和表達(dá)。盡管上述文獻(xiàn)均涉及到了對(duì)語言處理方法的描述,但多數(shù)情況下僅僅是指出所選用的方法及基礎(chǔ)理論模型,并不會(huì)給出選擇原因。此外,通過進(jìn)一步觀察和分析語言處理方法在每一篇文章中所占比重,能夠發(fā)現(xiàn)語言處理方法并不受視覺問答研究群體重視。
形成鮮明對(duì)比的是近年來自然語言處理技術(shù)的快速發(fā)展。李舟軍等人[12]將自然語言處理分為三個(gè)階段,分別是以Word2Vec[13-14]和GloVe[9]為代表的靜態(tài)詞嵌入技術(shù),以ELMo[15]、GPT[16]和BERT 模型[11]為代表的動(dòng)態(tài)預(yù)訓(xùn)練技術(shù),以BERT改進(jìn)模型[17-18]和XLNet[19]為代表的新式預(yù)訓(xùn)練模型,其中靜態(tài)詞嵌入技術(shù)常與LSTM 和GRU 結(jié)合使用。陳德光等人[20]將自然語言處理的預(yù)訓(xùn)練方法分為傳統(tǒng)預(yù)訓(xùn)練技術(shù)和神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練技術(shù),并對(duì)兩者進(jìn)行了細(xì)致闡述。此外,他們還針對(duì)自然語言處理算法模型的壓縮方法進(jìn)行了分類陳述,對(duì)具體應(yīng)用領(lǐng)域的研究進(jìn)展進(jìn)行了介紹。Otter 等人[21]重點(diǎn)調(diào)查了深度學(xué)習(xí)在自然語言處理中的應(yīng)用,并對(duì)自然語言處理的整個(gè)體系進(jìn)行了細(xì)致介紹,如語言模型和詞嵌入的關(guān)系,語言模型的構(gòu)建、評(píng)估,以及幾類具有不同理論基礎(chǔ)的語言模型,并進(jìn)一步對(duì)自然語言處理中涉及到的詞法、句法、語法和語義進(jìn)行了介紹;最后,還對(duì)自然語言處理應(yīng)用進(jìn)行了細(xì)致探討和分析,指出Transformer 已經(jīng)開始取代LSTM單元。結(jié)合上述調(diào)研結(jié)果,通過總結(jié)和分析,發(fā)現(xiàn)自然語言處理目前正朝著基礎(chǔ)理論研究和應(yīng)用性能提升兩個(gè)方向快速發(fā)展。
縱觀視覺問答中的語言處理方法和自然語言處理領(lǐng)域的發(fā)展現(xiàn)狀,很容易感受到兩者之間的發(fā)展進(jìn)程不一致。以圖1所展示的語言處理方法和李舟軍等人[12]提出的自然語言處理三個(gè)發(fā)展階段進(jìn)行對(duì)比,不難發(fā)現(xiàn)目前在視覺問答中廣泛使用的語言處理方法在整個(gè)自然語言處理體系中基本都處于第一階段,即以Word2Vec和GloVe 為代表的靜態(tài)詞嵌入技術(shù),甚至還出現(xiàn)了像One-hot這種在自然語言處理領(lǐng)域已經(jīng)要被淘汰的語言編碼技術(shù)。較高層次的動(dòng)態(tài)預(yù)訓(xùn)練技術(shù)僅在Whitehead等人[10]推薦的視覺問答中有所涉及,而更高層次的新式動(dòng)態(tài)預(yù)訓(xùn)練技術(shù)[12]則尚未在視覺問答文獻(xiàn)中被發(fā)現(xiàn)。
本文重點(diǎn)分析了視覺問答中語言處理方法的重要價(jià)值,調(diào)查并整理了視覺問答中涉及到的語言處理方法和最新研究進(jìn)展,歸納總結(jié)了自然語言處理在視覺問答中涉及的相關(guān)應(yīng)用場景,并在文章結(jié)尾展望了語言處理方法的未來發(fā)展方向以及自然語言處理技術(shù)對(duì)視覺問答的推動(dòng)作用。
傳統(tǒng)視覺問答系統(tǒng)中,語言處理是關(guān)注度最低的關(guān)鍵技術(shù)之一。大多數(shù)視覺問答的研究焦點(diǎn)是多模態(tài)融合及關(guān)系推理,對(duì)于視覺和語言處理方法的重視程度相對(duì)較低。但近年隨著來面向視覺的關(guān)系推理和視覺語義網(wǎng)絡(luò)提出,被看作是提升視覺問答準(zhǔn)確性的有效途徑,進(jìn)而推動(dòng)了視覺處理在視覺問答中的快速發(fā)展。語言處理相對(duì)視覺處理而言,研究領(lǐng)域和應(yīng)用場景相對(duì)較窄,且目前廣泛使用的深度神經(jīng)網(wǎng)絡(luò)與自然語言處理的結(jié)合又比與計(jì)算機(jī)視覺要晚,在各種因素的影響下,導(dǎo)致視覺問答中語言處理方法的研究進(jìn)展較為緩慢。此處通過對(duì)近年來視覺問答領(lǐng)域相關(guān)性較強(qiáng)的論文進(jìn)行分析,得到如圖2所示結(jié)果。
圖2 視覺問答中關(guān)鍵支撐技術(shù)歷年情況統(tǒng)計(jì)Fig.2 Statistics of key supporting technologies in visual question answering over years
圖2 對(duì)視覺問答涉及的三類關(guān)鍵技術(shù)從2016 到2021 年近六年的相關(guān)研究情況進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)除2016年并沒有涉及多模態(tài)融合和推理外,其余每一年都有大量相關(guān)研究工作公開發(fā)表,且數(shù)量遠(yuǎn)超視覺和語言處理;而語言處理領(lǐng)域的論文數(shù)量除2018 和2019 年超過視覺處理外,其余年份均低于視覺處理。為了更加直觀展示兩者之間的關(guān)系變化情況,這里引入相關(guān)論文的累計(jì)發(fā)表數(shù)量進(jìn)行評(píng)價(jià),如圖3所示。
圖3 視覺問答相關(guān)技術(shù)的論文累積發(fā)表情況Fig.3 Cumulative publications of papers on visual question answering technologies
圖3相比于圖2更加直觀地展示了各關(guān)鍵技術(shù)近年來相關(guān)研究成果的總體變化情況。在收集的92篇視覺問答論文中,研究多模態(tài)融合與推理的共計(jì)74篇(占比80.4%),研究視覺處理的31篇(占比33.7%),研究語言處理的24篇(占比26.1%)。很顯然,針對(duì)語言處理方法的研究在低于多模態(tài)融合與關(guān)系推理外,同樣也低于視覺處理。
然而,作為視覺問答中關(guān)注度最低的關(guān)鍵支撐技術(shù),語言處理方法所發(fā)揮的作用和存在的意義卻極為重要。圖4展示了常規(guī)視覺問答組成。
圖4 常規(guī)視覺問答組成Fig.4 Regular visual question answering composition
其中“+”用來表示跨模態(tài)融合與推理,“=”表示生成或得到答案的過程。通過圖4可知,常規(guī)視覺問答是輸入一幅圖像和一個(gè)問題,得到一個(gè)答案,并循環(huán)往復(fù)這一過程。但在某些時(shí)候,這一標(biāo)準(zhǔn)模式會(huì)被改變,例如將輸入圖像、問題或輸出答案進(jìn)行壓縮合并,得到如圖5所示的情況。
圖5 壓縮某一部分輸入輸出后的視覺問答Fig.5 Visual question answering after compressing certain part of input and output
圖5(a)合并了輸入圖像,此時(shí)的視覺問答轉(zhuǎn)變?yōu)橐曈X對(duì)話;圖5(b)合并了輸入問題,即針對(duì)多張不同圖像,僅完成針對(duì)某一個(gè)問題的回復(fù),此時(shí)的視覺問答退化成一個(gè)類似于目標(biāo)檢測、識(shí)別或者關(guān)系推理問題;圖5(c)合并了輸出答案,屬于視覺問答中的一種特殊情況,即面向不同圖像通過輸入不同問題后獲得了相同答案,這類研究可以用于科學(xué)問題探索,以找出不同現(xiàn)象背后的本質(zhì)原因。
進(jìn)一步對(duì)圖5(a)~(c)進(jìn)行分析能夠發(fā)現(xiàn)如下現(xiàn)象:(1)面對(duì)同一幅圖像,不同的輸入問題會(huì)產(chǎn)生不同的答案,如圖5(a)所示;(2)不同的輸入圖像,也有可能獲得完全相同的答案,這取決于輸入問題引導(dǎo),如圖5(c)所示;(3)同一個(gè)問題,有可能會(huì)得到完全不同的答案,如圖5(b)所示,這源于問題的選擇。上述分析結(jié)果表明,視覺問答中輸入問題的選擇、設(shè)定和引導(dǎo)對(duì)于視覺問答最終結(jié)果具有極大影響,換言之,輸入問題不同可能會(huì)產(chǎn)生不同的答案類型和結(jié)果,因此,解析輸入問題的語言處理方法意義重大。
語言處理方法是視覺問答的重要組成部分,但針對(duì)視覺問答中語言處理方法的文獻(xiàn)綜述尚未被公開發(fā)表。本章將對(duì)圖2和圖3所整理的視覺問答相關(guān)論文進(jìn)行總結(jié)歸納,并按照是否針對(duì)語言處理方法展開研究,研究是在傳統(tǒng)自然語言處理的基礎(chǔ)上進(jìn)行改進(jìn)優(yōu)化,還是有針對(duì)性地提出一套全新理論,以此對(duì)語言處理方法進(jìn)行劃分。
其中第一類方法直接采用成熟的自然語言處理技術(shù),未對(duì)其進(jìn)行改良和優(yōu)化而直接作為視覺問答的語言處理,這一類方法本文將其稱為基礎(chǔ)型方法;第二類引入了更加先進(jìn)的自然語言處理技術(shù),或者在傳統(tǒng)技術(shù)的基礎(chǔ)上進(jìn)行了卓有成效的調(diào)整和改進(jìn),使其能夠更好地與視覺特征進(jìn)行多模態(tài)融合及關(guān)系推理,以獲得更加準(zhǔn)確的答案,這一類語言處理方法被稱為進(jìn)階型語言處理方法;第三類方法不同于目前已經(jīng)公開的自然語言處理方法,而是研究人員根據(jù)提出的視覺問答模型中各個(gè)組成的內(nèi)在需求重新設(shè)計(jì)語言處理方法,此類方法被稱為專有型語言處理方法。
語言處理作為視覺問答的關(guān)鍵支撐技術(shù),在每一類視覺問答方法中都會(huì)被用到,然而,并不是所有新提出的視覺問答方法都會(huì)針對(duì)語言處理部分進(jìn)行研究,多數(shù)情況下僅僅是將自然語言處理中成熟的方法引入到視覺問答中,然后與視覺特征進(jìn)行跨模態(tài)融合,實(shí)現(xiàn)關(guān)系推理。
基礎(chǔ)型語言處理方法在三類方法中占有較高比重,因此這部分工作目前已經(jīng)在眾多視覺問答相關(guān)綜述中被涉及。例如Manmadhan 等人[4]針對(duì)視覺問答開展的綜述,以及Zhang 等人[1]針對(duì)信息融合開展的研究均對(duì)語言處理方法有所討論,但上述文獻(xiàn)對(duì)語言處理方法的討論過于籠統(tǒng)。同時(shí),發(fā)現(xiàn)在閱讀某一篇論文時(shí),常常會(huì)出現(xiàn)兩種或多種語言處理方法,究其原因,是相關(guān)研究人員在分析視覺問答的語言處理過程時(shí)并沒有將詞嵌入(word embedding)和詞表達(dá)(word representation)區(qū)分開來,從而導(dǎo)致了語言處理方法闡述的混亂。本節(jié)將針對(duì)語言處理過程中的詞嵌入和詞表達(dá)分別進(jìn)行分析,以獲得對(duì)語言處理方法更加清晰的認(rèn)知。表1對(duì)基礎(chǔ)型語言處理中的詞嵌入方法進(jìn)行了整理歸納。
表1 基礎(chǔ)型語言處理中的詞嵌入方法統(tǒng)計(jì)Table 1 Statistics of word embedding methods in language processing
通過對(duì)公開發(fā)表的92篇與視覺問答具有強(qiáng)相關(guān)性的論文進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)屬于基礎(chǔ)型語言處理方法的共計(jì)64 篇,其中能夠明確找出詞嵌入方法類型的共計(jì)53篇,其余11篇作者并未提及具體使用的詞嵌入方法,例如Bai 等人[72]和Yu 等人[73]的研究成果。而在能夠確定詞嵌入方法類型的53篇論文中所使用的詞嵌入方法主要分為五類,分別是One-hot、BoW、Word2Vec、GloVe和Skip-thought。
進(jìn)一步對(duì)上述53篇論文中所使用的詞嵌入方法進(jìn)行分析,能夠發(fā)現(xiàn)如下現(xiàn)象:(1)GloVe詞嵌入方法在視覺問答中占據(jù)主要地位,特別是在2018 年之后,換言之,GloVe是目前使用最為廣泛的詞嵌入方法;(2)Onehot在2017 和2018 年使用較多,而在GloVe 出現(xiàn)并被廣泛使用后,One-hot逐漸被放棄;(3)BoW和Skip-thought僅僅在某一時(shí)間段被使用,這也說明這兩種方法存在著極大弊端;(4)Word2Vec 盡管每年數(shù)量不多,但持續(xù)在被使用,可見其本身具備某些優(yōu)異性能??傮w來說,GloVe是目前使用最廣的詞嵌入方法,其余方法使用較少。進(jìn)一步的,對(duì)詞表達(dá)方法的使用情況也進(jìn)行總結(jié)歸納,見表2所示。
表2 基礎(chǔ)型語言處理中的詞表達(dá)方法統(tǒng)計(jì)Table 2 Statistics of word embedding methods in language processing
表2所展示的統(tǒng)計(jì)結(jié)果表明,基礎(chǔ)型語言處理方法中所包含的詞表達(dá)方法共有四類,分別是LSTM[2]、GRU[3]、Bi-LSTM和Bi-GRU,其中,Bi-LSTM和Bi-GRU表示雙向LSTM和雙向GRU。顯然,LSTM和GRU兩者相比于Bi-LSTM和Bi-GRU具有明顯優(yōu)勢,而LSTM和GRU之間并沒有顯著差異。為了直觀展示基礎(chǔ)型語言處理方法中詞嵌入方法和詞表達(dá)方法的歷年變化情況,本節(jié)將表1和表2的結(jié)果進(jìn)行了可視化處理,并展示在圖6中。
圖6 視覺問答語言處理方法隨時(shí)間變化曲線Fig.6 Time-varying curve of language processing methods for visual question answering
相比基礎(chǔ)型語言處理方法,進(jìn)階型語言處理方法的最大區(qū)別在于并沒有在詞嵌入和詞表達(dá)過程中使用表1和表2中所涉及的傳統(tǒng)語言處理方法,而是引入了自然語言處理領(lǐng)域更加先進(jìn)的語義處理模型,例如Bert 和Transformer等,這些語言模型往往是在傳統(tǒng)的LSTM以及GRU 基礎(chǔ)上發(fā)展進(jìn)化而來。除此之外,進(jìn)階型語言處理方法還包含了那些針對(duì)基礎(chǔ)型語言處理方法的改進(jìn)版本,例如堆疊式GRU[82],因此將這些語義處理方法統(tǒng)稱為進(jìn)階型語言處理方法。為了清晰展示這些方法,從詞嵌入、詞表達(dá)和時(shí)間維度來對(duì)進(jìn)階型語言處理方法進(jìn)行了可視化展示,結(jié)果見圖7所示。
圖7 進(jìn)階型語言處理方法相關(guān)論文發(fā)表統(tǒng)計(jì)Fig.7 Published statistics on advanced language processing methods
圖7中的實(shí)心圓用來表示進(jìn)階型詞嵌入方法,正方形用來代表詞表達(dá)方法,不同的顏色則表明具體方法不同。通過觀察圖7中的統(tǒng)計(jì)結(jié)果可以發(fā)現(xiàn)如下現(xiàn)象:(1)在進(jìn)階型語言處理方法中,詞表達(dá)方法所在比重更高,這表明視覺問答的相關(guān)研究人員更愿意針對(duì)詞表達(dá)方法進(jìn)行改進(jìn)優(yōu)化;(2)詞表達(dá)方法中,BERT 和Transformer各出現(xiàn)了兩次,結(jié)合引言部分關(guān)于自然語言處理部分的論述不難發(fā)現(xiàn),視覺問答領(lǐng)域逐漸意識(shí)到需要從自然語言處理領(lǐng)域?qū)W習(xí)最先進(jìn)的算法,并將其引入到視覺問答當(dāng)中;(3)在詞表達(dá)一側(cè),發(fā)現(xiàn)了堆疊式GRU,該方法是在GRU的基礎(chǔ)上改進(jìn)而來??紤]到圖7展示得比較簡單,接下來,將對(duì)調(diào)查到的進(jìn)階型語言處理方法做進(jìn)一步闡述。
Whitehead 等人[10]和Gokhale 等人[83]在詞表達(dá)過程中引入了BERT[11]模型,以提升視覺問答過程中的語言處理精準(zhǔn)度。Liang 等人[84]提出了圖視覺問答,他們的核心觀點(diǎn)是將一個(gè)自然語言問題轉(zhuǎn)化為在圖節(jié)點(diǎn)之間傳遞多個(gè)消息迭代的問題,用到的語言處理方法是序列到序列的Transformer;同樣用到Transformer的還有Gao等人[85],不同之處在于他們使用了Bi-Transformer[86]。Liu等人提出了一種空間語義注意力模型,用于學(xué)習(xí)圖像區(qū)域與疑問詞之間的視覺文本關(guān)聯(lián)和對(duì)齊。在注意力模型中,利用連體網(wǎng)絡(luò)來探討視覺內(nèi)容與文本內(nèi)容的一致性。然后,將樹結(jié)構(gòu)的LSTM模型和空間語義注意模型與聯(lián)合深度模型相結(jié)合,利用多任務(wù)學(xué)習(xí)方法訓(xùn)練模型進(jìn)行答案推理[87]。針對(duì)語言處理方法,作者使用了樹形結(jié)構(gòu)的LSTM來編碼問題語句。Fang等人[82]以GRU為基礎(chǔ),設(shè)計(jì)了四種堆疊式GRU結(jié)構(gòu)用于問題編碼,并探討了性能差異。Zhu 等人[88]使用了一個(gè)簡單的MLP 模型進(jìn)行問題編碼和答案解碼。
除了上述提到的進(jìn)階型詞表達(dá)方法外,也有少量針對(duì)詞嵌入的改進(jìn)和優(yōu)化,例如Gupta等人提出了一種問題分割技術(shù),并將該技術(shù)應(yīng)用到分層深度多模態(tài)網(wǎng)絡(luò)當(dāng)中用于產(chǎn)生可能的答案。在詞嵌入部分,作者首先使用了GloVe技術(shù),除此之外也引入了子詞嵌入來捕獲醫(yī)學(xué)術(shù)語中未知詞的嵌入,而在字詞嵌入過程中,使用了FastText 詞嵌入技術(shù)[89]。Huasong 等人提出了一種新的自適應(yīng)神經(jīng)模塊Transformer,用來代替?zhèn)鹘y(tǒng)的前饋式編解碼結(jié)構(gòu)。
不同于基礎(chǔ)型和進(jìn)階型語言處理方法,專有型語言處理方法是作者根據(jù)視覺問答模型需要而專門設(shè)計(jì)的語言處理方法。因此,這些方法和對(duì)應(yīng)的模型往往都是獨(dú)一無二、且難以被其他類型的視覺問答系統(tǒng)所使用。然而,這并不是說研究專有型語言處理方法就沒有意義,恰恰相反,這些獨(dú)一無二的語言處理方法在解決某些問題時(shí)往往具有非常好的借鑒意義,因此把這一部分放在三類方法的最后來介紹。
視覺問答提出的早期,由于缺少實(shí)踐經(jīng)驗(yàn),研究人員并不清楚哪一種類型的語言處理方法在視覺問答系統(tǒng)中能夠有更好表現(xiàn),因此各種類型的語言處理方法紛紛涌現(xiàn)并被嘗試,其中專有型語言處理方法也不例外。
Shih等人[90]提出了一種圖像區(qū)域選擇機(jī)制,可以學(xué)習(xí)識(shí)別與問題相關(guān)的圖像區(qū)域。語言處理部分使用Word2Vec和一個(gè)三層網(wǎng)絡(luò)對(duì)解析后的問題和答案進(jìn)行編碼。此外,受到基于向量的語義表示方法啟發(fā),Shih等人使用相似向量編碼相似單詞,以便于更好地回答開放式問題。在實(shí)驗(yàn)部分,作者展示了他們提出的向量平均語言模型明顯優(yōu)于更復(fù)雜的基于LSTM模型,從而證明了這種類似BoW 模型為VQA 任務(wù)提供了非常有效和簡單的語言表達(dá)。
Hu 等人[91]提出了一個(gè)端到端的模塊化網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠直接通過預(yù)測實(shí)例網(wǎng)絡(luò)層來學(xué)習(xí)推理,而并不需要解析器輔助。該模型能夠通過學(xué)習(xí)生成網(wǎng)絡(luò)結(jié)構(gòu)(通過模仿專家演示)和網(wǎng)絡(luò)參數(shù)。其語言處理部分采用了序列到序列的循環(huán)神經(jīng)網(wǎng)絡(luò)布局策略,作者希望為每個(gè)問題都能夠預(yù)測最為合理的推理結(jié)構(gòu),再根據(jù)這個(gè)推理結(jié)構(gòu)組裝神經(jīng)網(wǎng)絡(luò)模型來輸出問題答案。但在實(shí)際使用過程中,該方法適應(yīng)性和泛化能力較差,因此難以獲得推廣。
Aditya 等人[92]提出了一個(gè)在端到端神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)上采用顯式推理層的集成系統(tǒng)。推理層支持推理和回答需要附加知識(shí)的問題,同時(shí)為最終用戶提供可解釋的接口。具體來說,推理層采用基于概率軟邏輯的引擎對(duì)視覺關(guān)系、問題的語義解析和來自ConceptNet[93]的本體論知識(shí)背景進(jìn)行推理。其中問題處理與通用解析器密切相關(guān),通用解析器使用邏輯語言或標(biāo)記圖來表示句子。
Gao 等人[94]指出問題在視覺問答中起著主導(dǎo)作用,因?yàn)樗付藱C(jī)器應(yīng)該處理的視覺對(duì)象。為此,作者提出了問題引導(dǎo)的目標(biāo)注意力,即通過探索問題語義、細(xì)粒度圖像信息以及兩者之間的關(guān)系來提高視覺問答性能。在語言處理方面,Gao等人提出使用卷積神經(jīng)網(wǎng)絡(luò)來提取問題短語特征,之所以使用卷積神經(jīng)網(wǎng)絡(luò),是因?yàn)樵谝曈X問答中,問題通常用一組短語描述關(guān)于查詢對(duì)象的重要信息,而與LSTM和GRU相比,具有權(quán)值共享能力的卷積單元擁有更好捕獲連續(xù)單詞之間豐富結(jié)構(gòu)和組成的能力。
Liu等人[95]提出了一種具有共同注意網(wǎng)絡(luò)的雙重自注意力視覺問答模型。具體來說,該模型包含三個(gè)子模塊,其中視覺自注意模塊通過對(duì)每個(gè)區(qū)域所有位置的視覺特征進(jìn)行加權(quán)求和,選擇性地聚合每個(gè)區(qū)域的視覺特征;文本自注意模塊通過整合句子中詞與詞之間的關(guān)聯(lián)特征,自動(dòng)強(qiáng)調(diào)相互依賴詞特征;視覺-文本共注意模塊探討了從自注意模塊學(xué)習(xí)到的視覺特征和文本特征之間的密切關(guān)系,這三個(gè)模塊集成到一個(gè)端到端框架中來推斷答案。針對(duì)語言處理方法,作者發(fā)現(xiàn)傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)存在問題,即不能很好地捕捉不同位置單詞之間的內(nèi)部依賴關(guān)系,而為了解決這一問題,提出了將時(shí)間信息編碼為特征級(jí)的自注意力,以捕獲詞的依賴關(guān)系從而進(jìn)行表征學(xué)習(xí)。
專有型語言處理方法相比基礎(chǔ)型語言處理方法和進(jìn)階型語言處理方法而言,研究群體相對(duì)較小,且多出現(xiàn)在視覺問答提出的早期,因此整體成熟度和普及型較低,但因其與提取的視覺特征和多模態(tài)融合過程具有更好的嵌合度,因此同樣是一類比較重要的語言處理方法。
通過對(duì)當(dāng)前已有的強(qiáng)關(guān)聯(lián)性視覺問答系統(tǒng)所涉及的語言處理方法系統(tǒng)綜述,基本可以了解該研究領(lǐng)域的研究現(xiàn)狀,但還缺少對(duì)各類型語言處理方法的深入分析和優(yōu)缺點(diǎn)解析。本章將對(duì)基本型、進(jìn)階型和專有型語言處理方法的特點(diǎn)進(jìn)行更加細(xì)致分析,從而揭示各自特點(diǎn)和適用情況。
基本型語言處理方法在三類語言處理方法中占比最重且應(yīng)用廣泛,但由于所涉及的詞嵌入和詞表達(dá)方法提出得較早,因此某些性能方面無法與進(jìn)階型語言處理方法相比?;拘驼Z言處理方法的最大優(yōu)勢是模型簡單,簡單的模型往往更容易訓(xùn)練和改進(jìn)優(yōu)化,因此以基礎(chǔ)型語言處理方法作為底層,發(fā)展出了大量的新方法,這其中就包括有進(jìn)階型語言處理方法和專有型語言處理方法。
進(jìn)階型語言處理方法是從先進(jìn)的自然語言處理領(lǐng)域引入或者在基礎(chǔ)型語言處理方法的基礎(chǔ)上發(fā)展而來,因此在某些關(guān)鍵性能方面相比于基礎(chǔ)型語言處理方法具有先天優(yōu)勢,能夠獲得更好的語言識(shí)別效果。但進(jìn)階型語言處理方法的模型一般較大,訓(xùn)練過程更長,同時(shí)在進(jìn)行端側(cè)部署時(shí)難度也更大。
專有型語言處理方法是針對(duì)視覺問答模型特別開發(fā)的語言處理方法,其思想來源于基礎(chǔ)型語言處理方法和自然語言處理領(lǐng)域,原則上與視覺問答模型的切合度更高,融合性更好。但該方法的設(shè)計(jì)難度較大,且很多時(shí)候需要配合特定的訓(xùn)練數(shù)據(jù)集使用,適用范圍受限;此外,專有型語言處理方法往往僅針對(duì)特定視覺問答模型效果較好,當(dāng)遷移到其他模型上時(shí)會(huì)出現(xiàn)性能大幅度下降的問題。基于上述兩方面原因,專有型語言處理方法的發(fā)展較為緩慢。
三類方法中,基礎(chǔ)型語言處理方法目前依然被廣泛使用,其原因在于視覺問答研究人員普遍將精力放在多模態(tài)融合上,而很少關(guān)注基礎(chǔ)的語言和視覺處理方法,所以針對(duì)語言和視覺處理方法往往直接引入現(xiàn)成的算法模型進(jìn)行使用,所以,基礎(chǔ)型語言處理方法適合于僅關(guān)注多模態(tài)融合及其他非語言處理方向的研究工作。進(jìn)階型語言處理方法模型相對(duì)比較復(fù)雜,性能也更加優(yōu)異,且具有一定的優(yōu)化改造空間,因此特別適合于實(shí)驗(yàn)設(shè)備性能較好,且有意通過改進(jìn)語言處理方法來提升視覺問答性能的研究人員,同時(shí),針對(duì)企業(yè)級(jí)用戶,進(jìn)階型語言處理方法是更好的選擇。專有型語言處理方法適合于專門研究語言處理方法與視覺問答關(guān)系的相關(guān)研究人員,這類研究需要較好的自然語言處理知識(shí)和多模態(tài)融合知識(shí),但整體而言,這類算法的價(jià)值相對(duì)較小。
盡管本文將語言處理方法分為了三種類型,但不可否認(rèn)的是自然語言處理領(lǐng)域的發(fā)展為語言處理方法的推陳出新提供了巨大幫助。正如基礎(chǔ)型語言處理方法本身脫胎于自然語言處理,進(jìn)階型語言處理方法源自于先進(jìn)的自然語言處理或者以自然語言處理為基礎(chǔ)而進(jìn)行的改進(jìn)優(yōu)化,即使是專有型語言處理方法,其創(chuàng)新的靈感往往也離不開自然語言處理,因此,可以毫不夸張的講,自然語言處理是視覺問答語言處理方法的基礎(chǔ);而從另一個(gè)角度來看,視覺問答中語言處理方法面臨的困境,同樣也是在向自然語言處理領(lǐng)域提出的挑戰(zhàn),這種挑戰(zhàn)可以促進(jìn)自然語言處理向著更有性能和更加完善的方向發(fā)展。
基礎(chǔ)型語言處理方法會(huì)長期占據(jù)主導(dǎo)地位,但這并不意味著本文中所述的基礎(chǔ)型詞嵌入和詞表達(dá)方法會(huì)一直存在并始終占據(jù)主導(dǎo)地位。未來,隨著自然語言處理的持續(xù)發(fā)展,會(huì)有新的、性能更加優(yōu)異的算法提出,并被引入到視覺問答的語言處理過程中,在此過程中,基礎(chǔ)型語言處理方法將會(huì)被目前的進(jìn)階型語言處理方法及其變體替代,基礎(chǔ)型語言處理方法將會(huì)是一個(gè)迭代更新的過程。既然如此,目前眾多的進(jìn)階型語言處理方法中哪一種會(huì)成為未來的基礎(chǔ)型語言處理方法,這是非常值得探討并研究的工作。
正如文中所述,視覺問答中的語言處理方法包括了詞嵌入方法和詞表達(dá)方法,而通過對(duì)第2章研究現(xiàn)狀的分析發(fā)現(xiàn),從基礎(chǔ)型到進(jìn)階型語言處理方法,再到專有型語言處理方法,多數(shù)情況下發(fā)展的都是詞表達(dá)方法,而詞嵌入方法基本上一直沿用固定幾類,這幾類詞嵌入方法即使是最新的,提出時(shí)間也已經(jīng)有近十年。詞嵌入方法直接關(guān)系著語言處理模型的規(guī)模,未來如果想要將模型進(jìn)行無損壓縮,詞嵌入方法的發(fā)展必然是一個(gè)非常重要的研究方向。
目前的視覺問答系統(tǒng)都是由視覺處理、語言處理和多模態(tài)融合等幾個(gè)關(guān)鍵部分組成,因此需要對(duì)應(yīng)的圖像處理方法和語言處理方法,而不同的處理方法在處理模態(tài)數(shù)據(jù)并進(jìn)行理解的過程中,總會(huì)產(chǎn)生偏差,甚至出現(xiàn)偏置,正如某些論文中提到的即使沒有輸入圖像,僅僅給出問題,系統(tǒng)有時(shí)也能夠得到正確答案。為此,研究端到端的視覺問答系統(tǒng),將圖像處理和語言處理部分直接取消,也許是另一個(gè)值得研究的內(nèi)容。但同時(shí)值得注意的是,這種針對(duì)某種模式的徹底改變,難度和可行性是首先需要評(píng)估和研究的。
語言處理方法在視覺問答中起著溝通、引導(dǎo)圖像內(nèi)容和最終答案的作用,基于語言處理方法的問題解析對(duì)于最終答案的正確與否意義重大。本文首先分析并指出了語言處理方法對(duì)于視覺問答的價(jià)值和重要性;進(jìn)一步的,對(duì)于目前廣泛使用的語言處理方法進(jìn)行了系統(tǒng)性闡述,并根據(jù)其先進(jìn)性和構(gòu)成要素將其分為三類,分別是基礎(chǔ)型語言處理方法、進(jìn)階型語言處理方法和專有型語言處理方法,同時(shí)對(duì)每一類語言處理方法的研究現(xiàn)狀進(jìn)行了調(diào)研和分析;最后對(duì)于三類方法各自的特點(diǎn)和選用依據(jù)進(jìn)行了闡述,為后續(xù)研究人員開展視覺問答語言處理方法研究奠定了基礎(chǔ)。