吳小雪 張慶輝
摘要:圖像描述技術(shù)的出現(xiàn)滿足了人們追求的使計算機(jī)描述圖像的愿望,但關(guān)于這方面的研究目前還處于初級階段。介紹了圖片描述技術(shù)的發(fā)展,分析了早期圖像描述技術(shù)的短板,指出了深度學(xué)習(xí)應(yīng)用與圖像描述。詳細(xì)介紹了圖像描述的模型及發(fā)展,引出注意力機(jī)制與高層語義關(guān)系對圖像描述的改進(jìn)。
關(guān)鍵詞:深度學(xué)習(xí);圖像描述;RNN;注意力機(jī)制;語義提取
一、引言
圖像描述,是指計算機(jī)根據(jù)輸入圖片內(nèi)容,自動的對圖片生產(chǎn)一段描述性文字。對于人來說,完成圖像描述是簡單而自然的事情,但對于計算機(jī)而言,要實現(xiàn)該操作主要面臨三個步驟:1)對圖像進(jìn)行目標(biāo)檢測,獲得圖片中需要描述的物體;2)理解不同目標(biāo)之間的語義關(guān)系;3)使用合理的語言描述出物體之間的關(guān)系,這需要將計算機(jī)視覺和自然語言處理結(jié)合起來。
傳統(tǒng)的圖像內(nèi)容描述方法可以分為兩類:基于模板的方法[1,2]和基于探索[3]的方法。但由于模板固定,靈活性較低,且嚴(yán)重依賴訓(xùn)練庫中的數(shù)據(jù),因此被逐漸舍棄。深度學(xué)習(xí)的出現(xiàn)為圖像描述問題注入了新的活力,使用深度學(xué)習(xí)方法代替?zhèn)鹘y(tǒng)的圖片描述方法已經(jīng)取得了當(dāng)前在圖片描述問題上的最佳結(jié)果。其中,基于CNN+LSTM的模型是深度學(xué)習(xí)描述圖片的主流模型,它最早是由Karpathy[4]提出的,其輸入經(jīng)CNN獲取圖像的特征,然后將生成的特征向量輸入到一個雙向的RNN中產(chǎn)生圖像描述語句,隨后,F(xiàn)ang[5]等結(jié)合最大熵語言模型和深度多模相似網(wǎng)生成圖像內(nèi)容描述語句,該模型先檢測出圖像中的屬性信息,然后利用屬性信息替代原始圖像信息輸入到LSTM中產(chǎn)生描述語句。
二、圖像描述模型
神經(jīng)網(wǎng)絡(luò)在圖像描述上的應(yīng)用離不開RNN的E-D結(jié)構(gòu)。且隨著圖像識別技術(shù)的發(fā)展,各種新的結(jié)構(gòu)模型層出不窮。本節(jié)就E-D做出簡要介紹,并描述目前圖像識別技術(shù)所涉及的最新模型。
(一)Encoder-Decoder結(jié)構(gòu)
在原始的RNN結(jié)構(gòu)中,輸入序列和輸出序列必須是嚴(yán)格等長的,但在機(jī)器翻譯等任務(wù)中,源語言句子和目標(biāo)語言句子的長度往往不同,因此需要將原始映射為一個不同長度的序列。而Encoder-Decoder(E-D)模型的提出正是為了解決這樣一個長度不一致的映射問題。
將E-D結(jié)構(gòu)應(yīng)用到圖像描述中,由于輸入是圖像,為了獲取圖像的特征向量,將原先的E RNN換成CNN,并將原先用于D的RNN換成了性能更好的LSTM,已解決RNN可能存在的梯度消失問題,并擴(kuò)展模型的記憶能力。改進(jìn)的模型如圖,具體的做法是通過預(yù)訓(xùn)練的InceptionNet網(wǎng)絡(luò)提取圖像的特征,然后將softmax前一層的數(shù)據(jù)作為圖像編碼過后的特征,傳入LSTM解碼獲取目標(biāo)文字。
(二)注意力模型
沒有引入注意力的模型在輸入特征較少時性能較好,但當(dāng)輸入圖片的特征多,圖片表示的目標(biāo)類別復(fù)雜時,便會丟失很多細(xì)節(jié)信息。針對翻譯精度下降問題,研究人員在已有模型的基礎(chǔ)上提出了注意力機(jī)制,總結(jié)來說就是不再使用統(tǒng)一的語義特征,而讓D在輸入序列中自由選取需要的特征,從而大大提高E-D模型性能。引入注意力的框架仍使用CNN的空間特性給圖片的不同位置都提取一個特征,在獲得數(shù)量可觀的特征后,再讓D在解碼時擁有選擇特征的能力。在計算注意力時引入一個系數(shù)矩陣,用來表示注意力對于不同的輸出值的注意力分配概率分布信息,用表示,用表示CNN提取的圖像特征,設(shè)在第t階段傳入Decoder的向量是,LSTM前一時刻的隱層狀態(tài)為。則與a及的關(guān)系可以表示為(1)
(三)加入高層語義特征后的模型
除了使用注意力機(jī)制改善E-D結(jié)構(gòu)外,還可以通過使用高層語義特征來改進(jìn)原始模型。有研究人員認(rèn)為,高層語義關(guān)系與最終生成的語句非常相關(guān),不能輕易舍棄??梢园迅邔诱Z義理解為一個多標(biāo)簽分類問題,由于圖片與標(biāo)簽間可能存在一對一、一對多的關(guān)系,在新的模型中,對于一對一關(guān)系的卷積層后使用一個softmax,對于一對多的關(guān)系則使用多個softmax對應(yīng)多個標(biāo)簽。訓(xùn)練時,首先在所有描述中提取出現(xiàn)最頻繁的c個單詞作為總標(biāo)簽數(shù),每個圖像的訓(xùn)練數(shù)據(jù)直接從其描述單詞中取得,訓(xùn)練完成后,針對每張圖片提取相應(yīng)的高層語義表達(dá)向量,然后經(jīng)過最大池化輸入到LSTM中用于描述生成。
三、總結(jié)與展望
圖像描述技術(shù)是機(jī)器學(xué)習(xí)在計算機(jī)視覺及自然語言領(lǐng)域結(jié)合的產(chǎn)物,在今后一段時間都將是人工智能領(lǐng)域研究的熱點問題。本文重點介紹了當(dāng)前圖片描述技術(shù)所應(yīng)用的最新框架及原理。作為一種新興的技術(shù),圖片描述技術(shù)為科研人員提供了許多新的啟發(fā),如在未來機(jī)器學(xué)習(xí)的研究中,可以用語音描述圖片,在機(jī)器學(xué)習(xí)不同領(lǐng)域的交界處探索以期迸發(fā)出新的火花。總而言之,圖像描述技術(shù)目前還處于發(fā)展初期,在未來的研究中還有更多的路值得我們?nèi)ヌ剿鳌?/p>
參考文獻(xiàn):
[1] Kulkarni G, Premraj V, Ordonez V, et al. BabyTalk: Understanding and Generating Simple Image Descriptions[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(12):2891-2903.
[2] Li S, Kulkarni G, Berg T L, et al. Composing simple image descriptions using web-scale n-grams[C] Fifteenth Conference on Computational Natural Language Learning. 2011.
[3] Kuznetsova P , Ordonez V , Berg A C , et al. Collective generation of natural image descriptions[C] Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers - Volume 1. Association for Computational Linguistics, 2012.
[4] Karpathy A, Feifei L. Deep Visual-Semantic Alignments for Generating Image Descriptions.[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 39(4):664-676.
[5] Fang H , Gupta S , Iandola F , et al. From Captions to Visual Concepts and Back[J]. 2014.