郭佳驁 劉在田 閏子龍 苗喬偉
近年來,人們對社會公共安全問題的關(guān)注度不斷提高。視頻監(jiān)控系統(tǒng)的普及成為創(chuàng)建“平安城市”,提高人民社會安全感的有效保障。當下,解決從監(jiān)控圖像與視頻中尋找已知人物的行人重識別( Personre-identification)問題被迅速提上日程,在人工智能領(lǐng)域,神經(jīng)網(wǎng)絡(luò)與深度學習算法的應(yīng)用成為解決此復雜問題的重要途經(jīng)。
在深度學習領(lǐng)域,神經(jīng)網(wǎng)絡(luò)訓練需要大量被標注的數(shù)據(jù)集樣本,而在大數(shù)據(jù)快速發(fā)展的今天,在短時間內(nèi)進行大量的數(shù)據(jù)標注工作來實現(xiàn)監(jiān)督學習是不現(xiàn)實的。無監(jiān)督遷移學習是指將數(shù)據(jù)標注這種龐大而復雜的工程,通過程序交由計算機處理,處理方式可以通過遷移已有模型進行訓練。因此,提高無監(jiān)督學習的成效成為當下亟待解決的關(guān)鍵問題。
目前在無監(jiān)督研究領(lǐng)域,多數(shù)研究成果是基于遷移學習模塊,小部分研究涉及最新的注意力模塊的應(yīng)用,而在多源域方面,目前的研究鮮有涉及。本文通過結(jié)合“多源域”與“遷移學習”,研究行人重識別問題,通過對注意力模塊的進一步研究,將模塊進行結(jié)合并論述多源域無監(jiān)督算法的可行性與應(yīng)用情況。
研究背景
當下,社會公共安全問題逐漸被人們重視,視頻監(jiān)控系統(tǒng)大量普及,實時監(jiān)控著人們在公共場所的行為,并作為安防安保建設(shè)工程的核心內(nèi)容。傳統(tǒng)監(jiān)控體系下的人工排查方式會耗費大量人力物力,在大型監(jiān)控網(wǎng)絡(luò)中存在明顯的劣勢。因此結(jié)合計算機視覺技術(shù)進行智能視頻監(jiān)控、跟蹤和檢索成為刑事偵查中亟待解決的重要課題。
行人重識別是利用計算機視覺技術(shù)判斷圖像,或者視頻序列中是否存在特定行人的技術(shù),屬于在復雜視頻環(huán)境下的圖像處理和分析范疇。由于不同設(shè)備之間的差異,會造成圖像分辨率的差異與視覺模糊的效果,且行人會在監(jiān)控視頻中兼具剛性和柔性兩重特性,外觀易受穿著、姿態(tài)和光照等環(huán)境因素影響,使行人重識別成為計算機視覺領(lǐng)域中兼具研究價值與挑戰(zhàn)性的熱門課題。
傳統(tǒng)的機器學習技術(shù)是建立在來自同一分布樣本集假設(shè)前提下的訓練數(shù)據(jù)集和測試數(shù)據(jù)集。如果其測試數(shù)據(jù)集數(shù)據(jù)分布發(fā)生改變,那么預測分類器就必須重新訓練學習,從而適應(yīng)這種變化。“遷移學習”方法的提出,旨在通過利用已有數(shù)據(jù)集的可遷移性,輔助目標領(lǐng)域預測分類模型的建立,從而減少對目標領(lǐng)域帶標記數(shù)據(jù)的需求。但是,目前遷移學習很依賴源領(lǐng)域與目標領(lǐng)域之間的可遷移性關(guān)系,而多源遷移學習方法則是從多個源領(lǐng)域數(shù)據(jù)集中選擇合適的數(shù)據(jù)集進行知識遷移以減少負遷移,從而避免單一領(lǐng)域數(shù)據(jù)集可能帶來的風險。
隨著深度學習的不斷發(fā)展,面對現(xiàn)實問題時數(shù)據(jù)集越來越多,問題也變得越來越復雜。當有大規(guī)模數(shù)據(jù)集為測試數(shù)據(jù)集時,人工標記后的訓練數(shù)據(jù)集礙于效率與成本的問題,難以滿足當下對神經(jīng)網(wǎng)絡(luò)訓練速度提升的要求。因此,無監(jiān)督遷移學習的研究對行人重識別重難題的解決有著關(guān)鍵作用。
研究方向與成果
無監(jiān)督領(lǐng)域:無監(jiān)督神經(jīng)網(wǎng)絡(luò)提出后,網(wǎng)絡(luò)訓練的效率大大提升,數(shù)據(jù)集的規(guī)模也越來越大。有學者提出了使用聚類無監(jiān)督算法,該方法在無監(jiān)督領(lǐng)域是嶄新的方向,它根據(jù)數(shù)據(jù)的聚類情況讓計算機學習到特征,大大減輕了數(shù)據(jù)標注的壓力。但由于是簡單的聚類算法,很多特征計算機無法學習成功。因此,該方法雖然減輕了數(shù)據(jù)標注壓力,但實際效果并不理想。
遷移學習模塊:遷移學習是深度學習發(fā)展的里程碑,提出了將針對某一問題已有的訓練模型,微調(diào)遷移后應(yīng)用到另一問題上的新思路。這對無監(jiān)督學習的發(fā)展是一大突破,成功運用遷移學習方法實現(xiàn)的算法往往并不復雜。
注意力模型:注意力模型方法的提出使得解決行人重識別問題有了新方向,這是最新提出的圖像處理模塊,意在將指定圖像進行判定,并根據(jù)特征選擇圖片中的一部分為注意力模塊進行辨別。行人重識別算法涉及到實際應(yīng)用時,也會遇到更多不確定情況,目前在行人重識別問題中,針對解決無監(jiān)督多源域遷移學習的問題還沒有成熟的算法。前人為了綜合各個注意力模塊,提出了使用遷移學習進行多源域數(shù)據(jù)集統(tǒng)一的方法,但該方法面臨數(shù)據(jù)樣本特征會在優(yōu)化過程中弱化,數(shù)據(jù)源域在訓練中逐漸出現(xiàn)邊界消失,最后無法達到多源域訓練目的等問題。
核心技術(shù)與算法可行性
對多源域數(shù)據(jù)集的統(tǒng)一處理:當前的無監(jiān)督遷移學習方法大部分都是單源域數(shù)據(jù)集訓練,注意力模型的應(yīng)用也不廣,于是我們大膽提出假設(shè),將遷移學習中的注意力模塊試用于多源域數(shù)據(jù)集范疇,并規(guī)范數(shù)據(jù)表示格式,使規(guī)范后的數(shù)據(jù)可以同時遷移多個模型進行訓練,以解決單源域數(shù)據(jù)訓練使用效果不佳的問題。通過大量訓練,讓網(wǎng)絡(luò)學習到各個注意力模型信息,提高網(wǎng)絡(luò)在不同影響條件下對行人重識別問題的健壯性,提高網(wǎng)絡(luò)的普適性,令網(wǎng)絡(luò)的判別效果達到新高度。
通過科研階段普遍認可的三大數(shù)據(jù)集Market-1501,DukeMTMC-REID,CUHK03進行評估。另外,還可以申請從有關(guān)部門獲取相關(guān)視頻圖像資源,進行實際的適配性檢測,以證明所提出模型的準確性、高效性與魯棒性。
基于深度學習的圖片特征提?。弘S著深度學習神經(jīng)網(wǎng)絡(luò)的發(fā)展,時至今日有許多已成形的特征提取網(wǎng)絡(luò)。網(wǎng)絡(luò)的選取在研究中極為重要,通過多次不同實驗,比較其效果得出各網(wǎng)絡(luò)的特點與優(yōu)越性,綜合已有數(shù)據(jù)分析后,本文認為使用殘差網(wǎng)絡(luò)效果更加。因為CNN網(wǎng)絡(luò)對圖像特征的提取,會隨網(wǎng)絡(luò)層數(shù)的增多提取到不同級別的特征,網(wǎng)絡(luò)越深提取到的特征越多,表達能力越強,深層的網(wǎng)絡(luò)提取到的特征會很抽象,并且存在語義信息。對于早期的特征提取網(wǎng)絡(luò),不斷地增加深度,會出現(xiàn)梯度彌散或梯度爆炸的問題,導致網(wǎng)絡(luò)訓練效果不增反減,也使得深度網(wǎng)絡(luò)不能很好地優(yōu)化。而殘差網(wǎng)絡(luò)的優(yōu)點是更容易優(yōu)化,且具有抗干擾性,能夠通過增加深度來不斷提高準確率。
各樣本映射空間與全新的優(yōu)化方案:對多源域數(shù)據(jù)集樣本的映射處理,需要創(chuàng)新思維定義各數(shù)據(jù)樣本的映射結(jié)果,將樣本對應(yīng)的映射空間反映在全新的參量中,使多源域樣本映射結(jié)構(gòu)兼具數(shù)據(jù)多樣性與數(shù)據(jù)源域的獨立性,同時通過不斷優(yōu)化與目標數(shù)據(jù)域的距離,使方法效果更佳。
關(guān)鍵問題解決方案
多源域數(shù)據(jù)集的樣本的分辨率、樣本數(shù)的統(tǒng)一問題
針對此問題,可以對所有樣本進行特定的格式化計算,消除數(shù)據(jù)集內(nèi)樣本屬性不同的問題,且保證數(shù)據(jù)集樣本多樣性與數(shù)據(jù)源域的獨立性,以提高多源域數(shù)據(jù)集的訓練效果。
神經(jīng)網(wǎng)絡(luò)特征提取效果低下的問題
對此問題,需要進行不同網(wǎng)絡(luò)的嵌入對比實驗,并對結(jié)果進行分析討論,確定對解決行人重識別問題適配性,更好地特征提取網(wǎng)絡(luò)模型,并嵌入算法中。
新定義樣本映射空間模塊與制定損失優(yōu)化方案的問題
可通過定義權(quán)值參量的計算方法來反映數(shù)據(jù)集樣本的貢獻度與每個數(shù)據(jù)集和目標域之間的關(guān)聯(lián)度,通過控制變量比較其結(jié)果,找出最合適的計算方法。結(jié)合貢獻度與關(guān)聯(lián)度這2個權(quán)值對應(yīng)模塊,可以使樣本的映射空間得到全新定義,更好地解決行人重識別問題。
由于行人重識別問題存在巨大的研究價值,很多專家學者都在提出自己的網(wǎng)絡(luò)算法與優(yōu)化觀點,目前無監(jiān)督遷移學習作為較難的問題,其研究方向潛力巨大,當前已有國際學者提出較為成熟的網(wǎng)絡(luò)體系。國內(nèi)也有學者在不斷改進與探索,本文提出的網(wǎng)絡(luò)模型屬于理論研究階段,但可行性與準確率情況,在數(shù)據(jù)的分析與以往的研究中,均證明改進效果明顯,所以有理由相信,我們提出的理論網(wǎng)絡(luò)模型在行人重識別問題上有更好的效果。
越來越多的研究證明,所提方向是正確可靠的,所以,可以將理論研究成果的算法逐步優(yōu)化并與實際結(jié)合,也能夠達到更加方便生活的目的,故存在很強的研究與應(yīng)用價值。