郭煒煒 張?jiān)鲚x 郁文賢 孫效華
①(同濟(jì)大學(xué)數(shù)字創(chuàng)新中心 上海 200092)
②(上海交通大學(xué)智能探測與識別上海市重點(diǎn)實(shí)驗(yàn)室 上海 200240)
合成孔徑雷達(dá)(SAR)是一種可實(shí)現(xiàn)高分辨率的微波主動成像雷達(dá),具備全天時、全天候、大范圍觀測成像的能力,使其在國民經(jīng)濟(jì)和國防軍事等領(lǐng)域的應(yīng)用中具有獨(dú)特的優(yōu)勢,甚至是極端氣象條件下唯一可靠的觀測數(shù)據(jù)來源。SAR圖像自動目標(biāo)識別(Automatic Target Recognition,ATR)是實(shí)現(xiàn)SAR圖像智能解譯的關(guān)鍵技術(shù)之一[1],自上個世紀(jì)50年代SAR誕生以來至今持續(xù)獲得大量的關(guān)注和研究[2]。特別是近年來隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于解決SAR圖像目標(biāo)檢測和識別問題,并大幅超越了傳統(tǒng)SAR圖像目標(biāo)檢測識別技術(shù)[3—5]。盡管深度學(xué)習(xí)技術(shù)顯著提升了SAR圖像目標(biāo)檢測識別的性能,但主要依賴于大量標(biāo)注數(shù)據(jù)的參數(shù)擬合能力,其內(nèi)部過程猶如黑盒子,人們很難理解其背后的工作機(jī)理和決策邏輯,難以掌握系統(tǒng)決策行為的邊界。如圖1,筆者采用一個簡單的具有5層卷積模塊(Conv2d-ReLU-Max-Pool2d)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在MSTAR[2]測試集上的識別準(zhǔn)確率可以達(dá)到93.80%(圖1(d)),針對圖1(a)輸入樣本能夠正確判斷其類別(圖1(c)),但是基于Grad-CAM[6](Gradient-Class Activation Mapping)方法提取的決策顯著性區(qū)域(圖1(b))顯示決策并不完全依賴于目標(biāo)區(qū)域,還有部分背景區(qū)域?qū)ψ罱K決策也有重要影響,其背后的決策合理性還需要結(jié)合SAR機(jī)理和特性進(jìn)行分析和評估。
一方面,這樣決策不透明和缺乏可解釋性的SAR目標(biāo)識別技術(shù)在軍事目標(biāo)偵察、精確打擊等高風(fēng)險應(yīng)用中隱藏著一定的決策風(fēng)險,在應(yīng)用中難以取得用戶的信任;另一方面,SAR圖像是目標(biāo)電磁散射特性的反映,難以被視覺所認(rèn)知,深度神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中自動挖掘的特征表示有可能蘊(yùn)含一些新的知識,通過對這些特征的理解,可以啟發(fā)人們反過來利用這些知識,進(jìn)而提升SAR目標(biāo)認(rèn)知解譯的能力;再次,深度神經(jīng)網(wǎng)絡(luò)工作機(jī)理復(fù)雜,且具有一定的脆弱性[7],需要通過理解深層網(wǎng)絡(luò)模型背后的決策過程和依據(jù),發(fā)現(xiàn)其中的缺陷,以便對模型和算法加以改進(jìn),提升SAR目標(biāo)識別系統(tǒng)的魯棒性;進(jìn)一步地,SAR圖像與光學(xué)圖像特性存在著本質(zhì)差異,其對成像參數(shù)高度敏感,很難獲取完備的訓(xùn)練樣本,因此在構(gòu)建SAR圖像目標(biāo)識別的深層模型時需要考慮SAR圖像數(shù)據(jù)的特點(diǎn),結(jié)合SAR本身的物理、統(tǒng)計(jì)和語義等領(lǐng)域知識,建立可解釋的SAR圖像目標(biāo)識別模型,從而增強(qiáng)SAR圖像目標(biāo)識別的可解釋性、魯棒性和在小樣本上的泛化能力。
可解釋性是人與決策模型之間的接口,旨在對模型的決策給出令人能夠理解的清晰概括和指示,從而幫助人們理解模型從數(shù)據(jù)中學(xué)到了什么,針對每一個樣本是如何決策的,決策是否合理和可靠等[8—10]。SAR的電磁成像機(jī)理與人類視覺系統(tǒng)和光學(xué)遙感的成像機(jī)理有著本質(zhì)差異,導(dǎo)致對SAR圖像的認(rèn)知理解與解譯應(yīng)用非常困難。例如圖2,SAR系統(tǒng)接收的是組成地物目標(biāo)的每一個獨(dú)立單元形成的散射能量,呈現(xiàn)在SAR圖像上的地物目標(biāo)是散射單元構(gòu)成的集合體,多表現(xiàn)為離散的點(diǎn)、線組合。SAR系統(tǒng)獨(dú)特的成像方式會造成相干斑、結(jié)構(gòu)缺失、幾何畸變(透視收縮、疊掩)、陰影等現(xiàn)象,導(dǎo)致SAR圖像在視覺特性上與光學(xué)圖像有著明顯差異,表現(xiàn)為“所見非所知”的特點(diǎn),同時SAR圖像對觀測參數(shù)敏感、獲取樣本困難,導(dǎo)致SAR圖像目標(biāo)識別仍是一個世界性難題。本文在總結(jié)當(dāng)前SAR圖像目標(biāo)識別技術(shù)及其存在問題的基礎(chǔ)上,結(jié)合當(dāng)前機(jī)器學(xué)習(xí)、深度學(xué)習(xí)可解釋性的研究進(jìn)展,從模型理解、模型診斷和模型改進(jìn)等方面對SAR圖像目標(biāo)識別的可解釋性問題進(jìn)行了探討,以突破當(dāng)前SAR目標(biāo)識別的技術(shù)瓶頸和應(yīng)用限制。最后,本文還從領(lǐng)域知識的引入與結(jié)合、人機(jī)協(xié)同、交互式學(xué)習(xí)等方面對SAR目標(biāo)識別未來可能的研究工作進(jìn)行了討論,以期推動SAR目標(biāo)識別技術(shù)的進(jìn)一步發(fā)展。
SAR圖像目標(biāo)解譯一般采用“檢測->鑒別->識別”的處理流程[11]。SAR圖像目標(biāo)檢測和鑒別的主要目的是定位目標(biāo)在圖像中的位置和區(qū)域,為進(jìn)一步的目標(biāo)識別奠定基礎(chǔ),杜蘭教授等人在文獻(xiàn)[4]中對目前SAR目標(biāo)檢測及鑒別的研究工作進(jìn)行了很好的總結(jié)。SAR目標(biāo)識別的目的是確定目標(biāo)的類別,甚至細(xì)粒度的型號等信息。它實(shí)際上是一個模式識別問題,通常采用“特征提取+模式分類”的經(jīng)典模式識別框架,其中特征提取是關(guān)鍵。傳統(tǒng)SAR目標(biāo)識別技術(shù)主要是基于圖像處理、統(tǒng)計(jì)分析等方法手工設(shè)計(jì)對識別有效的特征表示[12,13]。典型的SAR圖像目標(biāo)識別特征包括原始圖像、Garbor紋理特征、散射點(diǎn)分布特征、陰影形狀特征等[14—16];而分類器設(shè)計(jì)方面,從早期的相關(guān)濾波到支持矢量機(jī)(Support Vector Machine,SVM)、基于稀疏表示的分類器、Adaboosting集成分類器等都有被應(yīng)用于SAR圖像目標(biāo)識別[17—20]。SAR圖像目標(biāo)識別的另一類方法是基于散射中心模型匹配的方法,主要思想是將未知目標(biāo)的散射中心特征與目標(biāo)模型庫中的散射中心模板或者電磁計(jì)算預(yù)測的特征進(jìn)行匹配識別,主要涉及目標(biāo)散射中心參數(shù)化建模、參數(shù)估計(jì)和匹配相似度計(jì)算[21—24],例如Potter等人[21]提出了屬性散射中心模型用于SAR目標(biāo)識別,計(jì)科峰教授等人[22]研究了圖像域的屬性散射中心參數(shù)估計(jì)方法?;谀P偷姆椒ㄖ饕щy在于:一是難于建立目標(biāo),特別是非合作目標(biāo)的模型庫,而SAR目標(biāo)圖像易受目標(biāo)、傳感器、環(huán)境等操作條件的影響,模型數(shù)量往往呈幾何級數(shù)增長,制約了該類方法在實(shí)際中的應(yīng)用??偟膩碚f,傳統(tǒng)SAR目標(biāo)識別方法主要是基于圖像的統(tǒng)計(jì)、物理特性進(jìn)行手工建模,該框架可解釋性強(qiáng),識別的特征和模型具有明確的統(tǒng)計(jì)或物理含義,但是手工建模難以適應(yīng)SAR圖像的復(fù)雜多變,從而在實(shí)際應(yīng)用中很難取得很高的性能。
近年來,隨著計(jì)算能力的顯著提升、數(shù)據(jù)規(guī)模的大幅擴(kuò)大以及機(jī)器學(xué)習(xí)算法的不斷改進(jìn),從數(shù)據(jù)中自動進(jìn)行特征學(xué)習(xí)日益成為模式識別的主要范式。在絕大部分底層圖像處理任務(wù)(例如圖像去噪、超分辨等[25,26])及高層圖像理解任務(wù)(圖像分類、物體檢測、語義分割[27—29])中,深度學(xué)習(xí)方法尤其是基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)的方法已成為目前表現(xiàn)最好的方法,在SAR圖像目標(biāo)檢測和識別中也同樣顯示出巨大的優(yōu)勢[3,30—32]。例如,Zhao等人[3]提出了基于多尺度網(wǎng)絡(luò)融合的SAR艦船目標(biāo)檢測方法,提升了對SAR圖像中小目標(biāo)的檢測能力,并進(jìn)一步根據(jù)SAR特性提出了一種基于脈沖余弦變換(Pulse cosine transformation)的視覺關(guān)注算法,其利用頻域信息來進(jìn)一步地進(jìn)行艦船鑒別,去除虛警,提升了復(fù)雜場景下的SAR目標(biāo)檢測能力[33];陳慧元等人[34]設(shè)計(jì)了一種由目標(biāo)預(yù)篩選全卷積網(wǎng)絡(luò)(Fully Convolutional Networks for Prescreening,P-FCN)和目標(biāo)精細(xì)檢測全卷積網(wǎng)絡(luò)(Detection Fully Convolutional Network for Detection,D-FCN)兩個全卷積網(wǎng)絡(luò)級聯(lián)而成的目標(biāo)檢測框架,在保持檢測精度的前提下顯著提升了大場景SAR圖像的目標(biāo)檢測效率。
對于SAR目標(biāo)識別問題,國內(nèi)外學(xué)者設(shè)計(jì)和改進(jìn)了不同的網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法來提高SAR圖像目標(biāo)識別性能,文獻(xiàn)[5,31,32]較好地總結(jié)了當(dāng)前基于深度學(xué)習(xí)的S A R 目標(biāo)分類識別技術(shù)。例如,Chen等人[30]提出了所謂的AConvNets,其將全連接層去掉形成全卷積網(wǎng)絡(luò),降低了網(wǎng)絡(luò)訓(xùn)練中的過擬合風(fēng)險,在MSTAR數(shù)據(jù)集上取得了目前最好的性能;Wagner等人[35]提出了將圖像強(qiáng)度和梯度信息多通道特征融合的方法,提升了SAR圖像分類性能;并將CNN與傳統(tǒng)SVM分類器結(jié)合,將CNN作為特征提取器提取深度特征后采用SVM作為分類器。在應(yīng)用深度神經(jīng)網(wǎng)絡(luò)解決SAR目標(biāo)識別問題所面臨的主要困難是沒有足夠訓(xùn)練數(shù)據(jù),目前常用的MSTAR數(shù)據(jù)包含10類目標(biāo),也僅有5631個樣本,其中訓(xùn)練樣本2813個,測試數(shù)據(jù)2818個[2]。通常采用數(shù)據(jù)擴(kuò)充、遷移學(xué)習(xí)、元學(xué)習(xí)等策略來解決小樣本目標(biāo)識別問題[31]。例如,Wagner[36]采用彈性變形和仿射變換生成擴(kuò)充數(shù)據(jù),Huang等人[37]研究了自然圖像ImageNet、不同源SAR圖像之間深層特征的遷移性。由于SAR特殊的成像原理,非直觀性強(qiáng),人工標(biāo)注極易出錯,導(dǎo)致學(xué)習(xí)能力和泛化能力急劇下降。針對這種含噪聲標(biāo)簽的SAR圖像分類問題,趙娟萍等人[38]提出了一種基于概率轉(zhuǎn)移模型的CNN方法。在傳統(tǒng)CNN模型基礎(chǔ)上,可潛在地校正錯誤標(biāo)記,增強(qiáng)了含噪標(biāo)記下CNN分類模型的魯棒性。
總的來說,目前基于深度學(xué)習(xí)的SAR目標(biāo)識別方法主要是借鑒光學(xué)圖像中的神經(jīng)網(wǎng)絡(luò)模型和框架,側(cè)重于對網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法進(jìn)行有針對性的改進(jìn),來提升S A R 目標(biāo)檢測識別的性能,在MSTAR等類別確定、數(shù)量有限、標(biāo)注充分的特定數(shù)據(jù)集上性能已趨于飽和。但是在面對SAR圖像與光學(xué)圖像的本質(zhì)差異性、SAR圖像的多參數(shù)敏感性以及小樣本等問題時,深度學(xué)習(xí)方法在SAR目標(biāo)識別任務(wù)上仍面臨著不小的挑戰(zhàn),其嚴(yán)重依賴大量標(biāo)注數(shù)據(jù),在機(jī)理分析、知識利用、可解釋性、邏輯推理等方面還有很大局限性,單純通過改進(jìn)通用算法來提升識別性能存在著“天花板”。
不同于光學(xué)圖像,SAR圖像作為目標(biāo)電磁散射情況的反映,與人的視覺認(rèn)知有著很大差別,它所蘊(yùn)含的目標(biāo)信息難以被直觀理解;同時,SAR圖像還伴隨有固有相干斑噪聲,幾何畸變(如疊掩、前視收縮)等現(xiàn)象,對觀測參數(shù)也更加敏感,使得對SAR圖像的目標(biāo)穩(wěn)健特征描述和分類識別更加困難;并且,目標(biāo)識別通常需要完備的訓(xùn)練集,但是SAR圖像的獲取成本較高,真值標(biāo)記不易獲得,導(dǎo)致SAR目標(biāo)識別還面臨小樣本的困境。傳統(tǒng)的SAR目標(biāo)檢測識別方法可解釋性強(qiáng),但是手工建模的泛化能力和魯棒性嚴(yán)重不足,可挖掘的潛力有限,而深度學(xué)習(xí)能在特定數(shù)據(jù)集上取得較好結(jié)果,但是對樣本數(shù)量和網(wǎng)絡(luò)規(guī)模具有較高要求,特別是對于非合作目標(biāo),很難建立起完備的樣本集,在對大場景、多尺度、密集排布、地物干擾等復(fù)雜場景下的目標(biāo)檢測識別有待進(jìn)一步研究,且目前的深度學(xué)習(xí)方法主要依賴于圖像域數(shù)據(jù),很容易對圖像噪聲過擬合;同時,深度模型可解釋性差,在先驗(yàn)知識的引入和利用方面仍存在較大局限性,限制了其性能的進(jìn)一步提升。
相對于SAR系統(tǒng)數(shù)據(jù)獲取能力的顯著增強(qiáng),對目標(biāo)“辨得明、認(rèn)得準(zhǔn)”的SAR目標(biāo)認(rèn)知解譯能力仍嚴(yán)重滯后,還面臨以下挑戰(zhàn)性問題,如圖3所示:
(1)“看得懂”問題(機(jī)理層面):SAR成像機(jī)理導(dǎo)致的目標(biāo)結(jié)構(gòu)性缺失、電磁散射機(jī)制的多樣性和復(fù)雜性、特性反演困難等問題使得對SAR圖像的理解與人類對于可見光影像的認(rèn)知存在巨大鴻溝,如何實(shí)現(xiàn)從穩(wěn)健的特征提取到逼近視覺認(rèn)知的模型再到目標(biāo)和場景的檢測識別存在諸多困難。
(2)“認(rèn)得準(zhǔn)”問題(算法層面):SAR圖像存在固有的相干斑噪聲以及在平臺、目標(biāo)和環(huán)境耦合作用下目標(biāo)幾何和電磁特征的多參數(shù)敏感性問題;對于非合作目標(biāo),難以建立起多參數(shù)完備的樣本庫,面臨小樣本識別的困境;對于高分辨SAR圖像在提供目標(biāo)豐富細(xì)節(jié)信息的同時,也存在目標(biāo)觀測尺度變大(從目標(biāo)內(nèi)部精細(xì)結(jié)構(gòu)到大中小目標(biāo)、目標(biāo)群密級排布)、目標(biāo)表現(xiàn)變化大,目標(biāo)與背景互相干擾耦合。如何設(shè)計(jì)高精度、高效率和高魯棒性的SAR圖像目標(biāo)檢測識別等核心算法,支持SAR圖像情報分析與挖掘,仍存在較大挑戰(zhàn)。
(3)“用得好”問題(系統(tǒng)層面):SAR目標(biāo)和場景解譯流程固化、通用性差、核心算法與輔助工具集成度低;系統(tǒng)缺少增量學(xué)習(xí)、遷移和持續(xù)學(xué)習(xí)的能力,對知識與經(jīng)驗(yàn)的利用不足,還不能實(shí)現(xiàn)識別能力的迭代增長。
隨著深度學(xué)習(xí)技術(shù)的進(jìn)步和在諸多領(lǐng)域的大量應(yīng)用,其可解釋性問題日益受到政府、學(xué)術(shù)界和工業(yè)界的廣泛重視,例如美國國防部高級研究計(jì)劃署(Defense Advanced Research Projects Agency,DARPA) 啟動了一項(xiàng)名為可解釋性人工智能(EXplainable Artificial Intelligence,XAI)的大型項(xiàng)目[39],我國也在《新一代人工智能發(fā)展規(guī)劃》中明確將“實(shí)現(xiàn)具備高可解釋性、強(qiáng)泛化能力的人工智能”作為未來我國人工智能發(fā)展的重要突破口。深度學(xué)習(xí)技術(shù)的可解釋性問題源于其“黑盒”性質(zhì),其工作機(jī)理、決策過程和決策邏輯對用戶的不透明,會存在安全隱患,特別是在醫(yī)療診斷、金融投資、國防軍事等高風(fēng)險領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)的可解釋性對于理解和信任模型的決策至關(guān)重要。同時由于深度神經(jīng)網(wǎng)絡(luò)機(jī)理復(fù)雜,在應(yīng)用過程中主要依靠經(jīng)驗(yàn)調(diào)參,迫切需要打開深層網(wǎng)絡(luò)的“黑盒子”,才能針對具體任務(wù)需求和數(shù)據(jù)特點(diǎn)對神經(jīng)網(wǎng)絡(luò)進(jìn)行有針對性地改進(jìn)。如圖4,從目的上來說,可解釋性旨在幫助人們理解機(jī)器學(xué)習(xí)模型是如何學(xué)習(xí)的,它從數(shù)據(jù)中學(xué)到了什么;針對每一個輸入樣本,它為什么會做出如此決策以及它所做的決策是否可靠等;從方法來說,可解釋性方法是挖掘模型決策背后的信息并給出令人理解的指示。文獻(xiàn)[8—10,40—42]對當(dāng)前機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí)可解釋性的研究進(jìn)行了較好地總結(jié)。
傳統(tǒng)機(jī)器學(xué)習(xí)模型大多具有可解釋性,例如決策樹(Decision tree)、線性模型(Linear model)、廣義加性模型(Generalized Additive Mode,GAM)、稀疏表示(Sparse representation)模型等,其解釋性主要體現(xiàn)在能夠給出特征對決策的重要性度量,但是傳統(tǒng)方法的解釋性需要輸入特征本身就具有一定物理或者語義含義,而且模型準(zhǔn)確度不夠高,可解釋性和模型性能存在一定的矛盾。目前對深度學(xué)習(xí)的可解釋性研究大致有兩個方面:一是模型的可解釋性,即對一個已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,通過建立可解釋方法或者代理模型,從整體上理解深層模型的決策行為以及針對每一個測試樣本的局部決策依據(jù);另一個是可解釋的模型,即基于一定的物理或者語義等領(lǐng)域知識設(shè)計(jì)和構(gòu)建自身具有一定可解釋性的神經(jīng)網(wǎng)絡(luò)模型。
圖4 可解釋性學(xué)習(xí)Fig.4 Explainable machine learning
根據(jù)解釋對象的不同,深度模型的可解釋性方法,主要分為針對模型的全局性解釋方法(Explain model)和針對單個樣本的局部解釋方法(Explain sample);根據(jù)解釋方法是否依賴具體模型內(nèi)部參數(shù),又可分為模型依賴(Model-specific)的解釋方法和模型無關(guān)的解釋方法(Model-agnostic)。表1列出一些典型的可解釋性方法。
表1 典型的可解釋性方法Tab.1 Typical methods for explainablitiy
針對模型的全局性解釋方法,主要是從整體上理解模型從數(shù)據(jù)中學(xué)到的內(nèi)容及其行為邏輯。為了理解神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中學(xué)到了什么,通常采用特征可視化方法,但是直接對神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行可視化對于用戶來說仍然過于抽象。為此,許多研究者探索如何在輸入空間實(shí)現(xiàn)對任意隱含神經(jīng)元計(jì)算內(nèi)容的可視化,以此捕捉神經(jīng)網(wǎng)絡(luò)中內(nèi)部神經(jīng)元計(jì)算內(nèi)容的特定含義[8]。激活最大化方法(Activation Maximization,AM)是一類典型方法,即尋找最大化激活給定的隱藏單元或者重構(gòu)滿足一定條件的輸入模式[43],其可形式化為如下的最優(yōu)化問題
其中,x為待求解的輸入模式圖像,l(x)是目標(biāo)函數(shù),linv(x,φ0)是與特定神經(jīng)元特征響應(yīng)φ0有關(guān)的損失函數(shù),R(x)為表示圖像先驗(yàn)的正則化項(xiàng),λ為正則化系數(shù)。Nguyen等人[44]利用生成對抗網(wǎng)絡(luò)來對圖像的先驗(yàn)分布進(jìn)行建模,并與激活最大化相結(jié)合來產(chǎn)生更真實(shí)、更具有可解釋性的模式圖像。Kim等人[45]提出概念激活矢量測試的方法(Testing with Concept Activation Vectors,TCAV)以此來捕捉神經(jīng)網(wǎng)絡(luò)內(nèi)部節(jié)點(diǎn)對某一類別的敏感性。為了從整體上理解模型的行為邏輯,另一種方法是用一個可解釋的代理模型來近似理解黑盒模型的決策機(jī)制,例如Frosst等人[46]基于知識蒸餾(Distilling)原理提出使用決策樹作為學(xué)生模型來提取深度神經(jīng)網(wǎng)絡(luò)模型的決策規(guī)則,它是模型無關(guān)的。針對基于CNN的圖像分類任務(wù),Zhang等人[42,59]提出了基于And-Or圖模型來解釋CNN卷積層特征內(nèi)在的圖像知識層次,進(jìn)而提取決策樹規(guī)則來揭示卷積層中哪些濾波器會參與預(yù)測以及這些濾波器對預(yù)測結(jié)果的貢獻(xiàn)程度。
針對樣本的局部解釋方法主要是針對每一個特定輸入樣本,通過分析和提取輸入樣本的每一維特征對模型最終決策的貢獻(xiàn)程度,即提取特征的決策重要性,并通過可視化手段進(jìn)行呈現(xiàn),使用戶能從語義和視覺上直觀理解模型對輸入樣本的決策邏輯和依據(jù)。典型方法是基于反向傳播的方法,它是模型依賴的,核心思想是對于一個給定輸入樣本圖像,利用神經(jīng)網(wǎng)絡(luò)的反向傳播機(jī)制將對決策的重要性信號從模型的輸出層逐層傳播到模型的輸入層,以推導(dǎo)輸入樣本的特征重要性,生成與之對應(yīng)的決策顯著性熱力圖(Heatmap),對輸入圖像中對決策的重要部分進(jìn)行標(biāo)注和顯示,例如圖5所示的Grad[48],GuidedBP[49],IntegratedGrad[50]和SmoothGrad[51]等基于梯度的系列方法,但是基于梯度信息只能用于定位重要特征,而無法量化特征對決策結(jié)果的重要程度。Du等人[60]提出了基于敏感性分析的方法,Bach等人[53]提出了層級相關(guān)性傳播(Layer-wise Relevance Propagation,LRP)方法,Zeiler等人[61]提出了利用反卷積操作(DeConv)將高層激活反向傳播到模型的輸入層以辨識輸入圖片中負(fù)責(zé)激活的重要部分。這些方法的主要區(qū)別在于如何在輸出層建立與決策相關(guān)的度量,以及決策相關(guān)信號從輸出層到輸入層的傳播機(jī)制。最近,Samek等人[62]基于擾動分析定量地比較了敏感性分析方法、DeConv 和LRP方法,表明LRP方法能夠較準(zhǔn)確地定位輸入中對決策起重要作用的區(qū)域。Zhou等人[54]提出了類激活映射(Class Activation Mapping,CAM)方法,其利用全局平均池化(Global Average Pooling,GAP)層來替代傳統(tǒng)CNN 模型中除Softmax層以外的所有全連接層,并通過將輸出層的權(quán)重投影到卷積特征圖來定位圖像中的重要區(qū)域。Selvaraju[6]則將基于梯度的方法與CAM方法結(jié)合,提出了梯度加權(quán)類激活映射方法(Grad-CAM)。但是CAM和Grad-CAM方法只能對決策重要區(qū)域進(jìn)行粗粒度的定位,無法像基于梯度的方法提供像素級別的細(xì)粒度解釋。
圖5 基于梯度系列方法的決策顯著性1https://pair-code.github.io/saliency/Fig.5 Decision saliency of the Gradient-based methods
另一類針對樣本的局部解釋方法是模型無關(guān)的方法,主要有基于局部代理模型和基于樣例的方法。比較典型的基于局部代理模型方法是Ribeiro等人[55]提出的LIME(Local Interpretable Modelagnostic Explanations)模型,如圖6所示其在一個樣本鄰域內(nèi),用一個線性模型來近似原非線性神經(jīng)網(wǎng)絡(luò)模型,線性模型的權(quán)重可作為輸入特征局部重要性的指示器。但是LIME方法需要針對每一個樣本重新訓(xùn)練線性模型,存在解釋效率的問題。其實(shí),人們在做復(fù)雜決策的時候,有時候并不是通過仔細(xì)分析和計(jì)算,而是基于相似的經(jīng)驗(yàn)進(jìn)行類比得出結(jié)論。基于樣例的解釋是通過選擇有代表性的或者關(guān)鍵樣本,來解釋模型的決策行為。比較典型的方法是Liang Percy等人[56]提出的基于影響力函數(shù)(Influence function)的方法來選擇對一個分類器決策起到重要作用的樣本,并以此來評估決策的合理性。基于影響力函數(shù)的方法還可以用來構(gòu)建對抗樣本,評估訓(xùn)練集與測試集分布一致性以及發(fā)現(xiàn)訓(xùn)練集中的標(biāo)記錯誤樣本等。Kim[57]提出基于MMD(Maximum Mean Discrepancy)的方法來同時選擇數(shù)據(jù)集的原型樣本和所謂的Critic樣本,進(jìn)一步提升解釋性。Lundberg S M等人[58]提出基于博弈論Shapley值的特征重要性評估方法SHAP (SHapley Additive exPlanations),理論上可以獲得唯一可能的一致的、局部精確的加性特征解釋,結(jié)合DeepLIFT[63]和Shapley方法可應(yīng)用于圖像分類任務(wù)的解釋。
圖6 LIME示意圖[55]Fig.6 Illustration of LIME[55]
以上無論是對模型的全局解釋方法還是針對單個樣本的局部解釋方法,都是對已訓(xùn)練好的模型進(jìn)行后驗(yàn)解釋(Post-hoc),實(shí)際上只是對原始模型的一種近似理解和間接解釋,與模型真實(shí)決策行為有可能存在不一致性,從而導(dǎo)致錯誤的解釋。一方面錯誤的理解在實(shí)際應(yīng)用中反而會適得其反,另一方面后驗(yàn)理解的方法并不能完全預(yù)測原始模型的行為,導(dǎo)致系統(tǒng)的不可控。Rudin[64]認(rèn)為模型的性能和可解釋性并不完全矛盾,目前在可解釋的研究中亟須對可解釋的神經(jīng)網(wǎng)絡(luò)進(jìn)行研究,而不應(yīng)局限于神經(jīng)網(wǎng)絡(luò)可解釋性的研究。可解釋的神經(jīng)網(wǎng)絡(luò)是指網(wǎng)絡(luò)的結(jié)構(gòu)和中間層具有明確的物理或者語義含義。目前,構(gòu)建本身具有內(nèi)在可解釋性的神經(jīng)網(wǎng)絡(luò)大致有如下方法:
一是基于注意力模型(Attention)。注意力模型源于人腦的注意力機(jī)制,其數(shù)學(xué)本質(zhì)是一種對數(shù)據(jù)的加權(quán)策略,注意力矩陣體現(xiàn)了模型在決策過程中的感興趣區(qū)域,因而具有良好的可解釋性。例如Xu等人[65]將注意力機(jī)制應(yīng)用于看圖說話(Image caption)任務(wù)中以產(chǎn)生對圖片的描述,其利用帶注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)生成圖片描述。通過可視化注意力權(quán)重矩陣,人們可以清楚地了解到模型在生成每一個單詞時所對應(yīng)的感興趣圖片區(qū)域。
二是淺層統(tǒng)計(jì)模型的深度化。相較于大多數(shù)深度神經(jīng)網(wǎng)絡(luò)模型,統(tǒng)計(jì)學(xué)習(xí)模型具有完備的理論基礎(chǔ)、可解釋性強(qiáng)和易于優(yōu)化等諸多優(yōu)點(diǎn)。因此,研究人員考慮基于統(tǒng)計(jì)學(xué)習(xí)的模型來構(gòu)建神經(jīng)網(wǎng)絡(luò),主要有兩個策略:一種是將一些統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,特別是優(yōu)化算法展開成一個循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,這樣就能同時兼具傳統(tǒng)方法的可解釋性強(qiáng)和深度學(xué)習(xí)性能優(yōu)的優(yōu)點(diǎn),例如LeCun Yann教授等人[66]將稀疏編碼方法中經(jīng)典的ISTA(Iterative Shrinkage and Thresholding Algorithm)展開成一個循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提出了LISTA(Leaned ISTA)模型,Zheng等人[67]將條件隨機(jī)場(Conditional random field)的平均場優(yōu)化算法(Mean field)展開成一個循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),應(yīng)用于圖像語義分割;另一種是基于統(tǒng)計(jì)模型來設(shè)計(jì)目標(biāo)函數(shù),例如PENG等人[68]通過改寫K-Means聚類算法的目標(biāo)函數(shù),形成了一個具有自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
三是基于物理模型。真實(shí)物質(zhì)世界其實(shí)是遵循著一定的物理規(guī)律,機(jī)器學(xué)習(xí)模型也要遵循這樣的物理規(guī)則,因此可以嘗試對物理模型進(jìn)行建模,例如Zhu等人[69]提出的去霧模型根據(jù)霧形成的物理過程建立端到端的深層網(wǎng)絡(luò)模型,這樣神經(jīng)網(wǎng)絡(luò)的每一個模塊都具有明確的物理含義。Karpatne等人[70]提出了基于物理模型引導(dǎo)的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型,其核心思想是在輸入空間根據(jù)物理模型的預(yù)測數(shù)據(jù)來增廣輸入,在輸出空間根據(jù)物理模型來設(shè)計(jì)相應(yīng)的正則化損失函數(shù)來進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)。
四是知識的嵌入與融合。深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的表示學(xué)習(xí)能力,但是忽略了一定的先驗(yàn)知識,通過引入語義概念和語義關(guān)聯(lián)等高層信息,引導(dǎo)模型進(jìn)行特征學(xué)習(xí)和推理,不僅可以增強(qiáng)特征的表示能力,還能使模型具有更好的解釋性。例如Chen等人[71]基于圖網(wǎng)絡(luò)模型(Graph Neural Network,GNN)進(jìn)行類別與屬性域關(guān)聯(lián)信息的嵌入(Embedding),并引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)具有特定語義的特征。在這類方法中,如何進(jìn)行領(lǐng)域知識的表達(dá)和嵌入是其中的難點(diǎn)。
可解釋的評估對于可解釋性研究至關(guān)重要,但是目前可解釋性還沒有一個嚴(yán)格的定義,而且由于解釋性與人的認(rèn)知密切相關(guān),導(dǎo)致目前對可解釋性的評估還沒有一個科學(xué)的評價準(zhǔn)則。目前一般有主觀和客觀兩種方式:客觀評估方面,Chu等人[72]提出利用輸入樣本與其鄰近樣本的解釋結(jié)果的余弦相似性來評估解釋結(jié)果的一致性,Samek等人[62]基于擾動分析(Perturbation)提出了AOPC指標(biāo)(Area of MoRF Perturbation Curve)來評估解釋性熱力圖定位到?jīng)Q策重要區(qū)域的準(zhǔn)確性,Bau等人[73]從目標(biāo)、部件、場景、紋理、材料和顏色等方面來評估CNN特征表示的語義可解釋性,將CNN得到的響應(yīng)模式與人工真值標(biāo)注區(qū)域的IoU作為評價準(zhǔn)則。主觀方面主要是進(jìn)行用戶測試,通過終端用戶的評價來進(jìn)行評估。
總得來說,面向深度學(xué)習(xí)的可解釋性研究還處于初步探索階段,研究人員針對不同任務(wù)需求,從不同角度對深度學(xué)習(xí)的可解釋性問題進(jìn)行了研究,但還沒形成一個完整的科學(xué)體系。目前的可解釋性方法在因果關(guān)系、知識融合和推理、解釋性評價、智能人機(jī)交互等方面還存在著很大局限性,如何設(shè)計(jì)兼具解釋性強(qiáng)和高性能的深度神經(jīng)網(wǎng)絡(luò)是其中一個重要問題。
針對SAR數(shù)據(jù)解譯的可解釋性問題,德國宇航局(DLR)的Datcu M教授及其團(tuán)隊(duì)[74]在面向SAR數(shù)據(jù)的可解釋性人工智能方面開始進(jìn)行了初步的探索,Huang等人[75]從SAR復(fù)數(shù)數(shù)據(jù)的時頻譜中學(xué)習(xí)SAR目標(biāo)的散射特征,并與圖像域特征融合進(jìn)行SAR圖像分類。Zhao等人[76]提出了對比度正則化卷積神經(jīng)網(wǎng)絡(luò)從極化復(fù)散射數(shù)據(jù)中學(xué)習(xí)目標(biāo)的散射特征。通過引入注意力模塊可以增強(qiáng)神經(jīng)網(wǎng)絡(luò)的可解釋性,Chen等人[77]提出基于空間注意力和通道注意力的雙通道機(jī)制的網(wǎng)絡(luò)模型,實(shí)現(xiàn)SAR圖像機(jī)場區(qū)域提取。Li等人[78]提出基于空間像素級注意力機(jī)制的SAR目標(biāo)識別方法,引導(dǎo)網(wǎng)絡(luò)能夠自聚焦于目標(biāo)區(qū)域,消除背景雜波的影響。但總得來說,SAR圖像目標(biāo)識別的可解釋性問題目前還沒有引起足夠關(guān)注和重視,亟須研究和解決。為此,如圖7所示,本文從模型理解、模型診斷和模型改進(jìn)等3個方面來探討SAR圖像目標(biāo)識別的可解釋性問題。
由于SAR圖像與光學(xué)圖像的顯著差異,從而需要提取深層網(wǎng)絡(luò)針對SAR圖像的特征模式,分析其內(nèi)在的物理與語義含義,回答深度神經(jīng)網(wǎng)絡(luò)從SAR數(shù)據(jù)中學(xué)到了什么的問題,以及對特定樣本是如何做決策的。對于模型的整體理解,可以考慮采用激活最大化原理,同時考慮SAR圖像散射點(diǎn)的稀疏分布特性,設(shè)計(jì)散射增強(qiáng)的SAR圖像深層特征反演方法,從而發(fā)現(xiàn)SAR圖像深層特征的整體特征模式。例如考慮如下的特征反演模型
其中,x為 待求解的SAR特征模式圖像,R(x)為表示圖像先驗(yàn)的正則化項(xiàng),λ為正則化系數(shù),φ(·)表示神經(jīng)網(wǎng)絡(luò)函數(shù)。當(dāng)φ0=ei,ei是第i元素為1其余為0的指示向量,則式(2)表示最大化特征單元響應(yīng)[φ(x)]i??紤]到SAR圖像散射點(diǎn)的稀疏分布特性[79],采用如下正則化
其中,‖·‖p表示lp范數(shù),D表示1階微分算子。這樣,可以采用隨機(jī)子梯度(Stochastic sub-gradient)來最小化目標(biāo)函數(shù)式(2)。
對于每一個樣本的決策機(jī)理分析,可如圖8基于SAR目標(biāo)識別的樣本決策重要性分析基于層次相關(guān)傳播、敏感性分析等方法提取決策顯著性區(qū)域,定位圖像中的決策重要性區(qū)域,并進(jìn)一步基于SAR散射中心模型提取決策顯著性區(qū)域的散射中心參數(shù),進(jìn)而分析模型決策背后的物理含義。
深度神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的非線性參數(shù)擬合能力能夠提升SAR圖像目標(biāo)識別的性能,特別是在類別確定、數(shù)據(jù)量有限、完全標(biāo)注的情況下,但是這種性能的提升及其背后模型的決策邏輯在多大程度上具有合理性是存疑的。特別是在SAR訓(xùn)練數(shù)據(jù)不足、圖像特性受觀測參數(shù)影響變化大、存在固有斑點(diǎn)噪聲等情況下,加之神經(jīng)網(wǎng)絡(luò)本身易受對抗樣本攻擊,因此可通過建立可解釋的代理模型的方式來近似原神經(jīng)網(wǎng)絡(luò)模型的決策行為,以此發(fā)現(xiàn)模型所蘊(yùn)含的新知識以及可能存在的缺陷和漏洞。
可考慮模型損失函數(shù)為L(Z,θ)=lnp(Z|θ),這樣可得到Fisher信息矩陣為
高斯過程賦予決策函數(shù)f以高斯過程先驗(yàn),即f~GP(0,k),其中k為核函數(shù),給定訓(xùn)練集D=,yi=f(xi),這樣f的后驗(yàn)概率均值為
其中,k(x,X)=[k(x,x1),k(x,x2),…,k(x,xn)]T,。借鑒模型蒸餾原理,這里并不直接采用原始訓(xùn)練數(shù)據(jù)的標(biāo)記,而是采用神經(jīng)網(wǎng)絡(luò)的輸出作為高斯過程的標(biāo)記值。進(jìn)一步,根據(jù)最小化后驗(yàn)估計(jì)方差來選擇對模型決策起到重要作用且有代表性的原型(Prototype)樣本,對神經(jīng)網(wǎng)絡(luò)的結(jié)果進(jìn)行解釋和診斷。令原型樣本集為Sm={x1,x1,…,xm},原型樣本的選擇通過最小化如下的方差函數(shù)[80]
圖7 SAR目標(biāo)識別可解釋性研究Fig.7 Explainable SAR automatic target recognition
圖8 SAR目標(biāo)識別的樣本決策重要性分析Fig.8 Decision importance analysis for the SAR target recognition model
式中,第1項(xiàng)相對于Sm是常數(shù)。為了最小化式(8),基于序貫貝葉斯采樣的貪心算法來對原始數(shù)據(jù)進(jìn)行采樣得到原型樣本集Sj={x1,x1,…,xj},即
這樣通過基于高斯過程回歸模型的原型樣本選擇,可以理解模型的決策行為,對模型進(jìn)行診斷,檢測訓(xùn)練集中是否含有異常訓(xùn)練樣本等。
模型改進(jìn)主要是指建立可解釋的SAR圖像目標(biāo)識別模型。目前,SAR目標(biāo)識別模型大多是借鑒光學(xué)圖像中的模型和學(xué)習(xí)方法,這些模型雖具有一定的通用性,但主要是依賴大量標(biāo)注數(shù)據(jù)擬合大量參數(shù)進(jìn)行預(yù)測,忽略了SAR本身的特性和先驗(yàn)知識,對數(shù)據(jù)量和標(biāo)注要求高,限制了模型性能的進(jìn)一步提升。因此,需要考慮如何結(jié)合SAR特有的物理和語義知識,自然嵌入到神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行特征的學(xué)習(xí)和推理,建立兼具可解釋性強(qiáng)和高性能的SAR圖像特征學(xué)習(xí)和識別模型,同時也能降低對大量訓(xùn)練數(shù)據(jù)的依賴。例如圖9,可結(jié)合S A R圖像的屬性散射中心模型,將SAR圖像成像的物理機(jī)理融入到SAR特征學(xué)習(xí)過程中,通過屬性散射中心模型引導(dǎo)模型學(xué)習(xí)更具物理意義的特征表示,進(jìn)而增強(qiáng)模型本身的可解釋性。
理論和實(shí)驗(yàn)表明,在高頻區(qū)目標(biāo)總的電磁散射可以看成由有限個局部散射源疊加而成,這些局部散射源稱為散射中心。屬性散射中心模型是基于幾何繞射理論和物理光學(xué)理論提出的描述高頻區(qū)復(fù)雜目標(biāo)散射特性的參數(shù)模型[21]。假設(shè)目標(biāo)的電磁散射響應(yīng)可以認(rèn)為是p個獨(dú)立的散射中心疊加而成,具體形式為
其中,E(f,φ;Θ)是目標(biāo)總的散射場,其中Θ=為目標(biāo)散射中心的屬性集。xi,yi為散射中心方位向、距離向的位置,Ai為幅度,αi為頻率依賴因子,Li為散射中心長度,為散射中心方位角,γi為散射中心對方位角的方向依賴性。當(dāng)Li=0,=0時,表示散射中心是局部散射中心,當(dāng)Li/=0,γi=0時表示該散射中心是分布式散射中心。E(f,φ;Θ)是按照頻率f和方位角φ等間隔采樣的極坐標(biāo)格式,而通常目標(biāo)識別是在圖像域進(jìn)行的,因而需要先將其轉(zhuǎn)換到歐式坐標(biāo)系下,再進(jìn)行二維逆傅里葉變換2D-IFT得到SAR圖像。注意到模型參數(shù)間量級相差較大,在參數(shù)估計(jì)時會存在收斂問題,因此可對式(11)進(jìn)行規(guī)整化處理,得到規(guī)整化的屬性散射中心模型[22]。
由此,本文設(shè)計(jì)一個深度網(wǎng)絡(luò)結(jié)構(gòu)從圖像中直接回歸目標(biāo)的屬性散射中心參數(shù),物理知識引導(dǎo)的SAR特征學(xué)習(xí)網(wǎng)絡(luò)如圖9所示。首先,圖像經(jīng)過一個卷積神經(jīng)神經(jīng)網(wǎng)絡(luò)特征提取層,然后經(jīng)過屬性散射參數(shù)回歸層,得到5個特征圖,每個特征圖分別對應(yīng)于5個屬性散射中心參數(shù)A,α,γ,L,,對應(yīng)的位置參數(shù)xp,yp為特征圖中每一個點(diǎn)對應(yīng)于原輸入圖像中的坐標(biāo),可以根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的感受野大小和降采樣系數(shù)確定。同時,考慮到散射中心分布的稀疏性,即對應(yīng)于散射幅度特征圖A是稀疏的。由此,得到網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)為
圖9 物理知識引導(dǎo)的SAR特征學(xué)習(xí)網(wǎng)絡(luò)Fig.9 Physical model guided feature learning for SAR images
由式(13),通過引入屬性散射模型重構(gòu)損失,可以引導(dǎo)模型學(xué)習(xí)具有物理意義的特征,增強(qiáng)了模型的解釋性。在式(12)中,去掉分類損失函數(shù)項(xiàng),則可以通過散射模型的引導(dǎo)進(jìn)行無監(jiān)督的學(xué)習(xí);如果數(shù)據(jù)中只含有部分標(biāo)記的訓(xùn)練數(shù)據(jù),利用式(12)則可以進(jìn)行半監(jiān)督的學(xué)習(xí)。這樣通過物理模型引導(dǎo)學(xué)習(xí)的模型,不僅具有較強(qiáng)的解釋性,而且能夠降低對標(biāo)記訓(xùn)練樣本的依賴。
總得來說,可解釋性問題是當(dāng)前基于深度學(xué)習(xí)的SAR目標(biāo)識別研究中還沒有引起足夠關(guān)注但亟待研究的一個關(guān)鍵問題,但目前還鮮有這方面的研究工作。本文對面向SAR圖像目標(biāo)識別的可解釋問題,從模型理解、模型診斷和模型改進(jìn)等方面進(jìn)行了初步的探討,提供了一些可能的研究思路,以啟發(fā)SAR領(lǐng)域的研究人員進(jìn)一步探索,以突破SAR圖像目標(biāo)認(rèn)知解譯的技術(shù)瓶頸。
本文系統(tǒng)地總結(jié)和分析了當(dāng)前SAR圖像目標(biāo)識別的研究進(jìn)展以及在技術(shù)和應(yīng)用中存在的重要挑戰(zhàn),對當(dāng)前機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的可解釋性研究和主要方法進(jìn)行了梳理和總結(jié)。深度學(xué)習(xí)的可解釋性問題是當(dāng)前人工智能領(lǐng)域的研究熱點(diǎn)和難點(diǎn),是實(shí)現(xiàn)可靠、可信和透明的人工智能系統(tǒng)的重要基礎(chǔ)。目前面向深度學(xué)習(xí)的可解釋性研究還處于初步探索階段,研究人員針對不同任務(wù)需求、從不同角度對深度學(xué)習(xí)的可解釋性進(jìn)行了研究,但還沒形成一個科學(xué)完整的體系。對基于深度學(xué)習(xí)的SAR圖像目標(biāo)識別的可解釋性問題的研究,目前還鮮有這方面的研究工作。為此,本文從SAR目標(biāo)認(rèn)知解譯所面臨的挑戰(zhàn)和技術(shù)瓶頸出發(fā),強(qiáng)調(diào)開展SAR圖像目標(biāo)識別的可解釋性問題的研究,從模型理解、模型診斷和模型改進(jìn)等3個方面對SAR圖像目標(biāo)識別可解釋問題進(jìn)行了探討,以啟發(fā)研究人員對此問題開展進(jìn)一步地探索和研究。這對于剖析SAR目標(biāo)認(rèn)知機(jī)理,提升SAR圖像目標(biāo)識別能力具有重要意義。在未來SAR目標(biāo)識別的研究工作中,還可以以可解釋性為切入點(diǎn),從以下幾個方面進(jìn)一步發(fā)展SAR圖像目標(biāo)識別技術(shù):
(1) 與SAR領(lǐng)域知識的有機(jī)融合。單純依靠數(shù)據(jù)暴力的深度學(xué)習(xí)方法并不能完全解決SAR目標(biāo)認(rèn)知解譯問題。目前,SAR圖像目標(biāo)解譯仍嚴(yán)重依賴于判讀專家的經(jīng)驗(yàn)知識和推理,如何構(gòu)建和表達(dá)這些先驗(yàn)知識,并嵌入到深度模型的學(xué)習(xí)和推理過程中,發(fā)展解釋性強(qiáng)、泛化性好、魯棒性高的SAR目標(biāo)識別模型和方法是一個重要方向。
(2) 人機(jī)智能協(xié)同。由于SAR圖像的特殊性,僅僅依賴圖像信號并沒有很大的提升空間,判讀專家的經(jīng)驗(yàn)和知識在SAR圖像解譯中仍不可或缺,因此需要將人的作用引入到模型學(xué)習(xí)和推理的環(huán)路中,充分發(fā)揮判讀專家快速聚焦、語義關(guān)聯(lián)、知識推理和計(jì)算機(jī)快速計(jì)算與自動化處理的兩方面優(yōu)勢,實(shí)現(xiàn)有效的“人在環(huán)路”的人機(jī)協(xié)同計(jì)算。可解釋性作為人與模型的接口,在人機(jī)智能協(xié)同中發(fā)揮著重要作用,通過建立可解釋的智能交互SAR目標(biāo)識別系統(tǒng)能夠?yàn)橥黄飘?dāng)前SAR目標(biāo)識別的技術(shù)和應(yīng)用瓶頸提供一條切實(shí)可行的途徑。
(3) 交互式學(xué)習(xí)。SAR圖像視覺認(rèn)知困難,圖像特性不穩(wěn)定,獲取和標(biāo)注樣本難,良好的SAR目標(biāo)識別系統(tǒng)應(yīng)具備從小樣本數(shù)據(jù)學(xué)習(xí)以及在與人的交互過程中持續(xù)學(xué)習(xí)的能力。通過結(jié)合主動學(xué)習(xí)、增量學(xué)習(xí)、知識圖譜等技術(shù),在人-模型-數(shù)據(jù)的動態(tài)互動中進(jìn)行漸進(jìn)式模型訓(xùn)練和知識更新,從而實(shí)現(xiàn)系統(tǒng)能力的迭代增長。