陳 征,高明亮,蔣衛(wèi)國,李志濤
(1.生態(tài)環(huán)境部 土壤與農(nóng)業(yè)農(nóng)村生態(tài)環(huán)境監(jiān)管技術(shù)中心,北京 100012; 2.首都師范大學(xué) 資源環(huán)境與旅游學(xué)院,北京 100048; 3.北京師范大學(xué) 地理科學(xué)學(xué)部,北京 100875; 4.中國環(huán)境科學(xué)研究院,北京 100012)
隨著物聯(lián)網(wǎng)、云計(jì)算、衛(wèi)星遙感技術(shù)的快速發(fā)展,數(shù)據(jù)呈爆炸式增長,大數(shù)據(jù)時(shí)代到來[1]。遙感技術(shù)、人工智能等新技術(shù)為污染場地管控帶來了新契機(jī)。以調(diào)研為主的單一來源信息已經(jīng)無法滿足污染場地智能化管控技術(shù)的需求,因?yàn)楹A繑?shù)據(jù)來源各異,數(shù)據(jù)類型復(fù)雜多樣,難以直接用于污染場地管控決策,需采用數(shù)據(jù)融合技術(shù),按照一定規(guī)則,對場地?cái)?shù)據(jù)或敏感受體相關(guān)信息進(jìn)行預(yù)處理、特征提取、融合等,以支持最終決策。在充分利用多源數(shù)據(jù)或關(guān)聯(lián)關(guān)系的同時(shí),充分考慮數(shù)據(jù)的獨(dú)特性來提高決策的可靠性。多源異構(gòu)數(shù)據(jù)融合具有單一來源數(shù)據(jù)無法比擬的優(yōu)越性和典型特征[2],如數(shù)據(jù)的冗余性、互補(bǔ)性、實(shí)時(shí)性等[3]。目前,數(shù)據(jù)融合技術(shù)受到廣泛關(guān)注,已成為大數(shù)據(jù)[4]、數(shù)據(jù)挖掘、生態(tài)[5-6]、環(huán)境[7]、地學(xué)[8-9]等領(lǐng)域的熱門研究課題[10]。充分利用大數(shù)據(jù)優(yōu)勢及數(shù)據(jù)挖掘等新技術(shù)、新方法,實(shí)現(xiàn)污染場地的智能化管控已成為污染場地管控及修復(fù)等工作迫在眉睫的需求。數(shù)據(jù)融合是通過綜合來自多個(gè)數(shù)據(jù)源的特征來減少決策中的不確定性,從而改善決策質(zhì)量。多源異構(gòu)數(shù)據(jù)融合是針對多源異構(gòu)數(shù)據(jù)的一種處理手段,通過結(jié)構(gòu)化處理、特征識別及知識推理等方法,從原始數(shù)據(jù)源中得出綜合評估和判斷,增加數(shù)據(jù)及結(jié)論的置信度,提高決策的可靠性,降低不確定性。
針對污染場地智能化管控對多源異構(gòu)數(shù)據(jù)融合的需求,對多源異構(gòu)數(shù)據(jù)融合技術(shù)及方法進(jìn)行綜述,對其發(fā)展方向進(jìn)行了展望,以期為污染場地多源異構(gòu)數(shù)據(jù)融合技術(shù)的研發(fā)提供理論框架及科學(xué)依據(jù),為污染場地智能化管控提供重要的理論基礎(chǔ)及技術(shù)支撐。
數(shù)據(jù)融合概念始于20世紀(jì)70年代初,近年來引起了世界的普遍關(guān)注。美國JDL(the Joint Directors of Laboratories)從軍事應(yīng)用角度,將數(shù)據(jù)融合定義為一種將來自多傳感器的數(shù)據(jù)進(jìn)行關(guān)聯(lián)與組合,實(shí)現(xiàn)較為準(zhǔn)確的位置推斷及身份估計(jì)的技術(shù),可對戰(zhàn)場狀況、威脅程度及重要水平做出及時(shí)完整的評價(jià)[11]。針對更普遍的應(yīng)用場景,一些學(xué)者對數(shù)據(jù)融合的定義做了完善與修訂。張新長[12]等將數(shù)據(jù)融合技術(shù)定義為利用計(jì)算機(jī)對按時(shí)序獲得的若干觀測信息在一定準(zhǔn)則下加以自動分析、綜合,以完成所需的決策與評估任務(wù)而進(jìn)行的信息處理技術(shù)。
數(shù)據(jù)融合的本質(zhì)是一個(gè)由底層至頂層對多源數(shù)據(jù)進(jìn)行整合、逐層抽象的信息處理過程。多源異構(gòu)數(shù)據(jù)存在不同數(shù)據(jù)結(jié)構(gòu)和冗余特征,在融合前需要執(zhí)行清洗、去異常值、去重等操作等一系列預(yù)處理流程。污染場地多源異構(gòu)數(shù)據(jù)融合需要對來自不同傳感器(或數(shù)據(jù)源)的特征描述信息進(jìn)行分析處理,按照一定規(guī)則進(jìn)行冗余整合、信息互補(bǔ),對產(chǎn)生沖突的數(shù)據(jù)進(jìn)行判別與評估,從而得出對目標(biāo)的準(zhǔn)確判斷。典型的數(shù)據(jù)融合過程如圖1所示,包括預(yù)處理、特征提取、融合計(jì)算、結(jié)果輸出等步驟。
圖1 污染場地多源異構(gòu)數(shù)據(jù)融合的基本過程Fig.1 Basic process of multi-source heterogeneous data fusion in contaminated sites
根據(jù)污染場地智能化管控中多源異構(gòu)數(shù)據(jù)的存儲模式和結(jié)構(gòu)特征,主要在柵格結(jié)構(gòu)層面進(jìn)行數(shù)據(jù)融合,即對矢量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行柵格化后再進(jìn)行融合,主要包括以下3個(gè)方面的融合:①污染場地多源、多尺度遙感數(shù)據(jù)融合。②污染場地GIS空間矢量數(shù)據(jù)與遙感數(shù)據(jù)融合。③污染場地非結(jié)構(gòu)化數(shù)據(jù)與空間數(shù)據(jù)融合。
多源異構(gòu)數(shù)據(jù)融合方法的分類準(zhǔn)則較多,如污染場地多源異構(gòu)數(shù)據(jù)融合主要在柵格結(jié)構(gòu)層面進(jìn)行,宜采用基于數(shù)據(jù)層級的分類方法[13],將數(shù)據(jù)融合分為像素級、特征級和決策級3個(gè)層次,每個(gè)層次可以設(shè)計(jì)不同的融合方法。
像素級融合。在基于數(shù)據(jù)層級的數(shù)據(jù)融合方法分類體系中,像素級融合是最低層次的融合,是直接在預(yù)處理后的數(shù)據(jù)層融合,按照一定的策略逐像元計(jì)算得到新的融合圖像,在提升數(shù)據(jù)質(zhì)量(如分辨率、數(shù)據(jù)維度等)的同時(shí),最大限度保留圖像的原始信息。它對硬件設(shè)施要求較高,逐像元融合處理需要對待融合圖像進(jìn)行精確配準(zhǔn),融合結(jié)果容易受噪聲及預(yù)處理效果的影響。常用的像元級融合方法包括代數(shù)法、IHS (Intensity-Hue-Saturation)變換、小波變換[14]、主成分(PCA,Principal component analysis)變換、K-T變換(Kautlr-Thomas Transformation,又稱穗帽變換)等。
特征級融合。特征級融合是中間層次的融合,按照特定的規(guī)則提取目標(biāo)特征的內(nèi)在描述,對圖像進(jìn)行特征提取并進(jìn)行綜合處理。特征是圖像信息的進(jìn)一步抽象,因此特征級融合是一種代價(jià)處理,為了提取特征信息,壓縮數(shù)據(jù)量,損失了部分細(xì)節(jié)信息。按特征信息對多源數(shù)據(jù)進(jìn)行分類、聚集和綜合,產(chǎn)生特征向量,通過多個(gè)特征向量的組合增加特征維數(shù),從而提高目標(biāo)的識別準(zhǔn)確率。常用的特征級融合方法包括人工神經(jīng)網(wǎng)絡(luò)、特征聚類、卡爾曼濾波、遺傳算法等。
決策級融合。決策級融合是最高層次的融合,融合結(jié)果可為決策提供依據(jù)。通過對污染場地多源異構(gòu)數(shù)據(jù)的預(yù)處理、特征抽取、識別及判決,建立對觀察目標(biāo)的初步結(jié)論。在獨(dú)立完成決策或分類的基礎(chǔ)上將多個(gè)識別結(jié)果進(jìn)行融合,做出全局的最優(yōu)決策。其優(yōu)點(diǎn)是具有很強(qiáng)的容錯性、開放性,處理時(shí)間短,數(shù)據(jù)要求低,分析能力強(qiáng)。但是由于決策是最高層次的抽象,同時(shí)判別和估計(jì)對預(yù)處理及特征提取有較高的要求,因此決策級融合的代價(jià)在三個(gè)層次中是最高的。常用的決策級融合方法包括貝葉斯方法、D-S證據(jù)推理(Dempster-Shafer reasoning)、模糊推理、專家系統(tǒng)等。
此外,污染場地多源異構(gòu)數(shù)據(jù)融合方法的分類依據(jù)還包括輸入數(shù)據(jù)的關(guān)系、輸入/輸出數(shù)據(jù)類型、Joint Directors of Laboratories (JDL)定義的層級[15]、結(jié)構(gòu)類型等。污染場地多源異構(gòu)數(shù)據(jù)融合方法類型及其特點(diǎn)詳見表1。
表1 污染場地多源異構(gòu)數(shù)據(jù)融合方法分類體系Tab.1 Classification system of multi-source heterogeneous data fusion method for contaminated sites
基于數(shù)理統(tǒng)計(jì)的方法主要包括貝葉斯(Bayes)推理、貝葉斯網(wǎng)絡(luò)[19]、支持向量機(jī)(Support Vector Machine,SVM)[20]及證據(jù)推理(Evidential Reasoning)等[21]。
基于貝葉斯估計(jì)方法。貝葉斯推理是多源異構(gòu)數(shù)據(jù)融合最常用的方法之一[22]。其基本原理是利用概率原則組合來自多個(gè)傳感器的多源信息,并用概率表示每種信息的不確定性,計(jì)算在給定條件下某個(gè)假設(shè)為真的后驗(yàn)概率,在實(shí)際情境中按照一定判定策略來做決策。對于數(shù)據(jù)源提供的屬性(證據(jù))B1,B2,…,Bn,逐一計(jì)算各屬性(證據(jù))在各假設(shè)為真的條件下的概率P(Bi|Aj)及n個(gè)屬性(證據(jù))的聯(lián)合概率:
P(B1,B2,…,Bn|Aj)=P(B1|Aj)·P(B2|Aj)…P(Bn|Aj)
(1)
利用貝葉斯公式,計(jì)算在n個(gè)證據(jù)為真的條件下假設(shè)A的后驗(yàn)概率為:
P(Aj|B1,B2,…,Bn)=P(B1,B2,…,Bn|Aj)·P(Aj)/P(B1,B2,…,Bn)
(2)
在實(shí)際情境下,基于式(2)計(jì)算結(jié)果按照一定的判定策略做輔助決策。
貝葉斯網(wǎng)絡(luò)是一種用來描述不確定性關(guān)系的理論方法[23],基于有向圖來描述目標(biāo)之間的相互關(guān)系,用于分析多源異構(gòu)數(shù)據(jù)融合中多目標(biāo)的因果關(guān)系及依賴關(guān)系。根據(jù)貝葉斯定理與特征條件獨(dú)立性假設(shè)進(jìn)行輸入數(shù)據(jù)的聯(lián)合概率分布學(xué)習(xí)與估算,是一種基于獨(dú)立事件概率的模型,在圖論中,貝葉斯的結(jié)構(gòu)主要有3種形式,如圖2所示。
圖2 貝葉斯網(wǎng)絡(luò)的三種典型結(jié)構(gòu)Fig.2 Three typical structures of Bayesian networks
Head to Head:當(dāng)AB事件同時(shí)發(fā)生時(shí),C事件發(fā)生,則事件同時(shí)觸發(fā)的概率為:
(3)
Tail to Tail:當(dāng)C已知時(shí),則AB事件獨(dú)立。
Head to Tail:此時(shí)事件同時(shí)觸發(fā)的概率為:
(4)
貝葉斯網(wǎng)絡(luò)可用于分析數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,如污染場地相關(guān)的源、受體、傳播途徑等量化特征及地理位置信息等。聯(lián)合概率分布通常只能基于觀測數(shù)據(jù)來求解后驗(yàn)分布,因此對于數(shù)據(jù)質(zhì)量要求較高,需要有大量的高質(zhì)量觀測數(shù)據(jù)才能得到較為準(zhǔn)確的推理模型。貝葉斯網(wǎng)絡(luò)是一種基于獨(dú)立事件的概率圖模型,對于非獨(dú)立事件在聯(lián)合概率分布的求解會有較大的誤差。
D-S證據(jù)推理方法。污染場地監(jiān)測與管控依賴多種傳感器采集的數(shù)據(jù),其目的是為了監(jiān)測多種環(huán)境影響及區(qū)域響應(yīng)參數(shù),包含了多種信息源帶來的不確定性。因此面向污染場地管控的多源異構(gòu)數(shù)據(jù)融合,需要將多源異構(gòu)信息的不確定性進(jìn)行綜合建模和推理,并輸出一個(gè)最終決策。D-S證據(jù)推理方法通過建立信任函數(shù),利用信任度而非概率來量化不確定信息的可靠性[24],在數(shù)據(jù)融合過程中不僅要保證證據(jù)的客觀性,還要重視主觀性和綜合因素,具有較強(qiáng)的靈活性[25-26]。其基本思路[27]為:建立識別框架→初始信任分配→計(jì)算所有假設(shè)命題的信任度→證據(jù)合成→決策。在進(jìn)行證據(jù)推理過程中需要用到幾個(gè)重要的證據(jù)函數(shù),包括基本概率分配函數(shù)、信任函數(shù)及似然函數(shù)。其中,基本概率分配函數(shù)(Basic probability assignment,簡稱BPA)表征各個(gè)證據(jù)對命題的信任程度,BPA是否合理對最終結(jié)果影響較大。信任函數(shù)(Belief function)表征各個(gè)證據(jù)對命題為真的信任程度。似然函數(shù)表征對命題的“非假”信任度,即命題可能成立的不確定性度量,也被稱為上限函數(shù)。
基于估計(jì)理論的方法主要包括最小二乘法、加權(quán)平均法、卡爾曼濾波(Kalman Filter)等線性估計(jì)技術(shù)[28-29]及一些非線性估計(jì)技術(shù),如高斯濾波方法[30]等。
基于加權(quán)平均的方法。加權(quán)平均法是數(shù)據(jù)級融合中最簡單易行的方法,在多波段圖像(如遙感圖像)數(shù)據(jù)級融合中應(yīng)用較為廣泛。該方法將數(shù)據(jù)源所提供的一組有冗余信息的數(shù)據(jù)賦予加權(quán)系數(shù)后做加權(quán)平均處理,如遙感圖像處理的多波段運(yùn)算。
用wi代表賦予數(shù)據(jù)源ti的權(quán)重,則
(5)
得到的結(jié)果即為數(shù)據(jù)融合的結(jié)果,這種方法簡單直觀,但權(quán)重賦值取決于提取對象的特征且需要一定先驗(yàn)經(jīng)驗(yàn)知識,受主觀因素影響。
自適應(yīng)加權(quán)平均法采用自適應(yīng)的方式,通過迭代尋找各數(shù)據(jù)源的最優(yōu)權(quán)重,替代人工確定權(quán)重的過程,在滿足總均方誤差最小的前提下獲得最優(yōu)的融合結(jié)果。
卡爾曼濾波法。多用于動態(tài)環(huán)境中多傳感器、多源信息的實(shí)時(shí)融合,可有效利用多源異構(gòu)數(shù)據(jù)之間的關(guān)系,運(yùn)算效率較高。其核心是計(jì)算多源異構(gòu)數(shù)據(jù)(或信息)之間的加權(quán)平均值。其中,各數(shù)據(jù)源(信息源)權(quán)重與多次測量結(jié)果的方差成反比。在實(shí)際應(yīng)用中通過調(diào)節(jié)各數(shù)據(jù)源(信息源)的方差值來修正權(quán)值,從而得到更可靠的結(jié)果??柭鼮V波融合算法計(jì)算模型為:
(6)
其中,X為狀態(tài)估計(jì)矩陣,A為狀態(tài)轉(zhuǎn)移矩陣,B為系統(tǒng)控制矩陣(通常為0矩陣),u為系統(tǒng)控制量(通常取0),ω為系統(tǒng)噪聲,Z為觀測值矩陣,H為系統(tǒng)觀測矩陣,ν為觀測噪聲。采用最小方差估計(jì)方法,根據(jù)測量值Z估計(jì)系統(tǒng)狀態(tài)矢量X的Kalman濾波方程,狀態(tài)更新包括時(shí)間更新及測量更新兩部分。時(shí)間更新方程為:
(7)
狀態(tài)更新方程為:
(8)
從信息論觀點(diǎn)來解釋數(shù)據(jù)融合的過程——實(shí)質(zhì)上是不確定性減少的過程。在污染場地多源異構(gòu)數(shù)據(jù)融合中應(yīng)用數(shù)理統(tǒng)計(jì)方法進(jìn)行特征信息的處理和傳遞,即基于信息論的多源異構(gòu)數(shù)據(jù)融合方法。具有代表性的算法包括模糊集理論(Fuzzy Set Theory,FST)[31]、信息熵(information entropy)[32]等。
模糊集理論。在污染場地多源異構(gòu)數(shù)據(jù)融合過程中,融合系統(tǒng)處理的特征和信息存在一定的模糊性,而模糊集理論以其特有的處理模糊問題能力及模糊推理優(yōu)勢,被廣泛應(yīng)用于多源數(shù)據(jù)融合、資源環(huán)境評價(jià)[33]等領(lǐng)域。它將一個(gè)集合的隸屬度定義為一個(gè)可能性分布[34],即通過把經(jīng)典集合中的隸屬關(guān)系推廣到可以取單位區(qū)間[0, 1]上的任一值,從而達(dá)到定量刻畫模糊性對象的目的[35]。
模糊綜合評判是一種常用的基于模糊集理論的評價(jià)方法,可參考文獻(xiàn)[36]。利用模糊綜合評判原理進(jìn)行多源信息融合,具有系統(tǒng)結(jié)構(gòu)簡單、計(jì)算復(fù)雜度低、耗時(shí)小、便于實(shí)時(shí)處理、容易實(shí)現(xiàn)等優(yōu)勢,被廣泛用于多源異構(gòu)數(shù)據(jù)融合應(yīng)用中。污染場地多源異構(gòu)數(shù)據(jù)模糊集融合方法處理流程如圖3所示:
圖3 基于模糊集理論的污染場地多源異構(gòu)數(shù)據(jù)融合處理流程Fig.3 Multi-source heterogeneous data fusion processing of contaminated sites based on fuzzy set theory
信息熵方法。為了提取污染場地相關(guān)的污染源、暴露途徑及受體等特征信息,選擇數(shù)據(jù)模型化處理是最好的方式[37]。但是數(shù)據(jù)信息模型化存在不確定性,常用的解決方法是采用最大熵原理(The Maximum Entropy Principle,MEP)[38]。需要注意的是,這里的“熵”并不是指熱力學(xué)概念,而是Claude Elwood Shannon提出的信息熵,用來描述信息的不確定程度[39]。一個(gè)離散型隨機(jī)變量X的熵H(X)定義為:
(9)
其中:p(x)表示取值為x的概率,log()為以2或e為底的對數(shù)。
對污染場地多源異構(gòu)數(shù)據(jù)的融合是對同一表達(dá)層次、多源異構(gòu)信息的合成過程,把輸入數(shù)據(jù)(遙感數(shù)據(jù)、GIS空間矢量及非結(jié)構(gòu)化數(shù)據(jù)等)和輸出信息(包含污染源、暴露途徑及受體等信息)定義為兩種不同的信息源,并用兩種概率空間上定義的信息熵進(jìn)行描述。
通常,最大熵模型假設(shè)融合模型C是一個(gè)條件概率分布P(Y|X),其中X為特征,Y為輸出。定義在條件概率分布P(Y|X)熵的條件熵[40]為:
(10)
求解H(P)最大時(shí)對應(yīng)的P(y|x),即求解模型集合C中條件熵最大的模型。最大熵統(tǒng)計(jì)模型獲得的是所有滿足約束條件的模型中信息熵極大的模型,可靈活地設(shè)置約束條件,通過約束條件的多少來調(diào)節(jié)模型對未知數(shù)據(jù)的適應(yīng)度及對已知數(shù)據(jù)的擬合程度。
人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)。特指淺層神經(jīng)網(wǎng)絡(luò),即包含一個(gè)輸入層、一個(gè)隱藏層與一個(gè)輸出層的神經(jīng)網(wǎng)絡(luò)模型。其具有完善的容錯機(jī)制及自學(xué)習(xí)、自組織、自適應(yīng)能力,能夠模擬復(fù)雜的非線性關(guān)系映射[8]。人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)和非線性處理能力能夠滿足污染場地多源異構(gòu)數(shù)據(jù)融合應(yīng)用的要求。在污染場地智能化管控實(shí)際情景中,各數(shù)據(jù)源所提供的環(huán)境信息均具有一定程度的不確定性,對其融合過程實(shí)際上是一個(gè)不確定性推理過程。通過當(dāng)前系統(tǒng)所接受的樣本相似性特征來確定分類標(biāo)準(zhǔn)(主要表現(xiàn)在網(wǎng)絡(luò)的權(quán)值分布上),同時(shí)通過學(xué)習(xí)來獲取知識,得到不確定性推理機(jī)制。利用人工神經(jīng)網(wǎng)絡(luò)的信號處理能力和自動推理功能,實(shí)現(xiàn)污染場地多源異構(gòu)數(shù)據(jù)融合。
深度學(xué)習(xí)(深度神經(jīng)網(wǎng)絡(luò))。深度學(xué)習(xí)是深度神經(jīng)網(wǎng)絡(luò)的統(tǒng)稱,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)通常包括多個(gè)隱藏層,其中較低層的輸出作為較高層的輸入,因此能夠從數(shù)據(jù)中獲取到更多的信息,學(xué)習(xí)到數(shù)據(jù)中更有效的特征表示。相較于淺層網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)能夠更好地挖掘和表示數(shù)據(jù)特征,具有更強(qiáng)的泛化性能,近年來在數(shù)據(jù)融合領(lǐng)域有了較為廣泛的應(yīng)用。根據(jù)深度學(xué)習(xí)在數(shù)據(jù)融合中參與的階段,張紅[41]等將基于深度學(xué)習(xí)的數(shù)據(jù)融合方法分為3類:基于深度學(xué)習(xí)特征提取的數(shù)據(jù)融合方法,基于深度學(xué)習(xí)融合的數(shù)據(jù)融合方法,基于深度學(xué)習(xí)全過程的數(shù)據(jù)融合方法。深度神經(jīng)網(wǎng)絡(luò)的作用及各類方法對應(yīng)的典型應(yīng)用案例見表2。在污染場地多源異構(gòu)數(shù)據(jù)融合應(yīng)用中宜采用基于深度學(xué)習(xí)全過程的數(shù)據(jù)融合方法,在特征提取階段及數(shù)據(jù)融合階段有針對性地采用不同的深度神經(jīng)網(wǎng)絡(luò)模型組合[42],從而有效提高融合質(zhì)量,提升污染場地智能化管控決策精度。目前已有研究[43]表明,可通過神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練等方式,基于有限的訓(xùn)練樣本得到可靠的訓(xùn)練精度,將為多源異構(gòu)數(shù)據(jù)融合帶來更多的途徑和可能性。
表2 基于深度學(xué)習(xí)的多源異構(gòu)數(shù)據(jù)融合方法及典型應(yīng)用案例Tab.2 Multi-source heterogeneous data fusion method based on in-depth learning and typical application cases
針對污染場地智能化管控需求,對多源異構(gòu)數(shù)據(jù)融合方法進(jìn)行了綜述。根據(jù)污染場地多源異構(gòu)數(shù)據(jù)的特點(diǎn),介紹了像素級、特征級及決策級等多層級數(shù)據(jù)融合方法體系,對數(shù)據(jù)融合方法按照基礎(chǔ)理論進(jìn)行分類并分析了典型方法。無論是基于數(shù)理統(tǒng)計(jì)、估計(jì)理論及信息論的傳統(tǒng)數(shù)據(jù)融合方法,還是基于人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的數(shù)據(jù)融合方法,均在不同領(lǐng)域得到了廣泛應(yīng)用。但數(shù)據(jù)融合技術(shù)仍存在一些問題,如針對多源異構(gòu)數(shù)據(jù)等高維數(shù)據(jù)在表示方式、組織形式、數(shù)據(jù)密度(即數(shù)據(jù)結(jié)構(gòu))等方面存在差異及異構(gòu)數(shù)據(jù)間的交叉、關(guān)聯(lián)、整合與同化存在問題,深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中需要大量數(shù)據(jù)作為訓(xùn)練樣本,對硬件(計(jì)算能力)有較高的需求。因此,對多源異構(gòu)數(shù)據(jù)進(jìn)行特征信息提取并進(jìn)行融合應(yīng)用,是數(shù)據(jù)融合領(lǐng)域亟待進(jìn)一步研究的方向。此外,深層神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的關(guān)鍵技術(shù)方法也在不斷迭代更新,除了計(jì)算機(jī)硬件算力的提升外,讓模型在訓(xùn)練過程中自我學(xué)習(xí)與優(yōu)化,可大幅提升數(shù)據(jù)融合模型訓(xùn)練效率,值得深入研究。