于佳會 劉佳靜 鄭建明
(南京大學(xué)信息管理學(xué)院 南京 210023)
大數(shù)據(jù)時代,信息爆炸式增長,數(shù)據(jù)的來源也越來越廣泛,總的來說,可以把數(shù)據(jù)來源歸納為兩大類,一類是“以物為中心”的各種傳統(tǒng)傳感器獲取的“硬數(shù)據(jù)”,另一類是“以人為中心”產(chǎn)生的“軟數(shù)據(jù)”,如社交網(wǎng)絡(luò)數(shù)據(jù)、web數(shù)據(jù)、多媒體數(shù)據(jù)等。此外,數(shù)據(jù)除來源廣外,還具有多維性特征,多維主要體現(xiàn)在數(shù)據(jù)屬性的多樣性上,即對同一對象從不同視角提取的數(shù)據(jù),如內(nèi)容主題維度、類型維度、結(jié)構(gòu)維度、時間維度、空間維度等。
面對海量、復(fù)雜的數(shù)據(jù),一方面難以充分挖掘出有價值的信息,另一方面單來源單維度數(shù)據(jù)難以滿足輔助科學(xué)決策的需要,多源多維數(shù)據(jù)融合發(fā)展的需求越來越迫切。與此同時,物聯(lián)網(wǎng)、云計算、人工智能等新興技術(shù)的發(fā)展,不僅提高了數(shù)據(jù)獲取與數(shù)據(jù)分析處理的能力、促進了數(shù)據(jù)融合的發(fā)展,也增加了數(shù)據(jù)融合的研究熱度。因此,本文對多源多維數(shù)據(jù)融合的研究現(xiàn)狀進行梳理與分析,以期為數(shù)據(jù)融合領(lǐng)域后續(xù)的理論與實踐研究提供參考。
一般來說,數(shù)據(jù)融合和信息融合通常被視為相同的概念,只是在某些情況下,數(shù)據(jù)融合用來表示處理直接從傳感器獲得的原始數(shù)據(jù),信息融合則用來定義處理在原始數(shù)據(jù)基礎(chǔ)上形成的信息[1]。在研究文獻中,與數(shù)據(jù)融合相關(guān)的術(shù)語通常還包括傳感器融合、多傳感器融合、知識融合、數(shù)據(jù)聚合、數(shù)據(jù)集成、數(shù)據(jù)組合等。本文在處理過程中,將數(shù)據(jù)融合和信息融合視為了相同的概念。數(shù)據(jù)融合這一概念最早是在20世紀70年代美國軍事領(lǐng)域內(nèi)提出的,之后被廣泛應(yīng)用于工業(yè)、農(nóng)業(yè)、交通、醫(yī)療等領(lǐng)域。不同領(lǐng)域?qū)?shù)據(jù)融合的理解和運用不同,因此數(shù)據(jù)融合至今依然沒有統(tǒng)一的定義。目前,被普遍采納的定義是由美國三軍組織實驗室理事聯(lián)合會(JDL)提出的,他們認為數(shù)據(jù)融合是一種對多源數(shù)據(jù)進行檢測、相關(guān)、組合和估計的多層次、多方面處理過程[2]。Hall等認為數(shù)據(jù)融合是將多種來源的數(shù)據(jù)結(jié)合起來,利用計算機進行數(shù)據(jù)處理,得到單個或單類信息源無法獲得的有價值的綜合信息[3]。結(jié)合前人觀點,筆者認為,多源多維數(shù)據(jù)融合是根據(jù)數(shù)據(jù)融合的目的和所處層次,選擇恰當(dāng)?shù)臄?shù)據(jù)融合結(jié)構(gòu)和算法,通過對描述對象不同來源不同維度的數(shù)據(jù)進行抽取、清洗、分選等預(yù)處理,提取出數(shù)據(jù)特征并進行關(guān)聯(lián)組合,從而得到更加準確完整信息的過程。數(shù)據(jù)融合的具體流程如圖1所示。
圖1 多源多維數(shù)據(jù)融合流程
依據(jù)論題解讀,筆者以中國知網(wǎng)數(shù)據(jù)庫為數(shù)據(jù)統(tǒng)計源,以“數(shù)據(jù)融合”“信息融合”“多源數(shù)據(jù)”“多維數(shù)據(jù)”“多源信息”“多維信息”為檢索詞,進行“篇名”檢索,限定期刊來源為北大核心、CSSCI以及CSCD,檢索時間為2021年6月10日,檢索結(jié)果為5 511篇相關(guān)文獻。筆者對其年發(fā)文量進行統(tǒng)計,得到年發(fā)文量曲線圖,如圖2所示(注:2021年數(shù)據(jù)不完整,截至檢索日期共計162篇)。通過圖2可以看出,1992年以前,我國并不十分重視數(shù)據(jù)融合的研究;1992-1998年,數(shù)據(jù)融合相關(guān)文獻開始出現(xiàn)且年發(fā)文量逐漸增加,表明數(shù)據(jù)融合在我國開始受到關(guān)注,相關(guān)研究開始起步;1999-2009年,年發(fā)文量快速增長,并且在2009年達到階段性峰值,表明數(shù)據(jù)融合相關(guān)研究進入高速發(fā)展階段;2009年至今,數(shù)據(jù)融合相關(guān)文獻年發(fā)文量有所回落,但總體呈平穩(wěn)上升趨勢,并且年發(fā)文量數(shù)值較高,表明國內(nèi)學(xué)者對數(shù)據(jù)融合研究一直保持著較高的關(guān)注度,數(shù)據(jù)融合相關(guān)研究進入平穩(wěn)發(fā)展階段。
圖2 我國數(shù)據(jù)融合相關(guān)論文年發(fā)文量曲線
為了解國內(nèi)多源多維數(shù)據(jù)融合的最新研究進展,筆者對近5年的期刊文獻進行了分析,把檢索時間限定為2016年1月1日至2021年6月10日,共得到1 611篇文獻,對檢索結(jié)果進行預(yù)處理(去重及去除不相關(guān)等)后得到緊密相關(guān)的文獻1 565篇。本次研究運用了文獻計量學(xué)方法,借助可視化應(yīng)用軟件VOSviewer,對研究樣本進行分析。
多源數(shù)據(jù)和多維數(shù)據(jù)都是數(shù)據(jù)融合的處理對象,根據(jù)不同的分類標準可以把數(shù)據(jù)劃分為多源數(shù)據(jù)和多維數(shù)據(jù),多源數(shù)據(jù)是按照數(shù)據(jù)的來源進行劃分,多維數(shù)據(jù)的劃分標準是數(shù)據(jù)的屬性,多來源也可以看作是多維度的一種維度,從這個意義上說,多維數(shù)據(jù)的含義高于多源數(shù)據(jù)。一般來說,多源數(shù)據(jù)和多維數(shù)據(jù)之間沒有絕對的關(guān)系,單來源的數(shù)據(jù)按照不同的性質(zhì)可以劃分出多個維度,同一性質(zhì)的數(shù)據(jù)按照不同的來源也可以劃分為多個來源,且各種來源的數(shù)據(jù)大多涉及多維度處理問題,所以在處理數(shù)據(jù)時,對數(shù)據(jù)是多源還是多維的判斷通常不是絕對的。同時分析整理文獻發(fā)現(xiàn),大多數(shù)多源多維數(shù)據(jù)融合研究主要針對多來源數(shù)據(jù)進行分析,集中于理論研究、方法研究以及應(yīng)用研究,且不少文獻把多源數(shù)據(jù)融合簡稱為數(shù)據(jù)融合,所以筆者主要從數(shù)據(jù)融合的理論、方法與應(yīng)用三個層面展開分析。
3.1數(shù)據(jù)融合理論研究大數(shù)據(jù)時代,大規(guī)模的多源多維數(shù)據(jù)關(guān)聯(lián)交叉,融合處理難度大,不少學(xué)者提出數(shù)據(jù)融合面臨著諸多困境。整體來看,融合過程在融合方式變革、融合規(guī)??刂婆c數(shù)據(jù)存儲維護方面,融合結(jié)果在用戶隱私保護與實際應(yīng)用對接方面,融合技術(shù)在跨領(lǐng)域、跨學(xué)科、跨語言以及跨媒體融合方面存在著挑戰(zhàn)與問題[4]。從具體領(lǐng)域來看,圖書館大數(shù)據(jù)融合面臨著多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)難度大、實時大數(shù)據(jù)和歷史大數(shù)據(jù)融合復(fù)雜性大、對傳感器系統(tǒng)功能性需求大、大數(shù)據(jù)安全與開放的矛盾大等挑戰(zhàn);高等教育發(fā)展也存在大數(shù)據(jù)融合利用效率低、利用力度不足、浪費嚴重、數(shù)據(jù)化水平低等困境。部分學(xué)者針對各領(lǐng)域不同的發(fā)展目的提出了數(shù)據(jù)融合的途徑,同時還有學(xué)者進一步對數(shù)據(jù)融合的體系建設(shè)提出了構(gòu)想,如張文萍等探討了包括數(shù)據(jù)描述模型、數(shù)據(jù)服務(wù)模型、數(shù)據(jù)管理計劃等科學(xué)數(shù)據(jù)融合體系架構(gòu)[5];翟運開等從層次維、時間維和種類維三個角度構(gòu)建了包括精準醫(yī)療多源異構(gòu)數(shù)據(jù)融合標準體系框架[6]。
總體來說,近幾年數(shù)據(jù)融合理論相關(guān)文獻數(shù)量不多,研究主要集中在面臨問題、融合途徑以及體系建設(shè)等方面。關(guān)于數(shù)據(jù)融合困境的研究比較片面和泛化,未來還需根據(jù)發(fā)展需求與實際情況不斷剖析數(shù)據(jù)融合面臨的問題與挑戰(zhàn);對于數(shù)據(jù)融合途徑的研究比較薄弱,無論是從整體視角還是具體應(yīng)用領(lǐng)域來看都有很大的研究空間;許多領(lǐng)域?qū)?shù)據(jù)融合體系建設(shè)的重視度不夠,且沒有形成廣義的數(shù)據(jù)融合體系??傊?,多源多維數(shù)據(jù)融合理論不夠完善,還需在理論層面進一步展開探討,構(gòu)建完整的系統(tǒng)理論體系。
3.2數(shù)據(jù)融合方法研究受外界環(huán)境或傳感器性能等的影響,各系統(tǒng)獲得的數(shù)據(jù)存在冗余或不準確的問題,數(shù)據(jù)融合方法通過對不同形式的數(shù)據(jù)進行處理,可有效獲得準確信息。為更直觀全面地反映數(shù)據(jù)融合方法的發(fā)展現(xiàn)狀,筆者抽取與數(shù)據(jù)融合方法研究相關(guān)的文獻,運用可視化應(yīng)用軟件VOSviewer構(gòu)建關(guān)鍵詞可視化圖譜(圖3)。分析圖3可知,運用較多的方法是神經(jīng)網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí))、D-S證據(jù)理論、卡爾曼(Kalman)濾波、支持向量機(SVM)、遺傳算法、信息熵、自適應(yīng)加權(quán)、層次分析法、小波變換、粒子群算法、聚類、蟻群算法等。
3.2.1 基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合 心理學(xué)家Mcculloch和數(shù)學(xué)家Pitts于1943年提出神經(jīng)網(wǎng)絡(luò)概念和M-P模型,自此拉開神經(jīng)網(wǎng)絡(luò)研究的序幕[7]。神經(jīng)網(wǎng)絡(luò)是模仿人腦進行信息處理的算法,具有強大的自學(xué)習(xí)、自適應(yīng)、非線性匹配和信息處理能力,并且隨著算法的改進,在淺層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,深度神經(jīng)網(wǎng)絡(luò)被提出并不斷發(fā)展。
圖3 數(shù)據(jù)融合方法相關(guān)文獻的關(guān)鍵詞知識圖譜
a.BP神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)即反向傳播神經(jīng)網(wǎng)絡(luò),屬于淺層神經(jīng)網(wǎng)絡(luò)的一種,通常由一個輸入層、一個隱藏層和一個輸出層組成,多層的網(wǎng)絡(luò)體系結(jié)構(gòu)使得信息的輸出更加準確。如有學(xué)者設(shè)計了一款?;穫}庫巡邏機器人,在對收集的泄露危化品濃度、倉庫內(nèi)環(huán)境溫度和濕度數(shù)據(jù)進行拉依達去噪、歸一化后利用BP神經(jīng)網(wǎng)絡(luò)進行融合輸出,大幅度提高了機器人報警的準確性和可靠性[8]。由于外界環(huán)境的復(fù)雜性以及BP神經(jīng)網(wǎng)絡(luò)自身的缺陷,越來越多的學(xué)者借助優(yōu)化算法,如改進蟻群算法、改進粒子群算法、啟發(fā)螢火蟲算法、改進煙花算法等設(shè)計BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)融合算法,優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)、權(quán)值和閾值,有效地減少了冗余數(shù)據(jù)傳輸,提高了融合的精度和收斂速度,改善了數(shù)據(jù)融合算法的性能。
b.深度學(xué)習(xí)。深度學(xué)習(xí)由淺層神經(jīng)網(wǎng)絡(luò)發(fā)展而來,是深度神經(jīng)網(wǎng)絡(luò)的統(tǒng)稱,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中重要的算法結(jié)構(gòu)。不同于淺層神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)擁有多個隱藏層,且較低層的隱藏層輸出可以作為較高層隱藏層的輸入[9]。深度學(xué)習(xí)具有更強的特征表示能力,不少學(xué)者將其運用到了數(shù)據(jù)融合算法中。如馬永軍等提出了以卷積神經(jīng)網(wǎng)絡(luò)模型為核心的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合算法,有效地提高了數(shù)據(jù)采集精度[10];張輝等提出了一種基于深度神經(jīng)決策森林(DNDF)的數(shù)據(jù)融合方法,有效提取了多維數(shù)據(jù)的關(guān)鍵特征,解決了體域網(wǎng)中多傳感器數(shù)據(jù)采集過程中數(shù)據(jù)冗余大、特征信息模糊的問題[11]??偟膩碚f,與傳統(tǒng)數(shù)據(jù)融合算法相比,深度學(xué)習(xí)可以有效地改善高噪聲、多維度、大規(guī)模、結(jié)構(gòu)復(fù)雜數(shù)據(jù)的融合效果。
3.2.2 基于統(tǒng)計推理的數(shù)據(jù)融合
a.D-S證據(jù)理論。D-S證據(jù)理論于1967年被Dempster提出[12],后又經(jīng)Shafer完善推廣[13],是一種不確定性推理的方法,能夠高效的處理復(fù)雜和不確定信息,在數(shù)據(jù)融合領(lǐng)域發(fā)揮著重要的作用。有學(xué)者從維修性數(shù)據(jù)源中挖掘樣本量和分布特征等信息構(gòu)建證據(jù),采用D-S理論合成證據(jù)作為權(quán)重,建立了維修性多源數(shù)據(jù)融合模型[14];還有學(xué)者針對海量數(shù)據(jù)節(jié)點產(chǎn)生和傳輸中的不確定性,提出在物聯(lián)網(wǎng)節(jié)點加權(quán)的基礎(chǔ)上用D-S證據(jù)理論對數(shù)據(jù)進行融合[15]。D-S證據(jù)理論可以很好地表達和處理不確定信息,然而在挖掘多源數(shù)據(jù)特征合成證據(jù)構(gòu)建數(shù)據(jù)融合模型時,需要特別注意沖突數(shù)據(jù)的融合問題,注重考慮合成規(guī)則的適用性、運算量的適中性以及融合結(jié)果的正確性等。
b.支持向量機理論。支持向量機是Vapnik于20世紀90年代提出的一種算法[16],以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ),從線性可分的情況下尋找最優(yōu)分類面發(fā)展而來,主要用來進行分類和回歸分析,在數(shù)據(jù)融合中有著一定的運用。如蔡世清等以支持向量機為學(xué)習(xí)機來預(yù)測多傳感器信任度,使得提出的多傳感器數(shù)據(jù)融合算法具有更高的預(yù)測精度和收斂速度[17];鄭毅等提出基于多任務(wù)支持向量機的多源健康數(shù)據(jù)融合方法,有效地融合了具有不同數(shù)據(jù)源個數(shù)的多源數(shù)據(jù),且該方法具有較好的分類性能與結(jié)構(gòu)稀疏性[18]。總之,支持向量機分類和回歸分析的精確度較高,提高了數(shù)據(jù)融合算法的性能。
3.2.3 基于估計理論的數(shù)據(jù)融合 估計理論方法可以分為線性估計技術(shù)與非線性估計技術(shù),為復(fù)雜的數(shù)據(jù)融合過程提供了強大的方法支撐。其中,線性估計技術(shù)包括卡爾曼濾波、小波變換、最小二乘等,經(jīng)典的非線性估計技術(shù)有擴展卡爾曼濾波(EKF)和無跡卡爾曼濾波(UKF)等。
a.線性估計技術(shù)。卡爾曼濾波方法是Kalman在1960 年提出的[19],是一種對信息系統(tǒng)當(dāng)前的狀態(tài)進行最優(yōu)估計的算法,一些學(xué)者用其幫助解決數(shù)據(jù)融合系統(tǒng)中信息誤差的估計問題。如段杰等利用卡爾曼濾波算法對農(nóng)業(yè)大棚環(huán)境參數(shù)進行數(shù)據(jù)級的融合處理,去除了數(shù)據(jù)采集中噪聲的影響,使得測量的結(jié)果更加穩(wěn)定、融合精度更高[20];楊丹等采用卡爾曼濾波算法,設(shè)計了融合陀螺儀、加速度計和磁強計多種傳感器信息的機器人姿態(tài)測量系統(tǒng),實現(xiàn)了對機器人實時姿態(tài)的精確測量[21]??柭鼮V波算法具有較強的容錯能力,但也存在著系統(tǒng)參數(shù)數(shù)量影響計算效率、不能處理非線性問題、對狀態(tài)空間模型的精準度依賴較高的不足,要想進一步提高融合精度,需不斷優(yōu)化和改進卡爾曼濾波算法。
b.非線性估計技術(shù)??柭鼮V波算法無法對非線性系統(tǒng)的狀態(tài)進行估計,為解決這一問題,有學(xué)者提出了擴展卡爾曼濾波算法[22],該算法一經(jīng)提出便得到了廣泛應(yīng)用。如為獲取準確、可靠的航向和姿態(tài)信息實現(xiàn)非線性系統(tǒng)的自主導(dǎo)航,盧艷軍等采用擴展卡爾曼濾波算法進行姿態(tài)角和航偏角估計[23]。然而,對非線性強度高的系統(tǒng)狀態(tài)估計時,擴展卡爾曼濾波算法存在較大的誤差,于是精度更高、收斂性更好的無跡卡爾曼濾波算法被提出,并被一些學(xué)者應(yīng)用于數(shù)據(jù)融合中,如孟陽等設(shè)計了基于無跡卡爾曼濾波的多傳感器最優(yōu)數(shù)據(jù)融合方法,用于處理非線性特征明顯的組合導(dǎo)航系統(tǒng)的數(shù)據(jù)融合問題[24]。總的來說,擴展卡爾曼濾波和無跡卡爾曼濾波是適用于非線性系統(tǒng)狀態(tài)估計的近似估計方法,近年來在數(shù)據(jù)融合領(lǐng)域得到了學(xué)者的大量關(guān)注與研究。
3.2.4 基于綜合方法的數(shù)據(jù)融合 為了提高數(shù)據(jù)融合方法的性能,增強其適用性,數(shù)據(jù)融合方法呈現(xiàn)出不斷改進且朝著綜合方向發(fā)展的特點,具體表現(xiàn)為將幾種常見的融合方法結(jié)合起來。如為提高數(shù)據(jù)融合結(jié)果的速度和精確度,有學(xué)者將長短時記憶網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)和模糊推理與卡爾曼濾波相結(jié)合[25];或?qū)⒋植诩碚撆c支持向量機相結(jié)合[26]。此外,為提高數(shù)據(jù)融合可信度,還有學(xué)者將卡爾曼濾波原理和基于多層感知機的神經(jīng)網(wǎng)絡(luò)預(yù)測法應(yīng)用到誤差協(xié)方差估計中[27]??梢?,各種數(shù)據(jù)融合方法取長補短,發(fā)揮各自的特點與優(yōu)勢,得到了優(yōu)于單一方法的融合結(jié)果。
3.3數(shù)據(jù)融合應(yīng)用研究分析文獻發(fā)現(xiàn),數(shù)據(jù)融合應(yīng)用研究是當(dāng)前的重點與熱點,筆者通過整理數(shù)據(jù)融合應(yīng)用相關(guān)研究,運用VOSviewer軟件構(gòu)建了關(guān)鍵詞知識圖譜(見圖4)。根據(jù)圖4可知,數(shù)據(jù)融合應(yīng)用范圍十分廣泛,主要用于故障診斷、遙感、目標跟蹤、導(dǎo)航、目標檢測、交通工程、目標識別、智慧城市、狀態(tài)評估、圖像處理、機器人、產(chǎn)地鑒別、定位、三維建模等??偟膩碚f,針對傳統(tǒng)物理傳感器的數(shù)據(jù)融合應(yīng)用研究偏多,“以人為中心”的數(shù)據(jù)融合應(yīng)用研究較為缺乏。不同領(lǐng)域的數(shù)據(jù)融合應(yīng)用不近相同、各有側(cè)重,筆者對數(shù)據(jù)融合在圖情領(lǐng)域的具體應(yīng)用進行了分析。
3.3.1 驅(qū)動智慧服務(wù)深入發(fā)展 大數(shù)據(jù)時代,智慧服務(wù)的發(fā)展離不開多來源多維度數(shù)據(jù)的支撐,數(shù)據(jù)融合技術(shù)為分析處理這些數(shù)據(jù)提供了有效途徑,受到了不少專家學(xué)者的關(guān)注,如蒲泓宇等通過對政務(wù)多源信息篩選整合,構(gòu)建了政務(wù)協(xié)同網(wǎng)絡(luò),助力政務(wù)服務(wù)智慧化發(fā)展[28]。還有學(xué)者構(gòu)建了產(chǎn)業(yè)競爭情報多源數(shù)據(jù)融合框架,推動了競爭情報智慧檢索、個性化推薦、專項定制以及智慧預(yù)測四種產(chǎn)業(yè)競爭情報智慧服務(wù)方式的發(fā)展[29]。智慧化發(fā)展是當(dāng)今時代發(fā)展的趨勢,多源多維數(shù)據(jù)融合在智慧服務(wù)方面的應(yīng)用依然有很大的潛力,未來可以從各領(lǐng)域智慧服務(wù)的具體問題切入,不斷增強數(shù)據(jù)融合應(yīng)用的廣度與深度。
圖4 數(shù)據(jù)融合應(yīng)用研究關(guān)鍵詞知識圖譜
3.3.2 促進用戶行為綜合分析 數(shù)據(jù)融合在用戶行為方面的應(yīng)用主要是通過構(gòu)建用戶行為特征提取模型,預(yù)測用戶潛在需求,為用戶提供個性化、精準化服務(wù)。如孟凡會等利用深度學(xué)習(xí)算法將多源用戶痛點信息進行融合,建立了用戶痛點信息核心詞庫和指標詞庫,以達到預(yù)測用戶需求發(fā)展動向的目的[30];張繼東等在移動社交網(wǎng)絡(luò)用戶行為感知中加入了多源融合數(shù)據(jù),使得對用戶行為習(xí)慣的分析更加準確[31]。融合多源多維數(shù)據(jù)可以提高用戶行為感知的精準性,但是用戶類型不應(yīng)該局限于移動社交網(wǎng)絡(luò)人員。
3.3.3 助力信息資源創(chuàng)新建設(shè) 大數(shù)據(jù)時代各個機構(gòu)或者系統(tǒng)中存在著許多豐富且高質(zhì)量的數(shù)據(jù),如何對這些多來源多維度數(shù)據(jù)進行挖掘與使用成為資源建設(shè)的重點與難點,基于此,不少學(xué)者關(guān)注到了數(shù)據(jù)融合方法。如有學(xué)者通過判定和總結(jié)公共文化服務(wù)機構(gòu)年報文檔的格式、文本結(jié)構(gòu)和特定數(shù)據(jù)項的上下文特征,對各類年報數(shù)據(jù)建立了模板進行匹配并抽取[32];還有學(xué)者在人物專題數(shù)據(jù)庫的建設(shè)與實現(xiàn)過程中注重數(shù)據(jù)關(guān)聯(lián),融入了多源數(shù)據(jù)和自建數(shù)據(jù),推動了數(shù)據(jù)庫建設(shè)由數(shù)字化向數(shù)據(jù)化方向發(fā)展[33]??偟膩碚f,數(shù)據(jù)融合方法擁有著強大的數(shù)據(jù)分析與治理能力,為文化等信息資源的建設(shè)開辟了良好的路徑。
3.3.4 推動科學(xué)前沿精準識別 及時探測、識別科學(xué)研究主題的最新前沿有利于科研管理者進行科學(xué)決策,但目前相關(guān)研究主要是依據(jù)期刊論文展開分析,單一的數(shù)據(jù)分析結(jié)果不能全面科學(xué)的反映研究領(lǐng)域的整體狀況。因此,有學(xué)者結(jié)合傳統(tǒng)LDA算法和Word2vec詞聚類算法的優(yōu)點,提出了LDA2vec模型,注重多源文本,將論文與專利結(jié)合起來進行主題熱點分析[34];還有學(xué)者在專利、論文信息的基礎(chǔ)上,又融入輿情信息,借助情感分析法、熵值法、CRITIC法、LDA模型法綜合識別新興技術(shù)主題[35]。此外,張維沖等還增加了圖書、基金項目、行業(yè)報告、政策等多種數(shù)據(jù)源,分析多源數(shù)據(jù)的時序性、主題內(nèi)容和主題關(guān)聯(lián),以區(qū)塊鏈技術(shù)為例進行發(fā)展趨勢識別[36]。從現(xiàn)有研究來看,運用數(shù)據(jù)融合技術(shù)從多源文本中識別科學(xué)前沿,結(jié)果更加高速、全面和準確。
3.3.5 提高突發(fā)事件響應(yīng)效率 為提高突發(fā)事件快速響應(yīng)效率,降低突發(fā)事件導(dǎo)致的損失,不少學(xué)者運用數(shù)據(jù)融合方法從不同角度對突發(fā)事件進行了研究。如朱鵬等從信息瀑布溯源角度出發(fā),設(shè)計了基于時間序列與信息融合的信息瀑布溯源模型,探究突發(fā)事件信息瀑布發(fā)生發(fā)展的演進過程[37];徐緒堪等對大量異構(gòu)復(fù)雜的突發(fā)事件多源數(shù)據(jù)構(gòu)建信任函數(shù),量化多源數(shù)據(jù)的可信度和關(guān)聯(lián)度,幫助獲取明晰和精準的突發(fā)事件決策需求[38]??傊话l(fā)事件多源數(shù)據(jù)具有動態(tài)性、異構(gòu)性以及不確定性等特點,借助數(shù)據(jù)融合方法可以更好地抓取和分析數(shù)據(jù),探究多源數(shù)據(jù)的可信度,為突發(fā)事件信息瀑布源頭尋找以及科學(xué)決策等提供有價值的信息。
3.3.6 助推科學(xué)評價全面優(yōu)化 隨著大數(shù)據(jù)、人工智能等新技術(shù)的發(fā)展,科學(xué)評價越來越朝著全面化、智能化方向發(fā)展,數(shù)據(jù)融合技術(shù)也不斷地被應(yīng)用到多源、多維綜合指標的建設(shè)過程中。如宋新平等綜合財務(wù)數(shù)據(jù)和消費者評論數(shù)據(jù),建立了基于財務(wù)特征和綜合特征的競爭對手評價模型,用于解決傳統(tǒng)企業(yè)競爭對手評價研究中數(shù)據(jù)源單一和評價指標片面的問題[39]。單一的數(shù)據(jù)源已經(jīng)不能準確反映作者影響力、企業(yè)競爭對手等的全貌,也不利于評價指標的合理建立??茖W(xué)評價越來越需要多來源的綜合信息,基于數(shù)據(jù)融合方法建立評價模型具有現(xiàn)實意義與應(yīng)用價值。
通過文獻梳理可知,目前我國多源多維數(shù)據(jù)融合已經(jīng)具有一定的研究規(guī)模,研究內(nèi)容包括理論、方法與應(yīng)用三個方面。就理論研究來說,部分學(xué)者對數(shù)據(jù)融合的問題、思路與體系等給出了自己的見解;就方法研究來說,不同專業(yè)的學(xué)者對各自領(lǐng)域的數(shù)據(jù)融合方法進行了優(yōu)化與完善;就應(yīng)用研究來說,各領(lǐng)域根據(jù)具體問題通過建設(shè)平臺、設(shè)計系統(tǒng)和構(gòu)建模型等方式對數(shù)據(jù)融合技術(shù)有了不同程度的運用。其中,圖情領(lǐng)域?qū)?shù)據(jù)融合方法的使用更多體現(xiàn)在智慧服務(wù)發(fā)展、用戶行為分析、信息資源建設(shè)、科學(xué)前沿識別、突發(fā)事件響應(yīng)、科學(xué)評價優(yōu)化等方面。
當(dāng)前研究依然存在以下幾點不足:a.理論基礎(chǔ)研究相對薄弱,對相關(guān)概念缺少統(tǒng)一的定義與認識,缺乏系統(tǒng)的理論基礎(chǔ),沒有形成完整的理論體系。b.數(shù)據(jù)融合技術(shù)的發(fā)展面臨著數(shù)據(jù)異構(gòu)、數(shù)據(jù)不確定、數(shù)據(jù)異常和虛假、數(shù)據(jù)關(guān)聯(lián)等多個方面的問題,但是大多數(shù)技術(shù)研究只是集中在解決這些問題中的部分,缺少對解決所有問題數(shù)據(jù)融合算法的整體研究。c.應(yīng)用研究主要集中在“以物為中心”的數(shù)據(jù)融合上,缺少對“以人為中心”的數(shù)據(jù)融合的研究,即對物理傳感器等設(shè)備獲得的“硬數(shù)據(jù)”的融合研究較多,對來自社會網(wǎng)絡(luò)、數(shù)據(jù)庫等信息系統(tǒng)的“軟數(shù)據(jù)”或“軟硬數(shù)據(jù)”融合的研究相對較少。同時,數(shù)據(jù)融合方法在圖情領(lǐng)域的應(yīng)用研究還處于起步階段,發(fā)展不成熟,未來還有很大的研究空間。
針對上述不足,未來研究可以考慮從以下幾個方面取得進展:a.發(fā)展和完善數(shù)據(jù)融合的基礎(chǔ)理論研究,既要有針對特定應(yīng)用領(lǐng)域數(shù)據(jù)融合的特征、準則和方案等的理論架構(gòu),也要注重發(fā)展數(shù)據(jù)融合作為獨立學(xué)科廣義的融合模型與算法等系統(tǒng)理論體系。b.技術(shù)發(fā)展上注重改進和完善現(xiàn)有數(shù)據(jù)融合算法,發(fā)展多種數(shù)據(jù)融合方法結(jié)合的綜合數(shù)據(jù)融合算法,增強異構(gòu)數(shù)據(jù)融合算法的魯棒性和準確度,提高數(shù)據(jù)融合的性能。c.人可以提供物理傳感器無法獲得的有價值的信源,要加強對“以人為中心”的“軟數(shù)據(jù)”或“軟硬數(shù)據(jù)”融合的應(yīng)用研究,進一步擴展數(shù)據(jù)融合技術(shù)在圖情領(lǐng)域的應(yīng)用。d.構(gòu)建數(shù)據(jù)融合評估方法,對數(shù)據(jù)融合系統(tǒng)進行多維度分析與評價。