多源多維數(shù)據(jù)融合研究態(tài)勢：理論、方法與應(yīng)用*

2022-05-12 12:58于佳會劉佳靜鄭建明

情報雜志 2022年5期

于佳會劉佳靜鄭建明

(南京大學(xué)信息管理學(xué)院南京 210023)

大數(shù)據(jù)時代，信息爆炸式增長，數(shù)據(jù)的來源也越來越廣泛，總的來說，可以把數(shù)據(jù)來源歸納為兩大類，一類是“以物為中心”的各種傳統(tǒng)傳感器獲取的“硬數(shù)據(jù)”，另一類是“以人為中心”產(chǎn)生的“軟數(shù)據(jù)”，如社交網(wǎng)絡(luò)數(shù)據(jù)、web數(shù)據(jù)、多媒體數(shù)據(jù)等。此外，數(shù)據(jù)除來源廣外，還具有多維性特征，多維主要體現(xiàn)在數(shù)據(jù)屬性的多樣性上，即對同一對象從不同視角提取的數(shù)據(jù)，如內(nèi)容主題維度、類型維度、結(jié)構(gòu)維度、時間維度、空間維度等。

面對海量、復(fù)雜的數(shù)據(jù)，一方面難以充分挖掘出有價值的信息，另一方面單來源單維度數(shù)據(jù)難以滿足輔助科學(xué)決策的需要，多源多維數(shù)據(jù)融合發(fā)展的需求越來越迫切。與此同時，物聯(lián)網(wǎng)、云計算、人工智能等新興技術(shù)的發(fā)展，不僅提高了數(shù)據(jù)獲取與數(shù)據(jù)分析處理的能力、促進了數(shù)據(jù)融合的發(fā)展，也增加了數(shù)據(jù)融合的研究熱度。因此，本文對多源多維數(shù)據(jù)融合的研究現(xiàn)狀進行梳理與分析，以期為數(shù)據(jù)融合領(lǐng)域后續(xù)的理論與實踐研究提供參考。

1 概念界定

一般來說，數(shù)據(jù)融合和信息融合通常被視為相同的概念，只是在某些情況下，數(shù)據(jù)融合用來表示處理直接從傳感器獲得的原始數(shù)據(jù)，信息融合則用來定義處理在原始數(shù)據(jù)基礎(chǔ)上形成的信息[1]。在研究文獻中，與數(shù)據(jù)融合相關(guān)的術(shù)語通常還包括傳感器融合、多傳感器融合、知識融合、數(shù)據(jù)聚合、數(shù)據(jù)集成、數(shù)據(jù)組合等。本文在處理過程中，將數(shù)據(jù)融合和信息融合視為了相同的概念。數(shù)據(jù)融合這一概念最早是在20世紀70年代美國軍事領(lǐng)域內(nèi)提出的，之后被廣泛應(yīng)用于工業(yè)、農(nóng)業(yè)、交通、醫(yī)療等領(lǐng)域。不同領(lǐng)域?qū)?shù)據(jù)融合的理解和運用不同，因此數(shù)據(jù)融合至今依然沒有統(tǒng)一的定義。目前，被普遍采納的定義是由美國三軍組織實驗室理事聯(lián)合會(JDL)提出的，他們認為數(shù)據(jù)融合是一種對多源數(shù)據(jù)進行檢測、相關(guān)、組合和估計的多層次、多方面處理過程[2]。Hall等認為數(shù)據(jù)融合是將多種來源的數(shù)據(jù)結(jié)合起來，利用計算機進行數(shù)據(jù)處理，得到單個或單類信息源無法獲得的有價值的綜合信息[3]。結(jié)合前人觀點，筆者認為，多源多維數(shù)據(jù)融合是根據(jù)數(shù)據(jù)融合的目的和所處層次，選擇恰當(dāng)?shù)臄?shù)據(jù)融合結(jié)構(gòu)和算法，通過對描述對象不同來源不同維度的數(shù)據(jù)進行抽取、清洗、分選等預(yù)處理，提取出數(shù)據(jù)特征并進行關(guān)聯(lián)組合，從而得到更加準確完整信息的過程。數(shù)據(jù)融合的具體流程如圖1所示。

圖1 多源多維數(shù)據(jù)融合流程

2 數(shù)據(jù)來源

依據(jù)論題解讀，筆者以中國知網(wǎng)數(shù)據(jù)庫為數(shù)據(jù)統(tǒng)計源，以“數(shù)據(jù)融合”“信息融合”“多源數(shù)據(jù)”“多維數(shù)據(jù)”“多源信息”“多維信息”為檢索詞，進行“篇名”檢索，限定期刊來源為北大核心、CSSCI以及CSCD，檢索時間為2021年6月10日，檢索結(jié)果為5 511篇相關(guān)文獻。筆者對其年發(fā)文量進行統(tǒng)計，得到年發(fā)文量曲線圖，如圖2所示(注：2021年數(shù)據(jù)不完整，截至檢索日期共計162篇)。通過圖2可以看出，1992年以前，我國并不十分重視數(shù)據(jù)融合的研究；1992-1998年，數(shù)據(jù)融合相關(guān)文獻開始出現(xiàn)且年發(fā)文量逐漸增加，表明數(shù)據(jù)融合在我國開始受到關(guān)注，相關(guān)研究開始起步；1999-2009年，年發(fā)文量快速增長，并且在2009年達到階段性峰值，表明數(shù)據(jù)融合相關(guān)研究進入高速發(fā)展階段；2009年至今，數(shù)據(jù)融合相關(guān)文獻年發(fā)文量有所回落，但總體呈平穩(wěn)上升趨勢，并且年發(fā)文量數(shù)值較高，表明國內(nèi)學(xué)者對數(shù)據(jù)融合研究一直保持著較高的關(guān)注度，數(shù)據(jù)融合相關(guān)研究進入平穩(wěn)發(fā)展階段。

圖2 我國數(shù)據(jù)融合相關(guān)論文年發(fā)文量曲線

為了解國內(nèi)多源多維數(shù)據(jù)融合的最新研究進展，筆者對近5年的期刊文獻進行了分析，把檢索時間限定為2016年1月1日至2021年6月10日，共得到1 611篇文獻，對檢索結(jié)果進行預(yù)處理(去重及去除不相關(guān)等)后得到緊密相關(guān)的文獻1 565篇。本次研究運用了文獻計量學(xué)方法，借助可視化應(yīng)用軟件VOSviewer，對研究樣本進行分析。

3 多源多維數(shù)據(jù)融合相關(guān)研究

多源數(shù)據(jù)和多維數(shù)據(jù)都是數(shù)據(jù)融合的處理對象，根據(jù)不同的分類標準可以把數(shù)據(jù)劃分為多源數(shù)據(jù)和多維數(shù)據(jù)，多源數(shù)據(jù)是按照數(shù)據(jù)的來源進行劃分，多維數(shù)據(jù)的劃分標準是數(shù)據(jù)的屬性，多來源也可以看作是多維度的一種維度，從這個意義上說，多維數(shù)據(jù)的含義高于多源數(shù)據(jù)。一般來說，多源數(shù)據(jù)和多維數(shù)據(jù)之間沒有絕對的關(guān)系，單來源的數(shù)據(jù)按照不同的性質(zhì)可以劃分出多個維度，同一性質(zhì)的數(shù)據(jù)按照不同的來源也可以劃分為多個來源，且各種來源的數(shù)據(jù)大多涉及多維度處理問題，所以在處理數(shù)據(jù)時，對數(shù)據(jù)是多源還是多維的判斷通常不是絕對的。同時分析整理文獻發(fā)現(xiàn)，大多數(shù)多源多維數(shù)據(jù)融合研究主要針對多來源數(shù)據(jù)進行分析，集中于理論研究、方法研究以及應(yīng)用研究，且不少文獻把多源數(shù)據(jù)融合簡稱為數(shù)據(jù)融合，所以筆者主要從數(shù)據(jù)融合的理論、方法與應(yīng)用三個層面展開分析。

3.1數(shù)據(jù)融合理論研究大數(shù)據(jù)時代，大規(guī)模的多源多維數(shù)據(jù)關(guān)聯(lián)交叉，融合處理難度大，不少學(xué)者提出數(shù)據(jù)融合面臨著諸多困境。整體來看，融合過程在融合方式變革、融合規(guī)?？刂婆c數(shù)據(jù)存儲維護方面，融合結(jié)果在用戶隱私保護與實際應(yīng)用對接方面，融合技術(shù)在跨領(lǐng)域、跨學(xué)科、跨語言以及跨媒體融合方面存在著挑戰(zhàn)與問題[4]。從具體領(lǐng)域來看，圖書館大數(shù)據(jù)融合面臨著多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)難度大、實時大數(shù)據(jù)和歷史大數(shù)據(jù)融合復(fù)雜性大、對傳感器系統(tǒng)功能性需求大、大數(shù)據(jù)安全與開放的矛盾大等挑戰(zhàn)；高等教育發(fā)展也存在大數(shù)據(jù)融合利用效率低、利用力度不足、浪費嚴重、數(shù)據(jù)化水平低等困境。部分學(xué)者針對各領(lǐng)域不同的發(fā)展目的提出了數(shù)據(jù)融合的途徑，同時還有學(xué)者進一步對數(shù)據(jù)融合的體系建設(shè)提出了構(gòu)想，如張文萍等探討了包括數(shù)據(jù)描述模型、數(shù)據(jù)服務(wù)模型、數(shù)據(jù)管理計劃等科學(xué)數(shù)據(jù)融合體系架構(gòu)[5]；翟運開等從層次維、時間維和種類維三個角度構(gòu)建了包括精準醫(yī)療多源異構(gòu)數(shù)據(jù)融合標準體系框架[6]。

總體來說，近幾年數(shù)據(jù)融合理論相關(guān)文獻數(shù)量不多，研究主要集中在面臨問題、融合途徑以及體系建設(shè)等方面。關(guān)于數(shù)據(jù)融合困境的研究比較片面和泛化，未來還需根據(jù)發(fā)展需求與實際情況不斷剖析數(shù)據(jù)融合面臨的問題與挑戰(zhàn)；對于數(shù)據(jù)融合途徑的研究比較薄弱，無論是從整體視角還是具體應(yīng)用領(lǐng)域來看都有很大的研究空間；許多領(lǐng)域?qū)?shù)據(jù)融合體系建設(shè)的重視度不夠，且沒有形成廣義的數(shù)據(jù)融合體系?？傊?，多源多維數(shù)據(jù)融合理論不夠完善，還需在理論層面進一步展開探討，構(gòu)建完整的系統(tǒng)理論體系。

3.2數(shù)據(jù)融合方法研究受外界環(huán)境或傳感器性能等的影響，各系統(tǒng)獲得的數(shù)據(jù)存在冗余或不準確的問題，數(shù)據(jù)融合方法通過對不同形式的數(shù)據(jù)進行處理，可有效獲得準確信息。為更直觀全面地反映數(shù)據(jù)融合方法的發(fā)展現(xiàn)狀，筆者抽取與數(shù)據(jù)融合方法研究相關(guān)的文獻，運用可視化應(yīng)用軟件VOSviewer構(gòu)建關(guān)鍵詞可視化圖譜(圖3)。分析圖3可知，運用較多的方法是神經(jīng)網(wǎng)絡(luò)(BP神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí))、D-S證據(jù)理論、卡爾曼(Kalman)濾波、支持向量機(SVM)、遺傳算法、信息熵、自適應(yīng)加權(quán)、層次分析法、小波變換、粒子群算法、聚類、蟻群算法等。

3.2.1 基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合心理學(xué)家Mcculloch和數(shù)學(xué)家Pitts于1943年提出神經(jīng)網(wǎng)絡(luò)概念和M-P模型，自此拉開神經(jīng)網(wǎng)絡(luò)研究的序幕[7]。神經(jīng)網(wǎng)絡(luò)是模仿人腦進行信息處理的算法，具有強大的自學(xué)習(xí)、自適應(yīng)、非線性匹配和信息處理能力，并且隨著算法的改進，在淺層神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上，深度神經(jīng)網(wǎng)絡(luò)被提出并不斷發(fā)展。

圖3 數(shù)據(jù)融合方法相關(guān)文獻的關(guān)鍵詞知識圖譜

a.BP神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)即反向傳播神經(jīng)網(wǎng)絡(luò)，屬于淺層神經(jīng)網(wǎng)絡(luò)的一種，通常由一個輸入層、一個隱藏層和一個輸出層組成，多層的網(wǎng)絡(luò)體系結(jié)構(gòu)使得信息的輸出更加準確。如有學(xué)者設(shè)計了一款?；穫}庫巡邏機器人,在對收集的泄露危化品濃度、倉庫內(nèi)環(huán)境溫度和濕度數(shù)據(jù)進行拉依達去噪、歸一化后利用BP神經(jīng)網(wǎng)絡(luò)進行融合輸出，大幅度提高了機器人報警的準確性和可靠性[8]。由于外界環(huán)境的復(fù)雜性以及BP神經(jīng)網(wǎng)絡(luò)自身的缺陷，越來越多的學(xué)者借助優(yōu)化算法，如改進蟻群算法、改進粒子群算法、啟發(fā)螢火蟲算法、改進煙花算法等設(shè)計BP神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)融合算法，優(yōu)化了BP神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)、權(quán)值和閾值，有效地減少了冗余數(shù)據(jù)傳輸，提高了融合的精度和收斂速度，改善了數(shù)據(jù)融合算法的性能。

b.深度學(xué)習(xí)。深度學(xué)習(xí)由淺層神經(jīng)網(wǎng)絡(luò)發(fā)展而來，是深度神經(jīng)網(wǎng)絡(luò)的統(tǒng)稱，卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中重要的算法結(jié)構(gòu)。不同于淺層神經(jīng)網(wǎng)絡(luò)，深度神經(jīng)網(wǎng)絡(luò)擁有多個隱藏層，且較低層的隱藏層輸出可以作為較高層隱藏層的輸入[9]。深度學(xué)習(xí)具有更強的特征表示能力，不少學(xué)者將其運用到了數(shù)據(jù)融合算法中。如馬永軍等提出了以卷積神經(jīng)網(wǎng)絡(luò)模型為核心的無線傳感器網(wǎng)絡(luò)數(shù)據(jù)融合算法，有效地提高了數(shù)據(jù)采集精度[10]；張輝等提出了一種基于深度神經(jīng)決策森林(DNDF)的數(shù)據(jù)融合方法，有效提取了多維數(shù)據(jù)的關(guān)鍵特征，解決了體域網(wǎng)中多傳感器數(shù)據(jù)采集過程中數(shù)據(jù)冗余大、特征信息模糊的問題[11]?？偟膩碚f，與傳統(tǒng)數(shù)據(jù)融合算法相比，深度學(xué)習(xí)可以有效地改善高噪聲、多維度、大規(guī)模、結(jié)構(gòu)復(fù)雜數(shù)據(jù)的融合效果。

3.2.2 基于統(tǒng)計推理的數(shù)據(jù)融合

a.D-S證據(jù)理論。D-S證據(jù)理論于1967年被Dempster提出[12]，后又經(jīng)Shafer完善推廣[13]，是一種不確定性推理的方法，能夠高效的處理復(fù)雜和不確定信息，在數(shù)據(jù)融合領(lǐng)域發(fā)揮著重要的作用。有學(xué)者從維修性數(shù)據(jù)源中挖掘樣本量和分布特征等信息構(gòu)建證據(jù)，采用D-S理論合成證據(jù)作為權(quán)重，建立了維修性多源數(shù)據(jù)融合模型[14]；還有學(xué)者針對海量數(shù)據(jù)節(jié)點產(chǎn)生和傳輸中的不確定性，提出在物聯(lián)網(wǎng)節(jié)點加權(quán)的基礎(chǔ)上用D-S證據(jù)理論對數(shù)據(jù)進行融合[15]。D-S證據(jù)理論可以很好地表達和處理不確定信息，然而在挖掘多源數(shù)據(jù)特征合成證據(jù)構(gòu)建數(shù)據(jù)融合模型時，需要特別注意沖突數(shù)據(jù)的融合問題，注重考慮合成規(guī)則的適用性、運算量的適中性以及融合結(jié)果的正確性等。

b.支持向量機理論。支持向量機是Vapnik于20世紀90年代提出的一種算法[16]，以統(tǒng)計學(xué)習(xí)理論為基礎(chǔ)，從線性可分的情況下尋找最優(yōu)分類面發(fā)展而來，主要用來進行分類和回歸分析，在數(shù)據(jù)融合中有著一定的運用。如蔡世清等以支持向量機為學(xué)習(xí)機來預(yù)測多傳感器信任度，使得提出的多傳感器數(shù)據(jù)融合算法具有更高的預(yù)測精度和收斂速度[17]；鄭毅等提出基于多任務(wù)支持向量機的多源健康數(shù)據(jù)融合方法，有效地融合了具有不同數(shù)據(jù)源個數(shù)的多源數(shù)據(jù)，且該方法具有較好的分類性能與結(jié)構(gòu)稀疏性[18]。總之，支持向量機分類和回歸分析的精確度較高，提高了數(shù)據(jù)融合算法的性能。

3.2.3 基于估計理論的數(shù)據(jù)融合估計理論方法可以分為線性估計技術(shù)與非線性估計技術(shù)，為復(fù)雜的數(shù)據(jù)融合過程提供了強大的方法支撐。其中，線性估計技術(shù)包括卡爾曼濾波、小波變換、最小二乘等，經(jīng)典的非線性估計技術(shù)有擴展卡爾曼濾波(EKF)和無跡卡爾曼濾波(UKF)等。

a.線性估計技術(shù)。卡爾曼濾波方法是Kalman在1960 年提出的[19]，是一種對信息系統(tǒng)當(dāng)前的狀態(tài)進行最優(yōu)估計的算法，一些學(xué)者用其幫助解決數(shù)據(jù)融合系統(tǒng)中信息誤差的估計問題。如段杰等利用卡爾曼濾波算法對農(nóng)業(yè)大棚環(huán)境參數(shù)進行數(shù)據(jù)級的融合處理，去除了數(shù)據(jù)采集中噪聲的影響，使得測量的結(jié)果更加穩(wěn)定、融合精度更高[20]；楊丹等采用卡爾曼濾波算法，設(shè)計了融合陀螺儀、加速度計和磁強計多種傳感器信息的機器人姿態(tài)測量系統(tǒng)，實現(xiàn)了對機器人實時姿態(tài)的精確測量[21]?？柭鼮V波算法具有較強的容錯能力，但也存在著系統(tǒng)參數(shù)數(shù)量影響計算效率、不能處理非線性問題、對狀態(tài)空間模型的精準度依賴較高的不足，要想進一步提高融合精度，需不斷優(yōu)化和改進卡爾曼濾波算法。

b.非線性估計技術(shù)?？柭鼮V波算法無法對非線性系統(tǒng)的狀態(tài)進行估計，為解決這一問題，有學(xué)者提出了擴展卡爾曼濾波算法[22]，該算法一經(jīng)提出便得到了廣泛應(yīng)用。如為獲取準確、可靠的航向和姿態(tài)信息實現(xiàn)非線性系統(tǒng)的自主導(dǎo)航，盧艷軍等采用擴展卡爾曼濾波算法進行姿態(tài)角和航偏角估計[23]。然而，對非線性強度高的系統(tǒng)狀態(tài)估計時，擴展卡爾曼濾波算法存在較大的誤差，于是精度更高、收斂性更好的無跡卡爾曼濾波算法被提出，并被一些學(xué)者應(yīng)用于數(shù)據(jù)融合中，如孟陽等設(shè)計了基于無跡卡爾曼濾波的多傳感器最優(yōu)數(shù)據(jù)融合方法，用于處理非線性特征明顯的組合導(dǎo)航系統(tǒng)的數(shù)據(jù)融合問題[24]。總的來說，擴展卡爾曼濾波和無跡卡爾曼濾波是適用于非線性系統(tǒng)狀態(tài)估計的近似估計方法，近年來在數(shù)據(jù)融合領(lǐng)域得到了學(xué)者的大量關(guān)注與研究。

3.2.4 基于綜合方法的數(shù)據(jù)融合為了提高數(shù)據(jù)融合方法的性能，增強其適用性，數(shù)據(jù)融合方法呈現(xiàn)出不斷改進且朝著綜合方向發(fā)展的特點，具體表現(xiàn)為將幾種常見的融合方法結(jié)合起來。如為提高數(shù)據(jù)融合結(jié)果的速度和精確度，有學(xué)者將長短時記憶網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)和模糊推理與卡爾曼濾波相結(jié)合[25]；或?qū)⒋植诩碚撆c支持向量機相結(jié)合[26]。此外，為提高數(shù)據(jù)融合可信度，還有學(xué)者將卡爾曼濾波原理和基于多層感知機的神經(jīng)網(wǎng)絡(luò)預(yù)測法應(yīng)用到誤差協(xié)方差估計中[27]?？梢?，各種數(shù)據(jù)融合方法取長補短，發(fā)揮各自的特點與優(yōu)勢，得到了優(yōu)于單一方法的融合結(jié)果。

3.3數(shù)據(jù)融合應(yīng)用研究分析文獻發(fā)現(xiàn)，數(shù)據(jù)融合應(yīng)用研究是當(dāng)前的重點與熱點，筆者通過整理數(shù)據(jù)融合應(yīng)用相關(guān)研究，運用VOSviewer軟件構(gòu)建了關(guān)鍵詞知識圖譜(見圖4)。根據(jù)圖4可知，數(shù)據(jù)融合應(yīng)用范圍十分廣泛，主要用于故障診斷、遙感、目標跟蹤、導(dǎo)航、目標檢測、交通工程、目標識別、智慧城市、狀態(tài)評估、圖像處理、機器人、產(chǎn)地鑒別、定位、三維建模等?？偟膩碚f，針對傳統(tǒng)物理傳感器的數(shù)據(jù)融合應(yīng)用研究偏多，“以人為中心”的數(shù)據(jù)融合應(yīng)用研究較為缺乏。不同領(lǐng)域的數(shù)據(jù)融合應(yīng)用不近相同、各有側(cè)重，筆者對數(shù)據(jù)融合在圖情領(lǐng)域的具體應(yīng)用進行了分析。

3.3.1 驅(qū)動智慧服務(wù)深入發(fā)展大數(shù)據(jù)時代，智慧服務(wù)的發(fā)展離不開多來源多維度數(shù)據(jù)的支撐，數(shù)據(jù)融合技術(shù)為分析處理這些數(shù)據(jù)提供了有效途徑，受到了不少專家學(xué)者的關(guān)注，如蒲泓宇等通過對政務(wù)多源信息篩選整合，構(gòu)建了政務(wù)協(xié)同網(wǎng)絡(luò)，助力政務(wù)服務(wù)智慧化發(fā)展[28]。還有學(xué)者構(gòu)建了產(chǎn)業(yè)競爭情報多源數(shù)據(jù)融合框架，推動了競爭情報智慧檢索、個性化推薦、專項定制以及智慧預(yù)測四種產(chǎn)業(yè)競爭情報智慧服務(wù)方式的發(fā)展[29]。智慧化發(fā)展是當(dāng)今時代發(fā)展的趨勢，多源多維數(shù)據(jù)融合在智慧服務(wù)方面的應(yīng)用依然有很大的潛力，未來可以從各領(lǐng)域智慧服務(wù)的具體問題切入，不斷增強數(shù)據(jù)融合應(yīng)用的廣度與深度。

圖4 數(shù)據(jù)融合應(yīng)用研究關(guān)鍵詞知識圖譜

3.3.2 促進用戶行為綜合分析數(shù)據(jù)融合在用戶行為方面的應(yīng)用主要是通過構(gòu)建用戶行為特征提取模型，預(yù)測用戶潛在需求，為用戶提供個性化、精準化服務(wù)。如孟凡會等利用深度學(xué)習(xí)算法將多源用戶痛點信息進行融合，建立了用戶痛點信息核心詞庫和指標詞庫，以達到預(yù)測用戶需求發(fā)展動向的目的[30]；張繼東等在移動社交網(wǎng)絡(luò)用戶行為感知中加入了多源融合數(shù)據(jù)，使得對用戶行為習(xí)慣的分析更加準確[31]。融合多源多維數(shù)據(jù)可以提高用戶行為感知的精準性，但是用戶類型不應(yīng)該局限于移動社交網(wǎng)絡(luò)人員。

3.3.3 助力信息資源創(chuàng)新建設(shè) 大數(shù)據(jù)時代各個機構(gòu)或者系統(tǒng)中存在著許多豐富且高質(zhì)量的數(shù)據(jù)，如何對這些多來源多維度數(shù)據(jù)進行挖掘與使用成為資源建設(shè)的重點與難點，基于此，不少學(xué)者關(guān)注到了數(shù)據(jù)融合方法。如有學(xué)者通過判定和總結(jié)公共文化服務(wù)機構(gòu)年報文檔的格式、文本結(jié)構(gòu)和特定數(shù)據(jù)項的上下文特征，對各類年報數(shù)據(jù)建立了模板進行匹配并抽取[32]；還有學(xué)者在人物專題數(shù)據(jù)庫的建設(shè)與實現(xiàn)過程中注重數(shù)據(jù)關(guān)聯(lián)，融入了多源數(shù)據(jù)和自建數(shù)據(jù)，推動了數(shù)據(jù)庫建設(shè)由數(shù)字化向數(shù)據(jù)化方向發(fā)展[33]?？偟膩碚f，數(shù)據(jù)融合方法擁有著強大的數(shù)據(jù)分析與治理能力，為文化等信息資源的建設(shè)開辟了良好的路徑。

3.3.4 推動科學(xué)前沿精準識別及時探測、識別科學(xué)研究主題的最新前沿有利于科研管理者進行科學(xué)決策，但目前相關(guān)研究主要是依據(jù)期刊論文展開分析，單一的數(shù)據(jù)分析結(jié)果不能全面科學(xué)的反映研究領(lǐng)域的整體狀況。因此，有學(xué)者結(jié)合傳統(tǒng)LDA算法和Word2vec詞聚類算法的優(yōu)點，提出了LDA2vec模型，注重多源文本，將論文與專利結(jié)合起來進行主題熱點分析[34]；還有學(xué)者在專利、論文信息的基礎(chǔ)上，又融入輿情信息，借助情感分析法、熵值法、CRITIC法、LDA模型法綜合識別新興技術(shù)主題[35]。此外，張維沖等還增加了圖書、基金項目、行業(yè)報告、政策等多種數(shù)據(jù)源，分析多源數(shù)據(jù)的時序性、主題內(nèi)容和主題關(guān)聯(lián)，以區(qū)塊鏈技術(shù)為例進行發(fā)展趨勢識別[36]。從現(xiàn)有研究來看，運用數(shù)據(jù)融合技術(shù)從多源文本中識別科學(xué)前沿，結(jié)果更加高速、全面和準確。

3.3.5 提高突發(fā)事件響應(yīng)效率為提高突發(fā)事件快速響應(yīng)效率，降低突發(fā)事件導(dǎo)致的損失，不少學(xué)者運用數(shù)據(jù)融合方法從不同角度對突發(fā)事件進行了研究。如朱鵬等從信息瀑布溯源角度出發(fā)，設(shè)計了基于時間序列與信息融合的信息瀑布溯源模型，探究突發(fā)事件信息瀑布發(fā)生發(fā)展的演進過程[37]；徐緒堪等對大量異構(gòu)復(fù)雜的突發(fā)事件多源數(shù)據(jù)構(gòu)建信任函數(shù)，量化多源數(shù)據(jù)的可信度和關(guān)聯(lián)度，幫助獲取明晰和精準的突發(fā)事件決策需求[38]?？傊话l(fā)事件多源數(shù)據(jù)具有動態(tài)性、異構(gòu)性以及不確定性等特點，借助數(shù)據(jù)融合方法可以更好地抓取和分析數(shù)據(jù)，探究多源數(shù)據(jù)的可信度，為突發(fā)事件信息瀑布源頭尋找以及科學(xué)決策等提供有價值的信息。

3.3.6 助推科學(xué)評價全面優(yōu)化隨著大數(shù)據(jù)、人工智能等新技術(shù)的發(fā)展，科學(xué)評價越來越朝著全面化、智能化方向發(fā)展，數(shù)據(jù)融合技術(shù)也不斷地被應(yīng)用到多源、多維綜合指標的建設(shè)過程中。如宋新平等綜合財務(wù)數(shù)據(jù)和消費者評論數(shù)據(jù)，建立了基于財務(wù)特征和綜合特征的競爭對手評價模型，用于解決傳統(tǒng)企業(yè)競爭對手評價研究中數(shù)據(jù)源單一和評價指標片面的問題[39]。單一的數(shù)據(jù)源已經(jīng)不能準確反映作者影響力、企業(yè)競爭對手等的全貌，也不利于評價指標的合理建立?？茖W(xué)評價越來越需要多來源的綜合信息，基于數(shù)據(jù)融合方法建立評價模型具有現(xiàn)實意義與應(yīng)用價值。

4 總結(jié)與討論

通過文獻梳理可知，目前我國多源多維數(shù)據(jù)融合已經(jīng)具有一定的研究規(guī)模，研究內(nèi)容包括理論、方法與應(yīng)用三個方面。就理論研究來說，部分學(xué)者對數(shù)據(jù)融合的問題、思路與體系等給出了自己的見解；就方法研究來說，不同專業(yè)的學(xué)者對各自領(lǐng)域的數(shù)據(jù)融合方法進行了優(yōu)化與完善；就應(yīng)用研究來說，各領(lǐng)域根據(jù)具體問題通過建設(shè)平臺、設(shè)計系統(tǒng)和構(gòu)建模型等方式對數(shù)據(jù)融合技術(shù)有了不同程度的運用。其中，圖情領(lǐng)域?qū)?shù)據(jù)融合方法的使用更多體現(xiàn)在智慧服務(wù)發(fā)展、用戶行為分析、信息資源建設(shè)、科學(xué)前沿識別、突發(fā)事件響應(yīng)、科學(xué)評價優(yōu)化等方面。

當(dāng)前研究依然存在以下幾點不足：a.理論基礎(chǔ)研究相對薄弱，對相關(guān)概念缺少統(tǒng)一的定義與認識，缺乏系統(tǒng)的理論基礎(chǔ)，沒有形成完整的理論體系。b.數(shù)據(jù)融合技術(shù)的發(fā)展面臨著數(shù)據(jù)異構(gòu)、數(shù)據(jù)不確定、數(shù)據(jù)異常和虛假、數(shù)據(jù)關(guān)聯(lián)等多個方面的問題，但是大多數(shù)技術(shù)研究只是集中在解決這些問題中的部分，缺少對解決所有問題數(shù)據(jù)融合算法的整體研究。c.應(yīng)用研究主要集中在“以物為中心”的數(shù)據(jù)融合上，缺少對“以人為中心”的數(shù)據(jù)融合的研究，即對物理傳感器等設(shè)備獲得的“硬數(shù)據(jù)”的融合研究較多，對來自社會網(wǎng)絡(luò)、數(shù)據(jù)庫等信息系統(tǒng)的“軟數(shù)據(jù)”或“軟硬數(shù)據(jù)”融合的研究相對較少。同時，數(shù)據(jù)融合方法在圖情領(lǐng)域的應(yīng)用研究還處于起步階段，發(fā)展不成熟，未來還有很大的研究空間。

針對上述不足，未來研究可以考慮從以下幾個方面取得進展：a.發(fā)展和完善數(shù)據(jù)融合的基礎(chǔ)理論研究，既要有針對特定應(yīng)用領(lǐng)域數(shù)據(jù)融合的特征、準則和方案等的理論架構(gòu)，也要注重發(fā)展數(shù)據(jù)融合作為獨立學(xué)科廣義的融合模型與算法等系統(tǒng)理論體系。b.技術(shù)發(fā)展上注重改進和完善現(xiàn)有數(shù)據(jù)融合算法，發(fā)展多種數(shù)據(jù)融合方法結(jié)合的綜合數(shù)據(jù)融合算法，增強異構(gòu)數(shù)據(jù)融合算法的魯棒性和準確度，提高數(shù)據(jù)融合的性能。c.人可以提供物理傳感器無法獲得的有價值的信源，要加強對“以人為中心”的“軟數(shù)據(jù)”或“軟硬數(shù)據(jù)”融合的應(yīng)用研究，進一步擴展數(shù)據(jù)融合技術(shù)在圖情領(lǐng)域的應(yīng)用。d.構(gòu)建數(shù)據(jù)融合評估方法，對數(shù)據(jù)融合系統(tǒng)進行多維度分析與評價。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

多源多維數(shù)據(jù)融合研究態(tài)勢：理論、方法與應(yīng)用*

1 概念界定

2 數(shù)據(jù)來源

3 多源多維數(shù)據(jù)融合相關(guān)研究

4 總結(jié)與討論

多源多維數(shù)據(jù)融合研究態(tài)勢：理論、方法與應(yīng)用*