張軍歡 龐 正 張 輝
(1.北京航空航天大學(xué)經(jīng)濟(jì)管理學(xué)院,北京 100191;2.北京航空航天大學(xué)計算機(jī)學(xué)院,北京 100191)
數(shù)據(jù)是一種重要的科技資源。近年來,隨著數(shù)據(jù)密集型科研活動快速發(fā)展,數(shù)據(jù)管理的重要性日益上升,進(jìn)而對科學(xué)數(shù)據(jù)管理和科學(xué)數(shù)據(jù)知識庫提出了新的要求[1],需要考慮更加多源化的數(shù)據(jù)進(jìn)行知識庫的構(gòu)建。目前,大數(shù)據(jù)應(yīng)用和智能決策的難點(diǎn)之一是多源異構(gòu)數(shù)據(jù)融合問題,雖然在文化資源[2]、書目資源[3]等領(lǐng)域已經(jīng)有了一些研究,但其理論部分依然匱乏,因而在已有理論基礎(chǔ)上做進(jìn)一步的探索是非常必要的[4]。在大數(shù)據(jù)時代,綜合利用和挖掘多源異質(zhì)異構(gòu)數(shù)據(jù)能衍生出新的規(guī)律和價值,其實(shí)現(xiàn)基礎(chǔ)就是數(shù)據(jù)聚合。數(shù)據(jù)聚合是一種價值鏈活動,是將信息收集并標(biāo)識到更高級別的信息組中的過程[5]。該過程主要需要處理兩個方面的問題:一是如何構(gòu)建更高級別信息組的結(jié)構(gòu),在本文中更高級別的信息組是數(shù)據(jù)倉庫中的數(shù)據(jù)表;二是如何將多種低層次信息收集并標(biāo)識到高級別信息組中,在本文中多個異構(gòu)數(shù)據(jù)源屬于多個低層次信息收集源,該問題便轉(zhuǎn)化為多源異構(gòu)數(shù)據(jù)的整合寫入問題。
對于數(shù)據(jù)表結(jié)構(gòu)的構(gòu)建,已有很多模式匹配的解決方案[6],一般可以利用表中實(shí)例或?qū)傩悦麃斫鉀Q數(shù)據(jù)表結(jié)構(gòu)的構(gòu)建問題[7],在模式信息不可用或不足以用于模式匹配時,查找實(shí)例的對應(yīng)關(guān)系是一種較好的方法[8]?;趯?shí)例的模式匹配方法對實(shí)例進(jìn)行語法和語義分析,并確定屬性之間的對應(yīng)關(guān)系[9]。現(xiàn)在已有N-gram、正則表達(dá)式、潛在語義分析(LSA)、WordNet、同義詞庫等基于實(shí)例的模式匹配方法,但這些方法通常對匹配數(shù)據(jù)的實(shí)例值有一定限制。而對于數(shù)據(jù)的整合寫入問題,通常是使用ETL工具來解決的??墒乾F(xiàn)有ETL工具中的ETL流程是利用不同的特定語言定義的[10],缺乏通用理論建模方面的研究,如Santos等[11-13]提出了一種使用關(guān)系代數(shù)建模的方法,但該方法只針對單一數(shù)據(jù)表寫入數(shù)據(jù)倉庫的問題,缺少對于異構(gòu)數(shù)據(jù)整合過程的建模。
目前,在多源異構(gòu)數(shù)據(jù)聚合過程的理論建模研究較為零散,更多的是關(guān)注局部問題的解決,缺少專門針對多源異構(gòu)數(shù)據(jù)聚合整個過程的理論建模研究。本文首先對文獻(xiàn)[8]中提出的一種基于Word2Vec[14-16]的語義比較模式匹配方法進(jìn)行擴(kuò)充,在其基礎(chǔ)上加入人工規(guī)則使得該模型可以進(jìn)行實(shí)例值非字符串屬性的模式匹配,進(jìn)而能夠在更大范圍內(nèi)利用模式匹配來輔助數(shù)據(jù)表結(jié)構(gòu)的構(gòu)建。在數(shù)據(jù)整合過程中,本文借鑒了文獻(xiàn)[11]—文獻(xiàn)[13]關(guān)系代數(shù)建模數(shù)據(jù)集成過程的思路,使用關(guān)系代數(shù)對二源異構(gòu)數(shù)據(jù)的整合過程進(jìn)行建模,從而為多源異構(gòu)數(shù)據(jù)的聚合過程提供理論上的指導(dǎo)。
本文在第1節(jié)中詳細(xì)介紹了構(gòu)建二源異構(gòu)數(shù)據(jù)聚合模型的過程;在第2節(jié)中介紹了使用論文期刊數(shù)據(jù)和專利數(shù)據(jù)對模型的實(shí)現(xiàn)過程,并結(jié)合人工判斷對模型結(jié)果進(jìn)行初步驗(yàn)證;在第3節(jié)中得出相關(guān)的結(jié)論。
建模過程主要使用關(guān)系代數(shù)[17-18]的形式來表達(dá),并參考文獻(xiàn)[11]—文獻(xiàn)[13] 中的方法,結(jié)合多源數(shù)據(jù)整合任務(wù)中常用的數(shù)據(jù)清洗、調(diào)解與整合的方法。數(shù)據(jù)清洗是處理數(shù)據(jù)中的異常值、缺失值等問題,數(shù)據(jù)調(diào)解是統(tǒng)一數(shù)據(jù)主鍵形式的過程,數(shù)據(jù)整合是多源數(shù)據(jù)寫入到同一數(shù)據(jù)倉庫的過程。本文采用期刊論文和專利兩種不同來源的異構(gòu)數(shù)據(jù)來完成聚合任務(wù),可將兩個數(shù)據(jù)源分別記作Sp和Spa。聚合多源異構(gòu)數(shù)據(jù)首先需要對這些數(shù)據(jù)進(jìn)行清洗,然后再利用屬性匹配的方法構(gòu)建聚合完成后的表(以下稱為“目標(biāo)表”)的結(jié)構(gòu)[8],最后通過數(shù)據(jù)調(diào)解與整合將異構(gòu)數(shù)據(jù)寫入目標(biāo)表中。二源異構(gòu)數(shù)據(jù)聚合的流程如圖1所示。
圖1 二源異構(gòu)數(shù)據(jù)聚合流程
從Sp和Spa兩個數(shù)據(jù)源中提取并經(jīng)過清洗后得到的數(shù)據(jù)source_dimdataSp和source_dimdataSpa分別定義如下。
從數(shù)據(jù)源Sp中提取的數(shù)據(jù)表為:
其中,BKSp為數(shù)據(jù)源Sp中數(shù)據(jù)表的主鍵,Attp1,… ,Attpx表示數(shù)據(jù)源Sp中數(shù)據(jù)表的非主鍵屬性,p1,p2,…,px∈N+。
從數(shù)據(jù)源Spa中提取的數(shù)據(jù)表為:
其中,BKSpa為數(shù)據(jù)源Spa中數(shù)據(jù)表的主鍵,Attpa1,… ,Attpaz表示數(shù)據(jù)源Spa中數(shù)據(jù)表的非主鍵屬性,pa1,pa2,…,paz∈N+。
由于在進(jìn)行屬性匹配時不用關(guān)注某個屬性是否為主鍵,為敘述方便,本節(jié)對source_dimdataSp和source_dimdataSpa兩張表的結(jié)構(gòu)重新進(jìn)行如下標(biāo)記(后文中仍使用1.1節(jié)中定義的標(biāo)記方式):
記表source_dimdataSp為:
其中,Attp1,… ,AttpX為該數(shù)據(jù)表的全部X個屬性,并且假設(shè)該表中共有n個元組,則第i個屬性Attpi的值向量記為:
記表source_dimdataSpa為:
其中,Attpa1,… ,AttpaZ為該數(shù)據(jù)表的全部Z個屬性,并且假設(shè)該表中共有m個元組,則第i個屬性Attpi的值向量記為:
假設(shè)兩表中所有值均為字符串,以數(shù)據(jù)表source_dimdataSp的任意一個屬性Attpi為例,使用Word2Vec將表中任意屬性Attpi值向量的每個分量(實(shí)例值)轉(zhuǎn)換為數(shù)值向量,若實(shí)例值為空則置為零向量,之后加權(quán)求和得到屬性的數(shù)值向量VApi,記為:
其中,Kj為第j個實(shí)例值在中出現(xiàn)的次數(shù),n為表中元組數(shù)。
利用該轉(zhuǎn)換方法對兩張表中所有屬性進(jìn)行操作,則可以得到論文屬性Attpi的數(shù)值向量VApi和專利屬性Attpai對應(yīng)的數(shù)值向量VApai。
記Attpi和Attpaj之間的余弦相似度為:
其中,VApi和VApaj為向量VApi和VApaj的 二范數(shù)。
設(shè)閾值為a,則當(dāng)Si,j>a時認(rèn)為屬性Attpi與屬性Attpaj匹配,可以考慮在目標(biāo)數(shù)據(jù)表中將這兩個屬性合并為一個屬性。使用該方法計算出兩張表之間的匹配屬性對,以此為依據(jù)構(gòu)建目標(biāo)數(shù)據(jù)表的結(jié)構(gòu)。
鑒于實(shí)例值不為字符串且屬性的實(shí)例值通常使用字母、數(shù)字以一定規(guī)則編碼而成的屬性,稱之為編碼類屬性。此類屬性結(jié)構(gòu)精簡、信息密度大,并且缺少能夠展現(xiàn)其語義的語料,難以通過Word2Vec等算法得到其對應(yīng)數(shù)值向量。為解決這種情況,可以使用人工制定規(guī)則的方式進(jìn)行處理。人工制定規(guī)則的具體方法需要根據(jù)實(shí)際情況而定。本文涉及的具體情形及制定的相應(yīng)規(guī)將在第2.2節(jié)中介紹,在這里提供一種思想以供參考。
假定此處考慮的數(shù)據(jù)均有一定的含義,由于編碼類屬性的語義通常蘊(yùn)含在其特定格式中,故要制定的規(guī)則即為格式的規(guī)則,識別出擁有相似格式的屬性將得到匹配。
將兩種方式結(jié)合,構(gòu)建出具有相同關(guān)系模式的兩張目標(biāo)表dimension_current和dimension_history,定義如下:
其中,SK為目標(biāo)數(shù)據(jù)倉庫W中數(shù)據(jù)表的主鍵,A1,… ,Am為表中的非主鍵屬性,m∈N+,并且有:
由于本文僅涉及目標(biāo)數(shù)據(jù)倉庫中的這兩張表,忽略了其他可能存在的無關(guān)數(shù)據(jù)表。dimension_current用于記錄數(shù)據(jù)倉庫W中的最新數(shù)據(jù),dimension_history用于記錄數(shù)據(jù)倉庫W中的歷史數(shù)據(jù),DateFrom用于記錄數(shù)據(jù)采集的時間(在下文中也使用Start_Date表示),DateTo用于記錄數(shù)據(jù)在dimension_current表中的最后時間(在下文中也使用End_Date表示)。
1.3.1 調(diào)解階段
由于從Sp,Spa中提取的數(shù)據(jù)之間主鍵的不同會影響目標(biāo)數(shù)據(jù)倉庫W中關(guān)系模式的統(tǒng)一,通過數(shù)據(jù)調(diào)解將原關(guān)系模式的主鍵映射為數(shù)據(jù)倉庫中目標(biāo)關(guān)系模式的主鍵。首先需要人工制定一張調(diào)解輔助表conc_dimtable。該表定義為:
將兩數(shù)據(jù)表分別與調(diào)節(jié)輔助表conc_dimtable進(jìn)行自然連接運(yùn)算:
Temp1p和Temp1pa中的元組,可稱之為匹配成功的數(shù)據(jù)。對于這些數(shù)據(jù),通過投影運(yùn)算分別提取所需屬性:
此外,某些原因?qū)е聅ource_dimdataSp、source_dimdataSpa中出現(xiàn)了新的主鍵或主鍵屬性,使得某些數(shù)據(jù)的主鍵在調(diào)解輔助表中不存在。這些數(shù)據(jù)無法出現(xiàn)在Temp1p和Temp1pa中,稱之為未匹配成功的數(shù)據(jù)。首先提取這些數(shù)據(jù):
之后通過人工增加conc_dimtable中元組的處理方式,使得new_dimdataSp、new_dimdataSpa能夠與conc_dimtable表連接成功,進(jìn)而將這部分?jǐn)?shù)據(jù)分別寫入conc_dimdataSp、conc_dimdataSpa中 。
1.3.2 整合階段
在dimension_current中可能已經(jīng)存在一部分?jǐn)?shù)據(jù)與新數(shù)據(jù)有所重復(fù),因此整合階段的任務(wù)可以分為兩種。一是使用最新提取的數(shù)據(jù)對dimension_current中的數(shù)據(jù)進(jìn)行更新,稱之為更新數(shù)據(jù)任務(wù);二是將目標(biāo)數(shù)據(jù)倉庫中不存在的新數(shù)據(jù)寫入dimension_current中,稱之為寫入新數(shù)據(jù)任務(wù)。兩個任務(wù)的過程有所不同。
(1)更新數(shù)據(jù)
首先識別需要被更新的數(shù)據(jù)old_data:
之后把old_data從dimension_current表移入dimension_history中:
其中,today()指更新數(shù)據(jù)當(dāng)天的日期,使用ε函數(shù)標(biāo)記為屬性End_Date賦值為today()-1(在下文中同理,不再贅述)。
假設(shè)按照數(shù)據(jù)源Sp和Spa的順序依次進(jìn)行數(shù)據(jù)更新。
使用數(shù)據(jù)源Sp的數(shù)據(jù)對dimension_current中屬性更新:
使用數(shù)據(jù)源Spa的數(shù)據(jù)對dimension_current中屬性Attpa1,… ,Attpaz更新:
(2)寫入新數(shù)據(jù)
該任務(wù)仍假設(shè)按數(shù)據(jù)源Sp和Spa的順序進(jìn)行處理,具體過程如下。
對于數(shù)據(jù)源Sp,首先從conc_dimdataSp中識別出dimension_current中不存在的新數(shù)據(jù):
由于從數(shù)據(jù)源Sp中提取的屬性并不是全部的A1, … ,Am屬性,需要增加除屬性Attp1,… ,Attpx外在A1, … ,Am中的所有屬性以及End_Date屬性并將其設(shè)置為空值:
最后將新數(shù)據(jù)寫入dimension_current中:
對于數(shù)據(jù)源Spa,需要從conc_dimdataSpa中識別出dimension_current中不存在的新數(shù)據(jù):
與Sp中的處理類似,增加除屬性Attpa1,… ,Attpaz外在A1, … ,Am中的所有屬性并將其設(shè)置為空值:
最后將新數(shù)據(jù)寫入:
本文將使用論文數(shù)據(jù)和專利數(shù)據(jù)來實(shí)現(xiàn)以上建模過程。
本文使用的數(shù)據(jù)已經(jīng)過清洗。其中,論文數(shù)據(jù)source_dimdataSp以XML格式存儲,各葉節(jié)點(diǎn)含義如表1所示,其樹結(jié)構(gòu)如圖2所示。由于數(shù)據(jù)中fundlist節(jié)點(diǎn)均為空值,在下文中計算目標(biāo)表結(jié)構(gòu)時不再考慮,但為不破壞數(shù)據(jù)的完整性,在最終目標(biāo)表結(jié)構(gòu)中仍會體現(xiàn)出來。專利數(shù)據(jù)source_dimdataSpa以EXCEL文檔的形式存儲,其屬性及含義如表2所示,數(shù)據(jù)中摘要屬性均為空值,處理方式與論文數(shù)據(jù)中空值節(jié)點(diǎn)的處理相同。
表2 專利數(shù)據(jù)屬性含義
圖2 論文數(shù)據(jù)結(jié)構(gòu)
表1 論文數(shù)據(jù)節(jié)點(diǎn)含義
論文期刊數(shù)據(jù)和專利數(shù)據(jù)中同時包含純字符串屬性和編碼類屬性,在2.2.1中采用第1.2節(jié)模型中的屬性匹配方法對前者進(jìn)行匹配,在2.2.2節(jié)中通過人工設(shè)定三類規(guī)則處理后者,最終計算出目標(biāo)表dimension_current的結(jié)構(gòu)。由于本文只是簡單驗(yàn)證,為了操作上的簡潔省略了對模型中DateFrom,DateTo屬性的記錄。此外,XML文件中子節(jié)點(diǎn)記錄的信息必然與其父節(jié)點(diǎn)存在較強(qiáng)關(guān)聯(lián),因此本文認(rèn)為當(dāng)某一節(jié)點(diǎn)的任意子節(jié)點(diǎn)與某一屬性產(chǎn)生匹配時,該節(jié)點(diǎn)整體也有較大的概率與該屬性存在匹配,可以記錄為該節(jié)點(diǎn)與該屬性匹配。
2.2.1 純字符串屬性間的匹配
篩選論文數(shù)據(jù)和專利數(shù)據(jù)中純字符串屬性進(jìn)行匹配。本文將專利屬性申請人、專利權(quán)人、地址、發(fā)明人、代理人、代理機(jī)構(gòu)中的人名與機(jī)構(gòu)名分別組成人名和機(jī)構(gòu)兩個新屬性來替代原有的6個屬性。計算詞向量時采用了預(yù)訓(xùn)練的Word2Vec模型。該模型使用百度百科等語料進(jìn)行訓(xùn)練得到,計算相似度的結(jié)果如表3所示。
表3 純字符串屬性余弦相似度
如果某一屬性對的相似度同時為所在行和所在列的最大值,則認(rèn)為該屬性對為匹配屬性;若相應(yīng)屬性已被其他匹配占據(jù),則進(jìn)行人工選取。匹配結(jié)果如表4所示,其中50%的論文純字符串屬性可以通過計算直接得到匹配,50%的屬性需要在計算結(jié)果的基礎(chǔ)上進(jìn)行人工選取,而對于abstract和host_title屬性,本文認(rèn)為沒有專利的純字符串屬性可以與其匹配。
表4 純字符串屬性匹配結(jié)果
論文的author_name屬性和專利的人名屬性、affiiation屬性及專利的機(jī)構(gòu)屬性匹配,就是將論文的authorlist屬性和組成專利人名、機(jī)構(gòu)的6個屬性整合到一起。
2.2.2 編碼類屬性間的匹配
(1)日期類屬性匹配
由于常有一些數(shù)據(jù)用于記錄相關(guān)日期的屬性,基于其功能的相似性,本文認(rèn)為這類屬性應(yīng)該匹配到一起。這類屬性通常有兩種特點(diǎn):一是屬性名稱中含有“日”“date”等字符,二是實(shí)例值的格式為“年/月/日”等。將這兩種特點(diǎn)設(shè)定為識別日期類屬性的規(guī)則。其結(jié)果見表5。
表5 日期類屬性匹配結(jié)果
(2)類別類屬性匹配
科技資源中一般會含有用于分類的數(shù)據(jù),如“中圖分類號”“IPC分類號”等。本文希望將這類屬性匹配在一起。由于這類數(shù)據(jù)具有已知的特定格式,并且這些通用分類號通常都會存在于科技資源中,本文可以直接根據(jù)這些可能存在的分類號的特定格式識別這類數(shù)據(jù)。其結(jié)果見表6。
表6 類別類屬性匹配結(jié)果
(3)ID類屬性匹配
ID類屬性是為管理方便而給管理對象分配的一個唯一標(biāo)識符。利用這類屬性可以搜索到唯一與其對應(yīng)的數(shù)據(jù)記錄。這類屬性通常具有唯一性和特定的編碼格式。由于編碼格式在不同情境下相差極大,從一組實(shí)例值中通過發(fā)現(xiàn)可能存在的特定格式來識別出可能的ID類屬性較為困難,本文僅使用兩種規(guī)則來識別ID類屬性:一是這類屬性的名稱中常含有“id”“號”等字符,二是這類屬性的實(shí)例值一定具有唯一性。由于規(guī)則較為簡單,為了能夠與其他屬性區(qū)分開,需要先實(shí)現(xiàn)其他規(guī)則,然后才能使用該規(guī)則識別剩余的屬性。其結(jié)果見表7。
表7 ID類屬性匹配結(jié)果
至此,便完成了兩種類型屬性匹配的計算。論文數(shù)據(jù)中有32%的純字符串屬性,68%的編碼類屬性,共有74%的屬性可以進(jìn)行計算,可以進(jìn)行計算的屬性中86%的屬性可以得到匹配。專利數(shù)據(jù)中有48%的純字符串屬性,52%的編碼類屬性,共有91%的屬性可以進(jìn)行計算,可以進(jìn)行計算的屬性中86%的屬性可以得到匹配。
在2.2中本文只是得到了匹配的屬性,只有進(jìn)行如檢查各匹配屬性合理性、加入未匹配屬性、目標(biāo)表中屬性命名等人工調(diào)整才能得到最終的目標(biāo)表結(jié)構(gòu)。由于論文數(shù)據(jù)為多級結(jié)構(gòu),并且其中部分節(jié)點(diǎn)數(shù)量不確定,這使得XML的形式更適合表示此類數(shù)據(jù)。其中每一條記錄作為一個resource節(jié)點(diǎn),相關(guān)屬性為其子節(jié)點(diǎn),每個屬性下的數(shù)據(jù)對應(yīng)論文數(shù)據(jù)或?qū)@麛?shù)據(jù)中的匹配屬性。resource的一級子節(jié)點(diǎn)如圖3所示,即目標(biāo)表的SK,A1, … ,Am屬性,其中id為SK,m的值為12。
圖3 resource一級節(jié)點(diǎn)結(jié)構(gòu)
結(jié)果表明,本文提出的目標(biāo)表結(jié)構(gòu)計算方法可以對超過半數(shù)的屬性進(jìn)行計算,并且大多數(shù)可計算的屬性都可以得到匹配并且經(jīng)驗(yàn)證具有合理性,說明該方法計算相似度可以對目標(biāo)表構(gòu)建起到較好的輔助作用。但仍存在一些屬性只能通過人工匹配來實(shí)現(xiàn)目標(biāo)表結(jié)構(gòu)的構(gòu)建。其原因在于,屬性匹配時通常希望將功能相近的屬性匹配在一起,而這些屬性或應(yīng)與其匹配的屬性的功能難以通過計算展現(xiàn)。
屬性的功能一般包含在實(shí)例值語義或與整條記錄間的關(guān)系中。前者在文中體現(xiàn)為編碼類屬性的語義識別困難,其語義只有通過對特定格式的轉(zhuǎn)換才能進(jìn)行識別,而這類屬性通常又極為精簡,目前難以通過一種普適性算法發(fā)現(xiàn)編碼類屬性實(shí)例值中可能存在的格式進(jìn)而識別出相應(yīng)的語義。對于后者,以文中論文屬性“journal”與專利屬性“國別”“省份”“城市”為例。這兩組屬性與論文或?qū)@g都有一種歸屬關(guān)系:論文歸屬于對應(yīng)的期刊,而專利歸屬于對應(yīng)的申請地點(diǎn),但這種歸屬關(guān)系目前是難以通過計算得到的。因此,在一般情況下雖然屬性匹配計算可以對目標(biāo)表結(jié)構(gòu)的構(gòu)建起到一定的輔助作用,但不同程度的人工干預(yù)仍是必不可少的。
在調(diào)解過程中,為了操作方便,本文將id的結(jié)構(gòu)設(shè)計為(paper_id,申請?zhí)?,公開號,優(yōu)先權(quán)號)的形式,如果數(shù)據(jù)不存在其中的某一項(xiàng)則置空。這樣,就相當(dāng)于自動生成了模型中的輔助調(diào)制表conc_dimtable。整合結(jié)果以XML格式保存,部分結(jié)果如下。
利用第1.3節(jié)中提出的模型將原本結(jié)構(gòu)完全不同的二源數(shù)據(jù)聚合為擁有基本相同結(jié)構(gòu)的數(shù)據(jù),并且這種聚合明顯具有高度可解釋性。如聚合到authorlist節(jié)點(diǎn)下的論文作者和專利申請人等屬性均包含了科技資源數(shù)據(jù)相關(guān)人的信息以及具有的相似功能。統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)極大地方便了數(shù)據(jù)的使用。研究人員可以通過相似的調(diào)用方法獲取不同來源的數(shù)據(jù)。
對科技資源進(jìn)行數(shù)據(jù)聚合是解決科技資源多源異構(gòu)問題的有效方法,良好的數(shù)據(jù)聚合有助于對多源異構(gòu)科技資源高效地綜合利用。本文成功地對二源異構(gòu)數(shù)據(jù)聚合過程中數(shù)據(jù)倉庫的表結(jié)構(gòu)構(gòu)建、數(shù)據(jù)調(diào)解與整合過程進(jìn)行了建模,并利用該模型實(shí)現(xiàn)論文數(shù)據(jù)和專利數(shù)據(jù)二源異構(gòu)數(shù)據(jù)的聚合,驗(yàn)證了其可行性。該模型沒有局限于數(shù)據(jù)聚合中的數(shù)據(jù)整合部分,而是對數(shù)據(jù)聚合的整個流程進(jìn)行了建模。這在一定程度上彌補(bǔ)了此前研究相對局限于部分流程的問題,使用更加完整的數(shù)據(jù)聚合模型可以為整個過程提供更完善的理論指導(dǎo),使得在不同情境下的多源數(shù)據(jù)聚合能夠更加方便地構(gòu)建整個流程框架。
在未來工作中,改進(jìn)模型中模式匹配的方法,減少屬性匹配計算中對屬性實(shí)例值類型的限制,建立結(jié)果更加可靠、更少人工處理的多源異構(gòu)數(shù)據(jù)聚合模型。此外,將圖書數(shù)據(jù)納入實(shí)現(xiàn)時的考慮范圍,驗(yàn)證該模型在更加復(fù)雜的科技資源數(shù)據(jù)聚合情境下的可行性。