李 紅,牛成英,孫秋碧,林嘉燕
(1.福州大學(xué) 經(jīng)濟與管理學(xué)院,福州 350116;2.蘭州財經(jīng)大學(xué) 統(tǒng)計學(xué)院,蘭州 730101;3.福建信息職業(yè)技術(shù)學(xué)院,福州 350001)
數(shù)據(jù)融合是大數(shù)據(jù)時代發(fā)揮數(shù)據(jù)質(zhì)量價值的有效手段。來自領(lǐng)域數(shù)據(jù)庫、知識庫或者Web開放頁面的數(shù)據(jù)信息被物理地存放在不同系統(tǒng)中,形成數(shù)據(jù)孤島。需要把這些割裂的數(shù)據(jù)整合到統(tǒng)一系統(tǒng)中。如在政府統(tǒng)計工作中,芬蘭統(tǒng)計局融合中央人口登記記錄、勞動部求職者登記記錄、中央和地方公務(wù)員記錄等行政記錄構(gòu)建人口普查數(shù)據(jù)庫,以解決傳統(tǒng)人口普查中調(diào)查成本高、普查機構(gòu)和居民負(fù)擔(dān)重、數(shù)據(jù)質(zhì)量低等難題。在Web數(shù)據(jù)挖掘領(lǐng)域,數(shù)據(jù)融合的情形更為廣泛。如當(dāng)建立跨領(lǐng)域、跨學(xué)科高效的學(xué)術(shù)信息集成系統(tǒng)時,需要從Web的眾多數(shù)據(jù)源中融合論文發(fā)表數(shù)、學(xué)術(shù)專著數(shù)、科研項目經(jīng)費、論文影響因子、參與學(xué)術(shù)活動等多個指標(biāo)[1]。大規(guī)模、跨領(lǐng)域、多元異構(gòu)的數(shù)據(jù)融合深度開發(fā)利用遵循的基本步驟[2]:首先根據(jù)工作目標(biāo)選擇數(shù)據(jù)源;然后構(gòu)建模式映射與記錄匹配算法進行數(shù)據(jù)融合,形成大型統(tǒng)計數(shù)據(jù)庫;最后結(jié)合有效的數(shù)據(jù)挖掘工具,產(chǎn)生統(tǒng)計結(jié)果。
顯然,大數(shù)據(jù)時代,數(shù)據(jù)融合是數(shù)據(jù)挖掘的基本步驟,大型統(tǒng)計數(shù)據(jù)庫的不確定性來自于數(shù)據(jù)源的多樣性與混雜性。因此,數(shù)據(jù)融合質(zhì)量是數(shù)據(jù)深度開發(fā)利用成功與否的關(guān)鍵因素。
數(shù)據(jù)融合一詞最早出現(xiàn)在20世紀(jì)70年代的軍事領(lǐng)域,是利用計算機技術(shù)對獲得的若干感知數(shù)據(jù),在一定的規(guī)則下加以分析、綜合,以完成所需決策和評估任務(wù)而進行的數(shù)據(jù)處理過程。它的實質(zhì)是對不同組織形式下的數(shù)據(jù)進行關(guān)聯(lián)或綜合分析,進而選取適當(dāng)?shù)娜诤夏J胶吞幚硭惴ǎ靡蕴岣邤?shù)據(jù)質(zhì)量[3]。
從不同角度看,數(shù)據(jù)融合質(zhì)量評價有不同內(nèi)涵。從數(shù)據(jù)融合的相關(guān)技術(shù)和方法看,數(shù)據(jù)融合涉及融合模式和處理算法。因而質(zhì)量評價側(cè)重模式選擇和處理算法對數(shù)據(jù)質(zhì)量的影響。目前計算機科學(xué)已率先在這個方面做出不俗成就,相關(guān)成果對融合算法、運行環(huán)境、信息類型、信息表示、不確定性、融合技術(shù)和適用范圍都做了對比研究[4-9]。
從數(shù)據(jù)融合中數(shù)據(jù)源的涵蓋范圍看,數(shù)據(jù)融合質(zhì)量評價指的是數(shù)據(jù)源內(nèi)容的真實性,即誤差大小。這里的誤差包含兩個方面,一是過涵蓋誤差,二是不足涵蓋誤差。過涵蓋是指不應(yīng)該被包含在數(shù)據(jù)源中卻出現(xiàn)在數(shù)據(jù)源中的記錄,如通過Web詞條搜索得到的虛假記錄信息。不足涵蓋是指某些記錄應(yīng)該被包含在數(shù)據(jù)源中卻沒有被包含,比如某記錄沒有出現(xiàn)在正確的位置。
有關(guān)學(xué)者準(zhǔn)確界定了涵蓋誤差的具體分類與影響[10],如下頁表1所示。在傳統(tǒng)數(shù)據(jù)收集方式的影響下,不足涵蓋誤差出現(xiàn)的可能性較大。然而隨著人們社會生活方式的變化、數(shù)據(jù)收集方式的變化,數(shù)據(jù)源具有廣泛性、交互性和開放性的特點,過涵蓋記錄出現(xiàn)的可能性在增大。如下頁表2中加拿大和澳大利亞的數(shù)據(jù)顯示,即使在傳統(tǒng)數(shù)據(jù)收集方式下,人口普查中的過涵蓋誤差出現(xiàn)逐年增大的趨勢。在Web數(shù)據(jù)源中,這種趨勢更加明顯。
因此,本文從數(shù)據(jù)源的涵蓋范圍角度出發(fā),構(gòu)建統(tǒng)計模型測量過涵蓋誤差,基于此評價數(shù)據(jù)融合質(zhì)量,這有利于消除冗余、去偽存真、提高數(shù)據(jù)融合質(zhì)量。
表1 涵蓋誤差的分類與影響
表2 各國人口普查過涵蓋、不足涵蓋誤差估計 (單位:%)
假設(shè)存在兩個數(shù)據(jù)庫A和B,如數(shù)據(jù)庫A是公安部門關(guān)于人口遷移數(shù)據(jù),數(shù)據(jù)庫B是人力資源和社會保障廳城鎮(zhèn)失業(yè)登記數(shù)據(jù)。又或數(shù)據(jù)庫A是通過百度熱力圖獲取的某景區(qū)某一時間段旅游者信息,數(shù)據(jù)庫B是通過網(wǎng)絡(luò)詞頻數(shù)據(jù)挖掘獲取的該景區(qū)同一時間段旅游者信息。假定進行數(shù)據(jù)質(zhì)量評價之前,數(shù)據(jù)庫A和數(shù)據(jù)庫B已通過記錄匹配、文本或人工檢查的方式識別數(shù)據(jù)庫中的重復(fù)記錄。
令T*=T∪A∪B,其中T是目標(biāo)總體。從T*的定義看,T*可以分解成兩部分:目標(biāo)總體T和非目標(biāo)總體Tˉ。在總體T*、目標(biāo)總體T和非目標(biāo)總體Tˉ下,數(shù)據(jù)庫A和數(shù)據(jù)庫B的匹配結(jié)果如表3至表5所示。括號內(nèi)為對應(yīng)匹配概率。數(shù)據(jù)庫A和數(shù)據(jù)庫B的樣本容量分別為N1、N2。
表3 總體T*中數(shù)據(jù)庫匹配
表4 目標(biāo)總體T中數(shù)據(jù)庫匹配
表5 非目標(biāo)總體Tˉ中數(shù)據(jù)庫匹配
當(dāng)給定數(shù)據(jù)庫A和B時,x+11、x+10、x+01是已知數(shù)。x011、x010、x001是數(shù)據(jù)庫A和數(shù)據(jù)庫B中的錯誤記錄數(shù),且 x+11=x111+x011;x+10=x110+x010;x+01=x101+x001。如果能分解出x011、x010、x001,就可估計數(shù)據(jù)庫的過涵蓋誤差(已通過記錄匹配、文本或人工檢查的方式識別數(shù)據(jù)庫中的重復(fù)記錄,過涵蓋誤差只與錯誤記錄數(shù)有關(guān))。
由表4和表5可得過涵蓋誤差θab的具體計算表達式:
其中 (a,b)∈{(1,1)、(1,0)、(0,1)}。
為估計過涵蓋誤差θab,設(shè)計抽樣調(diào)查試驗S,假定抽樣調(diào)查試驗S滿足如下三個條件:
(1)抽樣調(diào)查試驗S只包含不足涵蓋誤差,因而S中的每一個個體都包含于T中。
(2)抽樣調(diào)查試驗S與數(shù)據(jù)庫A和數(shù)據(jù)庫B的發(fā)生是獨立的。
(3)抽樣調(diào)查試驗S中每一個個體能與數(shù)據(jù)庫A、B中的元素?zé)o錯誤匹配。
令yab表示S中與數(shù)據(jù)庫A和數(shù)據(jù)庫B匹配下的記錄數(shù)。如 y11表示集合{x:x∈S∩A∩B}中的記錄數(shù)。y10表示集合{x:x∈S∩A,x?S∩B}中的記錄數(shù)。 y00表示集合{x:x∈S,x?S∩A,x?S∩B}中的記錄數(shù)。
在條件(1)至條件(3)下,可得:
實際中,上述抽樣調(diào)查試驗比較容易產(chǎn)生,如行政數(shù)據(jù)融合時,可針對研究對象設(shè)計分層抽樣調(diào)查。如旅游數(shù)據(jù)質(zhì)量檢驗時,可對旅游景區(qū)做小范圍的問卷調(diào)查或網(wǎng)絡(luò)調(diào)查。
由表達式(1)至式(4),借助矩估計思想可得:
式(5)中包含三個方程,其中,y11、y10、y01、x+11、x+10、x+01已知,θ11、θ10、θ01與 πs未知,因此,還需要構(gòu)造一個方程估計這四個未知參數(shù)。
當(dāng) θ11、θ10、θ01與 πs已知時,由式(6)可估計目標(biāo)總體容量N1:
目前主要有兩種方法可以將列聯(lián)表數(shù)據(jù)對數(shù)線性模型化。第一種是一般對數(shù)線性模型(Log-linear模型),該模型不區(qū)分自變量和因變量。所有的變量都被同等地當(dāng)成“響應(yīng)變量”來考察他們之間的關(guān)系,單元格期望頻數(shù)是模型中所有變量的函數(shù)。第二種是Logit模型。在Logit模型中,某一變量被選作因變量,期望發(fā)生比是其他變量的函數(shù),Logit模型非常類似一般回歸分析。在數(shù)據(jù)融合中,數(shù)據(jù)庫A和數(shù)據(jù)庫B不存在因果關(guān)系,因此,本文采用一般對數(shù)線性模型對列聯(lián)表數(shù)據(jù)模型化。
對總體T*=T∪A∪B 建立飽和對數(shù)線性模型[12]:
飽和模型(7)將列聯(lián)表的單元格頻數(shù)(或頻率、概率)表示為對于一般均值λ、每個變量和它們之間相關(guān)關(guān)系效應(yīng)的函數(shù)。但是飽和模型完全用c個效應(yīng)代表c個單元格,沒有采用簡約型??梢酝ㄟ^設(shè)定一些效應(yīng)參數(shù)為1(取對數(shù)后,效應(yīng)為0)的方式來構(gòu)建更加簡潔的模型,這類似于回歸分析中事先指定一個回歸系數(shù)等于0。不失一般性,假定三維交叉效應(yīng);式(7)中右邊各項元素非零,當(dāng)且僅當(dāng)元素下標(biāo)全為1時。同時,由于p000=0,常數(shù)項λ=0。因此,可得:
求解可得:
對式(9)進行l(wèi)ogit變換,可得:
當(dāng) p100已知時,由式(9)可以推導(dǎo)出 θ11、θ10、θ01的關(guān)系表達式。p100實際是目標(biāo)總體T內(nèi),數(shù)據(jù)庫A和數(shù)據(jù)庫B的不足涵蓋誤差,后文將p100記為pu。
當(dāng)然,也可以對Log-linear模型進一步簡化,但是這有可能導(dǎo)致一些不合理的假設(shè)。例如,額外假定,可以得到:
因此,由一般對數(shù)線性模型推導(dǎo)出的式(10)提供了θ11、θ10、θ01的一個關(guān)系表達式。將式(5)與式(10)聯(lián)立,即可得式(12):
當(dāng) θab的值較小時,logitθab與 logθab的值相差很小,如 logit0.1=-2.2,log0.1=-2.3。因此,用 log替換式(12)中的logit,可得式(13):
式(13)是式(12)的一個近似估計。式(12)和式(13)中除了待估參數(shù) θ11、θ10、θ01與 πs外,還包含未知參數(shù) pu。
因此,下文構(gòu)建TL=A∪B,與抽樣調(diào)查S產(chǎn)生的數(shù)據(jù)庫匹配得到表6,采用雙系統(tǒng)模型估計不足涵蓋誤差pu。
表6 TL與抽樣調(diào)查S數(shù)據(jù)庫匹配
根據(jù)抽樣調(diào)查S的假設(shè)條件,顯然,由抽樣調(diào)查產(chǎn)生的數(shù)據(jù)庫S與數(shù)據(jù)庫TL滿足捕獲再捕獲模型的四個經(jīng)典假設(shè)[12]:
(1)數(shù)據(jù)庫TL和數(shù)據(jù)庫S針對的同一調(diào)查總體的總量不變,即總體封閉。
(2)任意調(diào)查個體在數(shù)據(jù)庫TL和數(shù)據(jù)庫S中分別被登記的概率不變。
(3)數(shù)據(jù)庫TL和數(shù)據(jù)庫S的來源途徑相互獨立。
(4)數(shù)據(jù)庫TL和數(shù)據(jù)庫S的調(diào)查個體記錄信息能匹配。
根據(jù)雙系統(tǒng)估計模型,可得到總體的總數(shù)估計:
因而,可得 pu的估計量:
令 x+10=x1,x+01=x2,x+11=x11,n+1=n1,n+1=n2,對式(12)和式(13)進行整理,可得質(zhì)量評價模型1和質(zhì)量評價模型2,分別如式(16)和(17)。
質(zhì)量評價模型1和模型2是基于一般對數(shù)線性模型和雙系統(tǒng)估計模型構(gòu)造的,因此很容易擴展到多個數(shù)據(jù)庫的情形。質(zhì)量評價模型1包含logit函數(shù),無法得到未知參數(shù)的顯示解,實際中需要通過Mathematica等軟件求解。模型2是模型1的一個近似估計,存在顯示解,如式(18)所示。
同時,在使用雙系統(tǒng)模型估計不足涵蓋誤差pu時,沒有剔除過涵蓋誤差的影響,因此可對pu的估計量進一步改進和完善。實踐中可通過抽樣調(diào)查估計過涵蓋傾向性系數(shù)γ,對 pu的估計量進行調(diào)整,如式(19)所示。若過涵蓋傾向性系數(shù)γ=0.01,則數(shù)據(jù)庫TL中每個個體的實際作用為1/1.01=0.99。
為了比較質(zhì)量評價模型的測量差異以及模型的擬合效果,采用數(shù)據(jù)表7和數(shù)據(jù)表8對質(zhì)量評價模型擬合。表7中,數(shù)據(jù)庫A包含900個樣本,數(shù)據(jù)路B包含1100個樣本,既在數(shù)據(jù)庫A也在數(shù)據(jù)庫B中的樣本數(shù)為800,在數(shù)據(jù)庫A但是不在數(shù)據(jù)庫B中的樣本數(shù)為100,在數(shù)據(jù)庫B但不在數(shù)據(jù)庫A中的樣本數(shù)為300。數(shù)據(jù)庫A和B的錯誤記錄數(shù)分別為45和75,數(shù)據(jù)庫A∩B中的錯誤記錄數(shù)是e11,e11是變化的數(shù)值,且1≤e11≤45。當(dāng)e11確定后,在數(shù)據(jù)庫A但是不在數(shù)據(jù)庫B中的錯誤記錄是45-e11,在數(shù)據(jù)庫B但是不在數(shù)據(jù)庫A中的錯誤記錄是75-e11。表7和表8的數(shù)據(jù)顯示,表7中錯誤記錄較少,表8中錯誤記錄較多。兩組模擬數(shù)據(jù)中均假定不足涵蓋誤差Pu=0.15,經(jīng)過涵蓋調(diào)整的Pu=0.10。
表7 模擬數(shù)據(jù)1
表8 模擬數(shù)據(jù)2
由質(zhì)量評價模型中θ10、θ01、θ11的關(guān)系式可得到每個模型下 e11的取值,進而得到(θ10、θ01、θ11)的估計值。具體如表9所示。
表9 模擬結(jié)果
表9的結(jié)果顯示在模擬數(shù)據(jù)1下,模型1和模型1A的(θ10、θ01、θ11)估計值分別為(0.310,0.203,0.017)和(0.340,0.213,0.010);模型2和模型2A的對應(yīng)估計值分別為(0.350,0.216,0.013)和(0.370,0.223,0.010)。這表明經(jīng)調(diào)整后的θ10、θ01和θ11估計值與未經(jīng)過涵蓋調(diào)整的估計值有差異。同樣的現(xiàn)象也出現(xiàn)在模擬數(shù)據(jù)2中。但在兩組模擬數(shù)據(jù)下,調(diào)整與未經(jīng)調(diào)整的估計值差異并不明顯。鑒于模擬實驗中不足涵蓋誤差值與經(jīng)過涵蓋誤差調(diào)整的不足涵蓋誤差值均是假定數(shù)據(jù),在實踐應(yīng)用中有必要對不足涵蓋誤差做過涵蓋調(diào)整。
在模擬數(shù)據(jù)1下,模型1A和模型2A中e11的取值分別為11和8。估計值分別為(0.340,0.213,0.010)、(0.370,0.223,0.010),兩者非常接近。這表明當(dāng)錯誤記錄較少時,可用模型2A直接估計數(shù)據(jù)融合中的過涵蓋誤差。在模擬數(shù)據(jù)2下,模型1A和模型2 A中e11的取值分別為86和34,據(jù)此計算而得的θ10、θ01、θ11估計值相差較大。這表明當(dāng)錯誤記錄數(shù)較多時,使用模型1A估計數(shù)據(jù)融合中的過涵蓋誤差更為精確。
以大規(guī)模、跨領(lǐng)域、多元異構(gòu)、動態(tài)演化為主要特征的大數(shù)據(jù)源在政府統(tǒng)計、公共安全、商業(yè)數(shù)據(jù)挖掘等領(lǐng)域發(fā)揮了越來越重要的作用,相應(yīng)的數(shù)據(jù)存儲、融合、分析和理解也面臨著重大挑戰(zhàn)。當(dāng)下亟待解決的問題是如何對數(shù)據(jù)關(guān)聯(lián)、交叉和融合實現(xiàn)中的數(shù)據(jù)質(zhì)量進行檢測,以實現(xiàn)數(shù)據(jù)價值最大化。本文基于對數(shù)線性模型和雙系統(tǒng)估計方法,建立可擴展到多個數(shù)據(jù)庫融合情形的數(shù)據(jù)融合質(zhì)量評價模型,通過模擬研究,比較四個模型的優(yōu)劣,給出不同模型的適應(yīng)條件。實際應(yīng)用中,為測量數(shù)據(jù)庫A和數(shù)據(jù)庫B的融合質(zhì)量,僅需根據(jù)工作目標(biāo)做一個只包含不足涵蓋誤差的抽樣調(diào)查,就可估計出融合后數(shù)據(jù)庫 A∩B、A-A∩B、B-A∩B下的誤差水平。尤其是當(dāng)數(shù)據(jù)庫中錯誤記錄較少時,可采用模型2的顯示解直接估計過涵蓋誤差。無疑,該方法能在政府、企業(yè)和社會全面數(shù)據(jù)資源開發(fā)中得到重要應(yīng)用,為數(shù)據(jù)整合匯聚、建立大數(shù)據(jù)云和重點領(lǐng)域?qū)n}數(shù)據(jù)庫提供質(zhì)量保證。