国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于半監(jiān)督學(xué)習(xí)的多源異構(gòu)數(shù)據(jù)治理

2022-11-07 05:39:08饒衛(wèi)雄高宏業(yè)趙欽佩
關(guān)鍵詞:模式匹配元組分類器

饒衛(wèi)雄,高宏業(yè),林 程,趙欽佩,葉 豐

(1.同濟(jì)大學(xué)軟件學(xué)院,上海 201804;2.復(fù)雜系統(tǒng)仿真總體重點實驗室,北京 100101)

近年來,隨著物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)的迅猛發(fā)展,大數(shù)據(jù)已經(jīng)成為蘊藏巨大價值的重要社會資源。高質(zhì)量數(shù)據(jù)是人工智能模型的基礎(chǔ)。任何算法的準(zhǔn)確率,都取決于數(shù)據(jù)的完善程度、豐富程度以及結(jié)構(gòu)化程度。因此,信息共享與數(shù)據(jù)互通已經(jīng)成為影響人工智能產(chǎn)業(yè)發(fā)展的重要因素。例如,在一個大型組織中,各個部門的業(yè)務(wù)和功能條塊分割,數(shù)據(jù)常常以不同的粒度和形式存儲于不同的計算機(jī)系統(tǒng),相互之間難以進(jìn)行有效溝通,形成了所謂的“數(shù)據(jù)孤島”。如何有效打破“數(shù)據(jù)孤島”、提高數(shù)據(jù)質(zhì)量,是數(shù)據(jù)治理的關(guān)鍵問題之一。

所謂“數(shù)據(jù)孤島”是指多源異構(gòu)數(shù)據(jù)。多源異構(gòu)數(shù)據(jù)中的“多源”是指數(shù)據(jù)來自多個數(shù)據(jù)源,而且它們的數(shù)據(jù)存儲平臺和方式各不相同;多源異構(gòu)數(shù)據(jù)中的“異構(gòu)”是指描述同一個實體的數(shù)據(jù)類型復(fù)雜,數(shù)據(jù)結(jié)構(gòu)不一致。整合多源異構(gòu)數(shù)據(jù)時,往往通過數(shù)據(jù)集成平臺對多個數(shù)據(jù)來源進(jìn)行統(tǒng)一處理,在物理層面和邏輯層面上消除異構(gòu)數(shù)據(jù)之間的差異,實現(xiàn)統(tǒng)一的表示、存儲和管理,將多源異構(gòu)數(shù)據(jù)集成為相互理解、相互關(guān)聯(lián)的有機(jī)整體,最終提升系統(tǒng)的數(shù)據(jù)處理效率。這一步又被稱為多源異構(gòu)數(shù)據(jù)治理[1]。目前,普遍采用如圖1所示的方案[1-2]實現(xiàn)多源異構(gòu)數(shù)據(jù)治理。

圖1 多源異構(gòu)數(shù)據(jù)治理的普遍方案Fig.1 Common framework of multi-source heterogeneous data governance

該方案的主要支撐技術(shù)包括信息提取、模式匹配(又名模式對齊)、實體匹配(又名實體對齊)和數(shù)據(jù)融合。其中,信息提取及模式匹配的目的是處理數(shù)據(jù)本體的異構(gòu)性和數(shù)據(jù)源的異構(gòu)性[3]。實體匹配的目的是利用實體的屬性信息構(gòu)建對齊關(guān)系,同時對實體包含的信息進(jìn)行聚集和融合。沖突解決是數(shù)據(jù)融合的必要過程。

在大規(guī)模數(shù)據(jù)集成處理項目中,通常采用的傳統(tǒng)方法是利用人力來執(zhí)行分類、集成、鏈接和聚合等操作。這種方法的缺點是代價過高。隨著系統(tǒng)的拓展,基于人力的大數(shù)據(jù)集成將難以為繼。在人工處理的基礎(chǔ)上,工業(yè)界引入了主數(shù)據(jù)管理(master data management,MDM)系統(tǒng),如Informatica和IBM提供的MDM系統(tǒng)。然而,這類系統(tǒng)的用戶參與度高并依賴于人工規(guī)則,因此缺乏拓展?jié)摿ΑC(jī)器學(xué)習(xí)(machine learning,ML)是一種具有良好可拓展性的方法。簡單說,就是可以利用機(jī)器學(xué)習(xí)實現(xiàn)各個步驟[3]的自動化。

在信息提取方面,基于機(jī)器學(xué)習(xí)的信息提取主要用到3種方法,包括基于分類的提取、基于順序標(biāo)記的提取以及基于規(guī)則的提?。?]?;诜诸惖奶崛∈菍⑿畔⒌奶崛∞D(zhuǎn)化為分類問題,即:通過檢測特殊類型信息的邊界以提取中間信息。基于這一思想的算法最初由Finn等[5]提出,使用少量已標(biāo)記邊界的數(shù)據(jù)分別訓(xùn)練開始邊界分類器和結(jié)束邊界分類器。該方法的缺陷也很明顯,一是訓(xùn)練集中的負(fù)例數(shù)據(jù)量遠(yuǎn)大于正例數(shù)據(jù)量,二是在特定領(lǐng)域的信息提取上邊界匹配不夠準(zhǔn)確?;陧樞驑?biāo)記的提取的目標(biāo)是建立一個模型以供人工智能學(xué)習(xí),通過標(biāo)記觀測序列進(jìn)行預(yù)測。主流方法包括隱馬爾科夫模型[6]、最大熵馬爾科夫模型[7]、條件隨機(jī)場[8]等。對于基于規(guī)則的提取,主要使用幾個通用的規(guī)則從文本中提取信息?;谠摲椒ǖ南到y(tǒng),如LP[9]、Koko[10]等系統(tǒng),依賴規(guī)則進(jìn)行信息提取,但該方法往往受到數(shù)據(jù)獲取和人工參與的限制。

在模式匹配方面,當(dāng)前的研究主要分為基于語義相似度的模式匹配和基于機(jī)器學(xué)習(xí)的模式匹配?;谡Z義相似度的模式匹配著眼于2個屬性值之間的句法相似度或語義相似度,通過將值轉(zhuǎn)化為詞向量的方式判斷兩者之間的相似度。該方法能夠處理的數(shù)據(jù)類型較為單一,而基于機(jī)器學(xué)習(xí)的模式匹配則可以很好地解決這一問題。

實體匹配指在無相同主鍵的情況下將2個結(jié)構(gòu)化數(shù)據(jù)表進(jìn)行匹配的技術(shù)。目前主要的方法為基于屬性值相似度的監(jiān)督學(xué)習(xí)的匹配方法。Bilenko[11]提出了一種基于主動學(xué)習(xí)的實體匹配方法,通過少量標(biāo)記數(shù)據(jù)訓(xùn)練人工智能以識別記錄間相似度。Kopcke等[12]指出:傳統(tǒng)的機(jī)器學(xué)習(xí)模型,如隨機(jī)森林模型等,顯著改善了實體匹配的準(zhǔn)確度;深度學(xué)習(xí)模型則通過詞嵌入來比較長文本值,因此在文本及臟數(shù)據(jù)的匹配方面具有優(yōu)勢[13-14]。然而,最近的一項研究表明,在匹配一對數(shù)據(jù)集時,至少需要150萬個標(biāo)簽才能夠達(dá)到99%的精度與召回值[15]。不難發(fā)現(xiàn),當(dāng)缺乏足夠的標(biāo)記數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)時,基于傳統(tǒng)機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型的方法就會受到很大限制。針對這一問題,Blum等[16]提出,可以利用半監(jiān)督學(xué)習(xí)的方法來獲得更多標(biāo)簽數(shù)據(jù)。

數(shù)據(jù)融合主要包括屬性對齊及沖突解決兩部分。屬性對齊的目的是將對齊后的實體中能夠映射為同一個屬性的不同表述進(jìn)行融合,從而獲得更精確、更完善的信息。Cheatham等[17]提出以屬性描述文本為基礎(chǔ)進(jìn)行屬性對齊。然而,所利用的知識庫很可能并不含有所需的描述信息?;跀?shù)據(jù)驅(qū)動的對齊方法在一定程度上可以規(guī)避傳統(tǒng)方法產(chǎn)生的問題。Yu等[18]提出,可以通過屬性函數(shù)的相似性計算出屬性對齊的結(jié)果。沖突解決的目的是處理同一實體的同一屬性出現(xiàn)語義相同但表述不一或語義沖突的情況,并對融合后的實體進(jìn)行推演,利用已有的屬性來推斷另外的缺失屬性值。主要方法包括基于統(tǒng)計的填補和基于學(xué)習(xí)的填補。劉莎等[19]提出了一種基于灰色關(guān)聯(lián)度的缺失值填補框架,其分類精度優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法;Koren等[20]提出了將缺失值填補視為矩陣分解問題的填補思路。填補結(jié)果在穩(wěn)定性、速度和準(zhǔn)確性方面均有所提升,但是在處理包含自由文本的數(shù)據(jù)列時容易丟失一定量的有價值信息。

目前,基于機(jī)器學(xué)習(xí)的數(shù)據(jù)治理方法仍然需要大量人工標(biāo)簽數(shù)據(jù)。此外,數(shù)據(jù)融合方面的相關(guān)工作較少,尚未有一套基于中文的多源信息提取并結(jié)合了實體融合與推演的完整框架。

基于以上考慮,將信息提取、模式匹配、實體匹配以及數(shù)據(jù)融合各步驟相連接,提出了一個基于半監(jiān)督學(xué)習(xí)的多源異構(gòu)數(shù)據(jù)治理架構(gòu)。首先對架構(gòu)的基本思想以及4個步驟所用方法進(jìn)行介紹,然后利用5個真實世界的數(shù)據(jù)集對該架構(gòu)的各步驟進(jìn)行驗證與評估。

1 基于半監(jiān)督學(xué)習(xí)的多源異構(gòu)數(shù)據(jù)治理架構(gòu)

基于半監(jiān)督學(xué)習(xí)的多源異構(gòu)數(shù)據(jù)治理架構(gòu)如圖2所示。

圖2 基于半監(jiān)督學(xué)習(xí)的多源異構(gòu)數(shù)據(jù)治理架構(gòu)Fig.2 Framework of multi-source heterogeneous data governance based on semi-supervised learning

以圖2展現(xiàn)的數(shù)據(jù)為例,描述同一實體的數(shù)據(jù)來自于不同的數(shù)據(jù)源,如非結(jié)構(gòu)化的自然語言文本數(shù)據(jù)、半結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)以及結(jié)構(gòu)化數(shù)據(jù)庫表數(shù)據(jù)等。首先,采用信息提取技術(shù),將多源數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)庫表形式;然后,通過模式匹配,找到結(jié)構(gòu)化的數(shù)據(jù)庫表之間匹配的屬性對(匹配的列),再利用基于半監(jiān)督學(xué)習(xí)的數(shù)據(jù)匹配技術(shù),找到結(jié)構(gòu)化數(shù)據(jù)庫表之間匹配的記錄(指向同一實體的行);最后,通過數(shù)據(jù)融合,將匹配的列屬性值融合在一起,再進(jìn)行一定程度的實體推演,完成缺失值填補。

1.1 信息提取

信息提取的目的是從文本數(shù)據(jù)或是網(wǎng)頁數(shù)據(jù)中提取人們感興趣的信息,目前應(yīng)用較為廣泛的信息提取技術(shù)是基于自然語言處理(natural language processing,NLP)的提取技術(shù)。鑒于信息提取對象的特殊性,在非結(jié)構(gòu)化數(shù)據(jù)信息提取時,提取的準(zhǔn)確性取決于自然語言處理的準(zhǔn)確性。本研究中采用的信息提取算法為:通過自然語言處理中的詞性識別以及命名實體識別(NER)判別實體,再結(jié)合正則表達(dá)式和一定的規(guī)則提取特殊信息。基于自然語言處理的信息提取算法,雖然減少了人工制定提取規(guī)則的工作量,但是也存在缺陷。首先,基于自然語言處理的命名實體識別技術(shù)只可提取人名、地名、機(jī)構(gòu)名、時間、日期、貨幣及百分比信息;其次,可提取的信息范圍以及準(zhǔn)確性有限,需要額外制定一些規(guī)則以去除錯誤的匹配信息;再次,識別范圍有限,需用正則匹配提取一些無法通過自然語言處理來識別的復(fù)雜結(jié)構(gòu)數(shù)據(jù)。值得一提的是,正則表達(dá)式增加了基于命名實體識別的信息提取算法的靈活性。基于命名實體識別的信息提取算法偽代碼如圖3所示。

圖3 基于命名實體識別的信息提取算法(算法1)Fig.3 Information extraction algorithm based on named entity recognition(algorithm 1)

1.2 模式匹配

模式匹配的目的是從輸入的多個屬性互有重疊的表中找到相同的屬性,其基本思路是:尋找不同列之間屬性值的關(guān)聯(lián)性,根據(jù)關(guān)聯(lián)性判斷兩列屬性是否相同。顯然,模式匹配的關(guān)鍵在于求出匹配的屬性名以及屬性值之間的關(guān)聯(lián)程度。本研究中采取了2種不同的方法完成對不同屬性值類型的匹配,分別是基于機(jī)器學(xué)習(xí)方法的模式匹配和基于屬性值相似度的模式匹配。

1.2.1 基于機(jī)器學(xué)習(xí)方法的模式匹配

基于機(jī)器學(xué)習(xí)方法的模式匹配采用了多種機(jī)器學(xué)習(xí)方法,如使用數(shù)據(jù)表中的屬性名和屬性值訓(xùn)練分類器。本研究中使用FlexMatcher包中的KNN Classifier、n-Gram Classifier、CharDist Classifier及Flex Matcher進(jìn)行基于屬性值的訓(xùn)練,以獲取2個待匹配數(shù)據(jù)表(表A和表B)中匹配的屬性對。

KNN Classifier中將k定義為3,一個屬性值點被歸類為距離該點最近的3個鄰近樣本數(shù)據(jù)點中使用最頻繁的一類。同時使用萊文斯坦距離作為距離度量。萊文斯坦距離是編輯距離的一種,指2個字符串之間由一個轉(zhuǎn)換成另一個所需的最少編輯操作次數(shù)。

n-Gram Classifier考慮了所提取屬性值的特征,使用單詞或字符的n-grams作為數(shù)據(jù)處理的單元,其中n為自定義參數(shù)。通過提取轉(zhuǎn)化出的n-grams的計數(shù)特征或哈希特征訓(xùn)練邏輯回歸分類器。

CharDist Classifier從字符串中的特殊字符著手,提取數(shù)據(jù)中字符類型的計數(shù),并以其為特征,共利用7種計數(shù)特征訓(xùn)練邏輯回歸分類器。

Flex Matcher綜合了上述分類器的預(yù)測結(jié)果,并對結(jié)果進(jìn)行加權(quán)計算以獲得最佳效果。

1.2.2 基于屬性值相似度的模式匹配

基于屬性值相似度的模式匹配的基本思想是:將字符串間的相似度作為關(guān)聯(lián)度的評判標(biāo)準(zhǔn)。具體操作方法為:通過判斷不同屬性值之間字符串的距離求出不同屬性值之間的相似度。字符串的相似度有多種衡量方式,如杰卡爾德相似度、編輯距離等。本研究中主要使用杰卡爾德相似度度量字符串的相似性。

杰卡爾德相似度的定義為:2個集合S1與S2交集的元素個數(shù)除以S1與S2并集的元素個數(shù)。杰卡爾德相似度計算式如下所示:

基于屬性值相似度的模式匹配算法的偽代碼如圖4所示。該算法的基本思想是:選取A表一列屬性attr1中的一個屬性值value,計算其與B表某一列屬性attr2中的所有屬性值的杰卡爾德相似度,取其中最大值記為max;然后,對attr1中所有屬性值執(zhí)行相同操作,得到一個長度為A表行數(shù)的最大值數(shù)組;最后,取該數(shù)組平均值。該平均值就是A表中的屬性attr1與B表中的屬性attr2的相似度。對B表中的所有屬性執(zhí)行上述操作后,獲得一個長度為B表列數(shù)的相似度數(shù)組,取其最大值對應(yīng)的屬性。若最大值不為零,則認(rèn)為最大值對應(yīng)的屬性與attr1匹配;若所有屬性的相似度都為零,則認(rèn)為attr1屬性沒有匹配屬性。

圖4 基于屬性值相似度的模式匹配算法(算法2)Fig.4 Pattern matching algorithm based on attribute value similarity(algorithm 2)

1.3 數(shù)據(jù)匹配

數(shù)據(jù)匹配的目的是找到2個表之間指向現(xiàn)實中同一實體的元組對。數(shù)據(jù)匹配的難點在于如何獲取正確匹配的數(shù)據(jù)元組。本研究中采用半監(jiān)督學(xué)習(xí)方法來篩選出最佳的匹配數(shù)據(jù)。數(shù)據(jù)匹配的流程如圖5所示。

圖5 數(shù)據(jù)匹配流程Fig.5 Flowchart of data matching

在獲取了2個數(shù)據(jù)表中匹配的屬性對后,需要找到2個數(shù)據(jù)表中指向同一實體的記錄(匹配的行)。對數(shù)據(jù)表進(jìn)行笛卡爾乘積,找到2個數(shù)據(jù)表中所有指向同一實體的記錄(將2個表中被笛卡爾積連接在一起的一對記錄稱為元組對,將指向同一實體的元組對稱為匹配元組),以免遺漏任何匹配元組。以A表、B表匹配為例。首先分別進(jìn)行隨機(jī)采樣,生成A′及B′2個子表,然后對A′及B′2個子表生成笛卡爾積。在數(shù)據(jù)量十分龐大時,如果直接對2個數(shù)據(jù)表進(jìn)行笛卡爾乘積,數(shù)據(jù)匹配的代價就會過高。因此,先選擇一對匹配的屬性對,然后在候選匹配實體表中移除一些明顯不匹配的元組,這一步驟被稱為分塊。

此時需要找出C表中匹配的元組,這里采用半監(jiān)督學(xué)習(xí)方法。本研究中使用的半監(jiān)督學(xué)習(xí)方法是基于差異的半監(jiān)督學(xué)習(xí)方法。因為有多種方式可表示機(jī)器學(xué)習(xí)中的數(shù)據(jù)特征,所以在協(xié)同訓(xùn)練方法的基礎(chǔ)上,Zhou等[21]又提出了Tri-Training算法。Tri-Training算法的特點是:在原始數(shù)據(jù)集上隨機(jī)抽取不同的訓(xùn)練集進(jìn)行訓(xùn)練,以保證分類器的差異性。與協(xié)同訓(xùn)練方法不同的是,Tri-Training算法采用了3個分類器,即Ri、Rj、Rk。因此,可信標(biāo)記數(shù)據(jù)就可由簡單投票法則確定。具體做法是:如果分類器Ri和分類器Rj對于C表中的未標(biāo)記記錄x的標(biāo)記是相同的,就把x及其標(biāo)記y加入到Rk(k≠i,j)的標(biāo)記訓(xùn)練數(shù)據(jù)集中。

根據(jù)從模式匹配中獲取的匹配屬性對,為屬性值生成一系列的特征,包括匹配屬性對的屬性值之間的余弦距離、編輯距離、杰卡爾德距離等衡量屬性值相似度的特征。首先,從C表中取出一部分?jǐn)?shù)據(jù)作為樣例數(shù)據(jù),再從樣例數(shù)據(jù)中取出少部分?jǐn)?shù)據(jù),以人工方式標(biāo)注它們是否匹配。為了最小化人工參與的程度,采用Tri-Training算法獲得整個樣例數(shù)據(jù)集合中的標(biāo)簽,并應(yīng)用交叉驗證,通過F1值選擇最優(yōu)的匹配方式。

1.4 數(shù)據(jù)融合

數(shù)據(jù)融合的目的是:將匹配屬性對中的屬性值進(jìn)行融合。數(shù)據(jù)匹配工作完成后,多源數(shù)據(jù)集已橫向合并為一個數(shù)據(jù)集,但公共屬性集中的對應(yīng)屬性列還未融合。對于同一實體屬性的不同屬性值,應(yīng)根據(jù)其數(shù)據(jù)特點進(jìn)行屬性合并。對于數(shù)值類屬性,可以根據(jù)數(shù)據(jù)的特點,采取平均值、中位數(shù)或其他一些統(tǒng)計值作為融合后的屬性值;對于字符類屬性,可以保留較長、較多的屬性值,也可以保留其并集;對于一些應(yīng)以某個數(shù)據(jù)集為準(zhǔn)的屬性,直接保留該數(shù)據(jù)集的屬性值。

屬性融合完成后,某表獨有實體的非公共屬性上產(chǎn)生新的缺失值。實際上,這部分缺失值的信息很可能仍然隱藏在該實體的公共屬性中。因此,可以通過自然語言處理與數(shù)據(jù)填補相結(jié)合的方法進(jìn)行一定程度上的實體推演,對實體融合后的缺失值進(jìn)行填補。

對于數(shù)值型數(shù)據(jù),通常可以將其看作一個回歸或矩陣補全問題;對于字符型數(shù)據(jù),在進(jìn)行一些自然語言處理后,將其轉(zhuǎn)化為分類問題。本研究中提出的字符型缺失數(shù)據(jù)的填補框架如圖6所示。

圖6 字符型缺失數(shù)據(jù)填補框架Fig.6 Framework of missing data imputation for character type

對于實體融合后數(shù)據(jù)集中的缺失值,很可能在其他屬性中被找到。例如,對于圖6中待填充的元組“小蝌蚪找媽媽”,在原來的數(shù)據(jù)集中,“地區(qū)”屬性值缺失,但實際上簡介中包含了“中國”這個地區(qū)信息,因此預(yù)測該元組的“地區(qū)”可能為“中國”。簡而言之,該框架先預(yù)測所有屬性可能取到的值,然后取可能性最高的值作為該值的插補。具體流程分為以下4個階段:

(1)字符串表示階段。將數(shù)據(jù)列分為輸入列(作為特征)和要插補的列(作為目標(biāo)),數(shù)據(jù)仍然是以文字形式表示。具有觀測值的所有行均被視為訓(xùn)練數(shù)據(jù)(以及驗證數(shù)據(jù)或測試數(shù)據(jù)),對缺失值的行執(zhí)行插補操作。

(2)數(shù)值表示階段。根據(jù)列數(shù)據(jù)類型的不同,通過獨熱編碼,將分類變量轉(zhuǎn)化為數(shù)值。獨熱編碼又稱“一位有效編碼”,具體指:用狀態(tài)數(shù)相等的位數(shù)對每個狀態(tài)進(jìn)行編碼,并且只有一位可以取到有效值。通過簡單的詞袋模型,將序列變量(如自由文本字段)轉(zhuǎn)化為數(shù)值。本階段生成的數(shù)值記為XC。

(3)特征表示階段。機(jī)器學(xué)習(xí)模型的預(yù)測質(zhì)量主要取決于所使用的特征表示,本階段以大量的嵌入工作為基礎(chǔ),將分類變量和序列變量的數(shù)值表示轉(zhuǎn)化為可學(xué)習(xí)的特征表示。對于分類變量,通過詞嵌入將獨熱編碼轉(zhuǎn)化為詞向量;對于序列變量,采取LSTM網(wǎng)絡(luò)及n-gram hashing這2種方法進(jìn)行特征提取。LSTM網(wǎng)絡(luò)又稱長短期記憶網(wǎng)絡(luò),具體指:通過對上一階段的詞袋表征進(jìn)行特征壓縮,獲得一個更有效的詞向量表示。n-gram hashing指:首先利用n-gram模型對上一階段的詞袋表征進(jìn)行維度擴(kuò)充,然后利用哈希降維得到特征向量。本階段的目的在于:提升XC的質(zhì)量,并將最終生成的特征向量記為φ(XC)。

(4)潛在表示階段。本階段中將所有特征列的特征向量φ(XC)串聯(lián)為一個最終特征向量,再通過Softmax進(jìn)行多分類,以便完成目標(biāo)列缺失值的填補。

2 實驗與評估

實驗的目的是實現(xiàn)多源異構(gòu)數(shù)據(jù)治理框架。如圖2所示,分別對信息提取、模式匹配、數(shù)據(jù)匹配、數(shù)據(jù)融合進(jìn)行評估,以驗證該框架的有效性與準(zhǔn)確性。實驗共采用5個數(shù)據(jù)集。

(1)信息檢索(information retrieval,IR)數(shù)據(jù)集。該數(shù)據(jù)集從國內(nèi)某大學(xué)知識庫網(wǎng)站中獲取,記錄了某高校所有的7 264名學(xué)者的個人信息。其中,“edu”為學(xué)者的學(xué)歷,“title”為學(xué)者的職稱,“intro”為學(xué)者的個人簡介,“field”為學(xué)者的研究方向,“paperQuan”為學(xué)者的論文數(shù)量,“publication”為學(xué)者的論文,“coauthor”為學(xué)者論文的合著者。以上個人信息共同構(gòu)成一個完整的結(jié)構(gòu)化數(shù)據(jù)表。

(2)數(shù)據(jù)庫系統(tǒng)和邏輯編程(database systems and logic programming,DBLP)數(shù)據(jù)集。該數(shù)據(jù)集從DBLP網(wǎng)站中獲取。DBLP數(shù)據(jù)集是計算機(jī)領(lǐng)域內(nèi)的一個英文文獻(xiàn)的集成數(shù)據(jù)庫系統(tǒng),以作者為核心,按時間順序列出了作者所有的科研成果,包括國際期刊和會議論文等所有公開發(fā)表的論文。該數(shù)據(jù)集的屬性列包括部門、學(xué)歷、職稱、郵箱、dblp_papers及合著者。

(3)愛奇藝優(yōu)酷騰訊元數(shù)據(jù)集。視頻數(shù)據(jù)源來自愛奇藝、優(yōu)酷及騰訊三方,涉及電影、電視劇、綜藝、紀(jì)錄片等視頻類型。該數(shù)據(jù)集提供總計215 169條描述這些視頻的元數(shù)據(jù),包含名字、演員、導(dǎo)演、類型、發(fā)布年份等22個屬性。

(4)智能電子節(jié)目指南(electronic program guide,EPG)補充元數(shù)據(jù)集。該數(shù)據(jù)集提供總計9 379條電影、動畫等來自智能EPG的視頻元數(shù)據(jù),包含演員、導(dǎo)演、語言、地區(qū)、故事、標(biāo)簽、年份等25個屬性。

(5)同洲媒資庫元數(shù)據(jù)集。該數(shù)據(jù)集提供總計500 013條元數(shù)據(jù),覆蓋電影、電視劇、新聞、音樂MV、教育課程等視頻類型,包含名字、演員、放映時長、地區(qū)、簡介、年份等47個屬性。

分別綜合2個論文數(shù)據(jù)集及3個視頻元數(shù)據(jù)集的特點,從中提取出一致的、更完善的信息,建立了2個更具凝聚力的數(shù)據(jù)集,再通過缺失值填補,提升融合數(shù)據(jù)集質(zhì)量。然后,在多源異構(gòu)數(shù)據(jù)治理的流程中,依序進(jìn)行不同方法的對比。

2.1 信息提取實驗

該實驗中采用信息提取技術(shù)獲取DBLP數(shù)據(jù)集的論文數(shù)據(jù)。其余數(shù)據(jù)集均為結(jié)構(gòu)化數(shù)據(jù)表,因此無需進(jìn)行信息提取。

DBLP數(shù)據(jù)集的獲取過程如下:根據(jù)第1.1節(jié)中算法1,結(jié)合自然語言處理中的命名實體識別技術(shù),從某高校機(jī)構(gòu)知識庫網(wǎng)站提取了學(xué)者的姓名、部門、職稱和學(xué)歷信息,然后利用正則表達(dá)式提取學(xué)者的郵箱信息。由于信息提取算法的效果格外依賴于命名實體識別的準(zhǔn)確性,因此比較了5種中文自然語言處理命名實體識別在學(xué)者信息識別上的準(zhǔn)確性。

(1)Google自然語言處理命名實體識別接口。一個由Google提供的支持多語言命名實體識別的應(yīng)用程序編程接口。

(2)THULAC中文詞法分析工具。一套由清華大學(xué)研制并推出的中文詞法分析工具包,具有中文分詞和詞性標(biāo)注等功能。

(3)DeepNLP工具。通過將Tensorflow深度學(xué)習(xí)平臺上的模塊與最新算法相結(jié)合,提供自然語言處理基礎(chǔ)模塊,并支持其他更加復(fù)雜的任務(wù)拓展。

(4)jieba分詞工具。一個Python中文分詞組件,支持中文文本的分詞、詞性標(biāo)注、關(guān)鍵詞抽取等操作;它的命名實體識別功能能夠準(zhǔn)確識別出人名,但不能準(zhǔn)確識別出人名外的其他實體。

(5)HanLP工具。一個由一系列模型與算法組成的自然語言處理工具包,提供的命名實體識別技術(shù)支持人名、地名及機(jī)構(gòu)名的準(zhǔn)確識別,能夠較好地識別出人名、職稱、學(xué)歷等信息。

綜合上述工具包的實驗效果,采用HanLP工具和jieba分詞工具共同識別學(xué)者姓名,然后根據(jù)取較長字符串的原則,融合兩者的姓名識別結(jié)果。在使用HanLP工具識別學(xué)者的職稱、學(xué)歷及機(jī)構(gòu)信息時,由于機(jī)構(gòu)名的構(gòu)成比較復(fù)雜,因此該工具只能完整識別出部分機(jī)構(gòu)名,存在識別出不完整機(jī)構(gòu)名的問題。該信息提取算法的信息提取準(zhǔn)確性如表1所示。

表1 信息提取算法準(zhǔn)確性Tab.1 Accuracy of information extraction algorithm

隨后,以獲取到的學(xué)者姓名拼音為關(guān)鍵詞,結(jié)合DBLP網(wǎng)站提供的英文文獻(xiàn)數(shù)據(jù)集中的論文數(shù)據(jù)與合著者數(shù)據(jù),最終獲得了實驗中用到的DBLP數(shù)據(jù)集。

2.2 模式匹配實驗

對上述5個數(shù)據(jù)集進(jìn)行模式匹配,分別進(jìn)行了2組實驗。第1組實驗針對論文數(shù)據(jù)集,將IR數(shù)據(jù)集中的屬性匹配DBLP數(shù)據(jù)集中的屬性;第2組實驗針對視頻元數(shù)據(jù)集,利用智能EPG補充元數(shù)據(jù)集中的屬性來匹配愛奇藝優(yōu)酷騰訊元數(shù)據(jù)集和同洲媒資庫元數(shù)據(jù)集中的屬性。本實驗采用了第1.2節(jié)中介紹的模式匹配方法。

2.2.1 論文數(shù)據(jù)集模式匹配

首先,在IR數(shù)據(jù)集及DBLP數(shù)據(jù)集上執(zhí)行基于機(jī)器學(xué)習(xí)的模式匹配,各分類器匹配結(jié)果如表2所示。表2中,√表示正確匹配,×表示錯誤匹配。

表2 DBLP數(shù)據(jù)集與IR數(shù)據(jù)集模式匹配結(jié)果Tab.2 Pattern matching results between DBLP dataset and IR dataset

可以看出,3-Gram Classifier的模式匹配效果明顯不如其他3種分類器。用KNN Classifier和CharDist Classifier進(jìn)行模式匹配后,正確匹配不大于3個,而使用綜合所有分類器的Flex Matcher時,正確匹配有4個。這是由于CharDist Classifier和KNN Classifier提取出的特征不能清晰地反映字符串屬性值的特性。

采用絕對多數(shù)投票法時,由于Flex Matcher分類器屬于集成分類器,其權(quán)重較大,因此本實驗中將其權(quán)重設(shè)為2;若2個結(jié)果的票數(shù)相當(dāng),則取Flex Matcher的結(jié)果作為匹配結(jié)果。在對n-Gram Classifier進(jìn)行絕對多數(shù)投票時,其內(nèi)部的多個分類器先進(jìn)行一次投票,投票結(jié)果作為n-Gram Classifier的結(jié)果。最終獲得的匹配結(jié)果如表3所示。

表3 DBLP數(shù)據(jù)集與IR數(shù)據(jù)集絕對多數(shù)投票結(jié)果Tab.3 Majority voting results for DBLP dataset and IR dataset

采用基于機(jī)器學(xué)習(xí)的模式匹配方法時,在實驗數(shù)據(jù)集上的匹配結(jié)果,不如采用基于相似度的匹配方法的結(jié)果好。原因可能是:實驗數(shù)據(jù)集中的數(shù)據(jù)基本都是字符串型數(shù)據(jù),而計算字符串的相似度能夠直接反映出2個屬性值的相似度,因此基于相似度的模式匹配得到了更好的結(jié)果。

2.2.2 視頻元數(shù)據(jù)集模式匹配

實驗中采用4種分類器對視頻元數(shù)據(jù)集執(zhí)行模式匹配,結(jié)果如表4所示。

表4 視頻元數(shù)據(jù)集與智能EPG數(shù)據(jù)集模式匹配結(jié)果Tab.4 Pattern matching results between video metadata sets and smart EPG datasets

可以發(fā)現(xiàn),CharDist Classifier和3-Gram Classifier的匹配結(jié)果較差。CharDist Classifier僅使用一些特殊字符的計數(shù)特征進(jìn)行訓(xùn)練,因此很難處理名字、地區(qū)等不含或者很少含有特殊字符的屬性。與上述2種分類器相比,KNN Classifier及FlexMatcher的效果稍好,但仍存在一些匹配的誤差。

總體來說,基于機(jī)器學(xué)習(xí)的模式匹配,在既包含字符屬性又包含數(shù)值屬性的數(shù)據(jù)集上取得了良好的實驗結(jié)果,其中Flex Matcher得到了最優(yōu)匹配結(jié)果。因此,在對數(shù)據(jù)表進(jìn)行模式匹配時,可以根據(jù)數(shù)據(jù)表中數(shù)據(jù)值的格式,有選擇性地靈活使用上述方法,以獲得較好的匹配效果。

2.3 數(shù)據(jù)匹配實驗

在獲取了匹配的屬性對后,或者說,在完成了縱向?qū)R后,開始數(shù)據(jù)匹配實驗。實驗中將對2個表指向同一實體的記錄進(jìn)行橫向?qū)R。本研究中采用Magellan包提供的分塊方法執(zhí)行對齊,并將結(jié)果進(jìn)行合并,以保證不會錯過正確匹配的元組。第1種分塊方法是Attribute Equivalence Blocking,即獲取所有在指定屬性對上的值完全相等的元組;第2種分塊方法是Overlap Blocking,即獲取所有在指定屬性對上的值有一定程度相同的元組;第3種分塊方法是Rule Based Blocking,即通過人為制定相似度規(guī)則對元組對進(jìn)行過濾。將這3種方法獲取到的元組合并之后,即可獲得一個排除掉明顯不匹配元組的笛卡爾積數(shù)據(jù)表C。

2.3.1 論文數(shù)據(jù)集數(shù)據(jù)匹配

首先,在DBLP數(shù)據(jù)集和IR數(shù)據(jù)集中選取合適的屬性對,并對其執(zhí)行分塊操作。排除含有較多空值的(郵箱,email)/(職稱,title)/(學(xué)歷,edu)屬性對,同時排除字符串長度過長的(dblp_papers,intro)屬性對,利用剩余的(部門,depart)、(姓名,name)及(coauthors,coauthor)屬性對分別執(zhí)行分塊操作。這樣就把問題轉(zhuǎn)化為二分類問題,即:判斷生成的候選表中的元組對是否為匹配元組對。

利用(姓名,name)屬性對執(zhí)行分塊操作時,在候選表中產(chǎn)生的元組對數(shù)量最少。因此,從該候選表中選取約450條候選數(shù)據(jù)作為Sample數(shù)據(jù)集,再分別抽取Sample數(shù)據(jù)集中的10%、20%、30%、40%數(shù)據(jù)并把它們?nèi)斯?biāo)注為訓(xùn)練集,然后將Tri-Training算法分別應(yīng)用于K近鄰分類器、隨機(jī)森林分類器及決策樹分類器,將小部分Sample數(shù)據(jù)集中的標(biāo)簽及其對應(yīng)的特征納入訓(xùn)練,最后比較不同大小的訓(xùn)練集和不同分類器下半監(jiān)督學(xué)習(xí)算法獲取標(biāo)簽的準(zhǔn)確率。實驗結(jié)果如表5所示。

表5 不同大小訓(xùn)練集及不同分類器下Tri-Training算法的標(biāo)簽獲取準(zhǔn)確率Tab.5 Accuracy of Tri-Training for label acquisition under different size training sets and different classifiers

可以看出,訓(xùn)練集中有標(biāo)簽的數(shù)據(jù)比例越大,Tri-Training算法的標(biāo)簽預(yù)測準(zhǔn)確率越高。這意味著需要更多人工標(biāo)注標(biāo)簽,因此折中選取了30%的有標(biāo)簽數(shù)據(jù)進(jìn)行后續(xù)實驗,并通過K近鄰分類器來獲取剩余數(shù)據(jù)的標(biāo)簽。在利用該方法完成剩余數(shù)據(jù)的標(biāo)注后,就可以獲得一個已標(biāo)注的Sample標(biāo)簽數(shù)據(jù)集。

將Sample標(biāo)簽數(shù)據(jù)集以7∶3比例劃分為訓(xùn)練集和測試集,并用其訓(xùn)練Magellan中提供的6種分類器,以找到最適用于此類數(shù)據(jù)的匹配器。以F1值作為評判標(biāo)準(zhǔn),6種分類器在Sample測試集上的表現(xiàn)如表6所示。

表6 Sample測試集在6種分類器上的表現(xiàn)Tab.6 Performance of six classifiers on sample test set

可以看出,隨機(jī)森林分類器的表現(xiàn)較好,取得了最高的平均F1值。因此,執(zhí)行論文數(shù)據(jù)集數(shù)據(jù)匹配時,選用隨機(jī)森林作為分類器。

隨后,需要選取合適的屬性對,并對其進(jìn)行搭配,以生成特征(即2個表中匹配屬性對應(yīng)的屬性值)。實驗中選取的特征如表7所示。其中,All表示采用所有的屬性對;-(C1,C2)表示從All集合中去除(C1,C2)屬性對;+(C1,C2)表示只采用該屬性對生成特征。最終的數(shù)據(jù)匹配準(zhǔn)確率結(jié)果如表7所示。

從表7可以看出,在用(姓名,name)匹配屬性對執(zhí)行分塊操作以生成候選數(shù)據(jù)集時,無論采用何種特征屬性對集合生成特征,其數(shù)據(jù)匹配的準(zhǔn)確率都是最高的。因此,利用(姓名,name)匹配屬性對生成候選數(shù)據(jù)集對結(jié)果最為有益。同時可以看出,只使用(部門,depart)屬性對的匹配準(zhǔn)確率高于使用全部屬性對的匹配準(zhǔn)確率,并且只使用(郵箱,email)匹配屬性對生成特征時,匹配的準(zhǔn)確率最高。此外,從只使用(職稱,title)、(學(xué)歷,edu)或(dblp_papers,intro)屬性對的匹配準(zhǔn)確率可以看出,這三者對于匹配準(zhǔn)確率的提升并無顯著作用。原因在于,這3個屬性對包含了較多空值,或包含了大量字符串?dāng)?shù)據(jù),因此生成的相似度特征區(qū)分度不大。從表7可以得出如下結(jié)論:在利用(姓名,name)屬性對對論文數(shù)據(jù)集執(zhí)行分塊操作,并且只使用(郵箱,email)屬性來生成特征時,獲得的數(shù)據(jù)匹配準(zhǔn)確率最高。

表7 在不同特征及不同分塊操作生成的候選數(shù)據(jù)集下數(shù)據(jù)匹配準(zhǔn)確率Tab.7 Data matching accuracy under candidate datasets generated by different features and different blocking

2.3.2 視頻元數(shù)據(jù)集數(shù)據(jù)匹配

首先,從第2.2.2節(jié)的視頻元數(shù)據(jù)集模式匹配實驗中,得到了名字、演員、導(dǎo)演、年份、地區(qū)、語言、標(biāo)簽共計7個公共屬性。為了縮減候選實體對集的規(guī)模,從公共屬性集中選取屬性執(zhí)行分塊操作,排除因描述角度不同而在4個實驗數(shù)據(jù)集中有較大語義差異的標(biāo)簽屬性,以及空值較多的年份、地區(qū)、語言屬性。根據(jù)名字、演員、導(dǎo)演3個屬性的特性,分別應(yīng)用不同的分塊方法對生成的笛卡爾積進(jìn)行篩選,具體如下:

(1)對名字屬性應(yīng)用Overlap Blocking。首先,用Trigram進(jìn)行分詞,并要求元組對至少在3個token上重疊,若名字屬性值不足以分出3個token,則不進(jìn)行過濾。

(2)對演員及導(dǎo)演屬性應(yīng)用Rule Based Blocking。過濾掉杰卡爾德相似度不足0.8的元組對,若演員或?qū)а輰傩詾榭罩?,則不進(jìn)行過濾。

經(jīng)分塊篩選后,得到候選實體對集。從候選實體對集中隨機(jī)抽取500個實體對,進(jìn)行人工標(biāo)注。將人工標(biāo)注后的500個實體對作為30%數(shù)據(jù),并對其應(yīng)用Tri-Training算法后,得到樣本集S。隨后,同樣按照7∶3的比例,把樣本集S劃分為訓(xùn)練集與測試集,再用6種分類器進(jìn)行訓(xùn)練。最后,通過五折交叉驗證找出最優(yōu)分類器。訓(xùn)練集上五折交叉驗證的實驗結(jié)果如表8所示。

表8 6種分類器在訓(xùn)練集上的五折交叉驗證結(jié)果Tab.8 Five-fold cross-validation results of six classifiers on training set

從F1值可以看出,從訓(xùn)練集中抽取所有公共屬性的特征時,隨機(jī)森林分類器和邏輯回歸分類器的分類效果較好。因此,在測試集上應(yīng)用以上2種方法,并抽取不同特征進(jìn)行對比實驗。F1值如表9所示。表9中,All表示采用所有的公共屬性,-A表示從All集合中去除A屬性,+A表示只采用該公共屬性生成特征。

從表9可以發(fā)現(xiàn):隨機(jī)森林與邏輯回歸分類器的精度、召回率以及F1值都差別不大;在大部分情況下,隨機(jī)森林分類器的表現(xiàn)略優(yōu)于邏輯回歸分類器。即便是同種方法,在各評估指標(biāo)上進(jìn)行縱向比較時仍然產(chǎn)生了較大差別。以F1值為例,在只利用地區(qū)、語言或標(biāo)簽這類區(qū)分度不高的屬性生成特征時,F(xiàn)1值降低至80%以下。由此可見,數(shù)據(jù)匹配的效果主要取決于生成特征的質(zhì)量,而非分類器本身的好壞。

表9 不同特征下在測試集上使用隨機(jī)森林與邏輯回歸分類器進(jìn)行數(shù)據(jù)匹配的結(jié)果Tab.9 Data matching results with random forest and logistic regression classifiers on test set under different characteristics

2.4 數(shù)據(jù)融合實驗

按照第1.4節(jié)中提出的數(shù)據(jù)融合流程進(jìn)行實驗。在數(shù)據(jù)匹配工作完成后,IR數(shù)據(jù)集與DBLP數(shù)據(jù)集已融合為一個數(shù)據(jù)集,3個來源不同的視頻元數(shù)據(jù)集也被合并為一個數(shù)據(jù)集,只有公共屬性尚未融合。依據(jù)第1.4節(jié)中的融合規(guī)則以及公共屬性的數(shù)據(jù)特性,對名字、部門、職稱等屬性保留同一實體的較長屬性值,對年份、語言、地區(qū)等屬性保留同一實體的較多屬性值,對演員、導(dǎo)演、標(biāo)簽等屬性保留同一實體的屬性并集。至此,多源數(shù)據(jù)集的實體已完成融合,但出現(xiàn)了一定數(shù)量的缺失值。缺失值的來源主要有以下2個方面:

(1)多源數(shù)據(jù)集本身的缺失。分以下3種情況:在某個公共屬性上,多源數(shù)據(jù)集對含有缺失值的公共實體(對齊的實體)的描述均缺失;在某個非公共屬性上,來源數(shù)據(jù)集對含有缺失值的公共實體的描述缺失;在實體融合前后,含有缺失值的非公共實體(未對齊的實體)在源數(shù)據(jù)集中的缺失屬性形式相同。

(2)數(shù)據(jù)融合產(chǎn)生的缺失。原本不含缺失值的非公共實體,在數(shù)據(jù)融合后由于數(shù)據(jù)集屬性列的擴(kuò)充而產(chǎn)生新的屬性缺失。

無論是原有的還是新產(chǎn)生的缺失,缺失信息都可能蘊藏在其他屬性列的描述中。因此,為了減少融合后數(shù)據(jù)集的缺失,提升融合數(shù)據(jù)集的質(zhì)量,對視頻元數(shù)據(jù)集非公共屬性中的DOUBAN_SCORE和TYPE以及公共屬性中的語言和地區(qū),進(jìn)行缺失值填補。

由于DOUBAN_SCORE為數(shù)值型屬性,采取均值、中位數(shù)、K近鄰、支持向量回歸、缺失森林、奇異值分解6種方法,對該屬性進(jìn)行填補。實驗結(jié)果如表10所示:

表10 6種方法對DOUBAN_SCORE屬性列填補的結(jié)果Tab.10 Results of filling the DOUBAN_SCORE attribute column for six methods

可以看到,K近鄰、支持向量回歸、缺失森林3種方法中,缺失森林取得了最好的預(yù)測結(jié)果。奇異值分解方法利用矩陣補全的思想對數(shù)值型屬性進(jìn)行填補,取得的效果較差。這可能是由于實驗數(shù)據(jù)集中數(shù)值型屬性列較少,難以滿足矩陣補全所需的低秩特征,而這種冗余性的缺少影響了奇異值分解方法的預(yù)測效果。

隨后,按照第1.4節(jié)中描述的字符型缺失數(shù)據(jù)填補框架,對TYPE、語言和地區(qū)屬性列進(jìn)行填補。將類別屬性建模為分類變量,先進(jìn)行獨熱編碼,再進(jìn)行詞嵌入來生成特征;將自由文本屬性建模為序列變量,分別采用LSTM網(wǎng)絡(luò)及n-gram hashing 2種方法完成實驗,然后以眾數(shù)填充作為基線方法完成對比。以準(zhǔn)確率為評估指標(biāo),對實驗結(jié)果進(jìn)行評估。此處準(zhǔn)確率定義為預(yù)測正確的樣本占所有測試樣本的比例。愛奇藝優(yōu)酷騰訊元數(shù)據(jù)集、智能EPG補充元數(shù)據(jù)集、同洲媒資庫元數(shù)據(jù)集以及融合后的數(shù)據(jù)集上的實驗結(jié)果如表11所示。

從表11可以發(fā)現(xiàn),LSTM網(wǎng)絡(luò)及n-gram hashing在不同數(shù)據(jù)集的不同屬性上各有優(yōu)劣??傮w而言,n-gram hashing的準(zhǔn)確率稍好于LSTM網(wǎng)絡(luò)。這可能是由于實驗數(shù)據(jù)集中含有的長文本字段較少,LSTM網(wǎng)絡(luò)在特征提取上的優(yōu)越性難以發(fā)揮。同時對比3個屬性的填補效果,TYPE屬性上的填補準(zhǔn)確率明顯高于語言及地區(qū)屬性,這與數(shù)據(jù)的分布特征一致。TYPE的種類少于其他2種屬性,因此預(yù)測難度較小。此外,在語言及地區(qū)屬性方面,由于存在一些語義相同但表述不同的屬性值,如“中國大陸”與“中國內(nèi)地”,還有一些多值干擾,因此預(yù)測難度較大??傮w來看,與眾數(shù)填充方法相比,LSTM網(wǎng)絡(luò)及n-gram hashing的填充效果都有巨大提升,驗證了所提出的缺失值填補框架的有效性。

表11 采用3種方法對不同數(shù)據(jù)集的不同屬性列填補的準(zhǔn)確率Tab.11 Accuracy of imputation for different attribute columns in different datasets with three methods

2.5 有效性驗證

基于半監(jiān)督學(xué)習(xí)的多源異構(gòu)數(shù)據(jù)治理框架的目標(biāo)是:盡可能地減少人工參與,并盡可能提高數(shù)據(jù)治理過程中的自動化程度。因此,將數(shù)據(jù)治理過程中所花費的時間作為評估指標(biāo),在5個數(shù)據(jù)集上進(jìn)行數(shù)據(jù)治理,然后對比全人工方式所花費的時間與所提出方法所花費的時間,如表12所示。其中,基于人工的數(shù)據(jù)治理,因不同個體所花費時間不一,所需時間基本為估計值;使用本研究中所提出的治理方法時,由于在數(shù)據(jù)匹配過程中僅需要少量人工標(biāo)記數(shù)據(jù),并且數(shù)據(jù)融合過程需要人工制定規(guī)則,因此這兩部分所需的時間也為估計值。在數(shù)據(jù)匹配過程中,僅對少部分匹配數(shù)據(jù)做了人工標(biāo)記,采用了半監(jiān)督學(xué)習(xí)的方法進(jìn)行預(yù)測,這在一定程度上導(dǎo)致匹配準(zhǔn)確率有所降低,卻也大大減少了人工數(shù)據(jù)匹配所需的時間。可以看出,在數(shù)據(jù)量較大的視頻元數(shù)據(jù)集上,對比人工數(shù)據(jù)治理方法,本研究中提出的多源異構(gòu)數(shù)據(jù)治理框架的效率大大提升。需要指出的是,有些任務(wù)幾乎不可能依賴人工完成。

表12 利用2種方法進(jìn)行數(shù)據(jù)治理所需時間對比Tab.12 Comparison of time required for data governance between two methods

3 結(jié)語

設(shè)計并測試了一個基于半監(jiān)督學(xué)習(xí)的多源異構(gòu)數(shù)據(jù)治理架構(gòu),將現(xiàn)實世界中描述同一實體但來自不同數(shù)據(jù)源的異構(gòu)數(shù)據(jù)整合為結(jié)構(gòu)化數(shù)據(jù)。具體流程包括信息提取、模式匹配、數(shù)據(jù)匹配和數(shù)據(jù)融合4個部分。實驗結(jié)果表明,該架構(gòu)不僅能夠有效破解“數(shù)據(jù)孤島”狀態(tài),而且在盡可能減少人工參與的情況下顯著提升數(shù)據(jù)質(zhì)量。

作者貢獻(xiàn)聲明:

饒衛(wèi)雄:數(shù)據(jù)治理方法提出,論文的撰寫和修改。

高宏業(yè):代碼實現(xiàn),實驗驗證,論文的撰寫和修改。

林程:代碼實現(xiàn),實驗驗證,論文的撰寫和修改。

趙欽佩:方法和實驗指導(dǎo),論文的撰寫和修改。

葉豐:方法和實驗指導(dǎo),論文修改。

猜你喜歡
模式匹配元組分類器
Python核心語法
電腦報(2021年14期)2021-06-28 10:46:22
基于模式匹配的計算機(jī)網(wǎng)絡(luò)入侵防御系統(tǒng)
電子制作(2019年13期)2020-01-14 03:15:32
海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
具有間隙約束的模式匹配的研究進(jìn)展
移動信息(2018年1期)2018-12-28 18:22:52
OIP-IOS運作與定價模式匹配的因素、機(jī)理、機(jī)制問題
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于減少檢索的負(fù)表約束優(yōu)化算法
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
基于散列函數(shù)的模式匹配算法
西畴县| 博湖县| 甘谷县| 通榆县| 伊通| 西畴县| 龙泉市| 武川县| 兰州市| 敖汉旗| 邹平县| 刚察县| 洪泽县| 遂平县| 巴南区| 北京市| 邹城市| 赫章县| 通化市| 池州市| 双流县| 大关县| 陆川县| 滕州市| 黑河市| 孟连| 南部县| 镇康县| 东平县| 偏关县| 马关县| 灵宝市| 铁岭市| 银川市| 台山市| 大庆市| 麻城市| 马尔康县| 綦江县| 彭阳县| 福泉市|