国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)空間中一種基于步進(jìn)的后映射(SPM)迭代方法

2021-11-12 02:17露,
關(guān)鍵詞:子集閾值語(yǔ)義

吉 露, 曹 斌

(1 貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽(yáng) 550025;2 中鋁智能科技發(fā)展有限公司, 杭州 310000)

0 引 言

當(dāng)前,數(shù)據(jù)正呈現(xiàn)著海量、多樣和動(dòng)態(tài)的特點(diǎn),使得數(shù)據(jù)集成和數(shù)據(jù)管理需要遵循pay-as-you-go的模式[1],數(shù)據(jù)的管理是在管理過(guò)程中逐步的完善,這有別于傳統(tǒng)的數(shù)據(jù)庫(kù)系統(tǒng)以及數(shù)據(jù)集成系統(tǒng)中高成本、高功能的集成和管理技術(shù)。因此,數(shù)據(jù)空間以“pay-as-you-go”的模式來(lái)管理這些海量、動(dòng)態(tài),異構(gòu)數(shù)據(jù)為目標(biāo)的新型數(shù)據(jù)管理方式應(yīng)運(yùn)而生[2-3]。然而,由于數(shù)據(jù)間的模式異構(gòu)帶來(lái)數(shù)據(jù)的檢索效率下降,一定程度上阻礙了數(shù)據(jù)空間的發(fā)展。

將數(shù)據(jù)空間看作是一個(gè)虛擬的空間,在其中管理許多的數(shù)據(jù)源,而不去考慮其結(jié)構(gòu)和位置[4];這樣做的目的是不需要任何領(lǐng)域?qū)<覅f(xié)助的情況下,提供基本的功能服務(wù),信息的檢索和關(guān)鍵字檢索等。然后創(chuàng)建自動(dòng)的語(yǔ)義映射,這將導(dǎo)致多種可能的語(yǔ)義映射,映射的結(jié)果有些是正確的,有些并不完全正確,這帶來(lái)了第一類不確定映射,概率模式映射和可靠中介模式映射用來(lái)處理多個(gè)可能映射之間的不確定[5]。在概率映射和可靠中介模式映射中,系統(tǒng)需要選擇一個(gè)閾值,數(shù)據(jù)空間中語(yǔ)義映射的數(shù)量較大,選擇一個(gè)閾值成為一項(xiàng)不確定的任務(wù),會(huì)帶來(lái)數(shù)據(jù)丟失。

針對(duì)模式匹配,COMA系統(tǒng)通過(guò)組合多個(gè)匹配器來(lái)提高兩個(gè)輸入模式之間的語(yǔ)義映射[6];另一個(gè)系統(tǒng)SF以兩個(gè)圖模式作為輸入,并在模式的對(duì)應(yīng)節(jié)點(diǎn)之間生成映射作為輸出[7]。PORSCHE從一組基于樹的多個(gè)輸入模式中提供了一個(gè)中介模式[8]。這些系統(tǒng)都只是接受兩個(gè)源模式作為輸入,而其它系統(tǒng)接受多個(gè)模式但通常都帶有領(lǐng)域?qū)<业姆答?,?shù)據(jù)空間的應(yīng)用領(lǐng)域中,用戶可能沒(méi)有足夠的技能來(lái)操作映射器或提供精確的映射,并且連接到數(shù)據(jù)空間的源模式具有異構(gòu)的結(jié)構(gòu),可以是文件,關(guān)系數(shù)據(jù)庫(kù),XML存儲(chǔ)庫(kù),web頁(yè)面等。因此,數(shù)據(jù)空間需要一種新的數(shù)據(jù)集成方法。數(shù)據(jù)空間中的集成是“pay-as-you-go”現(xiàn)收現(xiàn)付方式[9]。對(duì)于數(shù)據(jù)空間這樣的數(shù)據(jù)管理場(chǎng)景下,黃毅芳等人將本體的概念引入到數(shù)據(jù)空間中[10];在引入本體概念的情況下,蘇暢提出一種基于hash映射,將記錄映射為空間中的一個(gè)個(gè)點(diǎn),進(jìn)行映射結(jié)果的分塊[11];寇月等人提出了語(yǔ)義項(xiàng)映射方法,考慮數(shù)據(jù)源間的語(yǔ)義關(guān)聯(lián)[12];Kuicheu等提出了一種將概率映射與可靠度(RMedMap)結(jié)合的方法,通過(guò)設(shè)定閾值來(lái)確定可靠的映射集,容易帶來(lái)數(shù)據(jù)的丟失[13]。本文提出了一種后映射方法(SPM)來(lái)處理這種映射的不確定性,不需要選擇閾值。引入可能性理論,將可靠的映射集合進(jìn)行排序并劃分為可能性分布的子集,給每個(gè)子集分配一個(gè)遞歸可能度函數(shù),其是源模式和目標(biāo)可靠的中介模式間最可靠的映射。本文提出的SPM算法與現(xiàn)有的概率映射(possibility)、概率-可靠映射(RMedMap)以及falcon映射進(jìn)行了對(duì)比。

1 處理可靠映射間的不確定性

1.1 數(shù)據(jù)空間中的映射架構(gòu)

數(shù)據(jù)空間中,模式匹配和可靠映射的映射架構(gòu)如圖1所示。從連接到數(shù)據(jù)空間的數(shù)據(jù)源,首先提取其內(nèi)部圖表示;其次,進(jìn)行語(yǔ)法,語(yǔ)義和結(jié)構(gòu)匹配,來(lái)推導(dǎo)出圖表示之間的語(yǔ)義和結(jié)構(gòu)關(guān)系,將語(yǔ)義和結(jié)構(gòu)關(guān)系合并在一起,產(chǎn)生可能的中介模式;最終,系統(tǒng)計(jì)算中介模式的可靠度,生成可靠的語(yǔ)義映射傳遞給查詢。

圖1 映射架構(gòu)

1.2 可靠的模式匹配和映射原則

1.2.1 相似性計(jì)算

假設(shè)兩個(gè)源模式Si和Sj,ei和ej分別是Si和Sj的兩個(gè)非葉元素節(jié)點(diǎn),非葉元素節(jié)點(diǎn)是從源模式的對(duì)應(yīng)圖表示中收集的概念,并非是其葉子結(jié)點(diǎn)。引入信息熵概念計(jì)算元素ei和ej的語(yǔ)義相似度,式(1):

(1)

其中,IC(c)=-log2p(c)是元素e所含的信息量,δ是正實(shí)數(shù)。

基于元素節(jié)點(diǎn)ei和ej所處的圖模式中的位置,計(jì)算ei和ej之間的結(jié)構(gòu)相似度[13],式(2):

(2)

其中,d(e)是e在這個(gè)模式圖表示中的等級(jí),d(MS(e1,e2))表示e1,e2最近的父節(jié)點(diǎn)的位置距離。

根據(jù)語(yǔ)義關(guān)系以及結(jié)構(gòu)關(guān)系合并,構(gòu)建出可能的中介模式,如對(duì)于鋁電解的原料構(gòu)成成分中的兩個(gè)源模式S1和S2,如圖2所示。

圖2 模式對(duì)比

對(duì)于源模式S1和S2,S1中的ingredient通常是用于氧化鋁濃度分析的元素,是關(guān)于元素的常見(jiàn)信息,name可以是一個(gè)普通名稱(CommonName),科學(xué)名稱(ScientificName), 方言(VernacularName),raw material是氧化鋁原材料的元素,當(dāng)用戶進(jìn)行查詢時(shí),計(jì)算相應(yīng)的可靠度d(m)將S1中ingredient映射到S2中的raw materia,得到兩個(gè)模式間可能的映射為:(ingredient,raw material)、(site,reference)和(name,name)等。

1.2.2 可靠度計(jì)算

考慮到一組可能的中介模式的實(shí)例T和給定的源模式Si,其目的就是要找出T關(guān)于Si是否可靠,并賦予T一個(gè)關(guān)于Si的可靠度??煽慷葟膬蓚€(gè)方面來(lái)考慮,首先以結(jié)構(gòu)角度來(lái)檢驗(yàn)T相對(duì)于Si是否可靠,稱為結(jié)構(gòu)可靠度,若T的根節(jié)點(diǎn)在結(jié)構(gòu)上是可靠的,那么T相對(duì)于Si則是可靠的。結(jié)構(gòu)可靠度的計(jì)算方法為結(jié)構(gòu)上等同于Si子節(jié)點(diǎn)的T的子節(jié)點(diǎn)數(shù)與Si的子節(jié)點(diǎn)數(shù)之比。T相對(duì)于S的結(jié)構(gòu)可靠度公式(3)如下:

(3)

計(jì)算T關(guān)于Si的可靠度,式(4):

(4)

其中,d(e)是元素e所屬組元素之間的相似值,p(e)表示在中介模式中遇到元素e實(shí)例的概率,是包含e的中介模式的數(shù)量除以中介模式的總數(shù)的比值。

如果滿足條件(1)和(2),T對(duì)Si是可靠的:

(2)dT/Si>β。

對(duì)于上文提到的源模式S1和S2,表1給出了一組5種可能的相互不同的映射mi(i=1,…,5)及其相應(yīng)可靠度。

表1 可能映射及可靠度

2 可能性理論

語(yǔ)義映射的數(shù)量較大時(shí),閾值的選擇可能成為一項(xiàng)不確定的任務(wù),并可能導(dǎo)致信息丟失。因此,引入了基于可能性理論的后映射方法(SPM),用于管理可靠映射之間的不確定性。

可能性理論是一種專注于處理不完全信息的不確定性理論,類似于概率論。通過(guò)使用一對(duì)稱為可能性和必要性測(cè)度的對(duì)偶函數(shù)來(lái)消除概率,而不是僅使用一個(gè)。也就是說(shuō),事件分離的可能性程度是單個(gè)事件可能性程度的最大值。相反,事件關(guān)聯(lián)的必然性程度是單個(gè)事件的最小必然性程度。

使用最大值和最小值運(yùn)算,以及對(duì)RmedMap方法的彌合,符合計(jì)算簡(jiǎn)單性的要求。在許多的真實(shí)應(yīng)用中,這種不確定性具有相當(dāng)粗略和定性的性質(zhì)。但在可能性理論中,不確定性的建??赡苋匀皇嵌ㄐ缘?。因此,需要使用一個(gè)有限的完全有序的可靠性等級(jí)鏈,在這里用在0~1之間的數(shù)λ來(lái)表示,λ1=0<λ2<λ3<…<λn=1。

2.1 后映射算法

構(gòu)建DSSP的目的是為用戶提供信息檢索或關(guān)鍵字搜索等基本功能。因此,系統(tǒng)產(chǎn)生的結(jié)果應(yīng)考慮與DSSP連接的源中所有可用的信息。rMedMap是一種基于可靠性的方法,使系統(tǒng)能夠利用源中盡可能多的可用信息,相比之下,概率映射是一種基于概率的方法,考慮的可用信息較少。本文提出的后映射方法利用連接到DSSP的源中所有信息。SPM映射方法是一種基于步進(jìn)的方法,其使用后一組可用信息的結(jié)果提供當(dāng)前可用信息集的結(jié)果,如圖3所示。

圖3 步進(jìn)的后映射方法

在step1中,系統(tǒng)只處理子集F1及其相應(yīng)的特征函數(shù)ΨF1,在step2中進(jìn)一步對(duì)子集F1進(jìn)行擴(kuò)展,構(gòu)造出子集F2及其對(duì)應(yīng)的特征函數(shù)ψF2,ψF2也攜帶后一個(gè)特征函數(shù)ψF1的信息,以此類推。

2.2 SPM映射過(guò)程

引入可靠映射定義,對(duì)于源模式S,目標(biāo)模式T,一個(gè)可靠的中介模式是一個(gè)(T,dT/Si),T是可能的中介模式,dT/Si是T對(duì)于S的可靠性程度。

一個(gè)與標(biāo)簽tag(xi,xj)相匹配的標(biāo)簽是一個(gè)四元組:

Tag(xi,xj,sim(xi,xj),op(xi,xj))

(5)

sim(xi,xj)為xi和xj之間的語(yǔ)義相似性,op(xi,xj)是xi和xj在結(jié)構(gòu)上的相似度。例如,對(duì)于實(shí)驗(yàn)數(shù)據(jù)集中ingredient與raw material之間的匹配標(biāo)簽為:

tag(ingreditnt,rawmaterial)=(ingredient,

rawmaterial,0.78,≡)

一個(gè)可靠的映射m是一對(duì)元組(m,d(m)),m是S和T之間的一組相互不同的一對(duì)一標(biāo)簽匹配結(jié)果,d(m)是映射M對(duì)S的可靠度。根據(jù)已給出的應(yīng)用實(shí)例,得到一個(gè)可靠的映射:

(m1,d(m1))=

((ingredient,rawmaterial),0.78,≡),

(quantity,quantity,0.93,≡),(name,name,0.93,≡),(site,reference,0.5,≡)

S和T之間得到的可靠的映射集M是一組成對(duì)的組合:

M={(m1,d(m1)),(m2,d(m2)),(m3,d(m3)),(m4,d(m4)),(m5,d(m5))}是一個(gè)可靠的映射集,是源模式和目標(biāo)模式之間相互獨(dú)立的可靠映射集。為語(yǔ)義映射分配可靠度有利于克服自動(dòng)生成的多個(gè)映射之間的不確定性,管理所得到的可靠映射集,大多數(shù)方法采用了可靠性閾值。閾值方法會(huì)導(dǎo)致一個(gè)層面的不確定性。事實(shí)上,如果語(yǔ)義映射是互不相同的,那么可靠度的值取決于系統(tǒng)自動(dòng)產(chǎn)生的語(yǔ)義映射的數(shù)量。如果語(yǔ)義映射的數(shù)量較高,則可靠性會(huì)較低,這樣選擇一個(gè)閾值來(lái)進(jìn)行可靠映射集的選擇成為了一項(xiàng)不確定的任務(wù)。例如,若選擇一個(gè)閾值為0.1,隱藏在映射m5中的數(shù)據(jù)信息會(huì)丟失,這是因?yàn)閐(m5)<0.1,。為了解決這樣的不確定性問(wèn)題,引入可能性理論,引導(dǎo)系統(tǒng)處理所有可用的數(shù)據(jù)信息,提出了SPM映射方法,將可靠的映射集劃分為可能性分布的子集。為了構(gòu)造這些子集,對(duì)得到的映射集合M中的元素進(jìn)行降序的排序,并且向該集合固定的增加兩個(gè)可靠映射元組,(mhigh,d(mhigh))和(mlow,d(mlow)),使得d(mhigh)=1,d(mlow)=0。一個(gè)有序集合U={(u1,d(u1)), ……,(un,d(un))}是一個(gè)可靠的映射集M通過(guò)降序得到,并使得:

(1)d(u1)>d(u2)>…>d(un)

(2)(u1,d(u1))=(mhigh,d(mhigh))

(3)(un,d(un))=(mlow,d(mlow))

通過(guò)得到的可靠映射集,將加入的兩個(gè)可靠映射元組構(gòu)成集合,可以構(gòu)建一個(gè)有序的映射集U={(u1,d(u1)),(u2,d(u2)),……,(u7,d(u7))},且滿足:

(1)(u1,d(u1))=(mhigh,1)

(2)(u2,d(u2))=(m1,0.272)

(3)(u3,d(u3))=(m2,0.235)

(4)(u4,d(u4))=(m3,0.210)

(5)(u5,d(u5))=(m4,0.176)

(6)(u6,d(u6))=(m5,0.106)

(7)(u7,d(u7))=(mlow,0)

得到的映射集合U為一個(gè)n>1的有序映射集,并且1-d(ui)=d(d(un+1-i)),U={(u1,d(u1)),(u2,d(u2)),…,(u7,d(u7))},使d(u1)>d(u2)>…>d(un)。定義n個(gè)子集Fi,Fi={u1,u2,…,ui}(n為子集Fi的數(shù)目),特征函數(shù)ψFi由映射集的可靠度得到,1≤i≤n,對(duì)應(yīng)的特征函數(shù)如下:

Fi={u1,u2,…,ui}

(6)

(7)

基于上述實(shí)例以映射子集F1為例,映射子集F1相應(yīng)特征函數(shù),式(8)。

(8)

根據(jù)這個(gè)例子,還可以構(gòu)造可能性分布的子集F2,F3,F4,F5,F6和F7及其對(duì)應(yīng)的特征函數(shù)。ψF2,ψF3,ψF4,ψF5,ψF6和ψF7,迭代特征函數(shù)ψFi與可靠度函數(shù)d(u)比較,F(xiàn)i?U。

設(shè)Fi是U的第i個(gè)子集,使得uj1,uj2∈U,其中至少一個(gè)屬于Fi,F(xiàn)i(uj1)>Fi(uj2),當(dāng)且僅當(dāng)d(uj1)>d(uj2)。

可靠匹配算法如下:

輸入:可能的中介模式T1,T2,…,Tm

源模式Si

輸出:可靠的中介模式

計(jì)算模式間語(yǔ)義相似度以及結(jié)構(gòu)相似度,得到標(biāo)簽匹配元組tag,合并得到可能的可靠中介模式T

可行理論:引入兩個(gè)額外的可靠中介模式,(mhigh,d(mhigh)),(mlow,d(mlow)),使得d(mhigh)=1,d(mlow)=0。

開始

循環(huán)j=1~m

判斷 計(jì)算中介模式T對(duì)于源模式S的可靠度d(m)

得到可靠映射元組M,根據(jù)其可靠度d(mi)降序排序

返回降序排序的映射集U

迭代映射 定義N個(gè)子集Fi,F(xiàn)i={u1,u2,…,ui},根據(jù)式(5)特征函數(shù)得到新可靠度,獲得降序排序后的映射子集,映射子集不斷迭代,直到結(jié)束

結(jié)束循環(huán)

提取所有可靠映射集

結(jié)束

3 實(shí)驗(yàn)分析

本算法使用java語(yǔ)言實(shí)現(xiàn),在IntelliJ IDEA平臺(tái)上實(shí)現(xiàn)。為驗(yàn)證本方法的可行性,從國(guó)內(nèi)某鋁廠數(shù)據(jù)平臺(tái)中獲取實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。共選取120個(gè)數(shù)據(jù)集,共4類,其中有6個(gè)數(shù)據(jù)集詞匯與結(jié)構(gòu)上都相似,34個(gè)數(shù)據(jù)集詞匯不相似,結(jié)構(gòu)上相似,12個(gè)數(shù)據(jù)集詞匯上相似,78個(gè)結(jié)構(gòu)上不相似數(shù)據(jù)集,見(jiàn)表2。

表2 數(shù)據(jù)集分布

采用標(biāo)準(zhǔn)指標(biāo)對(duì)方法進(jìn)行評(píng)估,即精度、召回率與F-measure方法作為映射方法的指標(biāo)。T是由映射工具提供的非空映射,Te是由專家匹配器提供的非空映射。

Presicion:表示由映射工具產(chǎn)生的映射中正確映射的比例,式(9)。

(9)

Recall:表示由系統(tǒng)提取的正確映射的比例,式(10)。

(10)

F-measure:是建立在精度Presicion和召回率Recall上面的一個(gè)折衷,式(11)。

(11)

表2列出了結(jié)構(gòu)與語(yǔ)義不同的4種數(shù)據(jù)集,將本文提出的SPM算法與已有的算法進(jìn)行比較,結(jié)果如圖4、表3所示。

圖4 不同方法的查準(zhǔn)率比較

表3 查全率與F-measure方法比較

由上述結(jié)果對(duì)比可看出,對(duì)于詞匯與結(jié)構(gòu)都相似類別的數(shù)據(jù)集,在每一種方法中的映射效果都較好,F(xiàn)alcon、Possibility以及RMedMap方法得到的精度與召回率相對(duì)來(lái)說(shuō)都比較高;對(duì)于F-measure綜合指標(biāo),本文的映射方法能夠比較好的得到較好精確的映射結(jié)果,綜合評(píng)價(jià)效果較好。

對(duì)于類別2來(lái)說(shuō),本文的方法得到的精確率較高,在Recall方面,次于Possibility方法;查全率方面,本文的算法有待提高。對(duì)于類別3和類別4來(lái)說(shuō),精確度在這些方法中具有優(yōu)勢(shì),召回率方面有待提高,從F-measure結(jié)果來(lái)看,SPM方法在精確度與召回率兩個(gè)方面最好。

4 結(jié)束語(yǔ)

本文針對(duì)數(shù)據(jù)空間中動(dòng)態(tài)的數(shù)據(jù)集成方式及數(shù)據(jù)空間平臺(tái)上的不確定性映射問(wèn)題,提出基于可能性理論的后映射方法,管理獨(dú)立的源模式自動(dòng)提供的可靠映射。本文的方法使系統(tǒng)自動(dòng)管理包含在自動(dòng)提供的映射中的所有可用信息,使用降序排序的方法,得到所有的可靠映射集合,在得到高可靠映射結(jié)果的同時(shí)得到了所有可用的信息,但在查全率上還有待提高。

猜你喜歡
子集閾值語(yǔ)義
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
非平穩(wěn)聲信號(hào)下的小波變換去噪方法研究
高一上學(xué)年期末綜合演練
基于改進(jìn)閾值的MRI圖像降噪
土石壩壩體失穩(wěn)破壞降水閾值的確定方法
一種改進(jìn)小波閾值去噪法及其仿真
集合的運(yùn)算
每一次愛(ài)情都只是愛(ài)情的子集
漢語(yǔ)依憑介詞的語(yǔ)義范疇
大关县| 栖霞市| 泰兴市| 长宁区| 区。| 久治县| 昔阳县| 西乡县| 边坝县| 太仓市| 浠水县| 海兴县| 荆门市| 汨罗市| 湛江市| 韶关市| 辰溪县| 光山县| 二连浩特市| 汨罗市| 普陀区| 同德县| 清远市| 突泉县| 黎平县| 庐江县| 石柱| 鲁山县| 南投县| 周口市| 玉溪市| 晋城| 仙游县| 白玉县| 南投市| 惠东县| 九龙县| 水城县| 师宗县| 县级市| 彭阳县|