国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多目標(biāo)蟻群算法的穩(wěn)定參考點(diǎn)選擇

2019-08-22 09:59曹建軍鄭奇斌李紅梅
關(guān)鍵詞:參考點(diǎn)子集異構(gòu)

張 磊,曹建軍,劉 藝,鄭奇斌,李紅梅,馮 欽

(1.陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007;2.國防科技大學(xué) 第六十三研究所,江蘇 南京 210007)

0 引 言

實(shí)體分辨是找到同一實(shí)體在同一數(shù)據(jù)源或不同數(shù)據(jù)源的不同描述,正確識(shí)別出不同實(shí)體的過程[1]。隨著互聯(lián)網(wǎng)數(shù)據(jù)產(chǎn)生能力的增強(qiáng),異構(gòu)數(shù)據(jù)成為大多數(shù)互聯(lián)網(wǎng)應(yīng)用和平臺(tái)的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)[2]。例如一個(gè)互聯(lián)網(wǎng)分享平臺(tái)可能包括了視頻、圖片、文本標(biāo)簽等數(shù)據(jù),并形成了圖片分享、圖片標(biāo)注等關(guān)聯(lián)交互關(guān)系。這些異構(gòu)數(shù)據(jù)處在不同的特征空間,因此傳統(tǒng)的直接比較特征相似度的方法不能適用于異構(gòu)數(shù)據(jù)的實(shí)體分辨。

現(xiàn)有異構(gòu)數(shù)據(jù)實(shí)體分辨方法主要是通過學(xué)習(xí)一個(gè)公共的空間,并將異構(gòu)的數(shù)據(jù)映射到該空間,從而使得異構(gòu)的數(shù)據(jù)能夠在一個(gè)公共的空間進(jìn)行實(shí)體分辨[3]。但該類方法需要大量的訓(xùn)練數(shù)據(jù)集,而異構(gòu)數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集獲取成本高昂[4]。為了降低對訓(xùn)練數(shù)據(jù)的需求,同時(shí)保持較高的實(shí)體分辨準(zhǔn)確性,Zheng提出了一種基于空間結(jié)構(gòu)相似性的實(shí)體分辨方法[5]。該方法主要從兩個(gè)異構(gòu)的數(shù)據(jù)源中分別選擇表示為同一實(shí)體的數(shù)據(jù)對象作為參考點(diǎn),將異構(gòu)的數(shù)據(jù)對象轉(zhuǎn)換成其到各自參考點(diǎn)的距離向量,依據(jù)空間結(jié)構(gòu)的相似性來判斷是否為同一實(shí)體。在該方法中,參考點(diǎn)的選擇將影響數(shù)據(jù)的空間結(jié)構(gòu)表征,進(jìn)而影響實(shí)體分辨的準(zhǔn)確性。同時(shí),參考點(diǎn)選擇的穩(wěn)定性也成為影響數(shù)據(jù)空間結(jié)構(gòu)表征的重要因素。

參考點(diǎn)選擇穩(wěn)定性是指選擇方法對訓(xùn)練數(shù)據(jù)的微小擾動(dòng)具有一定的魯棒性,即能夠生成較為穩(wěn)定的參考點(diǎn)子集。在基于空間結(jié)構(gòu)相似性的異構(gòu)數(shù)據(jù)實(shí)體分辨中,由于參考點(diǎn)集的選擇將影響數(shù)據(jù)的空間結(jié)構(gòu)表征,穩(wěn)定的參考點(diǎn)集具有較好的數(shù)據(jù)空間結(jié)構(gòu)表征能力,從而提高了實(shí)體分辨的準(zhǔn)確性。提高參考點(diǎn)集選擇的穩(wěn)定性可以選擇出較為穩(wěn)定的參考點(diǎn)集,從而提高數(shù)據(jù)的空間結(jié)構(gòu)表征能力,提高實(shí)體分辨的準(zhǔn)確性,增強(qiáng)結(jié)果的可信度。同時(shí),如果僅采用實(shí)體分辨準(zhǔn)確性評價(jià)參考點(diǎn)集的效果,在未知數(shù)據(jù)集上訓(xùn)練模型上易產(chǎn)生不穩(wěn)定的泛化錯(cuò)誤,通過穩(wěn)定的參考點(diǎn)選擇方法可以減少泛化錯(cuò)誤,進(jìn)一步提高模型的泛化能力。

文中主要對異構(gòu)數(shù)據(jù)實(shí)體分辨參考點(diǎn)選擇穩(wěn)定性問題進(jìn)行研究。為提高參考點(diǎn)選擇的穩(wěn)定性,進(jìn)而選擇出較優(yōu)的參考點(diǎn)集,提高異構(gòu)數(shù)據(jù)實(shí)體分辨的準(zhǔn)確性,以實(shí)體分辨準(zhǔn)確性和參考點(diǎn)子集穩(wěn)定性最優(yōu)為目標(biāo)建立模型,使用多目標(biāo)蟻群算法對模型進(jìn)行求解,從而選擇出較為穩(wěn)定的參考點(diǎn)集。通過實(shí)驗(yàn)驗(yàn)證了該方法的有效性和優(yōu)越性。

1 相關(guān)工作

為了解決異構(gòu)數(shù)據(jù)實(shí)體分辨問題,近年來學(xué)者們提出了大量的解決異構(gòu)數(shù)據(jù)實(shí)體分辨的方法,其中以利用學(xué)習(xí)公共空間的方法最為廣泛,因此文中主要介紹學(xué)習(xí)公共空間的異構(gòu)數(shù)據(jù)實(shí)體分辨方法。

利用學(xué)習(xí)公共空間的方法進(jìn)行實(shí)體分辨主要是通過學(xué)習(xí)一個(gè)公共的空間,通過將異構(gòu)的數(shù)據(jù)映射到該空間進(jìn)行實(shí)體分辨的過程。Rasiwasia等[6]運(yùn)用典型相關(guān)分析(canonical correlation analysis,CCA)進(jìn)行異構(gòu)數(shù)據(jù)的實(shí)體分辨,該方法主要通過提取異構(gòu)數(shù)據(jù)的底層特征,找到一個(gè)統(tǒng)一的線性空間,使得異構(gòu)的數(shù)據(jù)對象之間的相關(guān)性最大。Andrew等[7]提出了利用深度學(xué)習(xí)的方法來找到異構(gòu)數(shù)據(jù)的潛在聯(lián)系,從而使得異構(gòu)數(shù)據(jù)關(guān)聯(lián)起來。Kang等[8]提出了一種利用條件隨機(jī)場的方法來學(xué)習(xí)異構(gòu)數(shù)據(jù)的統(tǒng)一表示,從而使得異構(gòu)的數(shù)據(jù)關(guān)聯(lián)起來。

Pereira等[9]提出了三種異構(gòu)數(shù)據(jù)實(shí)體分辨方法:相關(guān)性匹配(correlation matching,CM)、語義匹配(semantic matching,SM)、語義相關(guān)匹配(semantic correlation matching,SCM)。CM是一種利用底層特征來學(xué)習(xí)異構(gòu)數(shù)據(jù)之間關(guān)系的方法,即針對每條異構(gòu)數(shù)據(jù)對象學(xué)習(xí)一個(gè)映射到公共空間的變換,通過最大化公共空間的相互聯(lián)系來保證數(shù)據(jù)表示之間的語義聯(lián)系。SM是通過對數(shù)幾率回歸將異構(gòu)數(shù)據(jù)映射到同一個(gè)語義空間,然后直接在這個(gè)語義空間中進(jìn)行數(shù)據(jù)的擬合與匹配。而SCM則是兩者的結(jié)合,即建立一個(gè)聯(lián)系最大的語義空間,并通過對數(shù)幾何回歸將異構(gòu)數(shù)據(jù)映射到該語義空間,從而更好地反映數(shù)據(jù)的語義之間的關(guān)系。

為了降低對訓(xùn)練數(shù)據(jù)的需求同時(shí)能夠保持較高的實(shí)體分辨準(zhǔn)確性,Zheng等[5]提出了一種基于空間結(jié)構(gòu)相似性的異構(gòu)數(shù)據(jù)實(shí)體分辨方法。通過從異構(gòu)的數(shù)據(jù)集中選取表示為同一實(shí)體的對象作為參考點(diǎn),將數(shù)據(jù)對象轉(zhuǎn)換為其到參考點(diǎn)的距離向量,之后依據(jù)空間結(jié)構(gòu)的相似性進(jìn)行實(shí)體分辨。在該方法中,較好的參考點(diǎn)集具有更好的空間表征能力,從而提高實(shí)體分辨的準(zhǔn)確性。為了使得參考點(diǎn)集具有更好的空間結(jié)構(gòu)表征能力,需要選擇較為穩(wěn)定的參考點(diǎn)集,將選擇穩(wěn)定性方法用于上述參考點(diǎn)選擇問題,從而提高參考點(diǎn)集的穩(wěn)定性。

2 多目標(biāo)蟻群算法穩(wěn)定參考點(diǎn)選擇

本節(jié)主要以實(shí)體分辨的準(zhǔn)確性和參考點(diǎn)集的穩(wěn)定性作為優(yōu)化目標(biāo),使得在異構(gòu)數(shù)據(jù)實(shí)體分辨中能夠選擇出較為穩(wěn)定且能夠使得實(shí)體分辨準(zhǔn)確性較高的參考點(diǎn)。

2.1 優(yōu)化目標(biāo)及數(shù)學(xué)模型

基于空間結(jié)構(gòu)相似性的實(shí)體分辨方法主要是從兩個(gè)異構(gòu)的數(shù)據(jù)源中分別選擇表示為同一實(shí)體的數(shù)據(jù)對象作為參考點(diǎn),將異構(gòu)的數(shù)據(jù)對象轉(zhuǎn)換成其到各自參考點(diǎn)的距離向量,依據(jù)空間結(jié)構(gòu)的相似性來判斷是否為同一實(shí)體。在該方法中,需要選擇出能夠使得實(shí)體分辨準(zhǔn)確性較高且較為穩(wěn)定的參考點(diǎn)集。

在上述問題描述中,優(yōu)化目標(biāo)有2個(gè),一是實(shí)體分辨的準(zhǔn)確性,二是參考點(diǎn)集的穩(wěn)定性。文中把實(shí)體分辨看作二分類問題,正類表示待分辨的對象為同一實(shí)體,使用F1值作為實(shí)體分辨準(zhǔn)確性指標(biāo)。

設(shè)參與分類的樣本總數(shù)為Num,正類正確區(qū)分為正類的樣本數(shù)為P_num,負(fù)類正確區(qū)分為負(fù)類的樣本數(shù)為N_num,正類區(qū)分為負(fù)類的樣本數(shù)為FN_num,負(fù)類區(qū)分為正類的樣本數(shù)為FP_num,則查全率R、查準(zhǔn)率P、F1指標(biāo)分別為:

(1)

(2)

(3)

穩(wěn)定性的度量指標(biāo)[10]主要包括谷元距離、鄧恩穩(wěn)定性指標(biāo)、權(quán)重一致性指標(biāo)和擴(kuò)展昆徹瓦相似度度量指標(biāo)等[11]。由于擴(kuò)展昆徹瓦相似度度量指標(biāo)能夠度量不同規(guī)模的子集,具有良好的可擴(kuò)展性,因此文中采用擴(kuò)展昆徹瓦相似度指標(biāo)對參考點(diǎn)集的穩(wěn)定性進(jìn)行度量。設(shè)由同一選擇方法生成的兩個(gè)參考點(diǎn)集合為s和s',它們的擴(kuò)展昆徹瓦指標(biāo)值的計(jì)算如下:

(4)

其中,c為參考點(diǎn)的對數(shù)。

文獻(xiàn)[12]分別通過集成卡方檢驗(yàn)、信息增益和ReliefF和SVM-RFE等Filter方法對特征子集進(jìn)行選擇,發(fā)現(xiàn)采用卡方檢驗(yàn)、信息增益和ReliefF的集成方法(簡稱Ensemble1)選擇特征子集的穩(wěn)定性較好,其主要步驟是分別采用上述三種Filter方法對樣本進(jìn)行排序,最后通過中值法集成多種排序的結(jié)果。

文中采用Ensemble1方法來選擇參考點(diǎn)子集。假定存在c對參考點(diǎn)集合對R={U,V},其中U={u1,u2,…,uc},V={v1,v2,…,vc}分別來自兩個(gè)異構(gòu)數(shù)據(jù)集。為了從R中選擇出較為穩(wěn)定的參考點(diǎn)子集,分別利用卡方檢驗(yàn)、信息增益和ReliefF方法對參考點(diǎn)集R中的對象進(jìn)行排序選擇,之后通過中值法集成多種結(jié)果,得到Ensemble1方法選擇出來的參考點(diǎn)子集Rn={Un,Vn},其中1≤n≤c。為了確保文中方法能夠選擇出較為穩(wěn)定的參考點(diǎn)子集,令s'=Rn,即用Ensemble1方法選擇出來的參考點(diǎn)子集s'與文中方法選擇的參考點(diǎn)子集s進(jìn)行比較,以指導(dǎo)文中的參考點(diǎn)穩(wěn)定性選擇方法,使其能夠選擇出較為穩(wěn)定的參考點(diǎn)子集。

擴(kuò)展昆徹瓦相似度指標(biāo)的取值在[0,1]之間[13],指標(biāo)取值越大,兩個(gè)參考點(diǎn)集合相似度越高,說明選擇方法的穩(wěn)定性越好。

因此,建立如下兩目標(biāo)優(yōu)化數(shù)學(xué)模型

maxF1

(5)

max EK(s,s')

(6)

s.t. 1≤|s|≤c,1≤|s'|≤c

上述模型中,s和s'為同一參考點(diǎn)選擇方法生成的兩個(gè)參考點(diǎn)集合。式5、式6表示基于參考點(diǎn)集s的F1指標(biāo)最高同時(shí)子集的穩(wěn)定性最好。上述優(yōu)化模型可以看作一個(gè)兩目標(biāo)子集問題進(jìn)行求解。

2.2 模型分析及多目標(biāo)蟻群算法求解

由于兩目標(biāo)優(yōu)化問題通常并不存在各目標(biāo)都為最優(yōu)的解,而存在一非劣解集,稱為Pareto解集。多目標(biāo)優(yōu)化的目標(biāo)就是找出一組解,盡可能全面地逼近Pareto解集,決策者可按需求選擇出自己的滿意解。

對于求解多目標(biāo)優(yōu)化模型,文獻(xiàn)[14]提出了一種求解子集問題的基于圖的螞蟻系統(tǒng)。針對子集問題,定義了構(gòu)造圖和等效路徑,提出了基于等效路徑增強(qiáng)的信息素更新策略,克服了螞蟻尋找解的有序性與問題解的無序性之間的矛盾,并以多維背包問題為例驗(yàn)證了該系統(tǒng)的有效性和優(yōu)越性。文中將該蟻群算法用于求解式5、式6。

圖1 基于圖的螞蟻系統(tǒng)

如圖1所示,在基于圖的螞蟻系統(tǒng)中,t時(shí)刻在節(jié)點(diǎn)v1生成m只螞蟻,每只螞蟻根據(jù)邊上的信息素和啟發(fā)式信息獨(dú)立地選擇某一邊向下一節(jié)點(diǎn)移動(dòng)。c為可選邊的數(shù)量,即為螞蟻可選擇的參考點(diǎn)對的數(shù)量,n為螞蟻在一次搜索過程中尋找解的個(gè)數(shù),即螞蟻在一次搜索中找到n對參考點(diǎn),eij表示螞蟻在第j步選擇第i條邊。

在基于圖的螞蟻系統(tǒng)中,t時(shí)刻第m'只螞蟻使用式7進(jìn)行路徑選擇。

(7)

其中,禁忌表tabum'為第m'只螞蟻?zhàn)哌^的邊,即螞蟻已選擇的參考點(diǎn)對;α和β為信息素量和啟發(fā)式信息的重要程度;啟發(fā)式信息ηi是外部信息,表示選擇第i對參考點(diǎn)的希望程度;τij(t)為在t(t=0,1,2…)時(shí)刻邊eij上的信息素量。

采用多個(gè)信息素矩陣能夠獲得較好的Pareto解,一般的設(shè)置方式為每個(gè)目標(biāo)對應(yīng)一個(gè)信息素矩陣,由于需要同時(shí)優(yōu)化兩個(gè)目標(biāo):F1指標(biāo)與穩(wěn)定性指標(biāo),因此需要設(shè)置2個(gè)信息素矩陣。2個(gè)信息素矩陣的設(shè)置意味著在計(jì)算條件轉(zhuǎn)移概率的過程中,需要對2個(gè)信息素值進(jìn)行聚合,因此需要將兩個(gè)信息素值聚合成單個(gè)值計(jì)算路徑選擇概率,聚合采用式8:

(8)

其中,λ(0≤λ≤1)是權(quán)重參數(shù)。

當(dāng)螞蟻每次迭代完畢后,使用帕累托檔案解更新2個(gè)信息素矩陣時(shí)采用目標(biāo)最好解方法,在t時(shí)刻擬對路徑tabut的信息素增強(qiáng),信息素更新如下:

τij(t)=

(9)

其中,Δ'(tabut)為信息素增量;ρ(0≤ρ≤1)為信息素?fù)]發(fā)系數(shù)。

在蟻群算法中,啟發(fā)式信息表示螞蟻在路徑選擇中的先驗(yàn)偏好,能夠有效提升螞蟻獲得較好的解的能力?;诋悩?gòu)數(shù)據(jù)實(shí)體分辨背景,提出了基于參考點(diǎn)之間的距離、方差和最大信息系數(shù)(maximal information coefficient,MIC)評估值相結(jié)合的啟發(fā)式信息定義方法。

在基于空間結(jié)構(gòu)的異構(gòu)數(shù)據(jù)實(shí)體分辨中,參考點(diǎn)之間的距離較大或參考點(diǎn)之間的距離方差較大時(shí),其實(shí)體分辨準(zhǔn)確性較好[15]。同時(shí),MIC是一種度量變量之間任意關(guān)系的方法,MIC的評估值越大,表明變量之間的相關(guān)性越強(qiáng)。文中利用MIC值度量參考點(diǎn)兩兩之間的相關(guān)性,MIC的取值在(0,1)之間,MIC的評估值越大,表明兩個(gè)參考點(diǎn)之間的相關(guān)性越強(qiáng),同時(shí)有MIC(ui,uj)=MIC(uj,ui)。因此,將參考點(diǎn)ui的MIC的評估值設(shè)置為:

MI(ui)=

(10)

其中,c為數(shù)據(jù)集中參考點(diǎn)的數(shù)量。

綜上,第i對參考點(diǎn)的信息素設(shè)置為:

ε[ωMI(ui)+MI(vi)]

(11)

文中提出的蟻群算法選擇參考點(diǎn)的偽代碼如下所述:

算法:蟻群算法選擇穩(wěn)定參考點(diǎn)。

(1)BEGIN

(2)在參考點(diǎn)訓(xùn)練樣本中采用卡方檢驗(yàn)、信息增益和ReliefF方法進(jìn)行排序選擇參考點(diǎn)子集

(3)集成步驟2中的三種參考點(diǎn)集選擇結(jié)果(Ensemble1)

(4)計(jì)算訓(xùn)練樣本中每個(gè)對象與其他對象之間的距離均值和距離方差

(5)計(jì)算訓(xùn)練樣本中每個(gè)對象與其他對象的最大信息系數(shù)評估值

(6)利用式11集成上述兩種信息作為啟發(fā)式信息

(7)以F1值和蟻群算法選擇的子集與Ensemble1選擇的子集的擴(kuò)展昆徹瓦相似度指標(biāo)作為蟻群算法的優(yōu)化目標(biāo),采用多目標(biāo)蟻群算法搜索較好的參考點(diǎn)子集

(8)END

上述算法中,步驟2和步驟3主要是利用Ensemble1方法對參考點(diǎn)集進(jìn)行排序選擇,以此作為蟻群算法選擇參考點(diǎn)的指導(dǎo)信息;步驟4~6是計(jì)算蟻群算法的啟發(fā)式信息,以便螞蟻能夠選擇較好的解;步驟7為螞蟻根據(jù)圖上的信息素值和啟發(fā)式信息值搜索較優(yōu)的參考點(diǎn)子集并更新其相應(yīng)路徑。

2.3 算法復(fù)雜度分析

在異構(gòu)數(shù)據(jù)參考點(diǎn)選擇問題上,螞蟻尋找最優(yōu)解的時(shí)間復(fù)雜度(最壞情況)為O(NC×m×c2),其中NC為算法的最大迭代次數(shù),c為備選解的個(gè)數(shù)。因此螞蟻在搜索參考點(diǎn)子集時(shí)最壞情況下的時(shí)間復(fù)雜度為O(NC×m×c2)。

上述方法中,蟻群算法中信息素表是占用存儲(chǔ)資源最大的部分,其空間復(fù)雜度為O(c2),因此螞蟻尋找最優(yōu)解的空間復(fù)雜度為O(c2+m)。

3 實(shí)驗(yàn)與分析

在本節(jié)使用真實(shí)數(shù)據(jù)集進(jìn)行對比實(shí)驗(yàn),驗(yàn)證了文中方法的有效性。

3.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)來源于公開數(shù)據(jù)集NUS-WIDE中的子集NUS-WIDE-LITE,NUS-WIDE-LITE是一個(gè)從Flickr上獲取的圖片數(shù)據(jù)集,包括大概27 000張圖片。其中圖像的顏色直方圖數(shù)據(jù)Normalized_CH_Lite_Test中對象的特征個(gè)數(shù)為64,圖像的文本標(biāo)簽數(shù)據(jù)Lite_Tags1k_Test中對象的特征個(gè)數(shù)為1 000。實(shí)驗(yàn)分別從以上兩組數(shù)據(jù)中選取代表同一客觀實(shí)體、并且文本標(biāo)簽數(shù)據(jù)不全為0的數(shù)據(jù)對象作為訓(xùn)練數(shù)據(jù)集。

3.2 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)對以下三種方法進(jìn)行比較。

方法1(文中方法):利用兩目標(biāo)蟻群算法對參考點(diǎn)進(jìn)行選擇,并考慮參考點(diǎn)集的穩(wěn)定性,簡稱SSACO-SSM(stable selection based on multi-object ant colony optimized space structure matching);

方法2(文獻(xiàn)[16]所提方法):在異構(gòu)數(shù)據(jù)實(shí)體分辨中利用蟻群算法對參考點(diǎn)進(jìn)行選擇,但未考慮參考點(diǎn)集的穩(wěn)定性,簡稱ACO-SSM(ant colony optimized space structure matching);

方法3(文獻(xiàn)[5]所提方法):在異構(gòu)數(shù)據(jù)實(shí)體分辨中使用隨機(jī)選擇參考點(diǎn)的方法進(jìn)行異構(gòu)數(shù)據(jù)實(shí)體分辨,簡稱SSM(space structure matching)。

共設(shè)計(jì)了1組對比實(shí)驗(yàn),對比實(shí)驗(yàn)中共2組數(shù)據(jù)集,分別稱為數(shù)據(jù)集1和數(shù)據(jù)集2。這2組數(shù)據(jù)中,匹配的數(shù)據(jù)對象數(shù)量c分別為600對和1 000對,分別用三種方法在2組數(shù)據(jù)集中測試其實(shí)體分辨結(jié)果和參考點(diǎn)穩(wěn)定性。該對比實(shí)驗(yàn)主要驗(yàn)證SSACO-SMM的F1值和參考點(diǎn)集的穩(wěn)定性指標(biāo)EK(s,s')要好于ACO-SSM和SMM。

蟻群算法的參數(shù)設(shè)置如下:初始時(shí)刻信息素τij(0)=100,信息素和啟發(fā)式信息的重要程度系數(shù)α=2,β=1,信息素?fù)]發(fā)系數(shù)ρ=0.2,螞蟻數(shù)量M=30。

實(shí)驗(yàn)選用SVM作為分類器,SVM中的核函數(shù)選用線性核函數(shù)。

3.3 實(shí)驗(yàn)結(jié)果

數(shù)據(jù)集1的F1值指標(biāo)和穩(wěn)定性分別如圖2、圖3所示。

數(shù)據(jù)集2的實(shí)驗(yàn)結(jié)果分別如圖4、圖5所示。

圖2 數(shù)據(jù)集1中的參考點(diǎn)比例與F1值關(guān)系曲線

圖4 數(shù)據(jù)集2中參考點(diǎn)比例與F1值關(guān)系曲線

圖3 數(shù)據(jù)集1中參考點(diǎn)比例與穩(wěn)定性關(guān)系曲線

圖5 數(shù)據(jù)集2中參考點(diǎn)比例與穩(wěn)定性關(guān)系曲線

從圖2、圖4中可以看出,SSACO-SSM方法2個(gè)數(shù)據(jù)集上的F1值都要好于其他兩種方法,說明SSACO-SSM方法能夠有效提高異構(gòu)數(shù)據(jù)實(shí)體的準(zhǔn)確性。從圖3、圖5中可以看出, SSACO-SSM方法在穩(wěn)定性指標(biāo)方面都要好于其他兩種方法,說明SSACO-SSM方法能夠有效提高參考點(diǎn)集的穩(wěn)定性。分別對比圖2和圖3,圖4和圖5,可以看出,當(dāng)參考點(diǎn)集穩(wěn)定性提高時(shí)能夠有效提高異構(gòu)數(shù)據(jù)實(shí)體分辨的F1值,即實(shí)體分辨準(zhǔn)確性。

綜上,文中方法在異構(gòu)數(shù)據(jù)實(shí)體分辨選擇參考點(diǎn)子集時(shí)具有良好的穩(wěn)定性,同時(shí)也具有較高的實(shí)體分辨準(zhǔn)確性。

4 結(jié)束語

為了提高異構(gòu)數(shù)據(jù)實(shí)體分辨中參考點(diǎn)選擇的穩(wěn)定性,提出了一種基于多目標(biāo)蟻群算法的參考點(diǎn)選擇方法,實(shí)現(xiàn)了參考點(diǎn)子集穩(wěn)定性和實(shí)體分辨準(zhǔn)確性的綜合最優(yōu)。得到如下結(jié)論:

(1)在基于空間結(jié)構(gòu)相似性的異構(gòu)數(shù)據(jù)實(shí)體分辨中提高參考點(diǎn)子集的穩(wěn)定性,能夠有效提高異構(gòu)數(shù)據(jù)實(shí)體分辨的準(zhǔn)確性;

(2)使用實(shí)體分辨準(zhǔn)確性和最大信息度量系數(shù)作為蟻群算法的啟發(fā)式信息,使得算法能夠有效利用蘊(yùn)含的先驗(yàn)信息,從而提高算法獲得更好解的概率;

(3)異構(gòu)數(shù)據(jù)實(shí)體分辨的參考點(diǎn)選擇多目標(biāo)優(yōu)化模型,綜合考慮了實(shí)體分辨準(zhǔn)確性和參考點(diǎn)子集的穩(wěn)定性,實(shí)現(xiàn)了效果的最優(yōu)。

該方法與業(yè)務(wù)領(lǐng)域無關(guān),具有較強(qiáng)的通用性。

猜你喜歡
參考點(diǎn)子集異構(gòu)
ETC拓展應(yīng)用場景下的多源異構(gòu)交易系統(tǒng)
離散異構(gòu)線性多智能體系統(tǒng)的輸出一致性
試論同課異構(gòu)之“同”與“異”
魅力無限的子集與真子集
拓?fù)淇臻g中緊致子集的性質(zhì)研究
數(shù)控機(jī)床回參考點(diǎn)故障診斷及維修
凝聚與鋪張——孫紹振教授《以丑、呆為美》兩岸同課異構(gòu)教學(xué)觀摩后記
集合的運(yùn)算
每一次愛情都只是愛情的子集
簡析線性電路電位與電壓的關(guān)系