国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于熵的過(guò)采樣框架

2021-07-14 16:21張念蓬
關(guān)鍵詞:數(shù)據(jù)分布集上度量

張念蓬,吳 旭,朱 強(qiáng)

西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,西安710071

數(shù)據(jù)挖掘是一種在海量數(shù)據(jù)中尋找即時(shí)的、有價(jià)值的信息的技術(shù)[1]。經(jīng)過(guò)近些年的發(fā)展,數(shù)據(jù)挖掘已經(jīng)形成了很多行之有效的模型和算法,它們主要集中在分類、聚類、關(guān)聯(lián)分析等方面。其中,分類也被稱為有監(jiān)督學(xué)習(xí),這類算法需要對(duì)數(shù)據(jù)的特征和類標(biāo)簽進(jìn)行分析處理,得到不同的特征組合與類標(biāo)簽之間存在的判別規(guī)律,并將這些規(guī)律以知識(shí)的形式保存下來(lái)。當(dāng)需要為新的數(shù)據(jù)判定類別時(shí),分類算法能利用之前學(xué)得的知識(shí)為其貼上預(yù)測(cè)標(biāo)簽。

盡管數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)日益趨向成熟并且被廣泛應(yīng)用于實(shí)際問(wèn)題的處理中,但該領(lǐng)域仍面臨著諸多挑戰(zhàn),如不平衡數(shù)據(jù)集分類問(wèn)題。顧名思義,不平衡數(shù)據(jù)集中至少有一類數(shù)據(jù)的數(shù)量明顯多于或少于其他類的數(shù)據(jù)數(shù)量[2]。這類問(wèn)題應(yīng)用十分廣泛,如VIP 用戶流失的檢測(cè)[3]、欺詐交易識(shí)別[4]、醫(yī)療診斷[5]、銀行破產(chǎn)預(yù)測(cè)和企業(yè)信用評(píng)估[6]等。

經(jīng)典的機(jī)器學(xué)習(xí)算法和模型通常是基于“數(shù)據(jù)集是平衡的”這一假設(shè)建立的,若直接將它們應(yīng)用在不平衡數(shù)據(jù)集上,性能會(huì)大幅下降。機(jī)器學(xué)習(xí)算法中的一個(gè)重要目標(biāo)是最小化經(jīng)驗(yàn)誤差,即一個(gè)分類模型的目標(biāo)是最小化總體分類誤差,而少數(shù)類的分類結(jié)果對(duì)于總體來(lái)說(shuō)影響是很小的。而且不平衡度越大,少數(shù)類對(duì)總體分類誤差的影響越小。因此,分類器會(huì)通過(guò)主動(dòng)保護(hù)多數(shù)類實(shí)例的方法來(lái)提升模型的整體性能,而忽視了對(duì)少數(shù)類實(shí)例的預(yù)測(cè),甚至?xí)⒋罅可贁?shù)類實(shí)例誤判為多數(shù)類。這樣顯然是不合理的。在不平衡數(shù)據(jù)的分類過(guò)程中,少數(shù)類數(shù)據(jù)的價(jià)值通常要大于多數(shù)類數(shù)據(jù),而且隨著不平衡度的增加,少數(shù)類數(shù)據(jù)的價(jià)值會(huì)越來(lái)越高。例如,在醫(yī)療診斷的過(guò)程中,將癌癥患者誤診為健康的代價(jià)遠(yuǎn)高于將健康的人誤診為癌癥患者的代價(jià),該病人很可能會(huì)因此錯(cuò)過(guò)最佳的治療時(shí)間,這帶來(lái)的后果是非??膳碌摹?/p>

1 不平衡數(shù)據(jù)的處理手段

用于提高不平衡數(shù)據(jù)集分類性能的技術(shù)整體上可以被分為兩類:算法級(jí)方法和數(shù)據(jù)級(jí)方法。

算法級(jí)方法包括改進(jìn)經(jīng)典算法、代價(jià)敏感方法和分類器集成。修正分類算法以處理不平衡問(wèn)題的策略是算法級(jí)技術(shù)[2]。代價(jià)敏感方法則是為不同的數(shù)據(jù)類型提供不同的錯(cuò)誤分類代價(jià)。分類器集成是需要訓(xùn)練多個(gè)不同的弱分類模型,并按照特定的方式將弱分類模型組合起來(lái),由它們的共同決策來(lái)預(yù)測(cè)數(shù)據(jù)的類標(biāo)簽,從而提高數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性[7]。

數(shù)據(jù)級(jí)方法可以看作是一種獨(dú)立于分類器的技術(shù),用于重新平衡數(shù)據(jù)分布,使標(biāo)準(zhǔn)算法以用戶的目標(biāo)為中心[8]。特別地,數(shù)據(jù)級(jí)方法可以分為欠采樣多數(shù)類實(shí)例[9]和過(guò)采樣少數(shù)類實(shí)例[10]兩種方案。欠采樣方法通過(guò)減少多數(shù)類實(shí)例的數(shù)量來(lái)創(chuàng)建原始不平衡數(shù)據(jù)集的平衡子集。過(guò)采樣方法通過(guò)增加少數(shù)類數(shù)據(jù)實(shí)例的個(gè)數(shù)來(lái)平衡數(shù)據(jù)集。Chawla 等人[11]提出一種基于線性插值的過(guò)采樣算法SMOTE。SMOTE 算法的主要思想是隨機(jī)選取一些少數(shù)類實(shí)例作為種子,并選取種子的k個(gè)最近鄰中的一個(gè)或多個(gè)少數(shù)類實(shí)例,與其結(jié)合為鄰居對(duì)適應(yīng)合成過(guò)采樣方法(ADASYN)[10]、邊界SMOTE 算法(borderline)[12]、安全級(jí)SMOTE算法(safe)[13]等。

過(guò)采樣技術(shù)通常是處理不平衡數(shù)據(jù)集的首選方法。傳統(tǒng)的衡量類不平衡的指標(biāo)是不平衡率IR,即多數(shù)類數(shù)據(jù)的數(shù)量與少數(shù)類數(shù)據(jù)的數(shù)量之比。IR反映了數(shù)據(jù)集在數(shù)量上的不平衡程度,但沒(méi)有度量分布上的不平衡程度。即使數(shù)據(jù)集是數(shù)量平衡的,類分布的不平衡仍然可能存在[14]。此外,少數(shù)類集合的分類準(zhǔn)確性與信息實(shí)例的數(shù)量有關(guān),而與少數(shù)類實(shí)例的數(shù)量無(wú)關(guān)[15]。

因此,衡量少數(shù)類與多數(shù)類之間數(shù)據(jù)分布的不平衡程度是重要的。本文利用信息熵度量數(shù)據(jù)集的局部密度信息,從分布上考慮數(shù)據(jù)集的不平衡程度,并提出了基于熵的危險(xiǎn)集的概念和它的三種使用策略,即基于熵的危險(xiǎn)集過(guò)采樣算法(EDgS)、基于熵的安全集過(guò)采樣算法(ESS)和基于熵的自適應(yīng)過(guò)采樣算法(EAS)。基于熵的過(guò)采樣框架具體分為三個(gè)部分:首先介紹了數(shù)據(jù)集熵差的具體計(jì)算方法和危險(xiǎn)集的概念,這一部分是該框架的基礎(chǔ)和起點(diǎn);其次介紹了危險(xiǎn)集的三種使用策略,分別是在危險(xiǎn)集上過(guò)采樣、在危險(xiǎn)集的補(bǔ)集上過(guò)采樣和自適應(yīng)的過(guò)采樣,這三種策略的側(cè)重點(diǎn)不同,特點(diǎn)和優(yōu)勢(shì)也各不相同,適用于不同分布的數(shù)據(jù)集;最后,本文在算法中加入了生成實(shí)例的檢測(cè)機(jī)制,若生成實(shí)例能通過(guò)檢測(cè),則該實(shí)例可以在數(shù)據(jù)分布的意義下平衡數(shù)據(jù)集,反之,該實(shí)例不具備平衡數(shù)據(jù)分布的能力,將其刪掉即可。

2 信息熵的介紹

一個(gè)集合D的信息熵的計(jì)算公式如下:

其中,pi通常為第i條數(shù)據(jù)的概率,本文用基于距離的局部密度在整體密度中的權(quán)重代替。眾所周知,熵可以度量數(shù)據(jù)分布的不確定性。因此,本文利用熵差來(lái)度量數(shù)據(jù)集分布的不平衡程度,這與以往的IR完全不同。

在圖1 中,可以清楚地看到使用熵差(ED)的優(yōu)點(diǎn)。這兩個(gè)數(shù)據(jù)集具有不同的ED 和相同的IR。對(duì)于圖1的A,兩個(gè)類之間沒(méi)有重疊區(qū)域,并具有清晰的分類邊界,這使得任何一個(gè)簡(jiǎn)單的分類器都能很容易地完成識(shí)別;圖1 的B 則完全不同。顯然,IR 無(wú)法區(qū)分這兩個(gè)分布不同的數(shù)據(jù)集??傊@些少數(shù)類的代表性實(shí)例是研究少數(shù)類分布的關(guān)鍵。以往的研究表明,固定IR時(shí),少數(shù)類中的代表性實(shí)例越多,分類器的分類性能越好[14-15]。因此,用IR作為測(cè)量不平衡度的唯一指標(biāo)是不合適的。

圖1 ED相同、IR不同的兩個(gè)數(shù)據(jù)集

熵通常用來(lái)度量數(shù)據(jù)分布的不確定性,它可以看作是信息分布的反義詞。換句話說(shuō),數(shù)據(jù)分布的隨機(jī)性越強(qiáng),它包含的信息就越少[16]。對(duì)于不平衡數(shù)據(jù)來(lái)說(shuō),更分散的類內(nèi)分布和更少的數(shù)據(jù)量將意味著更高的熵。在這種情況下,熵被引入到輸入空間中作為數(shù)據(jù)分布的度量方式。

另外,本文基于信息熵將少數(shù)類數(shù)據(jù)集分為危險(xiǎn)集和安全集。如果一個(gè)少數(shù)類實(shí)例屬于危險(xiǎn)集,則表示這個(gè)實(shí)例周圍的少數(shù)類分布比較稀疏,在這些區(qū)域過(guò)采樣,可以有效擴(kuò)大數(shù)據(jù)集中少數(shù)類的范圍,反之則表示實(shí)例周圍的少數(shù)類分布比較密集,在這些區(qū)域過(guò)采樣,會(huì)降低錯(cuò)分多數(shù)類實(shí)例的風(fēng)險(xiǎn)。

3 基于熵的過(guò)采樣框架

本章的主要內(nèi)容是基于熵的過(guò)采樣框架,具體可以分為以下三個(gè)部分:第一部分是數(shù)據(jù)集的熵的計(jì)算方法和計(jì)算過(guò)程中涉及到的統(tǒng)計(jì)量的含義,并在此基礎(chǔ)上形成基于熵的危險(xiǎn)集,討論了危險(xiǎn)集的意義;第二部分為危險(xiǎn)集的使用策略和不同的使用策略所對(duì)應(yīng)的含義,并給出不同策略對(duì)應(yīng)的具體算法流程;第三部分通過(guò)實(shí)驗(yàn)驗(yàn)證了算法的有效性。

3.1 基于熵的危險(xiǎn)集

本節(jié)介紹熵差的具體計(jì)算過(guò)程,并形成相應(yīng)的算法流程。

給定一個(gè)訓(xùn)練數(shù)據(jù)集D,包含實(shí)例X={xi|x∈Rn,i=1,2,…,m},實(shí)例所屬類別為C={cl|l=1,2},相應(yīng)的實(shí)例數(shù)量表示為m1、m2。數(shù)據(jù)集D中的任意兩個(gè)實(shí)例表示為xi=(xi1,xi2,…,xin) 和xj=(xj1,xj2,…,xjn),這兩個(gè)實(shí)例的距離計(jì)算公式通常定義為歐氏距離,如下:

使用公式(3)為給定數(shù)據(jù)集的第i個(gè)實(shí)例定義一個(gè)基于密度的實(shí)例位置統(tǒng)計(jì)量:

其中Qk(xi)表示xi的k近鄰集合,sim(?,?)為相似度度量公式,通常使用歐氏距離。因此,μk(xi)是一個(gè)局部密度度量公式,用于測(cè)量xi距離其k近鄰的平均距離,同時(shí)表達(dá)了實(shí)例xi附近的密度信息。第i個(gè)樣本的基于密度的類位統(tǒng)計(jì)量由下式給出:

式中,ωi是xi在cl總密度度量中的比例。因此,每個(gè)實(shí)例的類內(nèi)密度可以通過(guò)基于密度的類位統(tǒng)計(jì)來(lái)測(cè)量。xi附近的密度越高,μk(xi)和ωi就越小。換句話說(shuō),ωi的大小反映了xi的類內(nèi)密度。

每一類的熵由公式(5)計(jì)算。令c1和c2分別代表少數(shù)類和多數(shù)類,容易得到E1≥E2>0。眾所周知,熵是由信息量的多少和信息對(duì)稱性決定的。實(shí)驗(yàn)結(jié)果表明,在不平衡數(shù)據(jù)集上,多數(shù)類和少數(shù)類的熵的大小通常依賴于信息量的多少。也就是說(shuō),少數(shù)類的類內(nèi)熵通常大于多數(shù)類的類內(nèi)熵。在此基礎(chǔ)上,信息對(duì)稱性影響類內(nèi)熵的大小。為了度量數(shù)據(jù)集分布的不平衡程度,本文提出了一種新的度量方法:

另外,本文將少數(shù)類實(shí)例按ωi排序,截取較大的一半,用來(lái)形成危險(xiǎn)集Dg。由此將少數(shù)類數(shù)據(jù)集分為危險(xiǎn)集和安全集。如果一個(gè)少數(shù)類實(shí)例屬于危險(xiǎn)集,則表示這個(gè)實(shí)例周圍的少數(shù)類分布比較稀疏,在這些區(qū)域過(guò)采樣,可以有效擴(kuò)大數(shù)據(jù)集中少數(shù)類的范圍,但是也會(huì)提高錯(cuò)分多數(shù)類實(shí)例的風(fēng)險(xiǎn);反之則表示這個(gè)實(shí)例周圍的少數(shù)類分布比較密集,在這些區(qū)域過(guò)采樣,雖然生成的實(shí)例的多樣性有所下降,但同時(shí)也會(huì)降低錯(cuò)分多數(shù)類實(shí)例的風(fēng)險(xiǎn)。

數(shù)據(jù)集的基于熵的危險(xiǎn)集算法(EDg)的具體細(xì)節(jié)見算法1。

3.2 危險(xiǎn)集的使用策略

EDg 算法為每個(gè)少數(shù)類實(shí)例計(jì)算出基于密度的類位統(tǒng)計(jì)量,也就是數(shù)據(jù)分布意義下的權(quán)重,權(quán)重越大,說(shuō)明該實(shí)例周圍的類內(nèi)分布越稀疏。因此,本節(jié)提出三種基于熵的過(guò)采樣策略,分別是在危險(xiǎn)集上過(guò)采樣、在安全集上過(guò)采樣和自適應(yīng)的過(guò)采樣策略。這三種過(guò)采樣的策略在合成過(guò)程中都采用線性插值的辦法,只是在選取種子對(duì)時(shí)有所不同。

基于熵的危險(xiǎn)集過(guò)采樣算法(EDgS)首先利用EDg算法求出危險(xiǎn)集,其次在危險(xiǎn)集上隨機(jī)的選擇種子對(duì),并使用公式(7)實(shí)現(xiàn)線性插值:

其中δ∈U[0,1],是均勻分布的隨機(jī)數(shù)。最后檢測(cè)整個(gè)數(shù)據(jù)集中ED的變化,若ΔED<0,則說(shuō)明新實(shí)例在數(shù)據(jù)分布上平衡了數(shù)據(jù)集,是有價(jià)值的,應(yīng)該保留;否則,刪除新生成的實(shí)例。這樣生成的新實(shí)例不僅可以在數(shù)據(jù)分布上平衡數(shù)據(jù)集,也可以有效擴(kuò)大數(shù)據(jù)集中少數(shù)類的范圍和多樣性。EDgS的實(shí)現(xiàn)過(guò)程見算法2。

基于熵的安全集過(guò)采樣算法(ESS)首先利用EDg算法求出危險(xiǎn)集,在Cmin上求Dg的補(bǔ)集,得到安全集Ds,其次在Ds上隨機(jī)的選擇種子對(duì),并使用公式(7)實(shí)現(xiàn)線性插值;其余的步驟與EDgS 算法相同。但相較于EDgS 算法,ESS 算法生成的新實(shí)例的多樣性會(huì)有所下降,錯(cuò)分多數(shù)類實(shí)例的風(fēng)險(xiǎn)也會(huì)顯著降低。ESS的實(shí)現(xiàn)過(guò)程見算法3。

基于熵的自適應(yīng)過(guò)采樣算法(EAS)首先為每個(gè)少數(shù)類實(shí)例賦權(quán),權(quán)重為ωi;然后在考慮權(quán)重的基礎(chǔ)上隨機(jī)選擇少數(shù)類實(shí)例xp,在Q(xp)中隨機(jī)選擇xq,并使用公式(7)實(shí)現(xiàn)線性插值;其余的步驟與EDgS算法相同。

與EDgS 算法和ESS 算法相比,EAS 算法可以有效增加生成的少數(shù)類數(shù)據(jù)的多樣性,減小錯(cuò)分多數(shù)類實(shí)例的風(fēng)險(xiǎn)。EAS的實(shí)現(xiàn)過(guò)程見算法4。

本節(jié)利用危險(xiǎn)集的思想,給出了一個(gè)基于熵的過(guò)采樣策略的框架,并在此框架下得到EDgS、ESS和EAS算法,這3 個(gè)算法在理論上各有側(cè)重。如EDgS 在危險(xiǎn)集上生成新實(shí)例,會(huì)顯著增加少數(shù)類數(shù)據(jù)的多樣性;ESS在安全集上生成新實(shí)例,更加注重生成實(shí)例的安全性;EAS則在整個(gè)少數(shù)類數(shù)據(jù)集上自適應(yīng)的生成少數(shù)類,是前兩種算法折中的結(jié)果。

3.3 實(shí)驗(yàn)結(jié)果及分析

為驗(yàn)證提出的算法的有效性,本節(jié)選取來(lái)自UCI[17]和KEEL-dataset repository[18]中的6 個(gè)二分類數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)仿真,它們的詳細(xì)介紹見表1。每個(gè)數(shù)據(jù)集分別通過(guò)7 種過(guò)采樣算法(SMOTE、borderline、EDgS、safe、ESS、ADASYN、EAS)進(jìn)行處理,且選擇SVM 作為基分類器。評(píng)價(jià)指標(biāo)選擇AUC和召回率,因?yàn)锳UC能客觀地反映分類器對(duì)不平衡數(shù)據(jù)集的綜合預(yù)測(cè)能力,召回率能反映出分類器對(duì)少數(shù)類實(shí)例的分類準(zhǔn)確度。顯然,AUC和召回率的值越大,算法的性能就越好。

表1 二分類數(shù)據(jù)集的描述信息

表2 和表3 分別列出了8 個(gè)算法在6 個(gè)數(shù)據(jù)集上的AUC和召回率的得分和排名的詳細(xì)信息。

表2 8個(gè)算法在6個(gè)數(shù)據(jù)集上的AUC得分和排名

表3 8個(gè)算法在6個(gè)數(shù)據(jù)集上的召回率得分和排名

對(duì)于基于線性插值的算法來(lái)說(shuō),borderline 和EDgS都是在危險(xiǎn)集上進(jìn)行過(guò)采樣,safe和ESS都是在安全集上進(jìn)行過(guò)采樣,ADASYN 和EAS 都是在整個(gè)少數(shù)類數(shù)據(jù)集上進(jìn)行自適應(yīng)的過(guò)采樣。因此,將上述算法兩兩之間進(jìn)行對(duì)比是比較合理的。可以看出,提出的EDgS、ESS和EAS的AUC得分均強(qiáng)于borderline、safe 和ADASYN。特別是EAS 算法,在對(duì)ADASYN 算法進(jìn)行提升的同時(shí),也在多個(gè)數(shù)據(jù)集上取得了很好的名次,如數(shù)據(jù)集abalone17vs78910、alocks0 和ecoli0vs1。這體現(xiàn)了本文提出的算法在綜合預(yù)測(cè)能力上的優(yōu)勢(shì)。

不平衡數(shù)據(jù)分類問(wèn)題中少數(shù)類實(shí)例通常更加珍貴,因此少數(shù)類被正確分類的比例是很重要的。本文算法在召回率得分上顯示出非常強(qiáng)的競(jìng)爭(zhēng)力。用于實(shí)驗(yàn)的6個(gè)數(shù)據(jù)集中,基于熵差的過(guò)采樣算法只在ecoli0vs1上表現(xiàn)一般,這可能是由于該數(shù)據(jù)集的ED很小,而IR較大,相較于傳統(tǒng)的不平衡度量方法,本文算法不能很好地識(shí)別少數(shù)類和多數(shù)類。

4 總結(jié)與展望

本文利用熵信息來(lái)度量數(shù)據(jù)集的不平衡程度,為各種變量賦予實(shí)際意義,并給出用熵差計(jì)算數(shù)據(jù)分布不平衡度的具體方法;另外,利用熵信息計(jì)算出每個(gè)點(diǎn)周圍的局部密度,得到了基于熵的危險(xiǎn)集。隨后給出了危險(xiǎn)集的使用策略和對(duì)應(yīng)的算法,即EDgS、ESS 和EAS 算法。實(shí)驗(yàn)證明,本文的研究?jī)?nèi)容可以有效提升經(jīng)典過(guò)采樣算法的性能。但不可否認(rèn)的是,該理論和模型也存在一定的局限性,即對(duì)熵差較小的數(shù)據(jù)集的識(shí)別能力較差。針對(duì)這個(gè)問(wèn)題,可以將IR和ED相結(jié)合,在利用ED檢測(cè)數(shù)據(jù)分布的不平衡度的同時(shí),使用IR 來(lái)體現(xiàn)數(shù)據(jù)集數(shù)量上的不平衡度,從而進(jìn)一步提高對(duì)數(shù)據(jù)集的綜合識(shí)別能力。這也是接下來(lái)的研究?jī)?nèi)容和方向。

猜你喜歡
數(shù)據(jù)分布集上度量
鮑文慧《度量空間之一》
模糊度量空間的強(qiáng)嵌入
改進(jìn)的云存儲(chǔ)系統(tǒng)數(shù)據(jù)分布策略
Cookie-Cutter集上的Gibbs測(cè)度
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
復(fù)扇形指標(biāo)集上的分布混沌
一種基于給定標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行正態(tài)修正的算法
試論大數(shù)據(jù)之“大”
地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別