国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高度不平衡腸道圖像數(shù)據(jù)集均衡策略

2022-06-21 04:20:06陳逸遠(yuǎn)古夢婷
科技創(chuàng)新與應(yīng)用 2022年17期
關(guān)鍵詞:類間暗區(qū)腸道

陳逸遠(yuǎn),古夢婷,李 勝

(浙江工業(yè)大學(xué),浙江 杭州 310013)

醫(yī)學(xué)圖像數(shù)據(jù)蘊(yùn)含了大量的生物特征信息,已經(jīng)成為疾病診療中不可或缺的組成部分且日益重要。醫(yī)學(xué)圖像分類是醫(yī)學(xué)圖像分析中最重要的任務(wù)之一[1]。我國腸道疾病高發(fā),嚴(yán)重危害人們身體健康,有效的腸道圖像分類識別,對輔助醫(yī)生進(jìn)行腸道疾病的篩查、診斷、治療方案制定等提供科學(xué)方法,對于提高疾病的診斷準(zhǔn)確率、減少漏診、提高醫(yī)生工作效率等方面具有重要的實(shí)際意義。然而,醫(yī)學(xué)圖像數(shù)據(jù)經(jīng)常面臨數(shù)據(jù)不平衡和數(shù)據(jù)有限問題[2]。首先,由于疾病的多樣化,發(fā)病概率不同,發(fā)病率低的病變集數(shù)量過少,每個(gè)病例中各種類別數(shù)據(jù)集分布不均衡。例如,腸道內(nèi)窺鏡的公開數(shù)據(jù)集Kvasir-Capsule[3]原始數(shù)據(jù)集中正常圖像有34 606張,但是僅有腸道潰瘍854張、出血446張,以及血紅素12張等。其次,由于醫(yī)學(xué)圖像特別是對病例樣本數(shù)據(jù)集的采集、標(biāo)注和整理是一個(gè)繁瑣及耗時(shí)耗力的過程。且由于病變差異很大,往往需要臨床專家進(jìn)行標(biāo)注,另醫(yī)院之間的數(shù)據(jù)共享和互通程度較低,獲取用于大規(guī)模學(xué)習(xí)訓(xùn)練醫(yī)學(xué)圖像樣本數(shù)據(jù)集非常困難,因此可用的標(biāo)注數(shù)據(jù)規(guī)模相對較小[4]。

深度學(xué)習(xí)從樣本數(shù)據(jù)中學(xué)習(xí)層次特征的特點(diǎn),組合底層特征形成更加抽象的高層表示,最終提高分類或者預(yù)測的準(zhǔn)確性,已在語音識別、自然語言處理、圖像分類、人臉識別、目標(biāo)檢測等多領(lǐng)域取得突破性的好成績[5-6]。深度學(xué)習(xí)特別是卷積神經(jīng)網(wǎng)絡(luò)已成為分析醫(yī)學(xué)圖像的首選方法,在醫(yī)學(xué)圖像分類應(yīng)用取得顯著的進(jìn)步達(dá)到前所未有的精準(zhǔn)度[7-8]。數(shù)據(jù)不平衡是醫(yī)學(xué)圖像天然存在的問題,恰恰抑制了卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢,研究表明數(shù)據(jù)不平衡是導(dǎo)致模型準(zhǔn)確性和泛化能力下降的主要原因[9-12],在數(shù)據(jù)集不平衡情況下,多數(shù)類控制著訓(xùn)練的主要過程得到過分表達(dá),而少數(shù)類的識別情況欠表達(dá),大大降低少數(shù)類的分類準(zhǔn)確性。在醫(yī)學(xué)圖像中,少數(shù)類蘊(yùn)含的信息往往更值得關(guān)注,醫(yī)學(xué)診斷中誤診和漏診可能會(huì)導(dǎo)致嚴(yán)重的難以彌補(bǔ)的后果,因此提高分類模型對于少數(shù)類的識別率是至關(guān)重要的。

本文主要的貢獻(xiàn)點(diǎn)羅列如下:

(1)闡述了醫(yī)學(xué)圖像固有的數(shù)據(jù)不平衡問題及其對分類性能影響,研究現(xiàn)有對數(shù)據(jù)不平衡問題提供類間數(shù)據(jù)平衡分布的方法。

(2)討論腸道圖像中遇到的特殊挑戰(zhàn),設(shè)計(jì)了一種更適用于腸道圖像數(shù)據(jù)集的類間數(shù)據(jù)平衡方法。能夠高效地對抗圖像中暗區(qū)過大的問題,以及識別腸道病灶所需的旋轉(zhuǎn)不變性問題。

(3)通過真實(shí)腸道圖像疾病數(shù)據(jù)集進(jìn)行了仿真實(shí)驗(yàn),驗(yàn)證了本文所提方法的有效性。

1 類間數(shù)據(jù)平衡方法研究現(xiàn)狀

在過去20多年里,人們對于用機(jī)器學(xué)習(xí)技術(shù)解決數(shù)據(jù)類間不平衡問題進(jìn)行廣泛的研究[9,13-17]。解決數(shù)據(jù)不平衡問題的方法可分為三大類[9-11]。第一類是數(shù)據(jù)層面,對訓(xùn)練數(shù)據(jù)集進(jìn)行操作并減少其不平衡程度,目標(biāo)是改變數(shù)據(jù)集以使標(biāo)準(zhǔn)訓(xùn)練算法能正常發(fā)揮作用。第二類模型算法層面,對學(xué)習(xí)和決策過程的調(diào)整來強(qiáng)調(diào)少數(shù)類的重要性,這些方法保持訓(xùn)練數(shù)據(jù)集不變并調(diào)整訓(xùn)練或者推理的算法。第三類則是前兩類的混合方法。本文方法主要關(guān)注從數(shù)據(jù)層面實(shí)現(xiàn)類間數(shù)據(jù)平衡。

1.1 常用方法

最直接常用的方法是重采樣,重采樣主要分為過采樣和欠采樣兩類方法[15]。在幾乎所有分析的情景中,解決類別不平衡的方法,占主導(dǎo)地位的是過采樣[10]。

過采樣是一種在深度學(xué)習(xí)被廣泛使用并驗(yàn)證健壯有效的類間數(shù)據(jù)平衡方法[17],通過復(fù)制、變換等操作對少數(shù)類進(jìn)行擴(kuò)充,使得少數(shù)類和多數(shù)類樣本數(shù)量接近。最簡單的是隨機(jī)少數(shù)過采樣ROS(random minority oversampling)方法,它簡單復(fù)制從少數(shù)類隨機(jī)選擇的樣本。它已經(jīng)被證明簡單重采樣是有效的,雖然可能導(dǎo)致過度擬合[18]。(1)旨在克服過擬合問題的先進(jìn)一點(diǎn)的算法是SMOTE[18],在現(xiàn)有少數(shù)樣本與其最近的少數(shù)鄰居之間進(jìn)行插值來生成人工少數(shù)樣本的方法。SMOTE的幾個(gè)增強(qiáng)變種,例如Borderline-SMOTE[19],Safe-Level-SMOTE[20],通過考慮多數(shù)類鄰居來改進(jìn)原始算法。Borderline-SMOTE將過采樣限制在類邊界附近的樣本,而Safe-Level-SMOTE定義安全區(qū)域以防止在重疊或噪聲區(qū)域中過采樣。(2)為了平衡當(dāng)模型和訓(xùn)練數(shù)據(jù)的過擬合導(dǎo)致的無法泛化問題,已開發(fā)各種智能采樣技術(shù)。JAPKOWICZ和JO[21]基于集群的過采樣(Cluster-based oversampling)來解決訓(xùn)練數(shù)據(jù)中存在的小分離問題。少數(shù)群體和多數(shù)群體首先使用K-means算法進(jìn)行聚類,然后分別對每個(gè)聚類應(yīng)用過采樣。這改善了類內(nèi)不平衡和類間不平衡。

欠采樣是另外一種使得在每個(gè)類的樣本數(shù)量相同的普遍方法[17]。和過采樣相反,它使用隨機(jī)刪除、去冗余等操作對從多數(shù)類的樣本進(jìn)行精簡,最簡單的形式為隨機(jī)欠采樣(RUS)。雖然有點(diǎn)反直覺,有實(shí)證在特定場景如只需一定程度上消除不平衡時(shí),欠采樣表現(xiàn)的比過采樣更好[22]。欠采樣比較明顯的不足是它有丟棄了一部分有用信息的風(fēng)險(xiǎn)。為了克服這個(gè)缺點(diǎn),一些修改引入了更仔細(xì)地選擇要?jiǎng)h除的樣本。例如,KUBAT和MATWIN[23]提出了單邊選擇識別靠近類邊界的冗余樣本。比欠采樣更通用的方法是數(shù)據(jù)清洗,這可能涉及重新標(biāo)記一些樣本[20]。

然而,簡單的重復(fù)和去除對腸道圖像數(shù)據(jù)集來說只能帶來非常有限的性能提升,主要原因是原始病灶數(shù)據(jù)量很小,且此類方法沒有考慮數(shù)據(jù)集平衡時(shí)不同類別選擇的概率分布問題,多次簡單的重復(fù)容易使得分類算法關(guān)注到一些非病灶相關(guān)的特點(diǎn)。

1.2 深度學(xué)習(xí)的探索

MASKO和HENSMAN[24]使用深度CNN探索了類不平衡和ROS的影響。實(shí)驗(yàn)證明了類不平衡的對訓(xùn)練CNN模型的影響,并驗(yàn)證將ROS應(yīng)用于類平衡水平可以有效地解決圖像數(shù)據(jù)中的輕微類不平衡問題。大多數(shù)不平衡的分布都出現(xiàn)了性能損失。當(dāng)非常輕微的不平衡且沒有過度表示,表現(xiàn)與原始平衡分布一樣好。一些包含過度代表類的不平衡分布,則產(chǎn)生了完全偏向多數(shù)群體的無用模型。作者使用通過ROS生成的平衡數(shù)據(jù)訓(xùn)練CNN的結(jié)果對比表明,用ROS平衡訓(xùn)練數(shù)據(jù)可以改善所有不平衡圖像數(shù)據(jù)的分類。

POUYANFAR等[25]使用動(dòng)態(tài)采樣技術(shù)通過深度CNN對不平衡的圖像數(shù)據(jù)進(jìn)行分類?;舅枷胧菍ι贁?shù)類進(jìn)行過采樣,對多數(shù)類進(jìn)行欠采樣,從而減少模型已經(jīng)學(xué)習(xí)的內(nèi)容,而更多地顯示它尚未理解的內(nèi)容。該方法能夠自動(dòng)調(diào)整采樣率,能適合不同程度的不平衡問題。

此類方法被認(rèn)為能夠提供更為有效的數(shù)據(jù),因?yàn)檫@類數(shù)據(jù)是通過網(wǎng)絡(luò)理解生成的新數(shù)據(jù)。然而此類方法在腸道圖像數(shù)據(jù)集中難以被利用,主要原因是訓(xùn)練CNN時(shí)由于數(shù)據(jù)集類間差距過大難以獲得優(yōu)異的性能,且訓(xùn)練網(wǎng)絡(luò)的過程較為復(fù)雜,面對大規(guī)模數(shù)據(jù)集時(shí)可能會(huì)帶來過高的計(jì)算代價(jià)。

1.3 現(xiàn)有經(jīng)典方法

在文獻(xiàn)[26]中,針對高度不平衡的醫(yī)療圖像數(shù)據(jù)集提出了一個(gè)高效率的類間平衡方法,該方法能夠有效提高基于深度學(xué)習(xí)的圖像分類框架準(zhǔn)確率,這一方法可以看成是過采樣方式的改進(jìn)方法。

首先令(xi,yi)是第i幅圖像和它對應(yīng)的標(biāo)簽,其中yi為one-hot向量,即只有一個(gè)元素為1,其他元素都為0的向量,用以表示類別信息。隨后,將不同類別的圖像進(jìn)行混合疊加,生成新的帶標(biāo)簽的圖像,利用了以下公式:

即新的圖像等于第i個(gè)圖像乘上權(quán)重λ,加上第j個(gè)圖像乘上權(quán)重(1-λ)。生成的新圖像標(biāo)簽也是對應(yīng)兩者標(biāo)簽的疊加,即:

通過這一混合方法,將類間圖像的數(shù)量差異縮小。假設(shè)共有K個(gè)類型的圖像,又提出了一個(gè)概率:

其中q的初始取值為1或者0,當(dāng)q=1時(shí)每一類都有一個(gè)不同的權(quán)重,即類內(nèi)圖像數(shù)量越多被選中的概率越高,稱為“instance-based sampling”,就是打破不同類別的界限,圖像一視同仁在整個(gè)數(shù)據(jù)集中選。當(dāng)q=0時(shí),每一類被選中的概率一樣,則稱為“class-based sampling”。隨后可以通過改變q的值完成這兩種選擇模式的混合。這一方法的優(yōu)勢是能夠快速地進(jìn)行類間數(shù)量高度不平衡數(shù)據(jù)集的處理,將類間樣本差距減小,有利于分類網(wǎng)絡(luò)的訓(xùn)練。在一個(gè)23分類的高度不平衡腸道圖像數(shù)據(jù)集中,通過仿真結(jié)果可以發(fā)現(xiàn)對常見的分類網(wǎng)絡(luò),如MobileNet V2,ResNeXt-50等都能提升一定的分類性能。

然而,這個(gè)方法的目標(biāo)是醫(yī)療圖像集的廣泛適用性,并沒有針對腸道圖像的特點(diǎn)進(jìn)行設(shè)計(jì),存在著巨大的改進(jìn)空間:

(1)單純將圖像疊加起來,有很多特征會(huì)丟失,例如腸壁褶皺和病灶邊緣加在一起反而會(huì)失去兩者的區(qū)分性。

(2)選取通過隨機(jī)的方法進(jìn)行,可能存在某些數(shù)據(jù)反復(fù)使用,而某些數(shù)據(jù)未被使用的情況,且沒有考慮到數(shù)據(jù)集的特點(diǎn),例如醫(yī)療圖像中有些病灶不可能同時(shí)存在,會(huì)“誤導(dǎo)”算法,可能會(huì)另算法失去全局特征的判斷能力。

2 本文方法

本文將針對腸道圖像特點(diǎn),提出一種高度不平衡數(shù)據(jù)集的類間數(shù)據(jù)平衡方法。

腸道圖像存在一些特殊性,主要包括:

(1)存在分析意義較小的暗區(qū)部分。由于腸道的結(jié)構(gòu)特點(diǎn),受到器官褶皺遮擋或者視野中存在空腔中心區(qū)域時(shí)容易形成暗區(qū)。圖像中的暗區(qū)部分通常無法提供足夠高質(zhì)量的信息進(jìn)行圖像分析,因此這部分通常在輔助系統(tǒng)設(shè)計(jì)時(shí)不會(huì)被采用。

(2)病灶識別方法需要對旋轉(zhuǎn)和病灶在圖像中的位置不敏感。圖像中的病灶方向不一。由于采集腸道圖像時(shí)沒有參考方向,因此無法判斷病灶的拍攝角度,這就要求分類方法對圖像的旋轉(zhuǎn)不敏感。此外,與自熱界拍攝的圖像不同,病灶會(huì)出現(xiàn)在腸道圖像中的各個(gè)位置。

針對以上腸道圖像特殊性,本文提出了一種腸道圖像數(shù)據(jù)集的類間平衡方法。由于腸道圖像數(shù)據(jù)集中大量存在的是正常(健康)的圖像,相比之下病灶圖像的數(shù)量較少。因此,本文的方法是利用正常圖像為底,結(jié)合病灶圖像生成新的病灶圖像。該方法的結(jié)構(gòu)圖如圖1所示,主要包括健康圖像的暗區(qū)識別、有疾病圖像的旋轉(zhuǎn)和平移變化,以及類間混合這三個(gè)步驟。首先,通過對健康圖像進(jìn)行快速暗區(qū)識別,選取暗區(qū)較小的圖像。其次,對原始病灶圖像進(jìn)行多角度旋轉(zhuǎn)和平移,最后將旋轉(zhuǎn)之后的圖像與選取的健康圖像進(jìn)行類間混合,實(shí)現(xiàn)數(shù)據(jù)集的平衡。

圖1 本文方法系統(tǒng)框圖

2.1 暗區(qū)識別

如圖2(a)所示為一個(gè)典型的息肉圖像,可見其中包含了幾乎沒有分析和利用價(jià)值的暗區(qū)。若使用常規(guī)的數(shù)據(jù)類間均衡方法直接將此類圖進(jìn)行線性組合,那么暗區(qū)部分的疊加會(huì)極大地影響生成圖像的質(zhì)量。為了解決這一問題,首先利用我們已經(jīng)提出的聚類方法SLICPGDPC[27]對圖像進(jìn)行超像素分割,使用聚類算法的好處是高效且無需訓(xùn)練,非常適合對數(shù)據(jù)集直接進(jìn)行處理。超像素分割的結(jié)果如圖2(b)所示。分割后對每一個(gè)超像素進(jìn)行亮度統(tǒng)計(jì),將亮度最低的超像素視為暗區(qū)部分,分析該部分占據(jù)圖像的百分比,當(dāng)這一部分占比大于預(yù)設(shè)的閾值時(shí)就將這一圖像舍棄,不進(jìn)行后續(xù)的類間混合。由于健康圖像占比通常很高,因此閾值設(shè)計(jì)時(shí)可以根據(jù)剩余圖像的數(shù)量進(jìn)行調(diào)整,根據(jù)經(jīng)驗(yàn),腸道圖像中閾值取值通常在0.2~0.5之間。

圖2 腸道圖像實(shí)例

2.2 旋轉(zhuǎn)和平移

由于腸道圖像的病灶觀察時(shí)沒有參考方向,因此訓(xùn)練分類網(wǎng)絡(luò)時(shí)必須對病灶觀測的角度不敏感。針對這一挑戰(zhàn),本文將病灶圖像進(jìn)行0°、90°、180°和270°旋轉(zhuǎn)。常見的腸道圖像數(shù)據(jù)增強(qiáng)方法中也會(huì)用到這一方式,通過對病灶的旋轉(zhuǎn)能夠令深度學(xué)習(xí)網(wǎng)絡(luò)降低對病灶旋轉(zhuǎn)的敏感性。此外,本文還設(shè)計(jì)了一種隨機(jī)平移的策略來模擬病灶可能出現(xiàn)在的不同位置。配合2.1中進(jìn)行的超像素分割,探測與左側(cè)邊界無接觸且最為接近的超像素位置,并將該超像素左側(cè)圖像區(qū)域按照循環(huán)平移的方式移動(dòng)到圖像的右側(cè),如圖3所示。這一平移策略是為了對病灶在圖像中的位置進(jìn)行改變,同時(shí)降低病灶區(qū)域被分離的概率。通過旋轉(zhuǎn)和平移的方式可以得到4張角度不同、且病灶相對位置不同的病灶圖像。

圖3 平移策略示例

2.3 類間混合策略

令通過2.1方法選擇出暗區(qū)部分較少的健康圖像數(shù)據(jù)集中圖像為H,其中第i張圖像為Hi。通過2.2旋轉(zhuǎn)和平移策略獲取的病灶圖像為L,且用Lp,q表示第p類疾病的第q張圖,本文提出線性組合形式的類間混合方法,即新的病灶圖像可以表示為

其中i和q均隨機(jī)匹配,確保不重復(fù)出現(xiàn)。系數(shù)α表示原始病灶圖像在新病灶圖像中的權(quán)重。由于我們使用了健康圖像作為所有病灶圖像的基底,不會(huì)出現(xiàn)多種病灶圖像組合的情況。此外,每一類都與健康圖像組合,更容易控制每一種類別圖像平衡后的數(shù)量,因此不需要特別設(shè)置類別中圖像選取的概率,簡化了整體的設(shè)計(jì)。

3 實(shí)驗(yàn)分析

為了驗(yàn)證本文提出方法的有效性,基于PyTorch框架進(jìn)行了實(shí)驗(yàn)程序的設(shè)計(jì)。配備了兩塊NVIDIA GeForce RTX 3080 GPU(顯存均為10GB)的塔式工作站被利用來加快模型推理速度。參數(shù)設(shè)置為batchsize=32,epoch=200,每10輪保存一次訓(xùn)練權(quán)重。

在數(shù)據(jù)集方面,本文選取了腸道內(nèi)窺鏡的公開數(shù)據(jù)集Kvasir-Capsule,a video capsule endoscopy dataset[3]中潰瘍和正常的圖像。原始數(shù)據(jù)集中正常圖像有34 606張,而腸道潰瘍圖像僅為854張。經(jīng)過去除冗余和模糊后,我們選取了190張腸道潰瘍圖像,同時(shí)隨機(jī)挑選了1 000張正常圖像進(jìn)行分析。對潰瘍的190張圖像,經(jīng)過旋轉(zhuǎn)和平移后,數(shù)據(jù)擴(kuò)了4倍,變?yōu)?60張。每一張潰瘍圖像與隨機(jī)選取的兩張健康圖像進(jìn)行組合,即得到了1 520張合成的潰瘍病灶圖像。通過這樣的設(shè)置,潰瘍圖像和正常圖像數(shù)量級保持一致。隨后,按照以下劃分方式設(shè)置訓(xùn)練集、驗(yàn)證集和測試集,見表1。需要注意的是由于本文希望提出一種能夠輔助分類網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集平衡方法,因此潰瘍的測試集選取了38張未被處理和使用過的潰瘍真實(shí)圖像。

表1 潰瘍和正常類型的圖像數(shù)據(jù)量 單位:張

在分類算法方面,我們使用了經(jīng)典的ResNet,性能指標(biāo)包括準(zhǔn)確率ACC,精度Precision,以及F1值。具體實(shí)驗(yàn)結(jié)果見表2。

表2 算法性能比較

通過對比和消融實(shí)驗(yàn)可見,本文提出的方法由于采用了更具有針對性的設(shè)計(jì),在進(jìn)行腸道圖像二分類任務(wù)中表現(xiàn)出了較好的性能。健康圖像去除暗區(qū)帶來的性能提升幅度不如疾病圖像旋轉(zhuǎn)和平移帶來的提升。可以理解為針對腸道潰瘍分類任務(wù),圖像中病灶的旋轉(zhuǎn)和位置影響要大于暗區(qū)帶來的影響。

4 結(jié)束語

本文根據(jù)腸道圖像的特點(diǎn),設(shè)計(jì)了一種具有較強(qiáng)針對性的類間數(shù)據(jù)平衡方法。核心思路包括利用數(shù)量巨大的健康圖像為基底,線性組合病灶圖像。在選取圖像時(shí)去除了暗區(qū)部分較大的健康圖像以降低暗區(qū)對分類性能的影響,同時(shí)通過病灶圖像的旋轉(zhuǎn)和平移模擬了臨床中腸道病灶的旋轉(zhuǎn)特性和位置不確定的特點(diǎn)。通過這種簡潔的方法,能夠快速地進(jìn)行高度不平衡的腸道圖像數(shù)據(jù)集平衡。通過腸道潰瘍和健康二分類仿真驗(yàn)證了本文方法的有效性。

猜你喜歡
類間暗區(qū)腸道
腸道臟了翻出來洗洗
大自然探索(2024年1期)2024-03-19 19:01:03
70%的能量,號稱“腸道修復(fù)菌之王”的它,還有哪些未知待探索?
夏季謹(jǐn)防腸道傳染病
基于OTSU改進(jìn)的布匹檢測算法研究
常做9件事腸道不會(huì)差
基于貝葉斯估計(jì)的多類間方差目標(biāo)提取*
基于配準(zhǔn)圖像與水平集算法的宮頸熒光多生暗區(qū)分割方法
基于類間相對均勻性的紙張表面缺陷檢測
基于改進(jìn)最大類間方差法的手勢分割方法研究
光束分析儀測量高階拉蓋爾高斯光束暗區(qū)半徑研究
桐梓县| 永康市| 阿图什市| 尼玛县| 大悟县| 长海县| 清远市| 漳平市| 峨眉山市| 蓬莱市| 沧州市| 宁远县| 满洲里市| 许昌县| 通山县| 尼玛县| 江西省| 清流县| 新宁县| 北碚区| 本溪市| 芷江| 巴楚县| 云南省| 叙永县| 永州市| 义乌市| 社旗县| 彩票| 洱源县| 威海市| 乳源| 闽侯县| 镇安县| 东至县| 黄平县| 南投市| 方山县| 葫芦岛市| 彰武县| 元江|