卓 力,李艷萍,張 輝,李曉光,楊 洋,魏 瑋
(1.北京工業(yè)大學(xué)信息學(xué)部 北京 100124;2.北京工業(yè)大學(xué)計(jì)算智能與智能系統(tǒng)北京重點(diǎn)實(shí)驗(yàn)室 北京 100124;3.中國中醫(yī)科學(xué)院望京醫(yī)院功能性胃腸病中醫(yī)診治北京市重點(diǎn)實(shí)驗(yàn)室 北京 100102)
舌診是中醫(yī)區(qū)別于其他醫(yī)療體系的最具特色的一種診法。醫(yī)生通過觀察舌質(zhì)和舌苔等的各種表現(xiàn),如舌色、苔色、厚度、質(zhì)地、濕度、舌形、舌態(tài)等來診察病癥[1]。舌色是其中最為直觀且最重要的一種診察特征,常見的舌色可以分為淡紅、紅、暗紅、紫等4類。因此,在中醫(yī)客觀化研究中,中醫(yī)舌色分析可以看作是一個(gè)分類問題,利用機(jī)器學(xué)習(xí)的方法來解決。
近年來,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為代表的深度學(xué)習(xí)發(fā)展迅猛,研究者們開展了基于深度學(xué)習(xí)的中醫(yī)舌色分類研究,利用CNN強(qiáng)大的特征提取和語義表達(dá)能力,取得了遠(yuǎn)超過傳統(tǒng)方法的分類性能[2]。Hou 等[3]構(gòu)建了舌圖像數(shù)據(jù)庫,使用修改后的CaffeNet 網(wǎng)絡(luò)對舌色進(jìn)行分類。徐雍欽等[4]采用深度學(xué)習(xí)方法,提取舌象深層特征并融合舌象邊緣特征、紋理特征等進(jìn)行綜合分析人體臟器病理變化。Lu 等[5]從顏色校正的角度出發(fā),提出了一個(gè)深度色彩校正網(wǎng)絡(luò),消除因光照條件導(dǎo)致的顏色失真。Qu 等[6]對舌體區(qū)域進(jìn)行分割,分離舌質(zhì)區(qū)域和舌苔區(qū)域,用稀疏編碼表示舌圖像的特征向量,通過計(jì)算重建特征向量時(shí)的殘差來確定舌色類別。
總的來看,與傳統(tǒng)“人工特征+分類器”的分類方法相比,基于深度學(xué)習(xí)的中醫(yī)舌色分類方法采用端到端的框架,可以獲得性能上的極大提升。但是現(xiàn)有的這些研究工作還無法獲得令人滿意的分類結(jié)果,主要原因在于:
①中醫(yī)醫(yī)生在判斷舌色時(shí),往往以觀察舌尖和舌兩側(cè)為主。然而,現(xiàn)有的方法往往是將整幅舌圖像作為網(wǎng)絡(luò)的輸入,忽略了醫(yī)生的診斷習(xí)慣,導(dǎo)致網(wǎng)絡(luò)無法很好地關(guān)注舌色區(qū)域,對分類結(jié)果造成不利影響。如何有針對性地設(shè)計(jì)深度網(wǎng)絡(luò)模型,提升舌色分類的準(zhǔn)確性,還需要進(jìn)行深入的研究。
②CNN 需要以高質(zhì)量、大規(guī)模的標(biāo)注數(shù)據(jù)作為支撐,才能獲得理想的訓(xùn)練性能。但是受醫(yī)生的知識(shí)水平、思維方式及診斷經(jīng)驗(yàn)的限制,也因?yàn)楣饩€、環(huán)境等外界因素的影響,以及部分舌象樣本顏色類別的視覺界限不明顯等原因,導(dǎo)致醫(yī)生標(biāo)注的舌象樣本中經(jīng)常會(huì)出現(xiàn)錯(cuò)誤的標(biāo)簽,形成噪聲樣本。噪聲樣本的存在會(huì)導(dǎo)致網(wǎng)絡(luò)在訓(xùn)練過程中難以收斂,分類模型的泛化能力差。針對有噪聲標(biāo)注樣本情況下的分類問題,研究者們提出了各種不同的方法,用來提升有噪聲樣本情況下的網(wǎng)絡(luò)訓(xùn)練性能,已經(jīng)成為目前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。這些方法大致可以分為3 類:噪聲樣本篩選和標(biāo)簽校正;基于損失函數(shù)的噪聲樣本抑制;精細(xì)化的訓(xùn)練策略。
噪聲樣本篩選和標(biāo)簽校正的目的是為了篩選出有噪樣本,并對錯(cuò)誤的標(biāo)簽進(jìn)行校正,提高標(biāo)注樣本的質(zhì)量。一種簡單的思路就是利用一個(gè)訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行推理,挑選出預(yù)測結(jié)果與標(biāo)簽不一致的噪聲樣本,并對其原有的標(biāo)簽進(jìn)行校正[7]。Veit 等[8]提出了一個(gè)新的網(wǎng)絡(luò)框架,通過引入有噪標(biāo)簽的殘差,學(xué)習(xí)精確標(biāo)簽與有噪標(biāo)簽之間的差別,而不是擬合精確標(biāo)簽,使得模型更容易學(xué)習(xí)。PENCIL框架[9]采用梯度下降和反向傳播對標(biāo)簽進(jìn)行更新和校正。Northcutt 等[10]提出置信學(xué)習(xí),通過計(jì)算噪聲聯(lián)合概率轉(zhuǎn)移矩陣來估計(jì)噪聲標(biāo)簽。但是這類方法往往需要一個(gè)復(fù)雜的推理步驟來將錯(cuò)誤的標(biāo)簽糾正,這個(gè)推理過程的建立依賴于一個(gè)復(fù)雜的噪聲模型,而噪聲模型的建立往往代價(jià)較高,或者需要一個(gè)精確的無噪聲數(shù)據(jù)集。
基于損失函數(shù)的噪聲樣本抑制方法是通過設(shè)計(jì)損失函數(shù),在網(wǎng)絡(luò)訓(xùn)練過程中對噪聲樣本進(jìn)行有效抑制。Label Smoothing 方法以soft-one-hot代替one-hot,避免過擬合的同時(shí),也緩解了錯(cuò)誤標(biāo)簽帶來的影響[11]。Bootstrapping 把模型的預(yù)測加入到真實(shí)標(biāo)簽中,從而降低模型對噪聲樣本的關(guān)注度[12]。GCE(Generalized Cross Entropy)[13]將Box-Cox 變換引入到概率中,結(jié)合CE(Cross Entropy)和MAE(Mean Absolute Error)[14],達(dá)到了噪聲抑制的效果。SCE(Symmetric Cross Entropy)[15]則是將RCE(Reverse Cross Entropy)與CE 結(jié)合,構(gòu)成了對稱的噪聲魯棒損失函數(shù),也可以對噪聲樣本進(jìn)行有效抑制。
精細(xì)化訓(xùn)練策略依賴于對訓(xùn)練過程的高度干預(yù)或者對訓(xùn)練過程中超參數(shù)的精確控制,為標(biāo)簽噪聲設(shè)計(jì)全新的學(xué)習(xí)模式。Decoupling 訓(xùn)練策略[16]同時(shí)訓(xùn)練兩個(gè)網(wǎng)絡(luò),當(dāng)預(yù)測結(jié)果不一致時(shí),則更新參數(shù)。Coteaching 方法采用雙網(wǎng)絡(luò)協(xié)同學(xué)習(xí)的思想,抑制噪聲樣本的影響[17]。聯(lián)合優(yōu)化框架通過交替更新DNN 參數(shù)和標(biāo)簽,來提升噪聲樣本下的網(wǎng)絡(luò)訓(xùn)練性能[18]。除此之外,教師-學(xué)生網(wǎng)絡(luò)[19-20]、迭代學(xué)習(xí)框架[21-22]等也是有效的噪聲樣本訓(xùn)練策略。這類方法由于對訓(xùn)練過程高度依賴,往往具有很強(qiáng)的局限性。
以上研究結(jié)果表明,噪聲樣本學(xué)習(xí)方法有助于提升分類性能,噪聲魯棒的損失函數(shù)不僅在抗噪聲方面擁有顯著的效果,而且應(yīng)用方便。但是目前針對有噪樣本下的舌色分類工作很少,當(dāng)前舌色分類的準(zhǔn)確性還難以滿足臨床需求,這嚴(yán)重阻礙了舌診客觀化研究的進(jìn)展。
針對上述問題,本文從中醫(yī)舌色分類的特點(diǎn)出發(fā),提出了一種基于區(qū)域注意力機(jī)制的有噪樣本下中醫(yī)舌色分類方法,以提高舌色分類的魯棒性和準(zhǔn)確性。主要的創(chuàng)新點(diǎn)包括:①提出了一種舌色區(qū)域注意力機(jī)制(Tongue Regional Attention Mechanism,TRAM),將其嵌入到ResNet18[23]中,構(gòu)建了TRAM-ResNet18 網(wǎng)絡(luò)。該網(wǎng)絡(luò)可以更好地提取、表達(dá)舌色區(qū)域的特征,提升舌色分類性能;②設(shè)計(jì)了一種對稱修正的交叉熵(Symmetric Modified Cross-Entropy,SMCE)損失函數(shù),用于對網(wǎng)絡(luò)進(jìn)行優(yōu)化訓(xùn)練,可以在網(wǎng)絡(luò)訓(xùn)練過程對噪聲樣本起到很好的抑制作用,提升分類的魯棒性。
在自建的3個(gè)中醫(yī)舌色分類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的舌色分類方法能以較低的模型復(fù)雜度,顯著提升分類性能,準(zhǔn)確率分別達(dá)到了94.96%、93.36%和93.92%,mAP 分別達(dá)到了94.53%、93.05%和93.38%,Macro-F1 分別達(dá)到了94.67%、93.16%和92.43%。
本文提出的有噪樣本下中醫(yī)舌色分類方法整體框架如圖1 所示。該方法采用ResNet18 作為骨干網(wǎng)絡(luò)。首先,根據(jù)中醫(yī)醫(yī)生主要通過觀察舌尖和舌兩側(cè)的顏色進(jìn)行診斷的習(xí)慣,提出了區(qū)域注意力機(jī)制TRAM,對舌色區(qū)域的特征進(jìn)行增強(qiáng),抑制非舌色區(qū)域的特征,提升特征的表達(dá)能力;接下來,設(shè)計(jì)了一種對稱修正的交叉熵?fù)p失函數(shù)SMCE,用于在網(wǎng)絡(luò)訓(xùn)練過程中對噪聲樣本進(jìn)行抑制,提升舌色分類性能。
圖1 本文提出的中醫(yī)舌色分類整體框圖
舌色區(qū)域注意力機(jī)制的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 舌色區(qū)域注意力機(jī)制
根據(jù)舌色區(qū)域主要位于舌尖及舌兩側(cè)部位的特點(diǎn),生成舌色區(qū)域的掩膜圖。假設(shè)輸入為舌圖像TONin,相應(yīng)的舌色區(qū)域掩膜圖為TONmask∈R224×224×3,對TONin和TONmask1進(jìn)行卷積變換(64@conv7×7),得到特征圖TONin1和TONmask1∈R112×112×64。接著對舌色區(qū)域掩膜圖做以下處理:
首 先,對TONmask1做 反 卷 積,生 成TONmask2∈R224×224×64。然后對其進(jìn)行1×1 卷積,生成TONmask3,目的是在不改變特征圖大小以及特征圖維度的情況下,實(shí)現(xiàn)跨通道的線性組合。接著,對TONmask3進(jìn)行平均池化與最大池化操作,將輸出結(jié)果相融合,此時(shí)的特征圖大小恢復(fù)到112×112。最后采用ReLU 非線性激活函數(shù),得到舌色區(qū)域注意力圖TONam。整個(gè)過程可以用公式表達(dá)如下:
最后,利用舌色區(qū)域注意力圖TONam對特征通道逐一進(jìn)行加權(quán),得到增強(qiáng)后的特征通道TONout,可以用公式表示為:
1.2.1 定義
對于一個(gè)K類別的分類問題,假設(shè)有N個(gè)樣本量的訓(xùn)練數(shù)據(jù)集D={xi,yi}N i=1,xi表示數(shù)據(jù)集中第i個(gè)訓(xùn)練樣本,yi∈{1,...,K}表示對應(yīng)的第i個(gè)樣本的標(biāo)簽。q(k|x)表示樣本x的真實(shí)標(biāo)簽分布,并且q(k|x) =1。本文研究的是每個(gè)樣本對應(yīng)一個(gè)標(biāo)簽的常見分類問題,假設(shè)一個(gè)樣本x的真實(shí)標(biāo)簽為y,那么q(y|x) = 1,并且在所有其他標(biāo)簽的條件下,即k≠y時(shí),q(k|x) = 0。分類問題就是學(xué)習(xí)映射函數(shù)f:X→Y,將輸入空間映射到標(biāo)簽空間。針對每個(gè)樣本x,分類器f(x)會(huì)計(jì)算它在每個(gè)標(biāo)簽下的概率,即k∈{1,..,K}:p(k|x)=ezk/,其中zk指類別為k時(shí)的網(wǎng)絡(luò)logits層的輸出,p(k|x)表示分類器預(yù)測的標(biāo)簽概率分布。訓(xùn)練分類器f是為了找到一組最佳參數(shù)θ滿足最小化經(jīng)驗(yàn)風(fēng)險(xiǎn),定義為:
其中L(f(x),y)是分類器f在標(biāo)簽為y時(shí)的損失。
本文針對有噪樣本情況下的舌色分類問題,設(shè)計(jì)了一個(gè)噪聲魯棒的損失函數(shù),即對稱修正的交叉熵?fù)p失函數(shù),對于一個(gè)樣本x,其計(jì)算公式如下:
其中p(y|x)代表預(yù)測正確時(shí)的概率分布,d是GCE 中的動(dòng)態(tài)調(diào)節(jié)參數(shù),K代表類別數(shù),α和β分別是可調(diào)參數(shù),通過調(diào)節(jié)α和β來搭配,以達(dá)到模型性能最好時(shí)的損失函數(shù)。本文設(shè)置α= 1,β= 0.1。
下面對SMCE進(jìn)行理論分析和說明。
1.2.2 理論分析
2017 年,微軟提出了一個(gè)重要的研究發(fā)現(xiàn)[24],即,對稱性損失函數(shù)具有一定的抗噪能力。通過推導(dǎo)和進(jìn)一步實(shí)驗(yàn),證明了MAE就是一種典型的擁有對稱性的損失函數(shù),具體公式為:
而平時(shí)最常用的CE 損失函數(shù)則是非對稱的,它的公式為:
此外,結(jié)合患者的病因構(gòu)成,對其一般資料與病因構(gòu)成關(guān)聯(lián)分析顯示,40歲以下患者13例,約為21.7%;40至60歲患者27例,約為45.0%;60歲以上患者20例,約為33.3%,并且年齡在50歲及以上的中老年患者數(shù)量比率達(dá)到58.3%,數(shù)量比率最多。此外,不同病因患者其年齡分布上也存在一定的差異,P<0.05,具有統(tǒng)計(jì)學(xué)意義。
因此,MAE 是一種噪聲魯棒的損失函數(shù),而CE 則不是。但由于梯度飽和等原因,使用MAE訓(xùn)練網(wǎng)絡(luò)的速度比較緩慢?;诖?,Zhang Z 等[13]利用CE 的快速收斂性,將其與MAE 相結(jié)合,提出了一個(gè)噪聲魯棒的損失函數(shù)GCE。GCE 將Box-Cox 變換應(yīng)用于概率,可以看作是MAE和CE的廣義混合,具體公式為:
其中d是動(dòng)態(tài)調(diào)節(jié)參數(shù)。當(dāng)d= 1 時(shí),GCE 相當(dāng)于MAE;當(dāng)d= 0 時(shí),GCE 相當(dāng)于CE,因此GCE 是一種可以動(dòng)態(tài)調(diào)節(jié)的損失函數(shù)。但是,GCE只能保證在部分情況下是噪聲魯棒的,即當(dāng)d= 1,GCE則變形為MAE。
基于此,本文提出了一種對稱修正的交叉熵?fù)p失函數(shù)SMCE,使得無論d取何值、GCE 此時(shí)是何種變換形式,都有一個(gè)對稱的損失函數(shù)在發(fā)揮著噪聲抑制的作用。SMCE損失函數(shù)的公式為:
可以看出,SMCE 包括LGCE和LADD兩個(gè)損失函數(shù),通過α和β權(quán)重系數(shù)來調(diào)節(jié)兩個(gè)損失函數(shù)的作用。LADD表達(dá)式為:
為了證明LADD是對稱的,將其化簡,可以得到:
可見,LADD是一個(gè)對稱的損失函數(shù)。這使得SMCE始終具有一定的抗噪能力。
2.1.1 數(shù)據(jù)集
目前,還沒有公開的中醫(yī)舌色分類數(shù)據(jù)集。課題組與國內(nèi)3 家中醫(yī)醫(yī)院合作,使用自行研發(fā)的中醫(yī)舌象分析儀[25]臨床采集舌圖像,通過前期對儀器各項(xiàng)參數(shù)的調(diào)整和測試,盡可能還原真實(shí)舌象,建立了3個(gè)舌色分類數(shù)據(jù)集。本文所用的3 個(gè)數(shù)據(jù)集SIPL-A、SIPL-B 和SIPL-C 是分別與北京市宣武中醫(yī)醫(yī)院、中國中醫(yī)科學(xué)院廣安門醫(yī)院和南昌市洪都中醫(yī)院合作建立的。每幅舌圖像都由經(jīng)驗(yàn)豐富的中醫(yī)專家手工標(biāo)注。根據(jù)中醫(yī)理論和臨床實(shí)踐,每個(gè)數(shù)據(jù)集都包括舌色的4個(gè)主要類別,即淡紅色、紅色、暗紅色和紫色。每個(gè)數(shù)據(jù)集中的類別和數(shù)量如表1所示,3個(gè)數(shù)據(jù)集的部分示例樣本如圖3所示。
表1 三個(gè)數(shù)據(jù)集的類別和數(shù)量
圖3 三個(gè)數(shù)據(jù)集的部分示例舌圖像
2.1.2 數(shù)據(jù)擴(kuò)充
在實(shí)驗(yàn)中,按照8∶2 的比例對每個(gè)數(shù)據(jù)集進(jìn)行劃分,其中80%作為訓(xùn)練數(shù)據(jù),其余20%作為測試數(shù)據(jù)。此外,由多名中醫(yī)專家對測試數(shù)據(jù)進(jìn)行重新標(biāo)注,綜合專家的標(biāo)注結(jié)果作為樣本標(biāo)簽,以確保測試數(shù)據(jù)盡可能干凈。為了提高網(wǎng)絡(luò)的訓(xùn)練性能并避免過擬合,進(jìn)行了數(shù)據(jù)擴(kuò)充,包括水平翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)15°和其他幾何變換方式。
2.1.3 參數(shù)設(shè)置
為了公平比較,將提出的舌色分類網(wǎng)絡(luò)結(jié)構(gòu)TRAM-ResNet18在PyTorch 平臺(tái)上進(jìn)行了搭建和訓(xùn)練測試,硬件配置為NVIDIA GeForce TX 1080 Ti GPU。模型訓(xùn)練時(shí),采用Adam 梯度下降算法,學(xué)習(xí)率設(shè)為0.001,Batch Size 設(shè)置為32,epoch 為200。對輸入的舌圖像進(jìn)行分割,只保留舌體區(qū)域,去除背景干擾,然后將舌體大小統(tǒng)一調(diào)整為224×224。
本文采用準(zhǔn)確率、mAP(mean Average Precision)和Macro-F1 這3 個(gè)指標(biāo)來評(píng)價(jià)舌色分類模型性能的好壞。3 個(gè)評(píng)價(jià)指標(biāo)的取值范圍均為0-1,值越高,表明舌色分類性能越好。
準(zhǔn)確率Acc表示所有測試樣本中被正確預(yù)測的樣本數(shù)量,定義為:
其中NC表示測試集中所有被正確預(yù)測分類的樣本數(shù)量,N表示測試集中樣本的總數(shù)量。
mAP是對所有類別的AP取平均值求得,即:
其中,n表示每一類的樣本個(gè)數(shù),m表示類別數(shù)。
Macro-F1 是F1 得分在多分類問題的推廣,F(xiàn)1 的核心思想在于,它同時(shí)兼顧了精確率和召回率,用于測量不均衡數(shù)據(jù)的模型精度。Macro-F1 認(rèn)定每個(gè)類別的權(quán)重都相同,不受數(shù)據(jù)不平衡的影響。Macro-F1的計(jì)算方式如下所示:
第i類的精確率和召回率分別表示為:
Macro-F1 的計(jì)算方式是先對各類別的精確率和召回率分別求平均:
然后根據(jù)下式計(jì)算得到Macro-F1:
為了驗(yàn)證本文提出的舌色區(qū)域注意力機(jī)制對舌色分類性能的影響,將其與SENets(Squeeze-andexcitation networks)[26]、CBAM (Convolutional block attention module)[27]、ECA(Efficient channel attention)[28]等代表性的注意力機(jī)制進(jìn)行了比較。所有實(shí)驗(yàn)均以ResNet18 作為骨干網(wǎng)絡(luò),加入各種注意力機(jī)制后,采用相同的配置對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。在3個(gè)數(shù)據(jù)集上的對比結(jié)果如表2所示,其中基線表示僅采用ResNet18,未添加任何注意力機(jī)制??梢钥闯觯c其他的注意力機(jī)制相比,本文針對舌色分類的具體特點(diǎn)設(shè)計(jì)的區(qū)域注意力機(jī)制,在準(zhǔn)確率、mAP和Macro-F1上均有所提升,在三個(gè)數(shù)據(jù)集上,準(zhǔn)確率分別提高了0.82%、0.14%和0.56%以上,mAP 分別提高了0.94%、1.08%和1.25%以上,Macro-F1 分別提高了0.83%、0.7%和0.89%以上,充分證明了舌色區(qū)域注意力機(jī)制的有效性。
表2 不同注意力機(jī)制的分類結(jié)果對比
為了驗(yàn)證TRAM-ResNet18網(wǎng)絡(luò)的分類性能,本文在SIPL-A 數(shù) 據(jù) 集 上,將 其 與LeNet[29]、AlexNet[30]、Vgg16[31]、ResNet18 和MobileNetV2[32]等代 表性 的 輕 型CNN 網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了性能上的比較。所有網(wǎng)絡(luò)均在相同的配置下采用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)共重復(fù)了10次,計(jì)算其平均值和標(biāo)準(zhǔn)偏差作為實(shí)驗(yàn)結(jié)果,如表3 所示。表中同時(shí)列出了每個(gè)網(wǎng)絡(luò)模型的參數(shù)量、準(zhǔn)確率、mAP、Macro-F1 和標(biāo)準(zhǔn)偏差。可以看出,與其他輕型CNN 網(wǎng)絡(luò)結(jié)構(gòu)相比,TRAM-ResNet18能獲得最高的準(zhǔn)確率、mAP、Macro-F1 和最小的標(biāo)準(zhǔn)差。具體來說,與ResNet18 相比,網(wǎng)絡(luò)模型參數(shù)量僅增加了0.21 M,準(zhǔn)確率提升了4.72%,mAP 提升了4.19%,Macro-F1 提升了6.2%。與MobileNet V2 網(wǎng)絡(luò)相比,雖然TRAM-ResNet18在模型參數(shù)量方面不占優(yōu)勢,但是mAP 提高了4.74%,標(biāo)準(zhǔn)差也更小。綜合起來看,TRAM-ResNet18 可以在模型復(fù)雜度、分類準(zhǔn)確性、穩(wěn)定性和可靠性之間達(dá)到很好的折中。
表3 不同輕型網(wǎng)絡(luò)的分類精度和參數(shù)量的比較結(jié)果
為了驗(yàn)證SMCE的抗噪聲性能,本文在3個(gè)數(shù)據(jù)集上,將其分別與6 種代表性的損失函數(shù)進(jìn)行了性能對比,具體包括CE、Label Smoothing、Bootstrapping-hard、Bootstrapping-soft、GCE、SCE 等。對 比 方 法 均 采 用ResNet18作為骨干網(wǎng)絡(luò),訓(xùn)練參數(shù)和設(shè)置均按2.1所述。表4列出了使用不同的損失函數(shù)得到的分類結(jié)果。
表4 不同損失函數(shù)在噪聲樣本下的的分類結(jié)果對比
從實(shí)驗(yàn)結(jié)果中可以看出,采用本文提出的SMCE損失函數(shù)在3 個(gè)數(shù)據(jù)集上均取得了最優(yōu)的分類性能。相比于其他的噪聲魯棒損失函數(shù),本文提出的SMCE損失函數(shù)可以將準(zhǔn)確率分別提高1.68%、1.26%和1.26以上,達(dá)到了94.09%、91.43%和93.22%;將mAP分別提高1.7%、2.26%和1.27%以上,達(dá)到了93.37%、90.89%和92.51%;將Macro-F1分別提高1.56%、1.52%和1.19%以上,達(dá)到了93.81%、91.26%和92.02%。尤其是與CE 損失函數(shù)相比,Macro-F1 指標(biāo)分別提高了6.99%、5.44%和10.22%。這說明本文設(shè)計(jì)的SMCE 損失函數(shù)可以更有效地對噪聲樣本進(jìn)行抑制,顯著提升了有噪樣本下的分類性能。
為了驗(yàn)證本文方法在有噪樣本情況下的分類性能,在3 個(gè)數(shù)據(jù)集上,將其分別與4 種代表性的噪聲樣本學(xué)習(xí)方法進(jìn)行了對比,包括PENCIL、AFM(Attentive Feature Mixup)[33]、Co-teaching、Co-teaching+等。對比方法的訓(xùn)練設(shè)置均按2.1所述,表5列出了使用不同方法得到的分類結(jié)果。
表5 與不同有噪樣本下分類方法的對比
從實(shí)驗(yàn)結(jié)果中可以看出,采用本文提出的方法在3 個(gè)數(shù)據(jù)集上均取得了最優(yōu)的分類性能,與其他方法相比,本文方法可以將準(zhǔn)確率分別提高2.59%、2.53%和1.06%以上,達(dá)到了94.96%、93.36%和93.92%;將mAP 分別提高2.58%、2.56%和1.54%以上,達(dá)到了94.53%、93.05% 和93.38%;將Macro-F1 分 別 提 高2.83%、2.49%和0.89%以上,達(dá)到了94.67%、93.16%和92.43%。這是因?yàn)楸疚姆椒ú粌H可以對噪聲樣本進(jìn)行有效抑制,還結(jié)合舌色分類任務(wù)本身的特點(diǎn),加強(qiáng)了對舌色區(qū)域特征的提取,從而提升了舌色分類性能。
為了驗(yàn)證提出方法中各個(gè)部分的作用,本文在SIPL-A 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)?;€方法以ResNet18 作為骨干網(wǎng)絡(luò),使用CE 損失函數(shù)進(jìn)行網(wǎng)絡(luò)的優(yōu)化訓(xùn)練。實(shí)驗(yàn)中將加入TRAM 和SMCE 前后的分類性能做了對比。實(shí)驗(yàn)結(jié)果如表6所示。
表6 消融實(shí)驗(yàn)
從實(shí)驗(yàn)結(jié)果中可以看出,采用基線方法,準(zhǔn)確率、mAP 和Macro-F1分別僅為88.83%、88.37%和88.72%。采用TRAM 后,3 個(gè)指標(biāo)分別提升了4.72%、4.19%和4.3%,達(dá)到了93.55%、92.56%和93.02%。這說明了針對舌色分類任務(wù)的具體特點(diǎn)設(shè)計(jì)注意力機(jī)制,可以顯著提升舌色分類的性能。而使用噪聲魯棒的損失函數(shù)SMCE 代替CE 后,3 個(gè)指標(biāo)比基線分別提升了5.26%、5%和5.09%。而TRAM和SMCE同時(shí)使用,3個(gè)指標(biāo)進(jìn)一步提升了0.87%、1.16%和0.86%,達(dá)到了94.96%、94.53%和94.67%。這說明本文提出的舌色區(qū)域注意力機(jī)制和對稱修正交叉熵?fù)p失函數(shù),均可以有效提升舌色分類的性能。
為了更直觀地展示TRAM 的有效性,本文采用Grad-CAM++類激活圖方法[34]分別對ResNet18 和TRAM-ResNet18網(wǎng)絡(luò)提取的特征進(jìn)行了可視化處理,如圖4 所示。圖中給出了原始的舌圖像,以及分別采用ResNet18 和TRAM-ResNet18 網(wǎng)絡(luò)提取的特征可視化結(jié)果。從圖4 可以看出,ResNet18 網(wǎng)絡(luò)無法有效提取舌色區(qū)域的特征,網(wǎng)絡(luò)關(guān)注點(diǎn)往往集中在非舌色區(qū)域。很顯然,這樣的特征會(huì)導(dǎo)致舌色分類不夠準(zhǔn)確。而TRAM-ResNet18 網(wǎng)絡(luò)則可以準(zhǔn)確地對舌體區(qū)域的特征進(jìn)行增強(qiáng),對非舌體區(qū)域進(jìn)行抑制,更符合醫(yī)生判定舌色時(shí)的診斷習(xí)慣,從而可以有效提升舌色分類性能。
圖4 TRAM-ResNet18網(wǎng)絡(luò)特征可視化結(jié)果
本文針對中醫(yī)舌色分類的特點(diǎn),提出了一種基于區(qū)域注意力機(jī)制的有噪樣本下中醫(yī)舌色分類方法,以提高舌色分類的魯棒性和準(zhǔn)確性。通過一系列實(shí)驗(yàn),可以得到如下結(jié)論:①針對舌色分類的具體特點(diǎn),本文設(shè)計(jì)了TRAM,可以加強(qiáng)網(wǎng)絡(luò)對于舌色區(qū)域特征的提取與表達(dá)能力,從而有效提升了舌色分類性能;②針對舌色人工標(biāo)注數(shù)據(jù)中存在的噪聲問題,本文設(shè)計(jì)了SMCE 損失函數(shù),可以在網(wǎng)絡(luò)訓(xùn)練過程對噪聲樣本起到很好的抑制作用,提升分類的魯棒性。
在自建的3個(gè)中醫(yī)舌色分類數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的舌色分類方法能以較低的計(jì)算復(fù)雜度,顯著提升分類性能,準(zhǔn)確率分別達(dá)到了94.96%、93.36%和93.92%,mAP 分別達(dá)到了94.53%、93.05%和93.38%,Macro-F1 分別達(dá)到了94.67%、93.16%和92.43%,可以滿足實(shí)際應(yīng)用的需求。在未來的工作中,將增大數(shù)據(jù)集的規(guī)模,進(jìn)一步提升分類準(zhǔn)確率和模型的泛化能力,真正應(yīng)用到實(shí)際臨床舌診中。
世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化2023年8期