秦中翰 艾成博 譚超群 劉洪 杜文超 楊紅雨 吳志紅 陳虎
摘要:新生兒膽道閉鎖是新生兒常見的致命疾病之一,并且該病在亞洲的發(fā)病率高于世界其他地區(qū).新生兒膽道閉鎖需要及時(shí)發(fā)現(xiàn)及時(shí)治療,然而由于缺少專業(yè)的兒科醫(yī)生和輔助診療手段,新生兒父母往往不能及時(shí)發(fā)現(xiàn)而錯(cuò)過了最佳治療時(shí)間.因此,本文開發(fā)了一個(gè)具有實(shí)際應(yīng)用價(jià)值的預(yù)診算法,通過新生兒糞便圖片預(yù)測(cè)新生兒是否患有新生兒膽道閉鎖,并提醒新生兒父母及時(shí)就診.為了讓算法在應(yīng)用場(chǎng)景下識(shí)別率更高,本文的算法基于一個(gè)真實(shí)場(chǎng)景下拍攝的新生兒糞圖片數(shù)據(jù)集開發(fā). 首先我們?cè)O(shè)計(jì)了一個(gè)自注意力網(wǎng)絡(luò)模型BANet(Biliary Atresia Network),將圖片的淺層特征和深層特征相結(jié)合,可以得到更好的分類效果. 由于拍攝自應(yīng)用場(chǎng)景下的圖片存在過暗和過曝等問題. 通過分析數(shù)據(jù)集的亮度分布,我們?cè)O(shè)計(jì)了一個(gè)自動(dòng)亮度調(diào)節(jié)算法解決. 此外,圖片中的陰影也會(huì)對(duì)識(shí)別結(jié)果造成干擾,因此我們?cè)谟?xùn)練階段增加了一種陰影數(shù)據(jù)增強(qiáng)方式來(lái)緩解這一問題.為驗(yàn)證本文提出算法的有效性,本文設(shè)計(jì)了一個(gè)和醫(yī)生的對(duì)比試驗(yàn).結(jié)果證明BANet在四分類的識(shí)別率、二分類的識(shí)別率、特異性和敏感性等客觀評(píng)價(jià)指標(biāo)上占有明顯優(yōu)勢(shì).本文提出的BANet能夠有效利用圖片中的顏色、異常點(diǎn)等信息,并且通過對(duì)圖片亮度進(jìn)行補(bǔ)償,提高了整體算法準(zhǔn)確率和魯棒性,在實(shí)際應(yīng)用場(chǎng)景取得了良好的效果.
關(guān)鍵詞:新生兒膽道閉鎖; 自注意力; 數(shù)據(jù)增強(qiáng); 卷積神經(jīng)網(wǎng)絡(luò)
收稿日期: 2022-11-25
基金項(xiàng)目: 國(guó)家自然科學(xué)基金(61871277); 四川省衛(wèi)生健康委員會(huì)科研課題(19PJ007); 成都市衛(wèi)生健康委員會(huì)科研課題(2022053)
作者簡(jiǎn)介: 秦中翰(1998-),男,山東臨沂人,碩士研究生,研究方向?yàn)閳D像處理與神經(jīng)網(wǎng)絡(luò).E-mail: zhonghanqin@stu.scu.edu.cn
通訊作者: 陳虎.E-mail: huchen@scu.edu.cn
Recognition of neonatal biliary atresia based on transformer
QIN Zhong-Han1, AI Cheng-Bo2, TAN Chao-Qun3, LIU Hong1,3, DU Wen-Chao3, YANG Hong-Yu1,3, WU Zhi-Hong3 , CHEN Hu1
(1. College of Computer Science, Sichuan University, Chengdu 610065, China;2. West China Hospital of Sichuan University, Chengdu 610065, China;3. State Key Laboratory of Fundamental Science on Synthetic Vision, Sichuan University, Chengdu 610065, China)
Neonatal biliary atresia is one of the most common fatal diseases in neonates, with higher incidence rates in Asia than in other parts of the world. Early detection and treatment of neonatal biliary atresia are crucial, yet the lack of professional pediatricians and auxiliary diagnostic and treatment methods can cause parents to miss the best treatment window. To address this issue, this paper develops a predictive algorithm with practical application value that uses neonatal stool pictures to predict whether the newborn has neonatal biliary atresia and reminds parents to visit a doctor in time. To achieve higher recognition rates in practical scenarios, the algorithm in this paper is developed based on a real-scene dataset of newborn fecal images. First, we designed a self-attention network model BANet (Biliary Atresia Network), which will combine shallow features and deep features of pictures to get better classification. To address issues as dark or overexposed images, we developed an automatic brightness adjustment algorithm by analyzing the brightness distribution of the dataset. Furthermore, we added a shadow data enhancement method duiring training to mitigate the inference of shadows on recognition results. In order to verify the effectiveness of the algorithm proposed in this paper, we design a comparison test with doctors. The results show that BANetoutperformed doctors in objective evaluation indicators such as the recognition rate of four classifications, the recognition rate of two classifications, specificity and sensitivity. The proposed BANet can effectively use the color, abnormal points and other information in the picture, by compensating the brightness of the picture, the accuracy and robustness of the overall algorithm are improved and good results have been achieved in practical application scenarios.
Neonatal biliary atresia; Self-attention; Data augmentation; Convolutional neural network
1 引 言
新生兒膽道閉鎖是一種在嬰兒期破壞肝外膽管的肝膽類疾病[1].膽道閉鎖一般在嬰兒出生后1~2個(gè)月發(fā)病.葛西手術(shù)是治療新生兒膽道閉鎖的首選治療方法[2].最佳葛西手術(shù)時(shí)間是出生后兩個(gè)月內(nèi),并且治療的時(shí)間越早,新生兒術(shù)后的存活率越高[3].未接受治療的嬰兒可能在2歲以內(nèi)死亡[2],所以及時(shí)診斷非常重要.由于基因和飲食習(xí)慣等因素影響,新生兒膽道閉鎖在亞洲的發(fā)病率遠(yuǎn)高于其他地區(qū)[4].然而由于缺乏兒科醫(yī)生和一些輔助診斷工具,很多患者得不到及時(shí)有效的治療.因此,有必要開發(fā)輔助診斷工具以幫助父母檢測(cè)膽道閉鎖.
我們與四川大學(xué)華西醫(yī)院兒科合作,收集新生兒的糞便圖片.所有圖片均由新生兒家長(zhǎng)拍攝,匯總后由三位專家醫(yī)生標(biāo)注,最終共有2946張圖片可作為數(shù)據(jù)集供后續(xù)使用.我們命名為新生兒膽道閉鎖糞便數(shù)據(jù)集.
基于這個(gè)數(shù)據(jù)集,我們使用CNN(Convolutional Neural Network)、Transformer[5]等機(jī)器視覺技術(shù)開發(fā)一個(gè)新生兒膽道閉鎖的識(shí)別算法.現(xiàn)有研究表明,圖片紋理對(duì)深度神經(jīng)網(wǎng)絡(luò)分類的影響很大[6].而我們的研究中,顏色是分類的最重要依據(jù),紋理次之.因此為了讓圖片的顏色特征在最終分類過程中的權(quán)重更大,我們?cè)O(shè)計(jì)了一種網(wǎng)絡(luò)結(jié)構(gòu),將圖像的淺層顏色特征和深層特征融合,提高模型的識(shí)別率.
在模型訓(xùn)練過程中,我們發(fā)現(xiàn)由于數(shù)據(jù)集中的圖像來(lái)自真實(shí)使用場(chǎng)景,拍攝設(shè)備和照明條件有較大差異,部分圖片存在過曝和過暗等問題.光線環(huán)境和設(shè)備很大程度上干擾了模型的預(yù)測(cè)結(jié)果.因此我們?cè)O(shè)計(jì)了一種自動(dòng)亮度調(diào)節(jié)算法來(lái)解決這個(gè)問題.
此外在研究過程中,通過分析模型的熱圖,發(fā)現(xiàn)模型對(duì)圖片中的陰影部分給予了過多的關(guān)注與權(quán)重.圖片中不規(guī)則的陰影對(duì)模型的識(shí)別結(jié)果產(chǎn)生了極大的干擾.因此,我們?cè)O(shè)計(jì)了一種數(shù)據(jù)增強(qiáng)方法,在訓(xùn)練過程中隨機(jī)給輸入的圖片增加陰影,讓訓(xùn)練模型注意到陰影不是圖像的主要特征,增強(qiáng)了模型的泛化能力.
由于我們的算法是基于真實(shí)場(chǎng)景下開發(fā),因此我們?cè)O(shè)計(jì)了一個(gè)對(duì)比實(shí)驗(yàn)來(lái)比較算法、醫(yī)生和患者使用新生兒糞便比色卡的識(shí)別率,以此來(lái)驗(yàn)證我們算法的有效性.
綜上所述,本文有以下貢獻(xiàn):(1)設(shè)計(jì)了一種可以將淺層特征和深層特征相結(jié)合的自注意力網(wǎng)絡(luò)BANet,提高了算法的識(shí)別率;(2)提出了一種在實(shí)際應(yīng)用場(chǎng)景下可自動(dòng)調(diào)節(jié)圖片亮度的算法,提高了模型在不同光線環(huán)境下的魯棒性;(3)提出了一種圖像增強(qiáng)方法,增強(qiáng)了模型的泛化性能,解決了圖像陰影對(duì)模型識(shí)別的干擾.
2 相關(guān)工作
2.1 傳統(tǒng)方法
自2002年起,臺(tái)灣開始向新生兒家庭發(fā)放新生兒糞便比色卡(ISCC)[7],并向新生兒父母宣傳如何使用比色卡以便及時(shí)發(fā)現(xiàn)異常.新生兒糞便比色卡幫助潛在患者及時(shí)發(fā)現(xiàn)疾病并治療,提高了患者的存活率[8].2013年,北京推出大便色卡,上海和深圳也緊隨其后引入了比色卡[9,10].新生兒糞便比色卡預(yù)篩選有效,但其效果并不完美.由于發(fā)放和宣傳如何使用新生兒糞便比色卡并不方便,家長(zhǎng)們也可能缺乏經(jīng)驗(yàn)沒有及時(shí)發(fā)現(xiàn)嬰兒的異常.
隨著信息化發(fā)展,手機(jī)得到廣泛使用.2015年,約翰霍普金斯大學(xué)首先開發(fā)了名為PoopMD的應(yīng)用程序,通過分析用戶上傳的新生兒糞便圖片識(shí)別是否異常.PoopMD使用的算法是基于顏色空間的色彩對(duì)比,將拍攝圖片的糞便顏色與新生兒糞便比色卡中的顏色進(jìn)行比對(duì)得出結(jié)果[11].由于顏色是判斷是否有疾病的主要指標(biāo),異常大便的飽和度低于正常大便.2016年,Shen等人[12]使用HSV顏色模型中的飽和度作為鑒別是否異常的重要指標(biāo),將提取糞便的主要顏色并計(jì)算飽和度,異常糞便的顏色飽和度低,正常糞便的顏色飽和度高.2017年,Hoshino等人[13]基于類特征信息壓縮(CLAFIC)方法設(shè)計(jì)了一種分類算法,將隨機(jī)挑選圖片中的幾個(gè)點(diǎn)并使用這些點(diǎn)的RGB和HSV值作為分類的主要依據(jù).
2.2 深度學(xué)習(xí)方法
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度學(xué)習(xí)方法在圖像處理方面的應(yīng)用愈發(fā)成熟,一些基于深度學(xué)習(xí)的圖像處理方法,如圖像分類算法ResNet[14],ViT[15]等都展示了神經(jīng)網(wǎng)絡(luò)在醫(yī)療分類任務(wù)中的的潛力和可能性.
在新生兒膽道閉鎖識(shí)別方面,Angelico等人[16]基于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種分類方法.該方法的分類標(biāo)準(zhǔn)也是基于新生兒糞便比色卡,并將新生兒糞便比色卡中定義的7類簡(jiǎn)化為3類.其中1~3 類為“正?!?,4 類為“不確定”,5~7 類為異常.該算法先分析圖片的主要顏色,然后使用歸一化算法來(lái)補(bǔ)償照明情況,最后放入神經(jīng)網(wǎng)絡(luò)中分類.
3 方 法
在3.1節(jié)中,我們嘗試各種BackBone網(wǎng)絡(luò)模型.通過實(shí)驗(yàn)發(fā)現(xiàn)只使用卷積的網(wǎng)絡(luò)和只使用Transformer的網(wǎng)絡(luò)并不能取得很好的效果,因此我們?cè)O(shè)計(jì)了BANet網(wǎng)絡(luò). 在3.2節(jié)和3.3節(jié)中,通過分析BANet識(shí)別錯(cuò)誤的原圖和注意力熱圖,我們發(fā)現(xiàn)圖片過暗或過曝會(huì)影響模型識(shí)別,并且圖片中陰影部分會(huì)干擾模型識(shí)別過程.為了提高模型在真實(shí)場(chǎng)景下的魯棒性和泛化能力,我們?cè)O(shè)計(jì)了一種亮度調(diào)節(jié)算法和圖像增強(qiáng)算法來(lái)緩解這些問題.此外,在3.4節(jié)中我們根據(jù)醫(yī)生的診斷經(jīng)驗(yàn),嘗試了各種顏色空間尋找一種可以更好體現(xiàn)數(shù)據(jù)集中的色度差異,最終通過實(shí)驗(yàn)選擇了YCrCb格式用于后續(xù)的訓(xùn)練和應(yīng)用.
3.1 網(wǎng)絡(luò)模型設(shè)計(jì)
在網(wǎng)絡(luò)模型設(shè)計(jì)階段,我們通過實(shí)驗(yàn)發(fā)現(xiàn),僅使用深度卷積網(wǎng)絡(luò),如ResNet[14]、EfficientNet[17]等,或僅使用Transformer的自注意力網(wǎng)絡(luò),如ViT、Swin[18]等,都不能取得很好的性能.Transformer 具有更大的模型容量和全局注意力,但其缺乏歸納偏差,需要大量數(shù)據(jù)進(jìn)行訓(xùn)練.然而,我們的數(shù)據(jù)集數(shù)量偏少,不足使其收斂.卷積網(wǎng)絡(luò)具有更好的泛化性,收斂速度快,并且不需要大量數(shù)據(jù)就可以很好地?cái)M合.但其只有局部感受野,缺乏全局注意力.Dai等人[19]設(shè)計(jì)了CoAtNet巧妙地結(jié)合了卷積網(wǎng)絡(luò)和Transformer網(wǎng)絡(luò),讓其同時(shí)具有全局注意力和更快的收斂速度,并且所需要的數(shù)據(jù)量可以大幅減少.基于此種設(shè)計(jì)思想,我們?cè)O(shè)計(jì)了BANet.
如圖1a所示,BANet網(wǎng)絡(luò)模型分成三部分:淺層特征處理模塊、注意力模塊和顏色特征處理模塊.通過分析醫(yī)生的診斷過程,我們發(fā)現(xiàn)圖片的顏色和異常點(diǎn)是診斷的主要依據(jù).因此我們?cè)O(shè)計(jì)了淺層特征處理網(wǎng)絡(luò)來(lái)得到淺層特征,并增加注意力網(wǎng)絡(luò)來(lái)提取圖片中的異常點(diǎn)特征信息.此外,目前的研究發(fā)現(xiàn),圖片紋理在神經(jīng)網(wǎng)絡(luò)識(shí)別過程中所占權(quán)重更大[6].而對(duì)于本文項(xiàng)目,顏色特征對(duì)于最終的識(shí)別也非常重要.而在神經(jīng)網(wǎng)絡(luò)特征提取過程中,圖片的顏色特征可能會(huì)丟失,因此我們?cè)O(shè)計(jì)了一種顏色特征處理模塊,可以保留圖片的顏色特征用于最終的識(shí)別.
淺層特征處理模塊僅由卷積組成,由于卷積只具有局部注意力,增加DConv[20]層擴(kuò)展其感受野.注意力模塊主要由Transformer層組成,Transformer層的結(jié)構(gòu)如圖1b所示.顏色特征處理模塊主要由ROI層和全連接層組成,因?yàn)閿?shù)據(jù)集的圖片邊緣一般是無(wú)效信息,因此我們僅選取圖片中央部分計(jì)算圖片三個(gè)通道的均值.實(shí)驗(yàn)表明,以圖片中央為中心,ROI長(zhǎng)寬為原圖0.6倍時(shí)效果最好.計(jì)算ROI各個(gè)通道的顏色均值并輸入全連接層生成特征.最后和注意力模塊提取的特征拼接并輸入全連接層輸出結(jié)果.
最后我們使用交叉熵作為損失函數(shù),定義為
其中,(xi,yi)是數(shù)據(jù)集D的樣本;xi是圖像;yi是它的真實(shí)標(biāo)簽. p(xi) 是第 i 類預(yù)測(cè)概率,由 BANet 計(jì)算得出.
3.2 數(shù)據(jù)集的曝光分析
在分析BANet錯(cuò)誤識(shí)別結(jié)果時(shí)發(fā)現(xiàn),部分圖片過曝和過暗會(huì)導(dǎo)致識(shí)別出錯(cuò),因此我們通過分析數(shù)據(jù)集的亮度情況,設(shè)計(jì)了一種自動(dòng)圖片亮度調(diào)節(jié)算法,可以有效地解決圖片亮度異常問題,提高了算法識(shí)別率.
首先,我們將數(shù)據(jù)集中的所有圖片轉(zhuǎn)換成HLS格式并計(jì)算每個(gè)圖片的平均亮度值,計(jì)算亮度的公式如下:
其中,X是輸入的圖片;n和m是圖片的長(zhǎng)和寬;X(i,j,1)表示圖像在(i,j)位置的圖像亮度值.圖片HLS格式中,1表示亮度值通道.
計(jì)算所有圖片的亮度并繪制數(shù)據(jù)集亮度的統(tǒng)計(jì)直方圖,如圖2a所示.
如圖2a所示,我們發(fā)現(xiàn)數(shù)據(jù)集亮度分布近似均值為μ=140.33,σ=16.89的正態(tài)分布.其中中間圖片的亮度正常,處于左端的圖片亮度過暗,右端的圖片過曝.過暗和過亮的圖片很容易造成誤判.根據(jù)正態(tài)分布,區(qū)間[μ-2×σ,μ+2×σ]內(nèi)的數(shù)據(jù)約占 95.44%.我們定義了兩個(gè)閾值:dark_threshold和light_threahold,作為調(diào)整亮度的邊界條件,并將其初始化為106和174.我們?cè)O(shè)計(jì)了一種基于Gmma校正[21]的圖片亮度調(diào)整算法,根據(jù)圖片亮度與閾值之間的差值來(lái)調(diào)整圖片的亮度.亮度調(diào)整公式如下.
圖片亮度調(diào)整是通過γ參數(shù)校正,γ的計(jì)算方式是根據(jù)圖片亮度均值與閾值之間的差值計(jì)算得出.如果圖片過暗,那么γ<1,圖片亮度提升;如果圖片過曝,γ>1,圖片亮度下降.
綜上,整個(gè)亮度調(diào)整算法流程如下.
(1)在將圖片輸入識(shí)別網(wǎng)絡(luò)前,首先圖片轉(zhuǎn)換成HLS格式.
(2)計(jì)算圖片的亮度均值并與閾值做比較,如果低于閾值dark_threshold, 則表示圖片亮度過暗;如果高于閾值light_threahold,則表示圖片過曝.
(3)如果圖片過暗或過曝,根據(jù)亮度調(diào)整算法調(diào)整圖像亮度到正常的曝光區(qū)間.
通過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)dark_threshold =122和light_threahold=158時(shí),識(shí)別效果最佳.并且根據(jù)圖像亮度調(diào)整算法,調(diào)整后的數(shù)據(jù)集亮度分布收縮,如圖2b所示,過暗或過曝的圖片得到了補(bǔ)償.此外通過消融實(shí)驗(yàn)(詳見實(shí)驗(yàn)部分),圖片亮度調(diào)整算法確實(shí)可以提高算法的識(shí)別率.
3.3 隨機(jī)陰影增強(qiáng)
通過分析BANet錯(cuò)誤識(shí)別結(jié)果的熱圖,我們發(fā)現(xiàn)模型的注意力更多地集中在圖片的陰影部分,這與醫(yī)生的判斷方式不相同.如圖3第2行圖片所示.BANet錯(cuò)誤地把陰影部分視為識(shí)別的關(guān)鍵部分.為了解決圖片陰影部分的干擾,我們?cè)O(shè)計(jì)了一種圖像增強(qiáng)方法.
受CutMix[22]和Cutout[23]等數(shù)據(jù)增強(qiáng)方法的啟發(fā),我們提出了一種隨機(jī)選擇矩形區(qū)域并降低其亮度的數(shù)據(jù)增強(qiáng)方法-隨機(jī)陰影增強(qiáng)(Random Shadow).我們定義了隨機(jī)矩形區(qū)域的邊長(zhǎng)shadow size,降低的亮度值shadow value以及使用Random Shadow的概率shadow rate.
通過Random Shadow模擬陰影,讓模型注意到陰影不是圖片的主要特征,從而提高模型的抗干擾能力,增強(qiáng)模型的泛化能力并提升算法識(shí)別率.使用Random Shadow的前后對(duì)比如圖3所示.
3.4 整體流程
因?yàn)獒t(yī)生在臨床上會(huì)根據(jù)新生兒糞便的顏色和色深來(lái)診斷,所以我們嘗試了各種類型的顏色格式(HSV、LAB、YCrCb等)以探索一個(gè)可以更好展現(xiàn)類別差異的顏色空間.一般拍攝的圖像都是基于RGB顏色空間,而在RGB顏色空間中,顏色和色深無(wú)法非常直觀地體現(xiàn)出來(lái).如果將RGB轉(zhuǎn)換成YCrCb空間,Y表示亮度,Cr和Cb分別表示色度,作用是描述圖片的色彩及飽和度,用于指定像素的顏色.這種更符合醫(yī)生臨床判別經(jīng)驗(yàn)的色彩空間可以將數(shù)據(jù)中的差異更好地表現(xiàn)出來(lái).因此取得的實(shí)驗(yàn)效果最好.
本文方法的處理流程如圖4所示. 在訓(xùn)練階段,首先根據(jù)亮度調(diào)整算法調(diào)整圖像的曝光,然后通過Random Shadow生成陰影.最后將圖像放入模型中進(jìn)行訓(xùn)練.在測(cè)試階段,直接調(diào)整圖像的亮度并將其放入模型進(jìn)行分類.訓(xùn)練的偽代碼如算法1所示; 測(cè)試的偽代碼如算法2所示.
4 實(shí)現(xiàn)和評(píng)價(jià)指標(biāo)
4.1 評(píng)價(jià)指標(biāo)和對(duì)比方法
本文對(duì)照醫(yī)生、一種傳統(tǒng)方法(新生兒糞便比色卡)和三種現(xiàn)有方法(BabyPopo,HSV,Poop MD),采用常用于醫(yī)療圖像分類的評(píng)價(jià)指標(biāo),特異性、敏感性以及識(shí)別率分析.所有方法都在驗(yàn)證集中測(cè)試,因?yàn)橛行┓椒ㄊ嵌诸惡腿诸愃惴ǎ覀儗⑵渲械膸追N類別融合后再做實(shí)驗(yàn),然后比較各個(gè)客觀評(píng)價(jià)指標(biāo).此外,為了更好地展示我們提出方法的有效性,還使用了ROC曲線、T-SNE和消融實(shí)驗(yàn)等方法.
4.2 數(shù)據(jù)集
由于新生兒膽道閉鎖識(shí)別缺乏公開數(shù)據(jù)集,而且目前現(xiàn)有方法都是基于實(shí)驗(yàn)場(chǎng)景下的數(shù)據(jù)集開發(fā)和測(cè)試,因此我們構(gòu)建了基于真實(shí)應(yīng)用環(huán)境下的新生兒膽道閉鎖糞便數(shù)據(jù)集.本文數(shù)據(jù)集的所有圖片均由新生兒父母使用手機(jī)在真實(shí)使用場(chǎng)景下拍攝,并由四川大學(xué)華西醫(yī)院兒科收集,所有圖片均拍攝自0~3個(gè)月大嬰兒的糞便.納入研究的所有人均簽署了父母的知情同意書,本研究已獲得四川大學(xué)華西醫(yī)院倫理委員會(huì)的批準(zhǔn)(倫理審查批準(zhǔn)文號(hào):2021-1317).
三位專家基于新生兒糞便比色卡,將數(shù)據(jù)分成4類(嚴(yán)重異常,異常,可疑和正常).首先,兩位專家分別對(duì)圖片進(jìn)行標(biāo)注,互不干擾.然后第三位專家審查了結(jié)果并評(píng)論了以前專家注釋的沖突數(shù)據(jù).如果兩位專家對(duì)沖突數(shù)據(jù)的判斷相同,我們使用兩位一致專家的結(jié)果.如果沖突的數(shù)據(jù)被標(biāo)記了 3 次不一致的結(jié)果,則圖像被丟棄.經(jīng)檢查發(fā)現(xiàn),被丟棄的圖片存在模糊、添加了濾鏡等問題,所以顏色與真實(shí)糞便顏色存在較大差異,失去了研究?jī)r(jià)值.最后,共有2946張224×224的四分類RGB圖像進(jìn)行訓(xùn)練,并且從中挑選101張最具代表性的圖像進(jìn)行測(cè)試和結(jié)果分析.
圖5顯示了四個(gè)類別的一些樣本.呈現(xiàn)白色或灰白色的糞便屬于嚴(yán)重異常;呈現(xiàn)淺黃色或淺綠色的糞便屬于異常;呈現(xiàn)綠色或黃色,里面有異常點(diǎn)的糞便屬于可疑,需要進(jìn)一步觀察;呈現(xiàn)深綠色、深黃色的糞便屬于正常.
我們將數(shù)據(jù)集分為三個(gè)子數(shù)據(jù)集.訓(xùn)練集用于訓(xùn)練模型,測(cè)試集驗(yàn)證模型的準(zhǔn)確性.此外,驗(yàn)證集用于比較我們的算法與兒科醫(yī)生和其他算法之間的性能.三個(gè)數(shù)據(jù)集的分布情況如表1所示.
4.3 實(shí)現(xiàn)細(xì)節(jié)
本文所有深度學(xué)習(xí)方法都在Pytorch框架下,輸入圖像大小為224×224,訓(xùn)練100個(gè)epoch,batch-size為16,weight decay為5e-4;采用SGD進(jìn)行優(yōu)化,momentum=0.9,nesterov=True;初始化學(xué)習(xí)率為0.0001,采用I. Loshchilov等人[24]提出的余弦退火算法調(diào)整學(xué)習(xí)率;在warmup階段訓(xùn)練10個(gè)epoch,采用Kingma等[25]提出的Adam函數(shù)進(jìn)行優(yōu)化,使學(xué)習(xí)率線性增長(zhǎng),從1e-7上升到1e-4.所有深度學(xué)習(xí)方法都按照以上的設(shè)置在兩張GTX1080上部署.
5 實(shí)驗(yàn)結(jié)果分析
5.1 顏色空間實(shí)驗(yàn)
我們?cè)O(shè)計(jì)了顏色空間選擇實(shí)驗(yàn),嘗試了各種類型的顏色空間.如表2所示,相比RGB顏色空間,YCrCb顏色空間可以提升0.68%.雖然諸如HLS等顏色空間也可以將顏色分成亮度和色度,但是在YCrCb顏色空間中,Cr和Cb兩個(gè)通道描述的是紅色信號(hào)和藍(lán)色信號(hào)與RGB信號(hào)的差異,可以更好將數(shù)據(jù)集中不同類別的顏色差異展現(xiàn)出來(lái),因而取得的效果最好,是最適合本文研究的色彩格式.
5.2 亮度調(diào)整實(shí)驗(yàn)
根據(jù)前面的數(shù)據(jù)集亮度分布分析,95%的數(shù)據(jù)分布在[106.55,174.11]亮度區(qū)間內(nèi).如表3所示,我們以數(shù)據(jù)集亮度的正態(tài)分布參數(shù)為基準(zhǔn)進(jìn)行實(shí)驗(yàn).通過實(shí)驗(yàn)表明,dark_threshold=122, light_threshold=158的時(shí)候效果最好.
5.3 隨機(jī)陰影增強(qiáng)實(shí)驗(yàn)
本文設(shè)計(jì)了隨機(jī)陰影增強(qiáng)實(shí)驗(yàn),我們嘗試了各種尺寸的陰影、不同的shadow value值和隨機(jī)增加陰影的概率值.因本文算法輸入的圖片尺寸是224×224,因此嘗試了[16, 32, 64, 128]4種陰影尺寸;Shadow value嘗試了[20,30,40]3種不同的值;Shadow Rate嘗試了[0.1,0.2,0.3,0.4]共4個(gè)值.
如表4所示,使用控制變量法,首先固定shadow value和shadow rate選取最合適的陰影尺寸.然后固定陰影尺寸,選擇最合適的shadow rate.最后選擇合適的shadow size.實(shí)驗(yàn)發(fā)現(xiàn),陰影尺寸不適合太大,并且陰影部分的亮度不可過度降低,否則會(huì)降低算法識(shí)別率.此外,因?yàn)閿?shù)據(jù)集中只有部分?jǐn)?shù)據(jù)有陰影干擾,當(dāng)shadow rate偏大時(shí),訓(xùn)練集中的大部分?jǐn)?shù)據(jù)都增加了陰影,模型會(huì)自動(dòng)處理陰影,而測(cè)試集中的部分?jǐn)?shù)據(jù)并沒有陰影干擾,因此算法識(shí)別率會(huì)降低.實(shí)驗(yàn)結(jié)果表明,當(dāng)shadow size=32, shadow value=30, shadow Rate=0.3時(shí),取得了最好的效果.
5.4 消融實(shí)驗(yàn)
我們?cè)O(shè)計(jì)了一個(gè)消融實(shí)驗(yàn)來(lái)驗(yàn)證我們提出的方法的有效性,如表5所示,我們的模型相比ResNet和ViT取得了更好的效果.此外隨著方法增加,算法的識(shí)別率不斷提高. 實(shí)驗(yàn)結(jié)果表明效果提升原因主要有以下幾點(diǎn):(1) 網(wǎng)絡(luò)結(jié)構(gòu)的改變,顏色處理模塊可以更好將淺層的顏色特征傳遞到深層特征;(2) YCrCb色彩空間相對(duì)RGB等其他顏色空間,可以通過分離色度和亮度更好地將不同類別顏色差異展現(xiàn)出來(lái);(3) 亮度調(diào)節(jié)算法通過評(píng)估圖片亮度對(duì)整體圖片進(jìn)行亮度調(diào)整,在實(shí)際環(huán)境下可以得到更好的發(fā)揮;(4) 隨機(jī)陰影增強(qiáng)可以增強(qiáng)模型的泛化能力,避免在識(shí)別過程中過渡關(guān)注陰影.疊加使用亮度調(diào)節(jié)算法和隨機(jī)陰影增強(qiáng)并沒有取得理想狀態(tài)中雙倍的提升效果,這是因?yàn)閮煞N方法在某種意義上相互沖突.亮度調(diào)整算法可以在一定程度上去除陰影,而陰影增強(qiáng)給圖片增加陰影,降低了圖片整體亮度,而圖片整體亮度降低,在我們實(shí)驗(yàn)中表明是不利于提升識(shí)別率的.
5.5 現(xiàn)有方法對(duì)比
為了比較BANet、醫(yī)生和其他方法的識(shí)別率,我們?cè)O(shè)計(jì)了一個(gè)對(duì)比實(shí)驗(yàn).??漆t(yī)生測(cè)試集中挑選了最具代表性的101 張圖像作為驗(yàn)證集,并比較了醫(yī)生、算法和使用新生兒糞便比色卡的特異性、敏感性和識(shí)別率.由于一些算法沒有將糞便分為4種類型,因此我們?cè)趯?shí)驗(yàn)過程中做了一些調(diào)整.在PoopMD實(shí)驗(yàn)中將嚴(yán)重異常和異常歸為一類;在BabyPoop 實(shí)驗(yàn)中將異常和可疑歸為一類;HSV大便顏色飽和度將糞便圖像分為兩類,因此將異常、嚴(yán)重異常和可疑歸為一類.
19 名兒科醫(yī)生參與了我們的對(duì)比實(shí)驗(yàn).因?yàn)楝F(xiàn)在新生兒糞便比色卡(ISCC)在很多地區(qū)還在使用,因此我們還邀請(qǐng)了10名沒有接受過任何醫(yī)學(xué)培訓(xùn)的人(代表新生兒患者的父母)使用新生兒糞便比色卡(ISCC)對(duì)驗(yàn)證集進(jìn)行分類.可以看到新生兒患者父母使用ISCC因?yàn)槿狈?jīng)驗(yàn),其識(shí)別率低于醫(yī)生和BANet.如表6所示,我們的算法在各項(xiàng)指標(biāo)上效果都優(yōu)于其他方法,我們的算法具有很高的實(shí)際應(yīng)用價(jià)值.
5.6 可視化分析
我們使用T-distributed Stochastic Neighbor Embedding (T-SNE)[26]來(lái)顯示不同類別之間的差異.我們將測(cè)試集的數(shù)據(jù)輸入BANet,并提取BANet最后一層的特征,每個(gè)特征都是一個(gè)2048維向量.為了在二維平面上展示,我們使用T-SNE算法挑選了其中最具代表性的二維特征.如圖6所示,圖中每個(gè)點(diǎn)代表一個(gè)圖像,同一個(gè)類別的圖像聚集在一起.T-SNE表明該模型可以很好地將四個(gè)類別從特征層面分離出來(lái),驗(yàn)證了模型分類的理論可行性.
此外,我們展示BANet在測(cè)試集上的預(yù)測(cè)結(jié)果,如表7所示.
我們?cè)跍y(cè)試集上繪制了BANet在多分類上的ROC曲線,如圖7所示,每一類的AUC值都在 0.9左右,平均AUC值可以達(dá)到0.92.可以看出,我們的分類器具有優(yōu)良的性能.
6 結(jié) 論
本文提出了一個(gè)全新的基于自注意力機(jī)制的算法,以解決使用新生兒糞便圖片識(shí)別新生兒膽道閉鎖的在真實(shí)應(yīng)用場(chǎng)景下識(shí)別率低的問題.采用提出的亮度調(diào)整算法,對(duì)過暗和過曝的圖片進(jìn)行亮度調(diào)整.同時(shí)本文提出的BANet融合了圖像的淺層顏色特征和注意力網(wǎng)絡(luò)的深層紋理和異常點(diǎn)特征,使得網(wǎng)絡(luò)識(shí)別率效果更好.此外,本文提出隨機(jī)陰影增強(qiáng)算法可以增強(qiáng)模型的泛化能力,解決了圖片陰影對(duì)識(shí)別的干擾.我們?cè)?01張驗(yàn)證集上與醫(yī)生、患者和其他算法分析對(duì)比,與目前存在的其他方法對(duì)比,本文提出的算法在真實(shí)場(chǎng)景中識(shí)別新生兒膽道閉鎖的識(shí)別率相比之前大幅提高.此外,由于算法基于比之前算法更大的數(shù)據(jù)集開發(fā),我們的模型的實(shí)用性和泛化性更強(qiáng).因此,BANet能夠更準(zhǔn)確地識(shí)別疾病,使得預(yù)診斷效果更好.
但是本文的工作仍然存在一定局限性,首先,我們的方法依然存在參數(shù)量相對(duì)較大,訓(xùn)練和推理速度較慢等問題.上述問題都是我們后續(xù)研究的重點(diǎn).
參考文獻(xiàn):
[1]Asai A, Miethke A, Bezerra J A. Pathogenesis of biliary atresia: defining biology to understand clinical phenotypes[J]. Nat Rev Gastro Hepat, 2015, 12: 342.
[2]Otte J B, de Ville de Goyet J, Reding R, et al. Sequential treatment of biliary atresia with Kasai portoenterostomy and liver transplantation: a review[J]. Hepatology, 1994, 20: 41S.
[3]Mark Davenport, Deirdre A Kelly J L H. Biliary atresia [J]. Lancet, 2009,374: 1704.
[4]Chiu C Y, Chen P H, Chan C F, et al. Biliary atresia in preterm infants in Taiwan: a nationwide survey [J]. J Pediatr, 2013, 163: 100.
[5]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [EB/OL].[2023-02-19].https: //arxiv.org/pdf/1706.03762.pdf.
[6]Geirhos R, Rubisch P, Michaelis C, et al. ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness[EB/OL]. (2022-11-09)[2023-02-19]. https://arxiv.org/abs/1811.12231.
[7]Chen S M, Chang M H, Du J C, et al. Screening for biliary atresia by infant stool color card in Taiwan [J]. Pediatrics, 2006, 117: 1147.
[8]Lien T H, Chang M H, Wu J F, et al. Effects of the infant stool color card screening program on 5-year outcome of biliary atresia in Taiwan [J]. Hepatology, 2011, 53: 202.
[9]Zheng J, Ye Y, Wang B, et al. Biliary atresia screening in Shenzhen: implementation and achievements [J]. Arch Dis Child, 2020, 105: 720.
[10]Kong Y Y, Zhao J Q, Wang J, et al. Modified stool color card with digital images was efficient and feasible for early detection of biliary atresia—a pilot study in Beijing, China [J]. World J Pediatr, 2016, 12: 415.
[11]Franciscovich A, Vaidya D, Doyle J, et al. PoopMD, a mobile health application, accurately identifies infant acholic stools [J]. Vera Plos One, 2015, 10: e0132270.
[12]Shen Z, Zheng S, Dong R, et al. Saturation of stool color in HSV color model is a promising objective parameter for screening biliary atresia [J]. J Pediatr Surg, 2016, 51: 2091.
[13]Hoshino E, Hayashi K, Suzuki M, et al. An iPhone application using a novel stool color detection algorithm for biliary atresia screening [J]. Pediatr Surg Int, 2017, 33: 1115.
[14]He K, Zhang X, Ren S, et al. Identity mappings in deep residual networks[C]//Proceedings of the 14th European Conference on Computer Vision-ECCV 2016 Amsterdam. Netherlands: Springer International Publishing, 2016: 630.
[15]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: transformers for image recognition at scale[EB/OL]. (2021-01-03)[2023-02-19].https://arxiv.org/abs/2010.11929.
[16]Angelico R, Liccardo D, Paoletti M, et al. A novel mobile phone application for infant stool color recognition: an easy and effective tool to identify acholic stools in newborns[J]. J Med Screen, 2021, 28: 230.
[17]Tan M, Le Q. Efficientnet: rethinking model scaling for convolutional neural networks [C]//International Conference on Machine Learning. [S.l.]: PMLR, 2019: 6105.
[18]Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. [S.l.]:IEEE, 2021: 10012.
[19]Dai Z, Liu H, Le Q V, et al. CoAtNet: marrying convolution and attention for all data sizes [J]. Adv Neural Inf Process Syst, 2021, 34: 3965.
[20]Howard A G, Zhu M, Chen B, et al. MobileNets: efficient convolutional neural networks for mobile vision applications [EB/OL]. (2017-04-17)[2023-02-19]. https://arxiv.org/abs/1704.04861.
[21]Heidrich W. High dynamic range imaging: acquisition, display, and image-based lighting [M]. San Francisco, USA: Morgan Kaufmann, 2010: 69.
[22]Yun S, Han D, Oh S J, et al. CutMix: regularization strategy to train strong classifiers with localizable features [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.[S.l.]: IEEE, 2019: 6023.
[23]DeVries T, Taylor G W. Improved regularization of convolutional neural networks with cutout[EB/OL]. [2023-02-19]. https://arxiv.org/abs/1708.04552.
[24]Loshchilov I, Hutter F. SGDR: stochastic gradient descent with warm restarts[EB/OL]. [2023-02-19]. https://arxiv.org/abs/1608.03983.
[25]Kingma D P, Ba J. Adam: a method for stochastic optimization [EB/OL]. [2023-02-19]. https://arxiv.org/abs/1412.6980.
[26]Maaten L van der, Hinton G. Visualizing data using t-SNE [J]. J Mach Learn Res, 2008, 9: 2579.
引用本文格式:
中 文: 秦中翰,艾成博,譚超群, 等.基于自注意力機(jī)制的新生兒膽道閉鎖識(shí)別[J]. 四川大學(xué)學(xué)報(bào): 自然科學(xué)版, 2023, 60: 062001.
英 文: Qin Z H, Ai C B, Tan C Q, et al. Recognition of neonatal biliary atresia based on transformer? [J]. J Sichuan Univ: Nat Sci Ed, 2023, 60: 062001.
四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年6期