李斌,李霄,胡廣芹,張新峰
北京工業(yè)大學(xué) a.環(huán)境與生命學(xué)部;b.信息學(xué)部,北京 100124
中國傳統(tǒng)醫(yī)術(shù)已形成了以“望、聞、問、切”四診合參以及中醫(yī)理療為核心的完整診療體系。痧療作為中醫(yī)理療的重要組成部分,以其無傷、便捷等優(yōu)點(diǎn)深受人們的青睞[1]。痧象是指痧療后人體皮膚所反映出的機(jī)體的健康狀態(tài),因每個(gè)人體質(zhì)、病因、患病程度等各不相同,皮膚所反映出的痧象也存在差異[2]。醫(yī)師可以通過痧象的特征要素來對(duì)患者進(jìn)行初步的診斷,主要包括痧象的顏色、形狀等,一般情況下,顏色可以反映出機(jī)體的熱寒狀況,而形狀則可以反映機(jī)體的嚴(yán)重程度[3-4]。隨著中醫(yī)需求量的增加,通過傳統(tǒng)中醫(yī)醫(yī)師去辨別痧象特征,診斷機(jī)體健康狀態(tài)會(huì)消耗大量的精力和時(shí)間。因此如何快速而又準(zhǔn)確地辨識(shí)中醫(yī)痧象的特征要素,進(jìn)而判斷機(jī)體健康狀態(tài)尤為重要。
現(xiàn)代技術(shù)的發(fā)展為解決上述問題提供了一個(gè)新的途徑,近年來,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)成為醫(yī)學(xué)領(lǐng)域研究的熱門[5]。VGG19 網(wǎng)絡(luò)作為深度學(xué)習(xí)分類模型的代表[6],因其結(jié)構(gòu)簡單、易擴(kuò)展等優(yōu)勢受到人們廣泛關(guān)注,該模型由16 個(gè)卷積層、5 個(gè)池化層、3 個(gè)全連接層堆疊而成,采用小卷積核代替之前網(wǎng)絡(luò)的大卷積核,能夠捕獲到更多的細(xì)節(jié)特征信息。此外由于模型結(jié)構(gòu)簡單,因此易對(duì)模型結(jié)構(gòu)進(jìn)行改進(jìn),進(jìn)一步提升分類任務(wù)的精度,這也為分類研究奠定了基礎(chǔ)。基于此,本文以中醫(yī)背部痧象為切入點(diǎn),通過對(duì)采集的痧象圖片數(shù)據(jù)進(jìn)行前期的處理,采用VGG19 網(wǎng)絡(luò)模型為主干進(jìn)行研究,并在網(wǎng)絡(luò)模型中引入多任務(wù)學(xué)習(xí)模型的思想以及混合注意力模塊機(jī)制,旨在實(shí)現(xiàn)中醫(yī)背部痧象特征要素的準(zhǔn)確分類,并依據(jù)分類識(shí)別結(jié)果判斷人體健康狀態(tài)。
本文采用的痧象圖片數(shù)據(jù)來自北京工業(yè)大學(xué)環(huán)境與生命學(xué)部健康工程研究室痧象數(shù)據(jù)庫。所有圖片均采用數(shù)碼相機(jī)設(shè)備,在自然光源下進(jìn)行拍攝,采自北京工業(yè)大學(xué)醫(yī)院胡廣芹主任醫(yī)師刮痧治療的各種臨床疾病患者。通過篩選處理,去除拍攝模糊、背景過亮、過暗以及拍攝缺失的圖片,共得到可用于實(shí)驗(yàn)研究的圖片數(shù)據(jù)818 張。之后參照《家庭刮痧邊學(xué)邊用》[7]、《養(yǎng)生專家的刮痧筆記》[8]等中醫(yī)刮痧書籍中對(duì)于痧象辨識(shí)的標(biāo)準(zhǔn)以及數(shù)據(jù)實(shí)際情況,將痧象顏色劃分為暗紅、紅、淡紅3 類,形狀劃分為點(diǎn)和片兩類。最后將圖片按照訓(xùn)練集∶驗(yàn)證集∶測試集=8 ∶1 ∶1 的比例進(jìn)行劃分,其中訓(xùn)練集圖片共654張,驗(yàn)證集圖片共82張,測試集圖片共82張。
基于數(shù)據(jù)集圖片較少、分類任務(wù)簡單的特點(diǎn),本文采用了比較成熟的VGG19 網(wǎng)絡(luò)模型作為網(wǎng)絡(luò)主干進(jìn)行了實(shí)驗(yàn)[9]。VGG19 網(wǎng)絡(luò)模型由16 個(gè)卷積層、3 個(gè)全連接層和 5 個(gè)池化層構(gòu)成,與之前的卷積神經(jīng)網(wǎng)絡(luò)相比,其采用了多個(gè)3×3 的卷積核來代替之前的大卷積核,在保證感受野的同時(shí)極大地減少了網(wǎng)絡(luò)參數(shù),降低了計(jì)算量。如圖1 所示為實(shí)驗(yàn)采用的VGG19 網(wǎng)絡(luò)架構(gòu)圖。網(wǎng)絡(luò)模型的輸入圖片大小為256×256×3,經(jīng)過網(wǎng)絡(luò)卷積、池化層后,在全連接層展開輸出。由于實(shí)驗(yàn)對(duì)顏色和形狀特征進(jìn)行分別訓(xùn)練輸出,因此圖中輸出n 分別代表了顏色三分類以及形狀的二分類。
圖1 VGG19網(wǎng)絡(luò)模型
計(jì)算機(jī)視覺中的單任務(wù)學(xué)習(xí)目前已經(jīng)取得了很大的成功,但現(xiàn)實(shí)生活中許多的問題本質(zhì)上是多樣的,如同一張圖片上包含有多種物體,如果對(duì)這些問題采用單任務(wù)網(wǎng)絡(luò)去學(xué)習(xí)訓(xùn)練會(huì)增大網(wǎng)絡(luò)的參數(shù)量,并且會(huì)忽略數(shù)據(jù)相關(guān)的噪音以及泛化性能,而多任務(wù)學(xué)習(xí)同時(shí)對(duì)多個(gè)任務(wù)進(jìn)行訓(xùn)練學(xué)習(xí),這會(huì)對(duì)不同任務(wù)的噪音進(jìn)行平均,從而使模型更加泛化[10]。此外多任務(wù)學(xué)習(xí)引入了歸納偏置機(jī)制,與正則化起到了相同的作用,可以減少網(wǎng)絡(luò)模型過擬合的風(fēng)險(xiǎn)。本文的痧象特征分類任務(wù)包含顏色和形狀兩個(gè)任務(wù),且采用的是同一數(shù)據(jù)集,這種情況下使用多任務(wù)學(xué)習(xí)是最優(yōu)的選擇。
基于深度神經(jīng)網(wǎng)絡(luò)的多任務(wù)學(xué)習(xí)常用的方法有兩種,一種為隱層參數(shù)的硬共享,另一種為隱層函數(shù)的軟共享。參數(shù)的硬共享機(jī)制是多任務(wù)神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)最常見的方式,其可以應(yīng)用到所有任務(wù)的隱層上,共享訓(xùn)練層參數(shù),保留各自的輸出層,減少網(wǎng)絡(luò)的訓(xùn)練參數(shù),降低過擬合的風(fēng)險(xiǎn)[11-12]。而軟共享則是指每個(gè)任務(wù)具有單獨(dú)權(quán)重的單獨(dú)任務(wù)模型,不同任務(wù)模型參數(shù)之間的距離被添加到聯(lián)合目標(biāo)函數(shù)中。本文基于數(shù)據(jù)的特點(diǎn),考慮到任務(wù)之間存在一定的相關(guān)性,因此使用了多任務(wù)學(xué)習(xí)的參數(shù)硬共享機(jī)制進(jìn)行實(shí)驗(yàn)。
多任務(wù)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)于任務(wù)的學(xué)習(xí)具有很大的影響,本文針對(duì)訓(xùn)練任務(wù)采用了共享主干線的架構(gòu)模型。數(shù)據(jù)輸入采用統(tǒng)一數(shù)據(jù)集作為網(wǎng)絡(luò)模型的輸入,而后經(jīng)過由所有任務(wù)共享的卷積層構(gòu)成的全局特征提取器,最后對(duì)每個(gè)任務(wù)進(jìn)行單獨(dú)的結(jié)果輸出。網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示。
圖2 多任務(wù)學(xué)習(xí)模型
注意力機(jī)制源于對(duì)人類視覺的研究,其是指人類有選擇地關(guān)注所有信息中的一部分,而忽略其他可見的信息,從而避免無關(guān)信息的干擾。在神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制主要是針對(duì)在計(jì)算能力有限的情況下,將計(jì)算資源分配給更重要的任務(wù),同時(shí)解決信息超載問題的一種資源分配方案,其可以聚焦于對(duì)當(dāng)前任務(wù)更關(guān)鍵的信息,提高任務(wù)處理的效率和準(zhǔn)確性[13-16]。根據(jù)注意力作用的不同維度可以將其劃分為通道注意力、空間注意力、時(shí)間注意力、分支注意力以及混合注意力。不同的注意力機(jī)制代表不同的含義,通道注意力機(jī)制重點(diǎn)在于重要通道的選擇,原因?yàn)椴煌耐ǖ劳聿煌奈矬w;空間注意力機(jī)制更關(guān)注信息中的哪一部分信息具有意義;時(shí)間注意力機(jī)制側(cè)重于何時(shí)去關(guān)注信息;分支注意力則側(cè)重于關(guān)注多分支結(jié)構(gòu)的某一分支;混合注意力則是通過上述不同注意力的結(jié)合來對(duì)信息進(jìn)行更加準(zhǔn)確的關(guān)注,以提升任務(wù)的效率和準(zhǔn)確率。
本文采用了卷積注意力模塊(Convolutional Block Attention Module,CBAM)[17-19],其結(jié)合了空間注意力機(jī)制和通道注意力機(jī)制,能夠序列化地在通道和空間兩個(gè)維度上產(chǎn)生注意力特征圖信息,而后與輸入特征圖進(jìn)行相乘從而進(jìn)行自適應(yīng)的特征修正,產(chǎn)生最后的特征圖,見圖3。由于CBAM 是一種輕量級(jí)的模塊,因此可以嵌入到任何主干網(wǎng)絡(luò)中提高網(wǎng)絡(luò)性能。本實(shí)驗(yàn)將CBAM嵌入到了VGG19 主干網(wǎng)絡(luò)中的第一層卷積和最后一層卷積中,從而提高了網(wǎng)絡(luò)的性能,改進(jìn)后的網(wǎng)絡(luò)模型如圖4 所示。
圖3 CBAM機(jī)制
圖4 改進(jìn)VGG19網(wǎng)絡(luò)模型
在復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)的背景下,需采用消融實(shí)驗(yàn)來描述去除網(wǎng)絡(luò)的某些部分的過程,以更好地理解網(wǎng)絡(luò)的行為。采用消融實(shí)驗(yàn)方法,通過分別添加不同網(wǎng)絡(luò)模塊,保持其他不變,比較本文提出的3 種網(wǎng)絡(luò)模型的可行性與有效性,進(jìn)而說明該模塊的有效性。首先對(duì)VGG19 網(wǎng)絡(luò)模型的參數(shù)進(jìn)行設(shè)置,具體的參數(shù)如表1所示;然后在保證參數(shù)一致的前提下,加入多任務(wù)模型和CBAM。實(shí)驗(yàn)結(jié)果采用訓(xùn)練準(zhǔn)確率以及測試準(zhǔn)確率進(jìn)行評(píng)價(jià),并設(shè)置了平均準(zhǔn)確率,即顏色與形狀準(zhǔn)確率的均值,以此判斷網(wǎng)絡(luò)模型的性能高低,通過消融實(shí)驗(yàn)比較最終的分類準(zhǔn)確率。
表1 網(wǎng)絡(luò)模型參數(shù)
消融實(shí)驗(yàn)結(jié)果如表2 所示,以VGG19 網(wǎng)絡(luò)模型為主干,引入多任務(wù)學(xué)習(xí)模型后,顏色及形狀的分類準(zhǔn)確率都有所提升,平均準(zhǔn)確率上升了約2%。在加入CBAM 后,模型的準(zhǔn)確率得到了進(jìn)一步的提升。通過消融實(shí)驗(yàn)確定在引入多任務(wù)學(xué)習(xí)模型并加入CBAM 后的改進(jìn)VGG19 網(wǎng)絡(luò)模型,取得了最好的分類結(jié)果。
表2 3種網(wǎng)絡(luò)模型的消融實(shí)驗(yàn)結(jié)果
采用改進(jìn)的VGG19 網(wǎng)絡(luò)模型訓(xùn)練batch_size 以及CBAM 中多層感知器的縮減率。多層感知器的縮減率可以控制感知器中的神經(jīng)元個(gè)數(shù),從而降低參數(shù)開銷。實(shí)驗(yàn)訓(xùn)練結(jié)果如表3 所示,通過對(duì)不同的batch_size 和縮減率進(jìn)行研究發(fā)現(xiàn),當(dāng)縮減率為1/8、batch_size 為8 時(shí)得到的訓(xùn)練結(jié)果最好,顏色分類準(zhǔn)確率為93.90%,形狀分類準(zhǔn)確率為95.12%,平均準(zhǔn)確率為94.51%。
表3 模型訓(xùn)練結(jié)果
通過咨詢北京工業(yè)大學(xué)醫(yī)院胡廣芹主任醫(yī)師,獲得了中醫(yī)痧象特征與證型間的對(duì)應(yīng)關(guān)系,之后結(jié)合網(wǎng)絡(luò)模型的分類結(jié)果(表4),可以對(duì)中醫(yī)證型進(jìn)行初步的判別,輔助醫(yī)師進(jìn)行診療。
表4 痧象特征與證型關(guān)系
研究表明,VGG19 結(jié)構(gòu)簡單,具有較深的網(wǎng)絡(luò)結(jié)構(gòu),能提取到足夠的圖像信息,且其以3×3的小卷積核為主,使得網(wǎng)絡(luò)能提取到更多的局部細(xì)節(jié)信息,此外針對(duì)數(shù)據(jù)集圖片模糊、分辨率低,從而影響模型識(shí)別精度的問題,可以引入注意力機(jī)制以增強(qiáng)模型特征提取的能力,同時(shí)針對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)大、易過擬合的問題,利用深度可分離卷積代替原始卷積,從而減少模型的參數(shù)量,使模型在訓(xùn)練時(shí)能更快收斂[20-21]。
本實(shí)驗(yàn)以VGG19 網(wǎng)絡(luò)模型為主干,融合了多任務(wù)學(xué)習(xí)模型、CBAM,并在改進(jìn)模型上進(jìn)行了參數(shù)調(diào)優(yōu),實(shí)現(xiàn)了對(duì)于痧象顏色和形狀特征的準(zhǔn)確分類,二者的準(zhǔn)確率分別達(dá)到了93.90%和95.12%,較武文強(qiáng)等[22]采用支持向量機(jī)針對(duì)痤瘡痧象的自動(dòng)分類結(jié)果提升了20%左右。但本研究還存在以下問題:由于痧象特征沒有進(jìn)行更加細(xì)致的劃分,其對(duì)應(yīng)的癥狀可能存在一定的偏差,因此未來可以考慮對(duì)痧象特征進(jìn)行更加細(xì)致的分類,從而使證型診斷更加準(zhǔn)確。另外,中醫(yī)舌、面、痧、脈等通常是一個(gè)整體,僅僅通過痧象對(duì)證型進(jìn)行診斷存在一定的偏差,而通過不同診斷結(jié)果的結(jié)合能夠?qū)ψC型進(jìn)行更加準(zhǔn)確的判斷。因此未來可以考慮和舌面等結(jié)合,提高診斷的科學(xué)性與合理性。
綜上所述,本研究采用多任務(wù)學(xué)習(xí)模型并加入CBAM 的改進(jìn)網(wǎng)絡(luò)取得了最高的分類準(zhǔn)確率,對(duì)于顏色特征的三分類準(zhǔn)確率可以達(dá)到93.90%,對(duì)于形狀特征的二分類準(zhǔn)確率可以達(dá)到95.12%,實(shí)現(xiàn)了對(duì)于痧象特征的自動(dòng)化分類,可以用于中醫(yī)輔助診斷以及臨床教學(xué),此外結(jié)合中醫(yī)傳統(tǒng)經(jīng)驗(yàn)知識(shí),能夠?qū)崿F(xiàn)對(duì)于中醫(yī)證型的初步診斷,進(jìn)而實(shí)現(xiàn)中醫(yī)智能化。