姜榮榮,高佳奕,楊 濤,3
(1.南京中醫(yī)藥大學(xué)護(hù)理學(xué)院,江蘇 南京 210023;2.南京中醫(yī)藥大學(xué)人工智能與信息與信息技術(shù)學(xué)院,江蘇 南京 210023;3.江蘇省中醫(yī)外用藥開發(fā)與應(yīng)用工程研究中心,江蘇 南京 210023)
中醫(yī)體質(zhì)學(xué)說(shuō)是以中醫(yī)理論為主導(dǎo),研究人類各種體質(zhì)特征、體質(zhì)類型的生理、病理特點(diǎn),并以此分析疾病的反應(yīng)狀態(tài)、病變的性質(zhì)及發(fā)展趨向,從而指導(dǎo)疾病預(yù)防和治療的一門學(xué)說(shuō)[1]。中醫(yī)體質(zhì)辨識(shí)是中醫(yī)體質(zhì)學(xué)說(shuō)的核心內(nèi)容之一,其通過(guò)四診采集臨床信息,通過(guò)中醫(yī)理論辨識(shí)出體質(zhì)結(jié)果[2]。在中醫(yī)體質(zhì)學(xué)說(shuō)的發(fā)展過(guò)程中出現(xiàn)了多種體質(zhì)分類方法[3-6],然而這些方法多依賴體質(zhì)評(píng)分量表,效率較低,且問題回答存在主觀性,影響體質(zhì)判定結(jié)果。中醫(yī)認(rèn)為人是一個(gè)有機(jī)的整體,疾病變化的病理本質(zhì)雖然藏之于內(nèi),但必有一定的癥狀、體征反映于外。司外揣內(nèi)作為中醫(yī)診斷的基本原理之一,對(duì)中醫(yī)診斷和健康測(cè)評(píng)具有十分重要的意義。舌診是中醫(yī)診斷司外揣內(nèi)原理的集中體現(xiàn),是四診中望診的重要內(nèi)容,人體的健康或疾病狀態(tài)在舌象上會(huì)有較為明顯的反映[7]。如何充分的利用舌診信息,客觀、標(biāo)準(zhǔn)、高效地評(píng)估中醫(yī)體質(zhì),已經(jīng)成為中醫(yī)體質(zhì)領(lǐng)域探索的方向之一。針對(duì)中醫(yī)體質(zhì)辨識(shí),相關(guān)學(xué)者從不同角度進(jìn)行了研究和探索[8-10],但大多采用傳統(tǒng)機(jī)器學(xué)習(xí)算法構(gòu)建中醫(yī)體質(zhì)模型,模型的精度有待進(jìn)一步提升。隨著計(jì)算機(jī)視覺技術(shù)的飛速發(fā)展,針對(duì)圖像的識(shí)別、處理和分析技術(shù)取得了巨大進(jìn)步[11]。因此,本研究提出基于中醫(yī)司外揣內(nèi)原理,構(gòu)建“舌象-體質(zhì)”深度學(xué)習(xí)模型,以期為中醫(yī)體質(zhì)辨識(shí)智能化發(fā)展提供參考。
考慮到中醫(yī)臨床舌象數(shù)據(jù)集的樣本數(shù)較少,且最終體質(zhì)類別與舌色、舌苔色、舌形、舌態(tài)等多個(gè)特征潛在相關(guān),特征不明顯與訓(xùn)練樣本較少可能會(huì)導(dǎo)致最終的分類結(jié)果精度較低。本文參考Woo S 等[12]的方法構(gòu)建特征注意力模塊,將舌圖的多尺度信息融入注意力模塊中,以殘差方式堆疊,學(xué)習(xí)不同尺度、不同權(quán)重的圖像特征,實(shí)現(xiàn)中醫(yī)體質(zhì)辨識(shí)模型;此外,模型額外引入有關(guān)舌象的文本描述信息進(jìn)行輔助訓(xùn)練,通過(guò)文本與圖像多模態(tài)信息相結(jié)合的模型學(xué)習(xí)方式實(shí)現(xiàn)中醫(yī)體質(zhì)的精準(zhǔn)分類,模型結(jié)構(gòu)見圖1。
圖1 中醫(yī)體質(zhì)辨識(shí)模型結(jié)構(gòu)
卷積注意力模塊(convolutional block attention module,CBAM)[12]旨在對(duì)卷積操作后的信息進(jìn)行深一步學(xué)習(xí),為各特征分配不同權(quán)重,對(duì)結(jié)果貢獻(xiàn)明顯的特征給予較高權(quán)重,相反對(duì)貢獻(xiàn)較少的特征給予較少權(quán)重,將后續(xù)學(xué)習(xí)的關(guān)注點(diǎn)放在權(quán)重較高的特征上。本模塊中的注意力分為空間注意力與通道注意力,二者采用串聯(lián)的方式結(jié)合,見圖2。
圖2 CBAM 注意力模塊
通道注意力即學(xué)習(xí)特征各個(gè)通道的重要程度,通過(guò)全局池化的方式將H*W 維度變換至1*1 維度,把注意力僅放在對(duì)通道特征的學(xué)習(xí)上。由于MaxPooling[13]與AveragePooling[13]的特點(diǎn)不同,又各具優(yōu)勢(shì)(MaxPooling 側(cè)重于特征選擇,選出分類辨識(shí)度更高的特征;AveragePooling 側(cè)重于特征的融合,實(shí)現(xiàn)特征比較完整的傳遞),因此采用MaxPooling與AveragePooling 相結(jié)合的池化方式,Channel Attention 的結(jié)構(gòu)見圖3。
圖3 Channel Attention 結(jié)構(gòu)
各個(gè)注意力模塊(CBAM 模塊)的卷積核空洞率(dilation rate)有所差異,卷積核采用不同的感受野范圍、堆疊注意力模塊的方式獲得不同感受野范圍(即多尺度)的特征,在原卷積核的基礎(chǔ)上獲得長(zhǎng)距離依賴特征,以此進(jìn)一步提升模型的特征提取能力。
2.1 數(shù)據(jù)集 本研究的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于南京中醫(yī)藥大學(xué)醫(yī)學(xué)信息實(shí)驗(yàn)室中醫(yī)圖像數(shù)據(jù)庫(kù),共檢索出2014-2016 年利用手機(jī)采集的257 名志愿者的舌圖,年齡25~86 歲,包括紅色、絳舌、胖大舌、瘦小舌等多種舌象,其中部分志愿者采集了其不同時(shí)間段的多張舌圖。排除未包括舌體區(qū)域的圖像后,共納入367 張舌圖構(gòu)建舌象數(shù)據(jù)集,其中3 張典型舌圖見圖4。
圖4 舌象數(shù)據(jù)示例
2.2 數(shù)據(jù)預(yù)處理 數(shù)據(jù)集中的體質(zhì)類型包括:痰濕質(zhì)89 例、濕熱質(zhì)70 例、瘀血質(zhì)42 例、氣虛質(zhì)40例、陽(yáng)虛質(zhì)34 例、陰虛質(zhì)32 例、氣郁質(zhì)16 例及平和質(zhì)3 例,其中氣郁質(zhì)與平和質(zhì)的樣本數(shù)較少,因此未納入此次的體質(zhì)類別。由于原始圖像的大小不一,而全連接層需預(yù)定義權(quán)重矩陣的大小,因此,實(shí)驗(yàn)預(yù)先對(duì)圖像的大小進(jìn)行了統(tǒng)一,將其隨機(jī)裁剪至224 像素*224 像素*3 通道大小。
因數(shù)據(jù)集的樣本數(shù)有限,實(shí)驗(yàn)在輸入前進(jìn)行數(shù)據(jù)增強(qiáng),從而更好地模擬舌象拍攝過(guò)程中不同的角度或光源亮度對(duì)拍攝造成的影響。采用調(diào)整亮度的數(shù)據(jù)增強(qiáng)方法將數(shù)據(jù)擴(kuò)充至原來(lái)的3 倍。為了統(tǒng)一樣本集的數(shù)據(jù)分布,提升網(wǎng)絡(luò)泛化能力,實(shí)驗(yàn)預(yù)先對(duì)輸入圖像進(jìn)行歸一化,將所有樣本的像素值調(diào)整至[-1,+1]區(qū)間內(nèi),且在輸入網(wǎng)絡(luò)前將樣本隨機(jī)打散,避免訓(xùn)練集中出現(xiàn)類別不均衡的現(xiàn)象。此外,額外加入有關(guān)舌象是否有齒痕、裂紋、芒刺的文本信息輔助訓(xùn)練,其中“有”與“無(wú)”采用0 和1 來(lái)表示。
2.3 網(wǎng)絡(luò)參數(shù)設(shè)計(jì) 深度學(xué)習(xí)網(wǎng)絡(luò)的部分超參數(shù)設(shè)置如下:選擇Adam[14]作為優(yōu)化器,交叉熵作為損失函數(shù),學(xué)習(xí)率設(shè)置為1e-5,各卷積層的初始化權(quán)重采用截?cái)嗾齽t化方式得到。3 個(gè)不同的CBMA 模塊使用不同的dilation_rate,旨在獲得不同感受野范圍內(nèi),多尺度的特征注意力結(jié)果。
2.4 評(píng)價(jià)指標(biāo) 采用經(jīng)典的多分類評(píng)價(jià)指標(biāo)[15]宏平均(Macro Average)和微平均(Micro Average)對(duì)模型整體進(jìn)行評(píng)價(jià),而針對(duì)其中的單個(gè)體質(zhì)采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 進(jìn)行評(píng)價(jià)。其中宏平均是針對(duì)每個(gè)類別的P、R 和F1 求得算數(shù)平均值,其計(jì)算公式如下:
微平均的計(jì)算公式如下:
其中k 為類別數(shù)據(jù),li 表示模型被預(yù)測(cè)為第i類且實(shí)際也屬于第i 類的樣本個(gè)數(shù),mi 表示模型被預(yù)測(cè)為第i 類的樣本個(gè)數(shù),ni 表示實(shí)際屬于第i 類的樣本個(gè)數(shù)。
2.5 模型訓(xùn)練 采用十折交叉驗(yàn)證法[16]訓(xùn)練模型,設(shè)置隨機(jī)值為1,取十折交叉驗(yàn)證結(jié)果作為最終體質(zhì)分類結(jié)果,見表1。各體質(zhì)類別的分類結(jié)果見表2。
表1 體質(zhì)分類十折交叉驗(yàn)證結(jié)果
表2 體質(zhì)分類結(jié)果
采用Class Activation Map 思想,對(duì)網(wǎng)絡(luò)最后一層卷積層的特征圖進(jìn)行可視化,判定特征注意力的權(quán)重分配是否正確,直觀地觀察模型的學(xué)習(xí)結(jié)果。以濕熱質(zhì)與陰虛質(zhì)為例,可視化圖像中顏色較深的區(qū)域表示模型在學(xué)習(xí)過(guò)程中對(duì)該區(qū)域特征的關(guān)注度較高,見圖5、6??芍獙?duì)于濕熱質(zhì)而言,網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中更關(guān)注其舌苔,即舌苔特征對(duì)于濕熱質(zhì)的分類更為重要;對(duì)于陰虛質(zhì)而言,網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中更關(guān)注其舌質(zhì),即舌質(zhì)特征對(duì)于最終陰虛質(zhì)分類的貢獻(xiàn)程度更高,這與“舌苔反映邪實(shí),舌質(zhì)反映本虛”的中醫(yī)理論相吻合。
圖5 濕熱質(zhì)特征圖可視化結(jié)果
圖6 陰虛質(zhì)特征圖可視化結(jié)果
通過(guò)構(gòu)建多尺度的注意力模型,將注意力模塊以殘差方式連接,實(shí)現(xiàn)多尺度、不同權(quán)重的特征學(xué)習(xí),同時(shí)也適當(dāng)引入相關(guān)文本信息,以圖像與文本特征相互結(jié)合的方式共同訓(xùn)練模型,以此探尋舌象(外)與最終體質(zhì)類別(內(nèi))之間的潛在關(guān)系,最終實(shí)現(xiàn)對(duì)6 種中醫(yī)體質(zhì)(氣虛質(zhì)、濕熱質(zhì)、痰濕質(zhì)、陽(yáng)虛質(zhì)、陰虛質(zhì)和血瘀質(zhì))的分類。本研究算法針對(duì)各體質(zhì)類別的分類精度較高,并且通過(guò)可視化的形式觀察特征圖,直觀地顯示了訓(xùn)練過(guò)程中分配的特征注意力權(quán)重,發(fā)現(xiàn)其與中醫(yī)理論相吻合。中醫(yī)舌診是中醫(yī)特診診法之一,在健康評(píng)估和臨床診療中發(fā)揮了重要作用,通過(guò)計(jì)算機(jī)視覺相關(guān)技術(shù),構(gòu)建舌圖到中醫(yī)體質(zhì)的有效映射,可以為中醫(yī)望診和體質(zhì)辨識(shí)的智能化發(fā)展提供參考。