胡恒豪, 王俊峰, 方智陽, 周海霞
(1.四川大學(xué)計(jì)算機(jī)學(xué)院, 成都610065; 2. 四川大學(xué)空天科學(xué)與工程學(xué)院, 成都 610065;3.四川大學(xué)華西醫(yī)院呼吸與危重癥醫(yī)學(xué)科, 成都 610041)
結(jié)核病(Tuberculosis, TB)被列為我國法定重大傳染病之一,是嚴(yán)重危害人民群眾健康的呼吸道傳染病.第五次全國結(jié)核病流行病學(xué)調(diào)查結(jié)果顯示[1],活動(dòng)性肺結(jié)核鄉(xiāng)村患病率(569/10萬)明顯高于城鎮(zhèn)(307/10萬),西部地區(qū)(695/10萬)患病率高于東部(291/10萬)、中部地區(qū)(463/10萬).由于西部地區(qū)貧困,邊遠(yuǎn)和少數(shù)民族地區(qū)較多,結(jié)核病防治人力資源匱乏等因素增加了結(jié)核病防治工作難度.
計(jì)算機(jī)輔助診斷醫(yī)學(xué)圖像一直是國內(nèi)外研究熱點(diǎn)[2-4].隨著深度學(xué)習(xí)在自然語言處理和圖像處理領(lǐng)域的不斷發(fā)展,越來越多的研究者采用深層神經(jīng)網(wǎng)絡(luò)模型處理醫(yī)學(xué)圖像的病理分類和病灶檢測等問題.谷歌AI團(tuán)隊(duì)設(shè)計(jì)深度學(xué)習(xí)算法分析視網(wǎng)膜圖像并識(shí)別糖尿病視網(wǎng)膜病變的特征,且在驗(yàn)證集上該算法性能略高于8位眼科醫(yī)生[5].斯坦福大學(xué)研究者利用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練皮膚癌診斷模型,并同21 位認(rèn)證皮膚科醫(yī)生對比測試,結(jié)果表明其診斷能力接近皮膚科醫(yī)生[6].谷歌和斯坦福大學(xué)的研究成果建立在大量經(jīng)醫(yī)生標(biāo)注的數(shù)據(jù)上,而文獻(xiàn)[7]指出深度醫(yī)學(xué)圖像研究面臨帶標(biāo)注的數(shù)據(jù)量小,不能滿足大數(shù)據(jù)分析要求,不能保證模型分析結(jié)果的泛化能力等問題.
目前針對數(shù)字化X線攝影(Digital Radiography,DR)胸片研究的大型公開數(shù)據(jù)集有美國國立衛(wèi)生研究院提供的NIH Chest X-Ray-14[8]和斯坦福大學(xué)吳恩達(dá)團(tuán)隊(duì)的CheXpert[9].其中Chest X-Ray-14包含112 120個(gè)來自30 805名不同患者的正面DR胸片,每張胸片由14種不同的胸部病理標(biāo)簽標(biāo)注.Rajpurkar等[10]在ChestX-ray14上設(shè)計(jì)并訓(xùn)練了121層卷積神經(jīng)網(wǎng)絡(luò)用于肺炎檢測.CheXpert數(shù)據(jù)集里面有224 316張DR胸片,共涉及65 240名患者.胸片均是患者在斯坦福醫(yī)院進(jìn)行胸部X光檢查之后的留存,并附有相關(guān)的放射學(xué)報(bào)告.研究者采用自然語言處理技術(shù)開發(fā)了一種基于規(guī)則的自動(dòng)貼標(biāo)機(jī),從放射學(xué)報(bào)告中提取觀察結(jié)果,為胸片做病理分類.麻省理工學(xué)院研究者成功使用CheXpert的自動(dòng)貼標(biāo)機(jī)為371 920張DR胸片作標(biāo)注,準(zhǔn)確率能達(dá)到專業(yè)醫(yī)生水平,并整理得到MIMIC-CXR數(shù)據(jù)集[11].雖然以上數(shù)據(jù)集量級均達(dá)10萬張,且有14種病理標(biāo)簽,但沒有包含肺結(jié)核DR胸片.
在欠發(fā)達(dá)地區(qū),基層衛(wèi)生院是檢測肺結(jié)核的第一關(guān)口,影像學(xué)方法被廣泛用于醫(yī)生臨床診斷.當(dāng)前的肺結(jié)核臨床診斷方式中,醫(yī)生通常先觀察DR胸片來判斷患者是否屬于肺結(jié)核或疑似活動(dòng)性肺結(jié)核,再做進(jìn)一步診斷.但在實(shí)際閱片過程中,由于胸部肋骨、胸膜等重疊組織會(huì)造成偽影以及醫(yī)生的經(jīng)驗(yàn)差異、閱片水平不一等問題,臨床診斷結(jié)果存在漏檢、誤判.Schalekamp等[12]研發(fā)了計(jì)算機(jī)輔助系統(tǒng)(Computer-Aided Diagnosis,CAD)輔助診斷肺結(jié)核,表明可減小診斷結(jié)果的誤診率,顯著提高閱片醫(yī)生的工作效率.蘭云旭等[13]提出基于Spark的并行醫(yī)學(xué)圖像處理方法,并以肺葉胸片分割算法為實(shí)例證明計(jì)算機(jī)輔助診斷可適用于大規(guī)模高并發(fā)的醫(yī)學(xué)圖像處理場景.
基于傳統(tǒng)機(jī)器學(xué)習(xí)的胸片肺結(jié)核病灶檢測方法首先通過對DR胸片做預(yù)處理,提取疑似病變區(qū)域的特征,如形狀特征、紋理特征、密度特征等,再使用傳統(tǒng)機(jī)器學(xué)習(xí)方法訓(xùn)練的分類器來判斷候選疑似區(qū)域是否為病變區(qū)域.Noor等[14]提出了一種統(tǒng)計(jì)解釋技術(shù)來檢測DR胸片中的結(jié)核病灶.他們首先對DR胸片進(jìn)行小波變換,然后從小波系數(shù)中計(jì)算12個(gè)紋理測量值,再對這些紋理測量執(zhí)行主成分提取以減少維數(shù).最后,使用概率橢球和判別函數(shù)來估計(jì)錯(cuò)誤分類概率.Shen等[15]基于自適應(yīng)閾值均值漂移的聚類算法先分割出候選區(qū)域,然后使用貝葉斯分類器判斷候選區(qū)域是否為異常區(qū)域.Tan等[16]使用統(tǒng)計(jì)學(xué)特征在DR胸片上篩查肺結(jié)核取得良好效果.符堯等[17]采用加速穩(wěn)健特征算子來檢測分隔后的肺實(shí)質(zhì)圖像特征點(diǎn)得到疑似病變區(qū)域,再利用支持向量機(jī)成功對疑似區(qū)域做分類判斷.
針對基于人工設(shè)計(jì)特征提取的結(jié)核檢測,文獻(xiàn)[18]指出沒有特定的分類器表現(xiàn)最佳,因?yàn)槊總€(gè)分類器使用自己的訓(xùn)練集,且紋理特征比幾何特征更常用.采用基于人工的特征提取方法處理醫(yī)學(xué)圖像,需要算法設(shè)計(jì)者有豐厚的醫(yī)學(xué)知識(shí)儲(chǔ)備,才能提取出有足夠區(qū)分性的高質(zhì)量特征.而傳統(tǒng)的機(jī)器學(xué)習(xí)分類器性能受限于訓(xùn)練樣本的質(zhì)量和分布,容易出現(xiàn)訓(xùn)練樣本不夠造成過擬合現(xiàn)象,算法魯棒性低導(dǎo)致模型泛化能力不強(qiáng)等問題.
由于傳統(tǒng)的特征提取方法往往會(huì)忽略圖像的深層語義,深度學(xué)習(xí)網(wǎng)絡(luò)能隨著層數(shù)加深,從圖像數(shù)據(jù)中獲取更高階的特征,可以有效改善檢測器的分類性能,避免人工設(shè)計(jì)特征提取算法的復(fù)雜性和局限性.Hwang等[19]設(shè)計(jì)了基于深度卷積網(wǎng)絡(luò)的CAD系統(tǒng),用于自動(dòng)TB篩查.Lakhani等[20]利用AlexNet和GoogLeNet實(shí)現(xiàn)對肺結(jié)核胸片的分類,其中分類器在白俄羅斯結(jié)核病公共衛(wèi)生計(jì)劃和托馬斯杰斐遜大學(xué)醫(yī)院收集的非公開胸片數(shù)據(jù)集上訓(xùn)練120個(gè)周期后達(dá)到了99%準(zhǔn)確度.目前公開可用的肺結(jié)核胸片數(shù)據(jù)集[21]數(shù)量有限,不足以充分一個(gè)訓(xùn)練用于檢測病灶的深層網(wǎng)絡(luò),且數(shù)據(jù)集中的正常樣本是大多數(shù),病理樣本少,導(dǎo)致訓(xùn)大多數(shù)時(shí)間在訓(xùn)練正常樣本.Ghorakavi[22]在訓(xùn)練前使用Haar特征和LBP特征提取方法,通過裁剪肺部輪廓進(jìn)一步關(guān)注病灶區(qū)域,以加強(qiáng)神經(jīng)網(wǎng)絡(luò)對突出結(jié)核病特征的關(guān)注,改善結(jié)核病診斷系統(tǒng)的性能和響應(yīng)時(shí)間.
針對訓(xùn)練如GoogLeNet和AlexNet的低層卷積神經(jīng)網(wǎng)絡(luò)120個(gè)時(shí)期會(huì)導(dǎo)致數(shù)據(jù)過度擬合,且肺輪廓分割并未實(shí)際解決訓(xùn)練樣本不充足問題,本文提出了利用深層網(wǎng)絡(luò)實(shí)現(xiàn)DR胸片肺結(jié)核病灶檢測與病變區(qū)域定位的方法及其基于RetinaNet[23]改進(jìn)的肺結(jié)核病灶檢測架構(gòu)Tuberculosis Neural Net(TBNN).方法將遷移學(xué)習(xí)[24]原理應(yīng)用模型訓(xùn)練中,保留模型在大型數(shù)據(jù)集中提取胸片的深層特征,并用于小量的肺結(jié)核胸片樣本檢測.TBNN模型將訓(xùn)練重心放在肺結(jié)核樣本上,減弱大量正常樣本對模型的反饋.實(shí)驗(yàn)結(jié)果證明,本文提出的方法能更好的解決肺結(jié)核病灶檢測問題.
醫(yī)學(xué)數(shù)據(jù)集中的正常樣本是大多數(shù),病理樣本較少,導(dǎo)致訓(xùn)練中的大多數(shù)時(shí)間用在了正常樣本上,病理樣本對模型訓(xùn)練的影響較弱.Facebook AI Research研究者發(fā)現(xiàn)造成這種情況的核心問題是檢測器在訓(xùn)練過程中會(huì)遇到前景和后景類別極度不平衡的問題,提出Focal Loss (FL)來替代Cross EntropyLoss(CE)以解決類別不平衡問題,如式(1)所示.
(1)
其中,pt∈[0,1]代表二分類模型將類別t正確分類的能力,如式(2)所示.
(2)
(3)
當(dāng)γ=0時(shí),F(xiàn)L就是CE,當(dāng)γ增加時(shí),調(diào)制系數(shù)變大.FL把訓(xùn)練重點(diǎn)放在更稀疏的樣本上,可以有效降低在訓(xùn)練期間大量容易被正確分類的樣本給目標(biāo)檢測器所帶來抑制影響.
采用FL取代常見one-stage目標(biāo)檢測架構(gòu)中的CE后,得到基于FL的檢測框架示意圖如圖1,處理流程如下.
(1) 一個(gè)負(fù)責(zé)計(jì)算整個(gè)輸入圖像的卷積特征圖的骨架網(wǎng)絡(luò).此部分由一個(gè)自底向上前向傳播的特征提取網(wǎng)絡(luò)和一個(gè)自頂向下上采樣的特征金字塔網(wǎng)絡(luò)組成,分別對應(yīng)圖中的a)和b).網(wǎng)絡(luò)a)通過對輸入的多次卷積,提取出由淺至深層的圖像語義,網(wǎng)絡(luò)b)通過對前饋網(wǎng)絡(luò)a)的結(jié)果上采樣,再橫向連接a)中相同大小的特征圖,并將輸出送到子網(wǎng)絡(luò).
(2) 兩個(gè)子網(wǎng)絡(luò)分別負(fù)責(zé)對骨干網(wǎng)絡(luò)輸出的分類以及執(zhí)行卷積得到預(yù)測邊框的回歸.每一層的計(jì)算都是相對獨(dú)立的,低層特征和高層特征都能對最后預(yù)測結(jié)果提供信息.
(3) 使用FL作為分類子網(wǎng)絡(luò)的輸出.
圖1 基于Focal Loss的檢測框架Fig.1 The detection architecture based on focal loss
在此基礎(chǔ)上,本文通過實(shí)驗(yàn)改進(jìn)了特征提取網(wǎng)絡(luò),并提出針對DR胸片的肺結(jié)核病灶檢測模型TBNN.
傳統(tǒng)的機(jī)器學(xué)習(xí)只有在訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù)都來自同一個(gè)域和同一分布的時(shí)候才能很好運(yùn)行,但是在實(shí)際應(yīng)用中,這種假設(shè)可能不成立.模型的泛化能力以及遷移能力很低,這也是運(yùn)用傳統(tǒng)機(jī)器學(xué)習(xí)方法處理醫(yī)學(xué)圖像問題的缺陷之一.根據(jù)經(jīng)驗(yàn),至少需要2萬張胸片才能充分訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò).遷移學(xué)習(xí)指從一個(gè)或多個(gè)任務(wù)的域中提取知識(shí)并將知識(shí)應(yīng)用于目標(biāo)任務(wù)的方法.即一個(gè)域D由兩個(gè)部分組成:特征空間X以及邊緣概率分布P(X),其中,X={x1,…,xn}∈X,指某個(gè)特定的學(xué)習(xí)樣本;一個(gè)任務(wù)T由輸出空間Y={y1,…,yn}和預(yù)測函數(shù)f(·)=P(Y|X)組成.T不能被觀察,但是可通過訓(xùn)練多組數(shù)據(jù){xi,yi},xi∈X,yi∈Y被學(xué)習(xí).假設(shè)有兩個(gè)域DS和DT以及不同的學(xué)習(xí)任務(wù)TS和TT,遷移學(xué)習(xí)就是利用DS和TS的知識(shí)來改善任務(wù)TT的預(yù)測函數(shù)f(·)在域DT中的表現(xiàn)能力.基于肺炎在DR影像學(xué)上表征和肺結(jié)核相似的特點(diǎn),本文采用圖2所示的深層遷移學(xué)習(xí)方法實(shí)現(xiàn)DR胸片肺結(jié)核病灶檢測.
圖2 基于遷移學(xué)習(xí)的深層特征提取網(wǎng)絡(luò)Fig.2 The deep feature extraction network based on transfer learning
(4)
每次訓(xùn)練中更新參數(shù)w和θ的過程看作是一次學(xué)習(xí).學(xué)習(xí)誤差函數(shù)采用FL,優(yōu)化函數(shù)選用隨機(jī)梯度下降法,如式(5)所示.
(5)
其中,wt+1表示第t+1次學(xué)習(xí)后的網(wǎng)絡(luò)權(quán)重;Vt+1表示第t+1次學(xué)習(xí)中網(wǎng)絡(luò)的更新量;動(dòng)量μ是權(quán)重更新量的系數(shù);學(xué)習(xí)率α是權(quán)重系數(shù);FL(wt)是誤差的梯度.這樣特征提取網(wǎng)絡(luò)可通過朝梯度負(fù)方向更新參數(shù)來減小誤差以達(dá)到學(xué)習(xí)目的.
除了訓(xùn)練特征提取網(wǎng)絡(luò)使用的RSNA肺炎數(shù)據(jù)集(26 684張DR胸片訓(xùn)練樣本,3 000張DR胸片測試樣本),實(shí)驗(yàn)所使用的華西肺結(jié)核數(shù)據(jù)集數(shù)據(jù)有以下三點(diǎn)特性.
1) 針對性.肺結(jié)核標(biāo)注胸片數(shù)據(jù)是在重大傳染病國家科技重大專項(xiàng)實(shí)施中由西南地區(qū)30余所基層鄉(xiāng)鎮(zhèn)衛(wèi)生院在體檢篩查時(shí)采集.采樣地區(qū)屬于肺結(jié)核多發(fā)和醫(yī)療資源相對缺乏區(qū)域.
2) 真實(shí)性.由于閱讀醫(yī)學(xué)圖像需要具備豐富的醫(yī)學(xué)理論知識(shí),我們從收集的胸片中,按圖3的三級遞進(jìn)式診斷中整理出1 935張疑似肺結(jié)核胸片由華西醫(yī)院結(jié)核專家做標(biāo)注.
圖3 肺結(jié)核標(biāo)注數(shù)據(jù)采集Fig.3 Labeled tuberculosis dataset collection
3) 準(zhǔn)確性.除了對肺結(jié)核胸片打標(biāo)簽外,還利用矩形框?qū)Σ∽儏^(qū)域做了像素級標(biāo)注.標(biāo)注前胸片已進(jìn)行了脫敏處理,只保留其圖像信息,如圖4.將標(biāo)注信息和圖像相匹配后,得到表1所示的肺結(jié)核標(biāo)注數(shù)據(jù)集.其中,X, Y, Width, Height分別表示標(biāo)注框的左上頂點(diǎn)的坐標(biāo)以及標(biāo)注框的寬和高的像素值.
(600 px*699 px)
表1 肺結(jié)核標(biāo)注數(shù)據(jù)集示例
Tab.1 The example of labeled tuberculosis dataset
圖名標(biāo)注信息編號(hào)屬性X/pxY/pxWidth/pxHeight/px圖4DR胸部平片13672714122028846144165
考慮到肺炎和肺結(jié)核同為呼吸道感染疾病,在DR胸片上有相似的表征,本文采用RSNA肺炎數(shù)據(jù)集[25]來訓(xùn)練肺結(jié)核檢測模型的特征提取子網(wǎng)絡(luò),比較不同網(wǎng)絡(luò)對相似檢測任務(wù)的檢測能力.我們在Keras上選取了9種利用ImageNet[26]預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型,分別是VGGNet16,VGGNet19,ResNet101,ResNet152,MobileNet128,MobileNet192,DenseNet121,DenseNet169,DenseNet201[27-31],并以相同的學(xué)習(xí)方式,參數(shù)優(yōu)化采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD),學(xué)習(xí)率為1×10-2,在RSNA肺炎數(shù)據(jù)集上訓(xùn)練10個(gè)epoch,每個(gè)epoch學(xué)習(xí)2 500步并保留最佳的一組參數(shù).評價(jià)指標(biāo)采用了約登指數(shù)(Youden’s index),表示篩檢方法發(fā)現(xiàn)真正的病人與非病人的總能力.越大說明模型實(shí)驗(yàn)的效果越好,真實(shí)性越大.
Youden=Se+Sp-1
(6)
其中,Se∈[0,1]是靈敏度(sensitivity),代表模型將真實(shí)的病人判斷為有病的能力; Sp∈[0,1]是特異度(specificity),代表模型將沒有發(fā)病的人判斷為無病的能力.靈敏度和特異度如下式計(jì)算.
(7)
(8)
(9)
(10)
其中,Ntp、Ntn、Nfp、Nfn分別指代混淆矩陣中的實(shí)際發(fā)病且分類正確、實(shí)際未發(fā)病且分類正確、實(shí)際發(fā)病卻分類錯(cuò)誤、實(shí)際未發(fā)病卻分類錯(cuò)誤的樣本個(gè)數(shù),通過計(jì)算得到表2.
表2 多網(wǎng)絡(luò)在不同訓(xùn)練周期下對DR胸片肺炎檢測能力比較(‰)
表2中網(wǎng)絡(luò)在每一周期得到的(1-Sp,Se), 即為當(dāng)前參數(shù)下ROC曲線上的截?cái)帱c(diǎn).如果將同種網(wǎng)絡(luò)所有截?cái)帱c(diǎn)連線,如圖5所示,可以發(fā)現(xiàn)VGG19整體表現(xiàn)優(yōu)于VGG16; MobileNet192和MobileNet128表現(xiàn)相近,前者在表2中的Youden指數(shù)更大(0.656>0.623); ResNet101略優(yōu)于ResNet152;DenseNet整體表現(xiàn)差于其他三種,且抖動(dòng)幅度大,曲線不平滑.
(a) Cutoff connections of Vgg
(b) Cutoff connections of Mobilenet
(c) Cutoff connections of Resnet
(d) Cutoff connections of Densenet
圖5 各網(wǎng)絡(luò)在不同訓(xùn)練周期下的ROC曲線截?cái)帱c(diǎn)連線
Fig.5 The connections of ROC cutoffs ondifferent training epochs withvarious architecture
圖5所示VGG19、 ResNet101以及MobileNet192的曲線更為平滑,性能更優(yōu),DenseNet整體性能較差.且MobileNet相較于VGG、ResNet最大Youden值更大.為了比較各網(wǎng)絡(luò)在肺結(jié)核檢測任務(wù)中的表現(xiàn),我們分別將三種網(wǎng)絡(luò)替換肺結(jié)核檢測框架中骨架的特征提取網(wǎng)絡(luò)部分,再通過遷移學(xué)習(xí)的方法訓(xùn)練得到檢測模型TBNN-vgg、TBNN-mobile和TBNN-res.其中TBNN-mobile為圖6所示的TBNN,特征提取子網(wǎng)部分網(wǎng)絡(luò)采用了和MobileNet[27]前13層相同的網(wǎng)絡(luò)結(jié)構(gòu),其中cov5,cov11和cov13分別對應(yīng)文獻(xiàn)[27]中Table1的第5步,第11步和第13步卷積操作.卷積得到的3個(gè)特征圖分別作為RetinaNet[23]中的Cov3,Cov4,Cov5.在FPN部分得到5個(gè)特征圖P3-P7,并將每一個(gè)特征圖送到分類和病灶區(qū)域預(yù)測子網(wǎng)計(jì)算結(jié)果.
此次模型遷移學(xué)習(xí)中用到的訓(xùn)練集和驗(yàn)證集圖像數(shù)據(jù)全部來自于華西肺結(jié)核數(shù)據(jù)集,其中訓(xùn)練集樣本數(shù)量1886張,驗(yàn)證集樣本數(shù)量155張,測試集樣本數(shù)量143張.以學(xué)習(xí)率1×10-2訓(xùn)練10個(gè)epoch后得到各模型在驗(yàn)證集上分類結(jié)果的ROC曲線和PR曲線,如圖7所示.其中TBNN-mobile的AUC值大于TBNN-resnet和TBNN-vgg,且在PR曲線中的平衡點(diǎn)(BEP)值更高.以上實(shí)驗(yàn)結(jié)果表明,相較于其他主流的網(wǎng)絡(luò)模型架構(gòu),MobileNet網(wǎng)絡(luò)更適合作為TBNN的特征提取子網(wǎng).
圖6 TBNN肺結(jié)核病灶檢測模型Fig.6 TBNN Tuberculosis lesions detection model
避免模型在遷移學(xué)習(xí)過程中取巧地利用已經(jīng)習(xí)得的肺炎特征來對肺結(jié)核做病灶檢測,產(chǎn)生負(fù)遷移現(xiàn)象,我們比較了遷移學(xué)習(xí)前后的TBNN模型在肺結(jié)核測試集上的表現(xiàn).統(tǒng)計(jì)結(jié)果如表3所示,
表3 遷移學(xué)習(xí)前后模型對測試集的檢測結(jié)果
Tab.3 Model detection results of pre-transfer learning and post-transfer learning
時(shí)間NtpNtnNfpNfn遷移學(xué)習(xí)前213128遷移學(xué)習(xí)后10↑12580↓
可以看出遷移學(xué)習(xí)前僅憑借肺炎特征并不能很好檢測出測試集中的肺結(jié)核胸片,漏檢率達(dá)到80%,而遷移學(xué)習(xí)后測試集中10張含肺結(jié)核病灶的胸片均被成功檢測.
比較了基于單個(gè)或多個(gè)人工構(gòu)造的特征做特征提取的方向梯度直方圖特征(HOG)算法、基于均值漂移聚類(HKG)、統(tǒng)計(jì)特征和SURF算法的檢測方法以及利用神經(jīng)網(wǎng)絡(luò)做特征提取的TBNN檢測模型對同組DR胸片做肺結(jié)核分類的性能,結(jié)果顯示TBNN相比于基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)檢測方法有更高的分類精度,性能上也更優(yōu).
表5為基于深度學(xué)習(xí)的肺結(jié)核檢測算法TBNet[22]和TBNN在同等規(guī)模訓(xùn)練集下,訓(xùn)練 10個(gè)Epoch后模型性能比較.其中TBNet使用了基于Haar特征和LBP特征的多重顯著特征數(shù)據(jù)增強(qiáng)方法,從原始的800張胸片中裁剪出敏感區(qū)域和噪聲加入訓(xùn)練,以達(dá)到充分訓(xùn)練模型且提高分類準(zhǔn)確率.TBNet的訓(xùn)練集、驗(yàn)證集和測試集直接或間接來自同源數(shù)據(jù)集[21],本文提出的TBNN在訓(xùn)練階段采用和TBNet規(guī)模相近總量更少的訓(xùn)練集和驗(yàn)證集,測試集為文獻(xiàn)[21]提供的所有胸片.結(jié)果顯示,相同訓(xùn)練周期下,TBNN所需訓(xùn)練樣本更小、測試集更大,模型準(zhǔn)確性更高,且模型具有較強(qiáng)的泛化能力.
表4 本文方法與基于人工構(gòu)造特征的檢測方法對比
Tab.4 Compared withartificial feature extraction and detection methods
HKG[15]統(tǒng)計(jì)特征[16]SURF[17]TBNNAccuracy%77.6779.8482.2789.68AUC0.790 20.824 90.851 50.901 5
為了比較肺結(jié)核病灶檢測模型的在實(shí)際情景中的檢測能力,我們邀請了三位來自放射科的人類閱片醫(yī)生和TBNN對同一組胸片做肺結(jié)核分類,其中三位醫(yī)生都工作在圖3所示數(shù)據(jù)采集流程中不同地區(qū)的基層衛(wèi)生院,擁有豐富的閱片經(jīng)驗(yàn),參與測試的時(shí)間和地點(diǎn)相互獨(dú)立,測試的DR胸片選自數(shù)據(jù)采集工作得到的結(jié)核標(biāo)注數(shù)據(jù)集,且未參與TBNN訓(xùn)練.為了盡量減小其他因素對閱片過程的影響,測試前沒有向醫(yī)生告知TBNN的任何細(xì)節(jié).
表5 本文方法和基于多重顯著特征的數(shù)據(jù)增強(qiáng)方法對比
Tab.5 Compared with multiple salient-feature based data augmentation method
Setting模型TBNetTBNN訓(xùn)練集/張255 7188 6驗(yàn)證集/張150155測試集/張412800Validation Accuracy/%81.3389.68Testing Accuracy/%75.4285.38是否標(biāo)識(shí)病灶×√
表6 本文方法和單個(gè)閱片醫(yī)生檢測同組DR胸片結(jié)果比較
統(tǒng)計(jì)結(jié)果由表6所示,基于深度遷移學(xué)習(xí)的TBNN肺結(jié)核檢測模型在對DR胸片的檢測上,靈敏度更高,即漏檢率更低,特異性與人類醫(yī)生相近.三位人類閱片醫(yī)生的Ntp數(shù)值大小幾乎相同,即能正確檢測結(jié)核陽性胸片的水平接近,但通過混淆矩陣分析相互檢測結(jié)果差異(+表示分類陽性,-表示分類陰性),如表7所示,醫(yī)生A和醫(yī)生B、醫(yī)生C分別在30和38張胸片上檢測結(jié)果不一致,整體檢測結(jié)果接近的醫(yī)生B(Se=0.67,Sp=0.96)和醫(yī)生C(Se=0.69,Sp=0.97)也存在16張結(jié)論相反的胸片.
表7 醫(yī)生閱片結(jié)果混淆矩陣
表8 本文方法和閱片醫(yī)生組合檢測同組DR胸片結(jié)果比較
Tab.8 Compared with combinationsof radiologists
閱片醫(yī)生NtpNtnNfpNfn漏檢率Accuracy醫(yī)生A+B40871990.180.82醫(yī)生A+C43871960.120.84醫(yī)生B+C391006100.200.90醫(yī)生A+B+C44852150.100.83兩人組平均40.791.314.78.30.170.85整體平均41.589.816.27.50.150.85TBNN4198880.160.90
如果只要有一位醫(yī)生結(jié)論是結(jié)核陽性,則把該胸片判別為陽性,以減弱單個(gè)醫(yī)生檢測水平經(jīng)驗(yàn)對結(jié)果的影響,減低漏檢率.表8統(tǒng)計(jì)了多位醫(yī)生所有可能組合的檢測結(jié)果,其中醫(yī)生A存在的兩人組檢測準(zhǔn)確率相對較低,但能檢測出相對更多的陽性患者,醫(yī)生B和醫(yī)生C的組合有最高的準(zhǔn)確率,但漏檢率也最高.結(jié)合表6單個(gè)醫(yī)生檢測結(jié)果,TBNN的Ntp大于單個(gè)醫(yī)生,即TBNN漏檢率比單個(gè)醫(yī)生更低,且低于兩人組平均值,略高于整體平均值,其準(zhǔn)確率高于所有組合結(jié)果.
閱片醫(yī)生A除了對測試胸片進(jìn)行分類,還通過標(biāo)注工具標(biāo)注出疑似病灶區(qū)域.圖8所示為醫(yī)生A和TBNN對同一張DR胸片的肺結(jié)核病灶區(qū)域的標(biāo)注結(jié)果比較,其中,圖8 (a)為華西肺結(jié)核數(shù)據(jù)集中的真實(shí)結(jié)果;圖8 (b)為醫(yī)生A通過標(biāo)注工具手工標(biāo)注結(jié)果;圖8 (c)為TBNN在對DR胸片做肺結(jié)核分類時(shí)的自動(dòng)標(biāo)注結(jié)果.考慮到醫(yī)生會(huì)通過臨床表現(xiàn)和生化數(shù)據(jù)等多維度來診斷,TBNN在實(shí)際中的診斷表現(xiàn)已經(jīng)有不低于醫(yī)生的水平.
(a) Ground Truth (b)Doctor A (c) TBNN
圖8 醫(yī)生A和TBNN標(biāo)注同張DR胸片的肺結(jié)核病灶區(qū)域
Fig.8 The boxes of labeling the same DR film by Radiologist A and TBNN
由于基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)的肺結(jié)核檢測方法存在著泛化能力不高,無法挖掘圖像深層語義等問題,本文啟發(fā)性利用肺炎深度網(wǎng)絡(luò)檢測模型做遷移學(xué)習(xí)來訓(xùn)練針對DR胸片的特征提取子網(wǎng)絡(luò).為了減弱容易分類的正樣本對模型訓(xùn)練的影響,提出了基于Focal Loss目標(biāo)檢測架構(gòu)的肺結(jié)核病灶檢測模型TBNN.實(shí)驗(yàn)結(jié)果證明,本文提出的基于深層遷移學(xué)習(xí)的肺結(jié)核病灶檢測模型在多種分類器評價(jià)指標(biāo)上均高于以往的基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)檢測方法,并且在真實(shí)測試集上有不低于放射科閱片醫(yī)生的診斷表現(xiàn).相較基于傳統(tǒng)數(shù)據(jù)增強(qiáng)手段的深度學(xué)習(xí)肺結(jié)核分類算法,我們提出的方法能充分利用樣本特征和更快的收斂,并且在訓(xùn)練速度和模型分類精度等能力上更優(yōu).在深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,數(shù)據(jù)集樣本數(shù)量和質(zhì)量對模型性能好壞起著決定性作用.利用小量肺結(jié)核胸片樣本調(diào)參可以提高模型性能,但并不能解決網(wǎng)絡(luò)訓(xùn)練問題.我們?yōu)榱顺浞钟?xùn)練TBNN的特征提取子網(wǎng)絡(luò)使用了大型肺炎數(shù)據(jù)集,造成TBNN對肺結(jié)核檢測更依賴于肺炎相似的圖像語義特征,深層網(wǎng)絡(luò)的黑盒屬性會(huì)造成無法解釋的誤檢和漏檢情況,如何解決這類問題將是下一步的研究方向.
四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2020年3期