基于深層遷移學(xué)習(xí)的DR胸片肺結(jié)核病灶檢測

2020-06-03 07:57胡恒豪王俊峰方智陽周海霞

四川大學(xué)學(xué)報(bào)（自然科學(xué)版） 2020年3期

胡恒豪，王俊峰, 方智陽, 周海霞

(1.四川大學(xué)計(jì)算機(jī)學(xué)院, 成都610065； 2. 四川大學(xué)空天科學(xué)與工程學(xué)院，成都 610065；3.四川大學(xué)華西醫(yī)院呼吸與危重癥醫(yī)學(xué)科，成都 610041)

1 引言

結(jié)核病(Tuberculosis, TB)被列為我國法定重大傳染病之一,是嚴(yán)重危害人民群眾健康的呼吸道傳染病.第五次全國結(jié)核病流行病學(xué)調(diào)查結(jié)果顯示[1]，活動(dòng)性肺結(jié)核鄉(xiāng)村患病率(569/10萬)明顯高于城鎮(zhèn)(307/10萬)，西部地區(qū)(695/10萬)患病率高于東部(291/10萬)、中部地區(qū)(463/10萬).由于西部地區(qū)貧困，邊遠(yuǎn)和少數(shù)民族地區(qū)較多，結(jié)核病防治人力資源匱乏等因素增加了結(jié)核病防治工作難度.

計(jì)算機(jī)輔助診斷醫(yī)學(xué)圖像一直是國內(nèi)外研究熱點(diǎn)[2-4].隨著深度學(xué)習(xí)在自然語言處理和圖像處理領(lǐng)域的不斷發(fā)展，越來越多的研究者采用深層神經(jīng)網(wǎng)絡(luò)模型處理醫(yī)學(xué)圖像的病理分類和病灶檢測等問題.谷歌AI團(tuán)隊(duì)設(shè)計(jì)深度學(xué)習(xí)算法分析視網(wǎng)膜圖像并識(shí)別糖尿病視網(wǎng)膜病變的特征，且在驗(yàn)證集上該算法性能略高于8位眼科醫(yī)生[5].斯坦福大學(xué)研究者利用深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練皮膚癌診斷模型，并同21 位認(rèn)證皮膚科醫(yī)生對比測試，結(jié)果表明其診斷能力接近皮膚科醫(yī)生[6].谷歌和斯坦福大學(xué)的研究成果建立在大量經(jīng)醫(yī)生標(biāo)注的數(shù)據(jù)上，而文獻(xiàn)[7]指出深度醫(yī)學(xué)圖像研究面臨帶標(biāo)注的數(shù)據(jù)量小，不能滿足大數(shù)據(jù)分析要求，不能保證模型分析結(jié)果的泛化能力等問題.

目前針對數(shù)字化X線攝影(Digital Radiography，DR)胸片研究的大型公開數(shù)據(jù)集有美國國立衛(wèi)生研究院提供的NIH Chest X-Ray-14[8]和斯坦福大學(xué)吳恩達(dá)團(tuán)隊(duì)的CheXpert[9].其中Chest X-Ray-14包含112 120個(gè)來自30 805名不同患者的正面DR胸片，每張胸片由14種不同的胸部病理標(biāo)簽標(biāo)注.Rajpurkar等[10]在ChestX-ray14上設(shè)計(jì)并訓(xùn)練了121層卷積神經(jīng)網(wǎng)絡(luò)用于肺炎檢測.CheXpert數(shù)據(jù)集里面有224 316張DR胸片，共涉及65 240名患者.胸片均是患者在斯坦福醫(yī)院進(jìn)行胸部X光檢查之后的留存，并附有相關(guān)的放射學(xué)報(bào)告.研究者采用自然語言處理技術(shù)開發(fā)了一種基于規(guī)則的自動(dòng)貼標(biāo)機(jī)，從放射學(xué)報(bào)告中提取觀察結(jié)果，為胸片做病理分類.麻省理工學(xué)院研究者成功使用CheXpert的自動(dòng)貼標(biāo)機(jī)為371 920張DR胸片作標(biāo)注，準(zhǔn)確率能達(dá)到專業(yè)醫(yī)生水平，并整理得到MIMIC-CXR數(shù)據(jù)集[11].雖然以上數(shù)據(jù)集量級均達(dá)10萬張，且有14種病理標(biāo)簽，但沒有包含肺結(jié)核DR胸片.

2 結(jié)核胸片相關(guān)研究

在欠發(fā)達(dá)地區(qū)，基層衛(wèi)生院是檢測肺結(jié)核的第一關(guān)口，影像學(xué)方法被廣泛用于醫(yī)生臨床診斷.當(dāng)前的肺結(jié)核臨床診斷方式中，醫(yī)生通常先觀察DR胸片來判斷患者是否屬于肺結(jié)核或疑似活動(dòng)性肺結(jié)核，再做進(jìn)一步診斷.但在實(shí)際閱片過程中，由于胸部肋骨、胸膜等重疊組織會(huì)造成偽影以及醫(yī)生的經(jīng)驗(yàn)差異、閱片水平不一等問題，臨床診斷結(jié)果存在漏檢、誤判.Schalekamp等[12]研發(fā)了計(jì)算機(jī)輔助系統(tǒng)(Computer-Aided Diagnosis，CAD)輔助診斷肺結(jié)核，表明可減小診斷結(jié)果的誤診率，顯著提高閱片醫(yī)生的工作效率.蘭云旭等[13]提出基于Spark的并行醫(yī)學(xué)圖像處理方法，并以肺葉胸片分割算法為實(shí)例證明計(jì)算機(jī)輔助診斷可適用于大規(guī)模高并發(fā)的醫(yī)學(xué)圖像處理場景.

2.1 基于人工設(shè)計(jì)特征提取的肺結(jié)核病灶檢測

基于傳統(tǒng)機(jī)器學(xué)習(xí)的胸片肺結(jié)核病灶檢測方法首先通過對DR胸片做預(yù)處理，提取疑似病變區(qū)域的特征，如形狀特征、紋理特征、密度特征等，再使用傳統(tǒng)機(jī)器學(xué)習(xí)方法訓(xùn)練的分類器來判斷候選疑似區(qū)域是否為病變區(qū)域.Noor等[14]提出了一種統(tǒng)計(jì)解釋技術(shù)來檢測DR胸片中的結(jié)核病灶.他們首先對DR胸片進(jìn)行小波變換，然后從小波系數(shù)中計(jì)算12個(gè)紋理測量值，再對這些紋理測量執(zhí)行主成分提取以減少維數(shù).最后，使用概率橢球和判別函數(shù)來估計(jì)錯(cuò)誤分類概率.Shen等[15]基于自適應(yīng)閾值均值漂移的聚類算法先分割出候選區(qū)域,然后使用貝葉斯分類器判斷候選區(qū)域是否為異常區(qū)域.Tan等[16]使用統(tǒng)計(jì)學(xué)特征在DR胸片上篩查肺結(jié)核取得良好效果.符堯等[17]采用加速穩(wěn)健特征算子來檢測分隔后的肺實(shí)質(zhì)圖像特征點(diǎn)得到疑似病變區(qū)域，再利用支持向量機(jī)成功對疑似區(qū)域做分類判斷.

針對基于人工設(shè)計(jì)特征提取的結(jié)核檢測，文獻(xiàn)[18]指出沒有特定的分類器表現(xiàn)最佳，因?yàn)槊總€(gè)分類器使用自己的訓(xùn)練集，且紋理特征比幾何特征更常用.采用基于人工的特征提取方法處理醫(yī)學(xué)圖像，需要算法設(shè)計(jì)者有豐厚的醫(yī)學(xué)知識(shí)儲(chǔ)備，才能提取出有足夠區(qū)分性的高質(zhì)量特征.而傳統(tǒng)的機(jī)器學(xué)習(xí)分類器性能受限于訓(xùn)練樣本的質(zhì)量和分布，容易出現(xiàn)訓(xùn)練樣本不夠造成過擬合現(xiàn)象，算法魯棒性低導(dǎo)致模型泛化能力不強(qiáng)等問題.

2.2 基于深度學(xué)習(xí)的肺結(jié)核胸片分類

由于傳統(tǒng)的特征提取方法往往會(huì)忽略圖像的深層語義，深度學(xué)習(xí)網(wǎng)絡(luò)能隨著層數(shù)加深，從圖像數(shù)據(jù)中獲取更高階的特征，可以有效改善檢測器的分類性能，避免人工設(shè)計(jì)特征提取算法的復(fù)雜性和局限性.Hwang等[19]設(shè)計(jì)了基于深度卷積網(wǎng)絡(luò)的CAD系統(tǒng)，用于自動(dòng)TB篩查.Lakhani等[20]利用AlexNet和GoogLeNet實(shí)現(xiàn)對肺結(jié)核胸片的分類，其中分類器在白俄羅斯結(jié)核病公共衛(wèi)生計(jì)劃和托馬斯杰斐遜大學(xué)醫(yī)院收集的非公開胸片數(shù)據(jù)集上訓(xùn)練120個(gè)周期后達(dá)到了99%準(zhǔn)確度.目前公開可用的肺結(jié)核胸片數(shù)據(jù)集[21]數(shù)量有限，不足以充分一個(gè)訓(xùn)練用于檢測病灶的深層網(wǎng)絡(luò)，且數(shù)據(jù)集中的正常樣本是大多數(shù)，病理樣本少，導(dǎo)致訓(xùn)大多數(shù)時(shí)間在訓(xùn)練正常樣本.Ghorakavi[22]在訓(xùn)練前使用Haar特征和LBP特征提取方法，通過裁剪肺部輪廓進(jìn)一步關(guān)注病灶區(qū)域，以加強(qiáng)神經(jīng)網(wǎng)絡(luò)對突出結(jié)核病特征的關(guān)注，改善結(jié)核病診斷系統(tǒng)的性能和響應(yīng)時(shí)間.

針對訓(xùn)練如GoogLeNet和AlexNet的低層卷積神經(jīng)網(wǎng)絡(luò)120個(gè)時(shí)期會(huì)導(dǎo)致數(shù)據(jù)過度擬合，且肺輪廓分割并未實(shí)際解決訓(xùn)練樣本不充足問題，本文提出了利用深層網(wǎng)絡(luò)實(shí)現(xiàn)DR胸片肺結(jié)核病灶檢測與病變區(qū)域定位的方法及其基于RetinaNet[23]改進(jìn)的肺結(jié)核病灶檢測架構(gòu)Tuberculosis Neural Net(TBNN).方法將遷移學(xué)習(xí)[24]原理應(yīng)用模型訓(xùn)練中，保留模型在大型數(shù)據(jù)集中提取胸片的深層特征，并用于小量的肺結(jié)核胸片樣本檢測.TBNN模型將訓(xùn)練重心放在肺結(jié)核樣本上，減弱大量正常樣本對模型的反饋.實(shí)驗(yàn)結(jié)果證明，本文提出的方法能更好的解決肺結(jié)核病灶檢測問題.

3 方法

3.1 基于FocalLoss的檢測框架

醫(yī)學(xué)數(shù)據(jù)集中的正常樣本是大多數(shù)，病理樣本較少，導(dǎo)致訓(xùn)練中的大多數(shù)時(shí)間用在了正常樣本上，病理樣本對模型訓(xùn)練的影響較弱.Facebook AI Research研究者發(fā)現(xiàn)造成這種情況的核心問題是檢測器在訓(xùn)練過程中會(huì)遇到前景和后景類別極度不平衡的問題，提出Focal Loss (FL)來替代Cross EntropyLoss(CE)以解決類別不平衡問題，如式(1)所示.

(1)

其中，pt∈[0,1]代表二分類模型將類別t正確分類的能力，如式(2)所示.

(2)

(3)

當(dāng)γ=0時(shí)，F(xiàn)L就是CE，當(dāng)γ增加時(shí)，調(diào)制系數(shù)變大.FL把訓(xùn)練重點(diǎn)放在更稀疏的樣本上，可以有效降低在訓(xùn)練期間大量容易被正確分類的樣本給目標(biāo)檢測器所帶來抑制影響.

采用FL取代常見one-stage目標(biāo)檢測架構(gòu)中的CE后，得到基于FL的檢測框架示意圖如圖1，處理流程如下.

(1) 一個(gè)負(fù)責(zé)計(jì)算整個(gè)輸入圖像的卷積特征圖的骨架網(wǎng)絡(luò).此部分由一個(gè)自底向上前向傳播的特征提取網(wǎng)絡(luò)和一個(gè)自頂向下上采樣的特征金字塔網(wǎng)絡(luò)組成，分別對應(yīng)圖中的a)和b).網(wǎng)絡(luò)a)通過對輸入的多次卷積，提取出由淺至深層的圖像語義，網(wǎng)絡(luò)b)通過對前饋網(wǎng)絡(luò)a)的結(jié)果上采樣，再橫向連接a)中相同大小的特征圖，并將輸出送到子網(wǎng)絡(luò).

(2) 兩個(gè)子網(wǎng)絡(luò)分別負(fù)責(zé)對骨干網(wǎng)絡(luò)輸出的分類以及執(zhí)行卷積得到預(yù)測邊框的回歸.每一層的計(jì)算都是相對獨(dú)立的，低層特征和高層特征都能對最后預(yù)測結(jié)果提供信息.

(3) 使用FL作為分類子網(wǎng)絡(luò)的輸出.

圖1 基于Focal Loss的檢測框架Fig.1 The detection architecture based on focal loss

在此基礎(chǔ)上，本文通過實(shí)驗(yàn)改進(jìn)了特征提取網(wǎng)絡(luò)，并提出針對DR胸片的肺結(jié)核病灶檢測模型TBNN.

3.2 基于深層遷移學(xué)習(xí)的病灶特征提取

傳統(tǒng)的機(jī)器學(xué)習(xí)只有在訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù)都來自同一個(gè)域和同一分布的時(shí)候才能很好運(yùn)行，但是在實(shí)際應(yīng)用中，這種假設(shè)可能不成立.模型的泛化能力以及遷移能力很低，這也是運(yùn)用傳統(tǒng)機(jī)器學(xué)習(xí)方法處理醫(yī)學(xué)圖像問題的缺陷之一.根據(jù)經(jīng)驗(yàn)，至少需要2萬張胸片才能充分訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò).遷移學(xué)習(xí)指從一個(gè)或多個(gè)任務(wù)的域中提取知識(shí)并將知識(shí)應(yīng)用于目標(biāo)任務(wù)的方法.即一個(gè)域D由兩個(gè)部分組成:特征空間X以及邊緣概率分布P(X),其中，X={x1,…,xn}∈X，指某個(gè)特定的學(xué)習(xí)樣本;一個(gè)任務(wù)T由輸出空間Y={y1,…,yn}和預(yù)測函數(shù)f(·)=P(Y|X)組成.T不能被觀察，但是可通過訓(xùn)練多組數(shù)據(jù){xi,yi},xi∈X,yi∈Y被學(xué)習(xí).假設(shè)有兩個(gè)域DS和DT以及不同的學(xué)習(xí)任務(wù)TS和TT，遷移學(xué)習(xí)就是利用DS和TS的知識(shí)來改善任務(wù)TT的預(yù)測函數(shù)f(·)在域DT中的表現(xiàn)能力.基于肺炎在DR影像學(xué)上表征和肺結(jié)核相似的特點(diǎn)，本文采用圖2所示的深層遷移學(xué)習(xí)方法實(shí)現(xiàn)DR胸片肺結(jié)核病灶檢測.

圖2 基于遷移學(xué)習(xí)的深層特征提取網(wǎng)絡(luò)Fig.2 The deep feature extraction network based on transfer learning

(4)

每次訓(xùn)練中更新參數(shù)w和θ的過程看作是一次學(xué)習(xí).學(xué)習(xí)誤差函數(shù)采用FL，優(yōu)化函數(shù)選用隨機(jī)梯度下降法，如式(5)所示.

(5)

其中，wt+1表示第t+1次學(xué)習(xí)后的網(wǎng)絡(luò)權(quán)重；Vt+1表示第t+1次學(xué)習(xí)中網(wǎng)絡(luò)的更新量；動(dòng)量μ是權(quán)重更新量的系數(shù)；學(xué)習(xí)率α是權(quán)重系數(shù)；FL(wt)是誤差的梯度.這樣特征提取網(wǎng)絡(luò)可通過朝梯度負(fù)方向更新參數(shù)來減小誤差以達(dá)到學(xué)習(xí)目的.

4 實(shí)驗(yàn)結(jié)果與分析

4.1 肺結(jié)核標(biāo)注數(shù)據(jù)集

除了訓(xùn)練特征提取網(wǎng)絡(luò)使用的RSNA肺炎數(shù)據(jù)集(26 684張DR胸片訓(xùn)練樣本，3 000張DR胸片測試樣本)，實(shí)驗(yàn)所使用的華西肺結(jié)核數(shù)據(jù)集數(shù)據(jù)有以下三點(diǎn)特性.

1) 針對性.肺結(jié)核標(biāo)注胸片數(shù)據(jù)是在重大傳染病國家科技重大專項(xiàng)實(shí)施中由西南地區(qū)30余所基層鄉(xiāng)鎮(zhèn)衛(wèi)生院在體檢篩查時(shí)采集.采樣地區(qū)屬于肺結(jié)核多發(fā)和醫(yī)療資源相對缺乏區(qū)域.

2) 真實(shí)性.由于閱讀醫(yī)學(xué)圖像需要具備豐富的醫(yī)學(xué)理論知識(shí)，我們從收集的胸片中，按圖3的三級遞進(jìn)式診斷中整理出1 935張疑似肺結(jié)核胸片由華西醫(yī)院結(jié)核專家做標(biāo)注.

圖3 肺結(jié)核標(biāo)注數(shù)據(jù)采集Fig.3 Labeled tuberculosis dataset collection

3) 準(zhǔn)確性.除了對肺結(jié)核胸片打標(biāo)簽外，還利用矩形框?qū)Σ∽儏^(qū)域做了像素級標(biāo)注.標(biāo)注前胸片已進(jìn)行了脫敏處理，只保留其圖像信息,如圖4.將標(biāo)注信息和圖像相匹配后，得到表1所示的肺結(jié)核標(biāo)注數(shù)據(jù)集.其中，X， Y， Width， Height分別表示標(biāo)注框的左上頂點(diǎn)的坐標(biāo)以及標(biāo)注框的寬和高的像素值.

(600 px*699 px)

表1 肺結(jié)核標(biāo)注數(shù)據(jù)集示例

Tab.1 The example of labeled tuberculosis dataset

圖名標(biāo)注信息編號(hào)屬性X/pxY/pxWidth/pxHeight/px圖4DR胸部平片13672714122028846144165

4.2 特征提取子網(wǎng)絡(luò)和評價(jià)指標(biāo)

考慮到肺炎和肺結(jié)核同為呼吸道感染疾病，在DR胸片上有相似的表征，本文采用RSNA肺炎數(shù)據(jù)集[25]來訓(xùn)練肺結(jié)核檢測模型的特征提取子網(wǎng)絡(luò)，比較不同網(wǎng)絡(luò)對相似檢測任務(wù)的檢測能力.我們在Keras上選取了9種利用ImageNet[26]預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型，分別是VGGNet16，VGGNet19，ResNet101，ResNet152，MobileNet128，MobileNet192，DenseNet121，DenseNet169，DenseNet201[27-31]，并以相同的學(xué)習(xí)方式,參數(shù)優(yōu)化采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD),學(xué)習(xí)率為1×10-2，在RSNA肺炎數(shù)據(jù)集上訓(xùn)練10個(gè)epoch，每個(gè)epoch學(xué)習(xí)2 500步并保留最佳的一組參數(shù).評價(jià)指標(biāo)采用了約登指數(shù)(Youden’s index)，表示篩檢方法發(fā)現(xiàn)真正的病人與非病人的總能力.越大說明模型實(shí)驗(yàn)的效果越好，真實(shí)性越大.

Youden=Se+Sp-1

(6)

其中，Se∈[0,1]是靈敏度(sensitivity)，代表模型將真實(shí)的病人判斷為有病的能力; Sp∈[0,1]是特異度(specificity)，代表模型將沒有發(fā)病的人判斷為無病的能力.靈敏度和特異度如下式計(jì)算.

(7)

(8)

(9)

(10)

其中，Ntp、Ntn、Nfp、Nfn分別指代混淆矩陣中的實(shí)際發(fā)病且分類正確、實(shí)際未發(fā)病且分類正確、實(shí)際發(fā)病卻分類錯(cuò)誤、實(shí)際未發(fā)病卻分類錯(cuò)誤的樣本個(gè)數(shù)，通過計(jì)算得到表2.

表2 多網(wǎng)絡(luò)在不同訓(xùn)練周期下對DR胸片肺炎檢測能力比較(‰)

表2中網(wǎng)絡(luò)在每一周期得到的(1-Sp，Se), 即為當(dāng)前參數(shù)下ROC曲線上的截?cái)帱c(diǎn).如果將同種網(wǎng)絡(luò)所有截?cái)帱c(diǎn)連線,如圖5所示,可以發(fā)現(xiàn)VGG19整體表現(xiàn)優(yōu)于VGG16; MobileNet192和MobileNet128表現(xiàn)相近，前者在表2中的Youden指數(shù)更大(0.656>0.623); ResNet101略優(yōu)于ResNet152；DenseNet整體表現(xiàn)差于其他三種,且抖動(dòng)幅度大，曲線不平滑.

(a) Cutoff connections of Vgg

(b) Cutoff connections of Mobilenet

(d) Cutoff connections of Densenet

圖5 各網(wǎng)絡(luò)在不同訓(xùn)練周期下的ROC曲線截?cái)帱c(diǎn)連線

Fig.5 The connections of ROC cutoffs ondifferent training epochs withvarious architecture

圖5所示VGG19、 ResNet101以及MobileNet192的曲線更為平滑，性能更優(yōu)，DenseNet整體性能較差.且MobileNet相較于VGG、ResNet最大Youden值更大.為了比較各網(wǎng)絡(luò)在肺結(jié)核檢測任務(wù)中的表現(xiàn)，我們分別將三種網(wǎng)絡(luò)替換肺結(jié)核檢測框架中骨架的特征提取網(wǎng)絡(luò)部分，再通過遷移學(xué)習(xí)的方法訓(xùn)練得到檢測模型TBNN-vgg、TBNN-mobile和TBNN-res.其中TBNN-mobile為圖6所示的TBNN，特征提取子網(wǎng)部分網(wǎng)絡(luò)采用了和MobileNet[27]前13層相同的網(wǎng)絡(luò)結(jié)構(gòu)，其中cov5，cov11和cov13分別對應(yīng)文獻(xiàn)[27]中Table1的第5步，第11步和第13步卷積操作.卷積得到的3個(gè)特征圖分別作為RetinaNet[23]中的Cov3,Cov4,Cov5.在FPN部分得到5個(gè)特征圖P3-P7，并將每一個(gè)特征圖送到分類和病灶區(qū)域預(yù)測子網(wǎng)計(jì)算結(jié)果.

此次模型遷移學(xué)習(xí)中用到的訓(xùn)練集和驗(yàn)證集圖像數(shù)據(jù)全部來自于華西肺結(jié)核數(shù)據(jù)集，其中訓(xùn)練集樣本數(shù)量1886張，驗(yàn)證集樣本數(shù)量155張，測試集樣本數(shù)量143張.以學(xué)習(xí)率1×10-2訓(xùn)練10個(gè)epoch后得到各模型在驗(yàn)證集上分類結(jié)果的ROC曲線和PR曲線，如圖7所示.其中TBNN-mobile的AUC值大于TBNN-resnet和TBNN-vgg，且在PR曲線中的平衡點(diǎn)(BEP)值更高.以上實(shí)驗(yàn)結(jié)果表明，相較于其他主流的網(wǎng)絡(luò)模型架構(gòu)，MobileNet網(wǎng)絡(luò)更適合作為TBNN的特征提取子網(wǎng).

圖6 TBNN肺結(jié)核病灶檢測模型Fig.6 TBNN Tuberculosis lesions detection model

4.3 遷移學(xué)習(xí)前后的檢測結(jié)果與分析

避免模型在遷移學(xué)習(xí)過程中取巧地利用已經(jīng)習(xí)得的肺炎特征來對肺結(jié)核做病灶檢測，產(chǎn)生負(fù)遷移現(xiàn)象，我們比較了遷移學(xué)習(xí)前后的TBNN模型在肺結(jié)核測試集上的表現(xiàn).統(tǒng)計(jì)結(jié)果如表3所示，

表3 遷移學(xué)習(xí)前后模型對測試集的檢測結(jié)果

Tab.3 Model detection results of pre-transfer learning and post-transfer learning

時(shí)間NtpNtnNfpNfn遷移學(xué)習(xí)前213128遷移學(xué)習(xí)后10↑12580↓

可以看出遷移學(xué)習(xí)前僅憑借肺炎特征并不能很好檢測出測試集中的肺結(jié)核胸片，漏檢率達(dá)到80%，而遷移學(xué)習(xí)后測試集中10張含肺結(jié)核病灶的胸片均被成功檢測.

4.4 模型評估

比較了基于單個(gè)或多個(gè)人工構(gòu)造的特征做特征提取的方向梯度直方圖特征(HOG)算法、基于均值漂移聚類(HKG)、統(tǒng)計(jì)特征和SURF算法的檢測方法以及利用神經(jīng)網(wǎng)絡(luò)做特征提取的TBNN檢測模型對同組DR胸片做肺結(jié)核分類的性能，結(jié)果顯示TBNN相比于基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)檢測方法有更高的分類精度,性能上也更優(yōu).

表5為基于深度學(xué)習(xí)的肺結(jié)核檢測算法TBNet[22]和TBNN在同等規(guī)模訓(xùn)練集下，訓(xùn)練 10個(gè)Epoch后模型性能比較.其中TBNet使用了基于Haar特征和LBP特征的多重顯著特征數(shù)據(jù)增強(qiáng)方法，從原始的800張胸片中裁剪出敏感區(qū)域和噪聲加入訓(xùn)練，以達(dá)到充分訓(xùn)練模型且提高分類準(zhǔn)確率.TBNet的訓(xùn)練集、驗(yàn)證集和測試集直接或間接來自同源數(shù)據(jù)集[21]，本文提出的TBNN在訓(xùn)練階段采用和TBNet規(guī)模相近總量更少的訓(xùn)練集和驗(yàn)證集，測試集為文獻(xiàn)[21]提供的所有胸片.結(jié)果顯示，相同訓(xùn)練周期下，TBNN所需訓(xùn)練樣本更小、測試集更大，模型準(zhǔn)確性更高，且模型具有較強(qiáng)的泛化能力.

表4 本文方法與基于人工構(gòu)造特征的檢測方法對比

Tab.4 Compared withartificial feature extraction and detection methods

HKG[15]統(tǒng)計(jì)特征[16]SURF[17]TBNNAccuracy%77.6779.8482.2789.68AUC0.790 20.824 90.851 50.901 5

為了比較肺結(jié)核病灶檢測模型的在實(shí)際情景中的檢測能力，我們邀請了三位來自放射科的人類閱片醫(yī)生和TBNN對同一組胸片做肺結(jié)核分類，其中三位醫(yī)生都工作在圖3所示數(shù)據(jù)采集流程中不同地區(qū)的基層衛(wèi)生院，擁有豐富的閱片經(jīng)驗(yàn)，參與測試的時(shí)間和地點(diǎn)相互獨(dú)立，測試的DR胸片選自數(shù)據(jù)采集工作得到的結(jié)核標(biāo)注數(shù)據(jù)集，且未參與TBNN訓(xùn)練.為了盡量減小其他因素對閱片過程的影響，測試前沒有向醫(yī)生告知TBNN的任何細(xì)節(jié).

表5 本文方法和基于多重顯著特征的數(shù)據(jù)增強(qiáng)方法對比

Tab.5 Compared with multiple salient-feature based data augmentation method

Setting模型TBNetTBNN訓(xùn)練集/張255 7188 6驗(yàn)證集/張150155測試集/張412800Validation Accuracy/%81.3389.68Testing Accuracy/%75.4285.38是否標(biāo)識(shí)病灶×√

表6 本文方法和單個(gè)閱片醫(yī)生檢測同組DR胸片結(jié)果比較

統(tǒng)計(jì)結(jié)果由表6所示，基于深度遷移學(xué)習(xí)的TBNN肺結(jié)核檢測模型在對DR胸片的檢測上，靈敏度更高，即漏檢率更低，特異性與人類醫(yī)生相近.三位人類閱片醫(yī)生的Ntp數(shù)值大小幾乎相同，即能正確檢測結(jié)核陽性胸片的水平接近，但通過混淆矩陣分析相互檢測結(jié)果差異(+表示分類陽性，-表示分類陰性)，如表7所示，醫(yī)生A和醫(yī)生B、醫(yī)生C分別在30和38張胸片上檢測結(jié)果不一致，整體檢測結(jié)果接近的醫(yī)生B(Se=0.67，Sp=0.96)和醫(yī)生C(Se=0.69，Sp=0.97)也存在16張結(jié)論相反的胸片.

表7 醫(yī)生閱片結(jié)果混淆矩陣

表8 本文方法和閱片醫(yī)生組合檢測同組DR胸片結(jié)果比較

Tab.8 Compared with combinationsof radiologists

閱片醫(yī)生NtpNtnNfpNfn漏檢率Accuracy醫(yī)生A+B40871990.180.82醫(yī)生A+C43871960.120.84醫(yī)生B+C391006100.200.90醫(yī)生A+B+C44852150.100.83兩人組平均40.791.314.78.30.170.85整體平均41.589.816.27.50.150.85TBNN4198880.160.90

如果只要有一位醫(yī)生結(jié)論是結(jié)核陽性，則把該胸片判別為陽性，以減弱單個(gè)醫(yī)生檢測水平經(jīng)驗(yàn)對結(jié)果的影響，減低漏檢率.表8統(tǒng)計(jì)了多位醫(yī)生所有可能組合的檢測結(jié)果，其中醫(yī)生A存在的兩人組檢測準(zhǔn)確率相對較低，但能檢測出相對更多的陽性患者，醫(yī)生B和醫(yī)生C的組合有最高的準(zhǔn)確率，但漏檢率也最高.結(jié)合表6單個(gè)醫(yī)生檢測結(jié)果，TBNN的Ntp大于單個(gè)醫(yī)生，即TBNN漏檢率比單個(gè)醫(yī)生更低，且低于兩人組平均值，略高于整體平均值，其準(zhǔn)確率高于所有組合結(jié)果.

閱片醫(yī)生A除了對測試胸片進(jìn)行分類，還通過標(biāo)注工具標(biāo)注出疑似病灶區(qū)域.圖8所示為醫(yī)生A和TBNN對同一張DR胸片的肺結(jié)核病灶區(qū)域的標(biāo)注結(jié)果比較，其中，圖8 (a)為華西肺結(jié)核數(shù)據(jù)集中的真實(shí)結(jié)果；圖8 (b)為醫(yī)生A通過標(biāo)注工具手工標(biāo)注結(jié)果；圖8 (c)為TBNN在對DR胸片做肺結(jié)核分類時(shí)的自動(dòng)標(biāo)注結(jié)果.考慮到醫(yī)生會(huì)通過臨床表現(xiàn)和生化數(shù)據(jù)等多維度來診斷，TBNN在實(shí)際中的診斷表現(xiàn)已經(jīng)有不低于醫(yī)生的水平.

(a) Ground Truth (b)Doctor A (c) TBNN

圖8 醫(yī)生A和TBNN標(biāo)注同張DR胸片的肺結(jié)核病灶區(qū)域

Fig.8 The boxes of labeling the same DR film by Radiologist A and TBNN

5 結(jié) 論

由于基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)的肺結(jié)核檢測方法存在著泛化能力不高，無法挖掘圖像深層語義等問題，本文啟發(fā)性利用肺炎深度網(wǎng)絡(luò)檢測模型做遷移學(xué)習(xí)來訓(xùn)練針對DR胸片的特征提取子網(wǎng)絡(luò).為了減弱容易分類的正樣本對模型訓(xùn)練的影響，提出了基于Focal Loss目標(biāo)檢測架構(gòu)的肺結(jié)核病灶檢測模型TBNN.實(shí)驗(yàn)結(jié)果證明，本文提出的基于深層遷移學(xué)習(xí)的肺結(jié)核病灶檢測模型在多種分類器評價(jià)指標(biāo)上均高于以往的基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)檢測方法，并且在真實(shí)測試集上有不低于放射科閱片醫(yī)生的診斷表現(xiàn).相較基于傳統(tǒng)數(shù)據(jù)增強(qiáng)手段的深度學(xué)習(xí)肺結(jié)核分類算法，我們提出的方法能充分利用樣本特征和更快的收斂，并且在訓(xùn)練速度和模型分類精度等能力上更優(yōu).在深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中，數(shù)據(jù)集樣本數(shù)量和質(zhì)量對模型性能好壞起著決定性作用.利用小量肺結(jié)核胸片樣本調(diào)參可以提高模型性能，但并不能解決網(wǎng)絡(luò)訓(xùn)練問題.我們?yōu)榱顺浞钟?xùn)練TBNN的特征提取子網(wǎng)絡(luò)使用了大型肺炎數(shù)據(jù)集，造成TBNN對肺結(jié)核檢測更依賴于肺炎相似的圖像語義特征，深層網(wǎng)絡(luò)的黑盒屬性會(huì)造成無法解釋的誤檢和漏檢情況，如何解決這類問題將是下一步的研究方向.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡