羅剛 泮思林 喬思波 龐善臣 陳濤濤 孫玲玉 董玉坤
青島大學(xué)附屬婦女兒童醫(yī)院1心臟中心,2超聲科(山東青島 266034);3中國石油大學(xué)(華東)計算機科學(xué)與技術(shù)學(xué)院(山東青島 266580)
隨著胎兒超聲心動圖技術(shù)的發(fā)展和胎兒先天性心臟?。ê喎Q先心?。┱J識程度的提升,超聲心動圖在胎兒先心病評估及干預(yù)策略的選擇中發(fā)揮重要作用。受胎位、超聲斑點噪聲及偽影等影響,超聲心動圖準確篩查胎兒先心病極具挑戰(zhàn)性,準確率高度依賴于醫(yī)師經(jīng)驗,基層醫(yī)院普及較為困難[1]。引入深度學(xué)習技術(shù)識別超聲圖像可能更具優(yōu)勢[2-5],但在胎兒超聲心動圖圖像識別中的應(yīng)用研究相對缺乏[6-8]。四腔心切面可較清楚地顯示心腔形態(tài)及大小,較全面地評估胎兒心臟發(fā)育情況,是超聲診斷胎兒先心病的基本切面[9]。本研究在YOLOv4 模型[10]基礎(chǔ)上適當縮減模型深度,采用多級殘差混合注意力機制模塊(multistage residual hybrid attention module,MRHAM)建 立MRHAM-YOLOv4-Slim 模型,評價該模型在胎兒超聲心動圖四腔心切面定位、識別心腔結(jié)構(gòu)的可行性。
1.1 研究對象選取2019年8-12月青島市婦女兒童醫(yī)院采集的2 000 張健康孕25 周胎兒的超聲心動圖標準四腔心切面圖像(JPG 格式)建立實驗數(shù)據(jù)集。標準超聲圖像由2 名具有10年以上工作經(jīng)驗的超聲醫(yī)師采用Samsung WS80A 超聲診斷掃描儀獲取,數(shù)據(jù)圖像存在不同程度的偽影、斑點噪聲及模糊邊界。本研究遵循《世界醫(yī)學(xué)協(xié)會赫爾辛基宣言》原則,經(jīng)醫(yī)院倫理委員會討論審核批準(批件號:QFELL-KY-2021-22)。
1.2 儀器與方法(1)建立機器學(xué)習模型:為匹配本研究胎兒超聲心動圖圖片數(shù)據(jù)集的規(guī)模,縮減YOLOv4 模型的深度,降低了模型復(fù)雜度。修改CSPDarknet53 骨干網(wǎng)絡(luò):將注意力機制模塊嵌入至骨干網(wǎng)絡(luò)模型,以保證改良YOLOv4 模型面對小規(guī)模數(shù)據(jù)集的泛化能力。本研究引入空間金字塔池(spatial pyramid pooling,SPP)、特征圖金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)以及路徑融合網(wǎng)絡(luò)(path aggregation network,PAN),擴大感受野范圍,能夠提取更具有分辨性的特征映射。本研究使用PASCAL 組織發(fā)布的Pascal VOC 2012 計算機公開數(shù)據(jù)集,包括目標分類、目標檢測及目標分割等任務(wù)。該數(shù)據(jù)集包含20 類物體,共有11 540 張圖片,其中包含27 450個被標注的檢測物體。該數(shù)據(jù)集對本研究所建立的機器學(xué)習模型在NVIDIA 2080Ti 圖形處理器(graphic processing unit,GPU)上運用Pytorch(Pytorch=1.5.0,https://pytorch.org/)進行迭代訓(xùn)練,獲得了具有豐富圖像知識的預(yù)訓(xùn)練權(quán)重[11]。(2)方法:在本中心采集的胎兒超聲心動圖標準四腔心切面圖像所建立的MRHAM-YOLOv4-Slim 機器模型進行圖像分類測試并與多種機器模型進行對比。采用四種評價方法,包括:召回率(recall):R=Ntp/(Ntp+Nfn),表示提取出的正確信息條數(shù)在樣本中的信息條數(shù)的比例;精確度(precision):P=Ntp/(Ntp+Nfp),表示提取正確信息的條數(shù)中實際為正確的比例,并計算平均精度(mean average precision,mAP);F1 值為精確率和召回率的調(diào)和平均數(shù):F1=2PR/(R+P)。
2.1 建立機器學(xué)習模型本研究減少了YOLOv4機器學(xué)習模型CSPDarknet53 骨干網(wǎng)絡(luò)中的跨階段區(qū)域(cross stage part,CSP)模塊中的殘差映射數(shù)量,將第3、4、5 階段的CSP 模塊中的殘差映射分別從8、8、4 減少為4、4、2,模型深度減少16 層,建立YOLOv4-Slim。本研究將不同注意力機制模塊MRHAM(圖1)和卷積塊注意模塊(convolutional block attention module,CBAM)嵌入至骨干網(wǎng)絡(luò)模型建立相應(yīng)機器學(xué)習模型。
圖1 MRHAM-YOLOv4-Slim 網(wǎng)絡(luò)架構(gòu)Fig.1 Mrham-yolov4-slim network architecture
2.2 模型效果驗證
2.2.1 模型驗證本中心采集的超聲心動圖圖像分類測試降低YOLOv4 模型復(fù)雜度的YOLOv4-Slim在識別心腔結(jié)構(gòu)準確性更具優(yōu)勢,達到性能優(yōu)化目的,可匹配本研究胎兒超聲心動圖圖片數(shù)據(jù)集的規(guī)模,見表1。MRHAM-YOLOv4-Slim 模型識別超聲四腔心圖像情況見圖2。
表1 不同機器模型在胎兒超聲心動圖分類測試中的比較Tab.1 Comparison of different machine models in fetal echocardiography classification test
圖2 深度學(xué)習模型識別胎兒超聲心動圖四腔心情況Fig.2 Recognition of fetal four chamber echocardiography by deep learning model
2.2.2 兩種不同注意力機制模塊模型比較本中心采集的超聲心動圖圖像分類測試證實引入注意力機制模塊MRHAM 和CBAM 后YOLOv4-Slim 性能獲得進一步提升,見表1。對實驗數(shù)據(jù)集分類測試比較結(jié)果,MRHAM-CSPDarknet53-Slim 模型準確率均顯著優(yōu)于CBAM-CSPDarknet53-Slim,甚至優(yōu)于MRHAM-CSPDarknet53,見表2。
表2 不同注意力機制模塊對模型骨干網(wǎng)絡(luò)的影響Tab.2 Influence of different attention mechanism modules on model backbone network
2.2.3 胎兒超聲心動圖圖像四腔心結(jié)構(gòu)識別精度比較MRHAM-YOLOv4-Slim 在本研究采集的超聲心動圖四腔心切面圖像中識別四個心腔(左心房、右心房、左心室和右心室)的準確度分別為0.87、0.93、0.86 和0.89,相比YOLOv4、YOLOv4-Slim及CBAM-YOLOv4-Slim 明顯升高,見表3。
表3 不同機器模型間胎兒心臟四腔心識別精度的比較Tab.3 Comparison of recognition accuracy of four chamber fetal heart between different machine models
胎兒先心病類型多樣性,胎兒超聲心動圖圖像對比度低、信號丟失、斑點噪聲和偽影等問題均增加胎兒心臟檢查難度。此外,超聲醫(yī)師的經(jīng)驗及胎兒在宮內(nèi)的不同位置都可導(dǎo)致圖像的獲取缺乏一致性和可重復(fù)性。人工智能深度學(xué)習技術(shù)已被用于超聲心動圖自動識別,筆者單位也開展了相關(guān)研究[6-7,12-14],雖然只處于相對初級的階段,但具有縮短超聲醫(yī)師學(xué)習曲線,降低人為錯誤風險的應(yīng)用前景。四腔心切面是產(chǎn)前診斷先心病的主要超聲切面,該切面能夠清晰顯示胎兒各心腔發(fā)育情況[15]。因此識別四腔心切面中胎兒心腔結(jié)構(gòu)是本研究深度學(xué)習訓(xùn)練模型在胎兒超聲心動圖中的研究起點。
REDMON等[16]在2015年首次提出YOLO模型,只需對輸入的圖片信息進行一次處理,就能直接預(yù)測出物體的位置和類別信息。為了提高YOLO模型的精度,尤其是對于小尺寸目標的識別精度,2018年REDMON 等[17]采用了DarkNet-53 作為新的骨干網(wǎng)絡(luò)用于提取輸入圖像的特征建立YOLOv3模型。該模型在骨干網(wǎng)絡(luò)加入特征圖金字塔方法,融合了不同尺寸的特征信息,大幅提升了YOLOv3模型小尺寸目標的檢測準確率。ALEXEY 等[10]提出了YOLOv4 模型,該模型僅使用一張1080Ti GPU或者2080Ti GPU 就能得到一個快速且精準的檢測模型,在一些大型公開數(shù)據(jù)集上表現(xiàn)出優(yōu)秀的檢測效果。由于本研究短時間內(nèi)收集的胎兒心臟超聲圖像數(shù)據(jù)較少,超聲圖像分辨率較低且噪聲多,使用原始復(fù)雜的YOLOv4 模型容易出現(xiàn)過擬合現(xiàn)象,且不能精確捕捉超聲圖像中的心腔結(jié)構(gòu),導(dǎo)致模型的性能下降。因此,本研究根據(jù)實驗數(shù)據(jù)集特點對YOLOv4 做出相應(yīng)的改進,使模型達到最好的性能。
CSPDarknet53是YOLOv4模型的骨干網(wǎng)絡(luò),它是由ALEXEY 等[10]提出的67 層深度網(wǎng)絡(luò)分類模型。該模型采用了卷積操作,通過調(diào)節(jié)卷積步長控制輸出特征映射的尺寸及感受野的大小。CSPDarknet53 骨干模型引入了CSP 殘差模塊和Dropblock技術(shù),可以對卷積神經(jīng)網(wǎng)絡(luò)進行正則化處理,提高了模型預(yù)測精度。本研究結(jié)合胎兒超聲心動圖實驗數(shù)據(jù)集需要,對減少了該骨干網(wǎng)絡(luò)CSP 模塊中的殘差映射的數(shù)量,縮減了網(wǎng)絡(luò)深度及復(fù)雜度。在實驗數(shù)據(jù)集分類驗證中,CSPDarknet53-Slim 比CSPDarknet53 更具優(yōu)勢。YOLOv4-Slim 在識別心腔結(jié)構(gòu)準確性優(yōu)于YOLOv4,證實降低模型訓(xùn)練的復(fù)雜度確實可達到性能優(yōu)化。因此,本研究所采用CSPDarknet53-Slim 骨干網(wǎng)絡(luò)更適合胎兒超聲心動圖精細分類識別,對CSPDarknet53 骨干網(wǎng)絡(luò)精簡優(yōu)化可實現(xiàn)良好的性能。
超聲心動圖圖像分辨率較低且含有大量噪音,目標檢測算法難以聚焦待檢測物體,預(yù)測的候選框可能只包含待檢測物體的某一部分,使得檢測算法的性能大幅下降。由于目標檢測與人類感知的整個過程非常類似,利用捕捉到的局部特征即能很好地理解整個視覺場景,視覺注意力機制在其中扮演著非常重要的角色。因此,WOO 等[18]融合了通道信息和空間信息,提出卷積神經(jīng)網(wǎng)絡(luò)注意力機制模塊CBAM,并在ImageNet 數(shù)據(jù)集進行分類測試,驗證了通道信息和空間信息結(jié)合的有效性。本研究借鑒了CBAM 模塊引入MRHAM 模塊,經(jīng)驗證在實驗數(shù)據(jù)集MRHAM-CSPDarknet53-Slim模型識別準確率均顯著優(yōu)于CBAM-CSPDarknet53-Slim。
綜上所述,本研究建立的MRHAM-YOLOv4-Slim 模型在胎兒超聲心動圖圖像識別中展現(xiàn)出更佳的性能。未來研究中,團隊將在此模型基礎(chǔ)上設(shè)計一個胎兒心臟自動分類模型,逐步實現(xiàn)對室間隔完整的肺動脈閉鎖伴右心發(fā)育不良綜合征等疾病胎兒心臟發(fā)育狀況的早期預(yù)測評估,具有重要臨床價值和社會意義。