龍潔 王培涵
(口腔疾病防治全國重點實驗室·國家口腔醫(yī)學(xué)中心·國家口腔疾病臨床醫(yī)學(xué)研究中心·四川大學(xué)華西口腔醫(yī)院口腔頜面外科,四川 成都 610041)
人工智能(Artificial intelligence,AI)是具備模仿及超越人類智慧認知能力的所有機器或技術(shù)集成[1-2],目前基于深度學(xué)習(xí)(Deep learning)的人工智能技術(shù)在醫(yī)學(xué)領(lǐng)域有了積極地應(yīng)用與實踐,其智能圖像處理能力在多器官的組織結(jié)構(gòu)及相關(guān)病變的臨床輔助診療中表現(xiàn)出優(yōu)異的性能[3-6]??谇会t(yī)學(xué)領(lǐng)域中,不同機構(gòu)及研究團隊已成功將AI技術(shù)應(yīng)用于牙體及牙周疾病、頜骨疾病和腫瘤及區(qū)域淋巴結(jié)轉(zhuǎn)移的診斷,初步建立了不同的自動智能診療系統(tǒng)[7-8]。腮腺是唾液腺腫瘤好發(fā)的腺體,腮腺腫瘤是口腔頜面外科的常見病和多發(fā)病[9],其中良性腫瘤發(fā)生率相對較高,臨床上針對不同性質(zhì)的腮腺腫瘤治療方法各有不同,精確的術(shù)前診斷以及合理病灶切除范圍對于腮腺腫瘤的治療及預(yù)后存在至關(guān)重要的影響。然而,諸多因素造成腮腺區(qū)不同腫瘤的臨床癥狀有時并不典型,因此,對腮腺腫瘤的精準診療仍存在一定的臨床挑戰(zhàn)。本文圍繞深度學(xué)習(xí)技術(shù)在腮腺腫瘤智能診療的應(yīng)用和前景開展討論分析,以期進一步推進人工智能技術(shù)與口腔臨床醫(yī)學(xué)的結(jié)合及應(yīng)用。
深度學(xué)習(xí)技術(shù)近年在各學(xué)科引入計算機視覺研究領(lǐng)域,以腦神經(jīng)元結(jié)構(gòu)為參照,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)按照一定的智能要求進行組合搭建形成了人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)[1],神經(jīng)網(wǎng)絡(luò)通過不斷的智能學(xué)習(xí)進行關(guān)鍵數(shù)據(jù)更新,形成了具備自適應(yīng)深度特征提取結(jié)構(gòu)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[2]。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)可以彌補人工篩選的不足,使模型訓(xùn)練結(jié)果更具科學(xué)性,同時可對專業(yè)人員肉眼難以識別的圖像細節(jié)特征進行提取并進行組合學(xué)習(xí),實現(xiàn)對數(shù)據(jù)的深度挖掘,這是其相比傳統(tǒng)機器學(xué)習(xí)技術(shù)的優(yōu)勢所在。卷積神經(jīng)網(wǎng)絡(luò)技術(shù)(Convolutional neural networks,CNNs)目前應(yīng)用最為廣泛,卷積操作可對圖像數(shù)據(jù)進行由低層到高層的關(guān)鍵特征提取,通過加入池化層進一步精煉圖像細節(jié),有效減少了模型的訓(xùn)練數(shù)據(jù)集。CNNs因其高效的智能圖像處理及自動提取能力在醫(yī)學(xué)領(lǐng)域得到廣泛應(yīng)用。將各種模態(tài)影像圖像與深度學(xué)習(xí)技術(shù)相結(jié)合所建立的人工智能診療系統(tǒng)已經(jīng)在臨床工作中體現(xiàn)了較高的應(yīng)用價值,減輕了專業(yè)人員的工作強度,實現(xiàn)了部分疾病的智能精準診療,依靠基于深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動分析算法有效支持了臨床醫(yī)生的治療決策。
1.1 腮腺影像圖像單一網(wǎng)絡(luò)分割模型的應(yīng)用 腮腺組織及其占位性病變影像圖像的精確分割對于腮腺疾病的智能診斷和手術(shù)切除區(qū)域確定等合理診療規(guī)劃的制定非常關(guān)鍵。目前臨床上進行腮腺及病變組織的手動圖像分割費時費力,需要專業(yè)人員具備豐富的頜面外科及影像學(xué)專業(yè)技術(shù)儲備。此外,頭頸部組織器官相當復(fù)雜,其影像圖像形態(tài)不規(guī)則,邊界重疊,受口腔義齒或者包括接骨板在內(nèi)的金屬植入物產(chǎn)生的金屬偽影嚴重影響圖像清晰度,對頭頸部影像圖像中的關(guān)鍵組織結(jié)構(gòu)手動分割相當困難。諸多實踐已經(jīng)證實應(yīng)用深度學(xué)習(xí)技術(shù)對腮腺影像圖像的智能分割可有效減少人力的投入并顯著提高分割精度。深度學(xué)習(xí)早期多采用單一網(wǎng)絡(luò)分割模型,諸多研究者聚焦腮腺的圖像分割做了積極地嘗試。斯坦福大學(xué)研究團隊[10]在2016年利用CNNs對頭頸部重要器官組織的CT圖像進行了模型分割訓(xùn)練,該網(wǎng)絡(luò)主要由卷積層、最大池化層和全連接層三部分構(gòu)成,模型提取了CT圖像中包含感興趣組織及其周圍背景的切片,通過卷積操作捕獲局部圖像特征用于網(wǎng)絡(luò)訓(xùn)練,提取目標器官的光滑體素中最大的連通分量,去除該分量的空腔實現(xiàn)了對感興趣組織的圖像分割,該模型算法的腮腺圖像分割任務(wù)經(jīng)五折交叉驗證后的平均DSC(Dice coefficient)為(77.3±5.8)%,該早期模型的算法結(jié)果對腮腺分割雖不很理想,但該工作顯示了深度學(xué)習(xí)技術(shù)在頭頸部圖像器官分割方面具備應(yīng)用前景。Tong等[11]提出全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional neural network,FCNN)與形狀先驗?zāi)P?Shape representation model,SRM))相結(jié)合的頭頸部器官圖像分割方法有效提高了分割精度,該方法首先使用SRM在訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)目標組織的潛在形狀,然后使用預(yù)先訓(xùn)練好的固定參數(shù)SRM約束FCNN訓(xùn)練。該模型在患者頭頸部CT圖像上腮腺分割任務(wù)DSC大于83%,顯示了圖像分割技術(shù)的優(yōu)化會較好的提高深度學(xué)習(xí)的智能效果。類似的研究和實踐國內(nèi)外近年逐步均有報道,取得了較好的圖像分割及疾病智能診斷效果。
1.2 腮腺影像圖像集成網(wǎng)絡(luò)分割模型的應(yīng)用 腮腺區(qū)域是頭頸部組織解剖結(jié)構(gòu)較為復(fù)雜的區(qū)域,因此盡管深度學(xué)習(xí)網(wǎng)絡(luò)在腮腺影像圖像處理及分割取得了可接受的智能效果[12],但單一學(xué)習(xí)網(wǎng)絡(luò)受到的干擾因素較多,有時圖像分割效果并不理想。為進一步提高腮腺分割的效率,優(yōu)化影像圖像的智能處理性能,近年來應(yīng)用集成網(wǎng)絡(luò)模型進行深度學(xué)習(xí)逐漸受到重視。集成網(wǎng)絡(luò)模型可將多個單一模型組合在一起進行深度學(xué)習(xí),其對圖像的分析處理及對疾病的智能診斷優(yōu)于單個學(xué)習(xí)模型。與單一網(wǎng)絡(luò)相比,集成框架能夠更加匹配智能診斷任務(wù),易于發(fā)現(xiàn)不規(guī)則樣本,提高學(xué)習(xí)分割網(wǎng)絡(luò)的性能和魯棒性。Peng等[13]建立了一種改進的U-Net結(jié)構(gòu)用于深度學(xué)習(xí)訓(xùn)練,其腮腺CT圖像分割中的DSC系數(shù)達到93.43%,該團隊建立的Organ-Net在U-Net基礎(chǔ)上進行了改進,整合一系列單一用途的技術(shù)形成復(fù)合網(wǎng)絡(luò)模型,減少了無效樣本,有效的解決了像素不平衡問題。廣島大學(xué)Kawahara等[14]提出將逐步網(wǎng)絡(luò)(Stepwise-net)用于頭頸部的關(guān)鍵圖像分割,該模型基于2個U-net模型在腮腺分割任務(wù)中實現(xiàn)了81%的平均DSC。南方醫(yī)科大學(xué)Zhong等[15]選擇ResNet18作為分類訓(xùn)練模型,將三級ResNet18聯(lián)合,采用Boosting方法對訓(xùn)練數(shù)據(jù)進行調(diào)整,保留每一級網(wǎng)絡(luò)輸入正負樣本均衡,該模型的計算結(jié)果顯示其對腮腺影像圖像的分割優(yōu)于單一網(wǎng)絡(luò)。
除CT以外,磁共振(Magnetic resonance imaging,MRI)圖像也可作為腮腺及其占位性病變分割的圖像數(shù)據(jù)來源。Tong等[16]開發(fā)了一種新方法用于頭頸部CT和MRI成像上的全自動組織分割,其技術(shù)使用形狀約束生成對抗網(wǎng)絡(luò)進一步提高了SRM方法[11]的分割精度,該模型利用判別網(wǎng)絡(luò)糾正預(yù)測結(jié)果與標簽間的誤差以減少假陽性結(jié)果的出現(xiàn),約束預(yù)測形狀,該技術(shù)建立的SC-GAN模型通過結(jié)合GAN和Dense-Net網(wǎng)絡(luò)結(jié)構(gòu)在CT和MRI圖像中均實現(xiàn)了較高的精確度分割。
對腮腺超聲圖像的處理也有積極的嘗試。Zhang等[17]在腮腺腫瘤超聲圖像上的分割也應(yīng)用了深度學(xué)習(xí)集成網(wǎng)絡(luò),該團隊提出了一種基于收縮金字塔框架和融合注意力轉(zhuǎn)換器CNN塊的金字塔卷積變壓器用于腮腺腫瘤分割。在該架構(gòu)中,收縮金字塔框架通過整合圖像的多尺度依賴關(guān)系,有效地捕獲像素密集的腮腺腫瘤圖像特征,該模型在腮腺腫瘤圖像分割工作中實現(xiàn)了91.51%的Dice相似系數(shù),顯示了較好的智能圖像處理能力。
1.3 腮腺影像多模態(tài)醫(yī)學(xué)圖像分割模型的應(yīng)用 MRI成像時間長且費用較貴,相對于CT圖像數(shù)據(jù),MRI數(shù)據(jù)的獲取更為困難, 不同團隊與機構(gòu)均積極探索研發(fā)更好的算法以嘗試解決深度學(xué)習(xí)中MRI數(shù)據(jù)不足的瓶頸。Kieselmann等[18]開發(fā)的深度學(xué)習(xí)系統(tǒng)不同于傳統(tǒng)的數(shù)據(jù)增強和遷移學(xué)習(xí)方法,該研究注釋了大量CT圖像,通過Cycle-GAN[19]網(wǎng)絡(luò)合成MRI圖像后,將CT圖像的標簽與合成的MRI圖像一起輸入2D U-Net進行深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練,最后將訓(xùn)練好的網(wǎng)絡(luò)應(yīng)用于真實MRI圖像,實現(xiàn)了在MRI圖像上進行分割腮腺的任務(wù)。該模型的創(chuàng)新思想是將足量帶注釋的CT數(shù)據(jù)集用以豐富數(shù)量有限或沒有數(shù)據(jù)注釋的MRI數(shù)據(jù)集,該模型將圖形配準、遷移模型以及跨模態(tài)學(xué)習(xí)等技術(shù)相結(jié)合,有效解決了訓(xùn)練集數(shù)據(jù)較少的技術(shù)瓶頸。
近年來基于深度學(xué)習(xí)的腮腺腫瘤AI診斷陸續(xù)有實際臨床應(yīng)用和探索,不同機構(gòu)基于各種模態(tài)的影像學(xué)資料開展智能診斷系統(tǒng)的研發(fā)。在醫(yī)工合作的大背景下,研究人員均聚焦更好的算法和算力推動深度學(xué)習(xí)技術(shù)在口腔臨床智慧醫(yī)療的進展。Yuan等[20]成功將ResNet-50應(yīng)用于腮腺腫瘤CT圖像的分類,其建立模型分類準確率達到90%,提示深度學(xué)習(xí)技術(shù)可對CT圖像中腮腺腫瘤智能診斷發(fā)揮關(guān)鍵作用。新疆大學(xué)Zhang等[21]通過對腮腺CT數(shù)據(jù)進行深度可分離卷積操作并在卷積完成后加入非線性層對經(jīng)典CNN進行優(yōu)化用于對腮腺良惡性腫瘤的診斷,其模型對腮腺腫瘤智能診斷準確率高達 97.78%。武漢大學(xué)Shen等[22]聚焦于基于深度學(xué)習(xí)的腮腺腫瘤術(shù)前診斷方法的應(yīng)用,該團隊基于3D DenseNet-121研發(fā)了用于腮腺腫瘤良惡性鑒別的二元分類器,將模型的腮腺腫瘤智能診斷性能與臨床醫(yī)生進行了比較,并通過測量臨床醫(yī)生在模型輔助下的診斷正確性變化來評估模型的智能功效,證實了該模型的診斷準確性達95.5%,其自動診斷能力相當于執(zhí)業(yè)臨床醫(yī)生水平。上述相關(guān)工作成果顯示在基于CT圖像深度學(xué)習(xí)的輔助下,AI模型對腮腺良惡性腫瘤自動診斷的能力值得信賴。
基于MRI圖像的深度學(xué)習(xí)與以智能診斷腮腺腫瘤的結(jié)果同樣非??煽?Chang等[23]研發(fā)出的全自動腮腺腫瘤診斷系統(tǒng)采用遷移學(xué)習(xí)對U-Net模型進行訓(xùn)練,使用二維卷積神經(jīng)網(wǎng)絡(luò)U-Net對腮腺腫瘤MRI圖像進行分類,證實該模型可對沃辛瘤和多形性腺瘤進行高精確度診斷。復(fù)旦大學(xué)Xia等[24]優(yōu)化設(shè)計了ResNet-18模型對不同模態(tài)的腮腺腫瘤MRI圖像進行分類,該模型將三個不同模態(tài)的腫瘤圖像和t1加權(quán)的無病變?nèi)賵D像共四個通道輸入到一張圖像中,模型對腮腺腫瘤診斷準確率較高,該工作提示隨著通道數(shù)的增加,模型的精度也逐漸提高,使用多通道圖像輸入可提高模型自動識別腫瘤特征的智能性。此外,實際臨床的醫(yī)工合作中,合理融合不同模態(tài)可增強網(wǎng)絡(luò)深度,多模態(tài)圖像融合有助于更豐富的關(guān)鍵信息獲取,進而提升診斷的可靠性[25]。
建立深度學(xué)習(xí)智能疾病診斷模型需要足夠多的帶標簽數(shù)據(jù),臨床實踐中有時并不容易獲取更多的數(shù)據(jù),為了減少標簽數(shù)量有限的影響,Matsuo等[26]建立了加入異常檢測和L2約束的損失了softmax的改良VGG-16模型,運用非醫(yī)學(xué)數(shù)據(jù)進行數(shù)據(jù)增強預(yù)防小數(shù)據(jù)集的過擬合,計算結(jié)果顯示該模型優(yōu)于傳統(tǒng)深度學(xué)習(xí)方法和放射科醫(yī)生的診斷水平,為數(shù)據(jù)量小且分布不平衡深度學(xué)習(xí)模型的建立提供了較好的解決思路。
本研究團隊近年來應(yīng)用深度學(xué)習(xí)技術(shù)在腮腺腫瘤的智能診療方向做了積極地探索。收集并分析了多例腮腺腫瘤患者的增強CT圖像數(shù)據(jù),建立了帶有標簽的腮腺腫瘤增強CT圖像分割和分類標注數(shù)據(jù)集,在該數(shù)據(jù)集的基礎(chǔ)上,分別建立了基于U-Net的腮腺腫瘤增強CT圖像自動分割模型和基于ResNet-18的腮腺腫瘤增強CT圖像自動分類模型,完成了包括腮腺增強CT數(shù)據(jù)集建立、自動分割及分類模型構(gòu)建在內(nèi)的腮腺腫瘤增強CT圖像分析及智能診斷軟件的研發(fā)。本研究模型算法通過增加卷積塊注意力模塊(Convolutional Block Attention Module, CBAM)和Dice系數(shù)差異函數(shù)(Dice loss)以緩解腮腺腫瘤區(qū)域與非腫瘤區(qū)域圖像面積的不平衡,使網(wǎng)絡(luò)聚焦于感興趣區(qū)并抑制網(wǎng)絡(luò)對不重要圖像特征的關(guān)注,提高模型對腫瘤定位的精準性從而優(yōu)化網(wǎng)絡(luò)的智能分割性能。該智能診斷軟件可實現(xiàn)快速分割,表現(xiàn)出了較高的自動分割準確性,可有效鑒別常見腮腺腫瘤及其良惡性,在與有5年以上工作經(jīng)驗的口腔頜面外科醫(yī)師手動分割及人工鑒別診斷水平的對比中展示出了明顯的優(yōu)勢,有效的減少了人工圖像分割的工作量,提高了腮腺占位性病變智能診斷的準確率。
放射治療是頭頸部腫瘤的重要治療手段,然而,不合理的放射治療計劃可能對頭頸部多個復(fù)雜的解剖結(jié)構(gòu)及器官造成不同程度的損傷,從而引發(fā)相關(guān)病理性變化,對射線敏感性組織或器官進行放射劑量保護非常關(guān)鍵。腮腺位于面?zhèn)确?經(jīng)常居于頭頸部腫瘤放療區(qū)域內(nèi),其腺體在射線作用后容易發(fā)生組織學(xué)及功能改變,因此頭頸部腫瘤放療時合理設(shè)計放療計劃對盡可能保護腮腺正常腺體的功能至關(guān)重要?;谏疃葘W(xué)習(xí)的圖像引導(dǎo)放射治療可使臨床放療計劃的精確性增高[27]。Barateau團隊[28]發(fā)現(xiàn)錐形束計算機斷層掃描圖像可用于頭頸部腫瘤放療每日放射劑量的監(jiān)測,以評估腮腺結(jié)構(gòu)變化并指導(dǎo)放射劑量的調(diào)整,該工作通過對比基于生成對抗網(wǎng)絡(luò)的深度學(xué)習(xí)方法執(zhí)行劑量計算的準確性與現(xiàn)有的其他劑量計算方法來評估深度學(xué)習(xí)方法的放射自適應(yīng)性能,表明深度學(xué)習(xí)方法可以在頭頸部腫瘤放射治療過程中監(jiān)測腮腺的放射劑量并可及時進行治療計劃的調(diào)整。杜克大學(xué)Li等[29]研發(fā)了一種基于深度學(xué)習(xí)的AI技術(shù),該技術(shù)采用cGAN 的AI系統(tǒng)可以生成頭頸部放射治療計劃,并可智能控制具有可接受的放射劑量,這種AI系統(tǒng)在放療預(yù)先決策和實時規(guī)劃中具有較好的臨床應(yīng)用潛力。
對放射后組織器官的并發(fā)癥預(yù)測有助于臨床決策及規(guī)劃個性化治療。賓西法尼亞大學(xué)Men等[30]提出了一種三維剩余卷積神經(jīng)網(wǎng)絡(luò)(3D residual CNN,3D rCNN)和放射治療數(shù)據(jù)相結(jié)合的腮腺功能受損導(dǎo)致口干癥的混合預(yù)測模型,該工作將CT圖像、三維放射劑量分布以及腮腺和頜下腺輪廓同時輸入,以口干癥的預(yù)測作為輸出進行模型訓(xùn)練,結(jié)果顯示模型表現(xiàn)出較好的智能預(yù)測性能,提示放射劑量分布是預(yù)測口干癥的關(guān)鍵因素,與傳統(tǒng)的邏輯回歸預(yù)測模型相比,該智能模型表現(xiàn)出較好的放射后口干癥的預(yù)測準確率,驗證了該AI模型可用于指導(dǎo)放射治療并降低放射并發(fā)癥的發(fā)生。Fanizzi等[31]將深度學(xué)習(xí)應(yīng)用到放射組學(xué)中,利用通過預(yù)先訓(xùn)練的AlexNet從治療前腮腺CT圖像中提取放射組特征、從輻射劑量圖中提取劑量特征并收集放射治療開始前的臨床特征,綜合三種數(shù)據(jù)預(yù)測口咽癌患者放射治療后3個月的口干癥風(fēng)險。支持向量機分類器首先在上述三個子集上進行訓(xùn)練,綜合所有特征類型后進行聯(lián)合訓(xùn)練,結(jié)果顯示在放射學(xué)特征獨立試驗中模型的智能預(yù)測準確性較好,表明利用預(yù)先訓(xùn)練的深度學(xué)習(xí)網(wǎng)絡(luò)僅用作特征提取器時并不需要訓(xùn)練階段,可以大大減少計算時間,且深度學(xué)習(xí)技術(shù)結(jié)合放射組學(xué)所建立起的模型在小樣本的數(shù)據(jù)集可獲得較高的泛化性。
基于深度學(xué)習(xí)的人工智能技術(shù)在腮腺腫瘤智能診治領(lǐng)域中取得的較大進展,包括筆者在內(nèi)的國內(nèi)外諸多醫(yī)療機構(gòu)及團隊圍繞該領(lǐng)域開展了技術(shù)攻關(guān),一些已報道的智能腮腺腫瘤自動疾病診療系統(tǒng)性能穩(wěn)定,診斷精確,能夠模擬甚至高于經(jīng)驗豐富專業(yè)人員的診斷水平,充分顯示了智慧醫(yī)療的潛力及良好前景。然而,大數(shù)據(jù)集的建立是形成可靠智能深度學(xué)習(xí)模型的關(guān)鍵,出于對患者信息的保護和醫(yī)學(xué)數(shù)據(jù)處理的困難,易導(dǎo)致深度學(xué)習(xí)所需的數(shù)據(jù)集較小且缺乏平衡,腮腺及相關(guān)腫瘤性病變的深度學(xué)習(xí)也面臨這一瓶頸。因此,盡管深度學(xué)習(xí)模型性能在不斷提高,但想要建立強魯棒性和泛化能力的系統(tǒng)仍必須獲得大規(guī)模多模態(tài)高質(zhì)量標注數(shù)據(jù)集的支持,如何在標注數(shù)據(jù)集數(shù)量不足的情況下建立高性能深度學(xué)習(xí)模型在未來的智能化系統(tǒng)構(gòu)建中極為關(guān)鍵。目前聚焦的關(guān)注點主要包括提倡更有效的醫(yī)工結(jié)合,構(gòu)建高質(zhì)量數(shù)據(jù)集以及努力提高算法及算力,這將進一步推動人工智能技術(shù)的深入研究及臨床應(yīng)用實踐。