錢軍 馬芮 曲妍 鄧少純 段瑤 左飛飛 王亞杰 毋育偉
1.北京大學(xué)口腔醫(yī)學(xué)院·口腔醫(yī)院第二門診部國(guó)家口腔疾病臨床醫(yī)學(xué)研究中心口腔數(shù)字化醫(yī)療技術(shù)和材料國(guó)家工程實(shí)驗(yàn)室,北京 100020;2.首都醫(yī)科大學(xué)附屬北京康復(fù)醫(yī)院口腔科,北京 100144;3.北京朗視儀器股份有限公司,北京 100084
口腔臨床工作中常見(jiàn)的慢性根尖周炎在組織學(xué)上主要表現(xiàn)為炎癥細(xì)胞浸潤(rùn)及牙槽骨破壞,在影像學(xué)上主要表現(xiàn)為根尖周出現(xiàn)透射影像。完善的臨床檢查及高分辨率的影像學(xué)檢查是其治療計(jì)劃的重要診斷工具,在根尖片、曲面體層全景片和錐形束計(jì)算機(jī)斷層掃描(cone-beam computed tomography,CBCT)上可檢測(cè)到慢性根尖周炎。由于根尖片的成本低及輻射劑量小的特點(diǎn),目前在臨床中應(yīng)用最廣泛。但與傳統(tǒng)的根尖片和全景片相比,CBCT不受拍攝區(qū)域牙槽骨及牙齒結(jié)構(gòu)影像失真和疊加的影響,顯著增加了根管間、根尖病變及周圍解剖結(jié)構(gòu)的三維可視化[1]。
Meta 分析指出,根尖片的靈敏度和特異性(0.70、0.78)明顯低于CBCT成像的靈敏度和特異性(0.95、0.88)[2]。近年來(lái)深度學(xué)習(xí)(deep learning)作為人工智能(artificial intelligence)的一個(gè)分支,在臨床許多醫(yī)學(xué)領(lǐng)域已經(jīng)達(dá)到甚至超過(guò)臨床專家的水平[3]。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network)是其代表算法之一,它主要從圖像中抽象出高度復(fù)雜的特征,進(jìn)而構(gòu)建一個(gè)自動(dòng)識(shí)別模式的神經(jīng)網(wǎng)絡(luò)以進(jìn)行自動(dòng)判斷和分類[4]。在口腔醫(yī)學(xué)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)X 線片主要應(yīng)用于檢測(cè)齲齒病損部位、評(píng)估牙根形態(tài)及牙周骨質(zhì)缺損等研究,但目前仍處于初級(jí)的階段[2]。本文旨在探討基于卷積神經(jīng)網(wǎng)絡(luò)算法的計(jì)算機(jī)輔助診斷系統(tǒng)在CBCT 影像中檢測(cè)慢性根尖周炎的診斷應(yīng)用。
收集北京大學(xué)口腔醫(yī)院第二門診部2017 年1月—2021 年12 月罹患單根牙慢性根尖周炎的CBCT影像,總計(jì)49例患者55個(gè)樣本。
納入標(biāo)準(zhǔn):1)均采用HiRes3D 型CBCT 儀器(北京朗視儀器股份有限公司)拍攝;2)技師的拍攝操作經(jīng)過(guò)統(tǒng)一培訓(xùn);3)設(shè)置相同的CBCT 拍攝參數(shù):坐姿拍攝,100 kV,4 mA,360°旋轉(zhuǎn),拍攝持續(xù)時(shí)間12 s。CBCT 設(shè)備可以提供多個(gè)視野,像素間距0.125 mm×0.125 mm×0.125 mm,分辨率為640 px×640 px×640 px;像素間距0.2 mm×0.2 mm×0.2 mm,分辨率為800 px×800 px×250 px;像素間距0.25 mm×0.25 mm×0.25 mm,分辨率為640 px×640 px×400 px,醫(yī)生可以根據(jù)具體情況選擇最佳掃描方式;4)單根單病變(含單根牙及多根牙的單根病變)。
排除標(biāo)準(zhǔn):1)病變同時(shí)累及多根(單顆牙或多顆牙);2)病變累及周邊結(jié)構(gòu)且無(wú)法區(qū)別病變界限,如:根分叉區(qū)、牙槽嵴頂、大面積骨皮質(zhì)破壞、其他鄰近解剖結(jié)構(gòu)(上頜竇、下頜神經(jīng)管、鼻腭管、頦孔);3)圖像質(zhì)量不佳或偽影過(guò)大(含金屬偽影運(yùn)動(dòng)偽影或軟組織對(duì)比度差)。
1.2.1 學(xué)習(xí)樣本的手動(dòng)逐層分割 從49 例CBCT 原始數(shù)據(jù)中隨機(jī)抽取6個(gè)根尖病變,慢性根尖周炎的CBCT 數(shù)據(jù)以DICOM 格式導(dǎo)出,圖像由4 名主治醫(yī)生先后2 次(間隔2 周)記錄頜骨病變的位置并對(duì)于慢性根尖周炎病變區(qū)域進(jìn)行識(shí)別同時(shí)使用Ma‐terialize Mimics Medical 軟件進(jìn)行手動(dòng)逐層分割(圖1)。在Statistical Package for Social Science 軟件(SPSS V16,SPSS 公司,美國(guó))用組內(nèi)相關(guān)系數(shù)(intraclass correlation coefficiets,ICC)評(píng)估重復(fù)測(cè)量和測(cè)量者之間的一致性。
1.2.2 數(shù)據(jù)預(yù)處理 1)為了提高網(wǎng)絡(luò)性能,加快訓(xùn)練速度,原始DICOM 數(shù)據(jù)需要進(jìn)行預(yù)處理后再用于訓(xùn)練。使用的預(yù)處理包括數(shù)據(jù)歸一化,數(shù)據(jù)增強(qiáng)(旋轉(zhuǎn)、平移、添加噪聲) 等。2) 按照80%、10%、10%將數(shù)據(jù)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,49 例患者CBCT 數(shù)據(jù)作為訓(xùn)練集,測(cè)試集和驗(yàn)證集各5例CBCT數(shù)據(jù)。
1.2.3 使用3D U-Net網(wǎng)絡(luò)識(shí)別根尖病變 網(wǎng)絡(luò)的總體結(jié)構(gòu)如圖2 所示,似U 型的網(wǎng)絡(luò)由編碼器(en‐coder)和解碼器(decoder)組成。U 型左側(cè)為編碼器,編碼器由3 個(gè)模塊組成,每個(gè)模塊經(jīng)由2 個(gè)卷積層和1個(gè)池化層組成;每次卷積使用1個(gè)3×3×3 的卷積核,并且每次卷積之后經(jīng)過(guò)1 個(gè)ReLU 激活函數(shù)。U 型右側(cè)為解碼器,同樣是由3 個(gè)模塊組成;每個(gè)模塊先做1 次反向卷積,得到1 個(gè)高分辨率的特征圖,再將高分辨率的特征圖與左側(cè)編碼器部分對(duì)應(yīng)的低分辨率的特征圖結(jié)合;之后使用3×3×3 的卷積核做2 次卷積;最后一層的卷積是用1 個(gè)1×1×1 的卷積核實(shí)現(xiàn)的。除此之外,為了更好地訓(xùn)練網(wǎng)絡(luò)并提升網(wǎng)絡(luò)性能,使用深監(jiān)督(deep supervision)的技術(shù)在網(wǎng)絡(luò)右側(cè)的隱藏層中增加了一個(gè)輔助分類器,這些輔助分類器作為網(wǎng)絡(luò)的分支對(duì)主網(wǎng)絡(luò)進(jìn)行監(jiān)督。使用Dice Loss+Cross Entro‐py Loss 作為損失函數(shù),結(jié)合EarlyStop 和可調(diào)節(jié)學(xué)習(xí)率對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
1.3.1 觀察者一致性檢驗(yàn) ICC 用于評(píng)估檢查者之間的一致性和可靠性,隨機(jī)選取6例樣本以確定觀察者的一致性,觀察者內(nèi)部一致性由同一研究者在第一輪觀察后2周進(jìn)行重復(fù)分割計(jì)算。
1.3.2 人工智能分割效果的評(píng)估 使用交聯(lián)比(in‐tersection over union,IOU)、Dice 系數(shù)(Dice)和像素精確度(pixel accuracy,PA)3 個(gè)指標(biāo)對(duì)網(wǎng)絡(luò)進(jìn)行評(píng)估。
其中:Ground 是臨床專家標(biāo)注的病變金標(biāo)準(zhǔn)區(qū)域;Predict為人工智能預(yù)測(cè)病變區(qū)域。IOU即為真實(shí)病變區(qū)域與預(yù)測(cè)病變區(qū)域之間的重合程度,IOU值越高代表重合程度越高;IOU值越低代表重合程度越低。
其中:Ground 是臨床專家標(biāo)注的病變金標(biāo)準(zhǔn)區(qū)域;Predict為病變?nèi)斯ぶ悄茴A(yù)測(cè)病變區(qū)域。Dice的取值范圍為[0,1],Dice 越接近1,病變?nèi)斯ぶ悄茴A(yù)測(cè)病變區(qū)域的結(jié)果與臨床專家標(biāo)注的病變金標(biāo)準(zhǔn)區(qū)域就愈加重合。
其中:TP(true positive)代表預(yù)測(cè)值為1,真實(shí)值為1 的部分;TN(true negative)代表預(yù)測(cè)值為0,真實(shí)值為0的部分;FP(false positive)代表預(yù)測(cè)值為1,真實(shí)值為0 的部分;FN(false nega‐tive)表預(yù)測(cè)值為0,真實(shí)值為1 的部分。PA 指的是人工智能預(yù)測(cè)病變正確的像素占圖像總像素的比例,該比值越接近1,說(shuō)明網(wǎng)絡(luò)預(yù)測(cè)的準(zhǔn)確性越高。
測(cè)量者之間一致性的ICC 值為0.994(95%CI:0.986~0.998),測(cè)量者1 的自身重復(fù)測(cè)量的ICC 值為0.999(95%CI:0.990~1.000),測(cè)量者2 的重復(fù)測(cè)量ICC 值為0.995(95%CI:0.968~0.999),測(cè)量者3的重復(fù)測(cè)量ICC值為1(95%CI:1.000~1.000),測(cè)量者4的重復(fù)測(cè)量ICC值為0.999(95%CI:0.995~1.000)。
本研究中測(cè)量者的一致性檢驗(yàn)ICC 相關(guān)系數(shù)值均>0.9,這些數(shù)值提示4 名醫(yī)生的重復(fù)測(cè)量結(jié)果的差異無(wú)統(tǒng)計(jì)學(xué)意義。
神經(jīng)網(wǎng)絡(luò)在測(cè)試集的結(jié)果如下:IOU為92.18%,PA為99.27%,Dice為95.93%。
神經(jīng)網(wǎng)絡(luò)在236輪迭代后停止,網(wǎng)絡(luò)訓(xùn)練集和驗(yàn)證集的各指標(biāo)都高于90%;并且訓(xùn)練集和驗(yàn)證集各指標(biāo)提升趨勢(shì)相似,均在前100 輪快速提升,之后趨于平穩(wěn)(圖3~6)。
隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的應(yīng)用,人工智能在醫(yī)學(xué)領(lǐng)域中的應(yīng)用正加速發(fā)展,而在口腔醫(yī)學(xué)中的多個(gè)領(lǐng)域都有一定的研究應(yīng)用,例如使用人工智能自動(dòng)分類影像數(shù)據(jù)中的牙齒類型[5],分類計(jì)數(shù)下頜第一磨牙遠(yuǎn)中的根數(shù)目[6],利用深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別影像中的鄰面齲壞[7],檢測(cè)曲面體層片中的牙周骨質(zhì)的缺損[8],利用人工智能檢測(cè)CBCT中的根折[9]等。利用卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)成釉細(xì)胞瘤和牙源性角化囊腫,其一大特點(diǎn)是較臨床醫(yī)師的人工鑒別來(lái)說(shuō)能節(jié)省更多時(shí)間[10]。對(duì)于那些系統(tǒng)病在口腔中的表現(xiàn),也可用人工智能進(jìn)行檢測(cè),包括骨質(zhì)疏松癥[11]和上頜竇炎[12]等。Ekert 等[13]使用卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)了曲面體層中的根尖周病損,其系統(tǒng)具有檢測(cè)出根尖周病損的能力,但其敏感性仍有待提高。
一般深度學(xué)習(xí)網(wǎng)絡(luò)需要大量數(shù)以千計(jì)的標(biāo)記數(shù)據(jù)用于訓(xùn)練,而U-NET 可更高效地利用已有的標(biāo)記數(shù)據(jù)進(jìn)行自動(dòng)分割和學(xué)習(xí)[14],這與本研究結(jié)果相一致。本研究選取了49 例患者的55 個(gè)數(shù)據(jù),人工智能深度學(xué)習(xí)算法的U-NET 可以較好地檢測(cè)出慢性根尖周炎根尖區(qū)病變,網(wǎng)絡(luò)在測(cè)試集的IOU為92.18%,Dice為95.93%,PA為99.27%,這些指標(biāo)表示網(wǎng)絡(luò)在測(cè)試集性能較優(yōu),明顯優(yōu)于利用深度學(xué)習(xí)算法監(jiān)測(cè)CBCT中根尖周低密度影的研究[15],其Dice為52%(其靈敏度為0.93,特異性為0.88)。人工智能在影像診斷中的誤差較小,與其深度學(xué)習(xí)算法關(guān)系密切。深度學(xué)習(xí)算法的病變識(shí)別能力強(qiáng)于一般算法[16-17],其可以識(shí)別更加豐富的圖像特征,包括人眼可識(shí)別的密度、形狀、紋理等特征以及肉眼無(wú)法感知的一些圖像特征[16-17],因此深度學(xué)習(xí)對(duì)CBCT 影像的解讀具有一定的可靠性,基于本研究深度學(xué)習(xí)方法的人工智能系統(tǒng),為下一步檢測(cè)CBCT圖像中的慢性根尖周炎奠定了基礎(chǔ)。本文在收集數(shù)據(jù)集時(shí)納入了不同視野及層厚的CBCT影像,更加符合數(shù)據(jù)在樣本空間的分布情況,有利于增強(qiáng)算法的泛化能力,為今后算法應(yīng)用于實(shí)際環(huán)境中提供依據(jù),但同時(shí)不同視野及層厚的CBCT影像也增加了網(wǎng)絡(luò)的學(xué)習(xí)難度,降低了分割的精度,為進(jìn)一步提高人工智能算法學(xué)習(xí)效果,將在后續(xù)的研究中增大樣本量。
CBCT影像可以在三維方向上觀測(cè)慢性根尖周炎的病損大小,對(duì)病損實(shí)際范圍及毗鄰結(jié)構(gòu)的識(shí)別更加清晰準(zhǔn)確,這較根尖片以及曲面體層全景片具有明顯優(yōu)勢(shì),目前的CBCT成像技術(shù)尚存在一些局限性,比如:1)影像中高密度結(jié)構(gòu)會(huì)因射線散射產(chǎn)生偽影(如根充物,高密度充填物,修復(fù)體或鄰牙種植體);2)軟組織顯像對(duì)比度差,因而對(duì)部分病例來(lái)說(shuō),尤其是慢性根尖周炎累及骨皮質(zhì),存在無(wú)法區(qū)別病變界限的情況時(shí),圖像分割可能存在誤差。由于以上原因,CBCT對(duì)于部分病例的應(yīng)用尚存在局限性。
同時(shí)在本研究的過(guò)程中發(fā)現(xiàn),人工智能在識(shí)別根尖周低密度影時(shí),受到一些因素的影響,譬如慢性根尖周炎病變累及骨皮質(zhì)骨缺損范圍較大而無(wú)法區(qū)別病變界限時(shí),頰舌側(cè)骨板不完整會(huì)影響人工智能識(shí)別軟組織與骨的邊界,牙周牙髓聯(lián)合病變表現(xiàn)的牙槽骨吸收與慢性根尖周炎形成的低密度影,鄰近根尖病變的正常低密度影像結(jié)構(gòu)(如切牙管、頦孔、下頜管、上頜竇等),累及多顆牙的大范圍病變,有根充物的牙根,牙中牙、未閉合的根尖孔等。同時(shí),為了增加人工智能的準(zhǔn)確性,本研究還需增加樣本量、合并解剖知識(shí)于人工智能的深度學(xué)習(xí)設(shè)計(jì)中。
利益沖突聲明:作者聲明本文無(wú)利益沖突。