趙從義,姚旭峰
(1.上海理工大學(xué)健康科學(xué)與工程學(xué)院,上海 200082;2.上海健康醫(yī)學(xué)院醫(yī)學(xué)影像學(xué)院,上海 201308)
頭影測(cè)量分析(Cephalometric Analysis)是對(duì)人類頭骨牙齒和骨骼關(guān)系分析的一種方法。牙醫(yī)、正畸醫(yī)生和口腔頜面外科醫(yī)師經(jīng)常將其用作輔助診療的工具[1]。頭影測(cè)量分析被廣泛用于口腔正畸臨床診斷、矯治設(shè)計(jì)、療效評(píng)價(jià)、頭面部結(jié)構(gòu)研究和兒童生長(zhǎng)發(fā)育評(píng)估等方面[2]。頭影測(cè)量分析需先從面部側(cè)面拍攝X 光圖像,然后標(biāo)注出頭部側(cè)位X 射線圖像中的解剖標(biāo)志點(diǎn),再測(cè)量和計(jì)算這些解剖標(biāo)志點(diǎn)之間的角度、距離等,根據(jù)這些測(cè)量值分析與評(píng)估口腔解剖結(jié)構(gòu)類型的異常,從而擬定治療計(jì)劃。在當(dāng)代正畸診斷和治療計(jì)劃中,識(shí)別標(biāo)志點(diǎn)是必不可少的步驟。
截至目前,基于頭顱側(cè)位片目測(cè)評(píng)估解剖標(biāo)志點(diǎn)仍然是一項(xiàng)困難的任務(wù),需要由受過專門培訓(xùn)的臨床醫(yī)生進(jìn)行手動(dòng)測(cè)量,但是手動(dòng)測(cè)量過程經(jīng)常導(dǎo)致測(cè)量誤差[3]。這種人工測(cè)量十分耗時(shí),口腔專家平均需要15~20min 用以處理每個(gè)單獨(dú)的頭顱側(cè)位片[4]。由于頭顱側(cè)位片手動(dòng)測(cè)量標(biāo)志點(diǎn)經(jīng)常出現(xiàn)誤差且非常耗費(fèi)時(shí)間,大量國(guó)內(nèi)外學(xué)者開始研究全自動(dòng)頭影測(cè)量標(biāo)志點(diǎn)識(shí)別方法,它將減輕常規(guī)臨床服務(wù)的工作量,并為正畸醫(yī)生節(jié)約更多時(shí)間以制定最佳治療計(jì)劃。
自20 世紀(jì)90 年代以來,越來越多的學(xué)者提出用于標(biāo)志點(diǎn)定位識(shí)別的自動(dòng)化框架方法,它們大致可分為以下幾類:基于常規(guī)圖像處理的方法、基于模板匹配及統(tǒng)計(jì)的方法、基于機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法。目前,牙科臨床依舊采用手動(dòng)標(biāo)注頭影測(cè)量分析標(biāo)志點(diǎn),自動(dòng)化識(shí)別方法并未應(yīng)用到臨床,這種情況迫切需要自動(dòng)化技術(shù)應(yīng)用到牙科臨床。因此,本文對(duì)該領(lǐng)域相關(guān)研究進(jìn)行了全面系統(tǒng)的回顧,主要介紹基于常規(guī)圖像處理方法、模板匹配及統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)的頭影測(cè)量分析標(biāo)志點(diǎn)自動(dòng)識(shí)別算法進(jìn)展,并對(duì)每種方法優(yōu)缺點(diǎn)進(jìn)行討論。
圖像處理技術(shù)起源于20 世紀(jì)60 年代,圖像處理技術(shù)主要包括圖像增強(qiáng)、圖像分割、圖像邊緣檢測(cè)與提取等。標(biāo)志點(diǎn)通常位于頭顱邊緣輪廓上,因此標(biāo)志點(diǎn)的自動(dòng)識(shí)別以及定位在最早期是采用基于圖像處理技術(shù)的邊緣檢測(cè)算法實(shí)現(xiàn)。常規(guī)圖像處理標(biāo)志點(diǎn)自動(dòng)識(shí)別算法性能由標(biāo)志點(diǎn)的精度決定,標(biāo)志點(diǎn)的精度描述為真實(shí)值和估計(jì)值之間的歐幾里得距離平均誤差加標(biāo)準(zhǔn)差。
如表1 所示,Levy-Mandel 等[5]是最早研究標(biāo)志點(diǎn)自動(dòng)識(shí)別算法的學(xué)者,其基本思想是模擬人工操作,在提取相關(guān)邊緣后利用具有典型顱面結(jié)構(gòu)形狀先驗(yàn)知識(shí)的算法對(duì)檢測(cè)到的線條按預(yù)定順序進(jìn)行跟蹤。原始圖像先用濾波算子進(jìn)行處理,然后用邊緣檢測(cè)器進(jìn)行處理。標(biāo)志點(diǎn)的位置是由基于一組預(yù)定義的線、交叉點(diǎn)和外部邊界的幾何特性確定。在此基礎(chǔ)上,Parthasarathy 等[6]通過加入分辨率金字塔縮短識(shí)別時(shí)間,該算法在較小尺寸、較低分辨率的圖像上定位感興趣的特征,在5 張X 射線圖像上進(jìn)行測(cè)試,能夠以2 mm 的精度定位9 個(gè)標(biāo)志點(diǎn)中的4 個(gè)。Tong 等[7]改進(jìn)了Parthasarathy 的工作,引入分辨率金字塔,對(duì)圖像進(jìn)行中值濾波,并去除噪聲。在對(duì)圖像應(yīng)用邊緣增強(qiáng)算子后,跟蹤頜骨和前臉的骨骼輪廓,采用閾值化和邊緣增強(qiáng)相結(jié)合的方法提取人臉正面的膚色輪廓,然后利用這些信息確定標(biāo)志點(diǎn)的位置。Tong 等[7]將標(biāo)志點(diǎn)的數(shù)量增加到26 個(gè),對(duì)5 幅圖像的實(shí)驗(yàn)表明,40%的標(biāo)志點(diǎn)誤差在1 mm以內(nèi),70%的標(biāo)志點(diǎn)誤差在2 mm 以內(nèi),95%的標(biāo)志點(diǎn)誤差在5 mm 以內(nèi)。通過以上常規(guī)圖像處理方法比較,在邊緣檢測(cè)后加入分辨率金字塔提高了標(biāo)志點(diǎn)檢測(cè)精度及數(shù)量,原因是提取到了更多的底層特征。
Davis等[8]在黑板框架中開發(fā)了一個(gè)回憶算法,利用黑板體系結(jié)構(gòu)和模型的集成系統(tǒng)中的多個(gè)知識(shí)源,黑板和任務(wù)控制模塊允許特定的基于知識(shí)的模塊對(duì)黑板上的可用信息進(jìn)行標(biāo)志點(diǎn)定位。該算法定位了19 個(gè)標(biāo)志點(diǎn),在10張X 射線圖像上對(duì)該算法進(jìn)行了測(cè)試,最終結(jié)果顯示,63%的標(biāo)志點(diǎn)誤差在1mm 以內(nèi),70%的標(biāo)志點(diǎn)誤差在2mm以內(nèi)。Ren 等[9]提取了嵌入先驗(yàn)知識(shí)的顱骨輪廓,根據(jù)X線頭影測(cè)量照片中灰度和特征點(diǎn)的分布情況,采用基于多層次知識(shí)的圖像層方法。在有10 個(gè)樣本的實(shí)驗(yàn)中,有24個(gè)點(diǎn)被定位,誤差在1 mm 以內(nèi),其中19 個(gè)點(diǎn)誤差在0.5 mm 以內(nèi)。He 等[10]首先采用中值濾波去除噪聲,隨后采用圖像閾值進(jìn)行輪廓提取,最后采用區(qū)域生長(zhǎng)與曲線擬合進(jìn)行標(biāo)志點(diǎn)定位。對(duì)10 張X 射線圖像進(jìn)行測(cè)試,最終確定20 個(gè)標(biāo)志點(diǎn),50%的標(biāo)志點(diǎn)在1 mm 范圍內(nèi)。以上方法通過先驗(yàn)知識(shí)得到相應(yīng)模型,再根據(jù)模型得到標(biāo)志點(diǎn)位置,提高了標(biāo)志點(diǎn)檢測(cè)數(shù)量及精度,為后續(xù)模板匹配及統(tǒng)計(jì)學(xué)方法運(yùn)用打下了基礎(chǔ)。
Table 1 Summary of common image processing methods for automatic identification of landmarks表1 標(biāo)志點(diǎn)自動(dòng)識(shí)別常規(guī)圖像處理方法匯總
常規(guī)圖像處理方法的優(yōu)勢(shì)在于并不需要很多數(shù)據(jù)量,但是缺點(diǎn)也很明顯,常規(guī)圖像處理方法識(shí)別的標(biāo)志點(diǎn)不多,并且需要通過牙科醫(yī)生及學(xué)者的先驗(yàn)知識(shí),提取關(guān)于標(biāo)志點(diǎn)位置的輪廓,并基于先驗(yàn)知識(shí)識(shí)別標(biāo)志點(diǎn),但是這些方法并不可靠,因?yàn)樗鼈兊男阅芘c輸入圖像的質(zhì)量有很大關(guān)系,并且找不到一些不在任何特征輪廓上的標(biāo)志點(diǎn),因此常規(guī)圖像處理方法不適用于牙科臨床。
在20 世紀(jì)90 年代初期,基于圖像處理方法產(chǎn)生的問題模板匹配及統(tǒng)計(jì)學(xué)方法引起了學(xué)者的關(guān)注。通過訓(xùn)練出的模板,可以快速定位到標(biāo)志點(diǎn)所在區(qū)域,再通過統(tǒng)計(jì)學(xué)方法識(shí)別出標(biāo)志點(diǎn)位置。
常規(guī)圖像處理方法之后,模板匹配技術(shù)首次應(yīng)用于標(biāo)志點(diǎn)識(shí)別。如表2所示,Cardillo 等[12]使用數(shù)學(xué)建模減少標(biāo)志點(diǎn)的搜索區(qū)域,然后應(yīng)用基于數(shù)學(xué)形態(tài)學(xué)的模板匹配技術(shù)確定標(biāo)志點(diǎn)的確切位置。該算法在40 幅X 射線圖像上進(jìn)行了測(cè)試,并定位了20 個(gè)標(biāo)志點(diǎn),85%的標(biāo)志點(diǎn)精度在2 mm 之內(nèi),5%的標(biāo)志點(diǎn)精度在2~5 mm 之間,10%的標(biāo)志點(diǎn)精度在5 mm 以外。Rudolph 等[13]利用空間光譜學(xué)知識(shí)建立統(tǒng)計(jì)灰色模型,該模型識(shí)別了15 個(gè)標(biāo)志點(diǎn),所識(shí)別標(biāo)志點(diǎn)平均誤差在3.1 mm 以內(nèi)。主動(dòng)形狀模型(Active shape models,ASM)[14]首先在Hutton 等[15]的研究中被用作標(biāo)志點(diǎn)檢測(cè),該算法在63 張圖像上進(jìn)行了測(cè)試,識(shí)別了16個(gè)標(biāo)志點(diǎn),13%的標(biāo)志點(diǎn)精度位于1 mm 以內(nèi),35%的標(biāo)志點(diǎn)精度位于2 mm 以內(nèi),74%的標(biāo)志點(diǎn)精度位于5 mm 以內(nèi)。ASM 的應(yīng)用大幅度提高了標(biāo)志點(diǎn)識(shí)別精度,可以看出良好的模型能極大提高標(biāo)志點(diǎn)檢測(cè)精度。
模板匹配技術(shù)非常依賴模型,隨后模板匹配技術(shù)與統(tǒng)計(jì)學(xué)的組合方法被提出,Romaniuk 等[16-17]使用線性和非線性模型定位標(biāo)志點(diǎn),通過3 種統(tǒng)計(jì)方法進(jìn)行估計(jì):剛性配準(zhǔn)、基于主成成分分析(Principal Component Analysis,PCA)的線性方法和基于核PCA 的非線性模型。最佳方法的平均誤差為3.3 mm,精度也很高。在診斷中,正畸醫(yī)生通常會(huì)追蹤顱面結(jié)構(gòu)以進(jìn)行分析,但是對(duì)于某些梯度較低或反轉(zhuǎn)的局部配置,單純使用圖像處理技術(shù)不可避免地會(huì)失敗。Romaniuk 等[18]提出一種類型最短路徑的區(qū)域方法,以結(jié)合魯棒性和較低的算法成本解決這些問題,但他的方法只能提取顱外輪廓。Yue 等[19]提出一種基于主成分分析的灰度圖像塊形狀模型的組合模型,在模型訓(xùn)練中,選取12 個(gè)標(biāo)志點(diǎn)作為參考點(diǎn),根據(jù)解剖學(xué)知識(shí)將每個(gè)訓(xùn)練形狀劃分為10 個(gè)區(qū)域,利用主成分分析表征區(qū)域形狀變化和每個(gè)特征點(diǎn)的統(tǒng)計(jì)灰度輪廓。在輸入圖像上定位特征點(diǎn)是一個(gè)被分為兩個(gè)階段的過程,首先通過圖像處理和模式匹配技術(shù)識(shí)別參考標(biāo)志點(diǎn),對(duì)輸入圖像進(jìn)行形狀分割,然后針對(duì)每個(gè)區(qū)域利用改進(jìn)的主動(dòng)形狀模型對(duì)其特征點(diǎn)進(jìn)行定位。根據(jù)先驗(yàn)知識(shí)將定位的點(diǎn)與細(xì)分曲線連接起來,就可以勾畫出所有的顱面解剖結(jié)構(gòu),允許用戶以多種不同的交互方式修改結(jié)果。該模型對(duì)12 個(gè)解剖標(biāo)志點(diǎn)進(jìn)行檢測(cè),在2 mm 和4 mm 范圍內(nèi)的標(biāo)志點(diǎn)檢測(cè)成功率分別為71%和88%。Romaniuk[18]和Yue[19]都采用了組合方法,但Yue 提出的方法精度更高,區(qū)別在于前者只采用了簡(jiǎn)單的線性與非線性模型,雖然統(tǒng)計(jì)學(xué)方法提高了精度,但組合方法也非常依賴模板模型以提高精度。
Table 2 Summary of statistical template methods for automatic identification of landmarks表2 標(biāo)志點(diǎn)自動(dòng)識(shí)別統(tǒng)計(jì)模板方法匯總
可以看出,雖然模板匹配方法加上統(tǒng)計(jì)學(xué)的方法使標(biāo)志點(diǎn)識(shí)別精度大幅提高,基于模型的方法產(chǎn)生的模型可以檢測(cè)最可能的區(qū)域,組合方法考慮了主動(dòng)形狀外觀模型并且通過與模板匹配相結(jié)合以細(xì)化頭影測(cè)量標(biāo)志點(diǎn),但是很難選擇有代表性的模板或形狀,并且不能很好地適應(yīng)單個(gè)標(biāo)志點(diǎn)的噪聲和可變性。實(shí)際牙科臨床中,并不能通過一套固定的模板匹配方法及統(tǒng)計(jì)學(xué)方法識(shí)別不同患者的頭影測(cè)量標(biāo)志點(diǎn),不能很好地應(yīng)用于臨床。
近年來,利用機(jī)器學(xué)習(xí)方法在射線圖像中自動(dòng)檢測(cè)標(biāo)志點(diǎn)方面取得了重大進(jìn)展[20-23]。2014 年與2015 年國(guó)際生物醫(yī)學(xué)影像國(guó)際研討會(huì)舉辦了兩屆自動(dòng)頭影測(cè)量X 射線標(biāo)志點(diǎn)檢測(cè)挑戰(zhàn)賽,許多學(xué)者提出了基于機(jī)器學(xué)習(xí)方法的標(biāo)志點(diǎn)檢測(cè)方法。如表3 所示,基于穩(wěn)健和準(zhǔn)確的形狀模型匹配結(jié)果使用隨機(jī)森林為每個(gè)標(biāo)志點(diǎn)的位置投票,然后使用統(tǒng)計(jì)形狀模型規(guī)范所有標(biāo)志點(diǎn)的投票,進(jìn)而識(shí)別標(biāo)志點(diǎn)的位置,這使得標(biāo)志點(diǎn)識(shí)別精度大幅提升。頭影測(cè)量挑戰(zhàn)賽中,評(píng)估算法性能的方法被提出,主要評(píng)估標(biāo)準(zhǔn)被稱為成功檢測(cè)率(Success Detection Rate,SDR)[24]。SDR 是從標(biāo)志點(diǎn)實(shí)際位置一定范圍內(nèi)的預(yù)測(cè)標(biāo)志點(diǎn)數(shù)量比率。
Ibragimov 等[25]開發(fā)了一種框架,利用類Haar 特征描述每個(gè)標(biāo)志點(diǎn)的強(qiáng)度外觀,并應(yīng)用隨機(jī)森林理論將這些特征組合成標(biāo)志點(diǎn)候選點(diǎn)檢測(cè)器,將具有最大探測(cè)器響應(yīng)的圖像像素作為標(biāo)志點(diǎn)候選點(diǎn)。為了選擇最佳候選點(diǎn),該框架依賴于標(biāo)志點(diǎn)之間的空間關(guān)系,通過高斯核密度估計(jì)建模并通過基于最優(yōu)分配的形狀表示找到最具代表性的標(biāo)志點(diǎn)。在100 張頭影測(cè)量圖像上訓(xùn)練該框架后,在測(cè)試集100 張圖像上進(jìn)行了驗(yàn)證,2 mm 以內(nèi)檢測(cè)成功率為72.7%,4mm 以內(nèi)檢測(cè)成功率87.68%。Chu 等[26]建立了一種基于隨機(jī)森林回歸的全自動(dòng)二維頭影X 線片標(biāo)志點(diǎn)檢測(cè)算法。其算法包括兩個(gè)階段:標(biāo)志點(diǎn)檢測(cè)階段和標(biāo)志點(diǎn)修改階段。為了修正未被正確檢測(cè)到的標(biāo)志點(diǎn)位置,建立了稀疏形狀合成模型。標(biāo)志點(diǎn)檢測(cè)階段可進(jìn)一步分為兩個(gè)步驟:基于X 射線圖的標(biāo)志點(diǎn)檢測(cè)器訓(xùn)練步驟和標(biāo)志點(diǎn)預(yù)測(cè)步驟。首先為每個(gè)標(biāo)志點(diǎn)訓(xùn)練一個(gè)單獨(dú)的基于X 射線圖的標(biāo)志點(diǎn)檢測(cè)器,確定標(biāo)志點(diǎn)位置后進(jìn)一步添加先前形狀約束以修改標(biāo)志點(diǎn)位置。對(duì)100 幅測(cè)試的頭影測(cè)量圖像的驗(yàn)證表明,該方法在100張測(cè)試數(shù)據(jù)集上2 mm 以內(nèi)檢測(cè)成功率為39.7%,4 mm 范圍內(nèi)檢測(cè)成功率為77.79%。Chen等[27]提出一種通過數(shù)據(jù)驅(qū)動(dòng)的圖像位移估計(jì)全自動(dòng)標(biāo)志點(diǎn)檢測(cè)方法,在訓(xùn)練中隨機(jī)抽樣了真實(shí)標(biāo)志點(diǎn)位置周圍的一組正方形圖像斑塊,這些斑塊的視覺特征和對(duì)標(biāo)志點(diǎn)的位移構(gòu)成了訓(xùn)練數(shù)據(jù)。采用一種數(shù)據(jù)驅(qū)動(dòng)的方法對(duì)每個(gè)斑塊標(biāo)志點(diǎn)位置進(jìn)行投票,將每一張選票視為一個(gè)小的高斯分布,并將它們聚合到一個(gè)概率圖中,概率圖的分布對(duì)應(yīng)檢測(cè)到的標(biāo)志點(diǎn)位置。該算法在100 張測(cè)試數(shù)據(jù)集上2 mm 以內(nèi)檢測(cè)成功率為43.8%,4 mm 范圍內(nèi)檢測(cè)成功率為78.42%。Mirzaian 等[28]提出一種基于隨機(jī)決策森林全局最優(yōu)圖形結(jié)構(gòu)的方法,該方法有兩個(gè)階段:訓(xùn)練階段和測(cè)試階段。在訓(xùn)練階段從一組以標(biāo)志點(diǎn)位置為中心的窗口中提取上述特征作為真正樣本,從一組不靠近標(biāo)志點(diǎn)位置隨機(jī)選擇的窗口中提取上述特征作為真負(fù)樣本。對(duì)于新圖像,采用圖片結(jié)構(gòu)算法對(duì)公式中的代價(jià)函數(shù)進(jìn)行全局優(yōu)化,將最小生成樹應(yīng)用于19 個(gè)標(biāo)志點(diǎn),并將權(quán)重設(shè)置為協(xié)方差值以解決標(biāo)志點(diǎn)自動(dòng)識(shí)別問題。在100 張測(cè)試數(shù)據(jù)集上,2 mm 以內(nèi)檢測(cè)成功率為58.2%,4 mm 范圍內(nèi)檢測(cè)成功率為80.68%。Vandaele 等[29]將問題處理為19 個(gè)獨(dú)立的二值像素分類問題。標(biāo)志點(diǎn)由16 × 16 的圖像塊表示,并以6 種不同的分辨率提取。隨后使用隨機(jī)森林作為像素分類器,在距標(biāo)志點(diǎn)最多4 mm 的半徑內(nèi)隨機(jī)提取訓(xùn)練像素。在預(yù)測(cè)階段,預(yù)測(cè)從標(biāo)志點(diǎn)可能分布中提取的多個(gè)像素位置的類別,然后返回被分類為正值且置信度最高的像素的中值位置作為最終標(biāo)志點(diǎn)位置。該方法在100 張測(cè)試數(shù)據(jù)集上2 mm 以內(nèi)檢測(cè)成功率為70.26%,4 mm 范圍內(nèi)檢測(cè)成功率為88.53%。Ibragimov 等[25]采用類Haar 特征可以更好地得到底層特征,通過以上機(jī)器學(xué)習(xí)方法的對(duì)比可以看出Ibragimov 等[25]的框架優(yōu)于其他競(jìng)爭(zhēng)對(duì)手的關(guān)鍵區(qū)別在于形狀模型,形狀模型的使用使得其識(shí)別精度更高。以上為2014 年挑戰(zhàn)賽提出的算法,可以看出在4 mm 范圍內(nèi)檢測(cè)成功率較高,但是在2 mm 以內(nèi)的檢測(cè)成功率并不高,難以應(yīng)用于臨床。
在2015年的挑戰(zhàn)賽中,更高精度的算法被提出。2015年挑戰(zhàn)賽冠軍算法由Lindner 等[30]提出,該算法基于約束局部模型框架中隨機(jī)森林回歸投票的全自動(dòng)標(biāo)志點(diǎn)檢測(cè)系統(tǒng)。在訓(xùn)練階段對(duì)每個(gè)標(biāo)志點(diǎn)訓(xùn)練一個(gè)隨機(jī)森林回歸器,每個(gè)圖像都用感興趣對(duì)象上的標(biāo)志點(diǎn)名稱進(jìn)行注釋。捕獲對(duì)象所有標(biāo)志點(diǎn)的圖像區(qū)域被重新采樣到標(biāo)準(zhǔn)化參考幀中。對(duì)于每個(gè)標(biāo)志點(diǎn)的斑塊進(jìn)行采樣,并在與參考幀中的真實(shí)位置相差較大的一組隨機(jī)位移處提取特征。訓(xùn)練一個(gè)回歸隨機(jī)森林函數(shù)預(yù)測(cè)標(biāo)志點(diǎn)最可能位置,每個(gè)樹存儲(chǔ)到達(dá)該樹所有訓(xùn)練樣本位移的平均偏移量和標(biāo)準(zhǔn)差,對(duì)于排列形狀,運(yùn)用PCA 基于圖像集合中的標(biāo)志點(diǎn)訓(xùn)練統(tǒng)計(jì)形狀模型。在檢測(cè)階段,給定對(duì)象姿態(tài)的初始估計(jì),圖像的感興趣區(qū)域被重新采樣到參考幀中,然后在特定范圍內(nèi)搜索每個(gè)估計(jì)的標(biāo)志點(diǎn)位置周圍區(qū)域并提取每個(gè)位置的相關(guān)特征值。這些參數(shù)將用于隨機(jī)森林回歸器投票選出累加器數(shù)組中的最佳位置,在累加器數(shù)組中,每棵樹都將獨(dú)立投票以預(yù)測(cè)標(biāo)志點(diǎn)位置。最終在150 張測(cè)試數(shù)據(jù)集下,在2 mm 精度范圍內(nèi),平均誤差為1.6~1.7 mm,檢測(cè)成功率為75%~85%。機(jī)器學(xué)習(xí)的標(biāo)志點(diǎn)識(shí)別大都采用隨機(jī)森林方法預(yù)測(cè)標(biāo)志點(diǎn)位置,但精度大幅依賴于統(tǒng)計(jì)形狀模型,從Ibragimov[25]與Lindner[30]的比較可以看出,采用的約束局部模型可以更好地適應(yīng)標(biāo)志點(diǎn)檢測(cè)任務(wù)。
Table 3 Summary of machine learning methods for automatic identification of landmarks表3 標(biāo)志點(diǎn)自動(dòng)識(shí)別機(jī)器學(xué)習(xí)方法匯總
可以看出,基于機(jī)器學(xué)習(xí)方法的標(biāo)志點(diǎn)自動(dòng)識(shí)別精度大幅提高,2 mm 范圍內(nèi)的檢測(cè)成功率達(dá)到75%以上,而且提高了形狀的可變性和抗噪性。但是機(jī)器學(xué)習(xí)方法需要大量的頭顱側(cè)位片才能提高準(zhǔn)確性,且通過機(jī)器學(xué)習(xí)方法的比較可以看出,機(jī)器學(xué)習(xí)方法對(duì)形狀模型要求很高,良好的形狀模型才能帶來更高的識(shí)別精度,并且機(jī)器學(xué)習(xí)方法在實(shí)際應(yīng)用中,識(shí)別性能不好,并不能用于牙科臨床。
深度學(xué)習(xí)技術(shù)是一種分層結(jié)構(gòu)模型,可以從原始圖像中提取獨(dú)特的特征,從而使端到端模型具有靈活性和健壯性。這些模型將顯著信息傳播到順序卷積層,同時(shí)探索它們之間的空間關(guān)系。目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域的基本任務(wù)之一,學(xué)術(shù)界對(duì)其已有近20 年的研究歷史。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,目標(biāo)檢測(cè)算法也從基于手工特征的傳統(tǒng)算法轉(zhuǎn)向了基于深度神經(jīng)網(wǎng)絡(luò)的檢測(cè)技術(shù)。從卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)到基于卷積神經(jīng)網(wǎng)絡(luò)的特征區(qū)域方法(Regions with CNN Features,RCNN),到基于快速卷積神經(jīng)網(wǎng)絡(luò)的特征區(qū)域方法(Fast/Faster Regions with CNN Features,F(xiàn)ast/Faster RCNN)、你只看一次方法(You-Only-Look-Once,YOLO)和單次多框檢測(cè)方法(Single Shot Multibox Detector,SSD)系列,這些算法在開放目標(biāo)檢測(cè)數(shù)據(jù)集上的檢測(cè)效果和性能都很出色。
最先將卷積神經(jīng)網(wǎng)絡(luò)用于醫(yī)學(xué)影像多標(biāo)志點(diǎn)定位的是Payer[31],探討了CNN 在醫(yī)學(xué)圖像數(shù)據(jù)多標(biāo)志點(diǎn)定位中的適用性,它有效地結(jié)合了精確的局部外觀和解剖標(biāo)志點(diǎn)位置?;谏疃葘W(xué)習(xí)的標(biāo)志點(diǎn)定位算法中主要分為一階段檢測(cè)方法與兩階段檢測(cè)方法,一階段檢測(cè)方法是基于圖像直接得到標(biāo)志點(diǎn)位置,兩階段方法通常是先得到標(biāo)志點(diǎn)所在區(qū)域,隨后在區(qū)域內(nèi)通過回歸網(wǎng)絡(luò)得到標(biāo)志點(diǎn)位置。
如表4 所示,一階段算法中,Arik 等[32]首次研究了CNN 在全自動(dòng)頭影測(cè)量中的應(yīng)用。該框架利用CNN 檢測(cè)描述患者解剖結(jié)構(gòu)的標(biāo)志點(diǎn),并對(duì)頜骨和顱底區(qū)域的病理進(jìn)行定量評(píng)估并且使用了公開數(shù)據(jù)集以訓(xùn)練CNN 模型。該算法首先在訓(xùn)練階段為每個(gè)標(biāo)志點(diǎn)選取81×81 的像素塊,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)輸出1×1 的像素,最終輸出的1×1 像素為標(biāo)志點(diǎn)位置。最終識(shí)別了19 個(gè)標(biāo)志點(diǎn),在250 張測(cè)試集的測(cè)試中,2 mm 內(nèi)的檢測(cè)成功率達(dá)75.37%,4 mm 以內(nèi)的檢測(cè)成功率達(dá)88.25%。Goutham 等[33]提出一種改進(jìn)的U-Net網(wǎng)絡(luò)用來檢測(cè)標(biāo)志點(diǎn)位置。該算法以分割圖作為訓(xùn)練圖像的標(biāo)簽,分割圖是具有相同大小訓(xùn)練圖像的二值掩模并使用公開數(shù)據(jù)集加以訓(xùn)練,該算法識(shí)別了7 個(gè)標(biāo)志點(diǎn),2 mm 范圍內(nèi)的檢測(cè)成功率為65.1%,4 mm 內(nèi)的檢測(cè)成功率為84.6%。雖然識(shí)別精度并不高,卻是首次使用分割網(wǎng)絡(luò)進(jìn)行標(biāo)志點(diǎn)識(shí)別。對(duì)7 個(gè)標(biāo)志點(diǎn)構(gòu)建7 個(gè)分割網(wǎng)絡(luò),由于每個(gè)標(biāo)志點(diǎn)單獨(dú)進(jìn)行識(shí)別,標(biāo)志點(diǎn)檢測(cè)復(fù)雜,極大提高了計(jì)算成本,后續(xù)可采用多類分割網(wǎng)絡(luò)進(jìn)行識(shí)別。Qian等[34]提出第一種更快速的基于R-CNN 的頭影測(cè)量標(biāo)志點(diǎn)檢測(cè)方法CephaNet。在CephaNet 中設(shè)計(jì)一種多任務(wù)丟失機(jī)制以減少類內(nèi)差異,并采用多尺度訓(xùn)練策略提高小標(biāo)志點(diǎn)的檢測(cè)準(zhǔn)確率。為了去除異常檢測(cè)到的標(biāo)志點(diǎn),提出一種兩階段修復(fù)策略。首先根據(jù)訓(xùn)練數(shù)據(jù)中標(biāo)志點(diǎn)的分布構(gòu)造二維無向圖,然后采用最大置信度和拉普拉斯變換去除異常標(biāo)志點(diǎn)。該方法識(shí)別了19 個(gè)標(biāo)志點(diǎn),CephaNet 在數(shù)據(jù)2 mm、3 mm、4 mm 范圍內(nèi)的檢測(cè)準(zhǔn)確率分別為82.5%、89.3%和90.6%。Park 等[35]對(duì)兩種最新的自動(dòng)識(shí)別頭影測(cè)量標(biāo)志點(diǎn)的深度學(xué)習(xí)算法進(jìn)行準(zhǔn)確性和計(jì)算效率比較。共選擇1 028 張頭影測(cè)量圖像分別訓(xùn)練YOLOv3 和SSD 模型,目標(biāo)標(biāo)記數(shù)量為80 個(gè)標(biāo)志點(diǎn)。在訓(xùn)練之后,使用283 幅圖像組成的測(cè)試數(shù)據(jù)集對(duì)算法進(jìn)行測(cè)試。YOLOv3算法在80個(gè)標(biāo)志點(diǎn)中的38個(gè)準(zhǔn)確度上優(yōu)于SSD,YOLOv3 的誤差曲線圖不僅誤差范圍較小,而且有更各向同性的趨勢(shì)。YOLOv3 和SSD 的平均每張圖像計(jì)算時(shí)間分別為0.05s 和2.89s。最終得出YOLOv3 似乎更有希望成為臨床上使用的全自動(dòng)頭影測(cè)量標(biāo)志物識(shí)別系統(tǒng)。同時(shí),公布了公開數(shù)據(jù)集19 個(gè)標(biāo)志點(diǎn)的精度,YOLOv3 在2 mm 范圍內(nèi)的成功檢測(cè)率為80.4%,4 mm 范圍內(nèi)的檢測(cè)成功率為96.2%。YOLOV3 與SSD 都是一階段檢測(cè)算法中精度較高的算法,但是YOLOV3 在標(biāo)志點(diǎn)檢測(cè)精度要優(yōu)于SSD,不僅僅是因?yàn)閅OLO V3 引入特征金字塔(Feature Pyramid Networks,F(xiàn)CN)結(jié)構(gòu),同時(shí)其檢測(cè)層由三級(jí)特征層融合,而SSD 的6 個(gè)特征金字塔層全部來自于FCN 的最后一層,其實(shí)也是一級(jí)特征再做細(xì)化,一級(jí)特征圖的特征容量明顯弱于三級(jí),尤其是淺層包含的大量小物體特征,而標(biāo)志點(diǎn)恰好為小物體目標(biāo)。
兩階段算法中,Nishimoto 等[36]展示了CNN 回歸框架通過互聯(lián)網(wǎng)采集的X 射線片中檢測(cè)頭影測(cè)量標(biāo)志點(diǎn)的方法。首先利用圖片抓取軟件在互聯(lián)網(wǎng)上抓取X 射線片,選取了219 張X 射線圖,其中153 張為訓(xùn)練集,66 張為測(cè)試集,其次構(gòu)建具有4 層卷積層和4 層稠密層的回歸神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并用每個(gè)坐標(biāo)值的平均絕對(duì)誤差進(jìn)行評(píng)估。隨后將以標(biāo)志點(diǎn)為中心的圖像塊放進(jìn)神經(jīng)網(wǎng)絡(luò)進(jìn)行標(biāo)志點(diǎn)預(yù)測(cè)。該算法識(shí)別了10 個(gè)標(biāo)志點(diǎn),由于互聯(lián)網(wǎng)搜集的圖片無固定像素,不能得到標(biāo)志點(diǎn)識(shí)別實(shí)際誤差。Lee等[37]提出一種基于深度神經(jīng)網(wǎng)絡(luò)的頭影測(cè)量標(biāo)志點(diǎn)識(shí)別模型。從935 張頭顱側(cè)位片中裁剪出多尺度圖像塊,訓(xùn)練兩種神經(jīng)網(wǎng)絡(luò),斑塊分類和點(diǎn)估計(jì)模型。提出的模型識(shí)別了22 個(gè)硬組織標(biāo)志物和11 個(gè)軟組織標(biāo)志物。在測(cè)試時(shí),該算法識(shí)別每張X 射線片用時(shí)0.7s,該模型識(shí)別硬組織標(biāo)志的誤差范圍為1.32~3.5mm,平均成功率為96.4%;識(shí)別軟組織標(biāo)志的誤差范圍為1.16~4.37mm,平均成功率為75.2%。從該算法可以看出,深度學(xué)習(xí)對(duì)硬組織標(biāo)志點(diǎn)的識(shí)別精度要遠(yuǎn)高于軟組織標(biāo)志點(diǎn),硬組織標(biāo)志點(diǎn)特征比軟組織特征更容易提取以及辨別。Lee 等[38]開發(fā)一種新的框架,利用貝葉斯卷積神經(jīng)網(wǎng)絡(luò)(Bayes Convolutional Neural Network,BCNN)定位具有置信度區(qū)域的頭影測(cè)量標(biāo)志點(diǎn),并采用公開數(shù)據(jù)集訓(xùn)練模型。整個(gè)算法由感興趣區(qū)域提取和考慮不確定性的標(biāo)志點(diǎn)估計(jì)兩部分組成。在2 mm和4 mm 范圍內(nèi),該框架的平均標(biāo)志性誤差為1.53 ± 1.74 mm,檢測(cè)成 功率分別為82.11% 和95.95%。Lee[37]與Lee[38]的區(qū)別在于后者在提取完感性區(qū)域后使用BCNN 在感性區(qū)域內(nèi)進(jìn)行標(biāo)志點(diǎn)預(yù)測(cè),前者只是采用CNN 進(jìn)行預(yù)測(cè),而后者采用一種后處理方法:采用分?jǐn)?shù)加權(quán)法分辨具有較高貝葉斯均值和較低不確定性的像素,故后者誤差更小、精度更高。Zeng 等[39]提出一種基于級(jí)聯(lián)三級(jí)卷積神經(jīng)網(wǎng)絡(luò)(Three-stage Convolutional Neural Networks,TCNN)的頭影測(cè)量標(biāo)志點(diǎn)自動(dòng)預(yù)測(cè)方法。在第一階段,通過提取顱面結(jié)構(gòu)的高層特征定位側(cè)面人臉區(qū)域,以幫助克服外觀變化,再對(duì)對(duì)齊的人臉區(qū)域進(jìn)行處理,以同時(shí)估計(jì)所有標(biāo)志點(diǎn)的位置。在最后階段,利用初始位置周圍的高分辨率圖像數(shù)據(jù),通過專用網(wǎng)絡(luò)對(duì)每個(gè)標(biāo)志點(diǎn)進(jìn)行細(xì)化,以獲得更準(zhǔn)確的結(jié)果。最終在公開測(cè)試集的精度為:2 mm 范圍內(nèi)78.62%,4 mm 范圍內(nèi)95.58%。Zeng[39]將識(shí)別問題從兩階段增加到三階段,但精度并不高,雖然增加了總體感性區(qū)域的提取,但對(duì)最后精度提高并沒有實(shí)質(zhì)性幫助,未來可以在第三階段改進(jìn)網(wǎng)絡(luò),加入FPN 以提取更多底層特征并進(jìn)行融合。
Table 4 Summary of deep learning methods for automatic identification of landmarks表4 標(biāo)志點(diǎn)自動(dòng)識(shí)別深度學(xué)習(xí)方法匯總
深度學(xué)習(xí)方法逐漸應(yīng)用于正畸領(lǐng)域,采用深度學(xué)習(xí)可以大幅提高標(biāo)志點(diǎn)精度和檢測(cè)速度,2mm 范圍內(nèi)檢測(cè)成功率已達(dá)80%以上,完全可以媲美牙科醫(yī)生,而且識(shí)別標(biāo)志點(diǎn)的速度大幅提高,由原來的15~20min 提高到目前的0.5 s 左右,極大提高了牙科醫(yī)生的工作效率,完全可以部署到牙科臨床。但不可忽視的是,深度學(xué)習(xí)方法在訓(xùn)練時(shí)需要大量數(shù)據(jù)。Moon 等[40]為了確定開發(fā)能夠自動(dòng)識(shí)別頭影測(cè)量標(biāo)志點(diǎn)的人工智能所需的最佳學(xué)習(xí)數(shù)據(jù)量,共收集2 400 張X 射線片,每張頭X 射線片包含80 個(gè)標(biāo)志點(diǎn)。其中,2 200 幅圖像用作深度學(xué)習(xí)模型訓(xùn)練,剩余200 幅圖像用作測(cè)試。訓(xùn)練的數(shù)據(jù)量包括24 種組合,通過不替換的隨機(jī)抽樣方法選擇訓(xùn)練數(shù)據(jù)。結(jié)果表明,隨著學(xué)習(xí)數(shù)據(jù)集數(shù)量的增加,深度學(xué)習(xí)模型準(zhǔn)確率呈線性增長(zhǎng)。為了估計(jì)最優(yōu)訓(xùn)練數(shù)據(jù)量,建立一種預(yù)測(cè)模型,最終得出至少需2 300組學(xué)習(xí)數(shù)據(jù)才能開發(fā)出精度較高的深度學(xué)習(xí)模型。
常規(guī)圖像處理方法通常提取關(guān)于標(biāo)志點(diǎn)位置的輪廓,并基于先驗(yàn)知識(shí)識(shí)別標(biāo)志點(diǎn),性能高度依賴于圖像質(zhì)量,而且找不到一些不在任何特征輪廓上的標(biāo)志點(diǎn)。基于模板匹配的方法所產(chǎn)生的模型可以檢測(cè)標(biāo)志點(diǎn)出現(xiàn)的區(qū)域,考慮了主動(dòng)形狀外觀,通過結(jié)合統(tǒng)計(jì)學(xué)方法優(yōu)化頭影測(cè)量標(biāo)志點(diǎn)的精度,但是很難選擇有代表性的模板或形狀,并且不能很好地應(yīng)對(duì)個(gè)體的噪聲和可變性?;跈C(jī)器學(xué)習(xí)的方法,如神經(jīng)網(wǎng)絡(luò)和支持向量機(jī),提高了形狀的可變性和抗噪性。然而,這些方法需要大量的頭顱側(cè)位片才能提高準(zhǔn)確性,在實(shí)際應(yīng)用中,識(shí)別性能也不太令人滿意。深度學(xué)習(xí)方法大幅提高了頭影測(cè)量分析標(biāo)志點(diǎn)的識(shí)別精度,并且提高了識(shí)別速度,這使得頭影測(cè)量分析標(biāo)志點(diǎn)自動(dòng)識(shí)別技術(shù)應(yīng)用到臨床成為一種可能,但是需要大量的訓(xùn)練數(shù)據(jù)。總而言之,從圖像處理技術(shù)到模板匹配及統(tǒng)計(jì)學(xué)方法,機(jī)器學(xué)習(xí)方法到深度學(xué)習(xí)方法,標(biāo)志點(diǎn)的檢測(cè)技術(shù)不再受制于圖像質(zhì)量,標(biāo)志點(diǎn)檢測(cè)精度大幅提高,檢測(cè)時(shí)間也大幅減少,使得測(cè)量標(biāo)志點(diǎn)自動(dòng)識(shí)別技術(shù)部署到牙科臨床成為可能。
近年來,隨著深度學(xué)習(xí)技術(shù)的出現(xiàn)及發(fā)展,標(biāo)志點(diǎn)識(shí)別精度大幅提高,將深度學(xué)習(xí)應(yīng)用于臨床已經(jīng)成為可能,但訓(xùn)練樣本數(shù)量制約著深度學(xué)習(xí)發(fā)展。同時(shí),標(biāo)志點(diǎn)作為小目標(biāo)物體,檢測(cè)算法并不能很好地檢測(cè)出小目標(biāo),未來發(fā)展方向是面向小數(shù)據(jù)集基于深度學(xué)習(xí)的小目標(biāo)物體識(shí)別方法,無需大量的頭顱側(cè)位片,基于小數(shù)據(jù)集得到精度更高的頭影測(cè)量標(biāo)志點(diǎn)識(shí)別模型。近年來,伴隨著診斷成像、三位重建及三維檢測(cè)的發(fā)展,三維頭影測(cè)量標(biāo)志點(diǎn)識(shí)別成為最新發(fā)展方向。