朱玉佳,許 晴,趙一姣,張 磊,付子旺,溫奧楠,高梓翔,張 昀,傅湘玲△,
王 勇1,2△
(1. 北京大學口腔醫(yī)學院·口腔醫(yī)院口腔醫(yī)學數(shù)字化研究中心,國家口腔醫(yī)學中心,國家口腔疾病臨床醫(yī)學研究中心,口腔數(shù)字化醫(yī)療技術和材料國家工程實驗室,口腔數(shù)字醫(yī)學北京市重點實驗室,國家衛(wèi)生健康委員會口腔醫(yī)學計算機應用工程技術研究中心,國家藥品監(jiān)督管理局口腔生物材料重點實驗室,北京 100081; 2. 北京大學口腔醫(yī)學院·口腔醫(yī)院口腔修復科,北京 100081; 3. 北京郵電大學計算機學院(國家示范性軟件學院),北京 100876; 4. 蘭州市口腔醫(yī)院特診科,蘭州 730000)
對稱性是評估顏面部美學的重要參考依據(jù),也是口腔正畸、頜面外科、口腔修復等多學科關注的共性問題。顏面對稱性分析的前提是建立準確的正中矢狀平面(midsagittal plane, MSP),也稱為對稱參考平面(symmetry reference plane, SRP),該平面是顱頜面外科手術設計、正畸矯治設計、數(shù)字化美學修復設計中的基礎環(huán)節(jié),直接影響后續(xù)治療的準確性與可靠性[1-3]。傳統(tǒng)方法多參考人工定義三維顏面部數(shù)字模型上的重要解剖標志點直接構建正中矢狀平面,通常包括中線解剖標志點及雙側解剖標志點。1999年O’Grady等[1]基于激光三維掃描技術獲取石膏頭像的三維數(shù)字模型,通過定義鼻根點、鼻尖點、上唇紅緣中點構建正中矢狀平面,2006年郭宏銘等[4]在掃描獲取的三維面相上通過左右外眥連線中點、鼻尖點和鼻底點連線構建三維正中矢狀平面。由于不同專家選擇標志點的標準不一,較難形成具有一定臨床普適性的共性方法。近年,隨著數(shù)字化口腔醫(yī)學的日益發(fā)展,基于自動化算法構建三維顏面正中矢狀平面的研究成為熱點,相關研究主要圍繞本體-鏡像關聯(lián)法開展。本體-鏡像關聯(lián)法的核心算法是三維顏面本體模型與鏡像模型的重疊算法,具體包括完全不依賴解剖標志點的迭代最近點算法(iterative closest point, ICP)[5]和不完全依賴解剖標志點的普氏分析算法(Procrustes analysis, PA)[6],其中PA算法較關注顏面部重要解剖標志點,這更符合臨床醫(yī)生的診療經(jīng)驗。2015年,本課題組熊玉雪等[7]應用PA算法構建顏面正中矢狀平面,證實PA算法較適合顏面無明顯不對稱的患者。2020年,Zhu等[8]進一步改進提出了賦權普氏分析算法,通過對顏面解剖標志點不對稱程度的量化評估,以權重分配的方式約束其參與正中矢狀平面構建的貢獻大小,并證實了賦權普氏分析算法較適合顏面輕度及中度畸形的患者。上述構建三維顏面正中矢狀平面的人工定義法和PA算法,都在一定程度上依賴于三維顏面解剖標志點的準確確定,而既往研究均采用手工標記。如何實現(xiàn)三維顏面解剖標志點的自動、準確和高效確定,是有待解決的關鍵問題,因此,在本課題組賦權普氏分析算法構建三維顏面正中矢狀平面的研究基礎上,應用人工智能領域的深度學習算法,建立可自動確定三維顏面解剖標志點的多視圖堆疊沙漏神經(jīng)網(wǎng)絡(multi-view stacked hourglass convolutional neural networks,MSH-CNN)算法模型,實現(xiàn)三維顏面正中矢狀平面的全自動構建流程,為自主知識產(chǎn)權的軟件開發(fā)奠定基礎。
選取就診于北京大學口腔醫(yī)院及蘭州市口腔醫(yī)院臨床門診的無明顯顏面畸形的受試者100例,男性和女性比例為1 ∶1,本研究獲得北京大學口腔醫(yī)院生物醫(yī)學倫理委員會批準(批準號:PKUSSIRB-202054042), 受試者均對本研究內容和目的充分知情并簽署知情同意書。
三維面部掃描儀(FaceScan, 3D-Shape公司,德國)的掃描速度為0.2~0.8 s,掃描精度為0.1 mm,掃描面部角度范圍為270°~320°(涵蓋左耳到右耳范圍), 三維顏面數(shù)據(jù)處理軟件采用Geomagic Studio 2013(3D System公司,美國)。標志點自動確定算法的網(wǎng)絡搭建基于Linux服務器環(huán)境,顯卡型號為NVIDIA GeForce RTX 2080T。
臨床醫(yī)師指導受試者處于自然頭位狀態(tài),受試者采取端坐位,雙眼平視前方,保持眶耳平面(FH平面)與地平面平行,表情放松時進行面部掃描,三維顏面數(shù)據(jù)保存為 .OBJ格式文件。三維顏面數(shù)據(jù)納入標準為:輪廓完整、分辨率高,沒有明顯移動。專家在逆向工程軟件Geomagic Studio 2013中進行解剖標志點的標注,在全面部區(qū)域選取鼻尖點、鼻底點、內眥點、外眥點等21個解剖標志點(中線5個和雙側16個), 由一名高年資專家間隔一周提取3次,取標志點的坐標平均值,標志點集如圖1所示。
Ex, exocanthion; Ala, alare; Sal, subalare; Cph, crista philtre; Ch, cheilion; Gn, gnathion; Su, superciliary ridge; Pu, pupil; En, endocanthion; Prn, pronasale; Sn, subnasale; Ls, labiale superius; Li, labiale inferius.圖1 三維顏面標志點示意圖Figure 1 Anatomic landmarks of three-dimensional facial data
根據(jù)機器學習點的數(shù)據(jù)集劃分理論,將臨床收集的100例受試者三維顏面數(shù)據(jù)按照4 ∶1分配,其中80例作為訓練集,20例作為測試集,男女比例均為1 ∶1,20例測試集數(shù)據(jù)并未參與深度學習的算法訓練。根據(jù)顏面標志點識別的需求,本研究構建了MSH-CNN,算法訓練過程如下:(1)多視圖生成:在三維顏面數(shù)據(jù)處理階段,人工調整三維顏面數(shù)據(jù)的幾何中心至坐標系原點,即位于虛擬相機的焦點?;趐ython軟件中的random函數(shù)設置虛擬相機,用其拍攝三維人臉不同旋轉、傾斜、俯仰角度的96個圖像,通過不同視角二維圖像獲取完整的三維顏面數(shù)據(jù)信息?;趐ython軟件中的vtk開源工具包,對上述96個二維圖像進行渲染,得到二維圖像對應的深度圖像,輸入到MSH-CNN中。(2)MSH-CNN算法模型的訓練:將80例訓練集中三維顏面數(shù)據(jù)的多視圖(96視角)深度圖像輸入到MSH-CNN中進行算法訓練,以二維熱圖的形式呈現(xiàn)MSH-CNN計算的標志點,再通過虛擬相機矩陣的映射實現(xiàn)將二維標志點投影到的三維顏面數(shù)據(jù)的相應位置。本研究以專家標注的三維顏面標志點作為真值,通過計算MSH-CNN自動確定標志點與專家標注之間均方根誤差(mean squared error, MSE), 使用梯度下降優(yōu)化算法更新網(wǎng)絡學習率和網(wǎng)絡參數(shù),以達到MSE損失最小的目的。本研究在兩層堆疊沙漏網(wǎng)絡中添加注意力焦點,從而建立了一種多層級注意力機制的監(jiān)督模塊,為提高標志點自動確定算法的魯棒性提供了支撐。本研究的MSH-CNN算法使用0.001的初始學習率,100個迭代次數(shù),設置8個批量大小,MSH-CNN的整體網(wǎng)絡構架如圖2所示。
MSH-CNN, multi-view stacked hourglass convolutional neural networks; 3D, three-dementional.圖2 多視圖堆疊沙漏神經(jīng)網(wǎng)絡模型架構圖Figure 2 Multi-view stacked hourglass convolutional neural networks
基于上述本研究訓練完成的MSH-CNN算法模型,自動確定訓練集以外的20例受試者三維顏面數(shù)據(jù)的標志點,并將MSH-CNN標志點與專家標記標志點間的歐氏距離作為“定點誤差”。計算20例三維顏面數(shù)據(jù)上21個解剖標志點的平均誤差作為全面部平均定點誤差,將標志點劃分為眶區(qū)(眉峰點、外眥點、內眥點、瞳孔點)、鼻區(qū)(鼻尖點、鼻底點、鼻翼點、鼻翼下點)和口唇區(qū)(上唇凸點、下唇凸點、頦下點、唇峰點、口角點), 分別計算各區(qū)域的定點誤差。
應用MSH-CNN算法自動確定上述20個三維顏面模型標志點的坐標,輸入本課題組前期由python軟件編制的賦權普氏分析算法程序[8-9],該程序可自動計算三維顏面解剖標志點的形態(tài)學分析指標(不對稱性指標),并基于加權最小二乘法的原理構建三維顏面正中矢狀平面。本研究中的“真值平面”基于“專家區(qū)域ICP算法”構建,既往研究報道該算法的正中矢狀平面構建效果與高年資專家組無差異[10]。將本研究算法正中矢狀平面與專家平面間的夾角定義為角度誤差,計算20例三維顏面數(shù)據(jù)角度誤差的平均值和標準差。
MSH-CNN結合賦權普氏分析算法自動構建三維顏面正中矢狀平面的效果如圖3和圖4所示,應用MSH-CNN確定全面部21個解剖標志點的定點誤差為(1.13±0.24) mm。在面部各分區(qū)中,眶區(qū)(8個標志點)定點誤差為(1.31±0.54) mm,鼻區(qū)(6個標志點)定點誤差為(0.79±0.36) mm,口唇區(qū)(7個標志點)定點誤差為(0.84±0.34) mm?;诒狙芯克惴嫿ǖ?0例三維顏面數(shù)據(jù)正中矢狀平面與專家平面的角度誤差為0.73°±0.50°。
A, right lateral view; B, front view; C, left lateral view.圖3 多視圖堆疊沙漏神經(jīng)網(wǎng)絡算法自動確定三維顏面解剖標志點的效果圖Figure 3 Twenty-one three-dimensional facial anatomical landmarks automatically determined by multi-view stacked hourglass convolutional neural networks
The red plane signifies the ground truth plane, the green plane constructed by the multi-view stacked hourglass convolutional neural networks algorithm.圖4 多視圖堆疊沙漏神經(jīng)網(wǎng)絡算法自動構建的三維顏面正中矢狀平面效果圖Figure 4 Determining the midsagittal plane based on the multi-view stacked hourglass convolutional neural networks
回顧三維顏面正中矢狀平面構建的發(fā)展歷程,人工手動確定方法應用廣泛,其關鍵在于標志點的選擇和可重復性,該方法經(jīng)驗依賴性較強,并且專家在數(shù)字化軟件中直接人工定義三維顏面正中矢狀平面仍具有一定難度。三維顏面正中矢狀平面的自動構建算法多基于“本體-鏡像關聯(lián)法”,其核心重疊算法主要分為ICP 算法和PA算法。ICP算法是一種完全不參考解剖標志點的算法,雖然學者驗證了ICP算法在構建正常顏面數(shù)據(jù)的正中矢狀平面時的可靠性和可重復性,但其對于顏面嚴重不對稱畸形的患者,對稱性不良數(shù)據(jù)對算法造成影響,使得正中矢狀平面的構建效果欠佳[11]。隨后有學者對全局ICP關聯(lián)法進行了改進,通過人工選取對稱性良好的顏面區(qū)域進行本體和鏡像重疊運算,一定程度上改進了ICP算法的臨床適合性,稱之為“區(qū)域ICP算法”[12],本研究結合專家經(jīng)驗與自動化算法,將該方法應用于專家平面的構建,即作為本研究正中矢狀平面的“金標準”,該方法的穩(wěn)定性和可重復性較好,可降低專家時間成本,同時可達到與高年資專家人工構建相同的效果。上述全局ICP和區(qū)域ICP關聯(lián)法完全不參考顏面重要的解剖標志點信息,對臨床診療經(jīng)驗的體現(xiàn)有所欠缺。
PA算法與ICP算法最大的不同在于對顏面解剖標志點的關注,PA算法比較符合口腔醫(yī)生臨床診療習慣和經(jīng)驗,其核心思想是應用標志點引導本體-鏡像關聯(lián)模型的重疊,從而獲得正中矢狀平面。有學者證實了PA關聯(lián)法較適于顏面無明顯不對稱的患者[13],但對稱性不良的PA標志點同樣會對PA算法產(chǎn)生影響,稱之為Pinocchio效應[14]。本課題組前期針對PA關聯(lián)法進行了一系列算法改進,建立了“賦權普氏分析算法”,可通過三維形態(tài)學分析方法對顏面解剖標志點的不對稱性進行量化評估,并將量化評估結果作為該標志點參與構建顏面正中矢狀平面的權值參數(shù),實現(xiàn)個性化標志點權值引導下的正中矢狀平面構建[8-9, 13]。本課題組之前的研究結果顯示,賦權普氏分析算法構建的正中矢狀平面與專家平面間的角度誤差僅為1.53°±0.84°,對臨床輕度及中度顏面畸形患者的適合性較好[9],但本課題組之前的研究中,PA標志點(20 ~ 32個)的確定仍采用人工確定方法,為滿足口腔臨床大量數(shù)據(jù)的診斷分析,手工定點環(huán)節(jié)的效率、準確性和可重復性仍有待改進,由自動化、智能化的算法完成PA標志點的確定是實現(xiàn)全自動正中矢狀平面特征構建的發(fā)展方向。
三維顏面解剖標準點的準確確定既是傳統(tǒng)方法也是自動化算法構建正中矢狀平面的前提。既往文獻中自動確定顏面標志點主要分為幾何信息分析算法和深度學習算法兩種[15-17]。幾何信息分析算法主要根據(jù)顏面幾何形態(tài)變化規(guī)律自動確定解剖標志點:2016年Katina等[15]基于三維顏面數(shù)據(jù)表面的曲率分類,自動確定17個標志點,但該方法在面部幾何特征不明顯區(qū)域的標志點定位效果欠佳;2019年Agbolade等[16]基于非剛性配準算法,將人臉模板變形至患者三維顏面數(shù)據(jù),實現(xiàn)16個解剖標志點的自動確定。近年,應用深度學習算法進行三維人臉數(shù)據(jù)分析成為研究的熱點,2013年Creusot等[17]采用局部形狀特征向量學習三維顏面數(shù)據(jù)的結構特征,獲得13個標志點,該算法標志點數(shù)量有限,較容易受姿勢和遮擋的影響;2015年Su等[18]采用多視圖的方式將三維數(shù)據(jù)轉換為二維圖像,使用神經(jīng)網(wǎng)絡對二維圖像進行特征提取,多視圖圖像的方法由于能夠直接應用神經(jīng)網(wǎng)絡來提取圖像特征,性能和魯棒性較好,為三維標志點的自動確定提供了可能;2018年,Paulsen等[19]基于三原色圖像構建的多視圖卷積神經(jīng)網(wǎng)絡,測試定點誤差為2 mm。
口腔臨床三維顏面數(shù)據(jù)的來源包括光學掃描獲得的彩色三維數(shù)據(jù)和影像學錐形束CT掃描獲得的灰度圖像數(shù)據(jù)等[20-23],Paulsen等[19]研究中針對二維RGB圖像的深度學習算法不能滿足口腔臨床多來源的數(shù)據(jù)需求。為獲得數(shù)據(jù)兼容性更強的神經(jīng)網(wǎng)絡模型,本研究搭建了普適性更好的針對降維深度圖像的MSH-CNN,結合“上采樣”和“下采樣”將二維深度圖像的局部結構和全局結構共同學習,獲得高分辨率熱圖,從而獲得標志點自動確定的高性能表現(xiàn)。此外,本研究算法模型搭建中還創(chuàng)新建立了一種多層級注意力機制的監(jiān)督模塊,該模塊以第一層沙漏網(wǎng)絡的特征作為權重信息,即注意力模塊,來指導第二層沙漏網(wǎng)絡的特征學習,該模塊的加入為提高標志點自動確定算法的魯棒性提供了支撐。本研究結果顯示,應用MSH-CNN算法模型測試的20例受試者三維顏面數(shù)據(jù),21個解剖標志點的平均定點誤差僅為(1.13±0.24) mm,在鼻區(qū)誤差最小,口唇區(qū)次之,眶區(qū)最大,其中眶區(qū)主要受到眉峰點的影響,各區(qū)域誤差均在臨床可接受范圍。本研究提出的用于自動確定三維顏面標志點的MSH-CNN模型,其優(yōu)點是在訓練樣本較小的前提下,通過多視圖增強數(shù)據(jù)學習更多標志點信息,并采用層級注意及監(jiān)督信號的形式達到更高的準確性,可滿足口腔臨床大量數(shù)據(jù)的診斷分析需求。針對口腔臨床顏面畸形的患者,可在本研究MSH-CNN算法基礎上進一步對畸形顏面數(shù)據(jù)進行訓練和參數(shù)優(yōu)化,以使網(wǎng)絡模型具有更好的處理畸形數(shù)據(jù)的泛化能力,相關研究課題組正在開展臨床數(shù)據(jù)收集工作,以進行后續(xù)研究。