陶建華,陳聰,張懷宇,曲曉霞,郭健,鮮軍舫
鼻骨區(qū)骨質(zhì)菲薄,位置淺在,是顱面部外傷中最常受累部位。由于鼻骨區(qū)體積較小,解剖結(jié)構(gòu)細(xì)微,該部位骨折容易被漏診及誤診[1-3]。在臨床急診工作中,顱面部外傷患者常涉及到法醫(yī)鑒定等刑事問(wèn)題,在工作量大、時(shí)間緊和視覺疲勞的情況下,能否正確判斷鼻骨區(qū)骨折顯得尤為重要[4-5]。深度學(xué)習(xí)是一種人工智能(artificial intelligence,AI)方法,通過(guò)學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,通過(guò)組合低層特征形成更加抽象的表示高層屬性的特征,使機(jī)器模仿人類的視聽和思考活動(dòng)。近年來(lái)人工智能技術(shù)在疾病診斷及預(yù)后評(píng)估方面逐漸發(fā)揮出較大作用,基于深度學(xué)習(xí)的AI模型構(gòu)建的肺結(jié)節(jié)、頸部血管和冠狀動(dòng)脈疾病檢測(cè)系統(tǒng)已逐步應(yīng)用于臨床實(shí)踐[6-9]。此外,雖然AI方法已應(yīng)用于四肢骨、骨盆、椎體和肋骨骨折的檢測(cè)且已取得較好的進(jìn)展[10-12],但是在顱面部骨折方面的臨床應(yīng)用尚未見到相關(guān)報(bào)道。本課題擬基于大樣本的鼻骨區(qū)骨折和非骨折影像數(shù)據(jù),建立鼻骨區(qū)骨折的人工智能輔助診斷模型,探討此模型在輔助影像醫(yī)師初步篩查骨折部位、減少醫(yī)師因過(guò)度疲勞導(dǎo)致可能的漏診和誤診,提高診斷準(zhǔn)確性方面的臨床應(yīng)用價(jià)值。
1.一般資料
回顧性分析2018年1月-2019年8月因鼻骨區(qū)外傷來(lái)我院急診行鼻骨CT檢查的2080例患者的CT資料。經(jīng)2位高年資醫(yī)師(工作年限>15年)共同認(rèn)定(金標(biāo)準(zhǔn)),其中1000例無(wú)明確鼻骨區(qū)骨折,1080例有明確鼻骨區(qū)骨折,所有患者均無(wú)鼻骨區(qū)和副鼻竇區(qū)腫瘤。無(wú)骨折組中,男667例, 女333例,年齡18~75歲,平均(38.2±8.2)歲;骨折組中,男625例,女455例,年齡18~80歲,平均(36.5±7.1)歲。
本研究經(jīng)我院倫理委員會(huì)批準(zhǔn)(TRECKY2019-014)。
2.CT掃描方法
使用Philips brilliance 16排螺旋CT機(jī),掃描范圍自鼻根部到鼻尖下方層面,掃描參數(shù):120 kV,200 mAs,螺距0.438,矩陣512×512,層厚0.8 mm,層間距0.4 mm,骨算法重建。每例患者獲得原始骨算法圖像200~300幀,設(shè)置圖像的窗寬為4000 HU、窗位為700 HU。屏蔽患者個(gè)人信息后將所有圖像上傳到AI工作站進(jìn)行分析,研究步驟和流程見圖1。
圖1 本研究步驟和方法的流程圖。 圖2 基于FPN算法的深度學(xué)習(xí)方法對(duì)鼻骨圖像學(xué)習(xí)過(guò)程的示意圖。a)鼻骨區(qū)定位訓(xùn)練;b)鼻骨區(qū)骨折的定位訓(xùn)練。
3.圖像標(biāo)注
無(wú)骨折組中,在每例患者的原始CT圖像中選取鼻根部層面、鼻骨區(qū)中間層面和上頜骨額突最上端這3個(gè)層面,使用白色矩形框(可隱藏)對(duì)鼻骨進(jìn)行標(biāo)注,矩形框內(nèi)應(yīng)包括雙側(cè)鼻骨、上頜骨額突和鼻中隔前部。1000例中800例用于AI模型的鼻骨區(qū)定位訓(xùn)練,100例用于AI模型的測(cè)試,100例用于AI輔助下不同醫(yī)師對(duì)骨折檢出效能的評(píng)估。
骨折組中,在每例患者鼻骨區(qū)原始CT圖像上采用矩形框?qū)λ袑用娴墓钦鄄课贿M(jìn)行標(biāo)注。先由低年資醫(yī)師進(jìn)行標(biāo)注,然后由具有15年以上鼻骨區(qū)骨折診斷經(jīng)驗(yàn)的高年資醫(yī)師進(jìn)行審核和確認(rèn)。矩形框內(nèi)應(yīng)包含骨折線,面積盡量小。1080例中680例用于訓(xùn)練,240例用于AI測(cè)試,160例用于AI輔助下醫(yī)師對(duì)骨折檢出效能的評(píng)估。
4.基于深度學(xué)習(xí)的AI模型的訓(xùn)練和測(cè)試
鼻骨區(qū)的定位訓(xùn)練和測(cè)試:本研究中使用3D特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)深度學(xué)習(xí)算法[13],基于無(wú)骨折組的鼻骨區(qū)標(biāo)注圖像進(jìn)行定位訓(xùn)練來(lái)建立AI模型,具體過(guò)程見圖2a。鼻骨的標(biāo)注從鼻骨最上端起始位置到上頜骨額突結(jié)束的位置,統(tǒng)一將尺寸歸化為矩陣128×256×256,使用3個(gè)卷積特征的殘差網(wǎng)絡(luò)跳轉(zhuǎn)鏈接方式和降采樣,將CT圖像經(jīng)過(guò)統(tǒng)一化處理,最終的特征是512通道,矩陣16×32×32。經(jīng)100例測(cè)試,鼻骨區(qū)定位符合率達(dá)100%。
鼻骨區(qū)骨折的定位訓(xùn)練和測(cè)試:對(duì)鼻骨區(qū)骨折的定位訓(xùn)練過(guò)程如圖2b所示。訓(xùn)練樣本包括680例有骨折和200例無(wú)骨折(從用于AI模型的鼻骨區(qū)定位訓(xùn)練的800例無(wú)骨折中隨機(jī)選取)患者的原始CT圖像。本文設(shè)計(jì)了2.5D的FPN方法實(shí)現(xiàn)網(wǎng)絡(luò)鼻骨區(qū)骨折定位,將相鄰的3層切片堆疊起來(lái)作為輸入圖像,擴(kuò)大空間信息,使骨折集中在5×5~12×12 像素中顯示。網(wǎng)絡(luò)在特征提取時(shí)將最后一層進(jìn)行反卷積堆疊采樣,提供更多的空間信息。選取3560幀圖像(從240例骨折病例中隨機(jī)選取2560幀有骨折圖像,從100例無(wú)骨折病例中隨機(jī)選取1000幀無(wú)骨折圖像,對(duì)AI模型的骨折定位能力進(jìn)行測(cè)試。
5.人工和AI輔助對(duì)骨折檢出效能的比較
選取1000幀原始圖像(從160例骨折病例中隨機(jī)選取735幀有骨折圖像,從100例無(wú)骨折病例中隨機(jī)選取265幀無(wú)骨折圖像),首先由2位低年資醫(yī)師(工作年限<3年)、1位高年資醫(yī)師(工作>10年)和AI模型分別獨(dú)立對(duì)圖像進(jìn)行分析和標(biāo)注。3個(gè)月后,由上述3位醫(yī)師分別對(duì)AI模型標(biāo)注過(guò)的CT圖像再次進(jìn)行分析和觀察,對(duì)骨折部位進(jìn)行標(biāo)注。
表2 低年資醫(yī)師B及在AI模型輔助下對(duì)鼻骨骨折診斷效能的比較
表3 高年資醫(yī)師C及在AI模型輔助下對(duì)鼻骨骨折診斷效能的比較
在評(píng)估過(guò)程中,AI標(biāo)注框和人工標(biāo)注框在x、y軸方向的重疊率均大于50%且重疊面積大于25%視為正確識(shí)別(圖3)。標(biāo)注框正確識(shí)別骨折定義為真陽(yáng)性;標(biāo)注框未正確識(shí)別骨折定義為假陰性;標(biāo)注框識(shí)別錯(cuò)誤定義為假陽(yáng)性(包括骨折組和無(wú)骨折組);在無(wú)骨折圖像上無(wú)標(biāo)注框定義為真陰性。
圖3 人工(紅色框)與AI模型(綠色框)標(biāo)注骨折的一致性較高。a)雙側(cè)鼻骨粉碎骨折,骨性鼻中隔前部骨折;b)左側(cè)鼻骨骨折,斷端成角;c)右側(cè)鼻骨骨折,斷端分離;d)右側(cè)鼻骨骨折,斷端分離;e)左側(cè)鼻骨輕微骨折、略塌陷,骨折線不清晰;f)左側(cè)上頜骨額突線性骨折,斷端無(wú)移位。 圖4 AI模型把右側(cè)血管溝(鼻骨孔)誤診為骨折。 圖5 AI模型把透亮點(diǎn)狀或線狀血管溝、縫間骨、鼻頜縫誤診為骨折(綠框)。a) AI模型(左側(cè)綠框)將左側(cè)鼻頜縫內(nèi)縫間骨誤診為骨折,人工(紅框)和AI模型(右側(cè)綠框)均檢出右側(cè)鼻頜縫分離; b) AI模型將左側(cè)鼻頜縫和右側(cè)血管溝誤診為骨折; c) AI模型(左上綠框)將右側(cè)血管溝誤診為骨折,同時(shí)人工(右下綠框)和AI模型(紅框)均檢出左側(cè)上頜骨額突骨折; d) AI模型將右側(cè)縫間骨和血管溝均誤診為骨折; e) AI模型將左側(cè)血管溝誤診為骨折; f) AI模型將左側(cè)鼻頜縫誤診為骨折。 圖6 AI模型把鼻骨末端的鼻頜縫誤診為骨折(綠框)。 圖7 無(wú)鼻骨骨折患者。a) 橫軸面 CT 圖像,AI模型將左側(cè)缺損型鼻骨末端誤診為骨折(綠框); b) VR圖像示左側(cè)缺損型鼻骨末端。
6.統(tǒng)計(jì)學(xué)方法
使用SPSS 24.0統(tǒng)計(jì)學(xué)軟件,采用四格表或R×C表Pearson卡方檢驗(yàn)對(duì)人工標(biāo)注與AI輔助下人工標(biāo)注骨折部位的敏感度、特異度和符合率進(jìn)行比較。采用ROC曲線來(lái)分析各種標(biāo)注方式對(duì)骨折的檢出效能,通過(guò)Delong檢驗(yàn)比較各種標(biāo)注方式的ROC曲線下面積(AUC) 。以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
在鼻骨骨折的測(cè)試集中,AI模型檢出骨折的敏感度為86.64%(2218/2560),特異度為41.99%(721/1717),符合率為68.71%(2939/4277);AI模型檢出的假陽(yáng)性骨折數(shù)為996個(gè),常見位置依次為血管溝、鼻頜縫和鼻骨末端(圖4~7),分別占48.99%、29.91%和21.10%。
三位醫(yī)師單獨(dú)及在AI模型輔助下對(duì)鼻骨骨折的診斷效能指標(biāo)及統(tǒng)計(jì)分析結(jié)果見表1~3。兩位低年資醫(yī)師在AI輔助下檢出鼻骨骨折的敏感度和符合率均較獨(dú)立檢出有顯著提高,分別提高了24.35%、23.54%和17.81%、16.97%,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05),AUC亦有明顯提高(P<0.05),但特異度的變化不明顯(P>0.05)。高年資醫(yī)師在AI模型輔助下對(duì)鼻骨骨折的檢出敏感度、特異度和符合率與獨(dú)立檢出比較,差異均無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。在AI模型輔助下2位低年資醫(yī)師檢出骨折的敏感度和符合率與高年資醫(yī)師間的差距明顯縮小,敏感度的差距從29.39%和25.45%分別縮小到6.13%和3.00%,符合率的差距從28.07%和23.46%縮小到11.21%和7.44%。在3位醫(yī)師的各2種診斷方式中,以AI模型輔助下高年資醫(yī)師的診斷效能最高,AUC最大(圖8)。
表1 低年資醫(yī)師A及在AI模型輔助下對(duì)鼻骨骨折診斷效能的比較
圖8 低年資和高年資醫(yī)師獨(dú)立及在AI模型輔助下檢出骨折的ROC曲線,以AI模型輔助下高年資醫(yī)師的診斷效能最高,AUC最大。
傳統(tǒng)深度學(xué)習(xí)模型需要百萬(wàn)級(jí)的數(shù)據(jù)集,在訓(xùn)練數(shù)據(jù)相對(duì)較少的條件下,本研究采用遷移學(xué)習(xí)的預(yù)訓(xùn)練模型,使用左右翻轉(zhuǎn)和直方圖隨機(jī)擾動(dòng)策略進(jìn)行訓(xùn)練,每次訓(xùn)練時(shí)對(duì)數(shù)據(jù)進(jìn)行隨機(jī)變換以實(shí)現(xiàn)數(shù)據(jù)的擴(kuò)充,從而解決數(shù)據(jù)集較小的問(wèn)題。對(duì)鼻骨區(qū)骨折的檢出屬于對(duì)微小目標(biāo)的識(shí)別,骨折區(qū)域在整個(gè)標(biāo)準(zhǔn)框立方體中占比太小,導(dǎo)致標(biāo)注區(qū)域的噪聲過(guò)多,訓(xùn)練效果較差。針對(duì)這種特殊情況,本研究采用2.5D網(wǎng)絡(luò),將相鄰的前后兩層堆疊起來(lái)作為輸入圖像,從而可降低噪聲并彌補(bǔ)空間信息的不足。對(duì)于無(wú)明顯移位的輕微鼻骨區(qū)骨折,除了局部信息,還需要更大空間視野來(lái)辨識(shí)骨折、骨縫和血管溝,本研究中使用特征金字塔網(wǎng)絡(luò),在特征提取時(shí)將最后一層進(jìn)行反卷積堆疊來(lái)進(jìn)行采樣,這種方法可以提供更多的空間信息,增加對(duì)骨折、骨縫和血管溝的識(shí)別。
低年資醫(yī)師在AI模型的輔助下檢出骨折的敏感度和符合率均有顯著提高,AUC亦有明顯增加,說(shuō)明AI模型可以幫助低年資醫(yī)師對(duì)骨折進(jìn)行初步篩查。急診值班工作中,工作量大,外傷嚴(yán)重且復(fù)雜,在這種高強(qiáng)度腦力勞動(dòng)和容易視覺疲勞的環(huán)境下,AI模型輔助篩查鼻骨區(qū)骨折,可以在一定程度上減少漏診,提高診斷效能。此外AI模型縮小了低年資醫(yī)師與高年資醫(yī)師檢出骨折的敏感度和符合率之間的差距,間接減少了高年資醫(yī)師審核報(bào)告的時(shí)間。
值得注意的是AI模型檢出骨折的假陽(yáng)性率較高(圖4~7),假陽(yáng)性標(biāo)注出現(xiàn)的部位主要為鼻頜縫(占44.19%)、血管溝(占41.31%)和鼻骨末端(占14.50%),這些區(qū)域也是臨床實(shí)際工作中最容易被影像醫(yī)師與骨折相混淆的部位。在橫軸面圖像上,鼻頜縫中下部分常常出現(xiàn)縫間骨征象,單獨(dú)觀察某一層面容易誤認(rèn)為骨折碎片。鼻骨區(qū)血管溝孔較多,除了固定出現(xiàn)的鼻骨孔以外,鼻骨和上頜骨額突還存在其它的一些血管孔溝,且常不對(duì)稱出現(xiàn),在單獨(dú)某個(gè)層面上也極易與骨折相混淆。鼻骨末端的形態(tài)多變,有M型、鋸齒型、單側(cè)缺損型和拱型等多種形態(tài),在橫軸面圖像上,鋸齒型和單側(cè)缺損型的鼻骨末端常表現(xiàn)為雙側(cè)不對(duì)稱的局部缺損,容易被誤認(rèn)為碎骨片和單側(cè)骨折。因此,在臨床實(shí)踐中,應(yīng)連續(xù)上下多層面、多角度并結(jié)合VR圖像來(lái)觀察鼻頜縫、鼻骨孔、血管溝位置和鼻骨末端形態(tài)等,有助于將上述解剖變異與鼻骨骨折進(jìn)行鑒別。AI模型評(píng)估鼻骨骨折時(shí)出現(xiàn)假陽(yáng)性的主要原因是AI模型更多關(guān)注單層的局部信息,對(duì)某一結(jié)構(gòu)上下層面的連續(xù)變化的空間信息觀察不足;其次的原因是用于訓(xùn)練基于深度學(xué)習(xí)算法的AI模型的樣本數(shù)量不夠大。低年資醫(yī)師檢出假陽(yáng)性骨折的主要原因也是受到鼻頜縫、血管溝和鼻骨末端不規(guī)則形態(tài)的干擾。
本研究中AI模型檢出骨折的敏感度為86.64%,低年資醫(yī)師平均約為70.00%,低于AI模型,差距主要存在于鼻骨區(qū)的輕微線性骨折,分析原因主要是低年資醫(yī)師的工作時(shí)間短、對(duì)線性骨折經(jīng)驗(yàn)不足所致。鼻骨的骨質(zhì)較菲薄,輕微的線性骨折往往僅能見到局部骨質(zhì)有線狀透亮影,斷端通常無(wú)明顯移位。在工作量大、時(shí)間緊的急診工作中,醫(yī)師在視覺疲勞的情況下,對(duì)于輕微的線性骨折更容易漏診,可以利用容積再現(xiàn)(volume rendering,VR)技術(shù)進(jìn)行圖像重組,獲得鼻骨及鄰近區(qū)域的三維立體圖像,從而能對(duì)鼻骨區(qū)進(jìn)行全面觀察,提高對(duì)線性骨折的檢出率,減少漏診。
鼻骨區(qū)包括鼻骨、上頜骨額突和骨性鼻中隔,均屬于不規(guī)則骨,和規(guī)則的四肢長(zhǎng)骨和扁骨相比,解剖結(jié)構(gòu)復(fù)雜,其形態(tài)和鄰近血管的變異較多,這給應(yīng)用AI模型來(lái)檢測(cè)鼻骨區(qū)骨折帶來(lái)困難和挑戰(zhàn)。本研究基于深度學(xué)習(xí)算法初步建立了檢測(cè)鼻骨區(qū)骨折的AI模型,這是將AI技術(shù)應(yīng)用于顱面部骨折的新嘗試。在AI模型輔助下,低年資醫(yī)師對(duì)鼻骨骨折的檢出效能有一定程度的提高,不足之處在于AI標(biāo)注框的面積普遍較大、精準(zhǔn)度不高,檢出骨折的假陽(yáng)性率仍較高。針對(duì)上述問(wèn)題,筆者擬在后續(xù)研究中通過(guò)增大訓(xùn)練AI 模型的樣本量和多樣性、進(jìn)行多中心研究和優(yōu)化算法,來(lái)提高AI模型對(duì)解剖結(jié)構(gòu)和骨折的空間識(shí)別能力、減少假陽(yáng)性率,并通過(guò)縮小標(biāo)注框來(lái)提高骨折定位的精準(zhǔn)度,增加診斷醫(yī)師對(duì)AI骨折檢出模型的信任度,使其能更好地應(yīng)用于顱面部骨折的篩查和法醫(yī)鑒定中。