胡歆迪,楊 鑫,周 旭,王麗敏,梁永棟,尚 寧,倪 東,顧 寧
1) 南京醫(yī)科大學(xué)生物醫(yī)生工程與信息學(xué)院,江蘇南京211166;2)深圳大學(xué)醫(yī)學(xué)部生物醫(yī)學(xué)工程學(xué)院,廣東深圳 518060;3)廣東省婦幼保健院超聲診斷科,廣東廣州511400
髖關(guān)節(jié)發(fā)育性不良(developmental dysplasia of the hip, DDH)是一種常見(jiàn)的先天性關(guān)節(jié)疾病,發(fā)病率為0.15%~2.00%[1].該疾病由股骨頭和髖臼之間位置異常引起,患病嬰兒髖臼較淺,股骨頭無(wú)法牢固地嵌在髖臼內(nèi),甚至完全脫出髖臼.根據(jù)病情嚴(yán)重程度,DDH可分為發(fā)育不良、半脫位和脫位3類.常見(jiàn)的臨床癥狀包括左右腿長(zhǎng)度不等,腿紋和臀紋不對(duì)稱,脫位腿向外翻轉(zhuǎn)等,不及時(shí)治療可能會(huì)引發(fā)慢性疼痛、步態(tài)紊亂和關(guān)節(jié)炎等疾病[2].DDH早期的治療簡(jiǎn)單有效,治療成功率可達(dá)96%[3],能有效減少后續(xù)疾病的產(chǎn)生,因此針對(duì)新生兒的DDH篩查具有重要意義.與X光相比,超聲成像具有無(wú)創(chuàng)和無(wú)輻射等特點(diǎn),且能顯示嬰兒髖關(guān)節(jié)尚未骨化的部分,便于觀察股骨頭在髖臼內(nèi)的運(yùn)動(dòng),因此對(duì)6月齡以內(nèi)的嬰兒,臨床上通常使用超聲檢查,依據(jù)Graf法進(jìn)行DDH診斷.
Graf法是一種基于形態(tài)學(xué)的方法,通過(guò)量化解剖結(jié)構(gòu)在超聲靜態(tài)圖像上的特征,評(píng)估髖關(guān)節(jié)發(fā)育狀況[4].Graf法通常分為3步:① 使用超聲探頭掃查嬰兒髖關(guān)節(jié)(圖1(a)),獲得超聲視頻.② 從超聲視頻中挑選出一張標(biāo)準(zhǔn)切面圖,該圖必須包含平直髂骨、髂骨下緣、盂唇和骨-軟骨結(jié)合處等關(guān)鍵解剖結(jié)構(gòu),如圖1(b).由于平直髂骨和髂骨下緣同屬于髂骨結(jié)構(gòu),為便于測(cè)量角度,本研究將二者視作不同結(jié)構(gòu).③ 在標(biāo)準(zhǔn)切面上測(cè)量α角和β角兩個(gè)發(fā)育指標(biāo).如圖1(c)和(d),角度測(cè)量需要作出3條測(cè)量線:沿平直髂骨頂部作出切線,即基線;從髂骨最下緣點(diǎn)向平直髂骨外輪廓作出切線,即骨頂線;連接盂唇中心點(diǎn)和平直軟骨下端點(diǎn),即軟骨頂線.α角為基線和骨頂線的夾角,β角為基線和軟骨頂線的夾角.④ 結(jié)合嬰兒年齡等信息,對(duì)髖關(guān)節(jié)進(jìn)行分型.
圖1 Graf法臨床標(biāo)準(zhǔn)Fig.1 Clinical standards of Graf method
盡管Graf法已在臨床上得到了廣泛應(yīng)用,但其主觀依賴性較強(qiáng),整個(gè)篩查流程耗時(shí)費(fèi)力.在實(shí)際應(yīng)用中面臨如下難點(diǎn):① 標(biāo)準(zhǔn)切面獲取困難,易出現(xiàn)誤判和漏判.一方面,在進(jìn)行超聲篩查時(shí),嬰兒易動(dòng),增加了掃查到標(biāo)準(zhǔn)切面的難度;另一方面,標(biāo)準(zhǔn)切面的判斷標(biāo)準(zhǔn)嚴(yán)格,對(duì)醫(yī)生的專業(yè)知識(shí)和臨床經(jīng)驗(yàn)要求較高.② 參數(shù)測(cè)量主觀依賴性強(qiáng).由于超聲圖像存在噪聲和偽影等問(wèn)題,質(zhì)量較差,且醫(yī)生對(duì)解剖結(jié)構(gòu)的形態(tài)判斷依賴自身經(jīng)驗(yàn),造成不同觀察者之間的測(cè)量結(jié)果差異較大,即使是經(jīng)驗(yàn)豐富的醫(yī)生,α角和β角的測(cè)量差異也能達(dá)到3°和6°[5],尤其在基層醫(yī)院,醫(yī)生臨床經(jīng)驗(yàn)匱乏等問(wèn)題更為突出.因此,亟需一種規(guī)范且高效化的方法進(jìn)行超聲DDH篩查.
近年來(lái),計(jì)算機(jī)輔助診斷(computer aided diagnosis, CAD)超聲篩查DDH的相關(guān)技術(shù)不斷出現(xiàn),但均存在一定局限性.首先,標(biāo)準(zhǔn)切面的重要性常被忽視,輔助識(shí)別DDH標(biāo)準(zhǔn)切面的技術(shù)尚無(wú)人研究.標(biāo)準(zhǔn)切面是精準(zhǔn)化超聲檢查的前提,唯有在標(biāo)準(zhǔn)切面上對(duì)發(fā)育指標(biāo)進(jìn)行測(cè)量,才能保證數(shù)據(jù)的準(zhǔn)確性和可靠性.雖然自動(dòng)識(shí)別標(biāo)準(zhǔn)切面在多個(gè)超聲篩查項(xiàng)目中都得到了重視[6-8],但由于標(biāo)注數(shù)據(jù)需求量大且切面識(shí)別難度高等問(wèn)題,在DDH超聲篩查方向鮮有進(jìn)展.其次,現(xiàn)有的參數(shù)測(cè)量相關(guān)的CAD技術(shù),速度和精度都難以滿足實(shí)際臨床需求.這些技術(shù)通常是基于關(guān)鍵解剖結(jié)構(gòu)的輪廓特征來(lái)計(jì)算α角和β角.根據(jù)特征提取的方法,該技術(shù)可分為基于手工提取特征的傳統(tǒng)方法和基于深度學(xué)習(xí)的人工智能方法.傳統(tǒng)方法如使用測(cè)地線動(dòng)態(tài)區(qū)域(geodesic active regions, GAR)[3]和相位對(duì)稱性[9]等方法提取圖像特征,往往受限于手工特征提取的復(fù)雜度,模型精度低且魯棒性差.由于深度學(xué)習(xí)可自動(dòng)提取圖像特征,善于解決大量數(shù)據(jù)中的高維難題,在髖關(guān)節(jié)超聲圖像分析領(lǐng)域也得到了初步應(yīng)用.例如,經(jīng)典的全卷積網(wǎng)絡(luò)(full convolution network,F(xiàn)CN)[10]和Unet[11]等,被用于分割髂骨或盂唇的任務(wù)[12-13];使用對(duì)抗學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)分割平直髂骨和髂骨下緣[14];多尺度的特征融合網(wǎng)絡(luò)用于獲得骨結(jié)構(gòu)的概率圖[15].但現(xiàn)有的輔助DDH超聲篩查方法仍存在兩個(gè)缺陷:① 僅聚焦于局部解剖結(jié)構(gòu)的輪廓信息,缺少對(duì)重要解剖結(jié)構(gòu)的標(biāo)識(shí).Graf法的準(zhǔn)確度非常依賴醫(yī)生對(duì)解剖結(jié)構(gòu)的識(shí)別,這對(duì)缺乏經(jīng)驗(yàn)的醫(yī)生來(lái)說(shuō)存在一定困難,自動(dòng)化的結(jié)構(gòu)標(biāo)識(shí)能夠?yàn)獒t(yī)生提供示教幫助,有利于初學(xué)醫(yī)生快速上手、加深對(duì)DDH超聲篩查的理解.② 推理速度較慢,實(shí)際應(yīng)用受限.
進(jìn)一步推動(dòng)自動(dòng)化超聲篩查DDH的發(fā)展,需要解決以下問(wèn)題:① 對(duì)于常用于識(shí)別標(biāo)準(zhǔn)切面的分類神經(jīng)網(wǎng)絡(luò),其準(zhǔn)確率越高,所需訓(xùn)練樣本量越大,但訓(xùn)練數(shù)據(jù)的獲取和標(biāo)注都會(huì)消耗大量時(shí)間和人力成本.視頻數(shù)據(jù)的標(biāo)注更是耗時(shí)耗力,逐幀標(biāo)注會(huì)給醫(yī)生帶來(lái)沉重的工作負(fù)擔(dān),數(shù)據(jù)集規(guī)模也因此受到限制.② 對(duì)于髖關(guān)節(jié)結(jié)構(gòu)的分割任務(wù),由于超聲圖像質(zhì)量較差,常出現(xiàn)結(jié)構(gòu)邊緣模糊和結(jié)構(gòu)黏連等問(wèn)題,導(dǎo)致分割精度差;髖關(guān)節(jié)結(jié)構(gòu)復(fù)雜,結(jié)構(gòu)之間超聲成像辨識(shí)度低,易造成誤分割.③ 實(shí)際診斷中,需要實(shí)時(shí)測(cè)量或多次測(cè)量,對(duì)模型的推理速度有較高要求.
本研究提出一種智能化DDH輔助篩查系統(tǒng),由標(biāo)準(zhǔn)切面自動(dòng)識(shí)別模塊和發(fā)育參數(shù)自動(dòng)測(cè)量模塊構(gòu)成.自動(dòng)識(shí)別標(biāo)準(zhǔn)切面模塊依賴一個(gè)基于少樣本單類別分類(few-shot one-class classifier, FOC)的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)有兩個(gè)優(yōu)勢(shì):① 基于少樣本:僅需1/3訓(xùn)練樣本訓(xùn)練模型,大幅減少醫(yī)生的標(biāo)注工作量;② 基于單類別,即僅使用標(biāo)準(zhǔn)切面圖像訓(xùn)練網(wǎng)絡(luò),可強(qiáng)化網(wǎng)絡(luò)對(duì)標(biāo)準(zhǔn)切面的學(xué)習(xí)程度.自動(dòng)測(cè)量模塊依賴一個(gè)能夠自動(dòng)測(cè)量的快速實(shí)例網(wǎng)絡(luò)(fast instance network, FIN),該網(wǎng)絡(luò)優(yōu)勢(shì)為:① 可以提供關(guān)鍵解剖結(jié)構(gòu)的標(biāo)識(shí),為醫(yī)生起到示教作用;② 目標(biāo)定位功能大幅減少了誤分割的發(fā)生概率,多任務(wù)模型提高了分割的精度;③ 推理速度超過(guò)30幀/s,為臨床篩查節(jié)省時(shí)間,提高了效率.該系統(tǒng)首次將標(biāo)準(zhǔn)切面的判斷融入自動(dòng)診斷過(guò)程,實(shí)現(xiàn)質(zhì)量控制,提高同質(zhì)化水平,同時(shí)優(yōu)化工作流,加快了工作效率,提高了測(cè)量準(zhǔn)確度.
本研究提出的智能化DDH輔助篩查系統(tǒng)的架構(gòu)如圖2.醫(yī)生使用超聲探頭掃查嬰兒髖關(guān)節(jié)獲得視頻數(shù)據(jù)并輸入標(biāo)準(zhǔn)切面自動(dòng)識(shí)別模塊;已被判定為標(biāo)準(zhǔn)切面的圖像被送入自動(dòng)測(cè)量模塊,該模塊會(huì)自動(dòng)檢測(cè)和分割出關(guān)鍵解剖結(jié)構(gòu)(平直髂骨、髂骨下緣、盂唇和骨-軟骨結(jié)合處),并自動(dòng)測(cè)量出α角和β角,最后將結(jié)果展示在圖像中以供參考.
圖2 智能化DDH輔助篩查系統(tǒng)流程圖Fig.2 Flow chart of the intelligent auxiliary screening system of DDH
本研究提出的FOC分類神經(jīng)網(wǎng)絡(luò),僅需少量陽(yáng)性樣本,即標(biāo)準(zhǔn)切面,作為學(xué)習(xí)對(duì)象,通過(guò)自監(jiān)督訓(xùn)練方式學(xué)習(xí)標(biāo)準(zhǔn)切面的特征信息,從而為未知圖像打出標(biāo)準(zhǔn)化評(píng)分.該方法可大幅減少對(duì)訓(xùn)練數(shù)據(jù)和人工標(biāo)注數(shù)量的依賴.
自動(dòng)識(shí)別標(biāo)準(zhǔn)切面可視為圖像二分類任務(wù),需要將輸入圖像歸類至標(biāo)準(zhǔn)切面或非標(biāo)準(zhǔn)切面,但在嬰兒髖關(guān)節(jié)的超聲視頻中,訓(xùn)練二分類網(wǎng)絡(luò)存在一定的挑戰(zhàn):① 二分類網(wǎng)絡(luò)同時(shí)需要陽(yáng)性和陰性樣本,標(biāo)準(zhǔn)切面有明確定義,即至少包含平直髂骨、髂骨下緣、盂唇和骨-軟骨結(jié)合處4個(gè)解剖結(jié)構(gòu)(見(jiàn)圖1(b)),不滿足此定義的圖像,如解剖結(jié)構(gòu)顯示不全、 噪聲圖等, 均為非標(biāo)準(zhǔn)切面. 但通常情況下,難以獲得所有種類的非標(biāo)準(zhǔn)切面.② 超聲圖像質(zhì)量較差,因此分類難度大,且高精度的網(wǎng)絡(luò)模型需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)采集和標(biāo)注工作量大.
作為一種特殊的分類任務(wù),單分類任務(wù)只需判斷未知樣本是否為目標(biāo)類,無(wú)需判定非目標(biāo)類樣本類別.該任務(wù)適用于正負(fù)訓(xùn)練樣本極度不均衡的任務(wù),如訓(xùn)練樣本全部為正樣本、大量正樣本和極少數(shù)的負(fù)樣本、大量正樣本和無(wú)數(shù)類難以標(biāo)注的負(fù)樣本等[16].常見(jiàn)的單分類模型可分為:① 基于分類的方法,如基于支持向量機(jī)(support vector machine, SVM)的單類別支持向量機(jī)(one-class support vector machine, OCSVM)[17]和深度支持向量數(shù)據(jù)描述(deep support vector data description, deep SVDD)[18];② 基于無(wú)監(jiān)督或自監(jiān)督的幾何變換網(wǎng)絡(luò)(geometric transformations, GEOM)[19]和自監(jiān)督的分布外檢測(cè)(self-supervised out of distribution, SSOOD)[20]等;③ 基于圖像重建的變分自編碼器(variational auto-encoder, VAE)[21]和對(duì)抗生成網(wǎng)絡(luò)Ganomaly[22]等;④ 基于數(shù)據(jù)分布建模的深度自動(dòng)編碼高斯混合模型[23]等.因此,可僅使用標(biāo)準(zhǔn)切面訓(xùn)練一個(gè)單分類網(wǎng)絡(luò).該網(wǎng)絡(luò)僅需充分學(xué)習(xí)標(biāo)準(zhǔn)切面的圖像特征分布,并判定所有不符合該單類特征分布的圖像為非標(biāo)準(zhǔn)切面,以此實(shí)現(xiàn)超聲視頻中標(biāo)準(zhǔn)切面的自動(dòng)化識(shí)別.
由于DDH標(biāo)準(zhǔn)切面的標(biāo)注數(shù)據(jù)量少,對(duì)單分類網(wǎng)絡(luò)的訓(xùn)練造成一定困難.因此,本研究引入自監(jiān)督學(xué)習(xí)策略.與全監(jiān)督學(xué)習(xí)相比,采用自監(jiān)督學(xué)習(xí)訓(xùn)練神經(jīng)網(wǎng)絡(luò)成本低且效率高.自監(jiān)督學(xué)習(xí)通過(guò)特定方式為訓(xùn)練數(shù)據(jù)生成偽標(biāo)簽,并用該標(biāo)簽輔助下游任務(wù).該方法適用于無(wú)標(biāo)注或稀缺標(biāo)注的數(shù)據(jù)集.自監(jiān)督學(xué)習(xí)在單分類任務(wù)中也得到了成功應(yīng)用,例如GEOM和SSOOD等.對(duì)于DDH標(biāo)準(zhǔn)切面識(shí)別的任務(wù),在數(shù)據(jù)集僅有少量標(biāo)準(zhǔn)切面的情況下,可通過(guò)自監(jiān)督的方式對(duì)數(shù)據(jù)集進(jìn)行拓展,使網(wǎng)絡(luò)學(xué)習(xí)到標(biāo)準(zhǔn)切面的深度特征.
標(biāo)準(zhǔn)切面自動(dòng)識(shí)別網(wǎng)絡(luò)由幾何變換模塊和監(jiān)督學(xué)習(xí)模塊構(gòu)成,如圖3.網(wǎng)絡(luò)訓(xùn)練時(shí),首先將髖關(guān)節(jié)標(biāo)準(zhǔn)切面圖像x送入幾何變換模塊進(jìn)行數(shù)據(jù)擴(kuò)增,并生成偽標(biāo)簽;擴(kuò)增后的圖像和偽標(biāo)簽被送入監(jiān)督學(xué)習(xí)模塊進(jìn)行特征學(xué)習(xí).幾何變換T由3步操作構(gòu)成:① 水平平移TH,TH={TH0,TH1,TH2}. 其中,TH0、TH1和TH2分別表示將圖像在水平方向上平移0、 +n或-n個(gè)像素.② 垂直平移TV,TV={TV0,TV1,TV2}. 其中,TV0、TV1和TV2分別將圖像在垂直方向上平移0、 +n或-n個(gè)像素.③ 旋轉(zhuǎn)TR,TR={T0,T1,T2,T3}. 其中,T0、T1、T2和T3分別將圖像旋轉(zhuǎn)0°、90°、180°和270°.在數(shù)據(jù)擴(kuò)增過(guò)程中,圖像在水平和垂直方向各取一個(gè)數(shù)值進(jìn)行平移變換,隨后分別旋轉(zhuǎn)4個(gè)角度,即每張圖像先進(jìn)行9種組合平移操作,再分別進(jìn)行4種旋轉(zhuǎn)變換,共經(jīng)歷36種幾何變換組合.幾何變換模塊為每張變換后的圖像生成一個(gè)大小為1×3的標(biāo)簽矩陣,該矩陣由水平平移操作(TH={TH0,TH1,TH2})的標(biāo)簽h(h∈H={0, 1, 2}, 垂直平移操作(TV={TV0,TV1,TV2})的標(biāo)簽v(v∈V={0, 1, 2})和旋轉(zhuǎn)操作(TR={T0,T1,T2,T3})的標(biāo)簽r(r∈R={0, 1, 2, 3})拼接而成.變換后的圖像和偽標(biāo)簽一起被送入特征提取網(wǎng)絡(luò)并進(jìn)行監(jiān)督學(xué)習(xí).
圖3 自動(dòng)識(shí)別標(biāo)準(zhǔn)切面模塊的網(wǎng)絡(luò)框架Fig.3 The framework of the standard plane automatic recognition network
本實(shí)驗(yàn)使用Resnet34[24]作為特征提取網(wǎng)絡(luò),提取的圖像特征分別送入3個(gè)softmax層進(jìn)行標(biāo)簽預(yù)測(cè),則由預(yù)測(cè)標(biāo)簽與自監(jiān)督標(biāo)簽得到的損失函數(shù)為
(1)
其中,LCE為交叉熵?fù)p失函數(shù);pt(t|y)(t∈{TH,TV,TR})表示網(wǎng)絡(luò)對(duì)操作t的softmax預(yù)測(cè)值;y=T(x)為經(jīng)過(guò)幾何變換模塊后的圖像.
預(yù)測(cè)時(shí),輸入一張未知圖像,經(jīng)過(guò)幾何變換后送入監(jiān)督學(xué)習(xí)模塊.網(wǎng)絡(luò)預(yù)測(cè)圖像的3種變換的標(biāo)簽值,并計(jì)算出標(biāo)準(zhǔn)置信度為
(2)
由式(2)可見(jiàn),若輸入的圖像越標(biāo)準(zhǔn),網(wǎng)絡(luò)預(yù)測(cè)的幾何變換組合越準(zhǔn)確,S值越大.最后手動(dòng)定義一個(gè)分類的閾值t, 若S>t, 則該圖最終預(yù)測(cè)為標(biāo)準(zhǔn)切面;反之,則為非標(biāo)準(zhǔn)切面.找到驗(yàn)證集分類性能最好的分類閾值,作為該網(wǎng)絡(luò)的最佳閾值.
自動(dòng)識(shí)別標(biāo)準(zhǔn)切面模塊輸出的標(biāo)準(zhǔn)切面圖,進(jìn)入自動(dòng)測(cè)量模塊.為實(shí)現(xiàn)自動(dòng)測(cè)量α角和β角功能,需獲取3條測(cè)量線,而這些測(cè)量線又依賴于關(guān)鍵解剖結(jié)構(gòu)的輪廓(圖1(d)),因此,該模塊首先需要提取出髂骨、髂骨下緣和盂唇的輪廓線.通常使用分割網(wǎng)絡(luò)提取關(guān)鍵結(jié)構(gòu)的語(yǔ)義信息,再計(jì)算出輪廓線.該過(guò)程存在兩個(gè)困難:① 由于超聲圖像質(zhì)量較差、結(jié)構(gòu)邊緣辨模糊,不同結(jié)構(gòu)間辨識(shí)度低,語(yǔ)義分割網(wǎng)絡(luò)的精度難以得到保證;② 大型網(wǎng)絡(luò)的推理速度較慢,難以達(dá)到實(shí)時(shí)輔助篩查的速度.
與語(yǔ)義分割任務(wù)不同,實(shí)例分割對(duì)每一個(gè)目標(biāo)同時(shí)預(yù)測(cè)位置和輪廓信息.引入位置信息可以輔助提升分割精度,并有效改善誤分割問(wèn)題.實(shí)例分割網(wǎng)絡(luò)分為雙階段模式和單階段模式.雙階段模式如mask R-CNN[25],需要先對(duì)目標(biāo)區(qū)域檢測(cè),再對(duì)檢測(cè)區(qū)域內(nèi)部結(jié)構(gòu)進(jìn)行分割,兩階段串行進(jìn)行,計(jì)算效率低.單階段實(shí)例分割網(wǎng)絡(luò)如Yolact[26]等,舍棄了耗時(shí)的區(qū)域定位操作,因此盡管犧牲了少量精度,但大幅提高了推理速度.
本研究提出一種能夠自動(dòng)測(cè)量的快速實(shí)例分割網(wǎng)絡(luò)FIN,結(jié)構(gòu)如圖4.由圖4可見(jiàn),髖關(guān)節(jié)圖像需先經(jīng)過(guò)特征提取模塊,提取出圖像特征再分別送入原型掩膜生成模塊和預(yù)測(cè)模塊.前者用于生成固定數(shù)量的原型掩膜,后者用于生成原型掩膜的系數(shù),二者結(jié)合可計(jì)算出最終的分割結(jié)果,并基于此結(jié)果出測(cè)量α角和β角.
圖4 自動(dòng)快速實(shí)例網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The framework of the fast instance network
1)特征提取網(wǎng)絡(luò)使用特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)[27]作為骨干結(jié)構(gòu).卷積神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)深度的增加,生成的特征圖(C1~C5)空間分辨率逐漸變小,形成金字塔結(jié)構(gòu).淺層的網(wǎng)絡(luò)輸出高分辨率特征圖,包含大量紋理特征和少量語(yǔ)義特征;深層的網(wǎng)絡(luò)輸出低分辨率特征圖,包含少量紋理特征和大量語(yǔ)義特征.FPN將自下而上和自上而下的兩個(gè)金字塔網(wǎng)絡(luò)橫向連接在一起,因此每層輸出的特征圖(P3~P7)融合了不同尺度的紋理特征和語(yǔ)義特征,有效提升了精度.在本實(shí)驗(yàn)中,骨干網(wǎng)絡(luò)采用Resnet50-FPN網(wǎng)絡(luò)結(jié)構(gòu).
2)原型掩膜生成模塊使用FCN結(jié)構(gòu),輸入FPN的特征圖P3,經(jīng)過(guò)若干3×3卷積和一個(gè)1×1卷積操作后,輸出尺寸為138×138×k像素的原型掩膜.其中,k為原型掩膜的個(gè)數(shù);138×138為一個(gè)原型掩膜的圖像分辨率.
3)預(yù)測(cè)模塊輸入5張?zhí)卣鲌DP3~P7, 預(yù)先定義對(duì)每個(gè)像素點(diǎn)生成固定長(zhǎng)寬比的3個(gè)錨框,因此對(duì)于一張分辨率為Wi×Hi的特征圖Pi(i為特征圖序號(hào),i=3, 4,…, 7,), 共生成Wi×Hi×3個(gè)錨框,其中每個(gè)錨框需要3種類型的預(yù)測(cè)結(jié)果:類別置信度、邊界框偏移量和掩膜系數(shù).
特征圖Pi經(jīng)過(guò)2個(gè)3×3卷積層后,得到尺寸為Wi×Hi×256的特征圖.隨后分別進(jìn)入3個(gè)平行的預(yù)測(cè)分支:一個(gè)用于分類預(yù)測(cè),輸出c個(gè)類別的置信度;一個(gè)用于回歸邊界框的4個(gè)偏移量;一個(gè)用于掩膜系數(shù)預(yù)測(cè),對(duì)于k個(gè)原型掩膜,該分支也將輸出k個(gè)系數(shù).因此,對(duì)于特征圖Pi, 該模塊共輸出ai=(c+4+k)×Wi×Hi×3個(gè)預(yù)測(cè)值.最后,將所有特征圖的預(yù)測(cè)結(jié)果進(jìn)行拼接,得到所有錨框的預(yù)測(cè)值.
通過(guò)預(yù)測(cè)模塊獲得候選框的集合,由于框體之間存在大量重疊,還需進(jìn)行篩選才能獲得最合適的檢測(cè)框結(jié)果,此操作被稱為非極大值抑制(non-maximum suppression, NMS).傳統(tǒng)的NMS方法順序計(jì)算所有框之間的重疊程度,耗時(shí)巨大.為加快推理速度,F(xiàn)IN使用快速NMS方法[26],通過(guò)并行計(jì)算進(jìn)行加速.首先,網(wǎng)絡(luò)輸出c個(gè)類別的n個(gè)檢測(cè)框,對(duì)于每個(gè)類別,n個(gè)檢測(cè)框按類別得分降序排列,生成一個(gè)大小為n×n的矩陣;計(jì)算該矩陣與自身的交并比(intersection over union, IoU),獲得IoU矩陣X;對(duì)X進(jìn)行上三角化,得到X′;對(duì)X′按列取最大值,并與NMS閾值進(jìn)行比較,保留小于閾值的候選框,即為最后的檢測(cè)框.
預(yù)測(cè)模塊輸出的掩膜系數(shù)和原型掩膜,可通過(guò)線性組合生成預(yù)測(cè)的掩膜,即
M=σ(PCT)
(3)
其中,P為大小為Wi×Hi×k的原型掩膜矩陣;C為大小為m×k的掩膜系數(shù)矩陣,m為實(shí)例個(gè)數(shù);σ(·)為sigmoid函數(shù).計(jì)算得到的掩膜經(jīng)過(guò)檢測(cè)框裁剪,只保留邊框內(nèi)部的掩膜為最終預(yù)測(cè)掩膜.
該網(wǎng)絡(luò)的損失函數(shù)為
L=Lcls+Lbox+Lmask
(4)
其中,Lcls為分類損失函數(shù);Lbox為檢測(cè)損失函數(shù),二者詳細(xì)計(jì)算方式可見(jiàn)單階段多目標(biāo)檢測(cè)網(wǎng)絡(luò)(single shot multibox detector, SSD)[28],掩膜預(yù)測(cè)的損失函數(shù)Lmask為預(yù)測(cè)掩膜M和金標(biāo)準(zhǔn)(ground truth, GT)掩膜MGT之間的二進(jìn)制交叉熵(binary cross entropy, BCE),即Lmask=BCE(M,MGT).
除了3個(gè)測(cè)量所需的解剖結(jié)構(gòu),本研究額外增加了骨-軟骨結(jié)合處的實(shí)例分割,因?yàn)樵摻Y(jié)構(gòu)為標(biāo)準(zhǔn)切面的必備結(jié)構(gòu)之一,將其展示在圖像上有助于醫(yī)生辨識(shí)、強(qiáng)化理解標(biāo)準(zhǔn)切面的特征.
本研究共采集634例嬰兒髖關(guān)節(jié)超聲數(shù)據(jù),每例包含左右兩側(cè)髖關(guān)節(jié)的標(biāo)準(zhǔn)切面圖,其中185例包含髖關(guān)節(jié)超聲視頻.所有數(shù)據(jù)采集自廣東省婦幼保健院超聲科,超聲設(shè)備的型號(hào)為日立HIVSON,詳細(xì)數(shù)據(jù)分布如表1.其中,用于標(biāo)準(zhǔn)切面分類實(shí)驗(yàn)的185個(gè)病例包含329個(gè)超聲視頻,每個(gè)視頻均由高年資醫(yī)生(臨床經(jīng)驗(yàn)10年及以上)逐幀標(biāo)注出是否為標(biāo)準(zhǔn)切面.用于自動(dòng)測(cè)量實(shí)驗(yàn)的634個(gè)病例,包含1 321張超聲標(biāo)準(zhǔn)切面圖像,每個(gè)病例包含左右兩側(cè)髖關(guān)節(jié)圖像,每張圖均由高年資醫(yī)生標(biāo)注出4個(gè)關(guān)鍵解剖結(jié)構(gòu)(髂骨、髂骨下緣、盂唇和骨-軟骨結(jié)合處)的輪廓.
表1 標(biāo)準(zhǔn)切面分類數(shù)據(jù)和自動(dòng)測(cè)量實(shí)驗(yàn)集分布Table 1 Dataset of stand plane classification and automatic measurement 個(gè)
2.2.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)將該網(wǎng)絡(luò)和常見(jiàn)的單分類網(wǎng)絡(luò)進(jìn)行對(duì)比.訓(xùn)練時(shí)僅使用約30%的標(biāo)準(zhǔn)切面,且不使用非標(biāo)準(zhǔn)切面,數(shù)據(jù)集劃分如表2.所有圖像統(tǒng)一縮放至224×224像素,且經(jīng)過(guò)圖像標(biāo)準(zhǔn)化的處理,即圖像像素矩陣減去其均值并除以其標(biāo)準(zhǔn)差.
表2 少樣本單分類網(wǎng)絡(luò)數(shù)據(jù)集劃分Table 2 Dataset partition of few-shot one class classifier 張
實(shí)驗(yàn)使用的單分類網(wǎng)絡(luò)有:① OCSVM.由于方向梯度直方圖(histogram of oriented gradient, HOG)能夠有效提取超聲圖像的特征[29],因此先用該方法提取髖關(guān)節(jié)圖像的63 504維特征,再使用SVM學(xué)習(xí)特征向量并進(jìn)行分類.② deep SVDD[18].基于單類別SVM的思想,使用神經(jīng)網(wǎng)絡(luò)擬合出一個(gè)包裹所有標(biāo)準(zhǔn)切面特征的超球體,通過(guò)最小化超球面的半徑來(lái)迭代優(yōu)化網(wǎng)絡(luò)模型.推理時(shí),該模型將未知圖像映射到特征空間,可計(jì)算出該圖像特征與超球體的位置關(guān)系.若該樣本在球體內(nèi)部,則認(rèn)為該圖像為標(biāo)準(zhǔn)切面;反之,則為非標(biāo)準(zhǔn)切面.實(shí)驗(yàn)使用Resnet34作為特征提取的主干網(wǎng)絡(luò),并丟棄最后的分類層,以特征空間原點(diǎn)為球心建立超球體模型,提取512維圖像特征計(jì)算超球體的半徑.③ Ganomaly[22].該方法基于兩個(gè)一致性原理,即重建圖與原圖一致、重建圖的編碼與原圖的編碼一致,構(gòu)造出編碼-解碼-編碼的網(wǎng)絡(luò)結(jié)構(gòu),并融入對(duì)抗訓(xùn)練的思想,使網(wǎng)絡(luò)同時(shí)學(xué)習(xí)到訓(xùn)練樣本的圖像特征和隱空間特征.④ FOC.使用pytorch學(xué)習(xí)框架,學(xué)習(xí)率為5×10-4,優(yōu)化器為隨機(jī)梯度下降法(stochastic gradient descent, SGD),共迭代100個(gè)epoch.操作系統(tǒng)為L(zhǎng)inux,使用兩塊GPU進(jìn)行訓(xùn)練,型號(hào)為NVIDIA GTX 2080Ti.
單分類網(wǎng)絡(luò)輸出為圖像的標(biāo)準(zhǔn)置信度,無(wú)法根據(jù)訓(xùn)練集確定合適的分類閾值,因此實(shí)驗(yàn)使用需要包含標(biāo)準(zhǔn)切面和非標(biāo)準(zhǔn)切面的驗(yàn)證集的輔助驗(yàn)證,選取最優(yōu)模型.上述實(shí)驗(yàn)均使用五折交叉驗(yàn)證.
2.2.2 評(píng)估指標(biāo)
分類網(wǎng)絡(luò)的評(píng)估指標(biāo)包含接受者操作特征曲線下面積(area under the receiver operating characteristic curve, AUROC)、平均精度(average precision, AP)、FPR95、準(zhǔn)確率(accuracy, ACC)、精確率(precision)、召回率(recall)和F1值.其中,F(xiàn)PR95為常見(jiàn)的單分類性能評(píng)估指標(biāo)之一,表示TPR為95%時(shí)FPR的值,即陽(yáng)性樣本中的95%被正確分類時(shí),陰性樣本中被誤分類為陽(yáng)性的比例,其值越小越好.在得到標(biāo)準(zhǔn)置信度的ROC曲線后,通過(guò)約登指數(shù)計(jì)算出最佳分類閾值,置信度高于此閾值,則認(rèn)為該圖為標(biāo)準(zhǔn)切面;反之,則為非標(biāo)準(zhǔn).根據(jù)分類結(jié)果,可計(jì)算出ACC、precision、recall和F1值.
2.2.3 實(shí)驗(yàn)結(jié)果與分析
表4為不同分類網(wǎng)絡(luò)性能的定量評(píng)估結(jié)果.由表4可見(jiàn),F(xiàn)OC網(wǎng)絡(luò)的所有指標(biāo)均優(yōu)于其他單分類網(wǎng)絡(luò).圖5為不同分類網(wǎng)絡(luò)的AUROC曲線的對(duì)比.由圖5可見(jiàn),F(xiàn)OC網(wǎng)絡(luò)的曲線高于其他網(wǎng)絡(luò),說(shuō)明在僅使用少量樣本的情況下,其分類性能明顯優(yōu)于其他單分類網(wǎng)絡(luò).原因在于幾何變換的組合擴(kuò)增了訓(xùn)練樣本量;監(jiān)督網(wǎng)絡(luò)識(shí)別幾何變換,可以促使網(wǎng)絡(luò)學(xué)習(xí)到標(biāo)準(zhǔn)切面的關(guān)鍵特征.
圖5 不同分類網(wǎng)絡(luò)ROC曲線對(duì)比Fig.5 Comparison of receiver operating characteristic curve of different classification networks
臨床上DDH超聲篩查更看重視頻中的標(biāo)準(zhǔn)切面能被正確識(shí)別的比例,即recall值越高越好.由表4可見(jiàn),F(xiàn)OC網(wǎng)絡(luò)的recall值明顯高于其他分類器,表明其實(shí)用價(jià)值更高.但是,F(xiàn)OC網(wǎng)絡(luò)對(duì)非標(biāo)準(zhǔn)切面的識(shí)別能力較差,易將非標(biāo)準(zhǔn)切面誤判為標(biāo)準(zhǔn)切面,尤其是在識(shí)別一些接近標(biāo)準(zhǔn)但非標(biāo)準(zhǔn)的切面圖像時(shí).如圖6(b)的非標(biāo)準(zhǔn)切面,髂骨下緣不夠清晰,但整體形態(tài)非常接近標(biāo)準(zhǔn)切面,由于FOC網(wǎng)絡(luò)沒(méi)有學(xué)習(xí)過(guò)此類負(fù)樣本的圖像特征,處理細(xì)微結(jié)構(gòu)差異的能力較差,因此將其誤判為標(biāo)準(zhǔn)切面.
圖6 FOC網(wǎng)絡(luò)分類結(jié)果示例Fig.6 Examples of classification results of FOC network
表4 不同單分類網(wǎng)絡(luò)性能的定量評(píng)估結(jié)果1),2)Table 4 Quantitative evaluation results of different classification networks %
2.3.1 實(shí)驗(yàn)設(shè)置
本實(shí)驗(yàn)將提出的自動(dòng)測(cè)量網(wǎng)絡(luò)與常用的語(yǔ)義分割網(wǎng)絡(luò)對(duì)比.由于語(yǔ)義分割網(wǎng)絡(luò)只輸出分割結(jié)果,為保證結(jié)果一致性,使用分割結(jié)果生成最小外接框并計(jì)算檢測(cè)相關(guān)的指標(biāo).所有網(wǎng)絡(luò)輸入圖像大小均設(shè)為512×512像素,且經(jīng)過(guò)旋轉(zhuǎn)、平移、縮放和亮度變換等數(shù)據(jù)增強(qiáng)操作.
進(jìn)行對(duì)比實(shí)驗(yàn)的網(wǎng)絡(luò)包括:① FCN:先使用卷積網(wǎng)絡(luò)提取圖像特征,再通過(guò)反卷積將特征圖恢復(fù)到原圖大小,最后對(duì)每一個(gè)像素生成一個(gè)類別標(biāo)簽,從而實(shí)現(xiàn)語(yǔ)義分割.本實(shí)驗(yàn)中使用VGG16作為FCN的特征提取網(wǎng)絡(luò).② Unet:該網(wǎng)絡(luò)通過(guò)跳躍連接,將不同尺度的特征圖依次融合入上采樣的過(guò)程,使網(wǎng)絡(luò)有效學(xué)習(xí)到多尺度的特征,提高了分割精度,已在醫(yī)學(xué)圖像領(lǐng)域得到廣泛應(yīng)用.③ deeplab V3[30]:基于Resnet網(wǎng)絡(luò)結(jié)構(gòu)的多重網(wǎng)格操作和改進(jìn)的空洞金字塔池化操作,能有效提取多尺度的圖像特征信息.在本實(shí)驗(yàn)中使用Resnet34作為骨干網(wǎng)絡(luò).④ FIN:使用pytorch學(xué)習(xí)框架,學(xué)習(xí)率為1×10-4,優(yōu)化器為SGD,共迭代150個(gè)epoch.操作系統(tǒng)為L(zhǎng)inux,使用一塊型號(hào)為NVIDIA GTX 2080Ti的GPU進(jìn)行訓(xùn)練.上述實(shí)驗(yàn)均使用五折交叉驗(yàn)證.
2.3.2 評(píng)估指標(biāo)
1)檢測(cè)指標(biāo):① 平均交并比(mean intersection over union, mIoU),即所有類別預(yù)測(cè)框與真實(shí)框之間IoU的均值,反應(yīng)了檢測(cè)框與真實(shí)框之間的相似度,該值越大越好;② 平均精度均值(mean average precision, mAP),即所有類別的平均精度的均值.手動(dòng)設(shè)定一個(gè)閾值,當(dāng)IoU大于該閾值,則認(rèn)為該預(yù)測(cè)框預(yù)測(cè)正確,反之則錯(cuò)誤.設(shè)置不同閾值,可以計(jì)算不同的precision和recall值,并計(jì)算出平均精度.mAP值越大越好.
2)分割指標(biāo):① Dice相似性系數(shù)(Dice similarity coefficient, DSC)用于評(píng)估兩個(gè)分割區(qū)域X和Y的相似性,即
(5)
在本研究中, DSC(X,Y)用于計(jì)算網(wǎng)絡(luò)分割結(jié)果和標(biāo)注結(jié)果的相似度,其值越大相似度越高;② Jaccard系數(shù)(Jaccard coefficient, JAC)用于衡量?jī)蓚€(gè)分割區(qū)域X和Y之間的相似性,即
(6)
JAC值越大表明兩個(gè)區(qū)間相似度越高;③ Hausdorff距離(Hausdorff distance, HD)用于描述兩個(gè)分割區(qū)域X和Y邊緣之間的距離,即
(7)
其中,x和y分別區(qū)域X和Y中的點(diǎn);d(x,y)表示點(diǎn)x和點(diǎn)y之間的歐氏距離;sup代表上確界;inf代表下確界.HD值越小越好;④平均表面距離(average surface distance, ASD)表示分割結(jié)果X的所有的到表面距離的平均值,即
(8)
其中,S(X)和S(Y)分別表示分割區(qū)域X和Y的邊緣線,sX和sY為X和Y的邊緣點(diǎn);d(sX,sY)為sX和sY的歐式距離.ASD值越小越好.
3)測(cè)量指標(biāo):采用平均絕對(duì)誤差(mean absolute error, MAD)計(jì)算預(yù)測(cè)角度與標(biāo)準(zhǔn)角度之間的絕對(duì)誤差,該值越小表示角度預(yù)測(cè)越準(zhǔn)確.
4)推理速度:采用每秒處理幀數(shù)(frames per second, FPS)反應(yīng)網(wǎng)絡(luò)推理的速度.為保證結(jié)果公正,本實(shí)驗(yàn)中的時(shí)間計(jì)算考慮到網(wǎng)絡(luò)推理和自動(dòng)測(cè)量,且不同網(wǎng)絡(luò)的測(cè)量操作相同.
此外,在計(jì)算檢測(cè)和分割指標(biāo)時(shí)去除了背景類,以防大面積的背景對(duì)結(jié)果可靠性造成影響.
2.3.3 實(shí)驗(yàn)結(jié)果與分析
表5為不同網(wǎng)絡(luò)的目標(biāo)檢測(cè)和分割性能.由表5可見(jiàn),F(xiàn)IN網(wǎng)絡(luò)的所有指標(biāo)都優(yōu)于其他網(wǎng)絡(luò),其中mIoU和mAP值高說(shuō)明該網(wǎng)絡(luò)對(duì)解剖結(jié)構(gòu)的定位更精準(zhǔn);DSC和JAC指標(biāo)高說(shuō)明該網(wǎng)絡(luò)對(duì)解剖結(jié)構(gòu)的分割更準(zhǔn)確;HD和ASD值低說(shuō)明該網(wǎng)絡(luò)在結(jié)構(gòu)輪廓上的分割更好;FPS=33.88幀/s,符合實(shí)時(shí)測(cè)量的要求.雖然FCN的FPS也超過(guò)了30幀/s,但它們?cè)诜指钆c檢測(cè)的任務(wù)上表現(xiàn)欠佳.可見(jiàn),單階段的實(shí)例分割網(wǎng)絡(luò)架構(gòu)和快速NMS方法能夠有效使FIN兼顧了速度與精準(zhǔn)度,綜合性能優(yōu)于其他分割網(wǎng)絡(luò).
表5 不同網(wǎng)絡(luò)目標(biāo)檢測(cè)及分割性能的定量評(píng)估結(jié)果1)2)Table 5 Quantitative evaluation results of object detection and segmentation performance of different networks
圖7為不同網(wǎng)絡(luò)分割結(jié)果的定性展示,限于篇幅,更多定性對(duì)比分割結(jié)果圖請(qǐng)掃描論文頁(yè)末右下角二維碼查看補(bǔ)充材料圖S1.其中,圖7(a)為醫(yī)生標(biāo)注的標(biāo)準(zhǔn)圖;圖7(b)—(d)為不同語(yǔ)義分割網(wǎng)絡(luò)輸出結(jié)果;圖7(e)為FIN的分割結(jié)果.由圖7可見(jiàn),語(yǔ)義分割網(wǎng)絡(luò)的輸出結(jié)果會(huì)出現(xiàn)分割缺失的現(xiàn)象,如盂唇分割不全(圖7(c)紅色區(qū)域)和骨軟骨結(jié)合處分割不全(圖7(d)紫色區(qū)域)等;也會(huì)出現(xiàn)誤分割的現(xiàn)象,將其他結(jié)構(gòu)識(shí)別為目標(biāo)結(jié)構(gòu)(圖7(b)綠色區(qū)域、圖7(d)綠色和紫色區(qū)域)等.補(bǔ)充材料圖S1從更多方面展示了語(yǔ)義分割的誤差,例如平直髂骨誤分割為髂骨下緣(第1行第2第3列綠色區(qū)域)、骨軟骨交界處誤分割為平直髂骨(第2行第3列藍(lán)色區(qū)域)等.上述分割的誤差不僅影響結(jié)構(gòu)的標(biāo)識(shí),也會(huì)影響角度測(cè)量的精度.與語(yǔ)義分割網(wǎng)絡(luò)相比,F(xiàn)IN網(wǎng)絡(luò)明顯改善了上述問(wèn)題,同時(shí)在分割的完整性上得到了提升,原因在于多任務(wù)的學(xué)習(xí)模式使得各個(gè)任務(wù)之間互相促進(jìn),同時(shí)檢測(cè)任務(wù)可有效過(guò)濾了非目標(biāo)區(qū)域的誤分割結(jié)果.
補(bǔ)充材料
圖7 不同網(wǎng)絡(luò)分割結(jié)果定性展示Fig.7 Qualitative display of different network segmentation results
表6為不同網(wǎng)絡(luò)自動(dòng)測(cè)角的MAD性能.其中,F(xiàn)IN網(wǎng)絡(luò)有著最高的測(cè)量精度,α角的MAD為2.48°,β角的MAD為4.38°,二者均為最低.圖8可視化了FIN角度測(cè)量結(jié)果,與標(biāo)準(zhǔn)測(cè)量值誤差很?。瑫r(shí),該實(shí)驗(yàn)額外統(tǒng)計(jì)不同醫(yī)生間手工測(cè)量的誤差.對(duì)于每一張測(cè)試用圖,由高年資醫(yī)生標(biāo)注出標(biāo)準(zhǔn)數(shù)值,再由其他醫(yī)生獨(dú)立手動(dòng)測(cè)量一遍,二者的差值即為手工測(cè)量誤差.由表6可見(jiàn),F(xiàn)IN網(wǎng)絡(luò)的角度誤差小于手工測(cè)量誤差,說(shuō)明該方法可減少不同醫(yī)生之間的測(cè)量差異,輔助臨床篩查更標(biāo)準(zhǔn)化和精確化.
圖8 FIN網(wǎng)絡(luò)自動(dòng)測(cè)量角度結(jié)果可視化示例Fig.8 Example of FIN network automatic angle measurement results
表6 不同網(wǎng)絡(luò)自動(dòng)測(cè)量結(jié)果與標(biāo)準(zhǔn)值的MAD1)Table 6 MAD between automatic measurement results and standard values of different networks
提出一個(gè)智能化DDH輔助診斷系統(tǒng),讀取嬰兒髖關(guān)節(jié)超聲視頻后,通過(guò)FOC網(wǎng)絡(luò)模塊自動(dòng)識(shí)別標(biāo)準(zhǔn)切面,隨后將標(biāo)準(zhǔn)切面輸入FIN模塊,快速測(cè)量出α角和β角后,再將可視化測(cè)量結(jié)果展示于關(guān)鍵解剖結(jié)構(gòu)標(biāo)識(shí).與其他基準(zhǔn)網(wǎng)絡(luò)OCSVM、deep SVDD和Ganomaly的對(duì)比實(shí)驗(yàn)結(jié)果表明,F(xiàn)OC網(wǎng)絡(luò)對(duì)標(biāo)準(zhǔn)切面的識(shí)別存在明顯優(yōu)勢(shì).FIN網(wǎng)絡(luò)在速度和精度上均優(yōu)于FCN、Unet和deeplab V3網(wǎng)絡(luò).該系統(tǒng)對(duì)標(biāo)注數(shù)據(jù)量的要求較低,可提升DDH臨床篩查的同質(zhì)化水平,控制測(cè)量質(zhì)量,提高臨床醫(yī)生的工作效率.