胡靜,陳飛,龔筱欽,游濤,張開軍,戴春華
江蘇大學(xué)附屬醫(yī)院 放療科,江蘇 鎮(zhèn)江 212000
在放療中,臨床靶區(qū)(Clinical Target Volume,CTV)及危及器官(Organs at Risk,OARs)的勾畫在放射治療過程中發(fā)揮關(guān)鍵作用,但是由于手動(dòng)勾畫不僅費(fèi)時(shí)費(fèi)力,而且主觀性較強(qiáng),因此醫(yī)療圖像自動(dòng)勾畫技術(shù)已成為腫瘤放療領(lǐng)域的研究熱點(diǎn)[1-3]。2006年,Hinton等[4]提出深度學(xué)習(xí)理論后,以卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)為基礎(chǔ)的深度學(xué)習(xí)方法迅速興起[5-6]。U-net作為一種全卷積神經(jīng)網(wǎng)絡(luò),因其可利用較少數(shù)據(jù)訓(xùn)練就能獲得準(zhǔn)確分割結(jié)果的特點(diǎn),被廣泛應(yīng)用于醫(yī)學(xué)圖像深度學(xué)習(xí)自動(dòng)勾畫中[7-8]。但是臨床實(shí)際應(yīng)用中發(fā)現(xiàn)通用的訓(xùn)練模型無法適用于多家放療中心,因此有研究者建議使用各中心數(shù)據(jù)單獨(dú)進(jìn)行深度學(xué)習(xí)從而形成可自用的新模型[9-10]。
已有研究表明,深度學(xué)習(xí)遵循數(shù)據(jù)量越大學(xué)習(xí)效果越好的原則[11]。但由于臨床高質(zhì)量數(shù)據(jù)較為稀缺且較難獲得,大量的數(shù)據(jù)收集會(huì)額外增加臨床工作壓力,且當(dāng)訓(xùn)練量達(dá)到一定數(shù)量時(shí),其自動(dòng)勾畫效果可能并無明顯提高,所以建模前能確定所需訓(xùn)練樣本量對(duì)各放療中心能更好地應(yīng)用深度學(xué)習(xí)訓(xùn)練平臺(tái)有重要指導(dǎo)意義[11-12]。AccuLearning(AL)是由Manteia(中國)公司研發(fā)設(shè)計(jì)的一款基于U-net網(wǎng)絡(luò)的深度學(xué)習(xí)平臺(tái),運(yùn)用該平臺(tái)訓(xùn)練少量數(shù)據(jù)即可形成新的模型,從而應(yīng)用于臨床,且推薦訓(xùn)練量為30例。訓(xùn)練集樣本量對(duì)于自動(dòng)勾畫效果有一定影響,且該影響可能與算法模型本身的魯棒性以及結(jié)構(gòu)的固有特性有關(guān)。目前尚無學(xué)者對(duì)宮頸癌CTV及OARs訓(xùn)練樣本量和自動(dòng)勾畫效果之間關(guān)系進(jìn)行研究,基于此,本研究應(yīng)用AL深度學(xué)習(xí)平臺(tái)對(duì)宮頸癌CTV及OARs進(jìn)行訓(xùn)練,探討不同訓(xùn)練數(shù)據(jù)量對(duì)自動(dòng)勾畫精度的影響,以期為AL深度學(xué)習(xí)平臺(tái)應(yīng)用于臨床提供數(shù)據(jù)參考。
排除復(fù)發(fā)性腫瘤、確診時(shí)已存在遠(yuǎn)處轉(zhuǎn)移、既往患其他惡性腫瘤、既往接受過盆腔手術(shù)/放療、伴發(fā)嚴(yán)重疾病如心肺功能異常等患者。選取2018年6月至2020年12月我院收治的140例宮頸癌患者,年齡37~82歲(中位值58歲),體重44~71 kg(中位值60 kg),其中,根治性放療患者61例,術(shù)后輔助性放療患者79例。研究涉及的相關(guān)倫理經(jīng)醫(yī)院科研倫理委員會(huì)審核通過(批件號(hào):KY2021K0901)。
定位時(shí)患者取仰臥位,使用真空墊固定。采用飛利浦模擬大孔徑CT(Philips CTBigbore)實(shí)施層厚、層間距均為3 mm的定位CT掃描。
AL深度訓(xùn)練平臺(tái)后端由數(shù)據(jù)管理器、模型訓(xùn)練器、模型評(píng)估和模型部署4個(gè)組件組成。數(shù)據(jù)管理器主要功能是數(shù)據(jù)清理,即自動(dòng)標(biāo)準(zhǔn)化訓(xùn)練數(shù)據(jù)中的結(jié)構(gòu)名稱。模型訓(xùn)練器的網(wǎng)絡(luò)結(jié)構(gòu)是一種類似于2D U-net的自適應(yīng)結(jié)構(gòu)(圖1),其可根據(jù)采樣窗口的大小自動(dòng)地調(diào)整下采樣層的數(shù)量和卷積層的數(shù)量,默認(rèn)設(shè)置包含5個(gè)最大池化層和5個(gè)上采樣層,基礎(chǔ)的卷積核通道數(shù)為32,尺寸為3×3,在每個(gè)卷積層后面都有批標(biāo)準(zhǔn)化(Batch Norm)層和線性整流函數(shù)(ReLU),在編碼器和解碼器之間以級(jí)聯(lián)的方式進(jìn)行躍層連接。AL模型評(píng)估以及部署功能是指自動(dòng)獲取參數(shù)分析模型效果,并保留相關(guān)信息和模型共同輸出。本研究模型訓(xùn)練時(shí)設(shè)置數(shù)據(jù)集遍歷輪次Epoch為100,損失函數(shù)類型為Dice損失函數(shù),學(xué)習(xí)率為0.0003,窗口采樣方式為Label_balanced,單次迭代樣本量batchsize為16,優(yōu)化器選擇Adam。
由1名放療主治醫(yī)師在瓦里安Eclipse13.6計(jì)劃系統(tǒng)中手動(dòng)勾畫宮頸癌CTV及OARs,包括腸袋、骨髓、雙側(cè)股骨頭、直腸、膀胱,并由2名主任醫(yī)師審核確認(rèn),并定義手動(dòng)勾畫為參考勾畫(Vreference,Vref),自動(dòng)勾畫為Vautomatic(Vauto)。隨機(jī)抽取120例患者CT數(shù)據(jù)作為深度學(xué)習(xí)訓(xùn)練集,其余20例作為測(cè)試集。從120例訓(xùn)練集中選取15例訓(xùn)練算法模型,再逐步增加訓(xùn)練量至30、60、90、120例,分別應(yīng)用5組算法模型對(duì)20例測(cè)試集進(jìn)行宮頸癌CTV及OARs的自動(dòng)勾畫測(cè)試,自動(dòng)勾畫結(jié)果分別定義為 V15、V30、V60、V90、V120,并與 Vref比較,獲取相關(guān)評(píng)價(jià)參數(shù)進(jìn)行比較分析,實(shí)驗(yàn)流程如圖2所示。
圖2 勾畫工作流程
相似性系數(shù)(Dice Similarity Coefficient,DSC)用于評(píng)價(jià)勾畫形狀的一致性,DSC值范圍為0~1,越接近1,表示勾畫相似度越高;豪斯多夫距離(Hausdorff Distance,HD)用于評(píng)價(jià)位置差異性,其值越大,說明重復(fù)性越低;相對(duì)體積誤差(Relative Volume Difference,RVD)用于評(píng)價(jià)自動(dòng)勾畫結(jié)構(gòu)體積的精確性,結(jié)果以其絕對(duì)值的百分比表示[13]。
由主任醫(yī)師對(duì)自動(dòng)勾畫結(jié)果逐層評(píng)價(jià),評(píng)價(jià)標(biāo)準(zhǔn):4分:自動(dòng)勾畫結(jié)果可接受,臨床無須修改;3分:自動(dòng)勾畫結(jié)果可接受,但需要進(jìn)行小幅度修改;2分:自動(dòng)勾畫結(jié)果部分可接受,但需要進(jìn)行大幅度修改;1分:自動(dòng)勾畫結(jié)果不可接受。通常認(rèn)為評(píng)分≥3分適合臨床應(yīng)用,統(tǒng)計(jì)各結(jié)構(gòu)評(píng)分結(jié)果,計(jì)算出各結(jié)構(gòu)適合臨床應(yīng)用層面所占比例(R),計(jì)算方式如公式(1)所示。
式中,s表示該結(jié)構(gòu)評(píng)分≥3分的層數(shù),S表示該結(jié)構(gòu)自動(dòng)勾畫總層數(shù)。
勾畫結(jié)果采用SPSS 22.0軟件進(jìn)行分析,數(shù)據(jù)以±s表示,各項(xiàng)參數(shù)采用隨機(jī)區(qū)組方差分析,并采用LSD-t檢驗(yàn)進(jìn)行兩兩比較,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
如表1所示,CTV的DSC值比較,V15模型自動(dòng)勾畫DSC值明顯低于其他4組,且V90和V120例模型的DSC值高于V30和V60模型的DSC值(P<0.05);腸袋和直腸DSC值比較,V60、V90和V120模型高于V15和V30模型,且腸袋V30模型DSC值高于V15模型(P<0.05);膀胱V90和V120模型DSC值高于其他3組(P<0.05);骨髓、右側(cè)股骨頭和左側(cè)股骨頭各模型之間差異無統(tǒng)計(jì)學(xué)意義(P>0.05)。
表1 不同訓(xùn)練病例數(shù)自動(dòng)勾畫效果量化指標(biāo)比較(±s)
表1 不同訓(xùn)練病例數(shù)自動(dòng)勾畫效果量化指標(biāo)比較(±s)
注:a表示與V15比較,P<0.05;b表示與V30比較,P<0.05;c表示與V60比較,P<0.05。
指標(biāo) 訓(xùn)練量 CTV 腸袋 直腸 膀胱 骨髓 右側(cè)股骨頭 左側(cè)股骨頭DSC V15 0.83±0.03 0.85±0.04 0.85±0.06 0.90±0.07 0.92±0.01 0.94±0.02 0.93±0.02 V30 0.85±0.03a 0.88±0.04a 0.86±0.05 0.90±0.07 0.92±0.01 0.94±0.02 0.94±0.02 V60 0.87±0.03a 0.90±0.04ab 0.88±0.06ab 0.90±0.08 0.92±0.01 0.94±0.02 0.94±0.02 V90 0.88±0.03abc 0.90±0.04ab 0.88±0.06ab 0.92±0.06abc 0.92±0.01 0.94±0.02 0.94±0.02 V120 0.88±0.03abc 0.90±0.04ab 0.87±0.06ab 0.92±0.06abc 0.92±0.01 0.95±0.01 0.94±0.02 F值 39.297 21.704 3.554 12.865 22.474 3.947 2.285 P值 <0.001 <0.001 0.010 <0.001 <0.001 0.073 0.068 HD V15 21.23±6.08 34.86±17.83 18.21±10.64 19.33±20.86 76.89±146.97 5.69±7.97 6.27±7.86 V30 19.32±6.12 26.42±8.42a 18.47±7.60 11.95±12.46 38.55±94.62 5.73±8.65 5.93±8.63a V60 19.25±6.54 23.36±8.55a 16.78±11.70 16.69±17.91 60.68±89.38 5.64±7.94 5.62±7.94a V90 17.29±6.64 22.75±6.43a 16.56±11.57 10.50±9.69 46.05±80.63 5.63±8.66 5.91±8.61a V120 17.88±6.40 22.48±7.81a 16.87±11.04 13.99±17.75 52.07±122.55 5.43±7.98 5.54±7.96a F值 2.045 5.571 0.473 2.120 2.568 0.525 3.288 P值 0.097 0.001 0.755 0.086 0.055 0.718 0.015 RVD/%V15 7.92±6.91 14.55±7.65 12.28±9.69 10.64±9.06 6.76±2.41 88.10±6.17 7.00±4.84 V30 7.08±5.44 12.30±9.99a 15.62±11.90 10.09±9.80 6.26±2.30 86.52±3.90 5.57±4.47 V60 5.35±4.30ab 8.86±7.72ab 11.81±10.17 8.55±8.80 6.39±2.22 91.06±5.07 5.00±2.99 V90 5.77±4.17ab 8.79±6.50ab 11.53±8.91 7.16±6.17 5.40±2.23 88.98±4.34 5.59±3.97 V120 5.66±4.24ab 8.55±6.85ab 11.80±10.14 9.17±9.42 6.61±2.07 87.88±7.81 5.31±3.96 F值 3.551 5.786 2.021 1.316 21.870 0.797 2.223 P值 0.010 <0.001 0.100 0.272 0.106 0.534 0.075
對(duì)于腸袋以及左側(cè)股骨頭HD值,V15模型高于其他4組模型(P<0.05);CTV、直腸、膀胱、骨髓以及右側(cè)股骨頭不同模型之間,HD值無統(tǒng)計(jì)學(xué)差異(P>0.05),且其中CTV、直腸以及右側(cè)股骨頭HD值隨著訓(xùn)練病例數(shù)的增加,HD值呈逐漸下降趨勢(shì)。
對(duì)于CTV以及腸袋,V15和V30模型RVD值高于V60、V90以及V120模型,且腸袋V15模型RVD值高于V30模型(P<0.05);直腸、膀胱、骨髓、右側(cè)股骨頭和左側(cè)股骨頭各模型之間RVD值無統(tǒng)計(jì)學(xué)差異(P>0.05)。
臨床評(píng)估結(jié)果分析如表2所示,對(duì)于CTV,V60、V90和V120模型自動(dòng)勾畫R值高于V15,且V120高于V30模型(P<0.05)。腸袋 V60、V90和V120模型R 值高于 V15模型(P<0.05);直腸、膀胱、骨髓、右側(cè)股骨頭和左側(cè)股骨頭各模型之間R值無統(tǒng)計(jì)學(xué)差異(P>0.05)。各模型自動(dòng)勾畫斷層效果如圖3所示,由圖3可以看出,各模型勾畫效果較好:各模型之間,CTV、腸袋勾畫結(jié)果有一定的差異;直腸、膀胱、骨髓以及雙側(cè)股骨頭勾畫結(jié)果差異較小。
圖3 不同訓(xùn)練量模型自動(dòng)勾畫CT斷層示例
表2 不同訓(xùn)練病例數(shù)自動(dòng)勾畫結(jié)果適合臨床應(yīng)用R值比較(±s,%)
表2 不同訓(xùn)練病例數(shù)自動(dòng)勾畫結(jié)果適合臨床應(yīng)用R值比較(±s,%)
注:a表示與V15比較,P<0.05;b表示與V30比較,P<0.05。
訓(xùn)練量 CTV 腸袋 直腸 膀胱 骨髓 右側(cè)股骨頭 左側(cè)股骨頭V15 50.07±14.38 70.80±10.28 77.07±8.38 67.56±26.20 91.13±3.09 88.10±6.17 91.03±6.47 V30 59.20±15.50 77.81±11.32 70.78±7.45 76.66±22.82 89.61±3.51 86.52±3.90 88.95±6.05 V60 63.36±14.83a 81.47±11.27a 76.96±10.74 68.52±27.36 91.04±2.80 91.06±5.07 87.55±5.75 V90 69.73±13.64a 82.48±14.77a 78.59±9.01 74.31±28.84 92.51±3.09 88.98±4.34 92.09±7.25 V120 71.24±14.45ab 86.22±14.82a 76.44±8.12 76.35±28.13 90.31±2.17 87.88±7.81 92.13±5.76 F值 4.160 2.694 1.051 0.237 1.203 0.797 0.939 P值 0.005 0.040 0.393 0.916 0.324 0.534 0.451
隨著放療技術(shù)的不斷發(fā)展,三維適形調(diào)強(qiáng)放射治療(Intensity Modulated Radiation Therapy,IMRT)被廣泛應(yīng)用于宮頸癌治療中[14]。IMRT具有較高的靶區(qū)及劑量適形性,這對(duì)放療過程中醫(yī)生勾畫腫瘤靶區(qū)及危及器官的精度提出了更高的要求[15-16];而且為了提高放療的準(zhǔn)確性,目前臨床上甚至對(duì)宮頸癌患者實(shí)施了自適應(yīng)放療,但這也增加了醫(yī)生勾畫CTV和OARs的工作量,深度學(xué)習(xí)自動(dòng)勾畫技術(shù)的出現(xiàn)與應(yīng)用則為臨床提供了解決辦法[17-18],但是在深度訓(xùn)練建立自動(dòng)勾畫模型時(shí),選用訓(xùn)練樣本的數(shù)量尚不清楚。Narayana等[19]研究表明,在磁共振中對(duì)腦部多發(fā)性硬化患者行自動(dòng)勾畫時(shí),基于全卷積網(wǎng)絡(luò)深度學(xué)習(xí)訓(xùn)練樣本量大于50例時(shí),即可保證自動(dòng)勾畫具有較好的效果。Fang等[11]基于U-net網(wǎng)絡(luò)對(duì)頭頸部危及器官自動(dòng)勾畫的研究表明,樣本量過小對(duì)自動(dòng)勾畫效果有顯著影響,視神經(jīng)和晶狀體在訓(xùn)練量200例時(shí)能達(dá)到最佳效果的95%,而有些OARs在訓(xùn)練量40例時(shí)就能達(dá)到最佳效果的95%,表明不同結(jié)構(gòu)的勾畫效果與樣本量大小之間存在一定的聯(lián)系。
Zijdenbos等[20]認(rèn)為,DSC>0.7時(shí)自動(dòng)勾畫效果較好,本研究中各結(jié)構(gòu)勾畫輪廓DSC值均高于此標(biāo)準(zhǔn),說明建模效果較好。此外,本研究中對(duì)于CTV、腸袋和直腸自動(dòng)勾畫效果分析,隨著訓(xùn)練集數(shù)量的增加,DSC值、HD值以及RVD值呈較好趨勢(shì)發(fā)展,這可能由于CTV、腸袋和直腸與周圍組織對(duì)比度較低,而且不同組織結(jié)構(gòu)存在差異,所以增加訓(xùn)練量可能會(huì)一定程度改善勾畫效果。其中對(duì)于CTV,V90和V120模型DSC均值相等,且高于其他3組;對(duì)于腸袋,V60、V90和V120模型的DSC值和RVD值均優(yōu)于V30模型;對(duì)于直腸,V60、V90以及V120模型DSC值均高于V15和V30模型。各組模型中,膀胱、骨髓以及雙側(cè)股骨頭自動(dòng)勾畫結(jié)果均較好(DSC≥0.90),分析原因可能是這3個(gè)OARs具有較為清晰的邊界且與周圍組織對(duì)比度高。骨髓以及雙側(cè)股骨頭勾畫結(jié)果隨著訓(xùn)練量的增加,改善不明顯,這說明對(duì)于骨性結(jié)構(gòu),較小的訓(xùn)練量就能得到較好的勾畫效果。本研究關(guān)于自動(dòng)勾畫效果臨床評(píng)估結(jié)果表明,CTV和腸袋隨著訓(xùn)練病例數(shù)的增加,其自動(dòng)勾畫結(jié)果中適合臨床應(yīng)用的層面逐漸增多,這可減少臨床醫(yī)師修改輪廓的時(shí)間,提高臨床工作效率。當(dāng)CTV訓(xùn)練病例數(shù)為90例時(shí),適合臨床應(yīng)用層面達(dá)到約70%,明顯高于V60模型,且與V120模型相近。當(dāng)腸袋訓(xùn)練病例數(shù)達(dá)到60例時(shí),臨床可應(yīng)用層面超過80%,且隨著病例數(shù)的增加,其效果雖仍有所提高,但差異無統(tǒng)計(jì)學(xué)意義。本研究尚存在以下不足:僅得出深度學(xué)習(xí)自動(dòng)勾畫技術(shù)最終的預(yù)測(cè)結(jié)果,未來仍需進(jìn)一步探索其他影響自動(dòng)勾畫效果的因素。
各組織結(jié)構(gòu)的自動(dòng)勾畫效果相對(duì)于訓(xùn)練病例數(shù)有一定的差異性,且收集大量高質(zhì)量臨床數(shù)據(jù)具有一定的困難性,綜合分析表明,在宮頸癌CTV及OARs利用AL深度學(xué)習(xí)平臺(tái)建模時(shí),建議采用90例作為訓(xùn)練集。其中,CTV勾畫采用90例,腸袋和直腸勾畫采用60例,膀胱、骨髓以及雙側(cè)股骨頭勾畫采用15例,這樣既可降低臨床病例收集的工作量,又能建立較好的臨床應(yīng)用模型。