鄭慶源,楊 瑞,王 磊,陳志遠(yuǎn),劉修恒
(武漢大學(xué)人民醫(yī)院泌尿外科,湖北 武漢,430060)
腹腔鏡手術(shù)被越來越多地應(yīng)用在各手術(shù)科室,如泌尿外科、普通外科、婦科等[1]。腹腔鏡手術(shù)相較傳統(tǒng)開放手術(shù)不僅具有顯著的微創(chuàng)效果,而且具有感染風(fēng)險(xiǎn)小、術(shù)后康復(fù)快、住院時(shí)間短等優(yōu)點(diǎn)[2]。由于計(jì)算機(jī)性能與硬件的提高,腹腔鏡手術(shù)視頻資料以一種數(shù)據(jù)形式靈活儲(chǔ)存在服務(wù)器中,可供醫(yī)生回顧查看與分享。隨著大數(shù)據(jù)時(shí)代的來臨,許多數(shù)據(jù)被用以發(fā)現(xiàn)、分析與解決問題[3],豐富的腹腔鏡視覺數(shù)據(jù)也不例外。而人工智能是最擅長(zhǎng)通過數(shù)據(jù)分析解決問題的技術(shù),因此可能推動(dòng)臨床上腹腔鏡手術(shù)的發(fā)展。近年腹腔鏡手術(shù)依靠人工智能技術(shù)取得了巨大的進(jìn)步,本文現(xiàn)就人工智能技術(shù)在腹腔鏡手術(shù)中的研究應(yīng)用與進(jìn)展作一綜述。
人工智能是模擬人類大腦進(jìn)行運(yùn)算操作與處理的智能技術(shù)[4]??赏ㄟ^使用高效的算法及從大量數(shù)據(jù)中學(xué)習(xí)到的特征訓(xùn)練所需模型參與到臨床實(shí)踐中。其超越人類水平的診斷、決策與計(jì)算能力,有助于減少診斷與治療的錯(cuò)誤,并促進(jìn)個(gè)性化醫(yī)療[5]。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支。經(jīng)典的機(jī)器學(xué)習(xí)方法需要從大量數(shù)據(jù)中手動(dòng)測(cè)量后獲得一組生物標(biāo)志物或特征,接著依賴這些標(biāo)志物或特征訓(xùn)練出強(qiáng)大的分類器,因此這些分類器的性能依賴于所選取的標(biāo)志物或特征[6]。這些標(biāo)志物或特征往往是人工事先定義好的,想要取得更深層次的特征難度較大。
深度學(xué)習(xí)較機(jī)器學(xué)習(xí)最大的區(qū)別在于可應(yīng)用較深的神經(jīng)網(wǎng)絡(luò)架構(gòu)主動(dòng)提取數(shù)據(jù)特征。這種具有深度的神經(jīng)網(wǎng)絡(luò)是端到端的訓(xùn)練模式,因其不是從手工提取的特征中進(jìn)行學(xué)習(xí)再輸出所識(shí)別的類別,而是從輸入信號(hào)中直接學(xué)習(xí)。因此,神經(jīng)網(wǎng)絡(luò)不僅可充當(dāng)分類器,還可充當(dāng)特征提取器[7]。
隨著深度學(xué)習(xí)的興起,視覺領(lǐng)域近年也得到了迅速發(fā)展?;诰矸e神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的圖像識(shí)別技術(shù)與傳統(tǒng)的圖像識(shí)別技術(shù)相比具有明顯優(yōu)勢(shì)[8]。CNN是一種比較適合醫(yī)學(xué)成像數(shù)據(jù)的深度學(xué)習(xí)架構(gòu),其架構(gòu)中不同層之間的連接,類似于哺乳動(dòng)物視覺皮層的組織。典型的CNN架構(gòu)包括卷積層、池化層、全連接層,被證實(shí)可成功提取特征并進(jìn)行對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練[9]。
目前人工智能已在多個(gè)醫(yī)學(xué)領(lǐng)域展示了它的能力,包括分類、分割及檢測(cè)任務(wù)。現(xiàn)就人工智能在腹腔鏡手術(shù)中現(xiàn)階段的研究與應(yīng)用展開敘述。
2.1 手術(shù)器械的分割與檢測(cè) 手術(shù)器械的分割與檢測(cè)追蹤是計(jì)算機(jī)輔助手術(shù)系統(tǒng)的重要組成部分。由于受到腹腔內(nèi)特殊的背景影響,如高光反射、模糊、手術(shù)器械的運(yùn)動(dòng)偽影等,這是一項(xiàng)較為困難的挑戰(zhàn)。而許多學(xué)者借助CNN成功解決了該問題,這也是目前研究最為廣泛的一個(gè)方向。
Yu等[10]提出了一種基于U-Net體系結(jié)構(gòu)的外科器械分割模型,其性能優(yōu)于經(jīng)典的U-Net模型,交并比高達(dá)0.8645。Shvets等[11]利用四種分割模型進(jìn)行手術(shù)器械的分割,分別為U-Net、TernausNet-11、TernausNet-16與LinkNet-34模型。其中TernausNet-16以0.8630的交并比、0.9001的Dice系數(shù)獲得最佳性能。Hasan等[12]提出的U-NetPlus體系結(jié)構(gòu)用于腹腔鏡圖像中分割手術(shù)器械,結(jié)果顯示,其體系較最先進(jìn)的TernausNet框架更好。
YOLOv3檢測(cè)模型是目前性能較好的目標(biāo)對(duì)象檢測(cè)算法之一,名稱意為“You only look once”(你只需看一次)。Yamazaki等[13]基于YOLOv3檢測(cè)模型,從52個(gè)腹腔鏡胃切除術(shù)視頻中提取了10 716張圖像用于模型訓(xùn)練,成功開發(fā)并驗(yàn)證了一種新的自動(dòng)化系統(tǒng),用于檢測(cè)腹腔鏡胃切除術(shù)中的手術(shù)器械。
2.2 手術(shù)階段識(shí)別 識(shí)別腹腔鏡手術(shù)過程中不同的階段是重要的研究課題,具有各種作用,如用于技能評(píng)估、教學(xué)場(chǎng)景的自動(dòng)選擇、實(shí)時(shí)工作流程的識(shí)別,也可向手術(shù)室外的臨床工作人員提供有關(guān)手術(shù)進(jìn)度的信息。但目前對(duì)手術(shù)階段識(shí)別屬于手動(dòng)執(zhí)行的操作,容易出現(xiàn)錯(cuò)誤與延誤。
Hashimoto等[14]分析了88例腹腔鏡袖狀胃切除的手術(shù)視頻,視頻被分為七個(gè)步驟:(1)端口放置;(2)肝臟牽引;(3)肝活檢;(4)胃結(jié)腸韌帶解剖;(5)胃吻合;(6)裝袋標(biāo)本;(7)釘線的最終檢查。在識(shí)別測(cè)試集中操作步驟的準(zhǔn)確度為82%,最大值為85.6%。這表明腹腔鏡手術(shù)視頻可用作術(shù)中臨床決策支持、風(fēng)險(xiǎn)預(yù)測(cè)或結(jié)果研究的定量數(shù)據(jù)源。
Kitaguchi等[15]研發(fā)了一種基于腹腔鏡乙狀結(jié)腸切除手術(shù)視頻的自動(dòng)手術(shù)階段識(shí)別的深度學(xué)習(xí)模型。他們使用的數(shù)據(jù)集包含71個(gè)腹腔鏡乙狀結(jié)腸切除術(shù)案例,均被手動(dòng)分為11個(gè)手術(shù)階段(階段0~10)。手術(shù)階段自動(dòng)識(shí)別準(zhǔn)確率為91.9%,其中體外動(dòng)作、沖洗手術(shù)動(dòng)作自動(dòng)識(shí)別準(zhǔn)確率分別為89.4%與82.5%。他們的結(jié)果證明該系統(tǒng)可以較高的精度進(jìn)行自動(dòng)手術(shù)階段與目標(biāo)手術(shù)動(dòng)作的識(shí)別。
此外,Twinanda等[16]還提出了一種稱為EndoNet的新型CNN架構(gòu),在腹腔鏡膽囊切除術(shù)的數(shù)據(jù)集中,成功將其應(yīng)用于手術(shù)階段的檢測(cè)。
2.3 手術(shù)操作的分類 手術(shù)操作是外科手術(shù)進(jìn)行的一般活動(dòng),涉及一個(gè)或多個(gè)器械。在外科手術(shù)完成后,利用計(jì)算機(jī)輔助對(duì)外科手術(shù)操作進(jìn)行術(shù)后分析可給術(shù)者帶來一定優(yōu)勢(shì)。外科手術(shù)操作在手術(shù)程序中是最關(guān)鍵的組成部分,比如在尋找特定的手術(shù)階段時(shí),它們可被視為主要目標(biāo)。因此利用CNN對(duì)手術(shù)操作的分類可輔助術(shù)者進(jìn)行手術(shù)分析。
Munzer等[17]在16個(gè)手術(shù)操作的類別(建立腹部通路、注射、切割、鈍性分離、燒灼組織、引流灌洗、凝固、抽吸、針定位、針穿刺、打結(jié)、固定線結(jié)、剪線、懸吊、內(nèi)窺鏡取物袋置入及取出)中,應(yīng)用靜態(tài)與動(dòng)態(tài)內(nèi)容描述符進(jìn)行評(píng)估與識(shí)別。前者只考慮單個(gè)圖像,而后者考慮場(chǎng)景中的運(yùn)動(dòng)。結(jié)果表明,靜態(tài)描述符獲得了最高的整體性能,但動(dòng)態(tài)描述符對(duì)于特定類別的手術(shù)操作具有更大的區(qū)別性。
Leibetseder等[18]基于8個(gè)手術(shù)操作(引流灌洗、縫合、冷切割、高頻切割、鈍性分離、子宮懸吊、凝固及注射)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練識(shí)別,證明這些類別本身具有明顯的特征。其中縫合操作似乎是截至目前最容易預(yù)測(cè)的,精度高達(dá)0.968。
Petscharnig等[19]基于CNN研究了婦科手術(shù)視頻鏡頭的單幀分類模型。他們從頭開始訓(xùn)練兩種不同的CNN架構(gòu)AlexNet與GoogLeNet,用于手術(shù)動(dòng)作、解剖結(jié)構(gòu)分類。他們使用GoogLeNet,分別實(shí)現(xiàn)了0.782、0.617的召回率;使用AlexNet,分別實(shí)現(xiàn)了0.469、0.615的召回率。此外他們還從AlexNet中提取高級(jí)特征,并將其用于訓(xùn)練SVM分類器,對(duì)解剖結(jié)構(gòu)、手術(shù)動(dòng)作進(jìn)行分類的召回率為0.697與0.515。
2.4 手術(shù)解剖關(guān)系的分類與分割 術(shù)中自動(dòng)定位與突出顯示關(guān)鍵的解剖結(jié)構(gòu)可防止術(shù)中損傷,提高手術(shù)安全性。外科醫(yī)生借助該手段可了解關(guān)鍵解剖結(jié)構(gòu)的確切位置,并在術(shù)中更好地處理這些結(jié)構(gòu)。
Zadeh等[20]使用了Mask R-CNN的深度學(xué)習(xí)方法進(jìn)行研究。他們對(duì)461張腹腔鏡圖像手動(dòng)標(biāo)注了子宮、卵巢與手術(shù)器械三種類別。隨后將數(shù)據(jù)集拆分為361張圖像以訓(xùn)練Mask R-CNN模型,并使用100張圖像評(píng)估其性能。結(jié)果顯示子宮、卵巢與手術(shù)器械的識(shí)別準(zhǔn)確率分別為84.5%、29.6%與54.5%。雖然訓(xùn)練數(shù)據(jù)量有限,但他們證明了在婦科中應(yīng)用基于深度學(xué)習(xí)的語義分割的初步結(jié)果是非常有潛力的。
如2.3所述,Leibetseder等[18]對(duì)各種解剖結(jié)構(gòu)(結(jié)腸、肝臟、卵巢、輸卵管、子宮)進(jìn)行了分割。其中最容易分類的器官是肝臟,準(zhǔn)確率為99%。Petscharnig等[19]利用AlexNet、GoogLeNet對(duì)解剖結(jié)構(gòu)進(jìn)行了分類,召回率分別為0.615與0.617。
Tokuyasu等[21]利用76個(gè)腹腔鏡膽囊切除術(shù)視頻中獲得的約2 000張膽囊三角區(qū)域圖像,使用YOLOv3檢測(cè)模型進(jìn)行了定量與主觀評(píng)估。每個(gè)解剖結(jié)構(gòu)的平均精度值如下:膽總管為0.320,膽囊管為0.074,左內(nèi)側(cè)肝段下緣為0.314,Rouviere溝為0.101。結(jié)果證明,他們的研究雖然性能不佳,但成功幫助手術(shù)團(tuán)隊(duì)更容易識(shí)別這四個(gè)解剖位置。這可能有助于降低膽管損傷率,從而提高腹腔鏡膽囊切除術(shù)的安全性。
2.5 手術(shù)時(shí)間的預(yù)測(cè) 在如今醫(yī)療資源緊張的大環(huán)境下,為確保手術(shù)順利進(jìn)行,必須精確分配手術(shù)室的時(shí)間及手術(shù)人員的時(shí)間。因此手術(shù)室的使用計(jì)劃不能一成不變,較術(shù)前估計(jì)時(shí)間更長(zhǎng)的手術(shù)可能導(dǎo)致后續(xù)手術(shù)被推遲甚至取消,從而給患者、手術(shù)團(tuán)隊(duì)帶來不便。外科手術(shù)的過程通常是不可預(yù)測(cè)的,因此很難事先估計(jì)腹腔鏡手術(shù)的持續(xù)時(shí)間。這種不確定性使得安排外科手術(shù)成為一項(xiàng)艱巨的任務(wù)。為解決這一問題,CNN基于其強(qiáng)大的能力,現(xiàn)已被用于直接從腹腔鏡視頻數(shù)據(jù)中預(yù)測(cè)手術(shù)時(shí)間。
Bodenstedt等[22]對(duì)80段各種類型的腹腔鏡視頻進(jìn)行了評(píng)估,連續(xù)實(shí)時(shí)預(yù)測(cè)手術(shù)時(shí)間的誤差為36.7 min,半場(chǎng)誤差約為28 min。
Twinanda等[23]提出了一種稱為RSDNet的深度學(xué)習(xí)模型,可通過僅使用腹腔鏡視頻中的視覺信息自動(dòng)估計(jì)剩余手術(shù)時(shí)間。關(guān)于膽囊切除術(shù)所預(yù)測(cè)的剩余時(shí)間誤差為15.6 min,該性能優(yōu)于Bodenstedt等的研究。
2.6 紗布檢測(cè) 術(shù)中遺留紗布雖然是極少見的情況,但一旦發(fā)現(xiàn),無論對(duì)患者還是醫(yī)生、醫(yī)院都會(huì)帶來極其嚴(yán)重的后果。目前手術(shù)室通過標(biāo)準(zhǔn)化紗布計(jì)數(shù)來進(jìn)行管理,但這種流程始終屬于人為操作,仍然可能存在人為錯(cuò)誤。此外,紗布由于浸潤(rùn)血液后難以與組織區(qū)分,導(dǎo)致有意外滯留的情況發(fā)生。
3.1 可用數(shù)據(jù)集嚴(yán)重匱乏 一個(gè)可靠的預(yù)測(cè)結(jié)論是需要基于足夠的數(shù)據(jù),而數(shù)據(jù)也是人工智能進(jìn)行模擬學(xué)習(xí)最核心、最關(guān)鍵的部分。然而由于醫(yī)學(xué)數(shù)據(jù)的隱私問題,許多數(shù)據(jù)集不能公開使用。這也導(dǎo)致可用的腹腔鏡手術(shù)的數(shù)據(jù)集嚴(yán)重匱乏,進(jìn)而使得訓(xùn)練模型的精度、泛化能力難以得到提升。目前學(xué)者們?yōu)榻鉀Q數(shù)據(jù)集不足的問題,提出了許多解決方法,如數(shù)據(jù)增強(qiáng)[25]等策略。標(biāo)注好的數(shù)據(jù)集更少,因?yàn)閷?duì)圖像進(jìn)行人工標(biāo)注費(fèi)時(shí)費(fèi)力。Fuentes-Hurtado等[26]介紹了一種快速標(biāo)注手術(shù)數(shù)據(jù)集的方法,可用于進(jìn)行語義分割,結(jié)果接近于完全監(jiān)督方法,而創(chuàng)建標(biāo)注的工作量顯著減少。通過這些策略,可緩解訓(xùn)練高精度模型所需的數(shù)據(jù)要求。
3.2 倫理要求 隨著社會(huì)的發(fā)展,醫(yī)學(xué)倫理道德問題也越來越被重視。倫理規(guī)則和道德價(jià)值觀因地區(qū)而異,不同的民族、國(guó)家會(huì)持有不同的規(guī)范[27]。有些人工智能是經(jīng)過編程的,人工智能系統(tǒng)的動(dòng)作完全由程序員的選擇決定。而另一些人工智能,尤其機(jī)器學(xué)習(xí)或深度學(xué)習(xí),允許系統(tǒng)本身進(jìn)行調(diào)整,以便提高正確應(yīng)對(duì)不確定情況的能力。雖然深度學(xué)習(xí)算法具有非常強(qiáng)大的學(xué)習(xí)能力,但我們通常無法完全理解其得出正確答案的方法。因此,目前大多數(shù)基于人工智能的研究都需要得到相應(yīng)的倫理委員會(huì)的批準(zhǔn),在充分尊重、保護(hù)患者,得到其知情同意的前提下,方可開展系列研究[28]。
3.3 模型的優(yōu)化 目前有許多深度學(xué)習(xí)模型,包括分類模型、分割模型、檢測(cè)模型已被公開證實(shí)具有有效性、可靠性。但對(duì)于特殊的醫(yī)學(xué)數(shù)據(jù),如CT、MRI或腹腔鏡視頻資料等,與自然圖像有很大區(qū)別,進(jìn)行對(duì)應(yīng)訓(xùn)練所得到的結(jié)果也通常不理想。因此,要想直接使用這些模型應(yīng)用于醫(yī)學(xué)數(shù)據(jù)中并不可靠。往往需要對(duì)這些現(xiàn)有的模型進(jìn)行改善與優(yōu)化,才能達(dá)到我們期望的水平。目前來看,這涉及到跨學(xué)科專業(yè)的研究,無疑也是對(duì)臨床醫(yī)生的一項(xiàng)巨大挑戰(zhàn)。
3.4 模型的可解釋性 雖然人工智能中簡(jiǎn)單的機(jī)器學(xué)習(xí)模型(如決策樹或線性回歸等)人們可完全理解,但隨著技術(shù)的進(jìn)步,理解變得越來越困難,現(xiàn)在許多深度學(xué)習(xí)模型已無法理解,這種情況會(huì)導(dǎo)致意想不到的結(jié)果與不確定的行為,即所謂的黑盒結(jié)果。這個(gè)問題也適于其他醫(yī)學(xué)問題,其中很多具有確切作用的機(jī)制往往知之甚少(如藥物治療)。但如果確切的作用方式不清楚,那么人工智能是否可以用于影響深遠(yuǎn)的決策問題仍然未解決。目前研究者們也正在努力研發(fā)可解釋的人工智能,以提高算法的透明度??山忉屓斯ぶ悄艿哪繕?biāo)是產(chǎn)生可更容易地解釋其提出的模型,如通過顯示其可能依賴的特征來生成預(yù)測(cè),最終目標(biāo)是提高透明度,從而增加人類對(duì)其預(yù)測(cè)的信任與理解。如決策樹就有很大的透明度,因?yàn)榭蓪彶榕c評(píng)估每個(gè)決策節(jié)點(diǎn)[29]。
人工智能技術(shù)已被應(yīng)用于腹腔鏡手術(shù)中,尤其在手術(shù)器械與解剖結(jié)構(gòu)的分類分割中,應(yīng)用較為廣泛??梢钥吹?,很多方向應(yīng)用人工智能技術(shù)后得到的結(jié)果雖然能起到一定效果,但模型精度還需要進(jìn)一步提高。借助人工智能技術(shù),豐富的腹腔鏡手術(shù)數(shù)據(jù)資料得以被用于手術(shù)教學(xué)、改善醫(yī)療環(huán)境、優(yōu)化醫(yī)療資源等。盡管人工智能在腹腔鏡手術(shù)中的應(yīng)用存在著巨大潛力,但我們也需要承認(rèn)其局限性。數(shù)據(jù)缺乏、倫理問題及模型的優(yōu)化、可解釋性已是不得不加以重視對(duì)待的問題。各種形式的人工智能技術(shù)已展現(xiàn)出超越人類的表現(xiàn),但缺乏更高層次的背景知識(shí),無法像人腦那樣建立關(guān)聯(lián)[30]。因此未來人工智能的發(fā)展離不開醫(yī)生,醫(yī)生的工作也會(huì)與人工智能緊密相連。
綜上所述,人工智能技術(shù)在腹腔鏡手術(shù)中的研究與應(yīng)用具有非??捎^的前景,但以目前的研究來看,還有很多問題需要解決。
申明:本文作者均對(duì)署名無爭(zhēng)議。