趙思琦,劉文天
趙思琦,劉文天,天津醫(yī)科大學(xué)總醫(yī)院消化內(nèi)科 天津市 300052
消化道疾病的發(fā)病率一直居于世界前列,2015年我國腫瘤登記資料顯示,食管癌、胃癌、肝癌和結(jié)直腸癌在惡性腫瘤中構(gòu)成比為35.82%,且多數(shù)患者發(fā)現(xiàn)時已為中晚期,預(yù)后較差,故發(fā)現(xiàn)早期癌變一直是消化內(nèi)鏡領(lǐng)域的研究熱點.消化內(nèi)鏡在消化系統(tǒng)疾病的診療過程中發(fā)揮著不可替代的作用,隨著內(nèi)鏡技術(shù)的發(fā)展,電子色素內(nèi)鏡如窄帶成像(narrow-band imaging,NBI),藍(lán)激光內(nèi)鏡(blue laser imaging,BLI)及放大內(nèi)鏡(magnifying endoscopy,ME)、共聚焦激光顯微內(nèi)鏡等技術(shù)應(yīng)用于臨床,超聲內(nèi)鏡(endoscopic ultrasound,EUS)、膠囊內(nèi)鏡(capsule endoscopy,CE)也日趨成熟,使醫(yī)生可以直觀地檢查消化道黏膜病變及黏膜下病變.然而,由于我國電子內(nèi)鏡醫(yī)療資源分布不均,內(nèi)鏡醫(yī)師臨床經(jīng)驗以及診療水平參差不齊,對早期癌變黏膜的識別度低,導(dǎo)致我國食管癌、胃癌等疾病的早期內(nèi)鏡下檢出率較低.如今計算機(jī)技術(shù)迅猛發(fā)展,在各種機(jī)器學(xué)習(xí)(machine learning,ML)之上衍生出更高級的基于深度學(xué)習(xí)(deep learning,DL)的AI技術(shù),如卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN).CNN在圖像識別、圖像分割、圖像理解等領(lǐng)域表現(xiàn)優(yōu)異,已經(jīng)成為醫(yī)學(xué)成像的一個有前途的工具.AI影像系統(tǒng)包括: 計算機(jī)輔助檢測系統(tǒng)(computer assisted detection,CADe)和計算機(jī)輔助診斷系統(tǒng)(computer assisted diagnosis,CADx),目前該系統(tǒng)仍在不斷開發(fā)、測試和改進(jìn)中,有望未來在臨床得到廣泛的推廣.
胃鏡檢查是直觀檢查上消化道病變的最常用手段.人工智能輔助胃鏡檢查的研究熱點包括檢測致癌獨立危險因素幽門螺桿菌(Helicobacter pylori,H.pylori)感染[1]、識別Barrett’s食管(Barrett's esophagus,BE)和慢性萎縮性胃炎(chronic atrophic gastritis,CAG),以及對食管癌、胃癌的早期診斷和分期分級,評估預(yù)后等.國內(nèi)外已有多位學(xué)者將CAD系統(tǒng)應(yīng)用于食管疾病診斷的探索,包括食管癌的識別及分級、BE和非異型增生BE(non-dysplastic Barrett's esophagus,NDBE)的辨別等.
1.1 人工智能輔助診斷BE BE是已知的食管腺癌(esophagus adenocarcinoma,EAC)的癌前病變.BE患者應(yīng)定期接受內(nèi)鏡監(jiān)測,以便在早期發(fā)現(xiàn)EAC,進(jìn)行內(nèi)鏡下干預(yù),改善預(yù)后.當(dāng)內(nèi)鏡下可疑BE但目標(biāo)活檢和隨機(jī)活檢均未顯示異常增生時,可稱為NDBE[2],NDBE可發(fā)展為高級別瘤變(high-grade neoplasia,HGD)或EAC,但可能性較BE低.
Jisu等[3]構(gòu)建了一個CNN分類器來區(qū)分BE和食管癌,其分類準(zhǔn)確率為80.77%.而后de Groof等[4]首次開發(fā)了一種基于白光內(nèi)鏡(white light endoscopy,WLE)的CAD系統(tǒng),用于實時內(nèi)鏡下辨別BE和NDBE,并且在Jisu的基礎(chǔ)上擴(kuò)大了訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集.該研究前瞻性地收集40例BE和20例NDBE患者的WLE靜態(tài)圖像用于驗證.經(jīng)驗證,該CAD系統(tǒng)在WLE圖像上檢測和定位BE準(zhǔn)確度為92%,靈敏度為95%,特異度為85%.然而當(dāng)病變的最大部分包含反光時,該系統(tǒng)將難以識別病變.
繼Jisu和de Groof之后,Struyvenberg等[5]利用DL技術(shù)選擇用雙中心來源的494364張普通內(nèi)鏡圖像和1430張含病變的WLE及NBI縮放圖像(802張BE和628張NDBE)分層多次訓(xùn)練CADx系統(tǒng),在進(jìn)一步擴(kuò)大驗證數(shù)據(jù)集靜態(tài)圖片數(shù)量的同時加入NBI變焦視頻.經(jīng)驗證,該系統(tǒng)基于NBI變焦圖像檢測BE的準(zhǔn)確性、靈敏度和特異性分別為84%、88%和78%;基于視頻的準(zhǔn)確性、靈敏度和特異性分別為83%、85%和83%.基于視頻的CADx系統(tǒng)的準(zhǔn)確性、靈敏度差別不大,值得注意的是其識別BE的特異性增加了,這可能會減少內(nèi)窺鏡醫(yī)師假陽性預(yù)測的數(shù)量,從而減少不必要的活組織檢查.該研究驗證數(shù)據(jù)集包含的視頻樣本量相對較小,故該系統(tǒng)對視頻的識別可能不夠穩(wěn)定.
1.2 人工智能輔助診斷食管癌 食管癌是全球第八大最常見的癌癥[6],2020年中國食管癌新發(fā)病例和死亡病例別占全球的53.70%和55.35%[7].早期食管癌(esophageal squamous cell carcinoma,ESCC)預(yù)后良好,5年生存率可達(dá)80%,晚期預(yù)后極差,5年生存率不足20%.故內(nèi)鏡下早期識別、早期治療食管癌對患者預(yù)后極其重要.
癌癥侵襲深度是影響淺層癌患者治療選擇的一個關(guān)鍵因素,然而內(nèi)鏡下觀察者對侵襲深度的判斷具有主觀因素.Nakagawa等[8]用非放大內(nèi)鏡和放大內(nèi)鏡(二者均包含WLE、NBI和色素內(nèi)鏡圖像)圖片訓(xùn)練人工智能系統(tǒng),用于評估淺層ESCC.該系統(tǒng)鑒別病理性粘膜及粘膜下微浸潤性(SM1)癌與粘膜下深浸潤性(SM2/3)癌的敏感性為90.1%,特異性為95.8%,陽性預(yù)測值為99.2%,陰性預(yù)測值為63.9%,準(zhǔn)確率為91.0%,其對腫瘤侵襲深度的判斷與有經(jīng)驗的內(nèi)窺鏡醫(yī)生相當(dāng).
Guo等[9]用NBI圖像通過深度學(xué)習(xí)訓(xùn)練的實時CAD系統(tǒng)識別食管癌的靈敏度為98.04%,特異性為95.03%,但未開發(fā)對食管腫瘤進(jìn)行分級的功能.隨后Wang等[10]通過CNN構(gòu)建了一個通過單次多盒檢測器(single-shot multibox detector,SSD)進(jìn)行深度學(xué)習(xí)的人工智能系統(tǒng),可在識別食管腫瘤的基礎(chǔ)上進(jìn)行組織學(xué)分級,包括低級別鱗狀異常增生、高級別鱗狀異常增生和鱗狀細(xì)胞癌(squamous cell carcinomas,SCC).498張WLE和438張NBI圖像被納入訓(xùn)練圖像數(shù)據(jù)集.SSD對食管SCC具有良好的敏感性,綜合SSD、WLE和NBI對食管癌的敏感性分別為98.9%、97.5%和100%.該系統(tǒng)在檢測食道腫瘤方面的靈敏度、特異性和診斷準(zhǔn)確性分別為96.2%、70.4%和90.9%,且在區(qū)分食道腫瘤的組織學(xué)等級方面的準(zhǔn)確率為92%,且分析NBI(95%)時顯示出比WLE(89%)圖像更好的準(zhǔn)確性.雖然NBI通過放大腫瘤的特征增加了敏感性,但NBI也可能因過度診斷而降低特異性.食管腫瘤的不同組織學(xué)分級通常是通過放大內(nèi)鏡來進(jìn)行的,該研究證實該系統(tǒng)在不需要放大內(nèi)鏡和經(jīng)驗豐富的內(nèi)鏡醫(yī)師的情況下在準(zhǔn)確診斷淺表食管腫瘤方面具有很大的潛力.
1.3 人工智能輔助診斷胃非腫瘤性病變H.pylori感染了世界上超過一半的人口.多種研究表明H.pylori感染與胃癌密切相關(guān),因此,H.pylori已被國際癌癥研究機(jī)構(gòu)確認(rèn)為Ⅰ類致癌物.中國作為H.pylori感染大國,及時發(fā)現(xiàn)并防止其持續(xù)感染造成組織損傷尤為重要.內(nèi)鏡檢查并非檢測H.pylori感染的常用方法,但可作為一種新的方法對H.pylori感染進(jìn)行多角度評價.
Itoh等[11]首先開發(fā)了CNN模型檢測H.pylori感染,其靈敏度和特異性分別為86.7%和86.7%,AUC為0.956.該研究說明CNN輔助診斷H.pylori感染似乎是可行的,有望促進(jìn)和改善健康檢查中的診斷,但由于其樣本量小,穩(wěn)定性仍待驗證.Zheng等[12]用1959名患者胃不同部位的WLE圖像訓(xùn)練CNN模型來評估H.pylori感染.單個胃部圖像的AUC為0.93,敏感性、特異性和準(zhǔn)確性分別為81.4%、90.1%和84.5%,其中胃體的AUC(0.94)最高.每個病人的多個胃部圖像的曲線下面積為0.97,靈敏度、特異性和準(zhǔn)確性分別為91.6%、98.6%和93.8%,高于單個胃部圖像的相應(yīng)指標(biāo),且靈敏度和特異性不輸于其他直接H.pylori檢測方法[13-15].有研究發(fā)現(xiàn)WLE下基于CNN的H.pylori感染計算機(jī)輔助決策支持系統(tǒng)(CADSS-HP)診斷H.pylori感染的靈敏度與優(yōu)于組織病理學(xué)[16].
有研究表明CNN的表現(xiàn)似乎與醫(yī)生相當(dāng)[17].Shen等[16]前瞻性地驗證了CADSS-HP的診斷效能.發(fā)現(xiàn)CADSS-HP的靈敏度和準(zhǔn)確性(91.5%,89.9%)均優(yōu)于內(nèi)窺鏡醫(yī)生(78.3%,83.8%).Seo等[18]開發(fā)的用于診斷H.pylori感染的CNN模型也在多中心多種族的驗證數(shù)據(jù)集中表現(xiàn)出良好的整體性能.
胃癌前疾病(gastric precancerous disease,GPD)可能會惡化為早期胃癌,胃黏膜萎縮是GPD的一種,是胃癌進(jìn)展的關(guān)鍵階段,CAG的早期診斷對預(yù)防胃癌的發(fā)生發(fā)展具有重要意義,然而內(nèi)鏡下CAG漏診率高,內(nèi)窺鏡診斷CAG的敏感性為42%[19],且活組織檢查既昂貴又耗時.近年來,彩色內(nèi)鏡聯(lián)合放大內(nèi)鏡和激光共聚焦顯微鏡已成為慢性胃炎診斷和鑒別診斷的重要工具.
Zhang等[20]訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)-慢性萎縮性胃炎模型(CNN-CAG)能很好區(qū)分CAG與其他胃黏膜炎癥,如胃粘膜慢性炎癥、慢性非萎縮性胃炎和胃粘膜活動性炎癥,其診斷萎縮性胃炎的準(zhǔn)確率、敏感性和特異性分別為0.942、0.945和0.940,均高于專家的診斷結(jié)果,且可以對其萎縮程度準(zhǔn)且分類,萎縮程度越嚴(yán)重,診斷準(zhǔn)確率越高,輕、中、重分別為0.93、0.95、0.99.但CNN-CAG數(shù)據(jù)集為單中心,沒有納入動態(tài)視頻,有研究表明[5,21,22]視頻可以增加診斷的效能.Zhang等[23]使用迭代強(qiáng)化學(xué)習(xí)訓(xùn)練的胃癌疾病網(wǎng)絡(luò)(GPD-Net)模型實現(xiàn)了3類GPD的分類,即息肉、侵蝕和潰爛,準(zhǔn)確率為88.90%,有望臨床上及時識別GPD.
1.4 人工智能輔助診斷胃癌 胃癌是全球第五大常見癌癥,也是癌癥相關(guān)死亡的第四大原因[24].近一半的胃癌患者初診即為晚期,晚期胃癌患者在手術(shù)治療后5年生存率不足30%,而早期胃癌患者在及時治療后5年生存率可達(dá)90%以上[25,26].因此人工智能輔助胃癌檢出、胃癌侵襲深度的識別、病理診斷,具有廣闊的發(fā)展空間.
Li等[27]開發(fā)的基于NBI的CNN系統(tǒng)在早期胃癌維也納分型診斷中,其敏感性明顯高于專家,特異性和準(zhǔn)確性方面沒有發(fā)現(xiàn)明顯的差異[28],且CNN的診斷靈敏度、特異性和準(zhǔn)確性都明顯高于非專家[29].Ikenoyama等[30]研發(fā)的CNN系統(tǒng)靈敏度明顯高于內(nèi)窺鏡醫(yī)師,特異性明顯低于內(nèi)鏡醫(yī)師.次年,Teramoto等[31]基于WLE利用DenseNet-121分類改進(jìn)的CNN模型檢測胃癌單張圖像的靈敏度為97%,特異性為99.4%,分類錯誤率小于0.02.在早期胃癌的病例中,具有廣泛侵犯區(qū)域的圖像被歸類為晚期胃癌.在健康病例中,內(nèi)鏡檢查顯示胃粘膜粘附的氣泡和充血區(qū)被誤診為晚期胃癌.有研究表明[21]使用包含大量非癌癥圖像以及視頻似乎可以減少假陽性和假陰性.但該CNN模型在基于病例的評估中,其檢測靈敏度和特異性均達(dá)到100%.此外,Su等[29]還研究了不同深度學(xué)習(xí)方法構(gòu)建的CNN模型的側(cè)重點,發(fā)現(xiàn)Faster RCNN和Mask RCNN更強(qiáng)調(diào)陽性檢測,Cascade RCNN更強(qiáng)調(diào)陰性檢測[29].
另外,胡珊博士團(tuán)隊研發(fā)的實時計算機(jī)內(nèi)鏡輔助系統(tǒng)(內(nèi)鏡精靈,ENDOANGEL)在一個大型多中心前瞻性隨機(jī)對照研究中識別胃癌的準(zhǔn)確率為84.7%,敏感性為100%,特異性為84.3%[32],該研究有力說明了人工智能對于內(nèi)鏡下識別胃癌有較高的性能和穩(wěn)定性.
1.5 人工智能輔助在胃鏡領(lǐng)域的其他應(yīng)用 有研究表明[33]特發(fā)性胃十二指腸潰瘍出血病史且幽門螺旋體陰性的患者,重復(fù)出現(xiàn)消化道并發(fā)癥的風(fēng)險增加.Wong等[34]建立了一個模型(IPU-ML)來預(yù)測復(fù)發(fā)性潰瘍出血.IPU-ML在1年內(nèi)識別出復(fù)發(fā)性潰瘍出血的總體準(zhǔn)確率為84.3%.
結(jié)腸鏡(Colonoscopy)是直觀檢查結(jié)直腸病變的最常用手段,人工智能在腸鏡領(lǐng)域的研究熱點為潰瘍性結(jié)腸炎(ulcerative colitis,UC)的診斷和預(yù)后評估,識別結(jié)直腸息肉、對息肉進(jìn)行組織學(xué)分級,以及對結(jié)直腸癌的診斷和分期分級,預(yù)測轉(zhuǎn)移和預(yù)后等.
2.1 人工智能診斷結(jié)直腸腺瘤性息肉 結(jié)直腸息肉分為瘤變息肉(低級別瘤變腺瘤、高級別瘤變腺瘤、粘膜內(nèi)癌、浸潤性癌)和非瘤變息肉(增生性息肉和無瘤變的無梗鋸齒狀息肉),結(jié)直腸腺瘤性息肉是大腸癌前病變,包括管狀腺瘤、絨毛狀腺瘤和絨毛管狀腺瘤[35].
結(jié)直腸腺瘤在結(jié)腸鏡檢查的漏診率高達(dá)26%,多個大規(guī)模多中心RCT研究表明人工智能可以大大降低結(jié)直腸腫瘤的漏檢率[36-38].Luo等[39]開發(fā)的人工智能息肉檢測輔助系統(tǒng)不僅明顯增加了傳統(tǒng)結(jié)腸鏡下的息肉檢出率(polyp detection rate,PDR)(34.0%vs38.7%),而且對小于6 mm的息肉的PDR由69%提高到91%,但無法對息肉進(jìn)行分類.
在人工智能對息肉組織學(xué)識別方面,也有諸多國內(nèi)外學(xué)者做了努力.García-Rodríguez等[40]開發(fā)并前瞻性驗證了在WLE下ATENEA系統(tǒng)和內(nèi)鏡醫(yī)生評判結(jié)直腸息肉組織學(xué)分類的總體準(zhǔn)確率分別為83.3%和80%,其中ATENEA正確預(yù)測了91.3%的腺瘤和57.1%的非腺瘤,內(nèi)鏡醫(yī)生正確評判了75.4%的腺瘤和95.2%的非腺瘤.雖然該系統(tǒng)對非腺瘤性病變的表現(xiàn)不盡人意,但ATENEA系統(tǒng)顯示出與內(nèi)窺鏡醫(yī)生類似的全局準(zhǔn)確性.Sánchez-Montes等[41]開發(fā)并驗證了基于WLE的CADx對結(jié)直腸息肉分類的性能.該系統(tǒng)分類腺瘤性和非腺瘤性息肉的總體靈敏度為95.0%,準(zhǔn)確性為91.1%,特異性為87.9%,對于小息肉亞組,該系統(tǒng)分類準(zhǔn)確性為87%,與內(nèi)鏡醫(yī)師診斷性能相當(dāng),強(qiáng)于ATENEA系統(tǒng).雖然該系統(tǒng)對設(shè)備要求低,但無法對息肉進(jìn)行再細(xì)化分類.Choi等[42]開發(fā)了基于WLE的CNN-CAD系統(tǒng),旨在對息肉的組織學(xué)細(xì)化分類,Choi等進(jìn)行的一項多中心研究表明該系統(tǒng)識別正常、低級瘤變、高級別瘤變和腺癌息肉的靈敏度為77.25%,特異性為92.42%,陽性預(yù)測值為77.16%,陰性預(yù)測值為92.58%,表現(xiàn)出與內(nèi)鏡專家相似的性能,并優(yōu)于低年資醫(yī)師.朱興旺[43]建立了智能診斷模型在Pit Pattern分型Ⅲ和Ⅳ型,該預(yù)測模型中準(zhǔn)確率分別為91.77%和98.26%,特異度為92.70%和99.10%;NICE2型的準(zhǔn)確率和特異度為90.04%和84.88%;JNET分型2A型的準(zhǔn)確率和特異度為82.41%和77.71%;2B型的準(zhǔn)確率和特異度為90.75%和81.42%,使息肉的分類更加細(xì)化.
2.2 人工智能診斷結(jié)直腸癌 結(jié)直腸癌是全球第三大常見癌癥[24],也是全球第癌癥二大死亡原因.早期發(fā)現(xiàn)癌性病變可改善結(jié)直腸癌患者的預(yù)后.
Yamada等[44]開發(fā)了一個人工智能系統(tǒng),在結(jié)腸鏡檢查中自動檢測結(jié)直腸癌的早期跡象,系統(tǒng)顯示的敏感性和特異性分別為97.3%和99.0%,驗證集的曲線下面積為0.975.此外,該系統(tǒng)對非息肉亞組敏感性為93.7%,低于息肉亞組(98.0%).
高光譜成像(hyperspectral imaging,HSI)是一種無對比度和無接觸的成像技術(shù),可提供空間分辨率的光譜分析,有可能在細(xì)胞水平上區(qū)分組織[45-47].Collins等[48]使用15倍交叉驗證的CNN輔助HSI對32例(6例T1-2,26例T3-4)結(jié)直腸腺癌進(jìn)行驗證.該模型的總體靈敏度為87%,特異性為90%,ROC-AUC為0.95.在T1-2組,敏感性和特異性分別為89%和90%,在T3-4組,敏感性和特異性分別為81%和93%.該研究說明這種方法可能會成為內(nèi)窺鏡下識別腫瘤的有用工具,可達(dá)到精確和無破壞性的光學(xué)活檢,更進(jìn)一步判斷出無腫瘤的切除邊緣.
2.3 人工智能診斷UC UC是一種病因不明的慢性非特異性腸道炎癥性疾病,主要累及直腸和結(jié)腸,多呈反復(fù)發(fā)作的慢性病程.表現(xiàn)為間斷性腹瀉、黏液膿血便、腹痛及里急后重等.內(nèi)鏡下可根據(jù)Mayo評分(MES)、UC內(nèi)鏡下嚴(yán)重程度評分系統(tǒng)(UCEIS)等評判UC的活動程度,通常將MES=0,1定義為內(nèi)鏡下緩解,MES=2,3定義為內(nèi)鏡下活動.組織學(xué)上可根據(jù)Geboes評分、Nancy評分、RHI指數(shù)等評判組織學(xué)活動程度,通常將Geboes評分≤3定義為組織學(xué)緩解,該評分>3定義為組織學(xué)活動.
Yao等[49]利用多中心數(shù)據(jù)驗證一個圖像視頻分析系統(tǒng)對UC鏡下表現(xiàn)分級的性能.該系統(tǒng)在靜止圖像中具有出色的性能,靈敏度為0.902,特異性為0.870.在高分辨率視頻中,該系統(tǒng)在78%的視頻中正確預(yù)測了MES.在外部臨床試驗視頻中,評審員在82.8%的視頻中認(rèn)可系統(tǒng)的MES.在69.5%的視頻中,系統(tǒng)和評審員的評分一致.臨床試驗視頻的MES分級(通常是低分辨率)在83.7%的視頻中正確區(qū)分了內(nèi)鏡下緩解和活動.Gutierrez Becker等[50]提出的方法能夠以高度的準(zhǔn)確性和穩(wěn)定性對內(nèi)窺鏡視頻進(jìn)行更精細(xì)的分級(Mayo診所內(nèi)窺鏡分值≥1的AUC=0.84,Mayo診所內(nèi)窺鏡分值≥2的AUC=0.85,Mayo診所內(nèi)窺鏡分值≥3的AUC=0.85.
有研究表明[51]UC患者內(nèi)鏡和組織學(xué)疾病活動并不完全一致,內(nèi)鏡下粘膜愈合是UC預(yù)后良好的重要治療目標(biāo),而實現(xiàn)組織學(xué)愈合比內(nèi)鏡下粘膜愈合有更大的益處,故根據(jù)內(nèi)鏡下表現(xiàn)推斷組織學(xué)炎癥十分必要.據(jù)此,Maeda等[52]開發(fā)并評估了一個基于520倍超放大內(nèi)鏡圖像的CAD系統(tǒng)來預(yù)測所有結(jié)直腸節(jié)段的持續(xù)組織學(xué)炎癥.該系統(tǒng)基于診斷的特異性和準(zhǔn)確性分別為97%和91%,而靈敏度略差,為74%,但這并沒有減少活檢標(biāo)本的數(shù)量,且無法預(yù)測長期預(yù)后.但不可否認(rèn),CAD具有支持即時治療決策和預(yù)測長期結(jié)果的潛力.因此,通過學(xué)習(xí)圖像的進(jìn)一步積累,有望提高診斷性能,最終減少不必要的活檢.在此基礎(chǔ)上,日本的Takenaka等[53]開發(fā)的深度神經(jīng)網(wǎng)絡(luò)(DNUC算法)以90.1%的準(zhǔn)確率識別內(nèi)窺鏡UC緩解期的圖像,以92.9%的準(zhǔn)確率識別UC組織學(xué)緩解期的圖像.當(dāng)DNUC在同一圖像中產(chǎn)生內(nèi)鏡和組織學(xué)緩解時,考慮粘膜愈合.與專家結(jié)果的比較,DNUC對評估粘膜愈合具有較高的敏感性(92.0%)和特異性(91.3%),陽性預(yù)測值和陰性預(yù)測值分別為86.2%和95.1%[54].Takenaka等[54]還進(jìn)行了一項前瞻性研究,將UC相關(guān)的住院和結(jié)腸切除術(shù)作為終點,評估DNUC結(jié)果與終點之間的關(guān)聯(lián),此外,還評估了類固醇使用和臨床復(fù)發(fā)的數(shù)據(jù).該研究發(fā)現(xiàn)專家得出的結(jié)果與DNUC之間的差異無統(tǒng)計學(xué)意義(住院,P=367;結(jié)腸切除術(shù),P=0.693;類固醇使用,P=0.851;復(fù)發(fā)率P=0.758)[54],說明DNUC可以準(zhǔn)確預(yù)測患者預(yù)后,預(yù)測價值與專家評估相當(dāng).
CE是一種無創(chuàng)、無需麻醉、患者耐受性好且依從性高的消化道檢查手段,現(xiàn)已成為診斷小腸疾病的首選方式.然而,單次CE平均可捕獲數(shù)萬張圖像,內(nèi)鏡醫(yī)師閱片時間長且效率低,病變檢出率也易受醫(yī)師專業(yè)水平和疲勞程度的影響,而在圖像數(shù)據(jù)龐大的CE領(lǐng)域,人工智能更具應(yīng)用優(yōu)勢.
3.1 人工智能在CE下檢測腸道出血和血管擴(kuò)張 早期人們應(yīng)用顏色直方圖、顏色矩、可疑血液指示器(suspected blood indicator,SBI)、HemoPill光學(xué)傳感器等[55,56]識別出血,但其特異性差,不適合用于臨床診斷.Aoki等[57]利用ResNet50深度網(wǎng)絡(luò)結(jié)構(gòu)的CNN算法來識別血液含量,該方法檢測腸腔內(nèi)血液含量的AUC達(dá)到0.9998,以概率0.5為臨界值,敏感性、特異性和準(zhǔn)確性分別為96.63%、99.96%和99.89%,均高于SBI檢測的相應(yīng)數(shù)據(jù)(76.92%、99.82%和99.35%),具有明顯優(yōu)勢.繼Aoki等之后,Mascarenhas等[58]開發(fā)CNN檢測小腸管內(nèi)的血液和血液殘留物,準(zhǔn)確率和精確度分別為98.5%和98.7%.敏感性和特異性分別為98.6%和98.9%,與Aoki等人的研究共同說明CNN在識別腸道出血方面具有穩(wěn)定的高性能.在檢測血管擴(kuò)張方面,Tsuboi等開發(fā)CNN檢測小腸管內(nèi)的血液和血液殘留物,準(zhǔn)確率和精確度分別為98.5%和98.7%.敏感性和特異性分別為98.6%和98.9%,與Aoki等人的研究共同說明CNN在識別腸道出血方面具有穩(wěn)定的高性能.在檢測血管擴(kuò)張方面,Tsuboi等[59]開發(fā)并驗證了基于多分類單桿檢測器(SSD)目標(biāo)檢測算法的CNN系統(tǒng),其檢測血管擴(kuò)張病變的AUC為0.998,以0.36為臨界值,靈敏度與特異度分別為98.8%與98.4%.
3.2 人工智能輔助CE檢測腸道潰瘍、糜爛和狹窄 為提高診斷效率,Aoki等[60]使用基于SSD的CNN系統(tǒng),輔助醫(yī)師檢測腸黏膜糜爛和潰瘍.在CNN輔助下內(nèi)鏡醫(yī)師在用時更短的同時不降低檢出率,對大病灶(d>5 mm)檢出率相同(100%vs100%),且對小病灶(d≤5 mm)的檢出率更高(83%vs79%),這有助于在保證質(zhì)量的前提下提高內(nèi)鏡醫(yī)師的讀片效率.為進(jìn)一步提高效率,實現(xiàn)人工智能全自動識別腸道潰瘍,Wang等[61]探索搭建CNN系統(tǒng)的架構(gòu)和基礎(chǔ)網(wǎng)絡(luò),提出了一個HAnet架構(gòu),使用ResNet-34作為基礎(chǔ)網(wǎng)絡(luò),將淺層的超特征與深層的深層特征融合,提供最終的診斷決策.該系統(tǒng)對粘膜破損識別的準(zhǔn)確率為92.05%,其靈敏度和特異性分別為91.64%和92.42%,優(yōu)于VGG、DenseNet和Inception-ResNet-v2,以及經(jīng)典的機(jī)器學(xué)習(xí)方法.
目前大多數(shù)研究都是基于單一型號CE圖像進(jìn)行訓(xùn)練和驗證,故Kratter等[62]探索了ML算法在不同CE下識別黏膜糜爛,對PillCam-SB3-s膠囊和PillCam-Crohn-s膠囊獲得的黏膜糜爛圖像進(jìn)行識別及組合識別,發(fā)現(xiàn)雖然單個膠囊模型在來自同一領(lǐng)域的驗證集上表現(xiàn)良好,但它們在其他膠囊的測試集上表現(xiàn)不佳,但所開發(fā)兩種不同膠囊的聯(lián)合模型提供了高且一致的診斷準(zhǔn)確性,這有望利用ML算法為自動膠囊讀取創(chuàng)建一個整體的人工智能模型.
在潰瘍和狹窄的分級方面,Barash等[63]訓(xùn)練的CNN系統(tǒng)能對糜爛的圖像進(jìn)行分級,1級與3級潰爛的分類準(zhǔn)確率為91%,2級與3級的分類準(zhǔn)確率為78%,1級與2級的分類準(zhǔn)確率為62.4%,這可能允許對相關(guān)疾病進(jìn)行自動檢測和分級.Klang等[64]開發(fā)的深度學(xué)習(xí)算法檢測克羅恩病(Crohn’s disease,CD)的小腸糜爛AUC為0.99,準(zhǔn)確率在95.4%到96.7%之間,這加強(qiáng)了前人的成果.次年,Klang等[65]將該模型優(yōu)化,優(yōu)化后的模型可以將狹窄病灶與潰爛病灶分開,且能以93.5%的平均準(zhǔn)確率識別狹窄程度(輕度、中度和重度狹窄的AUC分別為0.992、0.975和0.889).
3.3 人工智能輔助CE檢測腸道息肉和腫瘤 Gilabert等[66]開發(fā)了一個多平臺的網(wǎng)絡(luò)應(yīng)用,AI-Tool.它嵌入了一個CNN來幫助結(jié)腸膠囊內(nèi)鏡(CCE)評審員.在AI-Tool的幫助下,審查時間減少了6倍,息肉檢測靈敏度從81.08提高到87.80%,這拓展了Aoki等[60]的研究,并取得AI輔助內(nèi)鏡醫(yī)師對不同病變檢出的一致性結(jié)果.Yamada等[67]訓(xùn)練的基于SSD的CNN系統(tǒng)檢測結(jié)直腸腫瘤的曲線下面積為0.902,靈敏度、特異性和準(zhǔn)確性分別為79.0%、87.0%和83.9%,但對病變未進(jìn)行亞組分析.Saito等[68]訓(xùn)練了一個深度CNN,其檢測病變的AUC為0.911,這同Yamada等人的研究一致,且在對病變類別的亞組分析中,對息肉、結(jié)節(jié)、上皮瘤和粘膜下腫瘤的檢測敏感度分別為86.5%、92.0%、95.8%和77.0%,具備臨床應(yīng)用的潛力.
EUS是將內(nèi)鏡和超聲相結(jié)合的消化道檢查技術(shù),可利用內(nèi)鏡下的超聲行實時掃描獲得胃腸道的層次結(jié)構(gòu)的組織學(xué)特征及周圍鄰近臟器的超聲圖像,消化道EUS包括超聲食管鏡、超聲胃鏡、超聲十二指腸鏡、超聲腸鏡,廣泛應(yīng)用于診斷消化道上皮下病變、判斷消化系腫瘤的侵犯深度及外科手術(shù)切除的可能性、胰膽系統(tǒng)腫瘤、十二指腸壺腹部腫瘤的鑒別診斷、縱隔病變等,對慢性胰腺炎等診斷亦優(yōu)于其他影像學(xué)檢查.此外,諧波造影增強(qiáng)超聲內(nèi)鏡(contrast-enhanced harmonic endoscopic ultrasound,CH-EUS)對消化道內(nèi)外病變的診斷也很有用.內(nèi)窺鏡超聲波引導(dǎo)的細(xì)針抽吸/活檢(EUS-FNA/B)作為胰腺腫塊病變的一線診斷工具,在臨床實踐中也被廣泛使用.有研究表明[69],人工智能輔助超聲內(nèi)鏡(EUS-AI)對消化系統(tǒng)疾病的診斷準(zhǔn)確性與內(nèi)窺鏡醫(yī)師相當(dāng)甚至更好.
4.1 人工智能輔助EUS診斷消化道黏膜下病變 消化道上皮下病變(subepithelial lesions,SELs)是源于胃腸道壁內(nèi)非黏膜層而突向胃腸道腔的腫塊樣病變.EUS是診斷SELs最合適的方式[70-72].胃腸道間質(zhì)腫瘤(gastrointestinal stromal tumors,GISTs)和胃腸道平滑肌瘤(gastrointestinal leiomyomas,GILs)是最常見的SELs,所有的GISTs都有惡性潛力,然而,GILs被認(rèn)為是良性的.Yang等及Liu等[73,74]開發(fā)的EUS-AI診斷系統(tǒng)均可有效地區(qū)分GISTs和GILs,提高SELs的診斷準(zhǔn)確性.Minoda等[75]開發(fā)的EUS-AI系統(tǒng)可以鑒別胃SEL中GIST與非GIST,其準(zhǔn)確率、靈敏度和特異性分別為94.4%、100%和86.1%,AUC值為0.98.為預(yù)測GIST的惡性潛力,Lu等[76]建立了一個風(fēng)險分層的EUS-AI模型來.在大量外部驗證集中,按腫瘤劃分的四類風(fēng)險的EUS-AI模型總體準(zhǔn)確率、敏感性、特異性、PPV和NPV分別為74.50%、55.00%、79.05%、53.49%和81.63%.兩類風(fēng)險EUS-AI模型預(yù)測極低風(fēng)險的GIST的準(zhǔn)確性、敏感性、特異性、PPV和NPV分別為86.25%、94.44%、79.55%、79.07%和94.59%.Minoda等還評估了用于診斷胃間質(zhì)瘤的EUS-AI系統(tǒng)是否可以應(yīng)用于非胃GIST.研究顯示[75],基于胃SEL的EUS-AI對非胃GIST同樣有較好的診斷能力,且對胃腸道不同部位非胃源性GIST的診斷準(zhǔn)確率隨著病變大小的增加而增加,這與胃SEL的結(jié)果一致,但該研究納入病例較少,穩(wěn)定性還有待考證.此外,為改進(jìn)識別GIST效率,He等[77]提出了一種Query2框架,經(jīng)GIST514-DB數(shù)據(jù)集驗證表明該方法構(gòu)建的人工智能診斷GIST更優(yōu).
在人工智能與內(nèi)鏡醫(yī)師診斷效果比較方面,人工智能診斷模型識別常見SEL的效能與3年以上經(jīng)驗的EUS醫(yī)師相當(dāng),略差于5年以上經(jīng)驗的EUS專家,仍有進(jìn)步空間[78].由人工智能評估的CH-EUS結(jié)果區(qū)分GISTs和GILs的診斷能力與內(nèi)窺鏡專家的盲讀能力相當(dāng)[79].
4.2 人工智能輔助EUS診斷胰腺疾病 Kuwahara等[80]回顧性收集了多種類型胰腺腫塊(胰管腺癌[PDAC]、胰腺癌[PASC]、腺癌[ACC]、轉(zhuǎn)移性胰腺腫瘤[MPT]、神經(jīng)內(nèi)分泌癌[NEC]、神經(jīng)內(nèi)分泌腫瘤[NET]、實體假瘤[SPN])的EUS圖像,開發(fā)了一個能夠區(qū)分胰腺癌和非癌性胰腺病變的人工智能模型,其胰腺癌診斷的曲線下面積、敏感性、特異性和準(zhǔn)確性分別為0.90、0.94、0.82和0.91,診斷每類疾病的敏感度為PDAC 0.96、PASC 1.00、ACC 1.00、MPT 0.33、NEC 1.00、NET 0.93、SPN 1.00.
自身免疫性胰腺炎(autoimmune pancreatitis,AIP)可以在EUS中表現(xiàn)為局灶性腫塊,而沒有其他特異性特征,這使AIP與慢性胰腺炎或PC區(qū)分十分困難.此外,目前的指南[81,82]認(rèn)為EUS僅作為一種獲得細(xì)胞組織學(xué)標(biāo)本以排除惡性腫瘤的方法,而不考慮其基于形態(tài)學(xué)方面的診斷能力.Tacelli等[83]的研究對指南做出了挑戰(zhàn),他們開發(fā)的CNN模型在由116位AIPs和234位PC組成的350例患者隊列中,僅憑EUS下表現(xiàn)就可以正確分類88%的患者,在無需細(xì)針抽吸/活檢的條件下具有較高的分類準(zhǔn)確性.在AIP與PDAC、慢性胰腺炎和正常胰腺的區(qū)分方面,Marya等[84]開發(fā)的EUS-CNN模型可以完成這一任務(wù),且具有足夠的性能來實時分析EUS視頻.該模型區(qū)分AIP和NP的敏感度和特異性分別為99%和98%;區(qū)分AIP和PDAC的敏感度和特異性分別為90%和93%;區(qū)分AIP和CP的敏感度和特異性分別為94%和71%;區(qū)分AIP與其他所有條件的敏感性和特異性分別為90%和85%,EUSCNN模型能準(zhǔn)確地將AIP與PDAC和良性胰腺條件區(qū)分開來,可以使病人得到更針對性的干預(yù).
此外,Tang等[85]首次開發(fā)了一種基于CH-EUS的人工智能診斷系統(tǒng)(CH-EUS MASTER),該系統(tǒng)可以識別胰腺癌與非腫瘤性腫塊,并在EUS引導(dǎo)下細(xì)針抽吸/活檢(EUS-FNA/B)過程中引導(dǎo)目標(biāo)穿刺區(qū)域.CH-EUS MASTER診斷胰腺腫塊的準(zhǔn)確性、敏感性和特異性均明顯優(yōu)于內(nèi)鏡檢查.CH-EUS MASTER指導(dǎo)下的準(zhǔn)確率93.8%,敏感性90.9%,特異性100%,陽性預(yù)測值100%,陰性預(yù)測值83.3%,這有望減少不必要的FNA/B,提高取材的準(zhǔn)確性,節(jié)約病理資源.
4.3 人工智能輔助EUS診斷膽系疾病 對于膽囊息肉狀病變EUS是最準(zhǔn)確的診斷方式.Jang等[86]開發(fā)的EUS-AI系統(tǒng)對于腫瘤性和非腫瘤性膽囊息肉的鑒別診斷的敏感性、特異性、陽性預(yù)測值、陰性預(yù)測值和準(zhǔn)確性分別為57.9%、96.5%、77.8%、91.6%和89.8%.與內(nèi)窺鏡醫(yī)生的診斷性能相比,EUS-AI具有更高的特異型,準(zhǔn)確率介于中級醫(yī)師(66.7%)和專家醫(yī)師(77.5%)之間,表現(xiàn)出良好的性能.
對于膽總管結(jié)石的EUS圖像,人工智能診斷的靈敏度、特異度和準(zhǔn)確率分別為75.81%、98.57%和89.91%,均不高于有經(jīng)驗的超聲內(nèi)鏡醫(yī)師(靈敏度94.42%、特異度100.00%和準(zhǔn)確率97.88%),但把兩種診斷方式進(jìn)行并聯(lián)診斷試驗后,人工智能聯(lián)合超聲內(nèi)鏡醫(yī)師對膽總管結(jié)石診斷的靈敏度為97.67%,特異度為100%,準(zhǔn)確率為99.12%,較有經(jīng)驗的超聲內(nèi)鏡醫(yī)師有所提高[87].Yao等[22]構(gòu)建的BP MASTER系統(tǒng)可在EUS下識別膽管站點及自動測量其直徑,通過前瞻性地收集視頻數(shù)據(jù)進(jìn)行交叉研究,證實BP MASTER系統(tǒng)可將內(nèi)鏡醫(yī)師對站點識別的準(zhǔn)確率從60.8%提高到76.3%,有利于醫(yī)師對膽道的全面檢查.在EUS下識別膽管結(jié)石方面,人工智能僅能作為一項輔助醫(yī)師的工具用來提高診斷效率,減少對膽道站點觀察不全所致的漏診,而難以獨立完成可靠診斷.
4.4 人工智能輔助EUS診斷CD 腸道超聲是內(nèi)鏡下觀察腸道分層的最佳方式,可用于臨床疑似IBD患者的初步評估和隨訪.腸壁增厚是CD最重要的超聲特征,也是診斷CD炎癥的有效標(biāo)志,EUS區(qū)分UC和CD的敏感性和特異性高,腸壁厚度≤3 mm與內(nèi)窺鏡緩解和經(jīng)壁緩解有顯著關(guān)聯(lián)[88,89].Carter等[90]開發(fā)了一個人工智能系統(tǒng)來區(qū)分腸壁增厚(腸道炎癥的替代物)和腸道超聲的正常腸道圖像.在健康病例中,86.4%被正確診斷,在非健康病例中,94%被正確診斷.總體而言,該系統(tǒng)檢測腸壁增厚的準(zhǔn)確性、敏感性和特異性分別為90.1%、86.4%和94%,平均受試者工作特征曲線下面積為0.977,在識別CD腸道超聲圖像的腸壁增厚方面具有較高的準(zhǔn)確性.
通過對人工智能輔助消化內(nèi)鏡診斷消化系統(tǒng)疾病領(lǐng)域國內(nèi)外文獻(xiàn)的分析,可以發(fā)現(xiàn)目前人工智能輔助胃腸鏡不僅可以識別消化道惡性腫瘤如食管癌、胃癌、結(jié)直腸癌,更重要的是也對癌前病變?nèi)鏐E、CAG、不同級別腺瘤的識別具有較高的準(zhǔn)確性.人工智能輔助CE識別腸道出血和血管擴(kuò)張方面靈敏性很高,但在識別息肉和腫瘤方面差于傳統(tǒng)胃腸鏡;在EUS方面,人工智能輔助診斷消化道上皮下病變、辨別胰腺腫塊類型方面效能較高,但對于膽道結(jié)石的診斷效能不佳.多數(shù)研究是在人工環(huán)境(圖像和視頻數(shù)據(jù)集)中完成的構(gòu)建及檢測,若想將人工智能轉(zhuǎn)化為在臨床環(huán)境中的成功,其在人工環(huán)境中的良好表現(xiàn)是先決條件,此外還需內(nèi)窺鏡醫(yī)師完整暴露黏膜的基本技能以及駕馭人工智能的能力.不同人工智能構(gòu)建方法對診斷的側(cè)重點不同,如Faster RCNN、Mask RCNN更著重于陽性預(yù)測,Cascade RCNN則更著重陰性預(yù)測,對于不同的診斷目的可以選用不同的人工智能構(gòu)建方法,這也提示內(nèi)窺鏡醫(yī)師需要了解不同人工智能的特點,以便與其達(dá)成良好的合作關(guān)系.此外,使用包含大量非癌癥圖像以及視頻訓(xùn)練人工智能似乎可以減少由于內(nèi)鏡圖片的角度問題以及反光等原因造成的假陽性和假陰性,此后可開發(fā)包含大量視頻的數(shù)據(jù)集用于比較和驗證現(xiàn)有人工智能系統(tǒng)對視頻識別的準(zhǔn)確性,以及開發(fā)更符合臨床環(huán)境的人工智能.
總體來說,人工智能單獨診斷性能與高年資內(nèi)鏡醫(yī)師相當(dāng)或弱于高年資內(nèi)鏡醫(yī)師,目前沒有RCT研究表明人工智能單獨診斷效力強(qiáng)于高年資內(nèi)鏡醫(yī)師,但幾乎全部研究都表明,與低年資內(nèi)鏡醫(yī)師相比,人工智能診斷準(zhǔn)確性更高.對于人工智能輔助高年資醫(yī)師方面,有RCT研究表明,當(dāng)將人工智能系統(tǒng)作為一種輔助工具時,可以提高經(jīng)驗豐富醫(yī)師的診斷效能.人工智能的真正價值在于協(xié)助內(nèi)窺鏡醫(yī)師將診斷準(zhǔn)確性達(dá)到一個新的高度,但這并非意味著一味強(qiáng)調(diào)降低假陰性,在醫(yī)療資源緊張的今天,對于假陽性的把控同樣重要.
人工智能輔助消化內(nèi)鏡診斷疾病方面已經(jīng)取得了可喜成效,目前國內(nèi)外已有多種人工智能輔助系統(tǒng)落地,如內(nèi)鏡精靈、影諾鷹眼、百洋腫瘤臨床決策系統(tǒng)[91]等,但仍有許多問題需要進(jìn)一步探討和研究,例如無梗鋸齒狀病變難以與背景粘膜區(qū)分,人工智能難以識別、CE診斷問題中對于多種疾病同時診斷的研究較少、單憑內(nèi)鏡下表現(xiàn)難以對惡性腫瘤進(jìn)行分期、人工智能需對受到外部因素如患者的呼吸和心跳影響的EUS圖像進(jìn)行實時校正和配準(zhǔn)、廣泛領(lǐng)域前瞻性多中心研究較少等.這不僅需要深入分析和研究,還需要結(jié)合實際情況進(jìn)行更為精確的建模,為后續(xù)研究和應(yīng)用提供更廣泛深遠(yuǎn)的發(fā)展空間.