徐一云,陳佳靜,秦悅農(nóng),吳春宇,孫霃平,劉勝
(上海中醫(yī)藥大學(xué)附屬龍華醫(yī)院中西醫(yī)結(jié)合乳腺科,上海 200032)
近年來隨著篩查的普及和相關(guān)科技成果的轉(zhuǎn)化,女性發(fā)病率最高的惡性腫瘤——乳腺癌的早期確診率顯著提高,同時(shí)患者的預(yù)后顯著改善[1]。乳腺癌的全程全方位管理涵蓋了以腫瘤規(guī)范化治療為基礎(chǔ)的“精準(zhǔn)治療”和早期乳腺癌治療后“慢病化管理”兩大模塊,同時(shí)也帶來了更多量級(jí)、多維度、高度復(fù)雜性、異質(zhì)性的乳腺癌相關(guān)診療數(shù)據(jù)。然而,受限于醫(yī)療資源分配不均、人力資源的有限性以及不同臨床評(píng)估標(biāo)準(zhǔn)體系的差異等因素,未來將乳腺癌的全程全方位治療管理理念高效地應(yīng)用于臨床還面臨諸多挑戰(zhàn)。數(shù)字技術(shù)的快速革新以及人工智能醫(yī)療、“互聯(lián)網(wǎng)+”醫(yī)療、物聯(lián)網(wǎng)醫(yī)療等概念及產(chǎn)業(yè)的發(fā)展,極大地促進(jìn)了醫(yī)療大數(shù)據(jù)的傳輸、存儲(chǔ)、監(jiān)測、應(yīng)用與開發(fā)[2-3]。機(jī)器學(xué)習(xí)作為一種智能數(shù)據(jù)處理、分析、輔助制訂決策、預(yù)測事件結(jié)局的技術(shù),已廣泛應(yīng)用于醫(yī)療領(lǐng)域,在生命和醫(yī)學(xué)科學(xué)研究中具有重要地位[4]?,F(xiàn)就機(jī)器學(xué)習(xí)在乳腺癌全程全方位管理中的研究進(jìn)展予以綜述。
機(jī)器學(xué)習(xí)是指計(jì)算機(jī)通過模擬人類行為實(shí)現(xiàn)智能學(xué)習(xí)和處理的技術(shù)。邏輯回歸等基礎(chǔ)算法是早期機(jī)器學(xué)習(xí)的主要算法,自20世紀(jì)80年代起,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[5-6]、支持向量機(jī)(support-vector machine,SVM)[7]、隨機(jī)森林[8]等相繼誕生,但其數(shù)據(jù)和算力限制了機(jī)器學(xué)習(xí)的發(fā)展。進(jìn)入21世紀(jì),計(jì)算機(jī)算力的指數(shù)級(jí)增長推動(dòng)了深度學(xué)習(xí)、生成對抗網(wǎng)絡(luò)的應(yīng)用與實(shí)踐,實(shí)現(xiàn)了機(jī)器模仿人類寫作、繪畫等,著名的Alpha Go系列人工智能更是展現(xiàn)了機(jī)器學(xué)習(xí)領(lǐng)域中深度強(qiáng)化學(xué)習(xí)在圍棋等擬人化復(fù)雜思維運(yùn)算領(lǐng)域的成功[9-10]。目前,機(jī)器學(xué)習(xí)已應(yīng)用于醫(yī)療領(lǐng)域,旨在協(xié)助臨床醫(yī)師為每例腫瘤患者提供個(gè)性化的診療方案。
機(jī)器學(xué)習(xí)的步驟主要包含數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析、分析與總結(jié)。其中,數(shù)據(jù)分析即運(yùn)用適當(dāng)數(shù)學(xué)模型總結(jié)樣本中的規(guī)律,同時(shí)在未知的情形下進(jìn)行驗(yàn)證,以得出符合已知規(guī)律的結(jié)論,核心為機(jī)器學(xué)習(xí)的學(xué)習(xí)方法。而數(shù)據(jù)分析包括:①分類,通過使用標(biāo)簽和參數(shù)來預(yù)測離散的分類響應(yīng)值;②聚類,將數(shù)據(jù)劃分為子組;③回歸,預(yù)測連續(xù)響應(yīng)的數(shù)值以識(shí)別分布趨勢。其中,分類和回歸基于監(jiān)督學(xué)習(xí),而聚類涉及無監(jiān)督學(xué)習(xí)。
乳腺癌的診療方案涉及腫瘤篩查、診斷、治療、預(yù)后、隨訪期間相關(guān)并發(fā)癥等環(huán)節(jié)。機(jī)器學(xué)習(xí)算法在兼顧乳腺癌診療環(huán)節(jié)中的數(shù)據(jù)類型、研究目的、專業(yè)要求甚至產(chǎn)業(yè)結(jié)構(gòu)差異性的同時(shí),還具有良好的臨床應(yīng)用能力。
2.1提高乳腺癌篩查效率 乳腺癌的篩查依賴于乳腺彩色多普勒超聲、鉬靶和磁共振成像等影像檢查以及??漆t(yī)師的體格檢查。各種篩查方法聯(lián)合應(yīng)用可以獲得較高的診斷靈敏度和特異度,有助于乳腺癌患者的早期診斷與干預(yù),從而改善患者預(yù)后、減輕其經(jīng)濟(jì)負(fù)擔(dān)。然而,由于傳統(tǒng)計(jì)算機(jī)輔助診斷系統(tǒng)多依賴??漆t(yī)師的手工特征提取,同時(shí)乳腺影像的診斷速度與精準(zhǔn)度又受限于人力、工作時(shí)間、專業(yè)性等因素,不能適應(yīng)目前呈指數(shù)級(jí)增長的乳腺影像數(shù)據(jù)。隨著機(jī)器學(xué)習(xí)和圖像處理技術(shù)的發(fā)展,以深度神經(jīng)網(wǎng)絡(luò)模型為主的機(jī)器學(xué)習(xí)算法不僅可以解決圖像分類任務(wù),還為乳腺癌的篩查、診斷、評(píng)估提供了可能[11]。有研究者開發(fā)了多尺度全CNN模型,實(shí)現(xiàn)了對乳腺鉬靶影像正常腺體以及乳腺良惡性腫瘤的自動(dòng)分類,總體靈敏度達(dá)96%,受試者工作特征曲線下面積為0.99[12]。CNN等計(jì)算機(jī)算法被廣泛應(yīng)用于乳腺癌的影像判別。McKinney等[13]開發(fā)的鉬靶篩查乳腺癌的人工智能系統(tǒng)受試者工作特征曲線下面積為0.889(英國)和0.8107(美國)?;跈C(jī)器學(xué)習(xí)開發(fā)的人工智能系統(tǒng)對乳腺癌影像識(shí)別相關(guān)算法的不斷優(yōu)化,提高了乳腺癌的篩查效率,降低了誤診率和漏診率。與乳腺彩色多普勒超聲影像相比,相對客觀且可公開獲取的鉬靶影像組學(xué)更受機(jī)器學(xué)習(xí)相關(guān)研究者的關(guān)注。
2.2優(yōu)化乳腺癌病理診斷流程 整體切片成像系統(tǒng)的開發(fā)與應(yīng)用實(shí)現(xiàn)了數(shù)字化輔助病理診斷。由于像素級(jí)的差異,與臨床影像相比,病理組織影像攜帶了更多關(guān)于細(xì)胞種類、形態(tài)、空間排列等信息,更適合開展基于深度學(xué)習(xí)的對乳腺癌病理影像進(jìn)行分類診斷的應(yīng)用研究,替代傳統(tǒng)病理診斷流程。在CAMELYON 16、ICIAR(International Conference on Image Analysis and Recognition)2018等機(jī)器學(xué)習(xí)算法輔助乳腺癌病理診斷的競賽中,排名靠前的算法均運(yùn)用了CNN架構(gòu)[14-15]。CNN、多尺度CNN等均可實(shí)現(xiàn)對蘇木精-伊紅染色的乳腺病理圖像中正常組織、乳房良性病變、原位癌、浸潤性癌的自動(dòng)分類。由于深度學(xué)習(xí)模型的泛化性與訓(xùn)練的樣本量密切相關(guān),在樣本量受限時(shí)深度學(xué)習(xí)結(jié)合遷移學(xué)習(xí)可改善深度學(xué)習(xí)模型中過度擬合的問題[16]。
國外學(xué)者運(yùn)用分類器模型實(shí)現(xiàn)了對91 505個(gè)母語為英語的乳腺病理報(bào)告的自動(dòng)解析[17]。我國學(xué)者報(bào)道了一種以自然語言處理結(jié)合SVM算法判別乳腺中文病理檢查報(bào)告的方法,該方法對于二進(jìn)制數(shù)值結(jié)果識(shí)別的完全正確率達(dá)85%(346/405)[18]。將機(jī)器學(xué)習(xí)算法應(yīng)用于病理報(bào)告的判讀,可從繁冗的信息中高效提取乳腺癌分期、分子分型等關(guān)鍵信息,降低人為誤判的可能性。但受地域、病理醫(yī)師專業(yè)性的影響,病理表述內(nèi)容及格式上存在差異,因此,未來更貼近母語使用習(xí)慣的算法將具有更廣闊的應(yīng)用前景。
2.3輔助乳腺癌西醫(yī)綜合治療 計(jì)算機(jī)對圖像及文本進(jìn)行檢測、分級(jí)等基礎(chǔ)分析,目的是使工作流程自動(dòng)化,且不改變?nèi)橄侔┡R床工作流程和治療建議。另一方面,機(jī)器學(xué)習(xí)可以揭示數(shù)據(jù)特征之間隱藏的關(guān)聯(lián)性,如通過構(gòu)建數(shù)學(xué)模型挖掘出術(shù)前醫(yī)療影像或文本中的特征與后續(xù)治療方案之間的相關(guān)性,而此類數(shù)學(xué)模型的應(yīng)用與推廣可能對乳腺癌的臨床治療決策產(chǎn)生影響。研究已證實(shí),≤2枚前哨淋巴結(jié)轉(zhuǎn)移的早期乳腺癌患者,無需行腋窩淋巴結(jié)清掃術(shù)且不影響術(shù)后總生存期[19]。前哨淋巴結(jié)活檢術(shù)作為一項(xiàng)創(chuàng)傷性操作,也可能導(dǎo)致上肢麻木、水腫等術(shù)后并發(fā)癥。Yu等[20]通過回顧性預(yù)后研究構(gòu)建了動(dòng)態(tài)對比增強(qiáng)磁共振成像放射學(xué)特征模型并進(jìn)行了模型驗(yàn)證,該模型可識(shí)別術(shù)前腋窩淋巴結(jié)轉(zhuǎn)移狀態(tài),輔助醫(yī)師為不同淋巴結(jié)轉(zhuǎn)移狀態(tài)的乳腺癌患者制訂最優(yōu)的手術(shù)方案,同時(shí)該模型也可預(yù)測早期乳腺癌患者的無病生存期。Zheng等[21]應(yīng)用臨床參數(shù)結(jié)合深度學(xué)習(xí)超聲影像組學(xué),預(yù)測早期乳腺癌患者術(shù)前腋窩淋巴結(jié)轉(zhuǎn)移狀態(tài)。以上研究借助機(jī)器學(xué)習(xí)實(shí)現(xiàn)以非侵入性方式預(yù)測早期乳腺癌腋窩淋巴結(jié)轉(zhuǎn)移情況,為臨床醫(yī)師選擇恰當(dāng)?shù)囊父C淋巴結(jié)手術(shù)治療方案提供了參考。
乳房在解剖結(jié)構(gòu)中與心、肺等重要臟器毗鄰,精準(zhǔn)選擇感興趣區(qū)域、保證其運(yùn)動(dòng)跟蹤度均與減少乳腺癌患者放療不良反應(yīng)密切相關(guān)。有學(xué)者開發(fā)了基于CNN的方法,實(shí)現(xiàn)了自動(dòng)選擇放療最優(yōu)的表面感興趣區(qū)域,且其定位的精準(zhǔn)率顯著高于醫(yī)師手動(dòng)選擇的區(qū)域[22]。同時(shí),機(jī)器學(xué)習(xí)還可實(shí)現(xiàn)光束與患者解剖匹配,從而通過面部表情預(yù)測患者進(jìn)階運(yùn)動(dòng),提高放療的穩(wěn)定性[23-24]。還有研究以不同機(jī)器算法篩選最優(yōu)模型,通過正電子發(fā)射計(jì)算機(jī)斷層顯像、磁共振成像等影像特征早期預(yù)測乳腺癌新輔助治療后病理完全緩解等情況[25-27]。運(yùn)用計(jì)算機(jī)建模評(píng)估人表皮生長因子受體2(human epidermal growth factor receptor 2,HER2)基因過表達(dá)乳腺癌患者經(jīng)新輔助治療后的HER2表達(dá)水平[28],可以幫助臨床醫(yī)師在乳腺癌新輔助治療早期獲取更為精準(zhǔn)的信息,及時(shí)評(píng)估或調(diào)整治療方案。
乳腺癌患者激素受體(hormone receptor,HR)的狀態(tài)是內(nèi)分泌治療的指征,而乳腺癌患者HR的表達(dá)需要經(jīng)免疫組織化學(xué)檢測。Naik等[29]開發(fā)了一個(gè)基于大樣本病理學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)算法,可通過蘇木精-伊紅染色的病理組織影像預(yù)測乳腺癌患者的HR狀態(tài),該算法可縮短乳腺癌患者獲得內(nèi)分泌治療決策的時(shí)間。有學(xué)者以HR+/HER2-的晚期乳腺癌患者電子健康記錄為數(shù)據(jù)集,運(yùn)用機(jī)器學(xué)習(xí)和自然語言處理方法開發(fā)了預(yù)測HR+/HER2-早期和晚期乳腺癌進(jìn)展的模型[30]。在晚期乳腺癌的診治領(lǐng)域開展相關(guān)機(jī)器學(xué)習(xí)的研究可使更多具有高危復(fù)發(fā)風(fēng)險(xiǎn)的患者獲得及時(shí)監(jiān)測并及早進(jìn)入一線治療。值得注意的是,新技術(shù)和新藥物的不斷研發(fā)上市、乳腺癌診療指南內(nèi)容的不斷更新均會(huì)對目前機(jī)器學(xué)習(xí)模型的效能產(chǎn)生影響。
2.4輔助乳腺癌中醫(yī)診療 乳腺癌的中醫(yī)臨床診療流程涉及下列模塊:四診及癥狀的收集→辨病(臨床治療分期)→辨證→治法→方藥[31]。由于中醫(yī)相關(guān)醫(yī)療文本中癥狀、辨證記錄的模糊性、主觀性,中醫(yī)藥臨床研究的結(jié)果缺乏在更大數(shù)據(jù)集上驗(yàn)證的準(zhǔn)確性及可重復(fù)性。因此,中醫(yī)四診及癥狀的客觀化、標(biāo)準(zhǔn)化顯得尤為重要。目前機(jī)器學(xué)習(xí)已滲入乳腺癌中醫(yī)診療的各個(gè)方面。聲音、圖像的數(shù)字化存儲(chǔ)及處理可促進(jìn)機(jī)器學(xué)習(xí)在中醫(yī)四診客觀化中的研究與應(yīng)用,如運(yùn)用SVM、反向傳播神經(jīng)網(wǎng)絡(luò)等算法根據(jù)眼神特征將中醫(yī)中抽象的概念望神客觀化[32];運(yùn)用SVM、隨機(jī)森林、CNN等算法可實(shí)現(xiàn)舌象的客觀分類[33-34];運(yùn)用CNN可通過聲學(xué)信號(hào)實(shí)現(xiàn)聞診的虛實(shí)辨證[35];此外,還可通過梯度推進(jìn)、隨機(jī)森林結(jié)合K均值聚類算法增強(qiáng)高血壓病脈沖波模型的穩(wěn)定性,實(shí)現(xiàn)脈沖波對脈診的客觀分類[36]。
目前,聚類、分類、關(guān)聯(lián)規(guī)則、邏輯回歸等傳統(tǒng)算法已廣泛用于基于醫(yī)療文本數(shù)據(jù)的乳腺癌證型的識(shí)別和處方分析。高秀飛等[37]應(yīng)用聚類分析184例乳腺癌伴抑郁癥患者發(fā)現(xiàn),肝郁氣滯、肝郁脾虛、肝腎陰虛、心脾兩虛為其主要證型,同時(shí)初步構(gòu)建乳腺癌伴抑郁癥患者的中醫(yī)辨證模型。還有研究采用關(guān)聯(lián)規(guī)則、聚類分析等研究中醫(yī)古籍處方治療乳腺癌的用藥規(guī)律,以期根據(jù)臨床腫瘤負(fù)荷的不同,提供不同的用藥思路[38-39]。
通過機(jī)器學(xué)習(xí)可以使目前傳統(tǒng)中醫(yī)大數(shù)據(jù)具有標(biāo)準(zhǔn)規(guī)范定義,促進(jìn)中醫(yī)藥現(xiàn)代化進(jìn)程。人工神經(jīng)網(wǎng)絡(luò)通過模擬自然神經(jīng)元的運(yùn)作機(jī)制,構(gòu)建輸入與輸出間的系統(tǒng)模型。Huang等[40]運(yùn)用神經(jīng)網(wǎng)將2 738例乳腺癌患者醫(yī)療文本中的中醫(yī)關(guān)鍵術(shù)語進(jìn)行標(biāo)準(zhǔn)化和集成,同時(shí)結(jié)合聚類分析完成乳腺癌證型及中醫(yī)處方治療目的的自動(dòng)識(shí)別。由于患者的素體差異可能導(dǎo)致臨床治療分期相同的患者間出現(xiàn)“同病異治”的情況,將個(gè)體化治療差異極大的中醫(yī)診療思維轉(zhuǎn)化為更具實(shí)際操作性的代碼是目前機(jī)器學(xué)習(xí)的難點(diǎn)。在醫(yī)療智能化、數(shù)據(jù)共享化的時(shí)代背景下,以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)架構(gòu)的深度強(qiáng)化學(xué)習(xí)等算法可促進(jìn)中醫(yī)內(nèi)在診療邏輯的具體應(yīng)用,助推中醫(yī)現(xiàn)代化的進(jìn)程。
2.5監(jiān)測乳腺癌相關(guān)身心疾病 積極監(jiān)測乳腺癌相關(guān)并發(fā)癥以及早期心理干預(yù)可以改善患者的生活質(zhì)量。如早期監(jiān)測乳腺癌患者術(shù)后上肢淋巴水腫有助于及時(shí)干預(yù)控制病情[41];運(yùn)用人工神經(jīng)網(wǎng)絡(luò)結(jié)合極限學(xué)習(xí)算法可實(shí)現(xiàn)對乳腺癌術(shù)后抑郁癥高?;颊叩脑缙谧R(shí)別[42]。近年來,隨著醫(yī)療物聯(lián)網(wǎng)相關(guān)產(chǎn)業(yè)的發(fā)展以及可穿戴式傳感器的普及,實(shí)現(xiàn)了對乳腺癌相關(guān)醫(yī)療健康數(shù)據(jù)的遠(yuǎn)程獲取與實(shí)時(shí)監(jiān)測[43]。高效地從數(shù)據(jù)中提煉出具有臨床意義的信息并進(jìn)行早期干預(yù),是目前“萬物互聯(lián)”時(shí)代大背景下機(jī)器學(xué)習(xí)算法面臨的挑戰(zhàn)。
2.6預(yù)測乳腺癌復(fù)發(fā)風(fēng)險(xiǎn) 傳統(tǒng)乳腺癌風(fēng)險(xiǎn)預(yù)測工具的開發(fā)及應(yīng)用多基于患者的年齡、病理報(bào)告中描述的腫塊大小、腋窩淋巴結(jié)情況、免疫組織化學(xué)等指標(biāo)。機(jī)器學(xué)習(xí)則試圖在臨床、病理影像等數(shù)據(jù)與基因表達(dá)之間構(gòu)建相關(guān)算法模型,繞過人工閱片、撰寫報(bào)告、臨床判讀等環(huán)節(jié),直接預(yù)測乳腺癌復(fù)發(fā)風(fēng)險(xiǎn)。Tahmassebi等[44]應(yīng)用8種機(jī)器學(xué)習(xí)算法通過多參數(shù)磁共振成像預(yù)測乳腺癌新輔助化療患者的生存結(jié)果?;诨?qū)用娴娜橄侔?fù)發(fā)風(fēng)險(xiǎn)檢測方法受限于高昂的檢測成本及技術(shù)可及性,無法廣泛開展。但有研究通過機(jī)器學(xué)習(xí)算法初步實(shí)現(xiàn)了通過蘇木精-伊紅染色的乳腺病理組織圖像判別患者的雌激素受體狀態(tài)、PAM50(prediction analysis of microarray 50)評(píng)分和復(fù)發(fā)評(píng)分風(fēng)險(xiǎn)[45-46]。由此可見,開發(fā)出更具泛化性的乳腺癌預(yù)后模型可使乳腺癌相關(guān)信息的獲取由基礎(chǔ)、簡便向更高級(jí)、更復(fù)雜的層級(jí)跨越,以更低的成本完成對患者預(yù)后的精準(zhǔn)預(yù)測,減少整個(gè)社會(huì)在基因?qū)用鏅z測治療的支出,使更多患者獲益。
鑒于醫(yī)療行業(yè)的精密要求,必須控制過失誤差、系統(tǒng)誤差在極小范圍內(nèi)。受限于乳腺癌精準(zhǔn)治療指南的更迭、中醫(yī)個(gè)體化辨證施治、患者生物信息等相關(guān)倫理問題,目前的機(jī)器學(xué)習(xí)擔(dān)負(fù)著輔助醫(yī)師完成臨床決策的重任。機(jī)器學(xué)習(xí)對數(shù)據(jù)的存儲(chǔ)、共享、可重復(fù)性、預(yù)測性等功能已全面滲透于乳腺癌的篩查、診斷、治療、監(jiān)測、評(píng)估、隨訪等各環(huán)節(jié)。未來,機(jī)器學(xué)習(xí)處理數(shù)據(jù)的高效能將逐步改變?nèi)橄侔┡R床診療中簡單重復(fù)的工作流程。而隨著5G通訊技術(shù)、物聯(lián)網(wǎng)、機(jī)器學(xué)習(xí)的協(xié)同發(fā)展,數(shù)字化醫(yī)療將為乳腺癌等疾病的診治及全方位管理帶來全新的體驗(yàn)。