馮銘 鄭雪晴 王任直
隨著信息學(xué)和統(tǒng)計(jì)學(xué)的發(fā)展,“大數(shù)據(jù)”概念興起并在各領(lǐng)域中展現(xiàn)出其應(yīng)用價(jià)值。大數(shù)據(jù)的3項(xiàng)核心特征為體量龐大(volumn)、生成速度迅速(velocity)、數(shù)據(jù)類型豐富(variety)[1]。醫(yī)療領(lǐng)域的大數(shù)據(jù)包括生物信息數(shù)據(jù)(如基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)等)、影像組學(xué)數(shù)據(jù)(如MRI、CT、分子影像、病理影像等)、結(jié)構(gòu)化數(shù)據(jù)(如檢驗(yàn)結(jié)果、診斷、藥物治療等)、非結(jié)構(gòu)化數(shù)據(jù)(如臨床記錄)等[1]。采用多種數(shù)據(jù)挖掘工具對(duì)醫(yī)療大數(shù)據(jù)進(jìn)行開發(fā)和分析將成為傳統(tǒng)醫(yī)學(xué)模式向精準(zhǔn)醫(yī)學(xué)轉(zhuǎn)變的核心動(dòng)力,醫(yī)療大數(shù)據(jù)的廣泛應(yīng)用也將使人們對(duì)健康和疾病的理解產(chǎn)生深遠(yuǎn)影響。目前,醫(yī)療大數(shù)據(jù)的應(yīng)用方向主要包括通過機(jī)器學(xué)習(xí)(ML)輔助臨床決策、闡釋特殊疾病機(jī)制、支持藥品和醫(yī)療機(jī)器人等研發(fā)、個(gè)體化診療、重大疾病相關(guān)危險(xiǎn)因素篩查和風(fēng)險(xiǎn)預(yù)測(cè)、傳染性疾病監(jiān)測(cè)等[2]。神經(jīng)系統(tǒng)疾病種類繁多,有神經(jīng)系統(tǒng)腫瘤、腦血管病、腦功能性疾病等,診斷與治療相對(duì)復(fù)雜,預(yù)后較差[3]。因此,早期診斷與鑒別診斷至關(guān)重要,目前迫切需要提高臨床決策能力以及精確預(yù)防與治療水平,而基于醫(yī)療大數(shù)據(jù)的分析和應(yīng)用則提供了新的思路和方法。
電子病歷(EHR)是由醫(yī)療保健者生成并維護(hù)的患者健康和臨床護(hù)理記錄,旨在系統(tǒng)收集信息用于更全面精準(zhǔn)的臨床護(hù)理。隨著電子病歷系統(tǒng)在全世界范圍內(nèi)的日益普及,對(duì)其中的高通量真實(shí)世界信息進(jìn)行提取和分析成為可能。電子病歷的結(jié)構(gòu)顯著影響數(shù)據(jù)的可用性,結(jié)構(gòu)化數(shù)據(jù)一致且易于提取,是目前研究的主流;非結(jié)構(gòu)化數(shù)據(jù)需自然語(yǔ)言處理(NLP)等工具進(jìn)行標(biāo)準(zhǔn)化、編碼和提取,較少用于大數(shù)據(jù)分析[4]。將機(jī)器學(xué)習(xí)與結(jié)構(gòu)化數(shù)據(jù)相結(jié)合,可以用于垂體腺瘤預(yù)后的預(yù)測(cè),通過篩選結(jié)構(gòu)化臨床特征并開發(fā)算法模型,可以用于肢端肥大癥早期緩解和庫(kù)欣病延遲緩解的預(yù)測(cè),以指導(dǎo)臨床決策[5?6]。但也有部分針對(duì)鞍區(qū)疾病的機(jī)器學(xué)習(xí)模型選擇隨意、未提供重復(fù)研究所需的參數(shù)和超參數(shù)、缺乏驗(yàn)證,導(dǎo)致研究結(jié)果可重復(fù)性、魯棒性和可泛化性受到限制[7]。腦卒中的結(jié)構(gòu)化數(shù)據(jù)挖掘已取得一定成果,通過機(jī)器學(xué)習(xí)從電子病歷中評(píng)估缺血性卒中嚴(yán)重程度的主要評(píng)價(jià)指標(biāo),計(jì)算得出美國(guó)國(guó)立衛(wèi)生研究院卒中量表(NIHSS)評(píng)分是較準(zhǔn)確的評(píng)價(jià)指標(biāo)[8];還通過電子病歷信息擬合缺血性卒中TOAST分型標(biāo)準(zhǔn),最終獲得預(yù)測(cè)陽(yáng)性值達(dá)95%的特征提取算法,從而輔助臨床上缺血性卒中亞型的準(zhǔn)確分類[9],對(duì)于藥物治療、風(fēng)險(xiǎn)評(píng)估和二級(jí)預(yù)防具有重要意義。電子病歷的數(shù)據(jù)挖掘還可用于阿爾茨海默病的發(fā)病風(fēng)險(xiǎn)評(píng)估、預(yù)后預(yù)測(cè)、臨床護(hù)理等多方面,發(fā)現(xiàn)紅細(xì)胞沉降率(ESR)與發(fā)病風(fēng)險(xiǎn)顯著相關(guān)[10];同時(shí)還發(fā)現(xiàn)首次就診連線測(cè)驗(yàn)?A(TMT?A)評(píng)分與疾病進(jìn)展顯著相關(guān)[11],連同其他神經(jīng)心理學(xué)測(cè)驗(yàn)的基線特征,有助于預(yù)測(cè)預(yù)后。由此可見,電子病歷系統(tǒng)蘊(yùn)含大量可供學(xué)習(xí)的數(shù)據(jù),但進(jìn)一步投入臨床應(yīng)用仍需改善不同衛(wèi)生系統(tǒng)之間電子病歷的可獲取性、標(biāo)準(zhǔn)化和互用性。電子病歷數(shù)據(jù)不同于研究型數(shù)據(jù)庫(kù),缺乏準(zhǔn)確性和完整性,從而限制其研究結(jié)果的準(zhǔn)確性;此外,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的整理也將在未來擴(kuò)展電子病歷信息的應(yīng)用。
醫(yī)學(xué)影像學(xué)作為臨床常用的診斷工具,包含大量可供挖掘的信息,其數(shù)字化特征也使其具有大數(shù)據(jù)處理的可能。將生物醫(yī)學(xué)信息中的組學(xué)概念遷移至醫(yī)學(xué)影像即形成影像組學(xué),從高通量的醫(yī)學(xué)影像數(shù)據(jù)中提取深度特征,通過機(jī)器學(xué)習(xí)進(jìn)行定量分析,而輔助疾病的早期篩查、準(zhǔn)確診斷、分級(jí)分期、治療預(yù)后和分子特征分析。影像組學(xué)將需用于診斷的圖像轉(zhuǎn)換為可挖掘的數(shù)據(jù),主要包括以下5個(gè)步驟,圖像采集與重建、興趣區(qū)(ROI)分割與標(biāo)記、特征提取與量化、統(tǒng)計(jì)分析、預(yù)測(cè)模型建立[3],這種低成本、非侵入性的動(dòng)態(tài)監(jiān)測(cè)技術(shù)對(duì)于神經(jīng)系統(tǒng)疾病優(yōu)勢(shì)顯著。影像組學(xué)特征可以用于腦腫瘤的鑒別診斷[3],可資鑒別膠質(zhì)母細(xì)胞瘤與中樞神經(jīng)系統(tǒng)淋巴瘤和腦轉(zhuǎn)移瘤、惡性血管外皮細(xì)胞瘤與血管型腦膜瘤。在膠質(zhì)瘤的診斷與治療方面,通過機(jī)器學(xué)習(xí)和特征提取并結(jié)合影像組學(xué)方法,可以精確分級(jí)并根據(jù)不同級(jí)別輔助臨床決策;通過對(duì)重要分子生物學(xué)標(biāo)志物的分析,如Ki?67抗原標(biāo)記指數(shù)、異檸檬酸脫氫酶(IDH)、1p/19q共缺失、端粒酶逆轉(zhuǎn)錄酶(TERT)、同源性磷酸酶?張力蛋白(PTEN)、表皮生長(zhǎng)因子受體(EGFR)、骨膜蛋白(POSTN)、X連鎖α地中海貧血伴精神發(fā)育遲滯綜合征蛋白(ATRX)、TP53基因突變以及O6?甲基鳥嘌呤?DNA甲基轉(zhuǎn)移酶(MGMT)甲基化等[3],也可輔助診斷分子亞型。此外,影像組學(xué)還隱含疾病的遺傳異質(zhì)性,可揭示腫瘤基因的表達(dá),為基因分型提供無(wú)創(chuàng)性的檢測(cè)手段[12]?;谟跋窠M學(xué)的機(jī)器學(xué)習(xí)模型目前還用于術(shù)前腦膜瘤分級(jí)[13]、侵襲性功能性垂體腺瘤手術(shù)效果預(yù)測(cè)[14]、肢端肥大癥患者腫瘤一致性評(píng)估[15]和放療效果預(yù)測(cè)[16]等。在腦血管病診斷與治療方面,基于影像組學(xué)的機(jī)器學(xué)習(xí)模型可準(zhǔn)確鑒別診斷顱內(nèi)動(dòng)?靜脈畸形與其他病因引起的腦內(nèi)血腫[17],亦可用于預(yù)測(cè)腦出血周圍水腫和血腫擴(kuò)大[18]。對(duì)于腦功能性疾病,基于影像組學(xué)的機(jī)器學(xué)習(xí)模型可有效識(shí)別早期外觀正常的腦白質(zhì)病變[19]、診斷特發(fā)性帕金森病和阿爾茨海默病,還可基于定量的生物學(xué)標(biāo)志物,輔助精神分裂癥的個(gè)體化診斷[20]以及帕金森病的預(yù)后預(yù)測(cè)[21]。由此可見,影像組學(xué)可用于不同神經(jīng)系統(tǒng)疾病的鑒別及分型診斷、分子特征分析、治療和預(yù)后評(píng)估,其作為一種低成本的新型臨床檢測(cè)工具可改進(jìn)神經(jīng)系統(tǒng)疾病的治療決策。然而,影像組學(xué)廣泛應(yīng)用于臨床實(shí)踐前仍存在挑戰(zhàn):不同來源的影像學(xué)數(shù)據(jù)需經(jīng)過歸一化預(yù)處理以提高參數(shù)的準(zhǔn)確性;精準(zhǔn)且快速的圖像分割已成為影像組學(xué)的瓶頸;機(jī)器學(xué)習(xí)的開發(fā)和驗(yàn)證依靠多中心的協(xié)作和數(shù)據(jù)庫(kù)的建設(shè);對(duì)機(jī)器學(xué)習(xí)算法的認(rèn)識(shí)不足使其結(jié)果的可解釋性受到限制。相信隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,未來影像組學(xué)可在神經(jīng)系統(tǒng)疾病的常規(guī)治療中有更廣泛的應(yīng)用。
醫(yī)療領(lǐng)域的大數(shù)據(jù)起源于微觀組學(xué)。隨著高通量雜交陣列技術(shù)的快速發(fā)展,各種生物信息數(shù)據(jù)庫(kù)相繼建立,為共享數(shù)據(jù)提供便捷。生物信息大數(shù)據(jù)著眼于分子層面,結(jié)合臨床表象,可加深對(duì)疾病發(fā)病機(jī)制的理解,為精準(zhǔn)醫(yī)學(xué)、轉(zhuǎn)化醫(yī)學(xué)帶來新的發(fā)展機(jī)遇[22]。目前已發(fā)現(xiàn)垂體腺瘤的誘因和易感基 因 包 括USP8、AIP、MEN1、CDKN1B等,其 中,USP8基因在庫(kù)欣病中的突變率高達(dá)40%~62%,導(dǎo)致去泛素化酶活性增強(qiáng),抑制EGFR泛素化,使EGFR不斷積累誘發(fā)腫瘤[23],不僅揭示了庫(kù)欣病的分子發(fā)病機(jī)制,而且提供了一系列治療靶點(diǎn)。更多針對(duì)膠質(zhì)瘤的數(shù)據(jù)庫(kù),如中國(guó)腦膠質(zhì)瘤基因組學(xué)圖譜計(jì)劃(CGGA)、GliomaDB等數(shù)據(jù)庫(kù)相繼建立,為精準(zhǔn)醫(yī)學(xué)的發(fā)展奠定數(shù)據(jù)基礎(chǔ)?;谀[瘤基因組學(xué)圖譜計(jì)劃(TCGA)分析線粒體丙酮酸載體蛋白1(MPC1)表達(dá)變化與預(yù)后的關(guān)系,IDH突變的膠質(zhì)瘤患者M(jìn)PC1過表達(dá)與更好的總體生存率相關(guān)[24],MPC1表達(dá)降低的膠質(zhì)母細(xì)胞瘤患者則總體生存情況較差,并且對(duì)替莫唑胺有抗藥性的膠質(zhì)母細(xì)胞瘤MPC1基因缺失比例較高[25]。針對(duì)腦血管病的全基因組關(guān)聯(lián)研究(GWAS)共確定32個(gè)與缺血性卒中及其亞型相關(guān)的基因位點(diǎn)[26]。聯(lián)合進(jìn)行蛋白質(zhì)組學(xué)、代謝組學(xué)、轉(zhuǎn)錄組學(xué)和基因組學(xué)等分析,獲得缺血性卒中分型、診斷和預(yù)后預(yù)測(cè)的相關(guān)生物學(xué)標(biāo)志物[27],有助于加深對(duì)腦卒中病理生理學(xué)機(jī)制的理解,為疾病的診斷與治療提供新的思路。然而,在這些生物信息大數(shù)據(jù)應(yīng)用于臨床實(shí)踐前,還需經(jīng)過更多樣化的驗(yàn)證,尤其需要擴(kuò)大非洲地區(qū)高質(zhì)量、全面、準(zhǔn)確的表型和基因組學(xué)數(shù)據(jù)[28?29]。代謝組學(xué)可用于評(píng)估帕金森病不同發(fā)展階段的病理生理學(xué)過程,以盡早糾正異常代謝,為個(gè)體化藥物治療增加新的可能。多種微觀組學(xué)數(shù)據(jù)的挖掘確定至少19個(gè)與阿爾茨海默病發(fā)病機(jī)制相關(guān)的蛋白質(zhì)靶點(diǎn),且這些靶點(diǎn)均與獲批上市或正在進(jìn)行臨床試驗(yàn)的藥物相關(guān),證實(shí)了組學(xué)研究對(duì)探究發(fā)病機(jī)制和藥物研發(fā)的作用[30]。多種微觀組學(xué)的結(jié)合對(duì)精準(zhǔn)醫(yī)學(xué)有廣闊的發(fā)展前景,但也面臨一定的挑戰(zhàn),數(shù)據(jù)混雜因素多、異質(zhì)性強(qiáng);數(shù)據(jù)標(biāo)準(zhǔn)化水平仍需提升;統(tǒng)計(jì)學(xué)分析技術(shù)在人口規(guī)模上的應(yīng)用仍需改進(jìn);分析結(jié)果難以區(qū)分相關(guān)性和因果性等。
近年來,醫(yī)療領(lǐng)域出現(xiàn)可用數(shù)據(jù)體量、速度和種類的爆炸式增長(zhǎng),越來越多的機(jī)器學(xué)習(xí)應(yīng)用于醫(yī)療大數(shù)據(jù)的挖掘與分析,在生物學(xué)標(biāo)志物探尋、疾病機(jī)制闡明、療效和預(yù)后預(yù)測(cè)等方面均取得一定的成果,有望成為臨床決策的有力輔助工具。神經(jīng)系統(tǒng)疾病病情復(fù)雜、種類繁多,亟待這樣一種簡(jiǎn)單易行的方式提高臨床決策能力和精準(zhǔn)治療水平。多模態(tài)數(shù)據(jù)的交叉與融合是大勢(shì)所趨,目前已有越來越多的研究將影像組學(xué)、生物信息數(shù)據(jù)和電子病歷數(shù)據(jù)相結(jié)合進(jìn)行深度分析。未來尚待進(jìn)一步建立數(shù)據(jù)的協(xié)作網(wǎng)絡(luò)、提升數(shù)據(jù)質(zhì)量和對(duì)數(shù)據(jù)的分析能力、加強(qiáng)隱私保護(hù)與數(shù)據(jù)安全,充分體現(xiàn)醫(yī)療大數(shù)據(jù)的價(jià)值。
利益沖突 無(wú)