徐 偉 李輝萍 賀國(guó)華 胡 玨 童洋萍 徐桂蘭 曾文高 劉新峰 王 振,4△
【提 要】 目的 利用人工智能系統(tǒng)建立一個(gè)有效的預(yù)測(cè)模型,對(duì)腦梗死靜脈溶栓后的出血轉(zhuǎn)化進(jìn)行早期預(yù)測(cè)。方法 回顧性分析2016年6月至2019年11月南華大學(xué)附屬長(zhǎng)沙中心醫(yī)院前瞻性注冊(cè)登記的靜脈溶栓患者的資料。收集患者的人口學(xué)、臨床、理化及影像學(xué)指標(biāo)共53項(xiàng),利用單因素判別分析建立單因素模型,利用邏輯回歸(LR)、樸素貝葉斯(NB)、隨機(jī)森林(RF)、人工神經(jīng)網(wǎng)絡(luò)多層感知機(jī)(MLP)建立多因素預(yù)測(cè)模型,對(duì)腦梗死患者靜脈溶栓后的出血轉(zhuǎn)化進(jìn)行預(yù)測(cè)。用受試者工作特征曲線下面積(AUC)評(píng)判預(yù)測(cè)模型好壞。結(jié)果 本研究共納入283例患者,其中有27例出現(xiàn)出血轉(zhuǎn)化,出血轉(zhuǎn)化率為9.5%。單因素模型中,以年齡作為預(yù)測(cè)因子的模型預(yù)測(cè)效果最好,其AUC為0.74,當(dāng)選擇76歲為截?cái)嘀禃r(shí),其敏感度為67%,特異度為72%。多因素模型中,RF模型預(yù)測(cè)效果最好,其AUC為0.90,靈敏度為0.85、特異度為0.89;LR模型的AUC為0.87,靈敏度為0.89、特異度為0.85;NB模型的AUC為0.87,靈敏度為0.76、特異度為0.86;MLP模型的AUC為0.82,靈敏度為0.81、特異度為0.78。結(jié)論 基于人工智能的RF模型效果優(yōu)于其他模型,可用作醫(yī)學(xué)輔助診斷系統(tǒng)來(lái)預(yù)測(cè)腦梗死靜脈溶栓后出血轉(zhuǎn)化的發(fā)生。
腦梗死是神經(jīng)內(nèi)科常見(jiàn)病、多發(fā)病,具有發(fā)病率高、致殘率高、致死率高、復(fù)發(fā)率高的特點(diǎn)[1]。超早期靜脈溶栓是目前最為有效的治療手段之一[2]。出血轉(zhuǎn)化(hemorrhagic transformation,HT)指腦梗死后缺血區(qū)血管重新恢復(fù)血流灌注導(dǎo)致的梗死區(qū)內(nèi)繼發(fā)性出血或遠(yuǎn)隔部位的出血。HT是靜脈溶栓的一個(gè)嚴(yán)重并發(fā)癥,嚴(yán)重影響了靜脈溶栓的治療效果[3],也是腦梗死患者靜脈溶栓后出現(xiàn)神經(jīng)功能惡化[4]、引起醫(yī)療糾紛的主要原因之一。早期識(shí)別HT高危患者具有重要的臨床意義。
近年來(lái)人工智能已廣泛應(yīng)用于各個(gè)領(lǐng)域,包括化學(xué)、工程學(xué)、基因?qū)W和醫(yī)學(xué)等。各國(guó)科學(xué)家也在嘗試將它應(yīng)用于神經(jīng)疾病的預(yù)測(cè)研究,例如,蛛網(wǎng)膜下腔出血患者遲發(fā)性腦缺血的預(yù)測(cè)[5],大血管閉塞性卒中機(jī)械取栓的預(yù)后預(yù)測(cè)[6],大面積腦梗死的轉(zhuǎn)歸預(yù)測(cè)[7]等。本研究的目的是運(yùn)用人工智能建立一個(gè)自動(dòng)化的預(yù)測(cè)系統(tǒng),幫助臨床醫(yī)生早期預(yù)測(cè)腦梗死靜脈溶栓后的出血轉(zhuǎn)化,從而選擇恰當(dāng)?shù)闹委煼桨浮?/p>
1.研究人群
回顧性分析2016年6月至2019年11月南華大學(xué)附屬長(zhǎng)沙中心醫(yī)院前瞻性地連續(xù)注冊(cè)登記的接受靜脈溶栓的急性腦梗死患者。
2.入選標(biāo)準(zhǔn)和排除標(biāo)準(zhǔn)
入選標(biāo)準(zhǔn):年齡>18歲;符合《中國(guó)急性缺血性腦卒中診治指南》[2]中急性腦梗死的診斷標(biāo)準(zhǔn);在癥狀出現(xiàn)4.5小時(shí)開(kāi)始溶栓治療。
排除標(biāo)準(zhǔn):接受橋接血管內(nèi)治療者;溶栓后48小時(shí)內(nèi)未復(fù)查頭部CT或MRI患者;接受尿激酶溶栓的患者;最后確診為卒中模擬病(stroke mimics)者。
3.出血轉(zhuǎn)化的定義
腦梗死發(fā)生后靜脈溶栓前頭顱CT未發(fā)現(xiàn)出血,而溶栓后48小時(shí)內(nèi)復(fù)查頭顱CT或MRI時(shí)發(fā)現(xiàn)有顱內(nèi)出血。
4.數(shù)據(jù)采集
(1)人口學(xué)變量:年齡、性別;(2)既往病史:高血壓、高脂血癥、糖尿病、房顫、吸煙、既往腦梗死或短暫性腦缺血發(fā)作(TIA);(3)臨床變量:發(fā)病到溶栓的時(shí)間(OTT)、發(fā)病時(shí)間不明性卒中、院內(nèi)卒中、入院首次收縮壓、入院首次舒張壓、溶栓前收縮壓、溶栓前舒張壓、溶栓期間最大收縮壓、溶栓期間最大舒張壓、溶栓后收縮壓、溶栓后舒張壓、溶栓前美國(guó)國(guó)立衛(wèi)生研究院卒中量表(NIHSS)評(píng)分、體重、阿替普酶總量;(4)卒中病因(TOAST分型):大動(dòng)脈閉塞型、心源性栓塞、小動(dòng)脈閉塞型、其他原因型、不明原因型;(5)梗死部位:前循環(huán)、后循環(huán)、前+后循環(huán)混合型;(6)理化指標(biāo):白細(xì)胞計(jì)數(shù)、中性粒細(xì)胞計(jì)數(shù)、淋巴細(xì)胞計(jì)數(shù)、單核細(xì)胞計(jì)數(shù)、血紅蛋白濃度、入院隨機(jī)血糖、PT、APTT、纖維蛋白原、血鉀、血鈉、血氯、血鈣、總蛋白、白蛋白、球蛋白、ALT、AST、總膽紅素、直接膽紅素、間接膽紅素、尿酸、肌酐、尿素氮、甘油三酯、總膽固醇、高密度脂蛋白、低密度脂蛋白;(7)影像指標(biāo):CT平掃上有早期缺血征象。早期缺血征象定義[8]為溶栓前CT平掃存在以下任何一種征象:<1/3大腦中動(dòng)脈供血區(qū)域的低密度;豆?fàn)詈四:?;腦島帶征;外側(cè)裂及腦溝變淺。
5.統(tǒng)計(jì)分析方法
(1)采用統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)分析
采用STATA 15.0統(tǒng)計(jì)軟件分析所有數(shù)據(jù),檢驗(yàn)水準(zhǔn)α=0.05(雙側(cè)檢驗(yàn))。計(jì)量資料如呈正態(tài)分布,采用均數(shù)(標(biāo)準(zhǔn)差)表示;如呈偏態(tài)分布,采用中位數(shù)(四分位間距)表示。分別從以下方面進(jìn)行數(shù)據(jù)分析:①各指標(biāo)在組間的比較,計(jì)量資料呈正態(tài)分布且方差齊性時(shí),采用兩樣本的t檢驗(yàn),方差不齊時(shí)采用近似t檢驗(yàn),呈偏態(tài)分布時(shí)采用Wilcoxon秩和檢驗(yàn);計(jì)數(shù)資料的構(gòu)成比采用卡方(Chi-Square)檢驗(yàn);②經(jīng)檢驗(yàn)有統(tǒng)計(jì)學(xué)差異的(P≤0.05)變量引入單因素判別分析模型,繪制ROC曲線,選取靈敏度和特異度的和值最大的點(diǎn)為截?cái)嘀担?jì)算各模型的敏感度、特異度、受試者工作特征曲線下面積(area under receiver operation characteristic,AUC)。認(rèn)為AUC值越大,其預(yù)測(cè)效果越好。
(2)使用數(shù)據(jù)挖掘?qū)I(yè)軟件Weka工具箱[https://www.cs.waikato.ac.nz/ml/weka/]進(jìn)行數(shù)據(jù)分析,數(shù)據(jù)分析主要包括數(shù)據(jù)預(yù)處理和分類。①數(shù)據(jù)預(yù)處理:使用Resample進(jìn)行數(shù)據(jù)重抽樣,然后進(jìn)行特征選擇,使用CfsSubsetEval評(píng)估器,其搜索算法采用BestFirst。②分類器選擇:選用邏輯回歸(logistic regression,LR)、樸素貝葉斯(naive bayes,NB)、隨機(jī)森林(random forest,RF)、人工神經(jīng)網(wǎng)絡(luò)多層感知機(jī)(multip layer perception,MLP)進(jìn)行分類預(yù)測(cè),采用十折交叉驗(yàn)證,計(jì)算各模型的敏感度、特異度、AUC,繪制ROC曲線。AUC值越大,其預(yù)測(cè)效果越好。
6.預(yù)測(cè)準(zhǔn)確性的判斷
運(yùn)用AUC作為預(yù)測(cè)性能的判斷指標(biāo)。
1.數(shù)據(jù)的特征
2016年6月至2019年11月本中心共有356例急性腦梗死患者接受靜脈溶栓治療,排除57例患者接受橋接血管內(nèi)治療,4例患者48小時(shí)內(nèi)未復(fù)查頭部CT或MRI,5例患者采用尿激酶溶栓,9例患者最終確診為卒中模擬病,最終納入283例均采用阿替普酶靜脈溶栓的患者(患者可能同時(shí)符合多項(xiàng)排除標(biāo)準(zhǔn))。其中有27例患者出現(xiàn)出血轉(zhuǎn)化,出血轉(zhuǎn)化發(fā)生率為9.5%(見(jiàn)表1)。
表1 兩組患者基線特征比較
2.出血轉(zhuǎn)化組與非出血轉(zhuǎn)化組各指標(biāo)的比較
根據(jù)有無(wú)出血轉(zhuǎn)化,分為出血轉(zhuǎn)化組和非出血轉(zhuǎn)化組。兩組患者在年齡、院內(nèi)卒中、溶栓前NIHSS評(píng)分、TOAST分型、單核細(xì)胞計(jì)數(shù)、白蛋白、總膽固醇、甘油三酯8個(gè)指標(biāo)差異具有統(tǒng)計(jì)學(xué)意義(P<0.05)。具體見(jiàn)表1。
3.單因素模型
通過(guò)以上步驟的分析,共篩選出8個(gè)指標(biāo),其P值≤0.05,提示可以作為HT的預(yù)測(cè)因子。分別將這些因子納入單因素模型,計(jì)算靈敏度、特異度、AUC。結(jié)果以年齡作為預(yù)測(cè)因子的模型預(yù)測(cè)效果最好,其AUC為0.74,當(dāng)選擇年齡≥76歲為截?cái)嘀禃r(shí),其敏感度為67%,特異度為72%。具體見(jiàn)表2和圖1。
表2 單因素模型的靈敏度、特異度和AUC
圖1 單因素模型ROC曲線
4.多因素模型
采用廣泛使用的數(shù)據(jù)挖掘軟件Weka,采用Resample進(jìn)行數(shù)據(jù)重抽樣,然后進(jìn)行特征選擇,使用CfsSubsetEval評(píng)估器,其搜索算法采用BestFirst,最終選擇了10個(gè)屬性,具體為年齡、院內(nèi)卒中、溶栓前NIHSS評(píng)分、TOAST分型、入院隨機(jī)血糖、單核細(xì)胞計(jì)數(shù)、白蛋白、總膽固醇、甘油三酯、CT早期缺血征象。選擇這10個(gè)參數(shù)為預(yù)測(cè)因子分別代入LR、NB、RF、MLP模型進(jìn)行分類預(yù)測(cè),所有參數(shù)設(shè)置均為系統(tǒng)提供的默認(rèn)參數(shù)。結(jié)果顯示RF模型預(yù)測(cè)效果最好,其AUC為0.90,靈敏度為0.85、特異度為0.89;LR模型的AUC為0.87,靈敏度為0.89、特異度為0.85;NB模型的AUC為0.87,靈敏度為0.76、特異度為0.86;MLP模型的AUC為0.82,靈敏度為0.81、特異度為0.78。多因素模型的表現(xiàn)均優(yōu)于單因素模型。具體見(jiàn)表3和圖2。
表3 多因素模型的特異度、靈敏度和AUC
圖2 多因素模型ROC曲線
良好的預(yù)測(cè)模型應(yīng)同時(shí)具有良好的靈敏度和特異度。AUC作為綜合評(píng)判靈敏度和特異度的指標(biāo),為判斷預(yù)測(cè)模型的準(zhǔn)確性提供了更為直觀的標(biāo)準(zhǔn)。AUC越大,其預(yù)測(cè)效果越好[7,9]。我們采用多種模型對(duì)腦梗死靜脈溶栓后出血轉(zhuǎn)化進(jìn)行分類預(yù)測(cè)。單因素模型,在臨床操作中簡(jiǎn)單易行,但在本次試驗(yàn)中其表現(xiàn)出來(lái)的靈敏度和特異度不佳,最好的結(jié)果是選擇年齡作為預(yù)測(cè)因子的模型,其AUC為0.74,以≥76歲為截?cái)嘀禃r(shí),靈敏度僅67%,特異度僅72%。如將這一結(jié)果運(yùn)用到臨床會(huì)產(chǎn)生較多的假陽(yáng)性和假陰性結(jié)果。糾其原因,腦梗死靜脈溶栓后是否發(fā)生出血轉(zhuǎn)化受多種因素影響,患者年齡只是其中一種重要的影響因素。我們將年齡、院內(nèi)卒中、溶栓前NIHSS評(píng)分、TOAST分型、單核細(xì)胞計(jì)數(shù)、白蛋白、總膽固醇、甘油三酯、CT早期缺血征象、入院隨機(jī)血糖這10個(gè)指標(biāo)加入多因素預(yù)測(cè)模型,無(wú)論選用哪種預(yù)測(cè)方案其AUC、靈敏度或特異度都有很大提高。RF模型的AUC最高為0.90;NB模型和LR模型次之,AUC值為0.87;MLP模型最差,其AUC值為0.82,明顯優(yōu)于單因素模型中的最佳模型(以年齡為預(yù)測(cè)因子的模型,AUC值0.74)。
比較RF、NB、LR、MLP四種模型,其中RF表現(xiàn)最佳,其AUC為0.92。在此之前,各國(guó)的研究人員也對(duì)這四種模型進(jìn)行過(guò)多次比較,由于選擇的數(shù)據(jù)不同,其結(jié)論不同[5,10,11]??梢?jiàn)四種模型并沒(méi)有固定的優(yōu)劣之分,在實(shí)際運(yùn)用中可根據(jù)臨床數(shù)據(jù)的不同,選擇不同類型的模型。
本研究為回顧性單中心研究,因此,可能存在選擇偏倚;樣本量有限,期待多中心大樣本研究驗(yàn)證。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年2期