基于大數(shù)據(jù)的腦卒中復發(fā)預測模型的構建

2019-07-29 01:12陳莉平宋立冉

物聯(lián)網(wǎng)技術 2019年6期

陳莉平宋立冉?

摘要：我國臨床資料表明腦卒中具有較高的復發(fā)率，采用風險預測模型及時對腦卒中患者進行智能化的復發(fā)風險篩查，識別腦卒中高復發(fā)人群具有重要意義。文中提出基于腦卒中患者數(shù)據(jù)建立腦卒中大數(shù)據(jù)應用平臺，通過采集和集成腦卒中患者的數(shù)據(jù)，提取導致腦卒中復發(fā)的重要危險因素，在此基礎上，采用基于機器學習的集成學習框架在平臺的數(shù)據(jù)分析層構建腦卒中復發(fā)風險評估模型。目前已開發(fā)了腦卒中復發(fā)預測模型的原型系統(tǒng)，腦卒中平臺業(yè)務管理人員可利用平臺的預測模型對腦卒中初患人群進行復發(fā)風險預測。

關鍵詞：腦卒中;復發(fā);大數(shù)據(jù);機器學習;集成學習算法;危險因素;預測模型;原型系統(tǒng)

中圖分類號：TP274 文獻標識碼：A 文章編號：2095-1302（2019）06-00-05

0 引言

腦卒中是由腦血管病變發(fā)展到一定程度導致的，具有較高發(fā)病率、致殘率和死亡率，已成為當今世界嚴重危害人類健康和生命安全的重大疾病。中國卒中協(xié)會2015年首次發(fā)布的中國卒中報告顯示，目前我國腦卒中發(fā)生率正以每年8.7%的速度上升[1]，每年死于腦卒中的患者達到130萬，腦卒中在我國已成為第一位死亡原因[2]。因此，若能及時采用有效的風險評估工具對患者進行復發(fā)危險因素篩查，識別高復發(fā)風險患者，提高高?；颊叩娘L險意識并積極控制危險因素，對降低腦卒中復發(fā)率、致殘率和死亡率有重大意義[3]。目前在臨床上用于篩查及預測腦卒中復發(fā)風險的工具較多，但均是基于外國人群研發(fā)的評估模型。在國內也有學者采用回顧性隊列研究方法，通過對腦卒中患者進行隨訪，構建復發(fā)的預測模型[4]，但是選擇的樣本量偏少，在實際應用中對臨床決策指導意義不大。隨著大數(shù)據(jù)處理技術的出現(xiàn)，醫(yī)療及健康數(shù)據(jù)也不斷增加，醫(yī)療、健康、衛(wèi)生等領域也進入了大數(shù)據(jù)時代[5]，當前已有采用大數(shù)據(jù)對患者慢病進行危險因素評估和個性化干預的研究出現(xiàn)[6]?；谝陨蠋c，我們對腦卒中國內外復發(fā)風險評估模型的應用情況進行了詳細分析，研究并初步建立了腦卒中大數(shù)據(jù)平臺，并以此為基礎構建腦卒中復發(fā)預測原型系統(tǒng)，以期在臨床上幫助醫(yī)生對高復發(fā)風險患者進行早期、準確、快速地識別，同時幫助患者和家屬將患者病情轉化成積極有效的二級預防干預，這對減少腦卒中的復發(fā)具有現(xiàn)實意義。

1 基于大數(shù)據(jù)模型構建需求

1.1 國外評估模型

針對腦卒中患者的復發(fā)風險評估，當前臨床主要采用ABCD評分系統(tǒng)、Essen量表和SPI-II量表等評測工具，其提出的時間較早，且都是基于外國人群研發(fā)的評估模型。隨著國人生活方式的改變和生活節(jié)奏的加快，卒中患者有年輕化的趨勢，基于不同的人群組，各危險因素的賦分權重是否合理尚未被證實，因此，針對國人來說，這些模型的預測作用較為有限，進一步建立和完善適合國人的腦卒中預測風險評估模型，發(fā)現(xiàn)新的危險因素具有重要意義。

1.2 本土評估模型

國內學者主要采用回顧性隊列研究方法構建腦卒中復發(fā)的預測模型，將符合腦卒中診斷標準，且首次卒中，并在一定時間內入院的患者作為研究對象，研究過程如下：

（1）記錄患者個人信息、既往史、家族史、生活習慣、入院時的臨床量表評分、入院幾小時內的血壓檢測結果、入院幾天內的實驗室檢查結果;

（2）設計患者隨訪量表，包括患者出院后用藥、血壓、血糖、血脂和康復情況;

（3）隨訪采用電話隨訪和信訪等形式，以患者發(fā)病時間為起點，患者腦卒中復發(fā)，失訪或死亡為終點;

（4）運用統(tǒng)計學方法進行建模和驗證。構建這類模型所采用的樣本較少，不具有代表性，且樣本來源僅限于研究者所選定的地區(qū)，覆蓋面較窄，所構建的預測模型在實際應用中對臨床決策指導意義不大。

1.3 卒中患者數(shù)據(jù)存儲存在的問題

在當前我國腦卒中防治體系中，不同機構會間接或直接涉入到對同一患者的治療和康復管理過程中，并對患者在院前、院中、院后各個治療階段和康復過程中產(chǎn)生的數(shù)據(jù)各自存儲。在數(shù)據(jù)來源和記錄方面，不同機構所采用的記錄類型和規(guī)則也不同，從而導致數(shù)據(jù)的共享極度困難，更無法自動從卒中患者完整的數(shù)據(jù)信息中挖掘出有價值的預測模型。因此，迫切需要構建腦卒中大數(shù)據(jù)平臺，采集和集成腦卒中患者數(shù)據(jù)（患者個人信息，臨床特征、既往史、家族史、生活習慣、實驗室數(shù)據(jù)、住院診療情況，卒中后二次復發(fā)等信息），基于這些信息構建用于國人腦卒中復發(fā)預測的評估模型，并將達到一定成熟度和預測性能指標的模型自動地對系統(tǒng)新采集進來的既往腦卒史患者實施及時和有效的篩查是建立腦卒中大數(shù)據(jù)管理分析平臺的現(xiàn)實需求。

2 腦卒中健康大數(shù)據(jù)管理平臺構建

2.1 平臺的功能架構

采用Hadoop作為基本的分布式執(zhí)行架構，構建腦卒中大數(shù)據(jù)平臺，并在該架構上配置R與Spark等分析工具，形成集腦卒中患者數(shù)據(jù)采集、存儲、分析、模型學習、風險預測等應用服務系統(tǒng)。平臺功能主要由患者卒中后五年內數(shù)據(jù)采集與存儲管理系統(tǒng)、基于機器學習的數(shù)據(jù)分析系統(tǒng)和腦卒中復發(fā)預測應用服務等構成。數(shù)據(jù)采集與數(shù)據(jù)存儲系統(tǒng)主要對來自不同機構患者的數(shù)據(jù)進行采集、異構數(shù)據(jù)的集成、數(shù)據(jù)存儲、數(shù)據(jù)加密和權限認證等;數(shù)據(jù)分析系統(tǒng)對大數(shù)據(jù)進行分析和處理，篩選腦卒中復發(fā)危險影響因素，并在此基礎上部署機器學習算法，通過對危險因素元組數(shù)據(jù)集進行訓練學習，以構建腦卒中復發(fā)風險評估模型;應用服務系統(tǒng)主要基于訓練完成的復發(fā)風險評估模型自動、快速對新集成的卒中患者的復發(fā)風險進行預測、預警和識別，為決策支持、科研應用、健康服務和智能輔助診斷提供應用支持，功能架構如圖1所示。數(shù)據(jù)分析與機器學習算法部署是平臺的核心，包括構建算法學習接口，調用R平臺機器學習算法庫等。

2.2 腦卒中大數(shù)據(jù)管理

腦卒中大數(shù)據(jù)管理服務主要解決平臺腦卒中大數(shù)據(jù)采集、讀取、存儲、集成及安全性等問題，為后期的數(shù)據(jù)建模、分析及預測提供穩(wěn)定、及時和智能化的支持。

2.2.1 數(shù)據(jù)采集??腦卒中患者大數(shù)據(jù)管理平臺實現(xiàn)以腦卒中患者為采集對象，利用數(shù)據(jù)接入及導入工具對分散在基地醫(yī)療機構、社區(qū)衛(wèi)生中心、保健機構、體檢機構、醫(yī)院等不同腦卒中數(shù)據(jù)源所在的各級機構中的患者信息進行采集和集成，最終形成一個研究型和結構化的卒中患者病歷信息庫。采集內容涉及患者個人信息、既往史、家族史、實驗室數(shù)據(jù)、住院診療數(shù)據(jù)、階段性隨訪數(shù)據(jù)、體檢數(shù)據(jù)等。數(shù)據(jù)導入針對腦卒中各類異構數(shù)據(jù)源提供可兼容的異構數(shù)據(jù)采集接口，實現(xiàn)對不同來源，不同機構下的SQL Server Oracle，MySQL，PostgreSQL等多種關系數(shù)據(jù)庫數(shù)據(jù)的數(shù)據(jù)導入;在數(shù)據(jù)采集策略上，支持全量、批量、實時數(shù)據(jù)的接入及導入;在離線數(shù)據(jù)獲取方面，支持HDFS，F(xiàn)TP，文本文件等日志類數(shù)據(jù)文件;也可對Flume，Kafka等流式數(shù)據(jù)實現(xiàn)實時入。

2.2.2 數(shù)據(jù)存儲與管理

在平臺數(shù)據(jù)的存儲和管理端，針對數(shù)據(jù)集成后患者信息的保密性和涉及患者隱私的數(shù)據(jù)安全性制定管理策略，同時保證能對集成后的數(shù)據(jù)執(zhí)行高效的數(shù)據(jù)部署、讀寫和存儲，平臺所采用的技術集中在以下方面：

（1）數(shù)據(jù)脫敏。在應對數(shù)據(jù)安全性的策略上，平臺對集成的患者個人信息中的姓名、社?？ㄌ?、出生日期、身份證號、家庭住址、聯(lián)系方式、家族病史、個人病史等，根據(jù)不同信息的隱私保密程度和后期使用要求，采用重要信息遮蔽、混合屏蔽、確定性屏蔽等方式進行去隱私化處理。針對其他重要數(shù)據(jù)信息，根據(jù)數(shù)據(jù)的類型，采用數(shù)據(jù)變形、數(shù)據(jù)范化等抽象處理策略，在保證用戶數(shù)據(jù)安全的同時，更好地保留數(shù)據(jù)特征及關聯(lián)關系，以服務于下一步數(shù)析。

（2）數(shù)據(jù)高效存儲。針對結構化數(shù)據(jù)庫數(shù)據(jù)，就診記錄、病程記錄、住院記錄等文本半結構化數(shù)據(jù)，圖像及影像非結構化等異構數(shù)據(jù)進行集成后，在數(shù)據(jù)的存儲策略上，平臺采用基于Hadoop架構下的（HDFS）分布式文件系統(tǒng)等技術實現(xiàn)數(shù)據(jù)的存儲，根據(jù)不同的數(shù)據(jù)類型，采用分布式存儲方式將數(shù)據(jù)部署在集群各DataNode中，并由DataNode對這些數(shù)據(jù)進行統(tǒng)一管理，形成一個具有廣闊擴展能力、在不同地點部署及同步處理能力、可管理海量級別數(shù)據(jù)文件，消除傳統(tǒng)數(shù)據(jù)存儲中存儲元數(shù)據(jù)困擾的分布式數(shù)據(jù)存儲系統(tǒng)。

2.3 腦卒中大數(shù)據(jù)分析

疾病風險預測的構建思想，通常是把人群中臨床事件發(fā)生前收集的相關危險因素信息與最終是否發(fā)病等臨床結果建立聯(lián)系，以形成風險預測評估模型[7-8]，在腦卒中大數(shù)據(jù)平臺數(shù)據(jù)分析層，基于風險預測評估模型的這種實現(xiàn)思想，結合集群的分布式處理功能，以R為分析工具，利用其靈活和易于使用的腳本語言，對腦卒中大數(shù)據(jù)經(jīng)過預處理后的數(shù)據(jù)進行深入分析，提取腦卒中患者復發(fā)的重要影響因素，在平臺的數(shù)據(jù)分析層部署基于機器學習的集成學習算法以構建腦卒中復發(fā)風險評估模型，用于腦卒中管理業(yè)務中腦卒中復發(fā)高危人群的識別。

2.3.1 數(shù)據(jù)預處理腦卒中患者的管理數(shù)據(jù)來源廣泛，數(shù)據(jù)形式多樣，涉及種類較多，為了實現(xiàn)腦卒中大數(shù)據(jù)的挖掘和分析，平臺對患者數(shù)據(jù)中的性別、年齡、冠心病、房顫、收縮壓、舒張壓、甘油三酯、同型半胱氨酸、低密度脂蛋白、高密度脂蛋白、C-反應蛋白、血糖、總膽固醇、吸煙史、飲酒史、二次卒中情況、體力活動、脂蛋白、體重指數(shù)、尿酸、高血壓家族史、糖尿病家族史、高血壓病史、糖尿病病史、卒中家族史等涉及腦卒中危險因素的相關數(shù)據(jù)進行清洗、插補缺失值、規(guī)范數(shù)據(jù)格式、不合理樣本去除等操作，并將常規(guī)腦卒中影響因素作為建模變量進行賦值，使數(shù)據(jù)格式和質量符合建模的要求，數(shù)據(jù)處理后的結果見表1所列。

2.3.2 腦卒中危險因素重要屬性篩選將平臺上腦卒中大數(shù)據(jù)集群中經(jīng)過數(shù)據(jù)預處理后的腦卒中危險因素數(shù)據(jù)集進行隨機采樣，并根據(jù)數(shù)據(jù)集中危險因素的數(shù)據(jù)類型（分類屬性或數(shù)值屬性），采用不同的單因素分析方法對影響腦卒中復發(fā)的顯著性因素進行篩選。具體篩選方式：將患者的性別、高血壓病病史、糖尿病病史、冠心病病史、房顫史、吸煙史、飲酒史、體力活動、高血壓家族史、卒中家族史、糖尿病家族史等具有分類屬性的變量與卒中復發(fā)史進行卡方檢驗;將年齡、同型半胱氨酸、收縮壓、舒張壓、甘油三酯、低密度脂蛋白、高密度脂蛋白、C反應蛋白、血糖、總膽固醇、體重指數(shù)、尿酸等具有連續(xù)屬性的變量在二次卒中組和非卒中組間進行獨立樣本T檢驗。通過單因素分析，最終獲取各個集群中具有顯著意義的腦卒中影響指標，并基于顯著性指標形成腦卒中元組數(shù)據(jù)集，用作后續(xù)的數(shù)據(jù)分析及建模。

2.3.3 腦卒中復發(fā)風險學習模型部署

機器學習是一種能夠賦予機器學習的能力以及完成編程無法完成的功能的方法，通過利用學習算法對數(shù)據(jù)進行訓練，并將滿足性能要求的模型對數(shù)據(jù)進行范化預測，該方法已成功被運用在健康管理、疾病風險預測等領域[9]。因考慮到平臺所集成的卒中數(shù)據(jù)量級，卒中患者在卒中后五年內具有很高的復發(fā)率，各個數(shù)據(jù)維度基本不存在嚴重的稀疏性，數(shù)據(jù)在集成學習前也已做過預處理，因此在針對平臺數(shù)據(jù)學習算法的部署上，機器學習集成算法應用場景較多，將決策樹作為基分類器，在大部分分類器上的AdaBoost[10]器集成學習算法框架。該框架能基于多個學習器創(chuàng)建一個較強學習器，相比其他學習框架，集成學習不會對數(shù)據(jù)過度擬合，可顯著降低泛化錯誤率，具有更強的容錯和抗擾動能力，在達到同等性能的情況下，所用學習時間最短。算法原理如圖2所示。

在算法的執(zhí)行端，平臺結合數(shù)據(jù)集群的分布式處理功能，以R為分析工具，調用其內置的AdaBoost集成學習算法庫，對平臺上經(jīng)過處理后分布存儲的腦卒中元組數(shù)據(jù)集進行學習和建模，學習算法如下：

具體的學習方案：

（1）從腦卒中指標數(shù)據(jù)集中隨機抽取75%的樣本數(shù)據(jù)集用來訓練模型，余下25%的數(shù)據(jù)作為測試集用以評估模型的性能;

（2）對訓練數(shù)據(jù)集的權值分布進行初始化處理，每一個訓練樣本初始賦予相同的權重;

（3）第一個分類器嘗試使用決策樹對訓練數(shù)據(jù)建模，并根據(jù)預測結果調整其在下一個分類器訓練數(shù)據(jù)中樣本的權重，如果在上一個分類器的預測中，一個卒中復發(fā)/無復發(fā)被執(zhí)行錯誤分類成無復發(fā)/復發(fā)，那么在下次分類器的訓練樣本采樣過程中，該錯誤樣本就會被賦予較高的權重，以使其能夠以較高的概率被抽中納入到本次分類器，反之，降低上次被正確預測樣本的權重到本次分類器，以提高樣本被正確分類的概率，再用調整權重后的樣本對下一個分類器進行訓練，從而依此迭代訓練數(shù)據(jù)集。具體的迭代次數(shù)取決于十折交叉驗證的結果;

（4）在各類分類器的訓練過程結束后，加大分類誤差率小的分類器的權重，使其在最終的分類函數(shù)中起決定作用，降低分類誤差率大的分類器的權重，并最終將多個訓練得到的分類器組合成決策型強分類器;

（5）隨著平臺上新卒中患者數(shù)據(jù)的不斷采集，更新訓練集并重復以上過程，直到模型的預測性能不再提高為止。

3 腦卒中復發(fā)預測原型系統(tǒng)

目前已完成腦卒中數(shù)據(jù)平臺的初步搭建，實現(xiàn)了腦卒中患者數(shù)據(jù)的采集和存儲，集成了多達上萬例腦卒中患者數(shù)據(jù)，平臺在對當前腦卒中患者數(shù)據(jù)進行預處理后，從腦卒中影響因素中篩查得出，患者的年齡、高血壓、甘油三酯、冠心病、高血壓家族史、體重指數(shù)、總膽固醇、同型半胱氨酸、高密度脂蛋白等指標是導致腦卒中復發(fā)的前9項顯著性影響因素，影響腦卒中復發(fā)的前9位因素重要性對比如圖3所示。

平臺執(zhí)行已部署完成的AdaBoosting機器集成算法，針對當前平臺上萬例腦卒中患者數(shù)據(jù)，將腦卒中元組數(shù)據(jù)集中的7 000例用作腦卒中復發(fā)風險評估模型構造的訓練數(shù)據(jù)集，將剩下的3 000多例數(shù)據(jù)作為模型的測試集，運用準確率、敏感性、特異性、Kappa、Auc等指標參數(shù)和ROC曲線來評估平臺當前模型的預測性能。

當前模型性能參數(shù)包括準確性：0.83，靈敏度：0.85，特異性：0.81，陽性預測度：0.93，陰性預測度：0.81，Kappa：0.66，Auc=0.88。準確性為0.83，表明平臺當前所采集和集成的數(shù)據(jù)集訓練得到的預測模型能夠對腦卒中患者是否復發(fā)的預測準確性達到83%;靈敏度為0.85，說明患者被正確分類的比例達到85%;陽性預測度為0.93，意味著模型在預測時，患者極有可能像陽性才會預測為陽性，其可以仔細定位到陽性患者，同時忽略非陽性患者，說明模型不太容易因無意義的噪聲而減弱其預測準度;Kappa達到0.66，也表明腦卒中患者是否復發(fā)的預測結果與其實際結果之間達到不錯的一致性。當前預測模型的ROC曲線如圖4所示，圖中ROC曲線離45°的分類器基準線距離較遠，ROC曲線下面積Auc達到0.88，說明分類器分類效果良好。

4 結語

本文對腦卒中患者大數(shù)據(jù)的應用需求進行了分析，并采用大數(shù)據(jù)技術對卒中患者在治療過程中相關醫(yī)療記錄進行集成和存儲，已初步完成了腦卒中數(shù)據(jù)平臺的搭建，并在平臺的數(shù)據(jù)分析層部署了腦卒中重要危險因素篩查和基于機器學習AdaBoost學習算法。根據(jù)平臺原型從當前采集到的數(shù)據(jù)篩查結果來看，年齡、高血壓、甘油三酯、冠心病、高血壓家族史、體質指數(shù)、總膽固醇、同型半胱氨酸、高密度脂蛋白等指標是導致腦卒中復發(fā)的顯著因素。從算法針對7 000多例腦卒中患者數(shù)據(jù)訓練出的結果來看，模型具有較好的泛化能力（準確性：0.83，靈敏度：0.85，特異性：0.81，陽性預測度：0.93，陰性預測度：0.81，Kappa：0.66，Auc=0.88），當前數(shù)據(jù)所建立的模型能夠對腦卒中初次患病后的人群進行復發(fā)風險預測。隨著采集和接入更多的卒中患者數(shù)據(jù)，模型可達到更為準確的預測效果。根據(jù)未來平臺應用者使用需求深度的增強，可在平臺上部署其他數(shù)據(jù)分析算法，以對卒中數(shù)據(jù)做更深層次的挖掘，為決策支持、科研應用、健康服務和智能輔助診斷提供更加準確的參考依據(jù)。

參考文獻

[1]廖美容，周義杰，蘇丹.自擬中經(jīng)2號方治療中風急性期的療效評價[J].右江醫(yī)學，2013，41（4）：573-575.

[2] WU X，ZHU B，F(xiàn)U L.Prevalence，incidience，and mortality of stroke in the Chinese island populations：a systematic review[J].PLoS One，2013，8（11）：67-69.

[3] PADHUKASAHASRAM B，HALPERIN E，WESSEL J，et al.Presymptomatic risk assessment for chronic non-communicable disease[J].PloS one，2010，5（12）：96-99

[4]安雅臣，王玉潯，張江，等.缺血性腦卒中復發(fā)預測模型的構建[J].中國康復理論與實踐，2013，19（3）：210-213.

[5]潘驚萍，張子武.醫(yī)療衛(wèi)生大數(shù)據(jù)探索[J].中國衛(wèi)生信息管理雜志，2016，13（4）：187-189.

[6] STEINBERG G B，CHURCH B W，MCCALL C J，et al.Novel predictive models for metabolic syndrome risk：a“big data”analytic approach[J].The American journal of managed care，2014，20（6）：211-218.

[7]鄧乃揚.支持向量機-理論、算法與擴展[D].北京：科學出版社，2009.

[8]劉建平，程錦泉.應用分類樹模型構建缺血性腦卒中發(fā)病風險的預測模型[J].中國慢性病預防與控制，2012，20 （3）：257.

[9]宗慧，趙韡.應用機器學習算法構建心?；颊唢L險預測模型[J].中國數(shù)字醫(yī)學，2016（4）：36.

[10] ALFARO E，GAMEZ M，GARCIA N.Adabag-an R packages for classif-ication with boosting and bagging[J].Journal of statistical software，2013（54）：1-35.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于大數(shù)據(jù)的腦卒中復發(fā)預測模型的構建