張志潔
(嶺南師范學(xué)院 計(jì)算機(jī)與智能教育學(xué)院,廣東 湛江 524048)
隨著人們對(duì)健康和生存質(zhì)量需求的日益提高,腦卒中防治工作逐漸成為全社會(huì)關(guān)注的焦點(diǎn)。腦卒中是由腦血管病變發(fā)展到一定程度導(dǎo)致的,具有較高發(fā)病率、致殘率和死亡率,已成為當(dāng)今世界嚴(yán)重危害人類健康和生命安全的重大疾病。在中國(guó)卒中協(xié)會(huì)首次發(fā)布的中國(guó)卒中報(bào)告顯示,目前我國(guó)腦卒中發(fā)生率正以每年8.7%的速度上升,每年死于腦卒中的患者達(dá)到130萬(wàn),腦卒中在我國(guó)已成為第一位死亡原因。
近年來(lái),國(guó)家相繼出臺(tái)了《“健康中國(guó)2030”規(guī)劃綱要》《國(guó)家大數(shù)據(jù)戰(zhàn)略》《“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃》等相關(guān)文件,致力于利用互聯(lián)網(wǎng)和信息化的優(yōu)勢(shì),解決腦卒中防治熱點(diǎn)問(wèn)題,信息化已成為腦卒中防治工作的重要手段。因此,若能及時(shí)采用有效的風(fēng)險(xiǎn)評(píng)估工具進(jìn)行早期腦卒中病情預(yù)警,識(shí)別高復(fù)發(fā)風(fēng)險(xiǎn)患者,提高高?;颊叩娘L(fēng)險(xiǎn)意識(shí)并積極控制危險(xiǎn)因素,對(duì)降低腦卒中復(fù)發(fā)率、致殘率和死亡率有重大意義。
大數(shù)據(jù)技術(shù)作為一種有效的信息化技術(shù)手段,在多源異構(gòu)醫(yī)療大數(shù)據(jù)的存儲(chǔ)和處理分析中能夠發(fā)揮重要的效用,已成為國(guó)內(nèi)外研究者們關(guān)注的重點(diǎn)方向之一。目前,已構(gòu)建了基于Hadoop的醫(yī)療輔助診斷系統(tǒng)、醫(yī)療康復(fù)推薦系統(tǒng),基于Spark的高血壓藥物推薦平臺(tái)、衛(wèi)生統(tǒng)計(jì)系統(tǒng)、醫(yī)療實(shí)時(shí)數(shù)據(jù)分析平臺(tái),基于大數(shù)據(jù)的醫(yī)院臨床知識(shí)系統(tǒng)等,在如何對(duì)多源異構(gòu)醫(yī)療大數(shù)據(jù)進(jìn)行存儲(chǔ)、處理方面進(jìn)行了廣泛探討。
本課題結(jié)合Spark技術(shù),構(gòu)建新型的腦卒中醫(yī)療大數(shù)據(jù)服務(wù)平臺(tái),并以此為基礎(chǔ)建立腦卒中預(yù)防模型,結(jié)合機(jī)器學(xué)習(xí)算法對(duì)腦卒中高風(fēng)險(xiǎn)患者進(jìn)行早期、準(zhǔn)確、快速識(shí)別,旨為腦卒中疾病的早期預(yù)警、復(fù)發(fā)防控、風(fēng)險(xiǎn)評(píng)估提供技術(shù)和方法學(xué)支撐,擬從以下3個(gè)方面開(kāi)展研究:基于數(shù)據(jù)驅(qū)動(dòng)的腦卒中特征選擇;腦卒中服務(wù)平臺(tái)的系統(tǒng)功能設(shè)計(jì);構(gòu)建腦卒中服務(wù)平臺(tái)的關(guān)鍵技術(shù)。以上各部分內(nèi)容在邏輯上依次聯(lián)系,從而構(gòu)成一個(gè)有機(jī)整體,如圖1所示。
圖1 腦卒中服務(wù)平臺(tái)架構(gòu)圖
近年來(lái)隨著大數(shù)據(jù)時(shí)代的到來(lái),醫(yī)療領(lǐng)域中的大數(shù)據(jù)源出現(xiàn)了指數(shù)級(jí)別的增長(zhǎng),可以看作是醫(yī)療數(shù)據(jù)的爆炸式增長(zhǎng)模式,在各種醫(yī)療服務(wù)平臺(tái)中使用大數(shù)據(jù)進(jìn)行分析有助于對(duì)用戶的病情進(jìn)行準(zhǔn)確決策,有助于輔助醫(yī)生進(jìn)行診斷和資料方案的制定。
醫(yī)療大數(shù)據(jù)的來(lái)源豐富,數(shù)據(jù)格式多元化,常見(jiàn)的數(shù)據(jù)來(lái)源有居民健康檔案及基本公共衛(wèi)生、健康體檢、臨床診療、健康/疾病檢測(cè)、健康保險(xiǎn)和可穿戴設(shè)備等。這些數(shù)據(jù)內(nèi)容多樣化,包含有姓名、年齡、住址、電話等隱私信息,面診過(guò)程中病患的身體狀況、醫(yī)療檢測(cè)、影像等信息和個(gè)體健康信息等。僅一個(gè)社區(qū)醫(yī)院累積的數(shù)據(jù)量就可達(dá)數(shù)萬(wàn)億字節(jié)甚至數(shù)千萬(wàn)億字節(jié)(PB)之多。因此,如何在合理的時(shí)間內(nèi)達(dá)到擷取、管理并整合這些數(shù)據(jù),使之能快速成為能夠幫助醫(yī)生或者用戶進(jìn)行更積極治療或決策是亟待解決的問(wèn)題。
本課題依據(jù)數(shù)據(jù)挖掘技術(shù)的知識(shí)體系,針對(duì)腦卒中醫(yī)療大數(shù)據(jù)的多層次、多粒度、參數(shù)關(guān)聯(lián)復(fù)雜等特點(diǎn),采用合適的數(shù)據(jù)挖掘方法對(duì)大規(guī)模數(shù)據(jù)進(jìn)行深入分析和挖掘,將用戶的醫(yī)療數(shù)據(jù)進(jìn)行分步式處理。首先,采用隨機(jī)森林算法對(duì)采集到的數(shù)據(jù)進(jìn)行缺失值填充,隨機(jī)森林算法收斂速度快、精度高,能有效對(duì)大規(guī)模原始數(shù)據(jù)集進(jìn)行高效處理;其次,采用高斯函數(shù)對(duì)異構(gòu)的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,使得原始數(shù)據(jù)集中的異構(gòu)數(shù)據(jù)能有效進(jìn)行整合;最后,采用熵值法從原始數(shù)據(jù)集中篩選出高價(jià)值數(shù)據(jù)屬性,使得后期的數(shù)據(jù)分析和挖掘更精準(zhǔn)、快捷。通過(guò)對(duì)大規(guī)模多源異構(gòu)數(shù)據(jù)的有效預(yù)處理和特征選擇,可獲得核心腦卒中醫(yī)療數(shù)據(jù)集,為服務(wù)平臺(tái)的后續(xù)數(shù)據(jù)挖掘提供支撐,有助于為用戶提供精準(zhǔn)的醫(yī)療服務(wù)和決策。
現(xiàn)有的多數(shù)醫(yī)療服務(wù)平臺(tái)的功能都存在需要改進(jìn)的地方,比如:如何讓用戶方便快捷地了解自身健康情況,如何讓用戶在平臺(tái)中獲得精準(zhǔn)的醫(yī)學(xué)治療方案建議,如何為用戶推薦適合其需求的服務(wù)等。
為解決目前醫(yī)療服務(wù)平臺(tái)存在的難點(diǎn)問(wèn)題,滿足腦卒中患者的需求,節(jié)約患者就醫(yī)時(shí)間,解決腦卒中患者“看病難”的問(wèn)題,需設(shè)計(jì)新型的腦卒中服務(wù)平臺(tái),其具有特色鮮明的各種功能。首先,依托互聯(lián)網(wǎng),使得用戶可以隨時(shí)隨地了解自身健康狀況,快速鎖定具體病情發(fā)展趨勢(shì),清晰知曉自身病情狀況。其次,醫(yī)生也可通過(guò)此平臺(tái)及時(shí)獲知用戶病情發(fā)展特點(diǎn),對(duì)治療方案進(jìn)行應(yīng)對(duì)調(diào)整;最后,通過(guò)對(duì)用戶病情風(fēng)險(xiǎn)的預(yù)測(cè)結(jié)果和對(duì)用戶偏好的分析,并結(jié)合用戶當(dāng)前地理位置信息,為用戶提供合理的個(gè)性化推薦,推薦適合該用戶病情特點(diǎn)的醫(yī)院及醫(yī)生,縮短就醫(yī)時(shí)間和流程,在一定程度上為他們的就醫(yī)提供適當(dāng)?shù)膶?dǎo)向,提升患者的就醫(yī)效率。同時(shí),根據(jù)用戶疾病特點(diǎn)和用戶喜好,為用戶推薦個(gè)性化的健康生活常識(shí)和醫(yī)學(xué)知識(shí),以幫助用戶提升自我意識(shí),主動(dòng)積極地緩解病情,促進(jìn)生活質(zhì)量的提高。
在腦卒中醫(yī)療大數(shù)據(jù)服務(wù)平臺(tái)的構(gòu)建中,設(shè)計(jì)基于Hadoop技術(shù)的分布式并行處理架構(gòu),它由實(shí)現(xiàn)數(shù)據(jù)分析的MapReduce計(jì)算框架和實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的分布式文件系統(tǒng)(HDFS)有機(jī)結(jié)合組成,此平臺(tái)可對(duì)海量醫(yī)療數(shù)據(jù)進(jìn)行高效存儲(chǔ)、處理,并將區(qū)塊鏈技術(shù)應(yīng)用于存儲(chǔ)層中,既能保證數(shù)據(jù)的安全性和一致性,也能保證計(jì)算效率,提高數(shù)據(jù)質(zhì)量,以形成數(shù)據(jù)格式統(tǒng)一的分布式數(shù)據(jù)存儲(chǔ)倉(cāng)庫(kù),并為后續(xù)數(shù)據(jù)挖掘和分析提供支撐。
基于前期的數(shù)據(jù)存儲(chǔ)、預(yù)處理后,采用機(jī)器學(xué)習(xí)算法對(duì)醫(yī)療大規(guī)模數(shù)據(jù)進(jìn)行深入分析和挖掘,發(fā)現(xiàn)數(shù)據(jù)內(nèi)在機(jī)理、剖析數(shù)據(jù)蘊(yùn)含趨勢(shì)。首先,采用神經(jīng)網(wǎng)絡(luò)算法對(duì)核心高維數(shù)據(jù)集進(jìn)行分析和挖掘,對(duì)用戶患病風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),以對(duì)腦卒中患者進(jìn)行早期、準(zhǔn)確、快速地識(shí)別,神經(jīng)網(wǎng)絡(luò)算法運(yùn)行速度快、精度高,已廣泛成功運(yùn)用于多領(lǐng)域,能高效地為腦卒中疾病的早期預(yù)警、復(fù)發(fā)防控、風(fēng)險(xiǎn)評(píng)估提供強(qiáng)有力的技術(shù)支撐;其次,基于神經(jīng)網(wǎng)絡(luò)算法的預(yù)測(cè)結(jié)果和數(shù)據(jù)屬性的各自權(quán)值,深入分析引發(fā)病情風(fēng)險(xiǎn)的重要因素,為疾病的有效預(yù)防和治療提供指引和參照;第三,采用協(xié)同過(guò)濾方法,結(jié)合用戶病情風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果、用戶偏好、用戶當(dāng)前地理位置等信息,為用戶推薦合適的就醫(yī)醫(yī)院醫(yī)生,為用戶及時(shí)就醫(yī)提供支撐。同時(shí),結(jié)合用戶病情分類結(jié)果和就醫(yī)情況信息等,采用決策樹(shù)算法為用戶進(jìn)行個(gè)性化健康生活方案和康復(fù)、預(yù)防方案的推薦,作為用戶生活中的健康助手以提升用戶的醫(yī)學(xué)防護(hù)意識(shí),將患病風(fēng)險(xiǎn)轉(zhuǎn)化成積極有效的二級(jí)預(yù)防干預(yù),有效提升患者生存質(zhì)量。
結(jié)合前人的研究,為補(bǔ)全醫(yī)療信息化行業(yè)的缺口,滿足腦卒中患者的需求,在現(xiàn)今的醫(yī)療服務(wù)平臺(tái)已有的功能的基礎(chǔ)上,結(jié)合大數(shù)據(jù)技術(shù)及機(jī)器學(xué)習(xí)算法,構(gòu)建腦卒中服務(wù)平臺(tái),為腦卒中的患者提供診前風(fēng)險(xiǎn)預(yù)測(cè)和個(gè)性化醫(yī)療信息推薦功能。通過(guò)采用缺血性腦卒中最新診斷標(biāo)準(zhǔn),對(duì)用戶腦卒中進(jìn)行準(zhǔn)確地診前風(fēng)險(xiǎn)預(yù)測(cè),幫助用戶快速鎖定具體患病風(fēng)險(xiǎn),提前了解自身健康狀況,便于用戶及時(shí)就醫(yī)。并且,根據(jù)腦卒中風(fēng)險(xiǎn)預(yù)測(cè)結(jié)果、用戶需求等,為用戶就醫(yī)流程進(jìn)行合理推薦,為用戶進(jìn)行個(gè)性化健康生活方案和康復(fù)、預(yù)防方案進(jìn)行科學(xué)推薦,有利于用戶有效就醫(yī)引導(dǎo),提高就醫(yī)效率,幫助患者在日常生活中快速便捷地獲取健康生活知識(shí),緩解病情。有效推動(dòng)醫(yī)療信息服務(wù)的理念從“面向集體”向“面向個(gè)體”轉(zhuǎn)變,打造個(gè)性化和私人化貼身服務(wù),幫助患者提高生活質(zhì)量,提升智慧生活品質(zhì),推進(jìn)醫(yī)療信息領(lǐng)域的創(chuàng)新發(fā)展。