国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

醫(yī)療健康大數(shù)據(jù):應用實例與系統(tǒng)分析

2015-03-17 02:10:22廖小飛
大數(shù)據(jù) 2015年2期
關鍵詞:醫(yī)療用戶信息

董 誠,林 立,金 海,廖小飛

1. 華中科技大學計算機科學與技術學院服務計算技術與系統(tǒng)教育部重點實驗室 武漢 430074

2. 華中科技大學計算機科學與技術學院集群與網(wǎng)格計算湖北省重點實驗室 武漢 430074

醫(yī)療健康大數(shù)據(jù):應用實例與系統(tǒng)分析

董 誠1,2,林 立1,2,金 海1,2,廖小飛1,2

1. 華中科技大學計算機科學與技術學院服務計算技術與系統(tǒng)教育部重點實驗室 武漢 430074

2. 華中科技大學計算機科學與技術學院集群與網(wǎng)格計算湖北省重點實驗室 武漢 430074

從大數(shù)據(jù)和醫(yī)療健康大數(shù)據(jù)的介紹出發(fā),首先闡述了醫(yī)療健康行業(yè)所面臨的挑戰(zhàn)和大數(shù)據(jù)對醫(yī)療健康行業(yè)的促進作用;然后介紹了大數(shù)據(jù)和醫(yī)療健康行業(yè)的背景知識;之后舉例說明了大數(shù)據(jù)在醫(yī)療健康行業(yè)的應用以及醫(yī)療健康大數(shù)據(jù)系統(tǒng)和關鍵技術。

大數(shù)據(jù);醫(yī)療健康;大數(shù)據(jù)分析

1 概述

隨著信息技術和物聯(lián)網(wǎng)技術的發(fā)展、個人電腦和智能手機的普及以及社交網(wǎng)絡的興起,人類活動產(chǎn)生的數(shù)據(jù)正以驚人的速度增長。根據(jù)國際數(shù)據(jù)公司(International Data Corporation,IDC)的報告,僅2011年,全世界產(chǎn)生的數(shù)據(jù)就有1.8 ZB(1 ZB≈1021byte),并且平均每5年增長9倍[1]。大數(shù)據(jù)一詞由此而生。

大數(shù)據(jù)是指難以被傳統(tǒng)數(shù)據(jù)管理系統(tǒng)有效且經(jīng)濟地存儲、管理、處理的復雜數(shù)據(jù)集。大數(shù)據(jù)一般以PB為單位計量,并包含結構化、半結構化、無結構化的數(shù)據(jù),大數(shù)據(jù)給數(shù)據(jù)的采集、運輸、加密、存儲、分析和可視化帶來了嚴峻的挑戰(zhàn)[2]。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)包含5個V特性:Volume(數(shù)據(jù)規(guī)模巨大)、Variety(數(shù)據(jù)類型繁多)、Velocity(數(shù)據(jù)產(chǎn)生的數(shù)據(jù)非??欤?、Veracity(分析結果取決于數(shù)據(jù)準確性)、Value(大數(shù)據(jù)一般包含非常重要的價值)[3]。大數(shù)據(jù)帶來了存儲、管理、處理數(shù)據(jù)的挑戰(zhàn),也帶來了發(fā)掘數(shù)據(jù)中新的價值的機遇。多個行業(yè)已經(jīng)利用大數(shù)據(jù)改善業(yè)務,例如金融業(yè)、零售業(yè)、生命科學、環(huán)境研究。大數(shù)據(jù)市場估計每年會增長50億美元的價值,到2020年將達到600億美元的價值[4]。

醫(yī)療健康行業(yè)目前面臨著巨大的挑戰(zhàn),其中,最主要的挑戰(zhàn)包括:急劇升高的醫(yī)療支出、人口老齡化帶來的慢性疾病問題、醫(yī)療人員短缺、醫(yī)療欺詐[5]等。國家統(tǒng)計局的數(shù)據(jù)顯示,我國2013年醫(yī)療衛(wèi)生總支出為31 668億元,較2012年上升12.6%,并且已經(jīng)連續(xù)8年每年增長超過10%1http://data.stats.gov.cn。醫(yī)療支出已經(jīng)占據(jù)了社會總支出很大的比例,在可以預見的將來,醫(yī)療支出將會持續(xù)增長。然而,根據(jù)美國醫(yī)學研究院(Institute of Medicine,IOM)的一篇報告,如今醫(yī)療健康支出的1/3被浪費而沒有用于改善醫(yī)療。這些浪費包括不必要的服務、行政浪費、昂貴的醫(yī)療費用、醫(yī)療欺詐和錯失預防的機會[6]。為了保持競爭力,醫(yī)療機構必須把數(shù)據(jù)作為一種戰(zhàn)略資產(chǎn),分析數(shù)據(jù)以達到提高診斷準確度、提高療效、降低費用、減少浪費的目的。

醫(yī)療健康機構采用大數(shù)據(jù)可以有效地幫助醫(yī)生進行更準確的臨床診斷;更精確地預測治療方案的成本與療效;整合病人基因信息進行個性化治療;分析人口健康數(shù)據(jù)預測疾病爆發(fā)等。利用大數(shù)據(jù)技術還能有效減少醫(yī)療成本,麥肯錫全球研究院預計使用大數(shù)據(jù)分析技術將每年為美國節(jié)省3 000億美元開支。其中,最有節(jié)省開支潛力的兩個方面包括臨床操作和研發(fā)[7]。利用大數(shù)據(jù)技術幫助醫(yī)療企業(yè)實現(xiàn)其業(yè)務的例子正在快速增多。比如,ActiveHealth Management2http://www.activehealth.com收集用戶健康方面的數(shù)據(jù)以幫助用戶實現(xiàn)健康管理;CancerIQ3http://www.cancer-iq.com整合臨床數(shù)據(jù)和基因數(shù)據(jù)幫助實現(xiàn)癌癥的風險評估、預防和治療;CliniCast4http://www.clinicast.net利用大數(shù)據(jù)預測治療效果以及降低花費。

本文首先介紹醫(yī)療健康行業(yè)的大數(shù)據(jù)特點以及大數(shù)據(jù)技術背景,然后舉例說明目前大數(shù)據(jù)在醫(yī)療健康行業(yè)的應用,最后分析目前的醫(yī)療健康大數(shù)據(jù)系統(tǒng)及其相關技術。

2 背景知識

2.1 大數(shù)據(jù)處理方法

根據(jù)麥肯錫全球研究院2011年的報告,適合大數(shù)據(jù)的處理技術包括:關聯(lián)規(guī)則學習、分類、聚類分析、數(shù)據(jù)融合、機器學習、自然語言處理、回歸、信號處理、仿真、可視化[8]等。其中,關聯(lián)規(guī)則學習是挖掘各個變量間有趣的關系,比如在零售中發(fā)現(xiàn)經(jīng)常被一起買的商品,便于促銷;分類是通過訓練已有的數(shù)據(jù)集來有效識別新的數(shù)據(jù),比如預測用戶的購買行為;聚類分析是按數(shù)據(jù)相似程度將整個數(shù)據(jù)集分為多個小規(guī)模的數(shù)據(jù)集;數(shù)據(jù)融合是將多個數(shù)據(jù)源的信息整合分析以產(chǎn)生新的更加精確、連續(xù)、有價值的信息;機器學習是一類算法的總稱,關注設計算法自動識別數(shù)據(jù)中的復雜模式;自然語言處理關注計算機與自然語言的聯(lián)系,幫助計算機識別人類語言;回歸是一組統(tǒng)計算法,用來判斷因變量與自變量的關系,以幫助預測。信號處理是一組用來識別、分析、處理信號的技術;仿真是模擬一個復雜系統(tǒng)行為的技術,經(jīng)常被用來預測;可視化是將數(shù)據(jù)處理為圖像、圖標、動畫,以幫助人類直觀了解數(shù)據(jù)。

2.2 大數(shù)據(jù)處理平臺

大數(shù)據(jù)的特點決定了傳統(tǒng)的數(shù)據(jù)庫軟件和數(shù)據(jù)處理軟件無法應對存儲、處理、分析大數(shù)據(jù)的任務。大數(shù)據(jù)處理任務由運行在數(shù)十臺,甚至數(shù)百臺服務器的大規(guī)模并行軟件完成[8]。常見的大數(shù)據(jù)處理平臺和工具有:MapReduce,其提供了一種分布式編程的抽象方法;Hadoop,其包含了多個系統(tǒng)和工具以幫助完成大數(shù)據(jù)任務;HDFS,其用來可靠地分布式存儲數(shù)據(jù);Hive,其提供了Hadoop上的SQL支持;HBase,它是基于HDFS的一種非關系型數(shù)據(jù)庫;Zookeeper,其提供了集群節(jié)點的一個管理方法5https://hadoop. apache.org。

2.3 醫(yī)療健康數(shù)據(jù)來源

醫(yī)院信息系統(tǒng)(hospital information system,HIS)是醫(yī)療數(shù)據(jù)的重要來源。醫(yī)院信息系統(tǒng)包括:電子病例系統(tǒng)(electronic medical record system,EMRS)、實驗室信息系統(tǒng)(laboratory information system,LIS)、醫(yī)學影像存檔與通信系統(tǒng)(picture archiving &communication system,PACS)、放射信息管理系統(tǒng)(radiology information system,RIS)、臨床決策支持系統(tǒng)(clinical decision support system,CDSS)等。根據(jù)中國醫(yī)院信息化狀況調(diào)查報告中對于醫(yī)院信息系統(tǒng)的總體實施現(xiàn)狀報告,截至2006年,電子病例系統(tǒng)、實驗室信息系統(tǒng)、醫(yī)學影像存檔與通信系統(tǒng)、臨床決策支持系統(tǒng)的已有或在建率分別為27.46%、37.70%、25.20%、12.30%[9]。

除此之外,各種健康設備可以幫助收集用戶的生命體征信息,比如心電數(shù)據(jù)、血氧濃度、呼吸、血壓、體溫、脈搏、運動量。社交網(wǎng)絡和搜索引擎也包含了潛在的人口健康信息。

2.4 醫(yī)療健康大數(shù)據(jù)特點

醫(yī)療大數(shù)據(jù)除了包含了大數(shù)據(jù)5個V的特點之外,還有多態(tài)性、時效性、不完整性、冗余性、隱私性等特點[10]。多態(tài)性指醫(yī)師對病人的描述具有主觀性而難以達到標準化;時效性指數(shù)據(jù)僅在一段時間內(nèi)有用;不完整性指醫(yī)療分析對病人的狀態(tài)描述有偏差和缺失;冗余性指醫(yī)療數(shù)據(jù)存在大量重復或無關的信息;隱私性指用戶的醫(yī)療健康數(shù)據(jù)具有高度的隱私性,泄漏信息會造成嚴重后果。

3 醫(yī)療健康大數(shù)據(jù)應用舉例

信息化的醫(yī)療數(shù)據(jù)、醫(yī)療研究數(shù)據(jù)、病人特征數(shù)據(jù)以及移動設備、社交網(wǎng)絡和傳感器產(chǎn)生的醫(yī)療健康相關的數(shù)據(jù)為醫(yī)療健康從業(yè)人員提供了新的思路,利用大數(shù)據(jù)技術可以從中發(fā)現(xiàn)潛在的關系、模式,從而幫助醫(yī)師提高診斷精度、預測治療效果、降低醫(yī)療成本,幫助醫(yī)藥公司發(fā)現(xiàn)潛在的藥物不良反應、幫助公共衛(wèi)生部門及時發(fā)現(xiàn)潛在的流行病。下面將從公共衛(wèi)生、藥物副作用評估、治療預測與降低醫(yī)療成本、輔助診斷與個性化治療等幾個方面介紹大數(shù)據(jù)的用處。

3.1 助力公共衛(wèi)生檢測

2009年,Google比美國疾病控制與預防中心提前1~2周預測到了甲型H1N1流感爆發(fā),此事件震驚了醫(yī)學界和計算機領域的科學家,Google的研究報告發(fā)表在Nature雜志上[11]。Google正是借助大數(shù)據(jù)技術從用戶的相關搜索中預測到流感爆發(fā)。隨后百度公司也上線了“百度疾病預測”借助用戶搜索預測疾病爆發(fā)。借助大數(shù)據(jù)預測流感爆發(fā)分為主動收集和被動收集,被動收集利用用戶周期提交的數(shù)據(jù)分析流感的當前狀況和趨勢,而主動收集則是利用用戶在微博的推文、搜索引擎的記錄進行分析預測。

Flu Near You[12]借助用戶周期提交的自我流感檢測來預測流感的爆發(fā)。首先,用戶在Flu Near You的網(wǎng)站上注冊,隨后每個星期用戶將收到一封電子郵件,指引用戶登錄Flu Near You網(wǎng)站。在網(wǎng)站上,用戶填寫一份關于自己是否有流感癥狀的調(diào)查。最終Flu Near You收集信息并利用大數(shù)據(jù)技術生成目前流感疾病和未來流感疾病預測的可視化圖表。

流感爆發(fā)初期,通常伴隨著用戶在搜索引擎搜索相關內(nèi)容或在社交網(wǎng)絡上發(fā)布相關內(nèi)容,這些信息可以作為流行病爆發(fā)的初期預警[13,14]。參考文獻[15]以用戶在Twitter上的推文以及英國健康保健局發(fā)布的城市流感樣病例率(influenza like illness rate)為數(shù)據(jù)源,通過LASSO算法進行特征選擇,選擇推文關鍵字,建立未來數(shù)天流感樣病例率的預測模型,取得了比較精確的結果。在疾病傳播中,長時間與病原體接觸會增加感染的幾率,因此追蹤人口接觸信息以及人口位置信息將有助于了解流行病的行為[16,17]。參考文獻[18]設計了一套使用智能手機自動收集人口位置信息與接觸信息的應用。參考文獻[19]將流行病數(shù)據(jù)源分為媒體(包括官方媒體)、移動設備、社交網(wǎng)絡、Pro-Med郵件列表、實驗室和醫(yī)院數(shù)據(jù),并根據(jù)不同數(shù)據(jù)來源設計了一套收集數(shù)據(jù)、分析數(shù)據(jù)、驗證數(shù)據(jù)、數(shù)據(jù)可視化的系統(tǒng),用以直觀表現(xiàn)流行病的情況。

3.2 幫助發(fā)現(xiàn)藥物副作用

藥品上市后的不良反應檢測一般依賴被動檢測和主動檢測。被動檢測依賴于醫(yī)生、患者、制藥公司提供的不良反應報告。被動檢測最大的問題是漏報,參考文獻[20]認為94%的不良反應沒有被報告。主動檢測則是利用文本挖掘、數(shù)據(jù)挖掘技術從EHR、EMR、社交網(wǎng)絡、搜索引擎中發(fā)現(xiàn)潛在藥品導致不良反應事件[20]。參考文獻[21]利用藥品不良反應存在時間先后順序,挖掘電子病例中可能存在的藥物不良反應。參考文獻[22]將引起不良反應的條件分為使用一種藥品、兩種藥品、一種藥品和病人的一種特點、一種藥品和一種藥品過敏事件,根據(jù)決策樹、聚類等數(shù)據(jù)挖掘方法發(fā)現(xiàn)條件和不良反應結果的關系。當藥物使用與不良反應存在低頻率的因果關系時,一般的數(shù)據(jù)挖掘算法將難以分辨因果關系和偶然事件[23],參考文獻[23]基于預認知決策模型(RPD model)設計了多種算法用以發(fā)現(xiàn)藥品不良反應中的低頻因果關系[23~25]。

3.3 助力治療預測與降低醫(yī)療成本

目前,醫(yī)療健康行業(yè)成本高昂的部分原因來自醫(yī)療失誤和醫(yī)療浪費。根據(jù)1998年美國醫(yī)療協(xié)會的報告,僅僅在美國,可以避免的醫(yī)療失誤每年造成了98 000起死亡案例[26]。美國花在醫(yī)療健康上的費用超過1 700億美元,而中國每年花費在醫(yī)療健康上的費用超過30 000億元。在此背景下,多國通過改革醫(yī)療系統(tǒng)以減少醫(yī)療失誤及醫(yī)療浪費,最終削減醫(yī)療開支。美國于2011年通過的關于醫(yī)療健康信息技術的HITECH法案宣布:決定投入500億美元在5年內(nèi)使用信息技術解決醫(yī)療行業(yè)存在的問題[27]。而中國在2009年宣布了花費1 200億元的10年醫(yī)療系統(tǒng)改革計劃的第一部分。

[28]中分析了澳大利亞的醫(yī)療保險行業(yè),認為使用目前的驗證技術無法有效發(fā)現(xiàn)醫(yī)療服務中存在的欺詐、濫用、浪費、錯誤等現(xiàn)象,原因在于舊的驗證技術只關注單個病例,無法利用多個病例間的聯(lián)系。作者以醫(yī)療賬單為數(shù)據(jù)源,建立關于治療費用、住院時間等數(shù)據(jù)的預測模型,使用數(shù)據(jù)挖掘技術發(fā)現(xiàn)賬單中的異常數(shù)據(jù);使用領域?qū)<医⒌囊?guī)則庫分析異常賬單,發(fā)現(xiàn)其中可能存在的問題并給出警告。典型的應用環(huán)境包括醫(yī)療器材濫用、手術過程與病情診斷不符、過度收費等。提早檢測出醫(yī)療過程中的問題將為國家保險機構、患者、私立保險機構節(jié)省大量花費。

3.4 輔助診斷

參考文獻[29,30]認為患者的基因型、生活方式、身體特征、多重病患嚴重影響了治療效果。提早根據(jù)患者的特征設計個性化的治療方案將有助于降低成本,減少醫(yī)療事故。參考文獻[31]認為通過挖掘用戶基因信息和電子病例可以做到:根據(jù)患者基因信息和患者的其他特征預測各種治療方案可能的副作用;選擇更好的治療方案,而不是嘗試各種治療方案;幫助用戶預防疾病或削弱疾病的影響。之后,參考文獻[31]設計了一套系統(tǒng)Mayo用來收集、存儲個性化治療所需要的數(shù)據(jù),并為數(shù)據(jù)分析師提供分析數(shù)據(jù)的平臺。參考文獻[32]則通過分析病人的特征數(shù)據(jù)并匹配相似病例以幫助醫(yī)師診斷。

4 醫(yī)療健康大數(shù)據(jù)平臺

為了利用大數(shù)據(jù)技術處理醫(yī)療健康問題,需要針對數(shù)據(jù)特點以及處理方式設計專門的系統(tǒng)。下面主要介紹目前醫(yī)療健康大數(shù)據(jù)平臺如何設計以應對挑戰(zhàn)。

4.1 個人數(shù)據(jù)收集系統(tǒng)

iEpi[1]是一個便于流行病醫(yī)療科研人員快速搭建起收集用戶接觸信息、位置信息平臺的系統(tǒng),本文主要對其進行介紹分析。

4.1.1 背景

智能手機的普及為獲取個人醫(yī)療數(shù)據(jù)提供了一個絕佳的機會,利用這些信息服務個人醫(yī)療、公共衛(wèi)生成了關注的焦點。多個應用給予用戶控制自己健康狀況的自由,為醫(yī)療服務提供商提供病人的詳細狀態(tài)信息。這些應用主要提供非聚集的信息。而聚集化的信息可以更容易地提供準確、一致性的信息。

人口的接觸信息提供了了解流行病傳播模式的機會。人口活動信息加上位置信息,可幫助城市規(guī)劃者了解建筑環(huán)境對健康的影響;加上環(huán)境質(zhì)量監(jiān)控器,可以幫助了解環(huán)境污染對健康的影響。

4.1.2 目標

● 設計一個個人數(shù)據(jù)收集系統(tǒng),周期性收集用戶數(shù)據(jù),包括位置、加速度、溫度、心跳等信息;

● 考慮到需要提供接觸信息,位置信息應盡可能精準;

● 用戶可以設定所要收集的數(shù)據(jù)以及數(shù)據(jù)收集的頻率和持續(xù)時間;

● 考慮到醫(yī)療研究人員可能沒有編程經(jīng)驗,配置方式應該簡單。

4.1.3 設計

iEpi系統(tǒng)包含2個部分(如圖1所示):數(shù)據(jù)收集部分(HealthLogger)和輔助處理部分。其中,HealthLogger由5個模塊組成。

● 任務管理器:HealthLogger的任務包括上傳數(shù)據(jù)、傳輸數(shù)據(jù)、讀取傳感器。任務分連續(xù)性和周期性兩種方式調(diào)度,其中,周期性任務需要設置周期和持續(xù)時間。任務管理器也調(diào)度其他服務。

● 數(shù)據(jù)流和過濾器:數(shù)據(jù)流提供了訪問Android傳感器API和其他數(shù)據(jù)的標準接口,過濾器幫助用戶剔除不需要的數(shù)據(jù)。

● 數(shù)據(jù)日志和數(shù)據(jù)緩存:數(shù)據(jù)日志存放收集的數(shù)據(jù),數(shù)據(jù)緩存為數(shù)據(jù)日志提供臨時存放功能。

● 數(shù)據(jù)傳輸器:數(shù)據(jù)傳輸器是一個通用的文件上傳器,被HealthLogger的其他組件用來上傳數(shù)據(jù)到服務器。

● iEpian:是HealthLogger提供的一種簡易腳本,用來為沒有編程經(jīng)驗的醫(yī)療研究員提供控制數(shù)據(jù)采集方式的功能。

因此,用戶可以在沒有編程經(jīng)驗的情況下完成數(shù)據(jù)采集器的設計。HealthLogger還提供了藍牙接口以幫助用戶采集其他設備提供的數(shù)據(jù),比如體重信息和飲食信息。當用戶數(shù)據(jù)被收集后,會以文件形式存放在Apache服務器,iEpi周期性地檢查新文件,對數(shù)據(jù)解密并解析,然后按用戶和數(shù)據(jù)采集周期存放到數(shù)據(jù)庫中。由于在室內(nèi)時GPS提供的位置信息不準確,為了提高位置信息的準確性,iEpi定位器采用SaskEPS算法利用接入點位置及信號強度提高室內(nèi)位置計算精確度。

4.2 面向病人的醫(yī)療健康網(wǎng)絡社區(qū)

DiabeticLink[27,33]為糖尿病患者及相關利益人員提供了一個多功能的健康網(wǎng)絡社區(qū),下面將分析其設計思路。

4.2.1 背景

目前,在美國,糖尿病影響了8%的人口,建立為糖尿病人服務的醫(yī)療健康網(wǎng)絡社區(qū)有助于幫助他們。該網(wǎng)絡社區(qū)主要提供以下4個方面的服務:

● 糖尿病門戶及在線健康社區(qū),主要包括為病人提供論壇、博客等交流醫(yī)療經(jīng)驗及感情的服務,還包括匿名交流的服務;

圖1 iEpi的系統(tǒng)構架

● 糖尿病追蹤及可視化,包括記錄病人的醫(yī)療數(shù)據(jù)與健康數(shù)據(jù)并生成可視化報告;

● 糖尿病風險報告,使用病人數(shù)據(jù)預測患病風險,促進病人自我管理;

● 提供建議,為病人提供改善其狀態(tài)的建議,并鼓勵病人達成長期目標。

4.2.2 目標

設計一個面向病人的醫(yī)療健康網(wǎng)絡門戶,為患者、患者家屬、護士、醫(yī)師、制藥公司提供服務。其中,病人可以利用醫(yī)療健康網(wǎng)絡社區(qū)交流治療經(jīng)驗和疾病信息,學習醫(yī)療知識,以更好地了解自己的病情、控制病情發(fā)展;病人家屬可以利用醫(yī)療健康網(wǎng)絡社區(qū)了解病人疾病、討論治療經(jīng)驗、閱讀教育書籍,以提供更好的照顧;護士需要快速建立起疾病相關知識,以引導病人積極應對治療。醫(yī)療健康網(wǎng)絡社區(qū)還提供了以下功能:醫(yī)師在面對不熟悉的疾病時,需要快速獲取相關工具和資源的通道;部分醫(yī)療健康網(wǎng)絡社區(qū)提供匿名的電子健康記錄,醫(yī)學研究員可以從中挖掘信息;制藥公司可以從醫(yī)療健康網(wǎng)絡社區(qū)挖掘藥物不良反應信息。

4.2.3 設計

為了滿足多方面的需求,除了提供簡單的醫(yī)療健康社區(qū)功能外,該系統(tǒng)還包含以下4個部分。

● 個性化病人智能工具:使用數(shù)據(jù)挖掘方法挖掘病人電子病例和病人博客以發(fā)現(xiàn)生活方式、治療和療效的關系,并為病人提供預防性建議。

● 疾病管理工具:記錄患者糖尿病參數(shù)(血糖、血壓、糖化血紅蛋白等)、營養(yǎng)、運動量、用藥量,并形成可視化報表,以幫助用戶管理自己的狀況。

● 社交功能:提供用戶分享經(jīng)驗和感情,提出回答問題,尋找情感支撐等功能。

● 教育功能:提供可信的醫(yī)療文章、研究報告、健康食譜等內(nèi)容,并為用戶提供知識搜索引擎。

4.3 個人體征數(shù)據(jù)收集與處理系統(tǒng)

參考文獻[34]為用戶提供了一個便于開發(fā)個人體征分析應用的基于Hadoop的框架。

4.3.1 背景

醫(yī)療健康行業(yè)的重心正逐步從醫(yī)療轉向預防[35],而可穿戴醫(yī)療設備的興起為醫(yī)療健康行業(yè)的轉變提供了獨一無二的機會。利用可穿戴醫(yī)療設備從用戶身上收集生命體征數(shù)據(jù),比如心電圖、體溫、心跳,幫助提早檢測用戶患病危險、主動預防、管理健康。

生命體征數(shù)據(jù)包括像體溫、血壓這樣的間隔數(shù)據(jù),也包括像呼吸、心電圖這樣的連續(xù)測量才有意義的數(shù)據(jù)。前者可以用傳統(tǒng)數(shù)據(jù)庫存放,后者一般采用文件存放。

4.3.2 目標

設計一個個人健康分析系統(tǒng),以便用戶在此之上快速搭架生命體征分析應用。系統(tǒng)應該提供的服務包括:體征數(shù)據(jù)接收、數(shù)據(jù)存儲管理、數(shù)據(jù)分析接口、個性化服務(發(fā)送用戶服務數(shù)據(jù)到用戶的智能設備)??紤]到兩種不同體征數(shù)據(jù)形態(tài),系統(tǒng)應該提供統(tǒng)一的處理方式。

4.3.3 設計

系統(tǒng)分為5個部分,如圖2所示。

● 生命體征傳輸:為了提供可拓展性,系統(tǒng)采用符合W3C的SOAP標準傳輸數(shù)據(jù)。

● 中間服務層:為了對用戶提供統(tǒng)一的數(shù)據(jù)形式,系統(tǒng)添加中間服務層來預處理數(shù)據(jù),將數(shù)據(jù)轉換為符合HL76http://www.hl7. org/about/index. cfm規(guī)范的數(shù)據(jù),中間服務層還提供接收體征數(shù)據(jù)、傳送數(shù)據(jù)到處理平臺、接收處理平臺結果并發(fā)送給用戶以及信號處理的功能(例如將加速度數(shù)據(jù)轉換為記步數(shù)據(jù))。

● 數(shù)據(jù)存儲服務:系統(tǒng)接收中間服務層的數(shù)據(jù),存放至分布式數(shù)據(jù)庫HDFS中。

● 分析服務:系統(tǒng)采用Hadoop作為主要的數(shù)據(jù)分析平臺。

4.4 小結

在設計醫(yī)療健康大數(shù)據(jù)處理平臺時,必須把數(shù)據(jù)放在優(yōu)先考慮的位置。下面總結了前文提到的醫(yī)療健康大數(shù)據(jù)平臺設計思路,提出了定義數(shù)據(jù)源、確定數(shù)據(jù)處理方式、分析數(shù)據(jù)流向、設計系統(tǒng)的一般步驟。

(1)定義數(shù)據(jù)源

醫(yī)療健康大數(shù)據(jù)的數(shù)據(jù)來源包括結構化、半結構化、無結構化的醫(yī)療單位數(shù)據(jù)、個人健康數(shù)據(jù)和公共健康數(shù)據(jù)。例如醫(yī)療單位的電子病例數(shù)據(jù)、放射信息管理系統(tǒng)數(shù)據(jù),傳感器收集的體溫、脈搏等個人數(shù)據(jù),公共健康數(shù)據(jù)(包括政府發(fā)布的流感信息、社交媒體信息)等。為了實現(xiàn)良好的數(shù)據(jù)流,必須首先將平臺所要收集的信息分類,分析每種數(shù)據(jù)的特點,包括:是否是結構化、無結構化或半結構化數(shù)據(jù);是否需要預處理;包含何種有用信息。

(2)確定數(shù)據(jù)處理方式

大數(shù)據(jù)的處理方式包括前文提到機器學習、分類、聚類、回歸等。根據(jù)上一步分析得到的數(shù)據(jù)特點和數(shù)據(jù)價值選擇相應的處理方式。比如參考文獻[34]中,為了得到用戶的運動數(shù)據(jù),需要用戶的記步數(shù)據(jù),而記步數(shù)據(jù)可以通過將源數(shù)據(jù)中的用戶加速度信息經(jīng)過信號處理獲得。

(3)分析數(shù)據(jù)流向

圖2 u-Healthcare平臺構架

根據(jù)數(shù)據(jù)源、數(shù)據(jù)處理方法和數(shù)據(jù)結構確定數(shù)據(jù)流方向。iEpi[1]中的各類傳感器數(shù)據(jù)經(jīng)過在手機端匯總后到達服務器,以臨時文件方式存儲,經(jīng)過分析后存放在數(shù)據(jù)庫中,最后提供給用戶挖掘其中的關系、模式。

(4)設計系統(tǒng)

根據(jù)數(shù)據(jù)流的特點和數(shù)據(jù)處理方式選擇現(xiàn)有的大數(shù)據(jù)處理平臺作為子系統(tǒng),然后設計中間系統(tǒng)以連接多個子系統(tǒng)。

5 醫(yī)療健康大數(shù)據(jù)技術

5.1 可視化技術

醫(yī)療可視化技術一直存在,比如X光、CT、核磁共振、遠程醫(yī)療等。醫(yī)療可視化的功能在于為病人、醫(yī)生以及利益相關者提供更深的理解,以幫助其做出更好的決策。

隨著醫(yī)療信息化的到來以及移動設備、社交網(wǎng)絡的流行,醫(yī)療健康數(shù)據(jù)呈爆發(fā)式增長,醫(yī)生、制藥公司、公共衛(wèi)生機構無法在面對海量數(shù)據(jù)時有直觀的了解,需要利用可視化技術將數(shù)據(jù)以直觀的方式呈現(xiàn)給相關人員。

5.1.1 分析

醫(yī)療健康大數(shù)據(jù)來源主要包含3個方面[6]:個人健康數(shù)據(jù)、醫(yī)療數(shù)據(jù)、人口健康數(shù)據(jù)。在個人健康數(shù)據(jù)方面,數(shù)據(jù)來源主要是傳感器信息和在線信息。使用可視化技術處理個人健康數(shù)據(jù)、個人疾病數(shù)據(jù)可以幫助用戶更容易地實現(xiàn)健康管理、疾病管理。處理個人飲食、運動數(shù)據(jù)可以幫助用戶直觀了解身體狀況,有助于用戶保持身體健康。在醫(yī)療數(shù)據(jù)方面,數(shù)據(jù)來源主要是醫(yī)學研究數(shù)據(jù)、電子病例數(shù)據(jù)。醫(yī)生無法跟上從這些數(shù)據(jù)中發(fā)現(xiàn)新的醫(yī)學知識的速度并將其用到病人的治療上,醫(yī)療可視化將為醫(yī)生提供直觀了解新知識的機會。人口健康數(shù)據(jù)以及疾病監(jiān)控數(shù)據(jù)可以通過可視化技術幫助用戶了解人口健康狀況、疾病爆發(fā)狀況。

5.1.2 挑戰(zhàn)

由于需要處理大量數(shù)據(jù)以提供可視化的分析報告,可視化服務需要較長時延才能提供。當作為臨床決策支持系統(tǒng)時,醫(yī)師希望在短時間內(nèi)獲得服務,這對可視化服務提供者提出了實時性服務的挑戰(zhàn)。

5.2 個性化醫(yī)療

考慮到患者間存在很大的差異,不存在針對一種病癥的適應所有情況的治療方案[36],實際上,研究人員一直在尋找針對病人的治療經(jīng)歷、基因信息、遺傳信息、環(huán)境信息、生活方式等信息給予個性化治療的方案[37]。鑒于人類基因工程的原因,人類可以從基因角度給予患者個性化治療。

5.2.1 分析

個性化治療一般使用以下工具:家族健康歷史,利用家族健康歷史整合遺傳信息可以有效幫助預測疾病,進行主動的預防性措施;基因信息,指利用基因信息及其衍生物信息,包括RNA、蛋白質(zhì)、代謝產(chǎn)物信息進行疾病預測和個性化治療,然而,基因檢測費用高昂[38],基因多態(tài)性的特質(zhì)可能導致評估錯誤及預測錯誤,導致了通過基因檢測提供個性化治療難以獲得較高的性價比;臨床決策支持系統(tǒng),其提供了一個利用所有信息為患者提供個性化治療方案的機會。

5.2.2 挑戰(zhàn)

個性化醫(yī)療的挑戰(zhàn)主要在于部分用于疾病預測、療效預測的數(shù)據(jù)源難以獲得。首先,平價的個人基因分析技術應該被提上日程;其次,用戶不愿意提交個人醫(yī)療數(shù)據(jù)的部分原因是擔心隱私泄露[39],這就對醫(yī)療數(shù)據(jù)提供商的安全和隱私保護提出了要求。

6 結束語

本文首先介紹了大數(shù)據(jù)概念、特點與處理平臺,之后分析了醫(yī)療健康行業(yè)的數(shù)據(jù)來源與特點,然后討論了利用大數(shù)據(jù)技術應對醫(yī)療健康行業(yè)挑戰(zhàn)的例子,最后介紹了醫(yī)療健康大數(shù)據(jù)系統(tǒng)與關鍵技術。目前醫(yī)療健康大數(shù)據(jù)還處于初期發(fā)展階段,但是它已經(jīng)展現(xiàn)了改變醫(yī)療服務的潛力。醫(yī)療健康服務提供商利用大數(shù)據(jù)分析技術可以從臨床數(shù)據(jù)、研究數(shù)據(jù)、個人健康數(shù)據(jù)、公共健康數(shù)據(jù)中挖掘潛在的關系,為臨床決策、公共衛(wèi)生、個人健康提供幫助。將來,醫(yī)療健康大數(shù)據(jù)將會快速地發(fā)展。目前,醫(yī)療健康大數(shù)據(jù)還面臨著諸多挑戰(zhàn),隱私問題關系到用戶的數(shù)據(jù)不會被用作惡意用途,數(shù)據(jù)安全和標準化需要成立專門的機構來管理。然而,隨著技術的發(fā)展,醫(yī)療技術和大數(shù)據(jù)技術的結合將更好地為人類健康提供服務。

參考文獻

[1] Hashemian M, Knowles D, Calver J,et al. iEpi: an end to end solution for collecting, conditioning and utilizing epidemiologically relevant data. Proceedings of the 2nd ACM International Workshop on Pervasive Wireless Healthcare, New York, USA, 2012: 3~8

[2] Snijders C, Matzat U,Reips U D. Big data: big gaps of knowledge in the field of internet science. International Journal of Internet Science, 2012,7 (1): 1~5

[3] Sharma S, Mangat V. Technology and trends to handle big data: survey. Proceedings of the 5th International Conference on Advanced Computing & Communication Technologies (ACCT),Haryana, India, 2015: 266~271

[4] Kelly J. Big data vendor revenue and market forecast.http://www.kdnuggets. com/2014/04/big-data-vendor-analysisclusters.html, 2014

[5] Nambiar R, Bhardwaj R, SethiA,et al. A look at challenges and opportunities of big data analytics in healthcare.Proceedings of 2013 IEEE International Conference on Big Data, Silicon Valley, California, USA, 2012: 17~22

[6] Groves P, KayyaliB, KnottD,et al. The big data revolution in healthcare. McKinsey and Company,2013: 1~19

[7] Manyika J, ChuiM, BrownB,et al. Big Data: the Next Frontier for Innovation, Competition,and Productivity. Report of McKinsey Global Institute, 2011

[8] Jacobs A. The pathologies of big data. Communications of the ACM,2009, 52 (8): 36~44

[9] 中國醫(yī)院協(xié)會信息管理專業(yè)委員會. 中國醫(yī)院信息化狀況調(diào)查報告——2006公開版. 中國數(shù)字醫(yī)學,2007,2(2):5~15 China Hospital Information Management Association.China Hospital IT Application Survey Report, 2006 Public Edition.China Digital Medicine, 2007,2(2):5~15

[10] 顏延,秦興彬,樊建平等. 醫(yī)療健康大數(shù)據(jù)研究綜述. 科研信息化技術與應用,2014, 5(6):3~16 Yan Y, Qin X B, Fan J P,et al. A review of big data research in medicine & healthcare. E-Science Technology & Application, 2014, 5(6):3~16

[11] Davidson M W, Haim D A,Radin J M. Using Networks to Combine “Big Data”and Traditional Surveillance toImproveInfluenza Predictions. Scientific Reports, 2015(5): 1~5

[12] Chunara R, Aman S, Smolinski M,et al. Flu near you: an online self-reported influenza surveillance system in the USA.Online Journal of Public Health Informatics, 2013, 5(1)

[13] Ginsberg J, Mohebbi M H, Patel R S,et al. Detecting influenza epidemics using search engine query data. Nature,2009, 457 (7232): 1012~1014

[14] Polgreen P M, Chen Y L, Pennock D M,et al. Using internet searches for influenza surveillance.ClinicalInfectious Diseases, 2008, 47(11): 1443~1448

[15] Lampos V, Bie T D, Cristianini N. Flu detector-tracking epidemics on twitter. Machine Learning and Knowledge Discovery in Databases, 2010(6323): 599~602

[16] Hashemian M S, Stanley K G,Osgood N. Flunet: automated tracking of contacts during flu season.Proceedings of the 8th International Symposium on Modeling and Optimization in Mobile, Ad Hoc and Wireless Networks (WiOpt), Avignon, France, 2010: 348~353

[17] Salathé M, Kazandjieva M, Lee J W,et al. A high-resolution human contact network for infectious disease transmission. Proceedings of the National Academy of Sciences, California, USA, 2010: 22020~22025

[18] Hashemian M S, Stanley K G, Knowles D L,et al. Human network data collection in the wild: the epidemiological utility of microcontact and location data. Proceedings of the 2nd ACM SIGHIT International Health Informatics Symposium, New York, USA,2012:255~264

[19] Kostkova P. A roadmap to integrated digital public health surveillance: the vision and the challenges. Proceedings of the 22nd International Conference on World Wide Web Companion, London, UK, 2013

[20] Karimi S, Wang C, Jimenez A M,et al. Text and data mining techniques in adverse drug reaction detection.ACM Computing Surveys , 2015, 47 (4): 56

[21] Jin H D, Chen J, He H X,et al. Mining unexpected temporal associations: applications in detecting adverse drug reactions.IEEE Transactions on Information Technology in Biomedicine, 2008, 12(4): 488~500

[22] Chazard E, FicheurG, BernonvilleS,et al. Data mining to generate adverse drug events detection rules. IEEE Transactions on Information Technology in Biomedicine, 2011, 15(6): 823~830

[23 Ji Y Q, Hao Y, Tran J,et al. A method for mining infrequent causal associations and its application in finding adverse drug reaction signal pairs. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(4): 721~733

[24] Ji Y Q, Hao Y, Dews P,et al. A fuzzy recognition-primed decision modelbased causal association mining algorithm for detecting adverse drug reactions in postmarketing surveillance. Proceedings of IEEE International Conference on Fuzzy Systems (FUZZ), Barcelona, Spain,2010: 1~8

[25] Ji Y Q, Hao Y, Dews P,et al. A potential causal association mining algorithm for screening adverse drug reactions in postmarketing surveillance.IEEE Transactions on Information Technology in Biomedicine, 2011, 15(3): 428~437

[26] Kohn L T, Corrigan J, Donaldson M S. To Err is Human: Building a Safer Health System. Washington DC:National Academies Press, 2000

[27] Chen H, Compton S, Hsiao O. DiabeticLink: a Health Big Data System for Patient Empowerment and Personalized Healthcare. Smart Health. Berlin Heidelberg: Springer, 2013

[28] Srinivasan U,Arunasalam B. Leveraging big data analytics to reduce healthcare costs. IT Professional, 2013, 15 (6): 21~28

[29] Molnar L K.Nanobioinformatics: the enabling technology of personalized medicine. Proceedings of the 7th IEEE International Conference on Bioinformatics and Bioengineering. Boston, USA, 2007

[30] Andreu P J, Leff D, Ip H,et al. From wearable sensors to smart implants–towards pervasive and personalised healthcare. IEEE Transactions on Biomedical Engineering, 2015

[31] Panahiazar M, Taslimitehrani V, Jadhav A,et al. Empowering personalized medicine with big data and semantic web technology: promises, challenges, and use cases. Proceedings of IEEE International Conference on Big Data, Washington DC, USA, 2014: 790~795

[32] Yesha Y, Janeja V P, Rishe N,et al. Personalized decision support system to enhance evidence based medicine through big data analytics. Proceedings of IEEE International Conference on Healthcare Informatics, Verona, Italy,2014

[33] Chuang J, Hsiao O, Wu P L,et al. DiabeticLink: an Integrated and Intelligent Cyber-Enabled Health Social Platform for Diabetic Patients. Smart Health. Berlin Heidelberg: Springer, 2014

[34] Kim T W, Park K H, Yi S H,et al. A big data framework for u-healthcare systems utilizing vital signs. Proceedings of International Symposium on Computer, Consumer and Control (IS3C), Taiwan,China, 2014: 494~497

[35] Schrenker R A. Guest editor’s introduction: software engineering for future healthcare and clinical systems. Computer,2006(4): 26~32

[36] Shneiderman B, Plaisant C,Hesse B W. Improving healthcare with interactive visualization. Computer,2013, 46(5): 58~66

[37] Ginsburg G S, Willard H F. Genomic and personalized medicine: foundations and applications. Translational Research, 2009,154(6): 277~287

[38] Douali N, Jaulent M. Genomic and personalized medicine decision support system. Proceedings of International Conference on Complex Systems (ICCS), Agadir,Morocco, 2012: 1~4

[39] Matturdi B, Zhou X W, Li S,et al. Big data security and privacy: a review. Communications, 2014, 11(14): 135~145

董誠,男,華中科技大學計算機科學與技術學院碩士生,主要研究方向為內(nèi)存計算。

林立,男,華中科技大學計算機科學與技術學院講師,主要研究方向為移動云計算。

金海,男,博士,華中科技大學計算機科學與技術學院教授、博士生導師,主要研究方向為并行與分布式計算、大數(shù)據(jù)處理、虛擬化技術、物聯(lián)網(wǎng)技術、信息安全。

廖小飛,男,博士,華中科技大學計算機科學與技術學院教授、博士生導師,主要研究方向為運行時優(yōu)化、虛擬化技術、對等計算、多媒體技術。

Dong C, Lin L, Jin H,et al.Big data in healthcare: applications and system analytics. Big Data Research,2015021

Big Data in Healthcare: Applications and System Analytics

Dong Cheng1,2, Lin Li1,2, Jin Hai1,2, Liao Xiaofei1,2

1.Services Computing Technology and System Lab., School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan 430074, China

2.Cluster and Grid Computing Lab., School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan 430074, China

Starting with big data and big data in healthcare,firstly, challenges and improvements of big data in healthcare were elaborated. Then the background of big data and healthcare industry was presented. Finally, big data applications in healthcare were illustrated, and analysis on the systems of big data in healthcare and their key technologies were made.

big data, healthcare, big data analysis

10.11959/j.issn.2096-0271.2015021

2015-07-04

董誠,林立,金海等. 醫(yī)療健康大數(shù)據(jù):應用實例與系統(tǒng)分析. 大數(shù)據(jù), 2015021

猜你喜歡
醫(yī)療用戶信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
京張醫(yī)療聯(lián)合的成功之路
我們怎樣理解醫(yī)療創(chuàng)新
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
醫(yī)療扶貧至關重要
如何獲取一億海外用戶
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
什么是醫(yī)療告知
屏东市| 五华县| 克山县| 信阳市| 肇东市| 景东| 丹棱县| 福鼎市| 剑河县| 定远县| 马山县| 乌苏市| 安庆市| 潞西市| 水富县| 文山县| 道孚县| 三台县| 江油市| 碌曲县| 西和县| 平昌县| 安陆市| 霍林郭勒市| 公主岭市| 根河市| 广平县| 泾阳县| 漳州市| 乌鲁木齐市| 淳化县| 调兵山市| 临夏市| 开原市| 忻城县| 大兴区| 宁乡县| 峨眉山市| 澄迈县| 肥东县| 禄劝|