降惠
摘 要:可視化分析可以提高科研人員對(duì)數(shù)據(jù)隱藏信息的洞察力。本文將醫(yī)學(xué)數(shù)據(jù)源分為普通數(shù)據(jù)、高維數(shù)據(jù)、公共衛(wèi)生數(shù)據(jù)、管理數(shù)據(jù)、評(píng)估數(shù)據(jù)五種類(lèi)型,分析了每種類(lèi)型數(shù)據(jù)的集成轉(zhuǎn)換方法和交互呈現(xiàn)方式。但不容忽視的是,醫(yī)學(xué)數(shù)據(jù)可視分析還面臨數(shù)據(jù)不一致、人機(jī)交互普及性較差和可視技術(shù)不豐富等問(wèn)題,有待進(jìn)一步研究和探討。
關(guān)鍵詞:醫(yī)學(xué);大數(shù)據(jù);可視分析;研究
中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:With visualized analysis,scientific researchers can improve the insight to hiding information in data.The medical data sources are classified into five different types,including general data,high dimensional data,public health data,management data and evaluation data.The paper analyzes the integration and conversion method and the interaction and presentation method of each type of data.But some noticeable problems still need further studying and probing,such as the inconsistency of data,the low popularity of human-computer interaction,and the inadequacy of visualized technology.
Keywords:medicine;big data;visualized analysis;study
1 引言(Introduction)
隨著互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等信息技術(shù)的飛速發(fā)展,我國(guó)省、市、縣、鄉(xiāng)、村各級(jí)醫(yī)療機(jī)構(gòu)不斷推行信息化、智能化,互聯(lián)網(wǎng)中的醫(yī)學(xué)數(shù)據(jù)正在以井噴的方式急劇增加。醫(yī)學(xué)數(shù)據(jù)正在變得無(wú)處不在、觸手可及。然而,創(chuàng)造數(shù)據(jù)的最高價(jià)值是發(fā)現(xiàn)其蘊(yùn)含的潛在知識(shí),這個(gè)發(fā)現(xiàn)的過(guò)程就是數(shù)據(jù)分析[1]。在“互聯(lián)網(wǎng)+醫(yī)學(xué)”大背景下,醫(yī)學(xué)數(shù)據(jù)是一種無(wú)形資源,只有通過(guò)深入分析才能幫助人們認(rèn)識(shí)新知識(shí),掌握新規(guī)律,發(fā)現(xiàn)新理論,功克新難關(guān)。但醫(yī)學(xué)大數(shù)據(jù)與其他領(lǐng)域大數(shù)據(jù)相比,具有其獨(dú)特的特性,每個(gè)實(shí)體具有上百個(gè)臨床或診斷變量。心理學(xué)家研究又表明人類(lèi)只可以同時(shí)正確分析處理四種變量[2]。在臨床診斷分析中,研究人員通常會(huì)使用降維的方式來(lái)處理數(shù)據(jù),將問(wèn)題分割成人類(lèi)可以認(rèn)知的維度或?qū)⑾嗤母拍钸M(jìn)行組合,但降維技術(shù)往往會(huì)忽視臨床數(shù)據(jù)中可以突破和理解醫(yī)學(xué)數(shù)據(jù)中有價(jià)值的內(nèi)容。研究發(fā)現(xiàn),當(dāng)分析過(guò)程中呈現(xiàn)出直觀的數(shù)據(jù)圖形時(shí),分析人員可以增強(qiáng)對(duì)數(shù)據(jù)背后隱藏信息的洞察力[3]。因此,研究人員嘗試采用人機(jī)交互的方式——可視分析技術(shù)來(lái)改善醫(yī)學(xué)大數(shù)據(jù)分析。
2 可視分析(Visualized analysis)
可視化分析技術(shù)是一種綜合利用可視化界面和分析理論來(lái)輔助用戶(hù)對(duì)復(fù)雜數(shù)據(jù)進(jìn)行解釋和推理的技術(shù)??梢暦治鍪切畔⒖梢暬?、認(rèn)知科學(xué)、人機(jī)交互、數(shù)據(jù)挖掘、數(shù)據(jù)處理、圖像、統(tǒng)計(jì)等多領(lǐng)域融合的研究方法。可視化是利用人眼感知能力和人類(lèi)智慧,對(duì)數(shù)據(jù)進(jìn)行交互的可視表達(dá),以增強(qiáng)認(rèn)知的一門(mén)學(xué)科[4],是將難以直接顯示或不可見(jiàn)的數(shù)據(jù)映射為可感知的圖形、顏色、符號(hào)等,以提高數(shù)據(jù)識(shí)別效率并高效傳遞有用信息[5]??梢暦治霭〝?shù)據(jù)集成、呈現(xiàn)和交互??梢暬怯脩?hù)與數(shù)據(jù)的接口。
3 醫(yī)學(xué)數(shù)據(jù)源及其類(lèi)型(Medical data sources and
types)
3.1 醫(yī)學(xué)數(shù)據(jù)來(lái)源
醫(yī)療“大數(shù)據(jù)”來(lái)源廣泛,內(nèi)容豐富。它可以來(lái)源于電子醫(yī)療記錄、醫(yī)學(xué)檢測(cè)、家庭監(jiān)測(cè)、社交媒體、零售藥房、公共衛(wèi)生控制中心和醫(yī)療保險(xiǎn)。
電子醫(yī)療記錄是患者醫(yī)療就診全過(guò)程的數(shù)字化記錄。它記錄了患者人口統(tǒng)計(jì)信息、病史、病癥、藥物治療、影像檢測(cè)、病程記錄和賬單數(shù)據(jù)等信息,是最有價(jià)值的數(shù)據(jù)來(lái)源[6]。目前國(guó)內(nèi)外醫(yī)院基本實(shí)現(xiàn)了患者病史、就醫(yī)全過(guò)程和康復(fù)隨訪的電子記錄,各級(jí)醫(yī)療機(jī)構(gòu)可以提供患者醫(yī)療全過(guò)程數(shù)據(jù)。
醫(yī)學(xué)檢測(cè)數(shù)據(jù)包括檢驗(yàn)實(shí)驗(yàn)室的實(shí)驗(yàn)儀器報(bào)告數(shù)據(jù)和影像診斷中心的診斷報(bào)告數(shù)據(jù),包括生理數(shù)據(jù)、生化數(shù)據(jù)和生命體征數(shù)據(jù)。影像數(shù)據(jù)包括核磁、CT、超聲、X光檢測(cè)數(shù)據(jù)。國(guó)外醫(yī)學(xué)檢測(cè)數(shù)據(jù)來(lái)源于醫(yī)院外的獨(dú)立醫(yī)學(xué)實(shí)驗(yàn)室,如美國(guó)的Quest、LabCorp實(shí)驗(yàn)室,加拿大的MDS實(shí)驗(yàn)室和日本的BML實(shí)驗(yàn)室。我國(guó)2016年印發(fā)了《關(guān)于醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室基本標(biāo)準(zhǔn)和管理規(guī)范(試行)的通知》和《關(guān)于醫(yī)學(xué)影像診斷中心基本標(biāo)準(zhǔn)和管理規(guī)范(試行)的通知》,今后醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室和醫(yī)學(xué)影像診斷中心將作為獨(dú)立的法人單位,相應(yīng)的醫(yī)學(xué)檢測(cè)數(shù)據(jù)將來(lái)源于醫(yī)院外的獨(dú)立部門(mén)。
家庭醫(yī)療檢測(cè)數(shù)據(jù)來(lái)源于體溫計(jì)、體溫貼、制氧機(jī)、血糖儀、血壓計(jì)、多功能治療儀、脂肪測(cè)量?jī)x、洗鼻器、按摩椅等。家庭醫(yī)療檢測(cè)使得數(shù)據(jù)的獲取精確到秒。
零售藥房是指依法取得《藥品經(jīng)營(yíng)許可證》的單一門(mén)店的藥品零售經(jīng)營(yíng)企業(yè)。零售藥房主要服務(wù)于附近的居民。零售藥房的銷(xiāo)售記錄,是醫(yī)學(xué)大數(shù)據(jù)的一個(gè)主要來(lái)源。
公共衛(wèi)生控制中心數(shù)據(jù)主要收集了地方各種流行病的發(fā)病情況,包括發(fā)病人數(shù)、患者年齡、發(fā)病日期、發(fā)病天數(shù)和最終診斷治療結(jié)果等。
醫(yī)療保險(xiǎn)數(shù)據(jù)來(lái)源于各醫(yī)療保險(xiǎn)公司。在我國(guó)醫(yī)療保險(xiǎn)數(shù)據(jù)包括患者使用一類(lèi)、二類(lèi)、三類(lèi)藥品費(fèi)用,處置費(fèi)、手術(shù)費(fèi)、檢查費(fèi)、醫(yī)學(xué)檢驗(yàn)費(fèi)、醫(yī)學(xué)影像診斷費(fèi)、護(hù)理費(fèi)用等。endprint
3.2 醫(yī)學(xué)數(shù)據(jù)類(lèi)型
醫(yī)學(xué)數(shù)據(jù)可以分為普通數(shù)據(jù)、高維數(shù)據(jù)、公共衛(wèi)生數(shù)據(jù)、管理數(shù)據(jù)、評(píng)估數(shù)據(jù)五種。普通數(shù)據(jù)包括電子病歷、臨床設(shè)備和臨床軟件等產(chǎn)生的數(shù)據(jù),如血液檢測(cè)數(shù)據(jù)、心電圖數(shù)據(jù)、病情描述文本數(shù)據(jù)等,數(shù)據(jù)量較小。高維數(shù)據(jù)包括患者多維度的個(gè)人數(shù)據(jù),如家族史、患病史等。公共衛(wèi)生數(shù)據(jù)包括患者的家庭住址、發(fā)病天數(shù)、發(fā)病日期等信息,往往具有時(shí)間和空間特性。管理數(shù)據(jù)主要包括醫(yī)療保險(xiǎn)數(shù)據(jù)、藥品安全數(shù)據(jù)、患者治療效果數(shù)據(jù)、患者候診時(shí)間等。評(píng)估數(shù)據(jù)指患者對(duì)自身健康信息的評(píng)估,包括患者家庭醫(yī)療監(jiān)測(cè)、自我評(píng)估測(cè)驗(yàn)數(shù)據(jù)等。
4 醫(yī)學(xué)數(shù)據(jù)可視分析技術(shù)(Visualized analysis
technology of medical data)
針對(duì)以上醫(yī)學(xué)數(shù)據(jù)源和醫(yī)學(xué)數(shù)據(jù)類(lèi)型,醫(yī)學(xué)數(shù)據(jù)可視分析主要包括普通數(shù)據(jù)可視分析、高維數(shù)據(jù)可視分析、公共衛(wèi)生數(shù)據(jù)可視分析、管理數(shù)據(jù)可視分析、評(píng)估數(shù)據(jù)可視分析等。
4.1 普通數(shù)據(jù)可視分析
普通數(shù)據(jù)集成通過(guò)R語(yǔ)言、Python、Excel、SPSS、Matlab、SAS、Tableau、Spotfire等實(shí)現(xiàn)。普通醫(yī)學(xué)數(shù)據(jù)一般為結(jié)構(gòu)化數(shù)據(jù),類(lèi)型單一,數(shù)據(jù)集成計(jì)算較為容易。普通數(shù)據(jù)可視化呈現(xiàn)方式包括線圖、直方圖、餅圖、散點(diǎn)圖、熱點(diǎn)圖、心電圖、腦電圖等?;谶@些動(dòng)態(tài)交互式界面,醫(yī)生可以分類(lèi)患者,可以直觀觀測(cè)患者個(gè)人體征和病情。但對(duì)于患者病情的介紹一般為文本數(shù)據(jù),為非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)集成分析可以采用Python中的NLTK(自然語(yǔ)言處理)包。數(shù)據(jù)呈現(xiàn)比較好的形式是標(biāo)簽云。標(biāo)簽云技術(shù)是一種將關(guān)鍵詞根據(jù)詞頻或其他規(guī)則,將不同關(guān)鍵詞用不同大小顏色等呈現(xiàn)出來(lái)的一種可視化效果。在臨床病歷病情描述中應(yīng)用最為廣泛。
4.2 高維數(shù)據(jù)可視分析
高維數(shù)據(jù)可視分析可以通過(guò)R語(yǔ)言、Python、SAS等實(shí)現(xiàn)。數(shù)據(jù)集成可以采用層次聚類(lèi)的方法。高維醫(yī)療數(shù)據(jù)可視化分析呈現(xiàn)方式有平行坐標(biāo)、樹(shù)圖、依賴(lài)圖、時(shí)序分析。平行坐標(biāo)將患者的生命特征表示為等距離的多個(gè)垂直平行軸,其中每條曲線表示一個(gè)患者個(gè)體。平行坐標(biāo)可以觀測(cè)每位患者各生命特征之間的關(guān)系。具有層次特性的數(shù)據(jù)通常采用樹(shù)圖來(lái)進(jìn)行分析。家族史通常采用依賴(lài)圖來(lái)進(jìn)行分析。個(gè)人患病史通常采用時(shí)序分析法進(jìn)行分析,主要關(guān)注患者個(gè)體隨時(shí)間推移的患病過(guò)程。
4.3 公共衛(wèi)生數(shù)據(jù)可視分析
公共衛(wèi)生數(shù)據(jù)可視分析可以通過(guò)Python、R語(yǔ)言、Geoda、OpenGeoda、ArcGIS等實(shí)現(xiàn)。數(shù)據(jù)轉(zhuǎn)換采用計(jì)算空間權(quán)重矩陣,通過(guò)全局空間相關(guān)性和局部空間相關(guān)性等進(jìn)行分析。公共衛(wèi)生數(shù)據(jù)通常采用地理空間分析方法,可視化呈現(xiàn)方式有統(tǒng)計(jì)點(diǎn)圖、二維散點(diǎn)圖、分級(jí)地圖、時(shí)序分析、時(shí)空探索分析等。對(duì)于公共衛(wèi)生數(shù)據(jù)分析主要從時(shí)間和空間兩個(gè)維度分析病例數(shù)據(jù)的傳播和蔓延。
4.4 管理數(shù)據(jù)可視分析
管理數(shù)據(jù)通常采用主控制臺(tái)(Dashboard)技術(shù)。主控制臺(tái)技術(shù)將不同的可分析技術(shù)集成到一個(gè)平臺(tái)上,使管理者可以一目了然地分析數(shù)據(jù)、匯總信息并作出科學(xué)決策,如Brown[7]等用主控制臺(tái)技術(shù)監(jiān)視和快速分析與護(hù)士相關(guān)的多維數(shù)據(jù)。
4.5 評(píng)估數(shù)據(jù)可視分析
評(píng)估數(shù)據(jù)通常采用手機(jī)應(yīng)用軟件來(lái)實(shí)現(xiàn)可視分析,患者可以了解自身健康狀態(tài),合理安排作息和飲食,配合醫(yī)生開(kāi)展更好的治療。
5 問(wèn)題與挑戰(zhàn)(Problems and challenges)
5.1 醫(yī)學(xué)數(shù)據(jù)格式、結(jié)構(gòu)、標(biāo)準(zhǔn)的不一致性
醫(yī)療數(shù)據(jù)來(lái)源廣泛,除了具有了其他大數(shù)據(jù)的一般特性外,還具有幾種不一致性。(1)格式:由于醫(yī)療數(shù)據(jù)來(lái)源于不同的醫(yī)療系統(tǒng),產(chǎn)生于不同的醫(yī)療軟件,所以生成的數(shù)據(jù)格式往往不同。一方面,數(shù)據(jù)格式豐富,包含文本、數(shù)字、圖像、聲音、多媒體等。另一方面,相同的數(shù)據(jù)可能在不同的軟件中重復(fù)記錄,但不同的軟件數(shù)據(jù)的記錄方式可能存在很大的差異,同一屬性有的可能標(biāo)記為文本,而有的軟件中則標(biāo)記為數(shù)字,使得數(shù)據(jù)分析時(shí)數(shù)據(jù)間的連接具有了一定的挑戰(zhàn)性。(2)結(jié)構(gòu):醫(yī)院信息化管理仍不健全,醫(yī)院信息錄入者輸入的數(shù)據(jù)形式多樣,有結(jié)構(gòu)化表格數(shù)據(jù),也存在一些非結(jié)構(gòu)化的病歷、醫(yī)學(xué)影像檢測(cè)數(shù)據(jù)。(3)標(biāo)準(zhǔn):藥房或藥品研究人員可能會(huì)以藥品的化學(xué)成分來(lái)標(biāo)記對(duì)象,而醫(yī)院醫(yī)護(hù)工作者往往采用藥品的通用名稱(chēng)或商品名稱(chēng)進(jìn)行標(biāo)記。
這些不一致性使得數(shù)據(jù)的質(zhì)量無(wú)法保證,數(shù)據(jù)集成困難很大,而這些又恰恰是數(shù)據(jù)可視分析的基礎(chǔ)和前提,將直接影響到數(shù)據(jù)可視分析的科學(xué)性和準(zhǔn)確性。
5.2 人機(jī)交互的普及性有待提高
目前,醫(yī)學(xué)數(shù)據(jù)可視化主要針對(duì)醫(yī)學(xué)數(shù)據(jù)分析人員,對(duì)于患者、醫(yī)生和護(hù)理人員的人機(jī)交互分析并未完善。未來(lái)任何領(lǐng)域的普通個(gè)體均有大數(shù)據(jù)分析的需求?!叭巳硕级髷?shù)據(jù),人人都能可視化”已成為大數(shù)據(jù)發(fā)展的目標(biāo)之一。因此,提供自助式大數(shù)據(jù)可視分析技術(shù)有待進(jìn)一步研究。
5.3 可視技術(shù)有待豐富
針對(duì)不同的醫(yī)學(xué)數(shù)據(jù),雖然已經(jīng)涌現(xiàn)出很多不同的可視分析方法,但可視技術(shù)以直方圖、散點(diǎn)圖、樹(shù)圖、空間分布圖、時(shí)間序列圖為主,可視技術(shù)仍有很大豐富空間。探索更多符合人類(lèi)認(rèn)知的可視分析技術(shù)仍是今后努力的一個(gè)方向。
6 結(jié)論(Conclusion)
醫(yī)學(xué)數(shù)據(jù)可視分析將大量醫(yī)學(xué)普通、高維、公共衛(wèi)生、管理和評(píng)估數(shù)據(jù)轉(zhuǎn)換成直觀形式。在符合人類(lèi)認(rèn)知和感知規(guī)律的基礎(chǔ)上,通過(guò)計(jì)算機(jī)應(yīng)用軟件實(shí)現(xiàn)數(shù)據(jù)集成和轉(zhuǎn)換,通過(guò)不同的可視化呈現(xiàn)方式,實(shí)現(xiàn)醫(yī)學(xué)數(shù)據(jù)分析的“增值”效果。但不容忽視的是,醫(yī)學(xué)數(shù)據(jù)可視分析還面臨數(shù)據(jù)不一致、人機(jī)交互普及性較差和可視技術(shù)不豐富等問(wèn)題?;跀?shù)據(jù)挖掘的醫(yī)學(xué)數(shù)據(jù)可視分析有待進(jìn)一步研究和探討。
參考文獻(xiàn)(References)
[1] Cohen J,Dolan B,Dunlap M,et al.MAD skills:New analysis practices for big data[J].PVLDB,2009,2(2):1481-1492.
[2] Graeme S Halford,Rosemary Baker,Julie E McCredden,et al.
How many variablescan humans process[J].Psychological
Science,2005,16(1):70-76.
[3] 任磊,杜一,馬帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報(bào),
2014,25(9):1909-1936.
[4] MunzneR.T.WileyInterdisciplinaryReviews Computational Statistics[J].Visualization analysis and design,2015,2(4):387-403.
[5] Charles D.H,ChrisJ.The Visualization Handbook[M].2004:
76-85.
[6] Trivedi,Shrawan Kumar,Deynil,et al.Handbook of Research on Advanced Data Mining Techniques and Applications for Business Intelligence[M].IGI Global,2017:242.
[7] Diane Storer Brown,Carolyn E Aydin,Nancy Donaldson.Quartile dashboards:Translatinglarge data sets into performance improvement priorities[J].Journal for Healthcare Quality,2008,30(6):18-30.
作者簡(jiǎn)介:
降 惠(1983-),女,碩士,講師.研究領(lǐng)域:數(shù)據(jù)挖掘,醫(yī)學(xué)計(jì)算機(jī)應(yīng)用.endprint