,
互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等相關(guān)技術(shù)的發(fā)展與應(yīng)用,使全球范圍內(nèi)的數(shù)據(jù)容量正以前所未有的速度增長。2011年5月,EMC公司在美國拉斯維加斯舉辦以“云計算相遇大數(shù)據(jù)”為主題的第11屆EMC世界年度大會,大會正式提出了“大數(shù)據(jù)”(Big Data)的概念[1]。
大數(shù)據(jù)科學(xué)作為“第四范式”開始出現(xiàn),將數(shù)據(jù)丟進巨大的計算機機群中,只要有相互關(guān)系的數(shù)據(jù),統(tǒng)計分析算法可以發(fā)現(xiàn)過去的科學(xué)方法發(fā)現(xiàn)不了的新模式、新知識甚至新規(guī)律[2]。在醫(yī)學(xué)領(lǐng)域,隨著現(xiàn)代檢測、存儲技術(shù)、傳感技術(shù)、醫(yī)院信息系統(tǒng)和電子病歷的發(fā)展,采集到的數(shù)據(jù)的復(fù)雜度和數(shù)據(jù)容量都在不斷增大[3-4]。
醫(yī)學(xué)大數(shù)據(jù)具備了典型5V特點,即數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)、產(chǎn)生快、處理快(Velocity)、真實性 (Veracity) 和密度低(Value)。對這些數(shù)據(jù)進行挖掘分析可以提升醫(yī)院和健康服務(wù)機構(gòu)的診療和服務(wù)水平,促進健康產(chǎn)業(yè)發(fā)展。
醫(yī)學(xué)大數(shù)據(jù)現(xiàn)有研究集中在工程應(yīng)用部分,體現(xiàn)在數(shù)據(jù)采集、存儲和醫(yī)患互動方面。在理論研究方面,大多數(shù)工作現(xiàn)僅停留在評述醫(yī)學(xué)大數(shù)據(jù)如何大或是如何有用,從計量學(xué)角度并結(jié)合CiteSpace軟件對當(dāng)前醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域進行分析的文章較少。本文通過對醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域相關(guān)文獻進行可視化展示,分析醫(yī)學(xué)大數(shù)據(jù)的研究熱點、前沿、關(guān)鍵文獻等,梳理其演化路徑,可以預(yù)測該領(lǐng)域的研究趨勢,給該領(lǐng)域的研究者一個全面、直觀的參考。
數(shù)據(jù)取自Web of Science(WOS)。檢索式為:主題:("medicine& big data") OR主題:("medical & big data"),數(shù)據(jù)庫選擇SCI-EXPANDED,文獻類型不限定,共檢索到1 570篇相關(guān)文獻,去重后得到1 520篇文獻。為了解近10年醫(yī)學(xué)大數(shù)據(jù)的研究熱點、前沿,本文限定文獻年限為2008-2017年,檢索時間為2017年4月30日,雖然2017年的數(shù)據(jù)并不完整,但已有的部分文獻對于最新研究主題的獲取具有重要作用。各種類型的文獻對本文研究國際醫(yī)學(xué)大數(shù)據(jù)現(xiàn)狀具有重要作用,故本文對文獻類型不作限定。
CiteSpace軟件是一款用于計量和分析科學(xué)文獻數(shù)據(jù)的信息可視化軟件,具有多元、分時、動態(tài)的特點,它利用分時動態(tài)的可視化圖譜展示科學(xué)知識的宏觀結(jié)構(gòu)以及發(fā)展脈絡(luò),直觀地展示某一領(lǐng)域的信息全部內(nèi)容,識別并顯示某一領(lǐng)域科學(xué)發(fā)展的新趨勢和新動態(tài),展現(xiàn)研究熱點及前沿方向[5]。CiteSpace根據(jù)“年輪”大小和顏色的區(qū)別展示分析內(nèi)容,一個“年輪”代表一個節(jié)點。“年輪”環(huán)內(nèi)的顏色代表關(guān)鍵詞的出現(xiàn)時間;年輪的厚度與關(guān)鍵詞出現(xiàn)的頻次成正比;節(jié)點間的連線代表節(jié)點與節(jié)點間的共現(xiàn)關(guān)系;連線越粗,則表明節(jié)點間關(guān)系越緊密[6]。
將1 520篇文獻導(dǎo)入CiteSpace,繪制所需的可視化圖。參數(shù)設(shè)置如下:時區(qū)選擇為 2007-2017年,時間跨度選擇 1年,閾值選擇為g-index,節(jié)點類型選擇“關(guān)鍵詞(Keyword)”“文獻共引(Cited Reference)”。
共詞分析是計量學(xué)中常用的內(nèi)容分析方法之一,基于兩個(多個)關(guān)鍵詞同時出現(xiàn)這一原理。共詞分析法能將研究主題內(nèi)容相近的資源聚合到一起,因此,通過對關(guān)鍵詞共現(xiàn)強弱的考察,可以有效揭示它們所代表主題內(nèi)容在學(xué)科研究中熱度的高低。關(guān)鍵詞共現(xiàn)分析法是對當(dāng)前發(fā)表文獻的直接統(tǒng)計,所尋找的是當(dāng)前論文所集中關(guān)注的主題,反映的是在趨勢形成之后的焦點、熱點[7]。
對1 520篇檢索結(jié)果進行統(tǒng)計分析,結(jié)果顯示,2012年伊始,國際醫(yī)學(xué)大數(shù)據(jù)的研究成果數(shù)量迅速攀升,2016年發(fā)文更是2012年的6.42倍。2012年聯(lián)合國發(fā)布《大數(shù)據(jù)促進發(fā)展:挑戰(zhàn)與機遇》白皮書,此后,美、英、加、澳、日、韓、中等眾多國家相繼發(fā)布一系列大數(shù)據(jù)技術(shù)研究和發(fā)展計劃,大力推進大數(shù)據(jù)研究和應(yīng)用,這可能是造成2012年以后相關(guān)研究成果攀升的重要原因。
1 520篇文獻共來自91個國家1 835個機構(gòu)的5 901位作者,這些文獻分布于以計算機學(xué)科為主的107個學(xué)科當(dāng)中,發(fā)表于679種期刊或會議論文集中。美國排在首位,發(fā)文量為522篇(占總發(fā)文量的34.34%);中國(占14.8%)、德國(7.89%)和英國(7.76%)依次緊隨其后。
經(jīng)統(tǒng)計分析發(fā)現(xiàn),發(fā)文量前10的機構(gòu)美國占了9所,這9所機構(gòu)中,排在前4位的依次分別是哈佛大學(xué)、斯坦福大學(xué)、華盛頓大學(xué)、加州大學(xué),各機構(gòu)發(fā)文量均超過18篇,這4所大學(xué)成為美國醫(yī)學(xué)大數(shù)據(jù)研究的主力機構(gòu)。中國科學(xué)院以17篇的發(fā)文量位列第五,是中國醫(yī)學(xué)大數(shù)據(jù)研究的主力機構(gòu)之一。
應(yīng)用CiteSpace進行可視化研究,其中節(jié)點146個,連線1 406條,得到國際醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域關(guān)鍵詞共現(xiàn)圖(圖1)。結(jié)合圖1對出現(xiàn)頻次在20次以上的關(guān)鍵詞進行分析,可以得出醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域主要的5個研究熱點。
圖1 國際醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域的共現(xiàn)關(guān)鍵詞
2.2.1 醫(yī)學(xué)大數(shù)據(jù)技術(shù)研究
醫(yī)學(xué)大數(shù)據(jù)的發(fā)展離不開大數(shù)據(jù)技術(shù)的支持,大量結(jié)構(gòu)化和非結(jié)構(gòu)化的醫(yī)學(xué)大數(shù)據(jù)需要相關(guān)大數(shù)據(jù)技術(shù)來處理分析,當(dāng)前醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域在探討醫(yī)學(xué)大數(shù)據(jù)系統(tǒng)、大數(shù)據(jù)挖掘、模型、云計算、機器學(xué)習(xí)、算法與框架等大數(shù)據(jù)技術(shù)上較多,如圖2所示的重要共現(xiàn)關(guān)系包括big data-system、big data-data mining、big data-model、big data-cloud computing、big data-network、big data-classification、big data-machine learning、big data-algorithm、big data-framework、big data-prediction、big data-analytics。在此方向,O'Driscoll等概述了云計算和大數(shù)據(jù)技術(shù),并探討如何使用這些專業(yè)知識來處理生物學(xué)的大數(shù)據(jù)集,以Apache Hadoop為例討論分布式和并行化的大數(shù)據(jù)技術(shù)處理和分析PB級數(shù)據(jù)集,以及Hadoop在生物信息學(xué)當(dāng)前使用的概述[8],具有60次的高被引頻次。
2.2.2 精準(zhǔn)醫(yī)療
個體化醫(yī)療的說法由來已久,自2015年奧巴馬提出“精準(zhǔn)醫(yī)學(xué)”計劃[9],更是把個體化醫(yī)療推向一個世界關(guān)注的地位。自從在本世紀之交人類基因組計劃完成以來,基因組序列數(shù)據(jù)出現(xiàn)前所未有的擴大,為精準(zhǔn)醫(yī)療的實現(xiàn)奠定了基礎(chǔ)。此外,基礎(chǔ)研究的進步包括分子生物學(xué)、基因組學(xué)和生物信息學(xué)的進步,以及社交媒體和移動設(shè)備的應(yīng)用均推動著精準(zhǔn)治療的發(fā)展。對疾病的研究中,腫瘤精準(zhǔn)治療最為突出,其中又以乳腺癌的研究最多。如圖1所示的重要共現(xiàn)關(guān)系包括big data-personalized medicine、big data-precision medicine、big data-disease、big data-cancer、big data-breast cancer、big data-genomics、big data-bioinformatics、big data-analytics。
2.2.3 醫(yī)學(xué)健康大數(shù)據(jù)管理
電子健康記錄的普及,存儲了大量病歷、診斷、篩查、檢測等臨床數(shù)據(jù),為醫(yī)學(xué)健康大數(shù)據(jù)管理奠定了基礎(chǔ),對其整合再利用對于身體狀況監(jiān)測,疾病預(yù)防和健康趨勢分析都具有積極的意義。如圖2所示的重要共現(xiàn)關(guān)系包括big data-care、big data-health care、big data-health、big data-management、big data-electronic health record、big data-healthcare、big data-electronic medical record。對于electronic health record、electronic medical record的探討,Bates[10]等探討《衛(wèi)生保健中使用大數(shù)據(jù)分析技術(shù)識別和管理高風(fēng)險和高成本的患者以降低美國保健成本》一文,具有74次的高被引頻次。此外,Skripcak[11]等重點討論了放療和腫瘤學(xué)領(lǐng)域國際研究數(shù)據(jù)交換戰(zhàn)略發(fā)展的一個思想概念框架。
2.2.4 醫(yī)學(xué)大數(shù)據(jù)的隱私問題
醫(yī)學(xué)大數(shù)據(jù)與其他行業(yè)大數(shù)據(jù)的區(qū)別之一是醫(yī)學(xué)大數(shù)據(jù)的隱私性:在對醫(yī)療數(shù)據(jù)的數(shù)據(jù)挖掘中,不可避免地會涉及到患者的隱私信息,這些隱私信息的泄露會對患者的生活造成不良的影響。此外,HIPAA(健康保險攜帶和責(zé)任法案)未涵蓋的大量醫(yī)學(xué)數(shù)據(jù)由患者自己產(chǎn)生,包括信用卡數(shù)據(jù)、互聯(lián)網(wǎng)檢索數(shù)據(jù)、電子郵件數(shù)據(jù)、社交媒體數(shù)據(jù)和移動健康等數(shù)據(jù),這些數(shù)據(jù)由第三方數(shù)據(jù)經(jīng)紀人和互聯(lián)網(wǎng)公司控制,公司將這些數(shù)據(jù)與消費者的日?;顒?、交易、運動和人口結(jié)構(gòu)等個人信息相結(jié)合,再將結(jié)合的數(shù)據(jù)用于個人健康狀況的預(yù)測分析,但同時也會出售給廣告商等[12],造成了隱私安全隱患。因此,對醫(yī)學(xué)大數(shù)據(jù)隱私的探討也成為醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域研究的熱點之一,如圖2所示的重要共現(xiàn)關(guān)系包括big data-privacy、big data-riskfactor。
2.2.5 醫(yī)學(xué)大數(shù)據(jù)發(fā)展的挑戰(zhàn)
醫(yī)學(xué)大數(shù)據(jù)處于初級階段,在發(fā)展過程中還面臨著不同程度的挑戰(zhàn),如數(shù)據(jù)的異質(zhì)性、不同格式類型和不完備的EHR和基因組數(shù)據(jù)庫、如何生成具有成本效益的高通量數(shù)據(jù)、數(shù)據(jù)存儲和處理、數(shù)據(jù)整合與解讀、隱私、基礎(chǔ)設(shè)施、監(jiān)管環(huán)境、混合教育和多學(xué)科團隊、個人和全球經(jīng)濟的關(guān)系等[13-15]。如圖1所示的重要共現(xiàn)關(guān)系包括big data-challenge、big data-risk。此方向上,Costa Fabricio[16]的“Big data in biomedicine”一文被引次數(shù)最高(為753次),探討了在轉(zhuǎn)化醫(yī)學(xué)、生物醫(yī)學(xué)領(lǐng)域應(yīng)用大數(shù)據(jù)面臨的挑戰(zhàn),以及個性化醫(yī)療將組學(xué)和臨床健康數(shù)據(jù)相結(jié)合的重大突破。
利用CiteSpace提供的詞頻探測技術(shù)在關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)知識圖譜的基礎(chǔ)上進行突現(xiàn)值(Burst term)分析,通過考察詞頻的時間分布,將其中頻次變化率高的詞(Burst term)從大量的主題詞中探測出來,依靠詞頻的變動趨勢反映領(lǐng)域前沿和發(fā)展趨勢。本文共探測得出24個高Burst值(表1)。
表1 高頻Burst關(guān)鍵詞
由表1可知,2008-2012年間,國際上對quality、children探討突增,Burst值較高,均在5以上。medical education、telemedicine、education、health、image等詞在2009-2014年間探討較多。
近兩年間,對mapreduce、ontology、hadoop等討論突增,mapreduce更是具有高達5.5的Burst值,說明對醫(yī)學(xué)大數(shù)據(jù)處理技術(shù)及本體的研究是當(dāng)前醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域的研究前沿與趨勢。其中,Hadoop是一個平臺,MapReduce是一個并行處理框架,基于其的大數(shù)據(jù)處理方法是目前醫(yī)學(xué)大數(shù)據(jù)的主流。對mapreduce、hadoop的探討中,Schatz[17]介紹《基于MapReduce的CloudBurst并行算法用于分析人體基因組數(shù)據(jù)的良好性能》一文,被引次數(shù)最高(為60次)。對 ontology的研究中,Gai[18]提出在大數(shù)據(jù)中使用本體的模式來生成警報機制以幫助醫(yī)生進行醫(yī)學(xué)診斷一文,被引次數(shù)最高,為16次。
節(jié)點類型選擇Cited Reference,運行軟件后共得到節(jié)點141個,連線651條,進行調(diào)整后得到文獻共被引時區(qū)知識圖譜(圖2),該圖譜側(cè)重于從時間維度上表示知識演進,可以清晰地展示出文獻的更新和互相影響情況,它將結(jié)點定位在一個二維坐標(biāo)系中,根據(jù)結(jié)點首次被引用的時間,結(jié)點被放在不同的時區(qū)中。對知識演進進行直觀展示[7]。
圖2 文獻共被引時區(qū)知識圖譜
一篇文獻如果記錄了所在研究領(lǐng)域某個重要的、基礎(chǔ)的研究成果,對后續(xù)研究起到非常重要的奠基作用,該領(lǐng)域其他研究學(xué)者對該文獻的認可程度高,那么被引用頻次就高,可被認為是該領(lǐng)域的奠基性文獻[19]。根據(jù)CiteSpace的被引網(wǎng)絡(luò)圖,可以得出被引最高的9篇文獻,視為醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域的奠基文獻。從圖3可以看出,這些奠基性文獻依然影響著當(dāng)今醫(yī)學(xué)大數(shù)據(jù)的研究。具體內(nèi)容如下。
2001年Surhone等[20]等探討了Random forests(隨機森林樹)預(yù)測模型。2008年1月,Google 公司Dean等[21]以谷歌大數(shù)據(jù)處理為例介紹了MapReduce編程模型在處理各種大數(shù)據(jù)任務(wù)的可用性及數(shù)據(jù)處理模式,即程序員通過指定 Map 函數(shù)和Reduce 函數(shù),底層系統(tǒng)會自動實現(xiàn)大規(guī)模集群的并行計算,并自動處理機器故障和調(diào)度機間的通信,有效地利用網(wǎng)絡(luò)和磁盤資源。
2013年,Murdoch等[22]利用經(jīng)濟框架來強調(diào)大數(shù)據(jù)提供的機會和實施過程中的障礙,探討了醫(yī)學(xué)領(lǐng)域應(yīng)用大數(shù)據(jù)的必然性,對收集到的醫(yī)患數(shù)據(jù)進行分析可以提高醫(yī)療保健服務(wù)的質(zhì)量和效率。
對電子病歷(EHRs)的挖掘有可能建立新的患者分層原則和揭示未知疾病的相關(guān)性,將EHR數(shù)據(jù)與遺傳數(shù)據(jù)整合也將更好地了解基因型-表型關(guān)系。2012年,Jensen等[23]探討使用EHRs數(shù)據(jù)推動醫(yī)學(xué)研究和臨床治療的潛力,以及在此之前必須克服的挑戰(zhàn)。
2011年,Hood等[24]表明分析醫(yī)學(xué)將從傳統(tǒng)的反應(yīng)性醫(yī)學(xué)向主動性醫(yī)學(xué)邁進,即走向集預(yù)測性、個性化、預(yù)防性和參與性于一體的P4醫(yī)學(xué)。Collins(2015)等[9]指出奧巴馬宣布的“精準(zhǔn)醫(yī)學(xué)計劃”短期目標(biāo)是為癌癥找到更多更好的治療手段,長期目標(biāo)則是為實現(xiàn)多種疾病的個性化治療提供有價值的信息。精準(zhǔn)醫(yī)學(xué)并不是一個新的概念,它是在個體化醫(yī)療的基礎(chǔ)上,伴隨大量生物數(shù)據(jù)庫(例如人類基因組序列)、特征化患者的方法(如蛋白質(zhì)組學(xué)、代謝組學(xué)、基因組學(xué)、多種檢測技術(shù)甚至移動健康技術(shù))以及大數(shù)據(jù)分析工具的涌現(xiàn)而發(fā)展起來的。
2009年,Google谷歌流感趨勢(GFT)對用戶搜索數(shù)據(jù)進行挖掘,比美國疾病控制與預(yù)防中心(CDC)提前1-2周預(yù)測到了甲型H1N1流感爆發(fā)。此事件震驚了醫(yī)學(xué)界和計算機領(lǐng)域的科學(xué)家,Google的研究報告發(fā)表在Nature雜志上。2013年1月,美國流感發(fā)生率達到峰值,而GFT的估計值比實際數(shù)據(jù)高兩倍,再次引起了媒體的關(guān)注。2014年,Lazer[25]等就這一事件進行了分析,探討了導(dǎo)致GFT失誤的兩個因素:大數(shù)據(jù)的浮夸和算法演化,提供了大數(shù)據(jù)發(fā)展路上的經(jīng)驗和教訓(xùn)。GFT作為醫(yī)學(xué)大數(shù)據(jù)的重要實例之一,表明醫(yī)學(xué)大數(shù)據(jù)正處在初級階段,現(xiàn)階段困難與挑戰(zhàn)并存,而未來的潛力無比巨大。
本文對WoS數(shù)據(jù)進行醫(yī)學(xué)大數(shù)據(jù)研究領(lǐng)域的可視化分析結(jié)果表明,醫(yī)學(xué)大數(shù)據(jù)仍屬于初級階段,相關(guān)文獻較少,但并不是純概念性的理論研究,而是和醫(yī)療衛(wèi)生服務(wù)緊密結(jié)合進行的實踐探索。
醫(yī)學(xué)大數(shù)據(jù)研究從2012年開始迅速攀升,到目前已引起越來越多的學(xué)者的關(guān)注,90余個國家的1 800多個機構(gòu)的近6 000位作者從事相關(guān)領(lǐng)域研究。從發(fā)表論文數(shù)量和被引頻次來看,美國在醫(yī)學(xué)大數(shù)據(jù)研究上占領(lǐng)先地位,其相關(guān)機構(gòu)較多,中國發(fā)文量排名第二,但在發(fā)文數(shù)量上離美國還有較大差距,中國科學(xué)院是我國醫(yī)學(xué)大數(shù)據(jù)研究主力機構(gòu)。
醫(yī)學(xué)大數(shù)據(jù)技術(shù)、精準(zhǔn)醫(yī)療、醫(yī)學(xué)健康大數(shù)據(jù)管理、醫(yī)學(xué)大數(shù)據(jù)的隱私及挑戰(zhàn)是當(dāng)前的研究熱點。醫(yī)學(xué)本體、mapreduce、hadoop等是當(dāng)前醫(yī)學(xué)大數(shù)據(jù)領(lǐng)域研究前沿與發(fā)展趨勢。