国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國(guó)外臨床數(shù)據(jù)挖掘研究熱點(diǎn)的文獻(xiàn)計(jì)量學(xué)分析

2015-03-13 10:54:57鐘秀梅
關(guān)鍵詞:數(shù)據(jù)挖掘聚類領(lǐng)域

鐘秀梅 崔 雷

(中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)系 沈陽 110013)

?

國(guó)外臨床數(shù)據(jù)挖掘研究熱點(diǎn)的文獻(xiàn)計(jì)量學(xué)分析

鐘秀梅 崔 雷

(中國(guó)醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)系 沈陽 110013)

為了解近年國(guó)外臨床數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn),以Web of Science收錄的文獻(xiàn)為研究對(duì)象,采用文獻(xiàn)計(jì)量學(xué)方法對(duì)“最新高被引文獻(xiàn)-施引文獻(xiàn)”引文網(wǎng)絡(luò)進(jìn)行聚類和分析,總結(jié)出國(guó)外臨床數(shù)據(jù)挖掘的研究熱點(diǎn),以期對(duì)我國(guó)相關(guān)領(lǐng)域研究有所借鑒。

臨床數(shù)據(jù)挖掘;研究熱點(diǎn);文獻(xiàn)計(jì)量學(xué)

1 引言

數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)庫中智能地發(fā)現(xiàn)有用信息的技術(shù),經(jīng)過近些年的快速發(fā)展,如今已在商務(wù)領(lǐng)域和互聯(lián)網(wǎng)領(lǐng)域得到了很好的應(yīng)用,逐步擴(kuò)展向更多領(lǐng)域。緊跟大數(shù)據(jù)時(shí)代的步伐,醫(yī)療領(lǐng)域數(shù)據(jù)的數(shù)量和質(zhì)量不斷攀升(尤其是電子病歷數(shù)據(jù)),這些數(shù)據(jù)蘊(yùn)涵著豐富的信息,發(fā)掘潛藏于海量數(shù)據(jù)之中的知識(shí)和規(guī)律,將會(huì)極大地推動(dòng)醫(yī)學(xué)創(chuàng)新的開展,因此越來越多的學(xué)者對(duì)臨床數(shù)據(jù)的挖掘研究產(chǎn)生了濃厚的興趣。臨床數(shù)據(jù)挖掘是將數(shù)據(jù)挖掘的理念和方法運(yùn)用于臨床數(shù)據(jù),包括對(duì)臨床數(shù)據(jù)的概念化、信息提取、數(shù)據(jù)分析及結(jié)果解讀等,以期獲取和補(bǔ)充醫(yī)藥學(xué)領(lǐng)域知識(shí),支持知識(shí)庫構(gòu)建、臨床決策和臨床實(shí)踐[1]。為了解近年國(guó)外臨床數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn),本文對(duì)國(guó)外研究學(xué)者在該領(lǐng)域發(fā)表的文獻(xiàn)進(jìn)行分析,以認(rèn)識(shí)和把握該領(lǐng)域的科研狀況。

2 資料與方法

2.1 樣本數(shù)據(jù)獲取

在Web of Science數(shù)據(jù)庫中進(jìn)行檢索,“臨床數(shù)據(jù)挖掘”相關(guān)檢索詞,見表1。檢索策略:主題字段=“臨床數(shù)據(jù)”相關(guān)檢索詞 AND “數(shù)據(jù)挖掘”相關(guān)檢索詞,限定文獻(xiàn)類型為“Article”,限定時(shí)間為2000-2014年,檢索數(shù)據(jù)庫SCI-Expanded、CCR-Expanded、IC。數(shù)據(jù)截止至2014年7月15日。共檢索到3 405條記錄,下載其全記錄與參考引文格式數(shù)據(jù)作為樣本集A。

按系統(tǒng)抽樣法,將3 405條記錄順序分為7份(前6份每份500條,后1份405條),各抽取50條記錄作為樣本集Bi,i∈{1,2,3,4,5,6,7}。對(duì)各樣本集Bi進(jìn)行人工評(píng)判,手工檢驗(yàn)查準(zhǔn)率(查準(zhǔn)率即檢出的相關(guān)文獻(xiàn)占總檢出數(shù)的百分比),總結(jié)誤匹配的原因。除數(shù)據(jù)庫檢索系統(tǒng)原因外,根據(jù)其他誤匹配原因,手工篩除樣本集A的文獻(xiàn)記錄。最后,剩余3 356條記錄,形成研究樣本集C。

2.2 引文網(wǎng)絡(luò)構(gòu)建

運(yùn)用BICOMB2.1[2],對(duì)研究樣本集C進(jìn)行數(shù)據(jù)處理和特征提取。步驟:(1)導(dǎo)入數(shù)據(jù)并提取和統(tǒng)計(jì)引文。(2)截取被引頻次≥11次的引文作為高被引文獻(xiàn),獲得131×883“高被引文獻(xiàn)-施引文獻(xiàn)”矩陣a。(3)以2008年后發(fā)表的引文作為最新引文,刪除矩陣a中2008年以前的高被引文獻(xiàn)數(shù)據(jù),隨后刪除原矩陣中施引總次數(shù)為0的施引文獻(xiàn)數(shù)據(jù),獲得49×315“最新高被引文獻(xiàn)-施引文獻(xiàn)”矩陣b。

2.3 引文網(wǎng)絡(luò)聚類

運(yùn)用gCLUTO1.0[3],對(duì)矩陣b進(jìn)行聚類分析。步驟:(1)導(dǎo)入數(shù)據(jù)并聚類:重復(fù)二分法、余弦相似函數(shù)、I2標(biāo)準(zhǔn)函數(shù)。(2)調(diào)整聚類類群數(shù),選擇類內(nèi)相似度(Isim)較高而類間相似度(Esim)較低的聚類結(jié)果。(3)文獻(xiàn)內(nèi)容較基礎(chǔ)或較綜合時(shí),往往會(huì)引用多方面內(nèi)容,在聚類結(jié)果中的表現(xiàn)是:以高描述度文獻(xiàn)和高區(qū)分度文獻(xiàn)出現(xiàn)在多個(gè)類群中,進(jìn)而降低類內(nèi)相似性,提高類間相似性,即削弱各類的特異性。為此本研究提出,若同一施引文獻(xiàn)在一半以上類群的高描述度文獻(xiàn)或高區(qū)分度文獻(xiàn)中出現(xiàn),則視為基礎(chǔ)性或綜合性施引文獻(xiàn);以此為矩陣精簡(jiǎn)條件,將這類文獻(xiàn)從矩陣b中刪除。(4)對(duì)矩陣c循環(huán)執(zhí)行步驟(1)~(3),至無基礎(chǔ)性或綜合性施引文獻(xiàn)為止。(5)最終為49×312矩陣c聚類。其中,高描述度文獻(xiàn)是指使各個(gè)類群類內(nèi)相似性較高的特征性施引文獻(xiàn);高區(qū)分度文獻(xiàn)是指使各個(gè)類群類間差異度較高的特征性施引文獻(xiàn)。

2.4 引文網(wǎng)絡(luò)分析

根據(jù)聚類結(jié)果,以最新高被引論文為臨床數(shù)據(jù)挖掘領(lǐng)域的知識(shí)基礎(chǔ),將高描述度及高區(qū)分度的施引文獻(xiàn)作為該領(lǐng)域的研究前沿,總結(jié)其研究主旨,進(jìn)而獲得領(lǐng)域內(nèi)研究熱點(diǎn)。

3 結(jié)果與分析

3.1 數(shù)據(jù)有效性檢驗(yàn)

檢驗(yàn)各樣本集Bi的查準(zhǔn)率,結(jié)果分別為98%(49/50)、92%(46/50)、96%(48/50)、100%(50/50)、98%(49/50)、100%(50/50)、98%(49/50),均值為97.42%(341/350)。因此,檢索結(jié)果具有較高查準(zhǔn)率。分析影響查準(zhǔn)率的原因包括:(1)數(shù)據(jù)庫檢索系統(tǒng)錯(cuò)誤,在所有錯(cuò)誤中占比為37.5%(3/8)。(2)醫(yī)學(xué)意義上的“PACS”與其他縮寫意義的誤匹配,在所有錯(cuò)誤中占比為62.5%(5/8)。故剔除“PACS”誤匹配文獻(xiàn)條目,形成新樣本集C用于研究是較為有效的。此外,在各樣本集Bi中發(fā)現(xiàn)縮寫詞均會(huì)同全稱一并出現(xiàn)在摘要中,故以全稱檢索醫(yī)院信息系統(tǒng)(HIS)等的相關(guān)文獻(xiàn)是可行的。

3.2 矩陣精簡(jiǎn)條件合理性探查

本研究以“同一施引文獻(xiàn)在一半以上類群的高描述度文獻(xiàn)或高區(qū)分度文獻(xiàn)中出現(xiàn),視為基礎(chǔ)性或綜合性施引文獻(xiàn),將這類文獻(xiàn)從矩陣b中刪除”為矩陣精簡(jiǎn)條件。結(jié)果顯示滿足此條件的有3篇。了解具體內(nèi)容后發(fā)現(xiàn),其主題或基礎(chǔ)、或宏觀、或綜合,廣泛涉及臨床數(shù)據(jù)挖掘的各方面。此結(jié)果說明,本研究采取的矩陣精簡(jiǎn)條件是合理的。

3.3 引文網(wǎng)絡(luò)聚類

以“2008年后發(fā)表且樣本集C中被引頻次>11次”為篩選條件,共獲得49篇最新高被引文獻(xiàn)。以這49篇最新高被引文獻(xiàn)為基礎(chǔ),構(gòu)建出矩陣c并進(jìn)行聚類,最終聚為6類,其結(jié)果見表2、圖1。

表2 49×312矩陣c聚類情況

注:RPHC為最新高被引文獻(xiàn);D&D為高描述度文獻(xiàn)和高區(qū)分度文獻(xiàn)。

圖1 49×312矩陣c聚類結(jié)果 注:a圖中,山丘的高度越高代表類內(nèi)相似性越高,體積越大代表類群包含對(duì)象越多。

3.4 引文網(wǎng)絡(luò)分析

3.4.1 概述 引文網(wǎng)絡(luò)聚類分析結(jié)果顯示近年該領(lǐng)域研究分為6個(gè)方向,見表3。

表3 近年國(guó)外臨床數(shù)據(jù)挖掘領(lǐng)域6大研究熱點(diǎn)

3.4.2 增強(qiáng)臨床數(shù)據(jù)挖掘樣本的可獲取性和可用性 美國(guó)是衛(wèi)生信息技術(shù)(Health Information Technology,HIT)發(fā)展的前沿陣地,代表著電子病歷(Electronic Medical Records, EMR)推廣與使用的先進(jìn)水平。DesRoches等[4]和Jha等[5]分別在醫(yī)師個(gè)體水平和醫(yī)院水平調(diào)查了美國(guó)EMR系統(tǒng)的應(yīng)用現(xiàn)狀,其結(jié)果表明功能不齊全、互操作性不好及技術(shù)支持人員不夠是阻礙其應(yīng)用的基本原因,直接影響用戶接受度和滿意度,也影響EMR使用的利弊比較和書寫質(zhì)量,進(jìn)而造成臨床數(shù)據(jù)挖掘樣本獲取不易、質(zhì)量不高。2010年美國(guó)提出《衛(wèi)生信息技術(shù)促進(jìn)經(jīng)濟(jì)和臨床健康法案》(Health Informatiom Technology for Economic and Clinical Health,HITECH)并施行,以期促進(jìn)HIT的全面推廣以及EMR的格式規(guī)范化[6-7]。隨著HITECH的實(shí)施與推進(jìn),美國(guó)公眾逐漸認(rèn)可EMR系統(tǒng)的使用,認(rèn)為其使用益處大于隱私風(fēng)險(xiǎn),這更加激勵(lì)研究者對(duì)HIT的完善,進(jìn)而提高臨床數(shù)據(jù)挖掘樣本的可獲取性和可用性[8-12]。

3.4.3 自然語言處理技術(shù)作為臨床數(shù)據(jù)挖掘工具的方法學(xué)研究 臨床數(shù)據(jù)包含大量自由文本,如臨床醫(yī)囑、出院小結(jié)等,因此自然語言處理(Natural Language Processing, NLP)技術(shù)成為臨床數(shù)據(jù)挖掘的必要工具。對(duì)臨床文本這一特定領(lǐng)域信息載體進(jìn)行分析,需將NLP一般方法進(jìn)行領(lǐng)域具象化,即要具體適應(yīng)特定領(lǐng)域,如MetaMap、生物學(xué)信息與臨床信息整合(i2b2)工作臺(tái)、cTAKES、ConText算法及特定用于結(jié)腸鏡檢查信息提取的算法等都是用于臨床文本處理的NLP工具[13-20]。這些NLP工具大多采用基于規(guī)則的機(jī)器學(xué)習(xí)型算法[16-20]。此外這些工具在命名體識(shí)別上表現(xiàn)較好,但在否定識(shí)別、詞義消歧以及時(shí)序判定上仍有待提高[13,16,18,21]。

3.4.4 自然語言處理技術(shù)作為臨床數(shù)據(jù)挖掘工具的可行性研究 基于臨床自由文本的NLP工具日漸成熟,將NLP用于臨床數(shù)據(jù)挖掘的應(yīng)用研究也日益增多。從i2b2工作臺(tái)的應(yīng)用中可窺其一二:2008-2013年,有多位學(xué)者致力于從臨床文本中自動(dòng)識(shí)別和分析患者吸煙狀況[22-23]、肥胖癥及其并發(fā)癥[24]、手術(shù)后并發(fā)癥[25]等信息,也有學(xué)者致力于研究受保護(hù)健康信息的自動(dòng)識(shí)別和自動(dòng)去標(biāo)識(shí)化(即去除患者身份信息,以防患者信息泄露)[26-28]。由此看出NLP技術(shù)作為臨床數(shù)據(jù)挖掘工具的可行性研究主要處在識(shí)別階段,而在關(guān)系提取上的研究相對(duì)較少。此外,Chapman等[29]總結(jié)NLP處理臨床文本的障礙,F(xiàn)an等[30]提出臨床文本句法解析不適當(dāng)時(shí)的指導(dǎo)思想。

3.4.5 面向遺傳學(xué)關(guān)聯(lián)發(fā)現(xiàn)和表型關(guān)聯(lián)發(fā)現(xiàn)的臨床數(shù)據(jù)挖掘研究 遺傳學(xué)數(shù)據(jù)不屬于臨床數(shù)據(jù),將患者的臨床數(shù)據(jù)和遺傳學(xué)數(shù)據(jù)結(jié)合起來進(jìn)行挖掘是當(dāng)前轉(zhuǎn)化醫(yī)學(xué)研究的一個(gè)突破口。2007年美國(guó)啟動(dòng)電子病歷與基因組學(xué)網(wǎng)絡(luò)項(xiàng)目[31],旨在“結(jié)合生物資料庫與EMR系統(tǒng)進(jìn)行大規(guī)模、高通量的遺傳學(xué)研究”。自此一大批研究[32-39]致力于結(jié)合EMR數(shù)據(jù)和大型生物資料庫進(jìn)行遺傳學(xué)關(guān)聯(lián)的分析與發(fā)現(xiàn)。早前重在找尋或建立合適的可與EMR相鏈接的生物資料庫[31-32]。近年主要轉(zhuǎn)向以下3方面研究:(1)結(jié)合EMR與生物資料庫進(jìn)行全基因組關(guān)聯(lián)研究(GWAS)[31,33-37,39-40]。(2)結(jié)合EMR與生物資料庫,進(jìn)行全表型組關(guān)聯(lián)研究(PheWAS),也稱“反GWAS”[41-43]。(3)結(jié)合EMR與藥學(xué)及藥物基因組學(xué),構(gòu)建用藥適應(yīng)癥資源庫[44-45]。這些研究在時(shí)間上是相互交叉的,在理念上也存在相互繼承和借鑒。

3.4.6 面向用藥信息提取的臨床數(shù)據(jù)挖掘研究 藥物治療是醫(yī)療活動(dòng)的重要組成部分,在疾病診療過程中具有重要作用。早前,多位學(xué)者分別運(yùn)用BioMedLEE和MedLEE系統(tǒng)、商業(yè)化NLP工具、MedEx系統(tǒng)、SecTag算法等工具從臨床文本中自動(dòng)提取用藥信息,以期探索疾病的用藥知識(shí),進(jìn)而構(gòu)建疾病用藥知識(shí)庫[46-49]。近年i2b2項(xiàng)目組織了20個(gè)團(tuán)隊(duì)開展臨床文本的用藥信息提取工具方面的研究,取得一定成果。研發(fā)出的這些工具在識(shí)別和提取藥品名稱、用藥劑量、用藥途徑和用藥頻率上均具有較好表現(xiàn),在識(shí)別和提取用藥持續(xù)時(shí)間和用藥原因上卻表現(xiàn)不佳[50-52]。但EMR在用藥信息提取上仍具有巨大潛力,如Wilke等[44]指出EMR在藥物基因組學(xué)中扮演著新的重要角色。

3.4.7 面向藥品安全性信號(hào)檢測(cè)的臨床數(shù)據(jù)挖掘研究 2004年后i2b2項(xiàng)目[53]、歐盟藥品不良反應(yīng)監(jiān)測(cè)(EU-ADR)項(xiàng)目[54]、觀察醫(yī)療結(jié)果合作組織項(xiàng)目[55]等相繼啟動(dòng)。隨后歐美各國(guó)組織大量研究者參與,其中應(yīng)用電子健康檔案(Electronic Health Records,EHR)或EMR挖掘藥品安全性信號(hào)便是其研究方向之一。已有研究證明,將其作為除藥品不良事件自發(fā)報(bào)告外的另一補(bǔ)充數(shù)據(jù)源,用于藥物警戒是可行的[56-57]。近年許多研究人員采用不同的信息平臺(tái)、自然語言處理工具、藥物領(lǐng)域本體和知識(shí)庫、挖掘模式,將其用于“藥品-不良事件”間關(guān)聯(lián)和“藥物間相互作用-不良事件”間關(guān)聯(lián)的挖掘[58-59];也有研究人員將自發(fā)報(bào)告與EHR聯(lián)合使用進(jìn)行藥品安全信號(hào)挖掘[60]。但EHR或EMR信息的錯(cuò)綜復(fù)雜性,使這類研究不可避免受混雜因素影響,最近(2014年)的研究開始尋找應(yīng)對(duì)辦法,以控制混雜因素對(duì)利用EHR檢測(cè)藥品不良反應(yīng)的影響[61]。

4 結(jié)語

本研究特色與創(chuàng)新在于:(1)抽取樣本進(jìn)行誤匹配調(diào)查和修正。(2)以最新高被引論文構(gòu)建引文網(wǎng)絡(luò)。(3)將出現(xiàn)在多個(gè)類群中的特征性施引文獻(xiàn)作為基礎(chǔ)性或綜合性文獻(xiàn)并刪除。本研究結(jié)果顯示,2008年以來臨床數(shù)據(jù)挖掘的發(fā)展總體呈現(xiàn)如下特點(diǎn):(1)挖掘樣本以文本為主。主要包括EMR、EHR、生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫中的文本信息,但同時(shí)也注重與其他類型信息的結(jié)合,如基因組數(shù)據(jù)以及藥品不良事件自發(fā)申報(bào)系統(tǒng)中信息。(2)挖掘工具以NLP工具為主。由于樣本主要是文本,因此首要工具是NLP工具。(3)面向領(lǐng)域以藥物為主。主要包括用藥信息提取以及藥品不良事件和藥物間相互信號(hào)發(fā)現(xiàn)等。

在對(duì)臨床數(shù)據(jù)挖掘研究熱點(diǎn)的分析中,筆者發(fā)現(xiàn)以領(lǐng)域本體、詞表或特征詞匯為基礎(chǔ),借助NLP等工具,識(shí)別和提取臨床信息,以發(fā)現(xiàn)潛在信息或關(guān)聯(lián),是臨床數(shù)據(jù)挖掘的常規(guī)方法。研究和深入理解臨床各領(lǐng)域的表達(dá)特點(diǎn)對(duì)臨床數(shù)據(jù)挖掘是非常重要的。為此希望能就此展開相關(guān)研究,運(yùn)用已有本體和詞表或構(gòu)建新的相關(guān)本體或詞表,進(jìn)行臨床信息識(shí)別和提取。

1 Epstein I.Clinical Data Mining:integrating practice and research[M].USA:Oxford University Press,2009.

2 崔雷,劉偉,閆雷,等.文獻(xiàn)數(shù)據(jù)庫中書目信息共現(xiàn)挖掘系統(tǒng)的開發(fā)[J].現(xiàn)代圖書情報(bào)技術(shù),2008,(8):70-75.

3 Rasmussen M,Karypis G.gCLUTO-an interactive clustering, visualization, and analysis system[EB/OL].[2014-07-28].http://glaros.dtc.umn.edu/gkhome/node/174.

4 DesRoches CM,Campbell EG,Rao SR,et al.Electronic Health Records in Ambulatory Care——a national survey of physicians[J].N Engl J Med,2008,359(1):50-60.

5 Jha AK,DesRoches CM,Campbell EG,et al.Use of Electronic Health Records in U.S. Hospitals[J].N Engl J Med,2009,360(16):1628-1638.

6 Blumenthal D,Tavenner M.The “Meaningful Use” Regulation for Electronic Health Records[J].N Engl J Med,2010,363(6):501-504.

7 Blumenthal D.Launching HITECH[J].N Engl J Med,2010,362(5):382-385.

8 Kho AN,Pacheco JA,Peissig PL,et al.Electronic Medical Records for Genetic Research: results of the eMERGE consortium[J].Sci Transl Med,2011,3(79):79re1.

9 Gaylin DS,Moiduddin A,Mohamoud S,et al.Public Attitudes about Health Information Technology, and Its Relationship to Health Care Quality, Costs, and Privacy[J].Health Serv Res,2011,46(3):920-938.

10 Zhang M,Shubina M,Morrison F,et al.Following the Money: copy-paste of lifestyle counseling documentation and provider billing[J].BMC Health Serv Res,2013,(13):377.

11 Blavin FE,Buntin MJ,Friedman CP.Alternative Measures of Electronic Health Record Adoption Among Hospitals[J].Am J Manag Care,2010,16(12S HIT):293-301.

12 Frimpong JA,Jackson BE,Stewart LM,et al.Health Information Technology Capacity at Federally Qualified Health Centers: a mechanism for improving quality of care[J].BMC Health Serv Res,2013,(13):35.

13 Aronson AR,Lang FM.An Overview of MetaMap: historical perspective and recent advances[J].J Am Med Inform Assoc,2010,17(3):229-236.

14 Uzuner O,Solti I,Cadag E.Extracting Medication Information from Clinical Text[J].J Am Med Inform Assoc,2010,17(5):514-518.

15 Patrick J,Li M.High Accuracy Information Extraction of Medication Information from Clinical Notes: 2009 i2b2 medication extraction challenge[J].J Am Med Inform Assoc,2010,17(5):524-527.

16 de Bruijn B,Cherry C,Kiritchenko S,et al.Machine-learned Solutions for Three Stages of Clinical Information Extraction: the state of the art at i2b2 2010[J].J Am Med Inform Assoc,2011,18(5):557-562.

17 Savova GK,Masanz JJ,Ogren PV,et al.Mayo Clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications[J].J Am Med Inform Assoc, 2010,17(5):507-513.

18 Harkema H,Dowling JN,Thornblade T,et al.ConText: an algorithm for determining negation, experiencer, and temporal status from clinical reports[J].J Biomed Inform,2009,42(5):839-851.

19 Denny JC,Peterson JF,Choma NN,et al.Extracting Timing and Status Descriptors for Colonoscopy Testing from Electronic Medical Records[J].J Am Med Inform Assoc,2010,17(4):383-388.

20 Harkema H,Chapman WW,Saul M,et al.Developing a Natural Language Processing Application for Measuring the Quality of Colonoscopy Procedures[J].J Am Med Inform Assoc,2011,18(S1):150-156.

21 Garla VN,Brandt C.Knowledge-based Biomedical Word Sense Disambiguation: an evaluation and application to clinical document classification[J].J Am Med Inform Assoc,2013,20(5):882-886.

22 Uzuner O,Goldstein I,Luo Y,et al.Identifying Patient Smoking Status from Medical Discharge Records[J].J Am Med Inform Assoc,2008,15(1):14-24.

23 Savova GK,Ogren PV,Duffy PH,et al.Mayo Clinic NLP System for Patient Smoking Status Identification[J].J Am Med Inform Assoc,2008,15(1):25-28.

24 Uzuner O.Recognizing Obesity and Comorbidities in Sparse Data[J].J Am Med Inform Assoc,2009,16(4):561-570.

25 Murff HJ,FitzHenry F,Matheny ME,et al.Automated Identification of Postoperative Complications within an Electronic Medical Record Using Natural Language Processing[J].J Am Med Assoc,2011,306(8):848-855.

26 Ferrández O,South BR,Shen S,et al.Evaluating Current Automatic De-identification Methods with Veteran's Health Administration Clinical Documents[J].BMC Med Res Methodol,2012,(12):109.

27 Neamatullah I,Douglass MM,Lehman LW,et al.Automated De-identification of Free-text Medical Records[J].BMC Med Inform Decis Mak,2008,(8):32.

28 McMurry AJ,Fitch B,Savova G,et al.Improved De-identification of Physician Notes Through Integrative Modeling of Both Public and Private Medical Text[J].BMC Med Inform Decis Mak,2013,(13):112.

29 Chapman WW,Nadkarni PM,Hirschman L,et al.Overcoming Barriers to NLP for Clinical Text: the role of shared tasks and the need for additional creative solutions[J].J Am Med Inform Assoc,2011,18(5):540-543.

30 Fan JW,Yang EW,Jiang M,et al.Syntactic Parsing of Clinical Text: guideline and corpus development with handling ill-formed sentences[J].J Am Med Inform Assoc,2013,20(6):1168-1177.

31 McCarty CA,Chisholm RL,Chute CG,et al.The eMERGE Network: a consortium of biorepositories linked to electronic medical records data for conducting genomic studies[J].BMC Med Genomics,2011,26:4-13.

32 Roden DM,Pulley JM,Basford MA,et al.Development of a Large-scale De-identified DNA Biobank to Enable Personalized Medicine[J].Clin Pharmacol Ther,2008,84(3):362-369.

33 Ritchie MD,Denny JC,Crawford DC,et al.Robust Replication of Genotype-phenotype Associations Across Multiple Diseases in an Electronic Medical Record[J].Am J Hum Genet,2010,86(4):560-572.

34 Kullo IJ, Fan J,Pathak J,et al.Leveraging Informatics for Genetic Studies: use of the electronic medical record to enable a genome-wide association study of peripheral arterial disease[J]. J Am Med Inform Assoc,2010,17(5):568-574.

35 Kohane IS.Using Electronic Health Records to Drive Discovery in Disease Genomics[J].Nat Rev Genet,2011,12(6):417-428.

36 Denny JC, Ritchie MD, Crawford DC,et al.Identification of Genomic Predictors of Atrioventricular Conduction: using electronic medical records as a tool for genome science[J].Circulation,2010,122(20):2016-2021.

37 Kho AN,Hayes MG,Rasmussen-Torvik L,et al.Use of Diverse Electronic Medical Record Systems to Identify Genetic Risk for Type 2 Diabetes within a Genome-wide Association Study[J].J Am Med Inform Assoc,2012,19(2):212-218.

38 Carroll RJ,Thompson WK,Eyler AE,et al.Portability of an Algorithm to Identify Rheumatoid Arthritis in Electronic Health Records[J].J Am Med Inform Assoc,2012,19(e1):162-169.

39 Kullo IJ,Ding K,Jouni H,A Genome-wide Association Study of Red Blood Cell Traits Using he Electronic Medical Record[J].PLoS One,2010,5(9):13011.

40 Denny JC,Crawford DC,Ritchie MD,et al.Variants Near FOXE1 are Associated with Hypothyroidism and Other Thyroid Conditions: using electronic medical records for genome- and phenome-wide studies[J].Am J Hum Genet,2011,89(4):529-542.

41 Denny JC,Ritchie MD,Basford MA,et al.PheWAS: demonstrating the feasibility of a phenome-wide scan to discover gene-disease associations[J].Bioinformatics,2010,26(9):1205-1210.

42 Heatherly RD,Loukides G,Denny JC,et al.Enabling Genomic-phenomic Association Discovery Without Sacrificing Anonymity[J].PLoS One,2013,8(2):53875.

43 Denny JC,Bastarache L,Ritchie MD,et al.Systematic Comparison of Phenome-wide Association Study of Electronic Medical Record Data and Genome-wide Association Study Data[J].Nat Biotechnol,2013,31(12):1102-1110.

44 Wilke RA,Xu H,Denny JC,et al.The Emerging Role of Electronic Medical Records in Pharmacogenomics[J].Clin Pharmacol Ther,2011,89(3):379-386.

45 Wei WQ,Cronin RM,Xu H,et al.Development and Evaluation of an Ensemble Resource Linking Medications to Their Indications[J].J Am Med Inform Assoc, 2013,20(5):954-961.

46 Chen ES,Hripcsak G,Xu H,et al.Automated Acquisition of Disease Drug Knowledge from Biomedical and Clinical Documents: an initial study[J].J Am Med Inform Assoc,2008,15(1):87-98.

47 Jagannathan V,Mullett CJ,Arbogast JG,et al.Assessment of Commercial NLP Engines for Medication Information Extraction from Dictated Clinical Notes[J].Int J Med Inform,2009,78(4):284-291.

48 Xu H,Stenner SP,Doan S,et al.MedEx: a medication information extraction system for clinical narratives[J].J Am Med Inform Assoc,2010,17(1):19-24.

49 Denny JC,Spickard A,Johnson KB,et al.Evaluation of a method to identify and categorize section headers in clinical documents[J].J Am Med Inform Assoc,2009,16(6):806-815.

50 Doan S,Bastarache L,Klimkowski S,et al.Integrating Existing Natural Language Processing Tools for Medication Extraction from Discharge Summaries[J].J Am Med Inform Assoc,2010,17(5):528-531.

51 Hamon T,Grabar N.Linguistic Approach for Identification of Medication Names and Related Information in Clinical Narratives[J].J Am Med Inform Assoc,2010,17(5):549-554.

52 Deléger L,Grouin C,Zweigenbaum P.Extracting Medical Information from Narrative Patient Records: the case of medication-related information[J].J Am Med Inform Assoc,2010,17(5):555-558.

53 Murphy SN,Weber G,Mendis M,et al.Serving the Enterprise and Beyond with Informatics for Integrating Biology and the Bedside (i2b2)[J].J Am Med Inform Assoc,2010,17(2):124-130.

54 Trifirò G,Pariente A,Coloma PM,et al.Data Mining on Electronic Health Record Databases for Signal Detection in Pharmacovigilance: which events to monitor?[J]Pharmacoepidemiol Drug Saf,2009,18(12):1176-1184.

55 Stang PE,Ryan PB,Racoosin JA,et al.Advancing the Science for Active Surveillance: rationale and design for the observational medical outcomes partnership[J].Ann Intern Med,2010,153(9):600-606.

56 Wang X,Hripcsak G,Markatou M,et al.Active Computerized Pharmacovigilance Using Natural Language Processing, Statistics, and Electronic Health Records: a feasibility study[J].J Am Med Inform Assoc,2009,16(3):328-337.

57 Tatonetti NP,Denny JC,Murphy SN,et al.Detecting Drug Interactions from Adverse-event Reports: interaction between paroxetine and pravastatin increases blood glucose levels[J].Clin Pharmacol Ther,2011,90(1):133-142.

58 Sittig DF,Hazlehurst BL,Brown J,et al.A Survey of Informatics Platforms that Enable Distributed Comparative Effectiveness Research Using Multi-institutional Heterogenous clinical Data[J].Med Care,2012,(50S):S49-59.

59 Haerian K,Varn D,Vaidya S,et al.Detection of Pharmacovigilance-related Adverse Events Using Electronic Health Records and Automated Methods[J].Clin Pharmacol Ther,2012,92(2):228-234.

60 Harpaz R,Vilar S,Dumouchel W,et al.Combing signals from Spontaneous Reports and Electronic Health Records for Detection of Adverse drug Reactions[J].J Am Med Inform Assoc,2013,20(3):413-419.

61 Li Y,Salmasian H,Vilar S,et al.A Method for Controlling Complex Confounding Effects in the Detection of Adverse Drug Reactions Vsing Electronic Health Records[J].J Am Med Inform Assoc,2014,21(2):308-314.

Bibliometrics Analysis on the Hot Spots of Foreign Clinical Data Mining Research

ZHONGXiu-mei,CUILei,

DepartmentofMedicalInformatics,ChinaMedicalUniversity,Shenyang110013,China

In order to find out the hot spots of foreign clinical data mining research in recent years, the paper carries out bibliometric analysis on the literatures included in Web of Science, “the latest high cited literatures-citing literature” citation network is clustered and analyzed, the research hot spots of foreign clinical data mining are summarized, so as to provide references for related research in China.

Clinical data mining; Research hot spots; Bibliometrics

2014-12-31

鐘秀梅,在讀碩士研究生,發(fā)表論文2篇;通訊作者:崔雷,教授,博士生導(dǎo)師。

R-058

A 〔DOI〕10.3969/j.issn.1673-6036.2015.05.012

猜你喜歡
數(shù)據(jù)挖掘聚類領(lǐng)域
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
領(lǐng)域·對(duì)峙
青年生活(2019年23期)2019-09-10 12:55:43
基于DBSACN聚類算法的XML文檔聚類
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于改進(jìn)的遺傳算法的模糊聚類算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
基于GPGPU的離散數(shù)據(jù)挖掘研究
清河县| 阆中市| 西畴县| 大港区| 周至县| 柘城县| 襄汾县| 绥江县| 开封市| 海晏县| 泰兴市| 南川市| 措勤县| 舒城县| 封开县| 剑阁县| 旺苍县| 揭东县| 佛教| 尉氏县| 龙山县| 社旗县| 南靖县| 昆山市| 天水市| 剑川县| 炉霍县| 阳谷县| 化德县| 桦南县| 鄂温| 营山县| 淳安县| 潞西市| 安阳县| 新平| 泌阳县| 沙河市| 驻马店市| 龙州县| 慈利县|