數(shù)據(jù)挖掘在醫(yī)學(xué)大數(shù)據(jù)研究中的應(yīng)用

2018-08-27 10:45:38孫雪松王曉麗

中國(guó)信息化周報(bào) 2018年21期

關(guān)鍵詞：數(shù)據(jù)挖掘關(guān)聯(lián)預(yù)警

孫雪松王曉麗

醫(yī)院信息化的發(fā)展及云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等在醫(yī)療領(lǐng)域的應(yīng)用，為醫(yī)學(xué)數(shù)據(jù)的獲取、存儲(chǔ)及處理提供了極大便利。數(shù)據(jù)挖掘也隨著計(jì)算機(jī)技術(shù)得到了廣泛應(yīng)用，從而提高了數(shù)據(jù)利用效率，拓展了知識(shí)發(fā)現(xiàn)的廣度與深度。目前，醫(yī)院已積累了大量醫(yī)療相關(guān)數(shù)據(jù)。醫(yī)學(xué)大數(shù)據(jù)與數(shù)據(jù)挖掘的結(jié)合，能夠幫助人們從存儲(chǔ)的大體量、高復(fù)雜的醫(yī)學(xué)數(shù)據(jù)中提取有價(jià)值信息，加速醫(yī)學(xué)成果轉(zhuǎn)化，為醫(yī)療行業(yè)開(kāi)拓新的時(shí)代。

數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)中，提取隱含在其中的人們事先未知、潛在的有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘已有較多成熟方法，并在醫(yī)學(xué)大數(shù)據(jù)挖掘中取得了一定成果。

數(shù)據(jù)挖掘分類及常用算法

預(yù)測(cè)型數(shù)據(jù)挖掘是從歷史數(shù)據(jù)中發(fā)現(xiàn)的已知結(jié)果，推斷或預(yù)測(cè)未知數(shù)據(jù)的可能值，有預(yù)測(cè)和回歸兩種類型。常用算法有線性回歸、Logistic回歸、K-NN算法、決策樹(shù)（DT）、人工神經(jīng)網(wǎng)絡(luò)（ANN）、支持向量機(jī)（SVM）及各種集成算法等。

回歸是指確定響應(yīng)變量和一個(gè)或多個(gè)自變量之間依賴關(guān)系以構(gòu)建預(yù)測(cè)模型。Kirkland等利用Logistic回歸建立模型，對(duì)采集的病人臨床指標(biāo)等數(shù)據(jù)建立了疾病惡化預(yù)警模型，可對(duì)病人未來(lái)2-12小時(shí)可能出現(xiàn)的疾病惡化風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。

分類是指基于已知所屬類別的歷史數(shù)據(jù)的特征描述預(yù)先定義好的類別，構(gòu)建預(yù)測(cè)類別的模型，再根據(jù)待查數(shù)據(jù)的相關(guān)特征與這些類別相應(yīng)特征之間的相似程度，確定待查數(shù)據(jù)應(yīng)劃歸的類別，可用于預(yù)測(cè)性研究。

描述型數(shù)據(jù)挖掘是識(shí)別數(shù)據(jù)中的模式或關(guān)系，旨在探索被分析數(shù)據(jù)的內(nèi)在性質(zhì)，常用方法有關(guān)聯(lián)規(guī)則、序列規(guī)則和聚類。

關(guān)聯(lián)規(guī)則通過(guò)從大量數(shù)據(jù)中，發(fā)現(xiàn)數(shù)據(jù)之間某些未知的、潛在的且有實(shí)際意義的關(guān)聯(lián)或聯(lián)系，并以關(guān)聯(lián)規(guī)則的形式表現(xiàn)出來(lái)。關(guān)聯(lián)規(guī)則應(yīng)用于醫(yī)學(xué)研究，可以從醫(yī)療信息中揭示疾病發(fā)生、發(fā)展規(guī)律以及醫(yī)學(xué)診斷、醫(yī)學(xué)圖像、癥狀與用藥等某些內(nèi)在聯(lián)系，為疾病診斷和健康管理提供參考。李準(zhǔn)等基于Apriori算法，對(duì)某綜合性醫(yī)院電子病歷中不同的冠心病診斷結(jié)果與用藥情況進(jìn)行關(guān)聯(lián)規(guī)則挖掘，發(fā)現(xiàn)不同藥品對(duì)不同診斷的治療效果及冠心病危險(xiǎn)因素。Qin Li等將Apriori算法用于高血壓、房顫、血脂異常等8項(xiàng)高風(fēng)險(xiǎn)因素與中風(fēng)之間關(guān)聯(lián)性挖掘，提供了可行的中風(fēng)預(yù)防、早期診斷和早期治療方式。

序列規(guī)則可挖掘相對(duì)時(shí)間或其他模式出現(xiàn)頻率較高的模式，通過(guò)對(duì)時(shí)間序列數(shù)據(jù)挖掘，可獲得與時(shí)間密切相關(guān)的信息，實(shí)現(xiàn)知識(shí)獲取。王晨等將非線性時(shí)間序列分析中的算法引入胎兒心電信號(hào)處理，成功實(shí)現(xiàn)胎兒心電信號(hào)與母體生物電信號(hào)的分離，對(duì)提高胎兒心電監(jiān)護(hù)有很好的輔助作用。馮冰等認(rèn)為時(shí)間序列在預(yù)測(cè)傳染病發(fā)病中較好的效果，并建立了兩種季節(jié)時(shí)間序列模型對(duì)某市細(xì)菌性痢疾月發(fā)病率預(yù)測(cè)效果進(jìn)行對(duì)比研究，預(yù)測(cè)效果與實(shí)際情況基本一致。

聚類可將整個(gè)數(shù)據(jù)集分成幾個(gè)數(shù)據(jù)組，屬于同一組的實(shí)例盡可能地相似，而屬于不同組的實(shí)例則盡可能不同，常用算法如K-means和TwoStep等。張勃等將K-means應(yīng)用于冠脈光學(xué)相干斷層成像的圖像斑塊分割，實(shí)現(xiàn)多區(qū)域斑塊精確分割，為醫(yī)生快速精確地讀取圖像和評(píng)估患者病情提供依據(jù)。TwoStep相比其他聚類的一個(gè)突出優(yōu)點(diǎn)是，能夠自動(dòng)選擇最佳分組數(shù)而無(wú)需預(yù)先設(shè)置。

數(shù)據(jù)挖掘的過(guò)程

數(shù)據(jù)挖掘過(guò)程大致包括6個(gè)步驟：數(shù)據(jù)選擇、數(shù)據(jù)清洗、數(shù)據(jù)賦值、數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)挖掘和結(jié)果解釋與評(píng)估。數(shù)據(jù)選擇包括數(shù)據(jù)源、數(shù)據(jù)類型、特征變量等的選擇，其中，特征變量選擇至關(guān)重要，許多分析建模探索往往始于數(shù)以百計(jì)甚至更多的變量。但通常來(lái)說(shuō)，只有少數(shù)變量真正與目標(biāo)變量有關(guān)，有助于降低模型訓(xùn)練時(shí)間和存儲(chǔ)空間，提高模型的精度。研究者在建立預(yù)警模型時(shí)，以Logistic回歸從眾多變量中篩選了特異性較高的變量用于模型建立。

數(shù)據(jù)挖掘在醫(yī)學(xué)大數(shù)據(jù)

研究中的應(yīng)用

數(shù)據(jù)挖掘在醫(yī)學(xué)大數(shù)據(jù)研究中已取得了較多成果，通過(guò)文獻(xiàn)檢索，總結(jié)了三方面的應(yīng)用現(xiàn)狀。

疾病早期預(yù)警？醫(yī)療領(lǐng)域往往需要更精確的實(shí)時(shí)預(yù)警工具，而基于數(shù)據(jù)挖掘的疾病早期預(yù)警模型的建立，有助于提高疾病的早期診斷、預(yù)警和監(jiān)護(hù)，同時(shí)，也有利于醫(yī)療機(jī)構(gòu)采取預(yù)防和控制措施，減少疾病惡化及并發(fā)癥的發(fā)生。

疾病早期預(yù)警。首先要收集與疾病相關(guān)的指標(biāo)數(shù)據(jù)或危險(xiǎn)因素，然后建立模型，從而發(fā)現(xiàn)隱含在數(shù)據(jù)之中的發(fā)病機(jī)制和病情之間的聯(lián)系。Forkan等采集日常監(jiān)測(cè)的心率、舒張壓、收縮壓、平均血壓、呼吸率、血氧飽和度等生命體征數(shù)據(jù)，以J48決策樹(shù)、隨機(jī)森林樹(shù)及序列最小優(yōu)化算法等建立疾病預(yù)警模型，用于遠(yuǎn)程家庭監(jiān)測(cè)，識(shí)別未曾診斷過(guò)的疾病發(fā)生，并將監(jiān)測(cè)結(jié)果發(fā)送到醫(yī)療急救機(jī)構(gòu)，實(shí)現(xiàn)生命體征大數(shù)據(jù)、病人及醫(yī)療機(jī)構(gòu)的完整銜接，以降低突發(fā)疾病及死亡的發(fā)生率。Easton等利用貝葉斯分類算法建立了中風(fēng)后遺癥死亡預(yù)測(cè)模型，認(rèn)為中風(fēng)后遺癥死亡概率與中風(fēng)發(fā)生后的時(shí)間長(zhǎng)短成函數(shù)關(guān)系，有助于中風(fēng)后遺癥患者的后續(xù)監(jiān)護(hù)。Tayefi等基于決策樹(shù)算法建立了冠心病預(yù)測(cè)模型，該模型發(fā)現(xiàn)hs-CRP作為新的冠心病預(yù)測(cè)標(biāo)志物，比傳統(tǒng)的標(biāo)志物更具特異性。

糖尿病、高血壓、心血管疾病等慢性病正在影響著人們的健康，識(shí)別慢性病危險(xiǎn)因素并建立預(yù)警模型有助于降低慢性疾病并發(fā)癥的發(fā)生。Alagugowr等建立的心臟病預(yù)警系統(tǒng)，從心臟病大數(shù)據(jù)庫(kù)中提取特征指標(biāo)，通過(guò)K-means聚類算法識(shí)別出心臟病危險(xiǎn)因素，又以Apriori算法挖掘高頻危險(xiǎn)因素與心臟病危險(xiǎn)等級(jí)之間的關(guān)聯(lián)規(guī)則。Ilayaraja等則以高頻項(xiàng)集尋找心臟病危險(xiǎn)因素并識(shí)別病人風(fēng)險(xiǎn)程度，該方法能夠回避無(wú)意義項(xiàng)集的產(chǎn)生，從而解決以往研究中項(xiàng)集數(shù)量多、所需存儲(chǔ)空間大等問(wèn)題。CH Jen等對(duì)慢性疾病并發(fā)癥風(fēng)險(xiǎn)識(shí)別的研究分三個(gè)步驟。首先，選擇健康人群體檢數(shù)據(jù)和慢性病患者相關(guān)疾病數(shù)據(jù)，以帶有序列前項(xiàng)選擇的線性判別分析來(lái)尋找相關(guān)疾病的特征變量；然后，以K-NN對(duì)特征變量進(jìn)行分類處理；最后，將K-NN算法的分類結(jié)果應(yīng)用于慢性疾病預(yù)警模型的建立。Aljumah等先后以回歸分析和SVM用于預(yù)測(cè)和判斷糖尿病不同治療方式與不同年齡組之間的最佳匹配，為患者選擇最佳治療方式提供依據(jù)。Perveen等對(duì)糖尿病的預(yù)測(cè)研究，采用患者人口學(xué)數(shù)據(jù)和臨床指標(biāo)數(shù)據(jù)，并分別用Adaboost集成算法、Bagging算法及決策樹(shù)三種算法來(lái)建立預(yù)測(cè)模型，認(rèn)為Adaboost集成算法的精確性更高。

輔助醫(yī)學(xué)診斷，醫(yī)學(xué)數(shù)據(jù)不僅體量大，而且錯(cuò)綜復(fù)雜、相互關(guān)聯(lián)。對(duì)大量醫(yī)學(xué)數(shù)據(jù)的分析，挖掘出有價(jià)值的診斷規(guī)則，將對(duì)疾病診斷提供參考。Yang等基于決策樹(shù)算法和Apriori算法，對(duì)肺癌病理報(bào)告與臨床信息之間的關(guān)聯(lián)性進(jìn)行了研究，為肺癌病理分期診斷提供依據(jù)，從而可回避診斷中需要手術(shù)方法獲取病理組織。Becerra-Garcia等應(yīng)用SVM、K-NN和CART三種算法對(duì)眼球電圖進(jìn)行信號(hào)預(yù)處理、脈沖檢測(cè)和脈沖分類，為研究臨床眼球電圖檢查中非自發(fā)掃視眼球運(yùn)動(dòng)的識(shí)別提供依據(jù)。彭玉蘭等對(duì)某醫(yī)院5年的乳腺超聲數(shù)據(jù)進(jìn)行了關(guān)聯(lián)規(guī)則挖掘，建立乳腺病理診斷與超聲診斷之間的關(guān)聯(lián)規(guī)則，并開(kāi)發(fā)了乳腺超聲數(shù)據(jù)庫(kù)數(shù)據(jù)檢索系統(tǒng)，便于醫(yī)生快速獲得超聲診斷和病理診斷的各種診斷信息和病例信息。

麥肯錫在其報(bào)告中指出，大數(shù)據(jù)分析可以幫助美國(guó)醫(yī)療服務(wù)業(yè)一年創(chuàng)造3000億美元的附加價(jià)值，而美國(guó)醫(yī)療協(xié)會(huì)也稱，改善醫(yī)療衛(wèi)生事業(yè)的關(guān)鍵在于大數(shù)據(jù)。目前，醫(yī)院大數(shù)據(jù)中心、區(qū)域性衛(wèi)生信息平臺(tái)、國(guó)家醫(yī)療大數(shù)據(jù)中心的建立以及衛(wèi)生信息互聯(lián)互通標(biāo)準(zhǔn)和共享規(guī)范的制定，為數(shù)據(jù)存儲(chǔ)和共享、推動(dòng)醫(yī)學(xué)大數(shù)據(jù)的應(yīng)用提供了更多支撐。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)據(jù)挖掘在醫(yī)學(xué)大數(shù)據(jù)研究中的應(yīng)用