聚類算法在醫(yī)療大數(shù)據(jù)上的應(yīng)用研究

2020-07-22 09:55王艷娥張拓楊倩

電腦知識(shí)與技術(shù) 2020年12期

關(guān)鍵詞：聚類算法

王艷娥張拓楊倩

摘要：隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展，醫(yī)療大數(shù)據(jù)的研究也成為我國(guó)醫(yī)療建設(shè)的重要一環(huán)，聚類能夠挖掘出醫(yī)療大數(shù)據(jù)中潛在隱藏的信息，協(xié)助醫(yī)生、醫(yī)療管理部門、科研所進(jìn)行有效工作。研究分析聚類算法K-means和K-medoids在醫(yī)療大數(shù)據(jù)的應(yīng)用，從優(yōu)化聚類算法降低時(shí)間復(fù)雜度、對(duì)高維醫(yī)療大數(shù)據(jù)進(jìn)行特征提取降低維度、通過(guò)并行處理平臺(tái)加速醫(yī)療數(shù)據(jù)的處理速度方面出發(fā)，闡明聚類算法在醫(yī)療大數(shù)據(jù)的數(shù)據(jù)預(yù)處理、數(shù)據(jù)分類、疾病預(yù)測(cè)等方面都廣泛的應(yīng)用。隨著并行處理平臺(tái)的建設(shè)，聚類算法在醫(yī)療大數(shù)據(jù)的應(yīng)用也將越來(lái)越廣泛。

關(guān)鍵詞：聚類算法;K-means;K-medoids;醫(yī)療大數(shù)據(jù)

中圖分類號(hào)：TP181 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2020）12-0012-02

1聚類與醫(yī)療大數(shù)據(jù)

聚類是數(shù)據(jù)挖掘中無(wú)監(jiān)督學(xué)習(xí)分析數(shù)據(jù)常用的方法之一，通過(guò)聚類能夠挖掘出數(shù)據(jù)集中隱藏的內(nèi)在的聯(lián)系。醫(yī)療大數(shù)據(jù)的研究是我國(guó)醫(yī)療健康必經(jīng)之路，通過(guò)聚類對(duì)醫(yī)療大數(shù)據(jù)進(jìn)行分析，有效挖掘其隱藏的關(guān)聯(lián)為臨床診斷和醫(yī)療研究等提供有效的信息。根據(jù)聚類原理的不同，聚類可分為層次聚類、劃分式聚類、基于密度聚類和基于模型的方法，其中劃分式聚類算法因?yàn)樵砗?jiǎn)單易于實(shí)現(xiàn)得到廣泛的應(yīng)用。劃分式聚類算法是按照相似性和相異性原則將數(shù)據(jù)集劃分為k類。采用劃分式聚類算法分析數(shù)據(jù)時(shí)需要提前知道數(shù)據(jù)集的類數(shù)k，初始情況下，隨機(jī)選擇k個(gè)數(shù)據(jù)作為初始聚類中心，再按照相似行原則將其余數(shù)據(jù)劃分給不同的類，然后根據(jù)優(yōu)化目標(biāo)重新選擇新的聚類中心，直到滿足給定的條件為止。K-means算法和K-medoids算法是劃分式聚類算法的典型代表，其中K-means算法因?yàn)檫\(yùn)行速度快，在醫(yī)療大數(shù)據(jù)的應(yīng)用中得到廣泛的應(yīng)用，K-medoids算法對(duì)噪聲點(diǎn)的處理具有較好的效果也得到廣泛的應(yīng)用。原理簡(jiǎn)單、易實(shí)現(xiàn)得到廣泛的應(yīng)用。

1.1聚類算法

K-means算法和K-medoid算法的算法原理基本相同。K-means算法原理是隨機(jī)選擇K個(gè)數(shù)據(jù)點(diǎn)作為初始聚類中心，再根據(jù)相似性原則進(jìn)行分類，使用同類數(shù)據(jù)的均值作為新的聚類中心，如此不斷迭代，直到滿足聚類目標(biāo)結(jié)束。K-medoids算法原理也是隨機(jī)選擇K個(gè)數(shù)據(jù)作為初始聚類中心，再根據(jù)相似性原則進(jìn)行分類，使用同類中的最接近中心的實(shí)際數(shù)據(jù)作為初始聚類中心，直到滿足聚類目標(biāo)結(jié)束。兩者的相同點(diǎn)是聚類前需要提前告知聚類的類數(shù)K，且初始聚類中心都是隨機(jī)選擇。不同點(diǎn)在是K-means算法在迭代聚類中心是選擇的是同類數(shù)據(jù)的均值，從而導(dǎo)致噪聲點(diǎn)對(duì)聚類結(jié)果的影響大。K-medoid算法在迭代聚類中心是選擇的是實(shí)際的數(shù)據(jù)，使得噪聲點(diǎn)的影響較小。傳統(tǒng)的K-means算法和K-medoids算法因?yàn)槠淙毕?，往往不直接?yīng)用在數(shù)據(jù)處理中，很多研究學(xué)者將這兩種算法進(jìn)行優(yōu)化，再將其使用在醫(yī)療大數(shù)據(jù)中。

1.2醫(yī)療大數(shù)據(jù)

醫(yī)療大數(shù)據(jù)是大數(shù)據(jù)的一種，具有大數(shù)據(jù)的4V特性：Volume體量大、velocity實(shí)時(shí)性、variety多樣性、veracity不確定性。醫(yī)療大數(shù)據(jù)的研究對(duì)我國(guó)臨床醫(yī)療、藥物研究、健康醫(yī)療和基因研究都有著重要的作用。2018年國(guó)家衛(wèi)生健康委印發(fā)了《國(guó)家健康醫(yī)療大數(shù)據(jù)標(biāo)準(zhǔn)、安全和服務(wù)管理辦法（試行）》，對(duì)醫(yī)療健康大數(shù)據(jù)行業(yè)從規(guī)范管理和開(kāi)發(fā)利用的角度出發(fā)進(jìn)行規(guī)范。據(jù)前瞻產(chǎn)業(yè)研究院發(fā)布的《中國(guó)醫(yī)療信息化行業(yè)市場(chǎng)前瞻與投資戰(zhàn)略規(guī)劃分析報(bào)告》統(tǒng)計(jì)數(shù)據(jù)顯示截止至2017年我國(guó)醫(yī)療信息化市場(chǎng)規(guī)模為448億元，同比增長(zhǎng)17.59%。預(yù)測(cè)2019年我國(guó)醫(yī)療信息化市場(chǎng)規(guī)模將接近600億元。醫(yī)療大數(shù)據(jù)的研究是未來(lái)研究的熱點(diǎn)內(nèi)容。

關(guān)于醫(yī)療大數(shù)據(jù)的研究復(fù)雜性主要也是從大數(shù)據(jù)的4V特性出發(fā)。聚類算法在醫(yī)療大數(shù)據(jù)的應(yīng)用涉及醫(yī)療圖像處理、醫(yī)療費(fèi)用分析、疾病預(yù)測(cè)、醫(yī)療數(shù)據(jù)關(guān)鍵性的特征提取等方面。

2聚類算法在醫(yī)療大數(shù)據(jù)中的應(yīng)用

使用聚類算法在處理醫(yī)療大數(shù)據(jù)集，主要的問(wèn)題是醫(yī)療數(shù)據(jù)體量大。但隨著數(shù)據(jù)并行處理的不斷發(fā)展，對(duì)于醫(yī)療大數(shù)據(jù)的可計(jì)算問(wèn)題主要從串行處理和并行處理出發(fā)。其中串行處理主要從優(yōu)化聚類算法提高算法的減少算法運(yùn)行的時(shí)間復(fù)雜度或者通過(guò)分析醫(yī)療大數(shù)據(jù)的屬性，進(jìn)行特征提取方法減少醫(yī)療大數(shù)據(jù)的體量，然后進(jìn)行聚類等;并行處理主要在hadoop環(huán)境性使用Mapreduce、spark或者storm計(jì)算框架進(jìn)行并行處理，實(shí)現(xiàn)對(duì)醫(yī)療大數(shù)據(jù)的聚類分析。

2.1基于串行處理的聚類算法在醫(yī)療大數(shù)據(jù)中的應(yīng)用

文獻(xiàn)[3-9]通過(guò)對(duì)聚類算法進(jìn)行優(yōu)化，提高算法的運(yùn)行速度。文獻(xiàn)[3]將優(yōu)化的k-means算法和K-medoids算法應(yīng)用在紅斑鱗狀皮膚病的數(shù)據(jù)中，在提高聚類算法運(yùn)行速度的同時(shí)提高分析的精確度，分析效果良好。文獻(xiàn)[4]將優(yōu)化的K-means算法應(yīng)用在檢測(cè)膽固醇高低的真實(shí)數(shù)據(jù)集中，優(yōu)化的k-means算法減少時(shí)間復(fù)雜度，使K-means算法應(yīng)用在醫(yī)療大數(shù)據(jù)中，同時(shí)聚類效果良好。文獻(xiàn)[5]在癌胚抗原數(shù)據(jù)中采用優(yōu)化K-means算法，獲取有價(jià)值的診斷信息，協(xié)助癌癥的預(yù)測(cè)和防御。文獻(xiàn)[6]針對(duì)乳腺癌組織病理中的關(guān)鍵因素腺管密度進(jìn)行分析，將k-means算法與隨機(jī)森林分類算法結(jié)合，能夠?qū)θ橄侔┑淖詣?dòng)分類達(dá)到較優(yōu)的效果。文獻(xiàn)[7]針對(duì)醫(yī)學(xué)圖像中含有重要信息的孤立節(jié)點(diǎn)，通過(guò)聚類算法將醫(yī)學(xué)圖片進(jìn)行分割，將相互孤立的結(jié)點(diǎn)轉(zhuǎn)換為直觀有價(jià)值的圖像區(qū)域，實(shí)現(xiàn)對(duì)孤立結(jié)點(diǎn)的處理，解決醫(yī)療圖像中因?yàn)槠诙鴮?duì)影像出現(xiàn)的一些誤診，提高診斷的準(zhǔn)確率。文獻(xiàn)[8]將聚類算法K-means算法應(yīng)用在醫(yī)療費(fèi)的分析中，分析出影響醫(yī)療費(fèi)用的幾個(gè)關(guān)鍵因素，通過(guò)優(yōu)化關(guān)鍵因素，可以是醫(yī)療費(fèi)用的使用更加合理有效。文獻(xiàn)[9]針對(duì)社會(huì)醫(yī)療保險(xiǎn)欺詐行為，通過(guò)K-means算法建立醫(yī)保欺詐識(shí)別的有效模型，有效確認(rèn)醫(yī)保中的欺騙行為。

醫(yī)療數(shù)據(jù)體量大的一個(gè)重要因素是很多醫(yī)療數(shù)據(jù)的維度很高，針對(duì)高維度的醫(yī)療大數(shù)據(jù)可以通過(guò)特征提取減少醫(yī)療數(shù)據(jù)的體量。文獻(xiàn)[10-12]通過(guò)使用聚類算法分析醫(yī)療大數(shù)據(jù)的屬性，針對(duì)預(yù)定的目標(biāo)分析出關(guān)系緊密的屬性，進(jìn)行特征提取，從而減少醫(yī)療大數(shù)據(jù)的體量。文獻(xiàn)[10]針對(duì)醫(yī)療大數(shù)據(jù)中不同屬性具有不同的重要性，將部分對(duì)聚類結(jié)果沒(méi)有或有較少影響的屬性進(jìn)行約簡(jiǎn)，減少醫(yī)療大數(shù)據(jù)的維度，加快醫(yī)療大數(shù)據(jù)的處理速度，同時(shí)提高醫(yī)療大數(shù)據(jù)的處理精度。文獻(xiàn)[11]針對(duì)大腸早癌研究其診斷方法，通過(guò)分析數(shù)據(jù)特征、數(shù)據(jù)預(yù)處理、訓(xùn)練數(shù)據(jù)和分類預(yù)測(cè)等方面進(jìn)行研究，在數(shù)據(jù)特征提取這方面先對(duì)聚類算法進(jìn)行優(yōu)化，再將優(yōu)化的算法應(yīng)用于數(shù)據(jù)集的特征提取中，取得較好效果。文獻(xiàn)[12]針對(duì)醫(yī)療大數(shù)據(jù)的高維度，將聚類算法K-means與粗糙集進(jìn)行結(jié)合，實(shí)現(xiàn)醫(yī)療大數(shù)據(jù)的特征提取，并將算法應(yīng)用在乳腺癌數(shù)據(jù)集中，取得良好的效果。

2.2并行處理平臺(tái)下聚類算法在醫(yī)療大數(shù)據(jù)上的應(yīng)用

文獻(xiàn)[13-15]是基于Hadoop平臺(tái)或Spark平臺(tái)下，對(duì)k-means算法或k-medoids算法進(jìn)行優(yōu)化，處理醫(yī)療大數(shù)據(jù)。文獻(xiàn)[13]針對(duì)我國(guó)醫(yī)療質(zhì)量評(píng)價(jià)體系存在的問(wèn)題，基于X-means進(jìn)行優(yōu)化建立Hadoop平臺(tái)，在面對(duì)大量醫(yī)療數(shù)據(jù)時(shí)能夠快速分析和提高醫(yī)療質(zhì)量評(píng)價(jià)的精確度。文獻(xiàn)[14]針對(duì)K-means算法在Hadoop平臺(tái)上許多次遍歷所有數(shù)據(jù)問(wèn)題，提出優(yōu)化的M+Kmeans算法，該算法對(duì)所有數(shù)據(jù)秩序遍歷一次，從而加快算法的運(yùn)行時(shí)間，便于醫(yī)療大數(shù)據(jù)的處理。文獻(xiàn)[15]構(gòu)建Hadoop平臺(tái)，在該平臺(tái)上對(duì)K-means算法進(jìn)行優(yōu)化，降低算法時(shí)間復(fù)雜度、提高算法精確度，使之能夠?qū)Ａ康臄?shù)據(jù)進(jìn)行分析和處理。隨著并行處理技術(shù)的不斷發(fā)展和平臺(tái)建設(shè)的不斷完善，基于并行處理醫(yī)療大數(shù)據(jù)的聚類算法將會(huì)越來(lái)越多。

3應(yīng)用展望

聚類算法能夠有效挖掘醫(yī)療大數(shù)據(jù)中隱藏的重要信息。隨著國(guó)家對(duì)醫(yī)療數(shù)據(jù)的標(biāo)準(zhǔn)化、醫(yī)療大數(shù)據(jù)平臺(tái)的不斷建設(shè)，聚類算法在并行化處理平臺(tái)上的應(yīng)用將是未來(lái)研究的熱點(diǎn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

聚類算法在醫(yī)療大數(shù)據(jù)上的應(yīng)用研究