国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)K-means 模糊聚類(lèi)的區(qū)域健康大數(shù)據(jù)智能分析方法研究

2022-10-11 07:36陳嬌花
電子設(shè)計(jì)工程 2022年19期
關(guān)鍵詞:高維粗糙集聚類(lèi)

陳嬌花

(上海中醫(yī)藥大學(xué)附屬第七人民醫(yī)院,上海 200137)

區(qū)域健康數(shù)據(jù)分析指的是對(duì)某一區(qū)域人群的體檢健康數(shù)據(jù)進(jìn)行一定的統(tǒng)計(jì)分析,進(jìn)而對(duì)整個(gè)區(qū)域內(nèi)人群的健康情況和患某種特定疾病風(fēng)險(xiǎn)進(jìn)行預(yù)估[1]。而隨著醫(yī)療數(shù)據(jù)信息化時(shí)代的到來(lái),醫(yī)療數(shù)據(jù)所呈現(xiàn)出的特點(diǎn)是海量化與復(fù)雜化,這些數(shù)據(jù)維度通??梢赃_(dá)到上千維。以上海市為例,當(dāng)前上海常住人口約為2 400 萬(wàn),在亞洲城市中位列第一,60 歲以上老人占據(jù)總?cè)丝诘?5%,其醫(yī)療健康數(shù)據(jù)也達(dá)到了較大的規(guī)模。使用常見(jiàn)的統(tǒng)計(jì)學(xué)方法進(jìn)行數(shù)據(jù)分析效率過(guò)低,因此,需要深入研究智能化的區(qū)域健康數(shù)據(jù)分析方法。

目前,常見(jiàn)的區(qū)域健康數(shù)據(jù)分析方法為數(shù)據(jù)挖掘,其中典型的方法為聚類(lèi)分析法。傳統(tǒng)的K-means聚類(lèi)方法難以處理與分析高維度健康數(shù)據(jù),相對(duì)于誤差和時(shí)間開(kāi)銷(xiāo)均不理想。因此該文對(duì)傳統(tǒng)K-means聚類(lèi)方法進(jìn)行改進(jìn),使其能夠?qū)Ω呔S數(shù)據(jù)進(jìn)行快速、準(zhǔn)確的分析。

1 高維數(shù)據(jù)聚類(lèi)方法

高維數(shù)據(jù)是指數(shù)據(jù)屬性數(shù)量較多的數(shù)據(jù),此時(shí)數(shù)據(jù)集合中的橫向維度就會(huì)變得非常繁冗,這會(huì)對(duì)數(shù)據(jù)處理造成運(yùn)算量的大幅激增。在聚類(lèi)算法中,對(duì)高維數(shù)據(jù)進(jìn)行聚類(lèi)有三種方法:1)使用傳統(tǒng)方法直接對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練;2)對(duì)冗余的屬性進(jìn)行相應(yīng)的篩選,從而簡(jiǎn)化屬性;3)利用收縮法,采用各種正則化因子對(duì)隸屬函數(shù)進(jìn)行約束。

在傳統(tǒng)算法中,K-means、C-means 算法的使用均較為廣泛。雖然傳統(tǒng)算法簡(jiǎn)便快捷,而且這些算法對(duì)低維數(shù)據(jù)的處理程度較好,但是它們對(duì)于高維數(shù)據(jù)的處理通常會(huì)表現(xiàn)得比較吃力[2-3]。

屬性簡(jiǎn)化算法中大多使用粗糙集理論[4],其通過(guò)已知的數(shù)據(jù)庫(kù)對(duì)現(xiàn)有不確定樣本數(shù)據(jù)庫(kù)中的內(nèi)容進(jìn)行刻畫(huà),這種算法可以大幅度地縮短運(yùn)算時(shí)間。

正則化因子的算法主要是確定回歸變量,例如文獻(xiàn)[5]中的算法,可以在一定程度上提升聚類(lèi)的效果。但這種方法針對(duì)性較強(qiáng),對(duì)不同類(lèi)型的數(shù)據(jù)需要不同類(lèi)型的正則化因子,且魯棒性較差。

因此,該文將使用屬性簡(jiǎn)化算法完成高維數(shù)據(jù)的智能化分析。

2 結(jié)合粗糙集模糊理論的K-means算法設(shè)計(jì)

2.1 K-means聚類(lèi)算法

K-means 聚類(lèi)算法是無(wú)監(jiān)督聚類(lèi)算法的代表,主要思想是將多個(gè)樣本數(shù)據(jù)集聚類(lèi)為K個(gè)簇[6-7],并將每個(gè)樣本分配到距離其簇最近的集合中。樣本值距離中心值越遠(yuǎn),則意味著該值偏離平均值的幅度越大。

假設(shè)樣本數(shù)據(jù)集合為X,該數(shù)據(jù)集合中包含有n個(gè)數(shù)據(jù),則該集合如式(1)所示:

該文使用的數(shù)據(jù)為區(qū)域人群健康數(shù)據(jù),因此每個(gè)樣本均為高維數(shù)據(jù),設(shè)其維度為m。然后確定數(shù)據(jù)集合的聚類(lèi)中心,假設(shè)個(gè)數(shù)為k,則聚類(lèi)中心集合為Ci={C1,C2…Ck}。最終,計(jì)算樣本集數(shù)據(jù)到聚類(lèi)中心集合間的歐氏距離D(xi,ci)為:

評(píng)價(jià)聚類(lèi)效果的指標(biāo)為誤差平方和,該指標(biāo)表示樣本數(shù)據(jù)集簇中的數(shù)據(jù)與中心數(shù)據(jù)之間的密集程度,定義SSE 和誤差平方的表達(dá)式為分別:

由式(2)和式(3)可以看出,當(dāng)數(shù)據(jù)維數(shù)較低或數(shù)據(jù)每個(gè)維度的特征均較為重要時(shí),K-means 聚類(lèi)方法快速、有效。但當(dāng)數(shù)據(jù)維度較高時(shí),數(shù)據(jù)某些核心維度的特征就會(huì)被掩蓋,這樣不利于后續(xù)數(shù)據(jù)的處理。因此,需要對(duì)高維數(shù)據(jù)進(jìn)行降維,或使用對(duì)應(yīng)算法對(duì)數(shù)據(jù)進(jìn)行處理。

2.2 模糊聚類(lèi)理論

模糊聚類(lèi)相比于K-means 聚類(lèi)算法多加入了隸屬度函數(shù)[8-9],這可以有效地提高K-means 算法在處理多維數(shù)據(jù)集時(shí)的特征掩蓋問(wèn)題。

假設(shè)樣本數(shù)據(jù)集合為X={X1,X2,…,Xn},則設(shè)定最小化目標(biāo)函數(shù)應(yīng)為:

式中,F(xiàn)為最小化目標(biāo)函數(shù),C為聚類(lèi)中心個(gè)數(shù),||vi-Xm||表示樣本數(shù)據(jù)中第m個(gè)數(shù)據(jù)到第i個(gè)聚類(lèi)中心的歐氏距離,k為加權(quán)的系數(shù),μim表示隸屬度函數(shù)。模糊聚類(lèi)算法的執(zhí)行流程如圖1 所示。

圖1 模糊聚類(lèi)算法執(zhí)行流程

2.3 粗糙集模型構(gòu)建

粗糙集理論算法的主要思想就是將現(xiàn)有不確定的樣本數(shù)據(jù)庫(kù)通過(guò)已知數(shù)據(jù)庫(kù)中的內(nèi)容進(jìn)行刻畫(huà)。從本質(zhì)上來(lái)說(shuō),就是將不確定的數(shù)據(jù)確定化,這樣就可以保證在系統(tǒng)分類(lèi)效果恒定的基礎(chǔ)上,對(duì)多維數(shù)據(jù)進(jìn)行降維簡(jiǎn)化,從而解決問(wèn)題[10-12]。

使用粗糙集對(duì)K-means 算法進(jìn)行優(yōu)化,則第i個(gè)聚類(lèi)中心中的數(shù)據(jù)xi的密度函數(shù)如下所示:

式中,δ表示鄰域半徑,其表達(dá)式為:

而樣本數(shù)據(jù)xi的權(quán)重應(yīng)為:

則可求得每個(gè)簇的中心點(diǎn),如式(9)所示:

由此可以看到,使用粗糙集合理論對(duì)數(shù)據(jù)進(jìn)行處理,可去除高維數(shù)據(jù)集合中的某些冗余屬性。因此需要對(duì)數(shù)據(jù)屬性中的權(quán)重值進(jìn)行計(jì)算和確立,這樣可以使數(shù)據(jù)聚類(lèi)得到的結(jié)果更加客觀,權(quán)重公式如下所示:

因此,若數(shù)據(jù)集合中數(shù)據(jù)的維度為b,則此時(shí)加權(quán)得到的歐式距離應(yīng)為:

然后,從整體決策對(duì)多維數(shù)據(jù)進(jìn)行屬性簡(jiǎn)化,假設(shè)輸入為b維的數(shù)據(jù)集合X,簇的個(gè)數(shù)為K,則簡(jiǎn)化步驟應(yīng)為:

1)使用上述理論對(duì)b維數(shù)據(jù)集合進(jìn)行數(shù)據(jù)清洗處理,此時(shí)即可得到b維的清洗數(shù)據(jù)集合X-Re,然后使用權(quán)重公式對(duì)b維數(shù)據(jù)集合的權(quán)重進(jìn)行計(jì)算;

2)由式(11)計(jì)算出數(shù)據(jù)的加權(quán)距離,得到簇的個(gè)數(shù)K;

3)對(duì)每個(gè)維度數(shù)據(jù)的權(quán)重和簇中心點(diǎn)位置進(jìn)行循環(huán)更新;

4)當(dāng)簇中心點(diǎn)位置不變時(shí),步驟結(jié)束,否則循環(huán)步驟3),直到簇中心點(diǎn)位置不變?yōu)橹埂?/p>

2.4 模型構(gòu)建

該文構(gòu)建的結(jié)合粗糙集模糊理論的聚類(lèi)模型思想就是通過(guò)粗糙集確定多維數(shù)據(jù)的權(quán)重,進(jìn)而提高聚類(lèi)精度。同時(shí),通過(guò)模糊理論提升了聚類(lèi)模型的聚類(lèi)效果。

首先,使用模糊聚類(lèi)模型對(duì)樣本數(shù)據(jù)集合的聚類(lèi)中心個(gè)數(shù)進(jìn)行確定;然后,對(duì)加權(quán)系數(shù)值進(jìn)行初始化和計(jì)算。使用粗糙集理論對(duì)數(shù)據(jù)集合屬性進(jìn)行簡(jiǎn)化,同時(shí)結(jié)合模糊理論對(duì)隸屬度函數(shù)進(jìn)行更新。不斷重復(fù)該過(guò)程,直到聚類(lèi)中心位置不變即可停止。該文總體模型執(zhí)行流程圖如圖2 所示。

圖2 總體模型執(zhí)行流程圖

2.5 效果指標(biāo)

聚類(lèi)分析中主要使用效果指標(biāo)對(duì)模型性能的優(yōu)劣進(jìn)行評(píng)價(jià)。通常使用的指標(biāo)為外部指標(biāo)或內(nèi)部指標(biāo),外部指標(biāo)反映的是聚類(lèi)結(jié)果與實(shí)際數(shù)據(jù)聚類(lèi)之間的偏離程度;內(nèi)部指標(biāo)反映的是在實(shí)際數(shù)據(jù)聚類(lèi)效果未知的情況下,模型聚類(lèi)效果的優(yōu)劣。

外部指標(biāo)使用β指標(biāo)[13-16],如式(12)所示:

內(nèi)部指標(biāo)使用S指標(biāo),該指標(biāo)可以對(duì)數(shù)據(jù)的屬性進(jìn)行評(píng)價(jià),指標(biāo)的定義如式(13)所示:

由式(13)可知,S的值越趨近于1,表征算法的聚類(lèi)效果越好。

3 實(shí)驗(yàn)分析

文中構(gòu)建的模型可通過(guò)分析區(qū)域人群的健康多維數(shù)據(jù)對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析,并能夠判斷出區(qū)域人群患病風(fēng)險(xiǎn),進(jìn)而采取措施加強(qiáng)防范。

3.1 數(shù)據(jù)處理與環(huán)境配置

該文數(shù)據(jù)來(lái)源于開(kāi)源的健康普查數(shù)據(jù)集合,數(shù)據(jù)環(huán)境的配置如表1 所示,該數(shù)據(jù)集合所包含數(shù)據(jù)的維度較大,對(duì)于慢性病的診斷與分析均有較好的應(yīng)用價(jià)值。同時(shí)可以選擇不同地區(qū)的人群進(jìn)行分析,文中選擇上海浦東新區(qū)的60 歲以上老年人口的健康數(shù)據(jù)進(jìn)行分析。由統(tǒng)計(jì)資料顯示,該地區(qū)60 歲以上老人數(shù)量約為100萬(wàn)人,約占上海老年人口的20%,因此分析該地區(qū)健康數(shù)據(jù)具有顯著意義。

表1 數(shù)據(jù)環(huán)境配置

3.2 算法精確度測(cè)試

為了對(duì)該文模型算法的精確度進(jìn)行驗(yàn)證,文中使用多個(gè)對(duì)比算法對(duì)準(zhǔn)確度進(jìn)行分析,對(duì)比算法為傳統(tǒng)K-means 算法、傳統(tǒng)模糊聚類(lèi)算法以及DSSC 參數(shù)相似度算法。使用以上算法在相同的數(shù)據(jù)集合中進(jìn)行50 次對(duì)比實(shí)驗(yàn),最終取準(zhǔn)確率的平均值。同時(shí)也對(duì)聚類(lèi)效果指標(biāo)進(jìn)行計(jì)算,結(jié)果如表2 所示。

表2 算法準(zhǔn)確率對(duì)比實(shí)驗(yàn)

由表2 中的結(jié)果可以看出,在準(zhǔn)確率測(cè)試中,所有算法對(duì)于低維的數(shù)據(jù)集合聚類(lèi)準(zhǔn)確度均較高,但對(duì)于高維數(shù)據(jù)均偏低。該文算法在高維數(shù)據(jù)中有較好的表現(xiàn),相較其他算法準(zhǔn)確率提高了約5%。在聚類(lèi)效果的測(cè)試中,指標(biāo)β值和S值也有較大的優(yōu)勢(shì)。這說(shuō)明文中算法模型在處理高維數(shù)據(jù)時(shí),具有較好的準(zhǔn)確度和優(yōu)良的效果。

3.3 算法時(shí)間測(cè)試

除了準(zhǔn)確度之外,算法所花費(fèi)時(shí)間也是算法性能的重要衡量指標(biāo)之一。在聚類(lèi)算法中,算法所花費(fèi)時(shí)間主要是簇中心的位置更迭。在處理維度較高的數(shù)據(jù)時(shí),算法的執(zhí)行時(shí)間會(huì)大幅度增加。該文使用對(duì)比算法對(duì)花費(fèi)時(shí)間進(jìn)行測(cè)試,模型運(yùn)行次數(shù)為50 次,取運(yùn)行時(shí)間的平均值,得到的結(jié)果如表3所示。

表3 算法運(yùn)行時(shí)間對(duì)比

從表3 的實(shí)驗(yàn)數(shù)據(jù)可以看出,無(wú)論數(shù)據(jù)集的維度如何,該文算法在數(shù)據(jù)處理效率方面均較為理想??梢钥吹剑m然在處理低維數(shù)據(jù)集時(shí),由于所提算法中的屬性簡(jiǎn)化需要耗費(fèi)一定的時(shí)間開(kāi)銷(xiāo),故而造成運(yùn)行時(shí)間略長(zhǎng)。但在高維數(shù)據(jù)執(zhí)行過(guò)程中,文中算法執(zhí)行時(shí)間大幅度優(yōu)于傳統(tǒng)算法,這說(shuō)明屬性簡(jiǎn)化在算法執(zhí)行時(shí)間中起著決定性的作用,使該文算法相較于傳統(tǒng)算法在執(zhí)行時(shí)間方面縮短了約50%。

由文中的準(zhǔn)確率和執(zhí)行時(shí)間實(shí)驗(yàn)可以看出,對(duì)于高維數(shù)據(jù)集合的聚類(lèi),引入模糊理論和粗糙集理論后,算法在聚類(lèi)效果以及執(zhí)行時(shí)間方面相較傳統(tǒng)算法均有較為明顯的提高,因此該文所提出的改進(jìn)K-means 算法對(duì)高維數(shù)據(jù)的聚類(lèi)更有針對(duì)性。

4 結(jié)束語(yǔ)

對(duì)區(qū)域人群的健康多維數(shù)據(jù)進(jìn)行深入分析,可以判斷出區(qū)域人群患病風(fēng)險(xiǎn),進(jìn)而采取措施加強(qiáng)防范。該文針對(duì)聚類(lèi)分析方法的不足,基于模糊理論和粗糙集理論構(gòu)建了區(qū)域健康數(shù)據(jù)分析模型,模型通過(guò)簡(jiǎn)化屬性數(shù)量進(jìn)而提高聚類(lèi)效果。測(cè)試結(jié)果表明,文中模型的精度和效率指標(biāo)均優(yōu)于其他對(duì)比算法,表明該文所構(gòu)建的模型滿足系統(tǒng)需求。

猜你喜歡
高維粗糙集聚類(lèi)
基于隸屬函數(shù)的模糊覆蓋粗糙集新模型
基于相關(guān)子空間的高維離群數(shù)據(jù)檢測(cè)算法
基于數(shù)據(jù)降維與聚類(lèi)的車(chē)聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用
我國(guó)實(shí)現(xiàn)高噪聲環(huán)境下高效高維量子通信
我科學(xué)家實(shí)現(xiàn)高效的高維量子隱形傳態(tài)
基于模糊聚類(lèi)和支持向量回歸的成績(jī)預(yù)測(cè)
高維洲作品欣賞
基于密度的自適應(yīng)搜索增量聚類(lèi)法
基于粗集決策規(guī)則性質(zhì)的研究
一種基于改進(jìn)的層次分析法的教師教學(xué)質(zhì)量評(píng)價(jià)模型
鹤壁市| 曲松县| 邢台县| 驻马店市| 武强县| 扎鲁特旗| 克拉玛依市| 邵阳县| 化州市| 大安市| 都兰县| 当涂县| 曲松县| 蓝山县| 苏尼特右旗| 大渡口区| 都兰县| 曲阳县| 甘南县| 英德市| 胶州市| 衡阳市| 汤阴县| 望江县| 凉城县| 洛浦县| 都匀市| 大田县| 宁夏| 马尔康县| 清镇市| 博兴县| 大关县| 林甸县| 夏河县| 瓦房店市| 西林县| 乌什县| 和田县| 沙河市| 法库县|