国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)PCA約簡(jiǎn)算法的研究

2019-07-08 03:32蔡曉亞張曉群
無(wú)線互聯(lián)科技 2019年8期
關(guān)鍵詞:影響因子

蔡曉亞 張曉群

摘 ? 要:疾病的影響因素有很多,找到關(guān)鍵的影響因子對(duì)于前期疾病預(yù)測(cè)至關(guān)重要。文章數(shù)據(jù)來(lái)源是克利夫蘭基金診療所關(guān)于心臟病診斷的數(shù)據(jù),將樣本數(shù)據(jù)與知識(shí)經(jīng)驗(yàn)的方法相結(jié)合,利用改進(jìn)的PCA對(duì)診斷數(shù)據(jù)進(jìn)行屬性約簡(jiǎn)并計(jì)算主成分權(quán)重,最終提取出關(guān)鍵的影響因子。

關(guān)鍵詞:主成分權(quán)重;PCA法;影響因子

據(jù)2015年的中國(guó)疾病報(bào)告顯示,城鄉(xiāng)居民因心臟病疾病死亡人數(shù)居各種疾病死亡人數(shù)的首位[1],嚴(yán)重威脅著人們的生活。針對(duì)疾病的研究,國(guó)內(nèi)外的專家學(xué)者提出了確定疾病影響因子的概念。所以對(duì)疾病早發(fā)現(xiàn)、早診斷,將成為未來(lái)心臟病治療新方向[2]。

疾病的診斷中需要參考的指標(biāo)項(xiàng)目目前已十分明朗,但是在運(yùn)用計(jì)算機(jī)技術(shù)以及數(shù)學(xué)方法進(jìn)行診斷時(shí),屬性特征個(gè)數(shù)越多診斷越復(fù)雜。在研究疾病影響因子時(shí),提高準(zhǔn)確率是研究的首要問(wèn)題,然而個(gè)體之間存在差異性[3],疾病誘發(fā)因子不盡相同,包括年齡、性別、吸煙情況等,這些疾病影響因子之間是相互聯(lián)系又相互制約的,所以篩選出最少的包含最多信息的因子至關(guān)重要。心臟病屬性約簡(jiǎn)就是通過(guò)一定的方法從原始采集的多項(xiàng)生理特征集合中選擇最具代表性的部分屬性特征,由于屬性特征個(gè)數(shù)越多,越會(huì)影響最后結(jié)果的準(zhǔn)確性,因此屬性約簡(jiǎn)在保證數(shù)據(jù)不失真的前提下篩選掉部分冗余的特征信息來(lái)提高目標(biāo)結(jié)果的準(zhǔn)確性。文章利用主成分分析(Principal Component Analysis,PCA)[4]對(duì)特征集進(jìn)行屬性約簡(jiǎn),并對(duì)主成分分析進(jìn)行了改進(jìn),通過(guò)結(jié)合專家意見(jiàn)計(jì)算主成分權(quán)重,最終獲得約簡(jiǎn)后的主要因子。

1 ? ?一次主成分分析

主成分分析方法是一種統(tǒng)計(jì)分析方法,該方法通過(guò)對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)化,使簡(jiǎn)化的信息能夠以最少的信息量反應(yīng)未簡(jiǎn)化之前的大部分信息。簡(jiǎn)言之,PCA將分量相關(guān)的原始數(shù)據(jù)轉(zhuǎn)化成分量不相關(guān)的數(shù)據(jù),是以較少的綜合指標(biāo)來(lái)代替原來(lái)具有一定相關(guān)性或相制約的較多的指標(biāo)。使用PCA方法能使問(wèn)題變得簡(jiǎn)單,更易處理。

按照傳統(tǒng)PCA算法進(jìn)行一次主成分分析,其主要步驟如下。

(1)構(gòu)造原始特征值矩陣。訓(xùn)練樣本集中共包含n個(gè)樣本數(shù)據(jù),其中,每個(gè)樣本數(shù)據(jù)中含有P個(gè)特征,構(gòu)成n×p的樣本矩陣X。

(2)對(duì)原始特征值做歸一化處理。本文將原始特征值進(jìn)行Z-score標(biāo)準(zhǔn)化,即將樣本矩陣X經(jīng)過(guò)處理得到歸一化特征矩陣。

3 ? ?實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自克利夫蘭基金診療所關(guān)于心臟病診斷的數(shù)據(jù)集,所下載的數(shù)據(jù)集中共包含303例樣例,每個(gè)樣例中包含年齡、性別、是否抽煙、血壓值、運(yùn)動(dòng)等75個(gè)生理特征指標(biāo)。303例樣例中,患有心臟病為139例,另外164例為正常數(shù)據(jù)。按照特征數(shù)據(jù)信息的累積貢獻(xiàn)率≥85%原則,經(jīng)主成分第一次分析處理后,保留了9項(xiàng)生理特征。

這9項(xiàng)生理特征數(shù)據(jù)信息包括年齡C1,性別C2,胸部疼痛類型C3,靜息血壓C4,血清類固醇C5,空腹血糖是否超標(biāo)C6,靜息心電圖結(jié)果C7,最大心率C8,鍛煉時(shí)是否引起心絞痛C9。

在經(jīng)過(guò)第一次的傳統(tǒng)主成分分析后,結(jié)合專家打分對(duì)9項(xiàng)生理特征進(jìn)行二次主成分分析。咨詢5位專家分別對(duì)以上9個(gè)生理特征進(jìn)行打分,分值從1到5,重要程度依次上升。專家打分情況如下所示:

5位專家對(duì)C1打分為:1,2,3,4,5;C2打分為:3,2,3,4,3;C3打分為:2,2,3,4,2;C4打分為:4,5,4,4,4;C5打分為:4,4,5,4,4;C6打分為:4,4,5,4,4;C7打分為:5,5,5,5,5;C8打分為:3,5,4,5,5;C9打分為:5,5,5,5,5。

對(duì)5位專家打分情況經(jīng)過(guò)二次分析即可得指標(biāo)集{age,sex,cpt,rbs,chol,fbs,restecg,thalach,exang};對(duì)應(yīng)的權(quán)重集為{0.058 59,0.050 78,0.089 84,0.082 03,0.082 03,0.082 03,0.097 66,0.085 94,0.097 66}。

根據(jù)以上計(jì)算,取權(quán)重大于0.08以上指標(biāo)作為最終約簡(jiǎn)集。所以,最終對(duì)心臟病的影響因子包括:胸部疼痛類型、靜息血壓、血清類固醇、空腹血糖是否超標(biāo)、靜息心電圖結(jié)果、最大心率、鍛煉時(shí)是否引起心絞痛。

4 ? ?結(jié)語(yǔ)

本文旨在利用醫(yī)療多類型數(shù)據(jù)分析心血管疾病的診斷因素,結(jié)合專家臨床經(jīng)驗(yàn)改進(jìn)的主成分分析方法,確定主成分,并利用專家打分計(jì)算了各個(gè)主成分所占的權(quán)重,最終確定影響心臟病的主要因子,對(duì)今后研究心臟病提供理論支持。

[參考文獻(xiàn)]

[1]陳偉偉,高潤(rùn)霖,劉力生,等.《中國(guó)心血管病報(bào)告2015》概要[J].中國(guó)循環(huán)雜志,2016(6):521-528.

[2]ZHENG Y L,DING X R,POON C C Y,et al.Unobtrusive sensing and wearable devices for health informatics[J].IEEE Trans Bio-Med Eng,2014(5):1538-1554.

[3]周興虎.遼寧省農(nóng)村人群心血管疾病發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)和驗(yàn)證研究[D].沈陽(yáng):中國(guó)醫(yī)科大學(xué),2014.

[4]童星慧.面向冠心病血檢數(shù)據(jù)的函數(shù)型主成分方法研究[D].安慶:安慶師范大學(xué),2016.

猜你喜歡
影響因子
云霧物理生長(zhǎng)過(guò)程及其影響因子的虛擬仿真實(shí)驗(yàn)
多元線性回歸方程預(yù)測(cè)農(nóng)村人均生活垃圾產(chǎn)量
“影響因子”是用來(lái)賺大錢的
南昌县| 右玉县| 河南省| 沙坪坝区| 玉林市| 渑池县| 松原市| 玛纳斯县| 汕头市| 静乐县| 临沂市| 富民县| 乐亭县| 漳州市| 阿坝县| 滁州市| 来凤县| 广州市| 宁强县| 三江| 和田市| 罗城| 都安| 乡城县| 昌宁县| 甘谷县| 垫江县| 永泰县| 文化| 华亭县| 桓台县| 海宁市| 南皮县| 仁怀市| 洞头县| 安康市| 新建县| 东安县| 中方县| 河南省| 驻马店市|