国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于風(fēng)險處理機(jī)制的醫(yī)療數(shù)據(jù)挖掘算法研究

2014-08-16 01:08:46范爍楠
關(guān)鍵詞:數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)挖掘病情

范爍楠

(廣東省第二中醫(yī)院,廣東 廣州510095)

近年來,針對醫(yī)療IT信息化系統(tǒng)產(chǎn)生的海量數(shù)據(jù)信息無法得到高效利用的問題,為了提高醫(yī)療IT系統(tǒng)中對病情數(shù)據(jù)信息的高效深度控制,國內(nèi)外學(xué)者們做了深入研究與分析,提出一系列醫(yī)療數(shù)據(jù)處理算法,形成一些新型的、高效的醫(yī)療數(shù)據(jù)挖掘結(jié)構(gòu)模型,例如應(yīng)用于醫(yī)療結(jié)構(gòu)診斷分析的C4.5決策控制樹算法。然而過于精確地衡量尺碼的缺陷阻礙了此算法在醫(yī)療IT系統(tǒng)數(shù)據(jù)挖掘領(lǐng)域的應(yīng)用與拓展。另一種是在醫(yī)療數(shù)據(jù)挖掘領(lǐng)域研究較深的關(guān)聯(lián)規(guī)則算法,此算法的原理是利用不同特征關(guān)系的數(shù)據(jù)信息規(guī)則項進(jìn)行挖掘研究,現(xiàn)已廣泛應(yīng)用于醫(yī)學(xué)臨床領(lǐng)域。目前典型的關(guān)聯(lián)規(guī)則算法主要有Apriori和FP-growth方法。但在低符合率的條件下,關(guān)聯(lián)規(guī)則算法會產(chǎn)生過多無用或冗余規(guī)則信息,而且存在可識別程度與效率過低的問題。

目前,基于安全風(fēng)險參數(shù)與比值概率的醫(yī)療數(shù)據(jù)挖掘也已經(jīng)應(yīng)用于IT系統(tǒng)模型中。在此前提下,參考文獻(xiàn)[1-2]都已設(shè)計出基于最優(yōu)化安全風(fēng)險結(jié)構(gòu)模型數(shù)據(jù)挖掘算法,然而其缺陷都是冗余數(shù)據(jù)信息過多,且數(shù)據(jù)模型與信息展示過于復(fù)雜。

在上述研究成果的基礎(chǔ)之上,本文設(shè)計出一種基于風(fēng)險處理機(jī)制的醫(yī)療數(shù)據(jù)挖掘算法MRPM(Medical Risk Processing Mechanism),引入病情特征碼值,使用權(quán)重參數(shù)抽取及病情有關(guān)的安全風(fēng)險、預(yù)防與診斷因素。該算法在醫(yī)療IT系統(tǒng)數(shù)據(jù)挖掘與分析中數(shù)據(jù)信息冗余度較低、效率高,并且展現(xiàn)方式更加立體、直觀。

1 相關(guān)研究

1.1 相關(guān)算法

1.1.1 最優(yōu)化安全風(fēng)險模型算法

病情種類情況從醫(yī)療數(shù)據(jù)信息角度可以分為惡性與良性兩種。模型一般被說明為:特征碼值的集合,最優(yōu)化安全風(fēng)險模型獲取的結(jié)果是惡性,而其預(yù)防與診斷模型出現(xiàn)的結(jié)果是良性。針對此種情況,參考文獻(xiàn)[3]提出了一種MORE算法,用于得到最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型。

MORE算法一方面采取部分支持度挖掘使用頻率較高的數(shù)據(jù)結(jié)構(gòu)模型,再采用病理學(xué)中對應(yīng)于安全風(fēng)險指標(biāo)項得到最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型。為了使模型更加直觀,本文通過病情特征碼值的長度設(shè)置操作模型坐標(biāo)值項,該模型滿足反單調(diào)原則。

1.1.2 醫(yī)療數(shù)據(jù)挖掘算法

基于最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型盡管能識別典型病情數(shù)據(jù)結(jié)構(gòu),但其結(jié)構(gòu)存在明顯的誤區(qū),影響醫(yī)療IT系統(tǒng)病情診斷環(huán)節(jié)。針對這一缺陷,本文設(shè)計了一種基于風(fēng)險處理機(jī)制(包含最優(yōu)化安全風(fēng)險與預(yù)防能力)的醫(yī)療數(shù)據(jù)挖掘算法。此算法創(chuàng)造性地加入病情特征碼值,形成了最優(yōu)化風(fēng)險集合與預(yù)防集合。并采用權(quán)重參數(shù)對每個集合進(jìn)行度量,使集合中每個病情特征碼值的權(quán)重參數(shù)與病情數(shù)據(jù)信息使用頻率構(gòu)成正比函數(shù)關(guān)系,從而體現(xiàn)出每個病情特征碼值對醫(yī)療診斷與預(yù)防方面貢獻(xiàn)程度[4]。

1.2 MRPM算法

相關(guān)符號的定義如下:m1是最優(yōu)化安全風(fēng)險結(jié)構(gòu)模型的數(shù)量;m2是最優(yōu)化預(yù)防結(jié)構(gòu)模型的數(shù)量;spt是部分支持度的參數(shù)值;m1*spt是初始化安全風(fēng)險集合的期望使用頻率參數(shù)標(biāo)準(zhǔn)值;m2*spt是初始化預(yù)防集合期望使用頻率參數(shù)標(biāo)準(zhǔn)值;R1、R2是初始化安全風(fēng)險與預(yù)防集合中病情特征碼值數(shù)量;R1′、R2′是非初始化安全風(fēng)險與預(yù)防集合中病情特征碼值數(shù)量。為了方便,分別使用 IRS、IPS、RS、PS代表初始化安全風(fēng)險與預(yù)防集合以及非初始化狀態(tài)的安全風(fēng)險與預(yù)防集合,RFS、PFS分別表示安全風(fēng)險與預(yù)防使用頻率指標(biāo)項,RSM、PSM分別表示安全風(fēng)險分?jǐn)?shù)矩陣與預(yù)防分?jǐn)?shù)矩陣 (RSM、PSM分別對應(yīng)RS、PS中每個病情特征碼值參數(shù)項)。

若 IRS=[IRi1,IRi2,…,IRiR1]T、IPS=[IPi1,IPi2,…,IPiR2]T,對應(yīng)的 IRFS=[IRf1,IRf2, …,IRfR1]T、IPFS=[IPf1,IPf2, …,IPfR2]T。其中集合滿足以下特性:

(1)IRf1≥IRf2≥…≥IRfR1≥m1*spt

(2)IPf1≥IPf2≥…≥IPfR2≥m2*spt

若IRS與IPS有交集,且不為空,因為 IRS與 IPS彼此矛盾,因而需要將其公共特征值參數(shù)鏟除,則可以得到包括RS、PS、RFS、PFS集合,它們之間的相互關(guān)系如下:RS?IRS;RFS?IRFS;PS?IPS 以 及 PFS?IPFS。 若RS=[Ri1,Ri2,… ,RiR1]T、PS=[Pi1,Pi2,… ,PiR2]T, 對 應(yīng) 于 RS、PS 的 RFS=[Rf1,Rf2,…,RfR1]T、PFS=[Pf1,Pf2,…,PfR2]T。 其中滿足以下特性:

(3)Rf1≥Rf2≥…≥RfR1≥m1*spt

(4)Pf1≥Pf2≥ … ≥PfR2≥m2*spt

RSM與PSM則滿足以下特性:

若病情特征碼值權(quán)重參數(shù)≥式(5)中第一項與第二項之和,則可以判定病者存在一定安全風(fēng)險,與之相對應(yīng),當(dāng)病情特征碼值權(quán)重參數(shù)≥式(6)中第一項與第二項之和,則可以判定病者暫無安全風(fēng)險。

MRPM算法中包含兩個核心函數(shù)機(jī)制,一個產(chǎn)生(IRS、IPS),另一個產(chǎn)生帶有病情特征碼值權(quán)重參數(shù)的(RS、PS)。這兩個函數(shù)的機(jī)制原理分析如下。

1.2.1 函數(shù) 1:產(chǎn)生(IRS、IPS)

輸入?yún)?shù):最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型、m1*spt、m2*spt;輸出參數(shù):IRS 與 IPS。

(IRS、IPS)輸出過程如下:

(1)得到最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型,計算出初始化與非初始化安全風(fēng)險集合的期望使用頻率參數(shù)標(biāo)準(zhǔn)值 m1*spt、m2*spt。

(2)對病情特征碼值進(jìn)行使用頻率統(tǒng)計,過濾其中期望使用頻率值小于期望使用頻率參數(shù)標(biāo)準(zhǔn)值。

(3)對統(tǒng)計的期望使用頻率值進(jìn)行降序排列,其中IRS由最優(yōu)化安全風(fēng)險數(shù)據(jù)結(jié)構(gòu)模型中病情特征碼值參數(shù)項構(gòu)成,IPS由最優(yōu)化預(yù)防數(shù)據(jù)結(jié)構(gòu)模型中病情特征碼值參數(shù)項構(gòu)成。

盡管函數(shù)1得到(IRS、IPS),然而它們之間的公共特征參數(shù)項會給安全風(fēng)險與預(yù)防機(jī)制帶來數(shù)據(jù)誤差,因此需要預(yù)先鏟除。

1.2.2 函數(shù) 2:產(chǎn)生(RS、PS)

輸 入 參 數(shù) : (IRS、IPS); 輸 出 參 數(shù) : (RS、PS、RSM、PSM)。 (RS、PS、RSM、PSM)輸出的過程如下:

(1)鏟除(IRS、IPS)的公共特征參數(shù)項。

(2)重新對病情特征碼值進(jìn)行使用頻率統(tǒng)計,且降序排列,得到 RS=IRS、PS=IPS。

(3)依次計算RS和PS的病情特征碼值權(quán)重參數(shù),獲取 RSM、PSM。

步驟(3)過程是通過 1.2節(jié)的步驟(5)、(6)推導(dǎo)得出的,其中100為總權(quán)重參數(shù)值。

2 測試結(jié)果與應(yīng)用分析

本文使用了兩組UCI數(shù)據(jù)庫中取得的醫(yī)療數(shù)據(jù)信息基準(zhǔn)集合以及最典型的最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型[5],采用對比論證方式進(jìn)行測試應(yīng)用與分析,其中數(shù)據(jù)信息說明如表1所示。

表1 UCI醫(yī)療數(shù)據(jù)信息說明

2.1 安全風(fēng)險與預(yù)防模型對比分析

由UCI醫(yī)療數(shù)據(jù)信息說明中可知,本文依次使用了類比率為30的免疫系統(tǒng)功能衰退與類比率為4的淋巴癌示例進(jìn)行測試,為了保證實驗的廣泛性,使用了不同的類比分布概率。兩種醫(yī)療數(shù)據(jù)信息集合分別進(jìn)行了最小熵離散化與隔離分布處理,數(shù)據(jù)信息集合中的spt的最小值分別為7%和33%,病情特征碼參數(shù)值度量分別為L=6、L=7,相對安全風(fēng)險參數(shù)最小值為1.2。

在取得最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型以及從核心函數(shù)機(jī)制中輸出的病情特征碼參數(shù)項的前提下,采用MRPM算法在醫(yī)療數(shù)據(jù)信息中深度挖掘帶有權(quán)重參數(shù)值的安全風(fēng)險與預(yù)防集合。

為了對比最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型、最典型的安全風(fēng)險和預(yù)防數(shù)據(jù)結(jié)構(gòu)模型以及 (RS、PS)中的病情特征碼參數(shù)值,當(dāng)數(shù)據(jù)源為免疫系統(tǒng)功能衰退時,與最優(yōu)化安全風(fēng)險和預(yù)防數(shù)據(jù)結(jié)構(gòu)模型相關(guān)的病情特征碼值分別是334和194,典型性安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型涉及的病情特征碼值分別是13和4。相類似,當(dāng)數(shù)據(jù)源為淋巴癌時,與最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型相關(guān)的病情特征碼值分別是714和296,典型性安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型涉及的病情特征碼值分別是45和57,而RS、PS中涉及的病情特征碼值分別是13和4。

上述病情特征碼值對比結(jié)果說明:在最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型相關(guān)的病情特征碼值、典型性安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型涉及的病情特征碼值遠(yuǎn)遠(yuǎn)大于(RS、PS)中的相關(guān)病情特征碼值。其中帶有權(quán)重參數(shù)值越大,病情特征碼值影響程度就越高,對病情影響也越大,反之一樣。從而表達(dá)了(RS、PS)能夠深度挖掘出與病情最具有關(guān)聯(lián)[6]的安全風(fēng)險及預(yù)防因子。

2.2 (RS、PS)中每個病情特征碼值的權(quán)重參數(shù)

對于病情特征碼值而言,其內(nèi)部的權(quán)重參數(shù)出自于(RS、PS)中的百分比率。它能夠判定其病情特碼值的影響程度,并且也能夠通過它來觀察病者病情的安全風(fēng)險權(quán)重參數(shù)與預(yù)防權(quán)重參數(shù)。MRPM算法在免疫系統(tǒng)功能衰退數(shù)據(jù)信息集合中的 RS、PS如圖 1、圖 2所示,其中spt=0.06,L=5,圖中下面一欄統(tǒng)一是病情特征碼值。

圖1 RS中病情特征碼值權(quán)重參數(shù)

從圖1可以得出結(jié)論:RS中最大的兩個病情特征碼值權(quán)重參數(shù)是immune_surgery=r(18.315 0)和query_hypoimmune=r(12.087 9)。所以,相對于免疫系統(tǒng)功能衰退,兩個最大的病情特征碼值的權(quán)重之和為30.402 9。依據(jù)上述推理論證說明此病者的病情特征碼值的權(quán)重參數(shù)之和≥30.402 9,此病情患有免疫系統(tǒng)功能衰退的安全風(fēng)險;但是在PS中,最大的兩個病情特征碼值權(quán)重參數(shù)分別是 immune_surgery=p(23.7 624)、immunty=p(20.792 1)??芍錂?quán)重參數(shù)之和為44.554 5。因此,若病者病情特征碼值的權(quán)重參數(shù)<44.554 5,則患有免疫系統(tǒng)功能衰退的概率較高。

圖2 PS中病情特征碼值權(quán)重參數(shù)

在最優(yōu)化安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型及最具典型的安全風(fēng)險與預(yù)防數(shù)據(jù)結(jié)構(gòu)模型的基礎(chǔ)之上,本文在醫(yī)療數(shù)據(jù)挖掘中創(chuàng)造性地引入了病情特征碼值,并對其設(shè)置相關(guān)權(quán)重參數(shù),且通過權(quán)重參數(shù)判定其病情特征碼值的安全風(fēng)險與預(yù)防影響程度,對醫(yī)療數(shù)據(jù)信息進(jìn)行深度挖掘。測試結(jié)果顯示,所設(shè)計出的MRPM算法可以深度挖掘具有典型性質(zhì)的病情特征碼值,且展示立體、直觀,對醫(yī)療工作者提供了更加有效的參考價值。

[1]Wang Guoyin.Rough reduction in algebra view and information view[J].International Journal of Intelligent System,2003,18(3):679-688.

[2]葉明全,伍長榮,胡學(xué)剛.基于粗糙集的醫(yī)療數(shù)據(jù)挖掘研究與應(yīng)用[J].計算機(jī)工程與應(yīng)用,2010,46(21):232-237.

[3]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.

[4]KANTARDZIC M.Data mining concept,models,methods and algorithms[M].IEEE Press,2002,12(4):223-263.

[5]張俊鵬,賀建峰,馬磊.基于最優(yōu)風(fēng)險與預(yù)防模型的醫(yī)療數(shù)據(jù)挖掘算法[J].計算機(jī)工程,2011,37(22):33-37.

[6]Li Jiuyong,F(xiàn)u Waichee,F(xiàn)AHEY P.Mining risk patterns in medical data[C].Proceeding of the 7thACM SIGKDD International Conference on Knowledge Discovery in Data Mining,New York,USA:ACM Press,2005:770-775.

猜你喜歡
數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)挖掘病情
冠心病支架后病情穩(wěn)定,何時能停藥
不戒煙糖友病情更難控制
中老年保健(2021年7期)2021-12-02 16:50:22
低GI飲食模式或能顯著改善糖尿病病情
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
“翻轉(zhuǎn)課堂”教學(xué)模式的探討——以《數(shù)據(jù)結(jié)構(gòu)》課程教學(xué)為例
高職高專數(shù)據(jù)結(jié)構(gòu)教學(xué)改革探討
中國市場(2016年45期)2016-05-17 05:15:48
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
不寐的病情觀察和護(hù)理
TRIZ理論在“數(shù)據(jù)結(jié)構(gòu)”多媒體教學(xué)中的應(yīng)用
新和县| 溧阳市| 韶山市| 甘洛县| 儋州市| 句容市| 拉孜县| 崇义县| 田林县| 壶关县| 蒲江县| 乌鲁木齐县| 汶川县| 苏尼特左旗| 中山市| 宜州市| 亚东县| 天柱县| 宁乡县| 闽清县| 河间市| 新宾| 龙胜| 衡东县| 安达市| 红安县| 旅游| 蓬莱市| 东辽县| 册亨县| 徐汇区| 永州市| 平陆县| 渝中区| 崇礼县| 巢湖市| 夏津县| 汕头市| 兖州市| 永嘉县| 紫云|