陶麗, 王純青, 張自力, 陳波
1.西南大學(xué) 計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 400715;2.重慶醫(yī)科大學(xué) 附屬第一醫(yī)院,重慶 400700
隨著信息技術(shù)的發(fā)展,包括醫(yī)療在內(nèi)的眾多行業(yè)涉及到對(duì)高維稀疏數(shù)據(jù)的學(xué)習(xí)和處理.比如,醫(yī)院住院病人病案首頁(yè)數(shù)據(jù)中包含大量的合并癥、并發(fā)癥數(shù)據(jù),如何基于這些高維、稀疏的癥狀信息對(duì)病人病情嚴(yán)重程度進(jìn)行評(píng)估從而實(shí)現(xiàn)住院費(fèi)用預(yù)測(cè),是當(dāng)前我國(guó)能否成功推行以疾病診斷相關(guān)分組(diagnosis related groups,DRGs)為核心的付費(fèi)制度面臨的關(guān)鍵問(wèn)題.
通過(guò)數(shù)據(jù)特征提取(feature extraction)實(shí)現(xiàn)特征降維、獲得信息含量更加豐富的新特征是有效處理高維稀疏數(shù)據(jù),提升特征利用效能的重要手段.在特征工程中,主成分分析(principal components analysis,PCA)[1]及其變種[2-11]是提取高維稀疏數(shù)據(jù)的主要信息或生成與目標(biāo)相關(guān)性更高信息的主要方法.但是作為無(wú)監(jiān)督的特征提取方法,主成分分析難以將提取的新特征與問(wèn)題目標(biāo)相關(guān)聯(lián),且降維后的新特征對(duì)于單個(gè)樣本缺少可解釋性,不太適用于本文例示的應(yīng)用問(wèn)題.線性判別分析(linear discriminant analysis,LDA)和核線性判別分析(kernel LDA)[12-13]也是處理結(jié)構(gòu)化高維稀疏數(shù)據(jù)的常用方法.這類方法通過(guò)將數(shù)據(jù)投影到具有最佳分類性能的方向,實(shí)現(xiàn)數(shù)據(jù)降維.但是,這類方法適用于二分類或者多分類問(wèn)題,不太適用于因變量為連續(xù)型(如住院費(fèi)用)的特征提取.
本文受醫(yī)療管理領(lǐng)域的病例臨床復(fù)雜度(episode clinical complexity,ECC)模型[14]啟發(fā),提出了一種基于迭代校正的高維稀疏特征提取方法.ECC模型是澳大利亞學(xué)者提出的根據(jù)病例診斷情況和個(gè)體特征構(gòu)建治療復(fù)雜程度新特征的方法[15].現(xiàn)有ECC模型在提取病例診斷復(fù)雜水平這一特征時(shí),主要考慮了不同特征數(shù)(即不同診斷數(shù)目)對(duì)結(jié)果(即病例診治費(fèi)用)產(chǎn)生的影響,但對(duì)特征類型(即診斷類型)對(duì)結(jié)果的影響考慮不充分.本文提出的基于迭代校正的ECC改進(jìn)模型(iteration-based ECC,IECC)可以在因變量的監(jiān)督之下構(gòu)建能夠同時(shí)體現(xiàn)特征數(shù)目和特征類型差異的新特征.將IECC模型應(yīng)用于重慶某大型三甲醫(yī)院2015-2019年呼吸系統(tǒng)和循環(huán)系統(tǒng)病案首頁(yè)數(shù)據(jù)的實(shí)驗(yàn)分析結(jié)果表明,本文所提方法得到的病人病情復(fù)雜程度的新特征與病人住院花費(fèi)具有更強(qiáng)的相關(guān)性,說(shuō)明IECC模型是一種適用于解決類似高維稀疏數(shù)據(jù)特征提取的有效方法.
主成分分析(PCA)[1-6]能夠把高維變量進(jìn)行降維處理,從而實(shí)現(xiàn)主要特征提取.但實(shí)驗(yàn)結(jié)果同時(shí)表明,數(shù)據(jù)稀疏程度會(huì)對(duì)主成分分析這類方法的特征提取性能造成較大影響[8].
針對(duì)這一問(wèn)題,一些研究者提出了面向稀疏數(shù)據(jù)的PCA算法[9-11].但是PCA族群的算法均屬于無(wú)監(jiān)督的特征提取方法,在特征提取過(guò)程中難以將提取的新特征與問(wèn)題目標(biāo)相關(guān)聯(lián),得到的新特征也缺乏可解釋性,在現(xiàn)實(shí)應(yīng)用中具有一定局限.
線性判別分析(LDA)[12]是另一類常用的有監(jiān)督特征提取方法.文獻(xiàn)[13]提出的核線性判別分析方法可通過(guò)計(jì)算特征空間內(nèi)積將數(shù)據(jù)從高維映射到低維子空間,但這種方法存在計(jì)算開(kāi)銷巨大的弊端.同時(shí),線性判別分析這類方法主要適用于二分類或者多分類問(wèn)題,當(dāng)目標(biāo)類別具有非正態(tài)或多峰混合分布時(shí),或者數(shù)據(jù)具有高維特征時(shí),該方法表現(xiàn)不佳[16].
病例臨床復(fù)雜度模型ECC是澳大利亞評(píng)估患者診療復(fù)雜程度的一種常用方法[14].該模型從醫(yī)療資源消耗角度,以住院費(fèi)用為監(jiān)督,基于病例的合并癥、并發(fā)癥情況對(duì)其病情復(fù)雜程度進(jìn)行度量.度量算法的核心步驟包括:① 建立合并癥、并發(fā)癥數(shù)目與住院費(fèi)用的關(guān)系模型;② 通過(guò)測(cè)算有無(wú)某診斷時(shí)費(fèi)用的相對(duì)變化測(cè)算該診斷的費(fèi)用貢獻(xiàn),從而獲得每個(gè)診斷的復(fù)雜程度(diagnosis complexity levels,DCL);③ 基于診斷復(fù)雜程度(DCL),綜合某病例的所有診斷,得到該病例的臨床復(fù)雜度評(píng)分(episode clinical complexity score,ECCS).
目前,雖然ECC模型已得到廣泛應(yīng)用,但是,ECC模型在度量病例診斷復(fù)雜水平時(shí),主要考慮了病例的診斷數(shù)目對(duì)住院費(fèi)用產(chǎn)生的影響,但對(duì)相同診斷數(shù)下不同診斷類型對(duì)住院費(fèi)用的影響考慮不充分,有待進(jìn)一步改進(jìn).因此,本文提出基于迭代校正的病例臨床復(fù)雜度改進(jìn)模型(iteration-based ECC,IECC),通過(guò)在費(fèi)用估計(jì)和診斷復(fù)雜程度的度量過(guò)程中考慮診斷類型的影響,使得臨床復(fù)雜度評(píng)分ECCS能夠更好地反映資源消耗差異.
基于迭代校正的病例臨床復(fù)雜度改進(jìn)模型(IECC)主要包含3個(gè)步驟.
步驟1:住院費(fèi)用與診斷數(shù)目關(guān)系模型學(xué)習(xí)
由于醫(yī)療資源消耗與診斷數(shù)目在臨床中不符合線性關(guān)系,因此,模型沿用原ECC模型假設(shè),采用如下非線性函數(shù)學(xué)習(xí)住院費(fèi)用與診斷數(shù)目的關(guān)系:
其中:A表示ADRG組別,Ci(A)表示在組別A中診斷數(shù)目為i項(xiàng)的住院費(fèi)用預(yù)測(cè)值;aA(aA>0)是組別A的基準(zhǔn)費(fèi)用系數(shù);bA(bA≥1)是變異系數(shù),表示組別A中增加1個(gè)診斷后費(fèi)用的相對(duì)變化;r(0 步驟2:基于迭代校正的診斷復(fù)雜程度DCL估計(jì) 根據(jù)住院費(fèi)用與診斷數(shù)目關(guān)系模型計(jì)算診斷x在A中的相對(duì)費(fèi)用C(x;A): 其中:Ei(x;A)表示A內(nèi)含有診斷x且診斷數(shù)為i的病例集合;|Ei(x;A)|表示Ei(x;A)集合的病例總數(shù);Ci(x;A)表示在組別A診斷數(shù)為i的病例中診斷x對(duì)住院費(fèi)用變化的相對(duì)貢獻(xiàn), 這里c(p)是集合Ei(x;A)中某一病例p的住院費(fèi)用. 據(jù)此,可計(jì)算每個(gè)診斷x的診斷復(fù)雜程度: 現(xiàn)進(jìn)一步考慮診斷類型對(duì)住院費(fèi)用的影響.定義Cost(p,x)為病例p在未增加診斷x前的預(yù)測(cè)費(fèi)用: 其中:n表示病例p的診斷總數(shù);di表示病例p除診斷x外其他診斷按照DCL降序排序后排名第i的診斷. 診斷x的相對(duì)費(fèi)用C(x;A)可采用Cost(p,x)進(jìn)行修正: 修正后的診斷x的相對(duì)費(fèi)用貢獻(xiàn)可用于再次計(jì)算該診斷的復(fù)雜程度DCL,而再次計(jì)算后的DCL又可進(jìn)一步修正診斷x的相對(duì)費(fèi)用貢獻(xiàn),此過(guò)程將不斷迭代,直到迭代次數(shù)達(dá)到閾值上限I或者相鄰兩次迭代后的DCL差值小于閾值θ為止,即 DCLi(x;A)-DCLi-1(x;A)<θ 步驟3:病例臨床復(fù)雜度評(píng)分ECCS計(jì)算 基于各診斷復(fù)雜程度DCL,采用原ECC模型中對(duì)病例臨床復(fù)雜度評(píng)分的計(jì)算公式,可得病例p的臨床復(fù)雜度評(píng)分ECCS.ECCS的計(jì)算公式如下: 為驗(yàn)證本文所提方法的有效性,本文基于真實(shí)病案首頁(yè)數(shù)據(jù),將本文所提改進(jìn)模型與經(jīng)典ECC模型進(jìn)行對(duì)比實(shí)驗(yàn).驗(yàn)證方式是分別基于兩個(gè)模型得到的住院病例預(yù)測(cè)費(fèi)用與實(shí)際費(fèi)用進(jìn)行Pearson相關(guān)性分析[7],如果相關(guān)性越高,說(shuō)明某個(gè)模型所構(gòu)建的病例復(fù)雜程度評(píng)分越能夠反映資源消耗程度. 本文使用的數(shù)據(jù)來(lái)自重慶某大型三甲醫(yī)院.該數(shù)據(jù)集包含2015-2019年該醫(yī)院呼吸系統(tǒng)和循環(huán)系統(tǒng)的病案首頁(yè)數(shù)據(jù),經(jīng)過(guò)異常數(shù)據(jù)剔除等數(shù)據(jù)預(yù)處理后,共獲得呼吸系統(tǒng)13個(gè)ADRG組(后文用E1-E13標(biāo)識(shí)呼吸系統(tǒng)ADRG組類別)數(shù)據(jù)38 003條,循環(huán)系統(tǒng)19個(gè)ADRG組(后文用F1-F19標(biāo)識(shí)循環(huán)系統(tǒng)ADRG組類別)數(shù)據(jù)66 482條.本文所用數(shù)據(jù)集的基本統(tǒng)計(jì)特征見(jiàn)圖1和圖2.如圖1所示,大多數(shù)的病例同時(shí)存在多種診斷類型.如圖2所示,同一大類疾病的每個(gè)ADRG組之間,其診斷類型數(shù)目存在較大差異. 圖1 數(shù)據(jù)集中病例數(shù)與診斷數(shù)目分布情況 圖2 數(shù)據(jù)集中各ADRG組別的診斷類型數(shù)差異 基于IECC模型和ECC模型的預(yù)測(cè)費(fèi)用與實(shí)際費(fèi)用的相關(guān)性分析結(jié)果如表1所示.結(jié)果表明,IECC模型預(yù)測(cè)費(fèi)用與實(shí)際費(fèi)用相關(guān)性在除“其他呼吸系統(tǒng)疾患”以外的所有ADRG組別都有不同程度的提升,這說(shuō)明基于迭代校正思想同時(shí)考慮診斷類型和數(shù)目的IECC模型能夠基于高維稀疏病例數(shù)據(jù)更好提取病例診斷復(fù)雜程度. 表1 IECC模型與ECC模型的對(duì)比分析結(jié)果 本文以住院病人診治復(fù)雜程度估計(jì)為應(yīng)用背景,提出了一種針對(duì)高維稀疏數(shù)據(jù)、基于迭代校正思想的特征提取方法.基于真實(shí)病案首頁(yè)數(shù)據(jù)的對(duì)比驗(yàn)證實(shí)驗(yàn)表明,基于IECC模型所預(yù)測(cè)的住院費(fèi)用與真實(shí)費(fèi)用的相關(guān)性與ECC模型相比有明顯提升,說(shuō)明基于IECC模型提取的病例臨床復(fù)雜度評(píng)分這一新特征能夠更好地反映病例資源消耗程度,即本文所提模型具有有效性.本文所提IECC方法可為DRGs的成功實(shí)施提供有力支持,還可廣泛應(yīng)用于考慮資源消耗的手術(shù)術(shù)式度量等眾多應(yīng)用問(wèn)題,具有較大的現(xiàn)實(shí)應(yīng)用價(jià)值.3 實(shí)驗(yàn)及結(jié)果
3.1 數(shù)據(jù)集
3.2 實(shí)驗(yàn)結(jié)果
4 總結(jié)
西南大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年5期