劉 宇 ,張 稱 ,李祥鈺
(1華北理工大學數學建模創(chuàng)新實驗室 河北 唐山 063210)
(2華北理工大學機械工程學院 河北 唐山 063210)
(3華北理工大學化學工程學院 河北 唐山 063210)
(4華北理工大學冶金與能源學院 河北 唐山 063210)
資料來源于UCI數據庫中的美國130家醫(yī)院糖尿病患者信息,原始數據共有十萬行,五十列,剔除無效的和不完整的數據。
其中秩和比的計算公式為:
有時候各個評價指標權重不同,需要計算加權秩和比,其計算公式為:
熵權法是根據評價指標數據的變異程度來決定權重。對于某項指標,用熵值來判斷它的離散程度,其熵值越小,則該項指標的離散程度越大,數據越無序,所含的信息越多,在綜合評價中的作用越大,即權重越大。
在原始數據基礎上,考慮到糖化血紅蛋白含量是糖尿病治療效果的評判標準,因此選取了數據表中與糖化血紅蛋白含量相關的自變量共13個,對其按年齡分為十組。分組后得到各變量的數據以及它們的權重系數見表1,其中為再次入院率,為平均住院天數,為平均住院次數,為平均藥物數量,為死亡率,為平均診斷次數,為胰島素使用率,為糖化血紅蛋白正常率,為二甲雙胍使用率,為列奈片使用率,為甲苯磺丁脲使用率,為格列呲嗪使用率,為優(yōu)降糖使用率。
表1 各指標權重系數
將各個指標按照越優(yōu)秩越大的原則,對所有評價對象編秩。其中高優(yōu)與低優(yōu)直接編,涉及到一些例如平均住院次數這樣的稍高優(yōu)對象,并不是越多越好,采用1至9編秩后加上秩的中位數(在這里是5)并整體除以2的方式進行編秩。
統(tǒng)計各個年齡段的每組頻數,計算累計頻數及累計頻率,并轉換成概率單位,結果如下:
表2 各組頻數、累計頻數、累計頻率、概率單位Probit結果
從表中可以看出,概率單位計算結果基本在3到7之間,最大的兩個年齡段為0~10歲和10~20歲。
以概率單位Probit為自變量,計算求得的加權秩和比為因變量,建立回歸模。求解得到的回歸方程為
根據計算得到的回歸方程,得到估計的加權秩和比如圖1,其中橫坐標表示年齡,用每個年齡段的中位數來代表這個年齡段,縱坐標為各個年齡對應的加權秩和比,每個年齡都標有對應的加權秩和比值。
圖1 加權秩和比的結果圖
將概率單位分為三檔:<4,4~6,>6,把4和6帶入到得到的回歸方程中,得到估計加權秩和比分別為0.3649和0.6523,因此按加權秩和比的大小進行排序,按檔位分為三個等級,分得的等級及對應的年齡段見表3。
表3 等級分類結果
由表3可以看出,大部分的糖尿病患者的治療效果一般,80~90歲的患者療效最差,0~20歲患者療效最好,達到一等。秩和比法對醫(yī)院糖尿病治療效果綜合評價結果和實際情況大致相符。
由每個年齡段的WRSR值與分檔得到的評價結果表明,大體上隨著年齡的增長糖尿病患者的治療效果呈下降趨勢,0~10歲患者治療效果最好。20~30歲的WRSR低于周圍兩個年齡段,這可能與此年齡段患者生活習慣不好、經常吸煙酗酒有關,應加強對患者不良生活習慣加強控制。