趙超群 余昊 楊建萍
摘 要: 為了給需要平衡收益與風(fēng)險的決策者提供一種簡單有效的風(fēng)險模型評估方法,提出了一種基于極大似然估計的正態(tài)總體決策曲線參數(shù)估計方法,并從理論研究、仿真分析和實際應(yīng)用等三方面研究其特性。首先,從統(tǒng)計理論上對該方法的特性進(jìn)行了研究,結(jié)果表明該方法不僅具有簡單易于實踐的數(shù)學(xué)表達(dá)式,而且具有相合漸近正態(tài)性等良好的統(tǒng)計性質(zhì);然后,對該方法在實際應(yīng)用中的性能進(jìn)行了仿真,并與現(xiàn)有的非參數(shù)估計方法比較,發(fā)現(xiàn)該方法在正態(tài)總體下具有更高的準(zhǔn)確性和可操作性;最后通過實例說明,應(yīng)用此方法能夠有效篩選出乳腺癌的高鑒別性能生物標(biāo)志物。該研究結(jié)果可為決策者評估臨床模型和篩選高鑒別性能生物標(biāo)志物提供參考。
關(guān)鍵詞:決策曲線;正態(tài)總體;模型評估;收益;參數(shù)估計
中圖分類號:O212.1
文獻(xiàn)標(biāo)志碼:A
文章編號:1673-3851 (2023) 05-0379-09
引文格式:趙超群,余昊,楊建萍. 正態(tài)總體決策曲線參數(shù)估計方法及其應(yīng)用[J]. 浙江理工大學(xué)學(xué)報(自然科學(xué)),2023,49(3):379-387.
Reference Format: ZHAO Chaoqun, YU Hao, YANG Jianping. Parameter estimation of decision curve based on normal population and its applications[J]. Journal of Zhejiang Sci-Tech University,2023,49(3):379-387.
Parameter estimation of decision curve based on normal population and its applications
ZHAO Chaoquna, YU Haoa, YANG Jianpingb
(a.School of Computer Science and Technology; b.School of Science, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract: In order to provide a simple and effective evaluation method of risk model for decision makers who need to balance benefits and risks, a parameter estimation method of decision curve based on normal population is proposed based on maximum likelihood estimation, and its advantages are also discussed from the three different aspects of theory of statistics, simulated analysis and practical application. First of all, the properties of this method are studied based on the theory of statistics. It is shown that the method not only involves a simple mathematical expression, but it also has some good statistical properties such as consistent? asymptotic normality. Then, the performance of the method in practical application is simulated. Compared with the existing non-parametric estimation methods, it is found that this method has higher accuracy and operability under normal population. Finally, it is demonstrated from examples that this method can effectively screen biomarkers of breast cancer with high differential performance. The research results can provide reference for decision makers to evaluate clinical models and screen biomarkers with high differential performance.
Key words:decision curve; normal population; model evaluation; benefit; parameter estimation
0 引 言
受試者工作特征(Receiver operating characteristic curve,ROC)曲線等傳統(tǒng)分類模型評估方法在二分類決策中具有良好的應(yīng)用價值[1]。ROC曲線是在測試數(shù)據(jù)集下,根據(jù)不同閾值所得結(jié)果,以假陽性率為橫坐標(biāo)、真陽性率為縱坐標(biāo)畫出的圖形[2]。研究人員常通過計算ROC曲線下的面積(Area under curve,AUC)評估分類器的準(zhǔn)確率,并通常選擇AUC值較大的分類器[3-4]。類似的分類準(zhǔn)確率指標(biāo)如敏感性、特異性、綜合判別改善指數(shù)、凈重新分類指數(shù)和Brier評分等[5-8]只考慮了診斷測試的準(zhǔn)確性,卻沒有考慮實踐中診斷結(jié)果帶來的收益和潛在風(fēng)險的關(guān)系,這可能導(dǎo)致過度診斷的發(fā)生,因此在實踐應(yīng)用中的效果并不理想。
2006年,Vickers等[9]提出了一種基于決策曲線分析(Decision curve analysis,DCA)的方法,該方法考慮了收益與風(fēng)險的關(guān)系,能有效評估模型、診斷測試和篩選生物標(biāo)志物[10]。DCA方法已越來越多地用于評估臨床醫(yī)學(xué)研究中診斷測試的準(zhǔn)確性和預(yù)測模型的價值。Moran等[11]通過決策曲線研究了乳酸作為膿毒癥和膿毒癥休克的生物標(biāo)志物的可行性。Han等[12]建立了初始原發(fā)性肺癌幸存者患第二原發(fā)性肺癌的預(yù)測模型,并通過DCA方法來評估該模型在臨床應(yīng)用上的價值。Liang等[13]用DCA方法證實了肝內(nèi)膽管癌預(yù)測模型的分類判別能力。
本文提出了一種正態(tài)總體決策曲線參數(shù)估計方法。首先,基于極大似然估計得到了該方法關(guān)于樣本均值與方差的數(shù)學(xué)表達(dá)式,并從統(tǒng)計理論上給出了一些特性;其次,利用R軟件對該方法在實際應(yīng)用中的評估性能進(jìn)行仿真,并與已有的非參數(shù)估計方法進(jìn)行了性能比較;最后,將這一方法用于篩選高鑒別性能的乳腺癌生物標(biāo)志物,以說明決策曲線及本文提出的方法在實際應(yīng)用中的過程和價值。
1 決策曲線分析
DCA方法可以協(xié)助臨床研究,將臨床效用量化為凈收益,通過凈收益篩選對受試者采取何種治療措施。D=1和D=0分別表示個體患病和不患病的兩種狀態(tài),λ=P(D=1)和1-λ=P(D=0)分別表示患病率和未患病率。對于給定個體X,設(shè)p=P(D=1|X)為患病概率。閾值pd∈[0,1],當(dāng)p≥pd時,受試者被判定為陽性,并接受治療;當(dāng)p
d時受試者被判定為陰性而不接受治療,將判定的結(jié)果用示性函數(shù)T(pd)表示:
設(shè)ukj為對受試者的不同檢驗結(jié)果的效用,其中k∈{0,1}是判定結(jié)果,j∈{0,1}是真實的疾病狀態(tài)。根據(jù)期望效用理論[14],受試者治療的期望效用為u11pd+u10(1-pd),受試者不進(jìn)行治療的期望效用為u01pd+u00(1-pd)。當(dāng)受試者接受診斷測試,得到的閾值與患病概率相同時,即p=pd,在這個臨界值下,將受試者歸入患病類別與將受試者歸入正常類別的期望效用是相同的,因此可以得到:
結(jié)合受試者所有結(jié)果的效用,該測試的期望效用可以表示為:
UA=P(T(pd)=1|D=1)P(D=1)u11+P(T(pd)=0|D=1)P(D=1)u01+P(T(pd)=1|D=0)P(D=0)u10+P(T(pd)=0|D=0)P(D=1)u00,
不治療任何受試者的效用可以表示為:
U0=P(D=1)u01+P(D=0)u00(3)
因而,治療受試者與不治療任何受試者比較,該測試的效用是:
UA-U0=P(T(pd)=1|D=1)P(D=1)(u11-u01)+P(T(pd)=1|D=0)P(D=0)(u10-u00)。
為不失一般性,假設(shè)u11-u01=1,得到:
用P(T(pd)=1|D=1)表示敏感性se,P(T(pd)=1|D=0)表示1-特異性sp,凈收益ф表示UA-U0,那么式(4)可以寫為:
DCA方法通過不同閾值畫出決策曲線,可以用于比較一個模型是否優(yōu)于另一個模型。兩個模型的決策曲線如圖1所示,從圖1可以看出,模型2的預(yù)測效果在閾值范圍內(nèi)具有較高凈收益,優(yōu)于模型1。此外,圖1中兩條虛線代表兩種極端情況,平行于橫軸的虛線表示所有樣本都是陰性,即凈收益為0,“對受試者不做任何治療”;另一條斜率為負(fù)的虛線表示所有樣本都是陽性,即“對所有受試者進(jìn)行治療”。
2 正態(tài)總體下決策曲線參數(shù)估計方法推斷
假設(shè)在某種疾病患病率為λ的人群中,抽取一個樣本容量為n的隨機(jī)樣本。令未患病總體X0~N(μ0,σ20),X01,…,X0n0為未患病個體樣本,n0為未患病樣本數(shù)量;患病總體X1~N(μ1,σ21),X11,…,X1n1為患病個體樣本,n1為患病樣本數(shù)量,樣本總數(shù)n=n0+n1。對測試樣本X和p用貝葉斯定理可得:
X0與X1的概率密度函數(shù)之比f0(x)/f1(x)為:
二元決策規(guī)則將患病概率高于閾值的受試者被判定為接受治療,所以事件p≥pd等價于:
為方便計算,不妨假設(shè)A=σ20-σ21,B=μ0σ21-μ1σ20,C=μ21σ20-μ20σ21,于是
令h1和h2是與μ0、μ1、σ0、σ1有關(guān)的函數(shù):
因此,由式(5)可得,正態(tài)總體下,凈收益被估計為:
3 仿真分析
本文對正態(tài)總體決策曲線參數(shù)估計方法進(jìn)行仿真,利用R軟件包Plotrix中的函數(shù)對該方法的性能進(jìn)行評估,并與Sande等[10]提出的非參數(shù)估計方法的準(zhǔn)確性進(jìn)行比較。
為確保研究的可靠性,進(jìn)行兩次不同均值、方差和患病率的仿真實驗。另外,設(shè)定(n0,n1)=(25,25),(50,50),(100,100),(250,250),(500,500),pd=0.2,0.3,0.4,0.5,0.6,0.7,0.8。第一次仿真中,在X0~N(3,1.52)、X1~N(2,0.22)的條件下生成1000組λ=0.48的數(shù)據(jù),運行得到ф、ф^、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)誤差和非參數(shù)估計方法的凈收益估計值NE,結(jié)果見表1。ф^在不同樣本量和閾值的情況下都接近真實凈收益ф;同時,與相同數(shù)據(jù)下得到NE相比,正態(tài)總體決策曲線參數(shù)估計方法得到的ф^比NE更接近真實凈收益。此外,由本文提出的方法得到的凈收益標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤差的平均值較小,說明估計結(jié)果準(zhǔn)確性較高。
第二次仿真中,在X0~N(4,52),X1~N(0.5,1.22)的條件下生成1000組λ=0.44的數(shù)據(jù),結(jié)果見表2。當(dāng)pd≥0.5時,NE與真實凈收益值誤差較大,ф^誤差較小。
通過仿真結(jié)果可知,本文提出的方法可以作為評估模型實用性的標(biāo)準(zhǔn),且比已有的非參數(shù)方法準(zhǔn)確性更高。
4 應(yīng)用分析
本文用一個乳腺癌實例來說明本文方法在現(xiàn)實中可用于選取高鑒別能力的生物標(biāo)志物。乳腺癌是威脅女性健康較嚴(yán)重的惡性腫瘤之一,通常發(fā)生在乳腺腺體組織或乳腺導(dǎo)管襯細(xì)胞的小葉里,是由乳房細(xì)胞變異生長引發(fā)的癌癥,變異后的細(xì)胞相較健康細(xì)胞分裂更快,經(jīng)過積累形成占位或腫塊,并且癌細(xì)胞可能通過乳房擴(kuò)散到淋巴結(jié)或身體的其他部位。在早期發(fā)現(xiàn)這種疾病的時候,乳腺癌的治療可能非常有效,因此為臨床醫(yī)生提供準(zhǔn)確的生物標(biāo)志物信息來做出治療決定極為重要。基于DCA方法的效用研究可為乳腺癌的治療提供必要的依據(jù)。
本文選擇的數(shù)據(jù)集來自加州大學(xué)歐文分校的機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的威斯康星州預(yù)后乳腺癌診斷(Wisconsin Prognostic Breast Cancer,WPBC)數(shù)據(jù)集[15]。該數(shù)據(jù)集中的生物標(biāo)志物通過乳腺腫塊的細(xì)針穿刺得到的數(shù)字化圖像計算得出,生物標(biāo)志物描述了樣本圖像中細(xì)胞核的形態(tài)特征。該數(shù)據(jù)集收集了198例乳腺癌的患者記錄,包含32個生物標(biāo)志物。前30個生物標(biāo)志物描述了圖像中細(xì)胞核的半徑、紋理、細(xì)胞核周長和緊湊度等特征,最后兩個生物標(biāo)志物是腫瘤的大小和陽性淋巴結(jié)的數(shù)量。為便于說明,本文使用V1,…,V32來表示這32個生物標(biāo)志物。
首先進(jìn)行數(shù)據(jù)預(yù)處理,分別對患病和健康群體的數(shù)據(jù)進(jìn)行Shapiro-Wilk檢驗[17]。正態(tài)性檢驗顯示,WPBC數(shù)據(jù)集在0.05的顯著水平上均未滿足正態(tài)性假設(shè)。為提高正態(tài)性,對數(shù)據(jù)進(jìn)行Box-Cox轉(zhuǎn)換,轉(zhuǎn)換后的數(shù)據(jù)再次進(jìn)行Shapiro-Wilk檢驗,并刪除不符合正態(tài)分布的數(shù)據(jù)。圖2是用R軟件繪制的數(shù)據(jù)處理前后的DCA曲線對比圖,由圖可知,轉(zhuǎn)換后的生物標(biāo)志物決策曲線凈收益顯著提高。其次對篩選出的生物標(biāo)志物結(jié)合參數(shù)估計方法計算凈收益,最后選出6個能顯著分類乳腺癌的生物標(biāo)志物,分別是V2(紋理-平均值)、V7(凹陷度-平均值)、V11(半徑-標(biāo)準(zhǔn)差)、V25(平滑度-最大值)、V27(凹點-最大值)和V31(切除腫瘤直徑)。使用R軟件中的pROC包計算出AUC值排名前10的生物標(biāo)志物如表3所示。由表3可知,用正態(tài)總體決策曲線參數(shù)估計方法篩選出的生物標(biāo)志物與表中的排序不完全吻合。其原因是DCA方法考慮了決策者的偏好,因此在實際應(yīng)用中AUC評價指標(biāo)雖然簡單但并不能取代DCA方法,AUC注重評價模型的區(qū)分度,而DCA方法偏向于評價臨床的實用性。
5 結(jié) 論
本文提出了一種基于極大似然估計的正態(tài)總體決策曲線參數(shù)估計方法,能有效地幫助決策者評估模型和篩選生物標(biāo)志物。通過嚴(yán)密的理論推導(dǎo),得到該方法的顯式表達(dá)式僅與正態(tài)總體的方差和均值有關(guān)且具有相合性、漸近正態(tài)性等良好的統(tǒng)計性質(zhì)。通過仿真計算出估計凈收益值與真實凈收益值,并且估計凈收益值的標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤差較小,說明該方法具有較高的準(zhǔn)確性。此外,該方法應(yīng)用于篩選乳腺癌生物標(biāo)志物,結(jié)果表明篩選出的生物標(biāo)志物與通過AUC方法得到的結(jié)果不完全吻合,由于本文提出的方法考慮了風(fēng)險與收益的關(guān)系,選取的生物標(biāo)志物將具有更好的臨床診斷效果。
本文提出的是二分類下的決策曲線參數(shù)估計方法,對三分類及以上的多元參數(shù)估計方法還有待研究。
參考文獻(xiàn):
[1]Pepe M S. The Statistical Evaluation of Medical Tests for Classification and Prediction [M]. Oxford: Oxford University Press, 2003:28.
[2]Wan S W, Zhang B. Comparing correlated ROC curves for continuous diagnostic tests under density ratio models[J]. Computational Statistics & Data Analysis, 2008, 53(1):233-245.
[3]Bradley A P. ROC curve equivalence using the Kolmogorov-Smirnov test[J]. Pattern Recognition Letters, 2013, 34(5):470-475.
[4]Wang S H, Zhang B. Semiparametric empirical likelihood confidence intervals for AUC under a density ratio model[J]. Computational Statistics & Data Analysis, 2014, 70:101-115.
[5]Zhang Z H, Rousson V, Lee W C, et al. Decision curve analysis: a technical note[J]. Annals of Translational Medicine, 2018, 6(15):308.
[6]Hu B, Palta M, Shao J. Properties of R2statistics for logistic regression[J]. Statistics in Medicine, 2006, 25(8): 1383-1395.
[7]Leening M J G, Steyerberg E W, van Calster B, et al. Net reclassification improvement and integrated discrimination improvement require calibrated models: relevance from a marker and model perspective[J]. Statistics in Medicine, 2014, 33(19): 3415-3418.
[8]Pencina M J, D'Agostino R B S, D' Agostino R B Jr, et al. Evaluating the added predictive ability of a new marker: from area under the ROC curve to reclassification and beyond[J]. Statistics in Medicine, 2008, 27(2): 157-172.
[9]Vickers A J, Elkin E B. Decision curve analysis: a novel method for evaluating prediction models[J]. Medical Decision Making, 2006, 26(6): 565-574.
[10]Sande S Z, Li J L, D'Agostino R, et al. Statistical inference for decision curve analysis, with applications to cataract diagnosis[J]. Statistics in Medicine, 2020, 39(22): 2980-3002.
[11]Moran J L, Santamaria J. Reconsidering lactate as a sepsis risk biomarker[J]. PLoS One, 2017, 12(10): e0185320.
[12]Han S S, Rivera G A, Tammemgi M C, et al. Risk stratification for second primary lung cancer[J]. Journal of Clinical Oncology, 2017, 35(25): 2893-2899.
[13]Liang W J, Xu L, Yang P, et al. Novel nomogram for preoperative prediction of early recurrence in intrahepatic cholangiocarcinoma[J]. Frontiers in Oncology, 2018, 8: 360.
[14]Vickers A J, Cronin A M, G?nen M. A simple decision analytic solution to the comparison of two binary diagnostic tests[J]. Statistics in Medicine, 2013, 32(11): 1865-1876.
[15]Mangasarian O L, Street W N, Wolberg W H. Breast cancer diagnosis and prognosis via linear programming[J]. Operations Research, 1995, 43(4): 570-577.
[16]Street W N, Mangasarian O L, Wolberg W H. An inductive learning approach to prognostic prediction[J]. Machine Learning, 1995, 522-530.
[17]Yang J P, Kuan P F, Li J L. Non-monotone transformation of biomarkers to improve diagnostic and screening accuracy in a DNA methylation study with trichotomous phenotypes[J]. Statistical Methods in Medical Research, 2020, 29(8): 2360-2389.
(責(zé)任編輯:康 鋒)