国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

傾向性評分法中評分值的估計方法及比較*

2013-12-04 03:00:14第二軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系衛(wèi)生統(tǒng)計學(xué)教研室200433吳美京趙艷芳
中國衛(wèi)生統(tǒng)計 2013年3期
關(guān)鍵詞:傾向性高維向量

第二軍醫(yī)大學(xué)衛(wèi)生勤務(wù)學(xué)系衛(wèi)生統(tǒng)計學(xué)教研室(200433) 吳美京 吳 騁 王 睿 趙艷芳 賀 佳

隨著醫(yī)院信息化建設(shè)的推進,越來越多的醫(yī)院通過各類信息系統(tǒng)支撐日常醫(yī)療業(yè)務(wù),如醫(yī)院信息系統(tǒng)(HIS)、電子病歷(EMR)等。大量臨床診療數(shù)據(jù)存儲在其中,并逐年遞增。如能將這些數(shù)據(jù)有效利用,會為我們提供許多有價值的關(guān)于干預(yù)因素與結(jié)局之間因果關(guān)系的證據(jù)或“線索”,推動循證醫(yī)學(xué)和衛(wèi)生信息化研究和實踐的發(fā)展。然而,這些臨床診療數(shù)據(jù)往往是觀察性資料,其中患者的分組可能是非隨機的。若混雜因素在對比組中分布不均衡,就無法判斷組間差異是由于處理因素還是組間的不均衡所引起,由此產(chǎn)生混雜偏倚。如何控制觀察性研究中非隨機化分組組間的混雜偏倚一直是熱點問題。傾向評分法應(yīng)運而生,成為目前解決該問題的有力工具之一。該方法易于理解、研究步驟標(biāo)準(zhǔn)化程度高,近些年來在歐美被廣泛應(yīng)用于大樣本、非隨機的觀察性研究中〔1〕。

傾向性評分(propensity score,PS)的概念由Rosenbaum和Rubin在1983年首次提出,其基本原理是將多個協(xié)變量的影響用一個傾向評分值來表示(相當(dāng)于降低了協(xié)變量的維度),然后根據(jù)傾向評分值進行不同對比組間的分層、匹配或加權(quán),即均衡對比組間協(xié)變量的分布,最后在協(xié)變量分布均衡的層內(nèi)或者匹配組中估計處理效應(yīng)。在大樣本的情況下,經(jīng)過傾向評分值調(diào)整的組間個體,除了暴露因素和結(jié)局變量分布不同外,其他協(xié)變量應(yīng)當(dāng)均衡可比,相當(dāng)于進行了“事后隨機化”,使觀察性數(shù)據(jù)達到“接近隨機分配數(shù)據(jù)”的效果〔1〕。

那么,如何將多個協(xié)變量的影響用一個傾向評分值來表示呢?即如何估計傾向評分值呢?根據(jù)Rosenbaum和Rubin的定義〔2〕:傾向評分值為在給定一組協(xié)變量(Xi)條件下,研究對象i(i=1,2,…N)被分配到某處理組或接受某暴露因素(Zi=1)的條件概率。理論上,所有可計算得到該條件概率的方法均可用于估計傾向評分值。目前用于估計傾向評分值的方法有l(wèi)ogistic回歸、Probit回歸、數(shù)據(jù)挖掘中的神經(jīng)網(wǎng)絡(luò)、支持向量機、分類與回歸樹、Boosting算法等機器學(xué)習(xí)方法。以下將對這些方法的使用情況及優(yōu)缺點進行一一介紹。

logistic 回歸估計法

logistic回歸是最早提出的估計傾向評分值的方法,由于其原理為人們所熟悉且容易實現(xiàn),也是目前最常用的估計方法。logistic回歸模型如下:

其中P(Y=1|X)表示在協(xié)變量X1,…,Xk存在的條件下事件Y發(fā)生的概率。當(dāng)事件Y表示研究對象接受的處理時,P(Y=1|X)即為傾向性評分值。根據(jù)2004年一篇關(guān)于傾向性評分法應(yīng)用的文獻綜述報道〔3〕,在入選的48篇文獻中,有47篇文獻采用logistic回歸估計傾向評分值。Felix等人于2011年發(fā)表的關(guān)于社會科學(xué)領(lǐng)域傾向性評分法應(yīng)用情況調(diào)查則顯示,共有67篇文獻采用logistic回歸估計傾向評分值,約占調(diào)查總數(shù)的77.9%〔4〕。

然而,在logistic回歸模型被廣泛用于傾向評分值的估計時,其應(yīng)用條件卻被忽略了。只有當(dāng)數(shù)據(jù)滿足線性假設(shè),即自變量與logit(y)(即ln[P/(1-P)])呈線性關(guān)系時,運用logistic回歸模型得到的分析結(jié)果才可靠。但是,鮮有文章對此線性假設(shè)進行檢驗。據(jù)D’Agostino的綜述報道,45篇文獻中僅有一篇對該線性關(guān)系進行了評價,并且沒有一篇文獻考慮變量之間的交互作用〔5〕。Cepeda等人的研究結(jié)果表明,當(dāng)事件數(shù)(即暴露組或處理組的最小樣本量)與自變量個數(shù)之比小于8時,logistic回歸的估計效果亦不佳〔6-7〕。

采用logistic回歸模型估計傾向評分值具有模型簡單、容易實現(xiàn)、可直接得到傾向評分值、結(jié)果易于解釋等顯著優(yōu)勢。然而其缺陷也不容忽視:協(xié)變量與logit(y)的線性假設(shè)常常被忽略;處理高維數(shù)據(jù)時,無法解決協(xié)變量之間存在的線性關(guān)系、非線性關(guān)系或交互作用,而忽略這些關(guān)系而得到的傾向評分值通常不可靠;當(dāng)事件數(shù)與協(xié)變量數(shù)之比小于8時,logistic回歸估計得到的傾向評分值也存在較大的偏倚。

Probit回歸估計法

Probit回歸模型如下:

該模型的結(jié)果即為傾向性評分值。據(jù)Felix等人關(guān)于社會科學(xué)領(lǐng)域傾向性評分法應(yīng)用情況調(diào)查,87篇被調(diào)查的文獻中,采用Probit回歸估計傾向評分值的文獻有6篇,約占調(diào)查總數(shù)的11.7%〔4〕。

Probit回歸模型的優(yōu)點在于其殘差平方和比logitstic回歸的殘差平方和小,擬合效果優(yōu)于logistic回歸模型;缺點在于其結(jié)果的解釋不如logistic回歸直觀〔8〕。logit函數(shù)經(jīng)計算可得OR值,表示暴露組與對照組風(fēng)險的優(yōu)勢比,實際意義比較直觀;而probit的函數(shù)表示累積標(biāo)準(zhǔn)正態(tài)分布函數(shù)的逆函數(shù)或反函數(shù),不易解釋。因而,Probit回歸應(yīng)用不如logistic回歸廣泛。

機器學(xué)習(xí)估計方法

伴隨著海量數(shù)據(jù)的積累,如何處理高維數(shù)據(jù)(即帶有大量協(xié)變量的數(shù)據(jù))成為醫(yī)學(xué)研究的難點問題。logistic回歸等傳統(tǒng)的統(tǒng)計方法在處理高維數(shù)據(jù)方面明顯能力不足,于是越來越多的學(xué)者開始探索如何將機器學(xué)習(xí)的方法引入傾向性評分法的領(lǐng)域。Breiman在他的文章“Statistical Modeling:The Two Cultures”中指出機器學(xué)習(xí)的分類算法比傳統(tǒng)的統(tǒng)計方法表現(xiàn)更為出色,尤其是對于高維數(shù)據(jù)〔9〕。例如,當(dāng)協(xié)變量個數(shù)大于樣本量時,則無法構(gòu)建logistic回歸模型,由此便不能通過協(xié)變量獲得有價值的信息。相比之下,人工神經(jīng)網(wǎng)絡(luò)等許多機器學(xué)習(xí)的方法則可以游刃有余地處理此類問題。因此,引入機器學(xué)習(xí)方法,可大大提高傾向性評分值估計的精確性和準(zhǔn)確性??捎糜诠烙媰A向評分值或進行傾向分類的算法有很多,以下主要介紹神經(jīng)網(wǎng)絡(luò)、支持向量機、分類與回歸樹和Boosting算法等幾種常用方法。

1.神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)(neural network,NN),又稱人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN),是模仿人腦結(jié)構(gòu)和功能而建立起來的、以復(fù)雜的數(shù)學(xué)運算規(guī)則為基礎(chǔ)的一種信息處理系統(tǒng)。神經(jīng)網(wǎng)絡(luò)由三部分構(gòu)成:包括輸入層(input layer)、輸出層(output layer)、隱藏層(Hidden layer),其基本工作原理在于通過處理輸入層和輸出層的數(shù)字信號來找出它們相互間的聯(lián)系而獲得相關(guān)的經(jīng)驗。神經(jīng)網(wǎng)絡(luò)的基本處理單元是智能節(jié)點,又稱神經(jīng)元。每個層均有若干個節(jié)點,各節(jié)點之間互相連接,上一層神經(jīng)元的輸出信號根據(jù)其權(quán)重調(diào)整后成為下一層神經(jīng)元的輸入信號,并得出最終信息。人工神經(jīng)網(wǎng)絡(luò)工作的一個重要前提是網(wǎng)絡(luò)必須經(jīng)過訓(xùn)練,當(dāng)對網(wǎng)絡(luò)提供某些已知的輸出結(jié)果進行訓(xùn)練后,網(wǎng)絡(luò)便掌握了對輸入信息處理并判斷決策的能力〔10〕。

神經(jīng)網(wǎng)絡(luò)估計傾向性評分值的基本原理是將所有可觀察到的協(xié)變量作為各輸入值,通過層內(nèi)權(quán)重調(diào)整計算,輸出值為研究對象分配到某個類別的概率或者研究對象是否分配到某個類別。如研究他汀類藥物和死亡率之間的關(guān)系時,可采用神經(jīng)網(wǎng)絡(luò)方法預(yù)測在年齡、性別等協(xié)變量存在的條件下患者被分配到他汀組的概率,如圖1所示,年齡、性別、BMI值等作為輸入值,輸出值為服用他汀類藥物的概率,即傾向評分值〔11〕。

圖1 三層神經(jīng)網(wǎng)絡(luò)的基本形式

相對于logistic回歸而言,神經(jīng)網(wǎng)絡(luò)有兩個主要的優(yōu)勢。第一,在高維數(shù)據(jù)的情況下,神經(jīng)網(wǎng)絡(luò)的分類更準(zhǔn)確;第二,一個足夠復(fù)雜(即有足夠節(jié)點)的神經(jīng)網(wǎng)絡(luò)可對任何一個多項式函數(shù)進行估計,包含任意的多項式和任意的交互項,而不需要像logistic回歸模型一樣,在構(gòu)建模型之前要先考慮哪些自變量之間會有交互作用,哪些自變量之間有線性關(guān)系或非線性關(guān)系。另外,神經(jīng)網(wǎng)絡(luò)可產(chǎn)生分類的概率,并且可通過SAS、R等軟件實現(xiàn),這些都讓神經(jīng)網(wǎng)絡(luò)成為估計傾向評分值的一個可選工具〔11〕。

然而,神經(jīng)網(wǎng)絡(luò)在技術(shù)上仍存在一些難以解決的問題,如結(jié)構(gòu)選擇問題,局部極小值問題,過度擬合問題等。雖然多個作者提到可將神經(jīng)網(wǎng)絡(luò)用于估計傾向評分值〔12-13〕,也有作者將神經(jīng)網(wǎng)絡(luò)與 logistic回歸進行了比較,但由于其存在上述的缺陷,目前僅發(fā)現(xiàn)一篇神經(jīng)網(wǎng)絡(luò)在傾向性評分中的模擬研究〔14〕。該文章的作者Setoguchi通過模擬發(fā)現(xiàn),與logistic回歸相比,無論在哪種情況下神經(jīng)網(wǎng)絡(luò)估計傾向評分值產(chǎn)生的偏倚均更小,尤其是在非線性關(guān)系存在的情況下二者差別更為明顯。針對特定情況,優(yōu)化神經(jīng)網(wǎng)絡(luò),將估計傾向評分值的過程標(biāo)準(zhǔn)化,仍需深入的研究。

2.支持向量機

支持向量機(support vector machines,SVMs)屬于廣義線性分類器,其基本原理是將原始樣本空間“升維”,即通過非線性函數(shù)(稱為核函數(shù))將原始觀測點映射到高維甚至無窮維空間,然后在高維空間中尋找一個使得屬于兩個不同類的樣品點間隔最大的平面(稱為最大間隔超平面),從而達到將樣品分類的目的。多分類問題可以通過多個二類支持向量機的組合來解決。支持向量機在很多實際的分類問題中都證實非常有效,例如垃圾郵件檢測、癌癥分類等。

支持向量機應(yīng)用于傾向評分估計的基本原理是根據(jù)所有可觀察得到的協(xié)變量構(gòu)建核函數(shù),找到一個最大間隔超平面,對患者進行傾向性分類。如圖2所示,研究是否定期進行結(jié)腸癌篩查對死亡率的影響時,通過由年齡和年收入構(gòu)建的核函數(shù),可找到一個如虛線所示的最大間隔超平面,將患者分為兩類,平面之上為有定期進行結(jié)腸癌篩查傾向的患者,平面之下為沒有定期進行結(jié)腸癌篩查傾向的患者。但該方法無法得到患者被分配到兩類的概率,因而也無法得到傾向評分值〔11〕。

圖2 一個簡單的線性分類

在應(yīng)用于傾向性評分估計方面,支持向量機不僅可解決logistic回歸中共線性、非線性問題,以及交互作用、協(xié)變量個數(shù)過多等由于高維數(shù)據(jù)帶來的諸多問題,還可以避免神經(jīng)網(wǎng)絡(luò)算法的局部極值問題。

然而,支持向量機的最大的缺陷在于無法得到確切的傾向評分值,只能判別傾向分類。而基于支持向量機改進后的導(dǎo)入向量機(import vector machine,IVM)雖然可得到分類的概率,卻由于其計算軟件沒有廣泛推廣而使該問題無法得到真正解決。此外,如何選擇合適的核函數(shù)也往往影響到其實際應(yīng)用效果,大多數(shù)非專業(yè)人士難以理解、掌握〔11〕。目前僅檢索到一篇支持向量機應(yīng)用于傾向評分法的文獻。該文章介紹了一種預(yù)測B細胞表位的新方法,其中運用了支持向量機將蛋白質(zhì)序列片段按各自的傾向分配到表位區(qū)與非表位區(qū)兩個分類〔15〕。

3.分類與回歸樹

分類與回歸樹(catigorical and regression tree,CART)是一種樹型分類方法,目的是將研究人群通過設(shè)定的危險因素分成若干個相對同質(zhì)的亞人群。其結(jié)構(gòu)類似一棵倒置的樹,由主干和許多分支組成。在樹中有許多節(jié)點即樹結(jié)(tree node),以橢圓形框和方形框表示。橢圓形框為中間結(jié),表示各項危險因素(或協(xié)變量)。長方形框為終止結(jié)(end node)。每個樹結(jié)中的數(shù)字為分析結(jié)果,在橢圓形框下方標(biāo)有判別條件,樹結(jié)間有實線連接。終止結(jié)內(nèi)為病例數(shù)或?qū)φ諗?shù),其下方為對應(yīng)的概率〔16〕。CART的中間計算過程非常復(fù)雜,其大致的過程包括先建立一棵完整的樹,然后用交叉印證(cross validation)的方法從末梢開始“剪枝”,直到“剪枝”后的模型明顯變差為止。

以在軍隊人員中預(yù)測是否接種天花疫苗為例,如圖3所示,年齡、2001年是否有執(zhí)行任務(wù)兩個危險因素為中間結(jié),終止結(jié)為接種疫苗人數(shù)及未接種疫苗人數(shù),其對應(yīng)的概率表示在給定危險因素(或協(xié)變量)的條件下被分配到病例組或?qū)φ战M的概率,前者即為傾向評分值〔11〕。

圖3 分類與回歸樹簡單示意圖

CART的理論模型不要求自變量與應(yīng)變量具有某種特定的分布,可用于任何分布類型的資料〔11〕;可將所有變量納入分析過程,可評價交互作用,可避免共線性對結(jié)果的影響,并且能有效處理缺失數(shù)據(jù),結(jié)果直觀、明了、易于解釋。

與其他統(tǒng)計分析方法一樣,CART自身也存在缺點。如CART模型的穩(wěn)定性較差,用類似研究資料建立的樹形模型往往存在差異。CART本身是一種大樣本的統(tǒng)計分析方法,樣本量較小時模型更不穩(wěn)定。對于內(nèi)部同質(zhì)性較好的數(shù)據(jù),CART分析的結(jié)果與其他分析方法得到的結(jié)果基本一致〔16〕。

目前已有多項研究采用CART方法估計傾向評分值〔14,17-18〕。Stone 等人運用該方法估計了患有社區(qū)獲得性肺炎的住院和門診病人的傾向評分值,以均衡兩組治療前的混雜偏倚〔17〕。Pruzek等人將該方法運用于比較兩種膽囊手術(shù)〔18〕。Setoguchi等人將CART方法與logistic回歸方法進行比較,證明采用CART方法估計得到的傾向評分值的偏倚更小〔14〕。

4.Boosting 算法

Boosting算法是一種基于其他機器學(xué)習(xí)算法之上的用來提高算法精度和性能的方法。這種方法通過構(gòu)造一個預(yù)測函數(shù)系列,然后以一定的方式將它們組合成一個預(yù)測函數(shù),達到把一弱學(xué)習(xí)算法提升為強學(xué)習(xí)算法的目的。當(dāng)應(yīng)用于高維數(shù)據(jù)分析時,不需要構(gòu)造一個擬合精度高、預(yù)測能力好的算法,只要一個效果只比隨機猜測略好的粗糙算法即可,稱之為基算法。通過不斷地調(diào)用這個基算法就可以獲得一個擬合和預(yù)測誤差都相當(dāng)好的組合預(yù)測模型〔19〕。Boosting算法可以應(yīng)用于任何的基礎(chǔ)算法,無論是線性回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、還是SVM方法,都可以有效地提高精度。因此,Boosting可以被視為一種通用的增強基礎(chǔ)算法性能的回歸分類分析算法〔19〕。

廣義Boosting算法(GBM)將通過迭代形成的簡單回歸樹模型的集合疊加在一起估計傾向評分值p(x)。p(x)通過其對數(shù)優(yōu)勢g(x)=log(p(x)/(1-p(x)))間接得到。計算步驟如下:

第一步:設(shè)定g(x)的初始值為

第二步:尋找一個調(diào)整函數(shù)h(x),與g(x)相加,并提高模型的擬合程度。擬合度為下列方程的Bernoulli對數(shù)似然估計,值越大說明擬合程度越好。

調(diào)整函數(shù)h(x)可以為任意形式,此處為回歸樹,用以估計當(dāng)前擬合的預(yù)測誤差。當(dāng)算法找到能提高模型擬合度的調(diào)整函數(shù),模型的對數(shù)優(yōu)勢g(x)就變成g(x)+h(x)。通過不斷迭代,每疊加一次調(diào)整函數(shù),對數(shù)似然估計值就會相應(yīng)增加,直到協(xié)變量的標(biāo)準(zhǔn)化絕對均數(shù)差的平均值(average standardized absolute mean difference,ASAM)達到最小時,停止迭代。使用回歸樹模型估計殘差相當(dāng)于估計對數(shù)似然函數(shù)的導(dǎo)數(shù)。因此,GBM實際上是對傾向評分值的對數(shù)優(yōu)勢g(x)求極大似然估計的算法〔20〕。

與決策樹、神經(jīng)網(wǎng)絡(luò)以及SVMs相比,Boosting算法不但能提高這些算法的精度,且通常情況下不會產(chǎn)生過度擬合的問題,還可直接得到傾向評分值。另外,SAS,STATA和 R等多個軟件均可實現(xiàn)Boosting算法。美中不足的是,Boosting算法不能提供可解釋的系數(shù)〔20〕。但該缺陷對估計傾向評分值并沒有太大影響。McCaffrey等人和Harder等人均將廣義Boosting模型成功地運用于傾向評分值的估計〔20-21〕。McCaffrey等人將該方法應(yīng)用于一項青少年濫用藥物的感化治療方案研究中〔20〕。Harder等人則在一項使用大麻對后期抑郁癥發(fā)展的預(yù)測研究中運用該方法對大麻使用者和非大麻使用者進行了基線均衡〔21〕。

討 論

無論是logistic回歸、Probit回歸等傳統(tǒng)統(tǒng)計方法還是神經(jīng)網(wǎng)絡(luò)、Boosting算法等機器學(xué)習(xí)方法,在估計傾向評分值方面都各有利弊,但總體而言,機器學(xué)習(xí)方法優(yōu)于logistic回歸等傳統(tǒng)統(tǒng)計方法?,F(xiàn)從以下六個方面進行簡要的總結(jié)比較:

(1)變量選擇 logistic回歸等傳統(tǒng)統(tǒng)計方法在構(gòu)建估計傾向評分值的模型時需涉及變量的選擇問題。根據(jù)國外多項研究結(jié)果,變量選擇的標(biāo)準(zhǔn)應(yīng)該是納入所有與結(jié)局變量有關(guān)的變量,具體應(yīng)結(jié)合相關(guān)學(xué)科專業(yè)知識進行選擇〔23〕,但無論是經(jīng)驗選擇或者是逐步選擇都會導(dǎo)致模型的均方誤差較大〔11〕。機器學(xué)習(xí)方法則無須進行變量選擇。

(2)模型假設(shè) logistic回歸等傳統(tǒng)統(tǒng)計方法需滿足對數(shù)線性等參數(shù)假設(shè),機器學(xué)習(xí)方法則不需要。

(3)高維數(shù)據(jù) 對于高維數(shù)據(jù),變量之間可能存在各種各樣的線性及非線性關(guān)系或交互作用,機器學(xué)習(xí)方法在處理這些問題方面有著明顯的優(yōu)勢。

(4)缺失數(shù)據(jù) 若某個或某幾個協(xié)變量存在缺失,logistic回歸等傳統(tǒng)統(tǒng)計方法便無法直接得到傾向評分值,需先進行缺失值填補。而機器學(xué)習(xí)方法允許缺失數(shù)據(jù)的存在。

(5)軟件應(yīng)用 logistic回歸等傳統(tǒng)統(tǒng)計方法與機器學(xué)習(xí)方法中的分類與回歸樹、Boosting算法均可在SAS、R、Stata等多種軟件中實現(xiàn),神經(jīng)網(wǎng)絡(luò)可通過R、SAS軟件進行計算,支持向量機則只能通過R軟件計算。

(6)概率計算 logistic回歸、分類與回歸樹、Boosting算法均可計算得到傾向評分值,支持向量機的最大的缺陷在于只能判別傾向分類,雖然改進后的導(dǎo)入向量機可計算傾向評分值,但其計算軟件沒有廣泛推廣,使得該方法在傾向性評分法領(lǐng)域也難以得到廣泛應(yīng)用。

表1 各種方法的比較〔11〕

(7)難易程度 毋庸置疑,logistic回歸等傳統(tǒng)統(tǒng)計方法是最簡單的。在機器學(xué)習(xí)方法中,神經(jīng)網(wǎng)絡(luò)在技術(shù)上仍存在一些難以解決的問題,如結(jié)構(gòu)選擇問題,局部極小值問題,過度擬合問題等,分類與回歸樹則存在需要剪枝等問題,因而,有學(xué)者提出,Boosting算法應(yīng)成為今后關(guān)注的焦點〔11〕。

展 望

由于研究費用高、倫理學(xué)因素、實際操作困難、不適用于周期很長的研究、結(jié)論外推受限等諸多問題,臨床試驗的大規(guī)模應(yīng)用受到一定的限制。而醫(yī)院信息化的發(fā)展,使得大量臨床觀察性數(shù)據(jù)唾手可得,為醫(yī)學(xué)和政策問題的研究和解決提供了巨大的平臺。傾向評分法,作為處理觀察性研究中混雜偏倚的有力工具,具有廣泛的應(yīng)用前景。無論是logistic回歸、Probit回歸等傳統(tǒng)統(tǒng)計方法還是神經(jīng)網(wǎng)絡(luò)、Boosting算法等機器學(xué)習(xí)方法,在估計傾向評分值方面都各有利弊,僅采用簡單的logistic回歸估計傾向評分值可能會降低該方法的有效性,在處理高維數(shù)據(jù)時,Boosting算法是值得推薦的方法。在實際應(yīng)用時,應(yīng)具體問題具體分析,根據(jù)不同的數(shù)據(jù)特點選擇不同的方法。

1.王永吉,蔡宏偉,夏結(jié)來,等.傾向指數(shù)的基本概念和研究步驟.中華流行病學(xué)雜志,2010,31(3):347-348.

2.Rosenbaum PR,Rubin DB.The central role of the propensity score in observational studies for causal effects.Biometrika,1983,70:41-55.

3.Weitzen S,Lapane KL,Toledano AY,et al.Principles for modeling propensity scores in medical research:a systematic literature review.Pharmacoepidemiol Drug Safety,2004,13:841-853.

4.Thoemmes FJ,Kim ES .A Systematic Review of Propensity Score Methods in the Social Sciences.Multivariate Behavioral Research,2011,46(1):90 -118.

5.D’Agostino RB.Propensity score methods for bias reduction in the comparison of a treatment to a non-randomized control group.Stat Med,1998,17:2265-2281.

6.Cepeda MS,Boston R,F(xiàn)arrar JT,et al.Comparison of logistic regression versus propensity score when the number of events is low and there are multiple confounders.Am J Epidemiol,2003,158:280-287.

7.Cepeda1 MS,Ray B.Comparison of Logistic Regression versus Propensity Score When the Number of Events Is Low and There Are Multiple Confounders.Am J Epidemiol,2003,158:280-287.

8.李其富.Logistic回歸模型與Probit模型及其在刑事作案人員分析中的應(yīng)用.四川警官高等??茖W(xué)校學(xué)報,2012,14(4):9-13.

9.Breiman L.Statistical modeling:the two cultures.Stat Sci,2001,16:199-231.

10.李軍,楊秀蘭,張偉,等.人工神經(jīng)網(wǎng)絡(luò)應(yīng)用臨床醫(yī)學(xué)診斷的思考.醫(yī)學(xué)與哲學(xué),2008,29(10):60-62.

11.Westreicha D,Lesslerc J,F(xiàn)unk MJ.Propensity score estimation:neural networks,support vector machines,decision trees(CART),and metaclassifiers as alternatives to logistic Regression.Journal of Clinical Epidemiology,2010,63:826-833.

12.Glynn RJ,Schneeweiss S,Sturmer T.Indications for propensity scores and review of their use in pharmacoepidemiology.Basic Clin Pharmacol Toxicol,2006,98:253-259.

13.Cavuto S,Bravi F,Grassi M,et al.Propensity score for the analysis of observational data:an introduction and an illustrative example.Drug Dev Res,2006,67:208-216.

14.Setoguchi S,Schneeweiss S,Brookhart MA,et al.Evaluating uses of data mining techniques in propensity score estimation:a simulation study.Pharmacoepidemiol Drug Safety,2008,17:546-555.

15.Sweredoski MJ.Baldi P:a novel system for predicting continuous B-cell epitopes.Protein Eng Des Sel,2009,22:113-120.

16.武艷華,史寶林,葛麗平.分類與回歸樹分析方法及其在醫(yī)學(xué)研究中的應(yīng)用.河北北方學(xué)院學(xué)報,2008,25(6):72-73.

17.Stone,RA,Obrosky DS,Singer DE,et al.Propensity score adjustment for pretreatment differences between hospitalized and ambulatory patients with community-acquired pneumonia.Medical Care,1995,33(4):56-66.

18.Pruzek,RM,Cen L.Propensity score analysis with graphics:A comparison of two kinds of gallbladder surgery.Paper presented at the annual meeting of the Society for Multivariate Experimental Psychology.Charlottesville,VA.2002.

19.賈慧殉,劉晉,李康.Boosting方法在高維數(shù)據(jù)分析中的應(yīng)用.中國醫(yī)院統(tǒng)計,2011,18(1):1-5.

20.McCaffrey DF,Ridgeway G,Morral AR.Propensity score estimation with boosted regression for evaluating causal effects in observational studies.Psychol Methods,2004,9:403-25.

21.Harder VS,Morral AR,Arkes J.Marijuana use and depression among adults:testing for causal associations.Addiction.2006,101:1463-72.

22.李智文,李宏田,張樂.用SPSS宏程序?qū)崿F(xiàn)觀察對象的傾向評分配比.中國衛(wèi)生統(tǒng)計,2011,28(1):89-92.

23.王永吉,蔡宏偉,夏結(jié)來.傾向指數(shù)第三講應(yīng)用中的關(guān)鍵問題.中華流行病學(xué)雜志,2010,3l(7):823-825.

猜你喜歡
傾向性高維向量
向量的分解
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
聚焦“向量與三角”創(chuàng)新題
一種改進的GP-CLIQUE自適應(yīng)高維子空間聚類算法
基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
向量垂直在解析幾何中的應(yīng)用
關(guān)于醫(yī)患沖突報道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
一般非齊次非線性擴散方程的等價變換和高維不變子空間
“沒準(zhǔn)兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
語言與翻譯(2015年4期)2015-07-18 11:07:43
定襄县| 项城市| 永顺县| 同心县| 赞皇县| 马鞍山市| 金山区| 张北县| 名山县| 拉萨市| 通江县| 鲁山县| 临泽县| 全州县| 从江县| 苍溪县| 兰西县| 忻城县| 安西县| 民乐县| 夏河县| 略阳县| 迭部县| 贵阳市| 兴文县| 伊吾县| 大渡口区| 苗栗市| 江永县| 定远县| 台湾省| 耒阳市| 景洪市| 临安市| 马尔康县| 平果县| 临洮县| 和田市| 固原市| 溧水县| 阜新市|