毛敏 吳彥亭 張子巖
摘 要:肝纖維無創(chuàng)診斷是無創(chuàng)傷對肝組織纖維化監(jiān)測的方法,其發(fā)展可以有效減少對肝病患者帶來的不適,具有極大的實用性。本文基于主成分分析法、方差齊性檢驗篩選法以及Logistic回歸分析法建立肝纖維化無創(chuàng)診斷模型,繼而采用LOF算法對數(shù)據(jù)分布差異進(jìn)行修正從而提高模型應(yīng)用的精確度。從而得出科學(xué)、合理的診斷方程,為肝纖維化的診療提供理論依據(jù)。
關(guān)鍵詞:指標(biāo)聚類模型;主成分分析法;ROC曲線模型;LOF算法;肝纖維無創(chuàng)診斷模型
1模型一的建立與求解:基于主成分分析的指標(biāo)聚類模型
我們首先通過機理分析法對部分格式明顯異常的數(shù)據(jù)作預(yù)處理,接下來對預(yù)處理后的樣本數(shù)據(jù),依照modified-80%準(zhǔn)則對附件提供的30項指標(biāo)進(jìn)行剔除,并對處理后的指標(biāo)下屬殘缺數(shù)據(jù)作類均值插補。而后,根據(jù)拉伊達(dá)準(zhǔn)則剔除異常數(shù)據(jù),將剩余樣本數(shù)據(jù)作歸一化處理,得到合理化的樣本數(shù)據(jù),并通過顯著性檢驗。最后采用主成分分析法來對指標(biāo)進(jìn)行遴選歸類,以期找出他們的內(nèi)在聯(lián)系。
STEP1:計算指標(biāo)矩陣的特征值與特征向量。
STEP2:確定p個主成分,進(jìn)行統(tǒng)計分析。
STEP3:進(jìn)行KMO和Bartlett的檢驗來分析得數(shù)據(jù)可信度和效度是否符合數(shù)學(xué)標(biāo)準(zhǔn)。
STEP4:運用SPSS統(tǒng)計軟件對基于主成分分析的指標(biāo)聚類模型進(jìn)行求解,求解共計得到[?1],[?2],[?3],[?4],[?5],[?6],[?7],[?8]此八項主成分。
2模型二的建立和求解:基于方差齊性檢驗的ROC曲線模型
為了降低主觀性的因素的影響,在此我們引入基于方差齊性檢驗的ROC曲線模型,通過運用方差齊性檢驗的方法對各獨立測量樣本做顯著性檢驗,并通過SPSS統(tǒng)計軟件對指標(biāo)是否存在意義做劃分并進(jìn)一步做出篩選,最終通過對此典型基于樣本的定性定量相結(jié)合的模型進(jìn)行求解,得到13項相關(guān)指標(biāo)。
最終將兩種模型的指標(biāo)劃分做定性對比,通過分析兩種模型結(jié)果的交集,得出問題一所要求的指標(biāo),即特征。
通過兩種模型求解結(jié)果的整合,甚至說是基于方差齊性檢驗的ROC曲線模型對基于主成分分析的指標(biāo)聚類模型的修正,我們最終選定的指標(biāo)為:PTS、IV型膠原、III型前膠原、體重、身高、AST、透明質(zhì)酸、年齡和ALT。
3模型三的建立和求解:基于Logistic回歸分析法的肝纖維化無創(chuàng)診斷模型
STEP1:提取自變量和因變量。在此,我們以肝纖維化無創(chuàng)診斷模型為因變量,以問題一雙模型篩選的九項指標(biāo)為自變量。設(shè)置變量為模型求解做準(zhǔn)備。
STEP2:根據(jù)Logistic回歸模型的要求,得到回歸模型的基本形式。
STEP3:運用MATLAB2014b處理軟件,對基于Logistic回歸分析法的肝纖維化無創(chuàng)診斷模型進(jìn)行求解,并采用似然比來檢驗?zāi)P驼w的擬合效果,其中將判斷概率的閾值設(shè)定為0.05,以保證數(shù)據(jù)的有效性和說服力。
經(jīng)過統(tǒng)計,回歸分析的預(yù)測準(zhǔn)確率高達(dá)78.11%,模型擬合程度較好,所以我們認(rèn)為指標(biāo)體系內(nèi)的PTS、Ⅳ型膠原、Ⅲ型前膠原、體重、身高、AST、透明質(zhì)酸、年齡和ALT這9項指標(biāo)對于肝纖維化無創(chuàng)診斷模型的貢獻(xiàn)程度毋庸置疑,即足以根據(jù)以上9個特征對肝纖維化無創(chuàng)診斷提供具有說服力的病理診斷依據(jù)。
參考文獻(xiàn)
[1]Bijlsma,Sabina,IvanaBobeldijk,ElwinR.Verheij,RaymondRamaker,SunilKochhar,IanA.Macdonald,BenVanOmmen,andAgeK[J].Smilde,2006.
[2]張敏,袁輝.拉依達(dá)(PauTa)準(zhǔn)則與異常值剔除[J].鄭州工業(yè)大學(xué)學(xué)報,1997(1):84-88.
[3]姜啟源,謝金星,葉俊.數(shù)學(xué)模型(第三版)[M].北京:高等教育出版社,2006,9.
[4]李洪,宮兆寧,趙文吉等.基于Logistic回歸模型的北京市水庫濕地演變驅(qū)動力分析[J].地理學(xué)報,2012,67(3):357-367.
[5]姜廣輝,張鳳榮,陳軍偉等.基于Logistic回歸模型的北京山區(qū)農(nóng)村居民點變化的驅(qū)動力分析[J].農(nóng)業(yè)工程學(xué)報,2007,23(5):81-87.
[6]陳溟.基于模糊局部離群因子(LOF)的信用卡欺詐檢測研究[J].金融理論與實踐,2016(10):54-57.