賴辰霄
摘要:采用logistic回歸,逐步回歸以及假設(shè)檢驗等統(tǒng)計知識,對Coimbra 乳腺癌的數(shù)據(jù)(http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra)分類分析,得到BMI,Glucose,Insulin,HOMA,Resistin等五個變量為影響乳腺癌的主要變量,并且得到了各個變量前的系數(shù)。與此同時,計算了預測準確率其中健康人群的預測準確率為75%,癌癥患者的預測準確率達到了77%。為了進一步證明模型的可行性,我們采用了假設(shè)檢驗進行檢驗,通過p值和t值可以看出我們得到的變量都通過了檢驗。
關(guān)鍵詞:乳腺癌;logistic回歸;逐步回歸;假設(shè)檢驗;p值
中圖分類號:F24文獻標識碼:Adoi:10.19311/j.cnki.16723198.2019.08.042
1序言
乳腺癌是發(fā)生在乳腺上皮組織的惡性腫瘤,乳腺并不是維持人體生命活動的重要器官,原位乳腺癌并不致命;但由于乳腺癌細胞喪失了正常細胞的特性,細胞之間連接松散,容易脫落。癌細胞一旦脫落,游離的癌細胞可以隨血液或淋巴液播散全身,形成轉(zhuǎn)移,危及生命,所以目前乳腺癌已成為威脅女性身心健康的常見腫瘤。在全球范圍內(nèi),乳腺癌是女性的主要癌癥類型,占所有病例的25%。在2012年,它導致了168萬例新病例和522000例死亡。影響乳腺癌發(fā)病的因素有很多,本文旨在通過對于乳腺癌發(fā)病者特征的數(shù)據(jù)收集整理,運用多元線性回歸的知識擬合出一個具體的模型,從而探究乳腺癌發(fā)病的某些規(guī)律,找出影響乳腺癌的主要因素,以及這些因素和乳腺癌之間的相關(guān)關(guān)系。利用相關(guān)的統(tǒng)計檢驗對建立的模型就行檢驗,并配以統(tǒng)計的相關(guān)軟件R語言對搜集的數(shù)據(jù)進行計算機模擬建模。所使用的R語言軟件的版本為R-3.4.4。相應(yīng)的數(shù)據(jù)獲取地址為:http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra 。該數(shù)據(jù)來源于:Miguel Patrício(miguelpatricio '@' gmail.com),José Pereira (jafcpereira '@' gmail.com),Joana Crisóstomo (joanacrisostomo '@' hotmail.com),Paulo Matafome(paulomatafome '@' gmail.com),Raquel Seia(rmfseica '@' gmail.com),F(xiàn)rancisco Caramelo(fcaramelo '@' fmed.uc.pt),all from the Faculty of Medicine of the University of Coimbra and also Manuel Gomes (manuelmgomes '@' gmail.com) from the University Hospital Centre of Coimbra 獲取的日期為:2018年3月6日。
乳腺癌的病因尚未完全清楚,研究發(fā)現(xiàn)乳腺癌的發(fā)病存在一定的規(guī)律性,具有乳腺癌高危因素的女性容易患乳腺癌。所謂高危因素屬于與乳腺癌發(fā)病有關(guān)的各種危險因素,而大多數(shù)乳腺癌患者都具有的危險因素就稱為乳腺癌的高危因素。發(fā)展乳腺癌的危險因素包括女性、肥胖、缺乏體育鍛煉、飲酒、更年期激素替代療法、電離輻射、月經(jīng)初潮、較晚生育或根本沒有孩子、年齡較大、乳腺癌的既往史,家族史等。
本文在了解乳腺癌的當前現(xiàn)狀后,使用統(tǒng)計學的手段。首先收集數(shù)據(jù),來自于http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Coimbra 。通過分析數(shù)據(jù)的結(jié)構(gòu),該數(shù)據(jù)的應(yīng)變量為二分類數(shù)據(jù),適用于統(tǒng)計的Logistic回歸的研究。采用Logistic回歸,逐步回歸,假設(shè)檢驗等統(tǒng)計手段我們得到合適的模型,找到影響因子以及模型的參量。
4總結(jié)
本文采用logistic回歸,逐步回歸以及t檢驗和F檢驗等統(tǒng)計知識,對Coimbra 乳腺癌的數(shù)據(jù)進行分析,得到相應(yīng)的統(tǒng)計模型。根據(jù)該數(shù)據(jù)本身具有的應(yīng)變量為類別變量,我們相應(yīng)的選取logistic 模型,又在建模的過程中為了進一步的優(yōu)化所得到的模型,我們選取逐步回歸的方法得到了BMI,Glucose,Insulin,HOMA,Resistin等五個變量為影響乳腺癌的主要變量,對應(yīng)的我們得到了他們相應(yīng)的系數(shù)關(guān)系,最后為了說明模型的可行性,我們采用了假設(shè)檢驗,并通過t值和P值可以看出我們得到的變量都通過了檢驗。與此同時,采用我們的方法和這組數(shù)據(jù),我們對預測的結(jié)果計算了預測準確率,其中健康人群的預測準確率為75%,癌癥患者的預測準確率達到了77%。但是值得注意的是:
(1)數(shù)據(jù)里面的y值是1表示健康人群,2表示乳腺癌患者,但在我們的模型中為了使用logistic回歸的方便,我們把y值為1的部分都全部用0表示,也就是說健康人群最終模擬的結(jié)果應(yīng)該是預測為0的部分。同理,y值為2的部分全部用1表示,也即,乳腺癌患者的結(jié)果預測值應(yīng)該為1。
(2)由于實際的數(shù)據(jù)是連續(xù)的實數(shù),所以我們得到的y值不會確切的等于0或者1,為此我們在處理的過程中,在y值大于0.5的時候記為1,其他記為0。
但是,對于乳腺癌的研究在以前有相當一部分的研究。本文最終得到的結(jié)果是基于數(shù)據(jù)而來的,對于不同的研究機構(gòu)會有不同自變量的數(shù)據(jù),所以得到的影響乳腺癌的因素和本文的不一致也就是理所當然的。為此,本文在接下來的工作中應(yīng)該查閱更多的資料以及搜集更多的數(shù)據(jù)為研究乳腺癌做出更多貢獻。
參考文獻
[1]全球癌癥報告2014[R].世界衛(wèi)生組織2014.
[2]Selvaraju,Balasubramaniam,D.Rajendran,D.Kannan and M.Geetha.Multiple linear regression model for forecasting Bluetongue disease outbreak in sheep of North-west agroclimatic zone of Tamil Nadu,India[J].Oringnal Research,2013:321324.
[3]吳高鳳,劉慶曉.應(yīng)用統(tǒng)計基礎(chǔ).[M].北京:中國人民大學出版社,2017.
[4]湯銀才.R語言與統(tǒng)計分析[M].北京:高等教育出版社,2008:166169.
[5]Diane J.Berry.,Karani S.Vimaleswaran,John C.Whittaker,Aroon D.Hingorani,Elina Hyppo¨ nen.Evaluation of Genetic Markers as Instruments for Mendelian Randomization Studies on Vitamin D[J].Plose One,2012,7(5):37465.
[6]Breast Cancer Coimbra Data Set[DB/OL].2018.
[7]Patrício,M.,Pereira,J.,Crisóstomo,J.,Matafome,P.,Gomes,M.,Seia,R.,& Caramelo,F(xiàn).Using Resistin,glucose,age and BMI to predict the presence of breast cancer[J].BMC,2018.
[8]David Hallac,Jure Leskovec,Stephen Boyd.Network Lasso:Clustering and Optimization in Large Graphs[J].ACM,2015.