国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Logistic模型的惡性腫瘤影響因素分析

2019-04-14 11:25:52張姝張輝劉珉慧
關(guān)鍵詞:肝氣證型病程

張姝,張輝,劉珉慧

(中國傳媒大學(xué) 數(shù)據(jù)科學(xué)與智能媒體學(xué)院,北京100024)

1 引言

如今,不僅是年長的人也不僅是中國人接受并喜愛中醫(yī),這是一個(gè)中醫(yī)在全世界都很火熱的時(shí)代,中醫(yī)治療講究先歸納證型再以辨證論制定治療原則。世界衛(wèi)生組織于2018年10月1日首次在其具有全球影響力的醫(yī)學(xué)綱要中加入了中醫(yī)部分[1],針對(duì)中醫(yī)的數(shù)據(jù)進(jìn)行科學(xué)的建模,可以對(duì)病情的預(yù)測、病因的確定、治療方法的制定提供更多科學(xué)性的幫助。在對(duì)中醫(yī)證型進(jìn)行關(guān)聯(lián)分析的基礎(chǔ)上構(gòu)建Logistic模型,可以通過對(duì)病人的信息建立數(shù)據(jù)庫,進(jìn)而從大量的數(shù)據(jù)中找出某些因素之間妙不可言的關(guān)聯(lián),尤其對(duì)研究對(duì)象的影響因素進(jìn)行更加深入和深刻的分析。

目前,很多醫(yī)學(xué)上的危險(xiǎn)因素分析和病情預(yù)測都利用到了構(gòu)建Logistic模型。李嘉,徐繼威等人(2018)在研究脾切除術(shù)后門脈系統(tǒng)血栓形成的高危因素時(shí),根據(jù)63例脾切除術(shù)案例建立了多元Logistic回歸模型,最終發(fā)現(xiàn)影響脾切除術(shù)后門脈系統(tǒng)血栓形成的危險(xiǎn)因素,尤其發(fā)現(xiàn)了影響術(shù)后血栓形成的獨(dú)立高危因素,此項(xiàng)研究可以為不同患者的個(gè)性化治療提供參考,有助于預(yù)防門脈血栓的形成以及幫助患者盡早恢復(fù)[2];阮承蘭、張駿飛等人(2014)利用Logistic模型找到了肝衰竭預(yù)后的預(yù)測模型,篩選出了可能影響肝衰竭預(yù)后的因素,在此基礎(chǔ)上建立了二項(xiàng)Logistic回歸模型,并且了繪制ROC曲線,得到了準(zhǔn)確率較高的擬合回歸方程,對(duì)肝衰竭預(yù)后的預(yù)測有一定的指導(dǎo)作用[3];侯丕華、陳改玲(2014)基于311例老年高血壓病患者進(jìn)行中醫(yī)證型研究,得到了老年人高血壓病中醫(yī)證型分布規(guī)律及相關(guān)影響因素[4];湯巧玲(2014)利用進(jìn)行了干支運(yùn)氣與疾病中醫(yī)證型的關(guān)聯(lián)性研究,通過探討內(nèi)科疾病六氣、五臟相關(guān)證型的分布與干支運(yùn)氣推演出的疾病趨勢(shì)之間的關(guān)聯(lián)性,進(jìn)而評(píng)價(jià)了干支運(yùn)氣對(duì)中醫(yī)證型的影響程度,同時(shí)在現(xiàn)代氣象學(xué)的角度研究了自然界的氣象因子與中醫(yī)的六氣相關(guān)證型之間的關(guān)聯(lián)性[5];袁香凝(2010)總結(jié)了她對(duì)219例女性痤瘡患者進(jìn)行抑郁狀態(tài)及中醫(yī)證型的關(guān)聯(lián)分析結(jié)果,為之后抑郁狀態(tài)尋常痤瘡的中醫(yī)臨床辨證治療以及預(yù)防調(diào)攝提供了指導(dǎo)原則[6]。目前我國在西醫(yī)的相關(guān)研究中常見Logistic模型的構(gòu)建使用,但是在中醫(yī)證型的影響因素及證型預(yù)測的研究中,鮮少見到Logistic模型的使用,本文就是利用Logistic模型對(duì)收集到的中醫(yī)證型數(shù)據(jù)進(jìn)行分析,希望為未來解決乳腺癌的預(yù)測問題提供幫助。

2 Logistic模型

2.1 模型簡介

連續(xù)變量的分析一般會(huì)采用經(jīng)典的線性回歸,而在現(xiàn)實(shí)的分析中,因變量是離散變量的情況更加常見,為了解決因變量為離散變量的分類問題,Logistic模型就是很好的選擇,它自身就是數(shù)據(jù)分析里很實(shí)用且應(yīng)用廣泛的分析技術(shù)。Logistic模型在流行病學(xué)中的使用較多,其實(shí)它在風(fēng)險(xiǎn)預(yù)測、信息傳播、商品銷售預(yù)測等方面都有良好且廣泛的應(yīng)用,系統(tǒng)地說,Logistic模型有以下三個(gè)用途:

(1)找尋對(duì)研究對(duì)象影響較大的因素,例如本論文中便要利用Logistic模型來找到六證型對(duì)乳腺癌病程階段的影響性分析;

(2)判別一件事情發(fā)生的概率,例如在醫(yī)學(xué)中用來判別某人得了某種疾病的概率是多少,即判別某人有多少的可能性得了某種??;

(3)預(yù)測在不同解釋變量的情況下,解釋變量有怎樣的概率發(fā)生,例如某人未來在不同的條件下,將會(huì)有多大的概率得某些疾病。

2.2 模型原理

圖1 Logistic分布圖像

在二項(xiàng)Logistic回歸中被解釋變量取值為0或1,Logistic模型為:

其中,x=(x1,x2,…,xn,1)為輸入樣本,w=(w1,w2,…,wn,b)(b為偏置)為權(quán)值向量,此模型可以求得二分類被解釋變量的概率,將x分到概率較大的一類。在Logistic模型中使用最大似然法估計(jì)參數(shù),訓(xùn)練集T={(x1,y1),(x2,y2),…,(xn,yn)},設(shè)P(Y=0|x)=1-p,P(Y=1|x)=p,似然函數(shù)為:

將其取對(duì)數(shù)得到對(duì)數(shù)似然函數(shù)為:

可利用梯度下降法對(duì)上式求最大值可估計(jì)參數(shù)。

二項(xiàng)Logistic模型只用于被解釋變量二分類的情況,但本文要研究的被解釋變量是多元的,對(duì)于被解釋變量多類的情況下,可將二項(xiàng)Logistic模型推廣到多項(xiàng)Logistic模型,設(shè)Y的取值為{1,2,…,N},Logistic模型為:

3 實(shí)證分析

3.1 數(shù)據(jù)描述

本論文數(shù)據(jù)來自《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》中實(shí)戰(zhàn)部分第八章《中醫(yī)證型關(guān)聯(lián)規(guī)則挖掘》[7]給出的調(diào)查問卷數(shù)據(jù),共有930條有效的乳腺癌病人病理數(shù)據(jù),包括肝氣郁結(jié)證型、熱毒蘊(yùn)結(jié)證型、沖任失調(diào)證型、氣血兩虛證型、脾胃虛弱證型和肝腎陰虛證型這六大中醫(yī)證型的得分,還包括病程階段、TNM分期這兩項(xiàng)乳腺癌相關(guān)描述,在本文中,除了對(duì)這六項(xiàng)中醫(yī)證型與乳腺癌TNM分期進(jìn)行關(guān)聯(lián)分析外,重點(diǎn)是找出六個(gè)癥候指標(biāo)對(duì)乳腺癌病程階段的影響規(guī)律。

3.2 數(shù)據(jù)關(guān)聯(lián)性分析

3.2.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)進(jìn)行有效性檢查之后開始進(jìn)行數(shù)據(jù)的屬性構(gòu)造,由于六項(xiàng)指標(biāo)的數(shù)據(jù)均為證型的得分,是連續(xù)型的數(shù)值變量,無法使用Apriori算法將其進(jìn)行關(guān)聯(lián)分析,需要將數(shù)據(jù)進(jìn)行離散化。首先將930條數(shù)據(jù)中六大指標(biāo)的分?jǐn)?shù)進(jìn)行簡單計(jì)算,將具體的證型得分用證型系數(shù)代替,證型系數(shù)計(jì)算原理是將該證型的得分除以該證型的總分得到該證型系數(shù),繼而在Python中對(duì)數(shù)據(jù)進(jìn)行聚類分析,使用K-Means聚類法將數(shù)據(jù)化分為四組完成數(shù)據(jù)的離散化,其中A、B、C、D、E、F按順序表示六個(gè)證型,In表示六證型在系數(shù)范圍內(nèi)的個(gè)數(shù),離散表如下。

表 1 數(shù)據(jù)離散表

以A和An行為例:A指標(biāo)的930個(gè)數(shù)據(jù)中屬于第一類(證型系數(shù)大于等于0且小于0.179)的數(shù)據(jù)共有244個(gè),以此類推其他五個(gè)指標(biāo)的聚類結(jié)果。目前得到了六個(gè)指標(biāo)的分類界限,接下來再利用Excel對(duì)每一條指標(biāo)的第一個(gè)數(shù)據(jù)進(jìn)行是否的命名操作,使數(shù)據(jù)根據(jù)聚類分析得到的結(jié)果得到歸類,例如在A指標(biāo)下的第一個(gè)數(shù)據(jù)中設(shè)定:滿足大于等于0且小于0.179的項(xiàng)命名為A1,以此類推A2、A3、A4,之后快速填充該列數(shù)據(jù),就將該指標(biāo)下的數(shù)值型數(shù)據(jù)全部轉(zhuǎn)換為了4類,對(duì)其余五個(gè)指標(biāo)的數(shù)據(jù)進(jìn)行相同的操作,最終處理后的樣本類型如下:

表 2 數(shù)據(jù)樣本類型表

3.2.2 數(shù)據(jù)關(guān)聯(lián)分析

為了說明哪些情況容易產(chǎn)生疾病以及疾病所處分期,基于Apriori算法的流程[8]在spss modeler中建立模型,創(chuàng)建連接數(shù)據(jù)、依據(jù)支持度和置信度進(jìn)行剪枝迭代多次直到搜索完成,得到三個(gè)以乳腺癌TNM分期為相關(guān)結(jié)果的關(guān)聯(lián)規(guī)則:

(1)A3-F4-H4,其支持度為7.85%、置信度為87.95%;

(2)C3-F4-H4,其支持度為7.52%、置信度為87.5%;

(3)B2-F4-H4,其支持度為6.23%、置信度為79.45%;

這表示,肝氣郁結(jié)證型系數(shù)在第三階段、肝腎陰虛證型系數(shù)在第四階段的人是乳腺癌TNM分期的H4期的可能性為87.95%,而該事件發(fā)生的可能性為7.85%,同理有沖任失調(diào)證型系數(shù)在第三階段、肝腎陰虛證型系數(shù)在第四階段的人是乳腺癌TNM分期的H4期的可能性為87.5%,而該事件發(fā)生的可能性為7.52%;熱毒蘊(yùn)結(jié)證型系數(shù)在第二階段、肝腎陰虛證型系數(shù)在第四階段的人是乳腺癌TNM分期的H4期的可能性為79.45%,而該事件發(fā)生的可能性為6.23%。

3.3 乳腺癌病程階段影響因素分析

將處理后的離散化數(shù)據(jù)輸入spss軟件中開始進(jìn)行多項(xiàng)Logistic回歸分析,建立主效應(yīng)模型[9]。對(duì)因變量是病程階段,自變量為肝氣郁結(jié)證型系數(shù)、熱毒蘊(yùn)結(jié)證型系數(shù)、沖任失調(diào)證型系數(shù)、氣血兩虛證型系數(shù)、脾胃虛弱證型系數(shù)和肝腎陰虛證型系數(shù)的模型進(jìn)行了分析。

個(gè)案處理摘要給出了樣本在乳腺癌病程階段與六項(xiàng)指標(biāo)上的分布情況,其中,病程階段位于S2階段的樣本較多,肝腎陰虛證型分布大致均勻,其余五項(xiàng)指標(biāo)的樣本分布都表現(xiàn)出了在第二階段達(dá)到最多且大于35%、第四階段達(dá)到最少且小于等于10%的情況。

表3 偽R方結(jié)果

Cox&SnellR2和NagelkerkeR2在0.7到0.8之間,且McFadden統(tǒng)計(jì)量位于0.3到0.5之間,體現(xiàn)出該模型的擬合度較為理想。從零模型和當(dāng)前模型的回歸方程顯著性檢驗(yàn)結(jié)果可以看出似然比卡方值為1248.348,概率P值為0,本文設(shè)定顯著性水平α為0.05,說明本次模型選擇正確。

Spss軟件中選取病程第一階段S1和六大證型系數(shù)的第四階段I4作為參照類進(jìn)行模型參數(shù)估計(jì),則根據(jù)輸出結(jié)果可以得到以下廣義Logit方程:

=3.463+0.729A1+1.050A2+0.362A3

+0.609B1-0.512B2+0.218B3

-0.971C1-0.877C2-0.685C3

+0.037D1+0.018D2-0.166D3

-4.167E1-3.246E2+0.23E3

-1.088F1-0.503F2-0.122F3

該式是乳腺癌病程處于S2階段與病程處于S1階段概率比例的自然對(duì)數(shù)模型,可見:

(1)當(dāng)熱毒蘊(yùn)結(jié)、沖任失調(diào)、氣血兩虛、脾胃虛弱和肝腎陰虛這五項(xiàng)證型系數(shù)所處階段相同時(shí),肝氣郁結(jié)證型系數(shù)處于第一、二、三階段的比率自然對(duì)數(shù)分別比參照類(肝氣郁結(jié)證型系數(shù)處于第四階段)平均增加0.729、1.05和0.362個(gè)單位,肝氣郁結(jié)證型系數(shù)處于第一、二、三階段的概率比率分別是參照類的2.073、2.858和1.436倍。肝氣郁結(jié)證型系數(shù)處于前三個(gè)階段比第四階段對(duì)乳腺癌病程處于S2階段的影響大,但統(tǒng)計(jì)上不顯著,即肝氣郁結(jié)證型系數(shù)處于前三個(gè)階段與第四階段比較而言,對(duì)乳腺癌病程處于S2階段的影響并無差異。

(2)當(dāng)肝氣郁結(jié)、熱毒蘊(yùn)結(jié)、沖任失調(diào)、氣血兩虛和肝腎陰虛這五項(xiàng)證型系數(shù)所處階段相同時(shí),脾胃虛弱證型系數(shù)處于第一、二階段的比率自然對(duì)數(shù)分別比參照類(脾胃虛弱證型系數(shù)處于第四階段)平均減少4.167和3.246個(gè)單位,處于第三階段的比率自然對(duì)數(shù)比參照類平均增加0.23個(gè)單位,脾胃虛弱證型系數(shù)處于第一、二、三階段的概率比率分別是參照類的0.015、0.039和1.259倍。脾胃虛弱證型系數(shù)處于前兩個(gè)階段比第四階段對(duì)乳腺癌病程處于S2階段的影響小,且統(tǒng)計(jì)上顯著,即脾胃虛弱證型系數(shù)處于前兩個(gè)階段與第四階段比較而言,對(duì)乳腺癌病程處于S2階段的影響差異顯著;脾胃虛弱證型系數(shù)處于第三階段比第四階段對(duì)乳腺癌病程處于S2階段的影響大,但統(tǒng)計(jì)上不顯著,即脾胃虛弱證型系數(shù)處于第三階段與第四階段比較而言,對(duì)乳腺癌病程處于S2階段的影響并無差異。

剩余證型系數(shù)因素對(duì)病程階段的影響可以根據(jù)以上分析結(jié)果類推,最后得到:

(1)對(duì)乳腺癌病程處于第二階段的影響:脾胃虛弱證型系數(shù)處于前兩階段小于第四階段,肝腎陰虛證型系數(shù)處于第一階段大于第四階段;

(2)對(duì)乳腺癌病程處于第三階段的影響:肝氣郁結(jié)證型系數(shù)處于第一階段大于第四階段,脾胃虛弱證型系數(shù)處于第一階段小于第四階段,肝腎陰虛證型系數(shù)處于前兩階段小于第四階段;

(3)對(duì)乳腺癌病程處于第四階段的影響:肝氣郁結(jié)證型系數(shù)處于前三階段大于第四階段,沖任失調(diào)證型系數(shù)處于前三階段小于第四階段,氣血兩虛證型系數(shù)處于第一階段大于第四階段,肝腎陰虛證型系數(shù)處于第一階段小于第四階段。

輸出廣義Logit模型樣本預(yù)測結(jié)果如表4所示。

實(shí)際病程處于第一階段且正確預(yù)測為第一階段的樣本量為108,正確率為63.5%;實(shí)際病程處于第二階段且正確預(yù)測為第二階段的樣本量為288,正確率為84.7%;實(shí)際病程處于第三階段且正確預(yù)測為第三階段的樣本量為142,正確率為86.1%;實(shí)際病程處于第四階段且正確預(yù)測為第四階段的樣本量為148,正確率為58%??梢姡撃P蛯?duì)病程第三階段的預(yù)測準(zhǔn)確率較高。

表4 模型樣本預(yù)測表

4 總結(jié)和展望

本文通過關(guān)聯(lián)分析找到了中醫(yī)證型與乳腺癌TNM分期之間的三條關(guān)聯(lián)規(guī)則,并且對(duì)病程階段和六證型建立了很好的Logistic回歸模型,找出了六大證型對(duì)病程各階段的影響程度大小,并且該模型得到了比較好的預(yù)測結(jié)果,希望以此使中醫(yī)對(duì)乳腺癌的治療得到指導(dǎo)、對(duì)病患的治療進(jìn)程起到參考作用、對(duì)過程中出現(xiàn)的變化得以預(yù)判,并且對(duì)腺癌病程階段的預(yù)測起到一定的指導(dǎo)作用。中醫(yī)越來越受全人類的歡迎,它凝結(jié)著中華民族自古以來的醫(yī)學(xué)研究成果,若能夠?qū)⒏嗫茖W(xué)的方法運(yùn)用到醫(yī)學(xué)方面,中醫(yī)將給人類帶來更大的福祉。削減乃至克服惡性腫瘤對(duì)人類生命安全的威脅是全人類的共同期望,相信隨著醫(yī)學(xué)的發(fā)達(dá)和科技的進(jìn)步,在醫(yī)學(xué)和科學(xué)的共同努力下,通過對(duì)中醫(yī)各方面進(jìn)行科學(xué)的分析,惡性腫瘤的規(guī)律會(huì)被人類發(fā)現(xiàn)并且層層擊破。

猜你喜歡
肝氣證型病程
逍遙散加減治療肝氣郁滯型月經(jīng)不調(diào)的臨床效果
春季養(yǎng)肝食何“味”
基于因子分析及聚類分析的241例感染后咳嗽中醫(yī)證素證型研究
治咽炎要分清證型
不同證型糖尿病的調(diào)理
基于自適應(yīng)矩估計(jì)的BP神經(jīng)網(wǎng)絡(luò)對(duì)中醫(yī)痛經(jīng)證型分類的研究
68例肝氣郁結(jié)型慢性膽囊炎腹腔鏡術(shù)后中醫(yī)護(hù)理的分析研究
中西醫(yī)結(jié)合治療對(duì)急性胰腺炎病程的影響
手術(shù)科室用血病程記錄缺陷評(píng)析
柴胡疏肝散加減治療肝氣犯胃型胃脘痛的療效觀察
张家口市| 山阳县| 图木舒克市| 西充县| 江津市| 连江县| 林口县| 合阳县| 利川市| 花莲县| 玉环县| 山丹县| 新安县| 卢龙县| 瑞昌市| 蓝田县| 韩城市| 镇远县| 晋宁县| 依兰县| 神池县| 沿河| 安西县| 望谟县| 铜梁县| 新民市| 合水县| 孟津县| 静海县| 乌恰县| 华容县| 江都市| 澄城县| 莆田市| 宣汉县| 大兴区| 南康市| 崇义县| 六安市| 瑞昌市| 马鞍山市|