国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LightGBM模型的中國(guó)成人吸煙行為研究

2024-06-18 05:07:10劉忠華盧鑫梅文強(qiáng)趙旻胡彬彬張軻殷紅慧
現(xiàn)代信息科技 2024年7期

劉忠華 盧鑫 梅文強(qiáng) 趙旻 胡彬彬 張軻 殷紅慧

收稿日期:2023-07-13

基金項(xiàng)目:云南省煙草公司文山州公司科技計(jì)劃一般項(xiàng)目(20235326002)

DOI:10.19850/j.cnki.2096-4706.2024.07.027

摘? 要:采用2018年世界衛(wèi)生組織在中國(guó)開(kāi)展的成人煙草調(diào)查數(shù)據(jù),對(duì)成人吸煙行為影響因素進(jìn)行探究。首先對(duì)原始數(shù)據(jù)做數(shù)據(jù)清洗,包括剔除無(wú)關(guān)變量、組合新變量等步驟。其次結(jié)合卡方檢驗(yàn)、方差分析以及最大互信息數(shù)對(duì)處理后的數(shù)據(jù)集進(jìn)行特征選擇。再次基于XGBoost、LightGBM算法進(jìn)行建模,對(duì)影響成人吸煙行為的因素進(jìn)行排序和分析。最后基于表現(xiàn)較好的LightGBM模型進(jìn)行變量組合建模,進(jìn)一步挖掘吸煙者特征。經(jīng)建模分析,識(shí)別得出成人性別、煙草環(huán)境、增稅態(tài)度、低焦油煙認(rèn)知、學(xué)歷、年齡重要性由強(qiáng)至弱對(duì)吸煙行為產(chǎn)生影響。

關(guān)鍵詞:LightGBM;XGBoost;吸煙行為

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)07-0128-09

Study of Adult Smoking Behavior in China Based on the LightGBM Model

LIU Zhonghua1, LU Xin1, MEI Wenqiang4, ZHAO Min1, HU Binbin2, ZHANG Ke3, YIN Honghui4

(1.China National Tobacca Corporation Yunnan Company, Kunming? 650011, China; 2.Yunnan Academy of Tobacco Agricultural Sciences, Kunming? 650031, China; 3.Yunnan Tobacco Quality Inspection & Supervision Station, Kunming? 650032, China;

4. Yunnan Tobacco Company Wenshan Prefecture Company, Wenshan? 663099, China)

Abstract: Using the adult tobacco survey data conducted by the World Health Organization in China in 2018, this study explores the influencing factors of adult smoking behavior. Firstly, perform data cleaning on the original data, including removing irrelevant variables, combining new variables, and other steps. Secondly, feature selection is performed on the processed dataset by combining Chi-square test, analysis of variance, and Maximal Information Coefficient (MIC). Then, it conducts modeling based on XGBoost and LightGBM algorithms, sorting and analyzing the factors affecting adult smoking behavior. Finally, based on the well performing LightGBM model, variable combination modeling is performed to further explore the characteristics of smokers. Through modeling and analysis, it is identified that adult gender, tobacco environment, attitude towards value-added tax, low tar smoke awareness, educational background, and age importance have a varying impact from strong to weak on smoking behavior.

Keywords: LightGBM; XGBoost; smoking behavior

0? 引? 言

煙草作為一種嗜好品,長(zhǎng)期吸食會(huì)對(duì)人體健康產(chǎn)生一定影響。煙草煙霧中含有數(shù)百種有毒有害物質(zhì),其中包括至少69種致癌物質(zhì)。吸煙不僅對(duì)吸煙者自身健康有害,而且對(duì)周圍不吸煙者也產(chǎn)生危害。在過(guò)去的50年里,越來(lái)越多無(wú)可爭(zhēng)辯的科學(xué)證據(jù)表明,使用煙草制品或接觸二手煙會(huì)導(dǎo)致死亡、疾病和殘疾。根據(jù)《世界衛(wèi)生報(bào)告》,在全球8個(gè)主要死因中,有6個(gè)與吸煙有關(guān),而吸煙每年導(dǎo)致多達(dá)700萬(wàn)人死亡。為了遏制煙草流行,減少煙草對(duì)健康和經(jīng)濟(jì)的破壞性影響,世衛(wèi)組織制定了煙草控制框架公約(FCTC),這是第一個(gè)國(guó)際公共衛(wèi)生條約,也是最廣泛接受和最迅速實(shí)施的條約之一。到目前為止,已有181個(gè)國(guó)家簽署了《煙草控制框架公約》,中國(guó)是早期簽署國(guó)之一。該公約要求簽署國(guó)應(yīng)建立煙草監(jiān)測(cè)系統(tǒng),提供準(zhǔn)確的國(guó)家和全球煙草使用數(shù)據(jù),以估算煙草使用對(duì)公共衛(wèi)生和經(jīng)濟(jì)的影響,并進(jìn)一步評(píng)估煙草控制政策的有效性。

根據(jù)國(guó)家衛(wèi)生委員會(huì)的工作計(jì)劃,在世界衛(wèi)生組織的支持下,中國(guó)疾病預(yù)防控制中心在2018年7月至12月期間,按照全球成人煙草調(diào)查標(biāo)準(zhǔn),在中國(guó)開(kāi)展了2018年成人煙草調(diào)查。該調(diào)查是一項(xiàng)針對(duì)15歲及以上非集體中國(guó)居民的家庭調(diào)查,調(diào)查內(nèi)容包括背景資料、煙草使用、電子煙使用、戒煙、二手煙、煙草價(jià)格、煙草控制運(yùn)動(dòng)、煙草廣告、宣傳和贊助、煙草使用知識(shí)、態(tài)度和看法等。本次調(diào)查采用分層多階段整群隨機(jī)抽樣的方法,最終得到19 376份有效問(wèn)卷。對(duì)于收集到的問(wèn)卷,WHO研究人員進(jìn)行統(tǒng)計(jì)分析后,用于了解該國(guó)總體煙草流行情況,以及城市和農(nóng)村地區(qū)、性別的煙草流行情況等問(wèn)題。近年來(lái),基于梯度提升決策樹(Light Gradient Boosting Machine, LightGBM)的算法快速發(fā)展[1,2],已被廣泛用于交通[3,4]、醫(yī)學(xué)[5,6]、金融[7-9]、防災(zāi)[10]、警務(wù)[11]等領(lǐng)域。本文基于WHO組織調(diào)查數(shù)據(jù),借助集成機(jī)器學(xué)習(xí)模型XGBoost、LightGBM進(jìn)行數(shù)據(jù)挖掘,探究影響中國(guó)成人吸煙行為的主要因素,并通過(guò)對(duì)部分因素進(jìn)行組合,進(jìn)一步刻畫出吸煙者和非吸煙者畫像。最終,借助研究結(jié)果,針對(duì)不同特征的人群,提出更為準(zhǔn)確的控?zé)熃ㄗh。同時(shí),也可根據(jù)建立得出的最優(yōu)模型對(duì)中國(guó)成人吸煙行為進(jìn)行預(yù)測(cè)。

1? 數(shù)據(jù)預(yù)處理

1.1? 處理目的

在進(jìn)行建模分析之前,為得到表現(xiàn)較好的模型,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理[12]。收集數(shù)據(jù)采用的抽樣方法為WHO制定的多階段隨機(jī)整群抽樣方法,得到的樣本代表性良好。數(shù)據(jù)清洗的目的是讓數(shù)據(jù)更加規(guī)整,主要包括剔除無(wú)關(guān)變量、組合新變量等步驟。特征選擇則是幫助保留對(duì)模型結(jié)果有顯著性影響的特征,化繁為簡(jiǎn),增強(qiáng)模型的可解釋性。

1.2? 抽樣方法

調(diào)查采用分層多階段隨機(jī)整群抽樣方法[13]。在設(shè)計(jì)過(guò)程中,充分考慮了與以往調(diào)查數(shù)據(jù)進(jìn)行縱向可比性的需要,以客觀反映煙草使用和煙草控制政策的現(xiàn)狀。抽樣過(guò)程如下:首先,全國(guó)按地理區(qū)域(中北部、東北部、中東部、中南部、西南部和西北部)和城鄉(xiāng)(區(qū)縣)劃分為12個(gè)地層。

第一階段抽樣:在2010年保留的100個(gè)監(jiān)測(cè)點(diǎn)的基礎(chǔ)上,再選擇100個(gè)監(jiān)測(cè)點(diǎn)。在12個(gè)地層中,主要采樣級(jí)別為縣/區(qū)級(jí)別。每個(gè)階層的原始樣本規(guī)模與該地區(qū)的總戶數(shù)成正比。根據(jù)每個(gè)縣/區(qū)的戶籍?dāng)?shù)量,采用概率比例抽樣法(PPS)選擇每個(gè)階層的縣/區(qū)。在2018年的調(diào)查中,新選出了50個(gè)縣和50個(gè)區(qū);因此,最終選定的主要樣本單元總數(shù)為200個(gè)。

第二階段抽樣:首先,在第一階段選擇的縣/區(qū)中,采用PPS法選擇了2個(gè)村或居委會(huì)。因此,全國(guó)共選出400個(gè)村或居委會(huì)。如果選定的村或居委會(huì)的戶籍人口在1 000戶至2 000戶之間,則該村或居委會(huì)被視為第二階段的最終樣本單元;如果選定的村或居委會(huì)的戶籍人口超過(guò)2 000人,則將村或居委會(huì)分成若干部分,每個(gè)部分約有1 000戶。采用簡(jiǎn)單隨機(jī)抽樣法選擇一個(gè)斷面作為第二階段的最終樣本單元。

第三階段抽樣:采用簡(jiǎn)單隨機(jī)抽樣方法,從每個(gè)選定部門/村/居委會(huì)的住戶名單中選擇55戶,全國(guó)共有22 000戶。由于部分路段的空置住戶相對(duì)較多,抽樣時(shí)樣本量有所擴(kuò)大,全國(guó)共選擇24 370戶。

第四階段抽樣:根據(jù)選定的住戶名單進(jìn)行住戶調(diào)查,根據(jù)調(diào)查問(wèn)卷記錄住戶成員的信息,并從每戶中隨機(jī)選擇一名成員作為受訪者,最終,總共有19 376人完成了個(gè)人調(diào)查。

1.3? 數(shù)據(jù)清洗

使用數(shù)據(jù)中的樣本權(quán)重變量(gatsweight),經(jīng)過(guò)計(jì)算調(diào)整樣本數(shù)量,最終得到60 350條樣本數(shù)據(jù),代表中國(guó)15歲及以上的男性及女性的整體情況。數(shù)據(jù)中一共包含339個(gè)變量,包含個(gè)人背景資料、煙草使用、電子煙使用、戒煙、二手煙、煙草價(jià)格、煙草控制運(yùn)動(dòng)、煙草廣告、宣傳和贊助、煙草使用知識(shí)、態(tài)度和看法等方面內(nèi)容。針對(duì)研究問(wèn)題對(duì)數(shù)據(jù)做如下清洗:一是剔除無(wú)關(guān)變量。剔除與研究問(wèn)題——是否抽煙無(wú)關(guān)的變量,以及只針對(duì)部分人群(如吸煙者)提問(wèn)而產(chǎn)生的變量,保留82個(gè)變量做后續(xù)研究。二是組合部分變量,得到新變量。結(jié)合問(wèn)卷信息,對(duì)類型一致或相似的變量進(jìn)行組合,經(jīng)過(guò)組合,得到6個(gè)新變量,如表1所示。

1.4? 變量值的處理

問(wèn)卷中變量值7、77含義為:Don't know,9、99含義為:Refuse to answer,將其用缺失值替換,由于集成機(jī)器學(xué)習(xí)模型對(duì)缺失值兼容,不需要進(jìn)行缺失值填充;涉及是非問(wèn)題的變量值1含義為:Yes,2含義為:No,將2替換為0,后續(xù)建模時(shí)即可將該類型變量作為0~1變量來(lái)處理;對(duì)于部分有序離散型變量,根據(jù)變量值含義調(diào)整數(shù)值大??;對(duì)于多分類的無(wú)序離散型變量(假設(shè)含有n個(gè)類別),結(jié)合其變量值分布,進(jìn)行獨(dú)熱編碼,最終處理為n個(gè)0~1變量。表2為多分類無(wú)序離散型變量處理表。

1.5? 剔除類別分布不平衡變量

對(duì)于無(wú)序離散型變量,部分變量的類別分布過(guò)于極端,某類別樣本達(dá)到總樣本的90%以上,此變量很難對(duì)模型擬合效果的提升產(chǎn)生貢獻(xiàn),考慮將其進(jìn)行剔除處理。經(jīng)過(guò)上述清洗過(guò)程后得到29個(gè)變量,其中因變量為是否吸煙(isSmoke),自變量28個(gè),包含連續(xù)型變量、有序離散型變量及無(wú)序離散型變量。相關(guān)變量說(shuō)明如表3所示。

2? 特征選擇

2.1? 離散型變量特征選擇

對(duì)于本文研究的問(wèn)題來(lái)說(shuō),如果一個(gè)離散型特征取值在吸煙組和不吸煙組占比是相同的,就認(rèn)為這個(gè)變量對(duì)成人吸煙與否是沒(méi)有影響的;如果該離散型特征取值在吸煙組和不吸煙組占比相差非常大,就認(rèn)為該變量對(duì)成人吸煙與否影響非常大,即通過(guò)分析對(duì)比離散型變量不同取值在不同組之間分布有無(wú)顯著差異,進(jìn)行離散型變量的特征選擇。由于考慮的是兩個(gè)屬性變量之間是否有聯(lián)系,采用列聯(lián)表分析的方法,列聯(lián)表分析使用的是卡方統(tǒng)計(jì)量[14]。下面先介紹列聯(lián)表分析的統(tǒng)計(jì)量卡方檢驗(yàn),以變量Male說(shuō)明列聯(lián)表篩選變量的原理與步驟??ǚ綑z驗(yàn)方式如下:

若用f0表示觀測(cè)值頻數(shù),用fe表示期望值頻數(shù),χ2統(tǒng)計(jì)量可寫為:

如果在一定顯著性水平下,χ2統(tǒng)計(jì)量大于所對(duì)應(yīng)的χ2(n),那么我們認(rèn)為拒絕原假設(shè),我們就認(rèn)為檢測(cè)的兩屬性之間是不獨(dú)立的,反之。下面以變量Male這一變量舉例說(shuō)明。表4是性別在不同組內(nèi)的實(shí)際人數(shù)分布和期望人數(shù)分布,對(duì)應(yīng)的卡方統(tǒng)計(jì)量計(jì)算為:

在α = 0.05的顯著性水平下,,可見(jiàn)18 095 ? 3.84,作出拒絕原假設(shè)的判斷,即認(rèn)為性別與是否吸煙是顯著相關(guān)的。

同樣的,對(duì)其他的離散型變量依次進(jìn)行卡方檢驗(yàn),進(jìn)行變量篩選。

2.2? 連續(xù)型變量特征選擇

在這一節(jié)中,采用單因素方差分析方法進(jìn)行變量選擇。需要說(shuō)明,將有序離散型變量煙草環(huán)境(TobaccoEnv)、低焦油煙認(rèn)知(LowtarAware)當(dāng)作連續(xù)型變量進(jìn)行處理。方差分析的一般步驟如下:

1)提出原假設(shè)與備擇假設(shè)。此問(wèn)題原假設(shè)為是否吸煙對(duì)受訪者特征沒(méi)有影響。

2)構(gòu)造檢驗(yàn)統(tǒng)計(jì)量。計(jì)算組間平方和SSA、組內(nèi)平方和SSE,構(gòu)造F統(tǒng)計(jì)量:

其中,k為因素水平個(gè)數(shù),n為樣本總數(shù)。SSA與SSE定義為:

3)統(tǒng)計(jì)決策。根據(jù)計(jì)算出來(lái)的F統(tǒng)計(jì)量在一定顯著性水平下判斷是否拒絕原假設(shè)。下面以年齡這一變量舉例說(shuō)明方差分析的步驟,如表5所示。即這里分別計(jì)算不同組的組內(nèi)、組間平方和。由于這里數(shù)據(jù)量過(guò)大,不展示詳細(xì)的計(jì)算步驟。由上述計(jì)算得出拒絕原假設(shè),保留年齡變量。同樣的,對(duì)剩余的連續(xù)型變量依次進(jìn)行方差分析,進(jìn)行變量篩選。

2.3? 依據(jù)變量相關(guān)性進(jìn)行特征選擇

在最后建模之前,我們考慮變量間可能會(huì)存在一定程度相關(guān)性,這會(huì)影響建模結(jié)果。用衡量?jī)勺兞块g相關(guān)關(guān)系的最大互信息數(shù)(MIC)作為判斷標(biāo)準(zhǔn),最大互信息數(shù)不局限于線性關(guān)系,也可以衡量變量間的非線性關(guān)系。MIC的計(jì)算公式為:

MIC計(jì)算的時(shí)候會(huì)a×b的網(wǎng)格劃分?jǐn)?shù)據(jù)空間。經(jīng)計(jì)算得到兩變量間MIC值結(jié)果,如表6所示。

本文對(duì)存在相關(guān)性的變量處理如下:若兩變量之間MIC值大于0.7,結(jié)合卡方檢驗(yàn)以方差分析結(jié)果進(jìn)行判斷,只將其中一個(gè)變量納入建模的數(shù)據(jù)集中。經(jīng)過(guò)上述特征選擇,最終選取的16個(gè)變量用于后續(xù)建模,具體說(shuō)明如表7所示。文中使用的模型XGBoost、LightGBM均是在梯度提升決策樹模型(GBDT)的基礎(chǔ)上改進(jìn)而來(lái),由于運(yùn)算速度快、效果好的優(yōu)點(diǎn),在目前各個(gè)研究領(lǐng)域內(nèi)被廣泛使用。

3? 模型方法

3.1? XGBoost模型

XGBoost(eXtreme Gradient Boosting)相較于傳統(tǒng)GBDT在效率與準(zhǔn)確率上有較大提升。它本質(zhì)上是一種通過(guò)組合弱學(xué)習(xí)器來(lái)產(chǎn)生強(qiáng)學(xué)習(xí)的Boosting算法,相比于較早的Adaboost通過(guò)調(diào)整每一輪訓(xùn)練樣本的權(quán)重,XGBoost是通過(guò)擬合上一輪學(xué)習(xí)器的殘差來(lái)訓(xùn)練模型。

上式是XGBoost的目標(biāo)函數(shù),第一部分是訓(xùn)練誤差,第二部分是每棵樹的復(fù)雜度的和。主要有以下優(yōu)點(diǎn):一是高度靈活性。支持線性分類器,對(duì)代價(jià)函數(shù)進(jìn)行二階泰勒展開(kāi)。二是正則化。在代價(jià)函數(shù)加入了正則項(xiàng),用于控制模型復(fù)雜度,防止過(guò)擬合。三是自動(dòng)缺失值處理。對(duì)于存在缺失值的特征,可以自動(dòng)學(xué)習(xí)出它的分裂方向。四是列抽樣。借鑒了Randomforest對(duì)列隨機(jī)抽樣的做法,不僅能降低過(guò)擬合,還能減少計(jì)算量。

3.2? LightGBM模型

LightGBM算法是2017年由微軟團(tuán)隊(duì)提出的GBDT算法的改進(jìn)版,是基于梯度的單面采樣算法(GOSS)和特征捆綁算法(EFB)的結(jié)合。GOSS采樣認(rèn)為梯度大的樣本點(diǎn)會(huì)貢獻(xiàn)貢多的信息增益,因此GOSS進(jìn)行下采樣的時(shí)候保留大梯度的數(shù)據(jù),按比例隨機(jī)采樣梯度小的樣本點(diǎn)。EFB算法通過(guò)綁定互斥的特征來(lái)減少互斥特征的數(shù)量從而實(shí)現(xiàn)降維的目的。LighGBM采用了Histogram算法,將連續(xù)特征離散化固定到固定數(shù)量的bins上。主要有以下優(yōu)點(diǎn):一是時(shí)間復(fù)雜度低。采用直方圖算法將遍歷樣本轉(zhuǎn)變?yōu)楸闅v直方圖;二是計(jì)算量小。采用了基于Leaf-wise算法的增長(zhǎng)策略構(gòu)建樹;三是內(nèi)存占用少。采用互斥特征捆綁算法減少了特征數(shù)量;四是支持并行學(xué)習(xí)。采用優(yōu)化后的特征并行、數(shù)據(jù)并行方法加速計(jì)算,當(dāng)數(shù)據(jù)量特別大的時(shí)候還可以采用投票并行的策略。

4? 模型構(gòu)建與評(píng)估

數(shù)據(jù)預(yù)處理完成后,分別建立XGBoost、LightGBM模型,用AUC值作為模型主要評(píng)價(jià)指標(biāo)。依據(jù)模型繪制出決策樹,并進(jìn)行特征重要性排序,從而得出結(jié)論。

4.1? 模型評(píng)價(jià)指標(biāo)

對(duì)于二分類模型,其閾值可能設(shè)定的高或低,通過(guò)設(shè)定不同的閾值得到不同的假正類率(FPR)和真正類率(TPR),ROC曲線就是將同一模型每個(gè)閾值的FPR作為橫坐標(biāo),TPR作為縱坐標(biāo)所形成的曲線。

由于ROC曲線的形狀不好量化比較,因此需要結(jié)合ROC曲線與坐標(biāo)系所圍成的面積(AUC)來(lái)評(píng)價(jià)模型的預(yù)測(cè)性能。AUC評(píng)價(jià)指標(biāo)相對(duì)于其他指標(biāo)而言,更能衡量模型對(duì)于不平衡數(shù)據(jù)的預(yù)測(cè)能力,不關(guān)注具體得分,只關(guān)注排序結(jié)果,不需要設(shè)定閾值,評(píng)估效果更好。因此,本文選用AUC值作為模型評(píng)價(jià)指標(biāo)。

4.2? 模型建立——XGBoost

建模過(guò)程分為以下步驟:

1)訓(xùn)練集與測(cè)試集劃分。按照8:2的比例劃分訓(xùn)練集與測(cè)試集,在訓(xùn)練集進(jìn)行模型訓(xùn)練,在測(cè)試集上用AUC值進(jìn)行模型評(píng)價(jià)。

2)網(wǎng)格搜索調(diào)參。網(wǎng)格搜索算法是一種最簡(jiǎn)單也是最常用的超參數(shù)搜索算法,給定參數(shù)搜索范圍,輸出最優(yōu)化的參數(shù),如表8所示。

3)最優(yōu)模型訓(xùn)練。給定最優(yōu)化的參數(shù),在訓(xùn)練集上進(jìn)行訓(xùn)練,在測(cè)試集上的AUC值為0.872,模型泛化能力強(qiáng),圖1為ROC曲線。

4)獲得模型結(jié)果。依據(jù)建立出的模型,可以繪制出決策樹,如圖2所示。

由圖2可得出以下結(jié)論:

用特征分裂后帶來(lái)的平均增益作為特征重要性評(píng)估標(biāo)準(zhǔn),得到如圖3所示的排序,其中,性別、煙草環(huán)境、是否支持增稅為判斷吸煙者的主要特征。可見(jiàn),改善煙草環(huán)境能夠有效降低成人的吸煙率,國(guó)家可出臺(tái)相關(guān)政策進(jìn)行管控。

重要性排前5的特征對(duì)AUC值的提升如表9所示。

4.3? 模型建立——LightGBM

建模過(guò)程分為以下步驟:

1)訓(xùn)練集與測(cè)試集劃分。按照8:2的比例劃分訓(xùn)練集與測(cè)試集,在訓(xùn)練集進(jìn)行模型訓(xùn)練,在測(cè)試集上用AUC值進(jìn)行模型評(píng)價(jià)。

2)貝葉斯全局優(yōu)化調(diào)參。貝葉斯優(yōu)化是一個(gè)很有效的全局優(yōu)化算法,目標(biāo)是為了找到全局最優(yōu)解。模型主要參數(shù)的選擇如表10所示。

3)最優(yōu)模型訓(xùn)練。給定最優(yōu)化的參數(shù),在訓(xùn)練集上進(jìn)行訓(xùn)練,在測(cè)試集上的AUC值為0.874,模型泛化能力強(qiáng),圖4為ROC曲線。

4)獲得模型結(jié)果。用全部變量進(jìn)行建模,繪制出決策樹,如圖5所示。

依據(jù)該圖的不同分支,可得出結(jié)論:

1)吸煙者畫像:高中以下學(xué)歷、在媒體上見(jiàn)過(guò)吸煙場(chǎng)景的男性。

2)不吸煙者畫像:高中以上學(xué)歷、未在媒體上見(jiàn)過(guò)吸煙場(chǎng)景的男性。

用特征分裂后帶來(lái)的平均增益作為特征重要性評(píng)估標(biāo)準(zhǔn),得到如圖6所示的排序。

由圖6可知,與XGBoost模型相同,性別、煙草環(huán)境、是否支持增稅為判斷吸煙者的主要特征。重要性排前5的特征對(duì)AUC值的提升如表11所示。

為進(jìn)一步刻畫出吸煙者畫像,詳細(xì)了解其特征,對(duì)部分變量進(jìn)行組合建模,對(duì)繪制出的決策樹圖像進(jìn)行分析,得出結(jié)論。

依據(jù)圖7,可得出吸煙者畫像為:支持增稅、不認(rèn)同低焦油煙危害以及吸煙引起心臟??;不支持增稅、認(rèn)同低焦油煙危害、18.5歲以上;在公共場(chǎng)所接觸過(guò)二手煙、初中學(xué)歷以下、18.5歲以上;未在公共場(chǎng)所接觸過(guò)二手煙、年齡37.5歲以下;家里7口人以上、高中以下學(xué)歷、農(nóng)民工;家里6口人以下、小學(xué)以下學(xué)歷、非農(nóng)民工。

5? 結(jié)? 論

本文基于WHO組織2018年在中國(guó)開(kāi)展的成人煙草調(diào)查數(shù)據(jù),采用多階段隨機(jī)整群抽樣方法,對(duì)其進(jìn)行數(shù)據(jù)清洗、特征選擇后,將XGBoost、LightGBM算法運(yùn)用到成人吸煙行為預(yù)測(cè)模型中。研究表明,在算法上,LightGBM運(yùn)行速度和模型分類能力均優(yōu)于XGBoost;影響因素分析上,XGBoost和LightGBM算法均給出了影響因素重要性排序圖,主要因素有:性別、煙草環(huán)境、增稅態(tài)度、低焦油煙認(rèn)知、學(xué)歷、年齡等。通過(guò)對(duì)組合變量進(jìn)行建模,由繪制出的決策樹可以進(jìn)一步刻畫出吸煙者畫,便于相關(guān)管理部門和控?zé)熃M織針對(duì)不同特征人群制定個(gè)性化控?zé)熣咛峁Q策依據(jù)。

參考文獻(xiàn):

[1] 尹超英,邵春福,黃兆國(guó),等.基于梯度提升決策樹的多尺度建成環(huán)境對(duì)小汽車擁有的影響 [J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2022,52(3):572-577.

[2] 生紅瑩,趙偉國(guó),陳揚(yáng),等.基于深度數(shù)據(jù)挖掘的電力系統(tǒng)短期負(fù)荷預(yù)測(cè) [J].吉林大學(xué)學(xué)報(bào):信息科學(xué)版,2023,41(1):131-137.

[3] 常碩,張彥春.基于袋外預(yù)測(cè)和擴(kuò)展空間的隨機(jī)森林改進(jìn)算法 [J].計(jì)算機(jī)工程,2022,48(3):1-9.

[4] 甘紅楠,張凱.參數(shù)自適應(yīng)下基于近鄰圖的近似最近鄰搜索 [J].計(jì)算機(jī)工程,2022,48(9):28-36.

[5] 彭俊,項(xiàng)薇,謝勇,等.基于LightGBM多階段醫(yī)療服務(wù)等待時(shí)間的預(yù)測(cè)研究 [J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(12):119-124.

[6] 閆瑞平,王習(xí)亮,姚粉霞,等.決策樹模型與Logistic回歸分析模型識(shí)別高血壓危險(xiǎn)因素的效果比較 [J].中華疾病控制雜志,2022,26(2):218-222.

[7] 胡嘉麟.基于LightGBM模型的車輛保險(xiǎn)購(gòu)買興趣預(yù)測(cè)研究 [D].大連:大連理工大學(xué),2021.

[8] 張漢平.基于LightGBM模型的個(gè)人貸款違約預(yù)測(cè)的研究 [D].武漢:華中師范大學(xué),2021.

[9] 郭長(zhǎng)東.基于XGBoost模型的股票預(yù)測(cè)研究 [D].延吉:延邊大學(xué),2021.

[10] 范桂英,湯軍,高賢君,等.基于LightGBM的南陽(yáng)市西部地區(qū)山洪災(zāi)害風(fēng)險(xiǎn)評(píng)價(jià) [J].中國(guó)農(nóng)村水利水電,2023(8):135-141+156.

[11] 錢芳慧,蔡競(jìng).基于LightGBM的犯罪類型預(yù)測(cè)模型研究 [J].計(jì)算機(jī)仿真,2023,40(1):25-30.

[12] 吳照明,胡西川.基于LightGBM信貸風(fēng)控模型的算法優(yōu)化 [J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(6):342-349.

[13] 郭長(zhǎng)帥,卓建偉.基于數(shù)據(jù)挖掘算法的流動(dòng)人口定居意愿研究 [J].管理現(xiàn)代化,2019,39(3):81-86.

[14] 馮斌,張又文,唐昕,等.基于BiLSTM-Attention神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本挖掘 [J].中國(guó)電機(jī)工程學(xué)報(bào),2020,40(S1):1-10.

作者簡(jiǎn)介:劉忠華(1982—),男,漢族,云南楚雄人,統(tǒng)計(jì)師,農(nóng)藝師,碩士研究生,主要研究方向:應(yīng)用統(tǒng)計(jì)和數(shù)字農(nóng)業(yè);通訊作者:殷紅慧(1977—),女,漢族,云南玉溪人,高級(jí)農(nóng)藝師,碩士,主要研究方向:煙草農(nóng)業(yè)研究。

天等县| 雷山县| 南昌市| 英山县| 慈溪市| 漳平市| 闽侯县| 海晏县| 临湘市| 景宁| 大余县| 靖西县| 都安| 乐清市| 蒲江县| 科尔| 肃北| 承德县| 开封市| 康定县| 白河县| 城固县| 平武县| 北海市| 平江县| 莱芜市| 乌兰察布市| 榆树市| 达州市| 伊通| 嫩江县| 禄丰县| 如皋市| 曲松县| 滦南县| 兰考县| 宽城| 根河市| 彭水| 花莲市| 怀柔区|