有序貝葉斯網(wǎng)絡(luò)在肥胖?jǐn)?shù)據(jù)中的應(yīng)用

2021-12-22 13:28陳芳芳徐平峰

長(zhǎng)春工業(yè)大學(xué)學(xué)報(bào) 2021年5期

陳芳芳，徐平峰

(長(zhǎng)春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院，吉林長(zhǎng)春 130012)

0 引言

自1980年以來(lái)，全球肥胖人口數(shù)量劇增，且因肥胖患病和死亡人數(shù)也在攀升[1]。胖瘦程度通常用身體質(zhì)量指數(shù)(BMI)來(lái)衡量。2019年BMI偏高導(dǎo)致全球500萬(wàn)人死亡，主要死亡原因是由肥胖引起的心血管疾病和Ⅱ型糖尿病，另外,高BMI也會(huì)增加患癌癥的風(fēng)險(xiǎn)。文中目的是尋找肥胖的影響因素,以及如何在這些因素下對(duì)一個(gè)人是否肥胖進(jìn)行預(yù)測(cè)。肥胖等級(jí)是有序變量，各等級(jí)之間存在自然順序，對(duì)有序變量建模不能直接使用決策樹(shù)、隨機(jī)森林等機(jī)器學(xué)習(xí)算法，這樣做會(huì)損失有序信息，正確的做法是建立合適的有序分類(lèi)器。

已經(jīng)有學(xué)者提出一些算法專(zhuān)門(mén)用來(lái)解決有序分類(lèi)問(wèn)題，如有序logistic回歸[2]、有序支持向量機(jī)[3]、有序神經(jīng)網(wǎng)絡(luò)[4]等。這些有序算法的目標(biāo)都是得到準(zhǔn)確率更高的分類(lèi)器，但是影響決策的主要特征是哪些,特征之間是否存在依賴(lài)關(guān)系卻沒(méi)有探討。針對(duì)肥胖問(wèn)題，文中目的不僅能正確對(duì)肥胖等級(jí)進(jìn)行預(yù)測(cè)，還要尋找影響肥胖的因素及各因素之間的關(guān)系。

針對(duì)已有分類(lèi)器無(wú)法同時(shí)解決有序分類(lèi)問(wèn)題和不善于知識(shí)表達(dá)的缺點(diǎn)，Halbersberg D等[5]提出一種在給定初始網(wǎng)絡(luò)的情況下，利用有序信息測(cè)度構(gòu)建貝葉斯網(wǎng)絡(luò)分類(lèi)器的算法。有序信息測(cè)度能反映誤分類(lèi)的嚴(yán)重性，所得貝葉斯網(wǎng)能反映變量之間的依賴(lài)關(guān)系。但是Halbersberg方法[5]直接用樸素貝葉斯網(wǎng)(Naive Bayesian, NB)或者空的網(wǎng)絡(luò)(Empty Network, EN)作為初始網(wǎng)絡(luò)，而不同初始網(wǎng)絡(luò)的選擇可能會(huì)對(duì)分類(lèi)器的性能產(chǎn)生影響，因此，文中用Kuschner K W等[6]的方法生成“平均”網(wǎng)絡(luò)(Average Network, AN)作為初始網(wǎng)絡(luò)，然后結(jié)合Halbersberg方法得到分類(lèi)器。肥胖?jǐn)?shù)據(jù)結(jié)果顯示，新方法準(zhǔn)確率顯著提高，并且優(yōu)于其他有序分類(lèi)算法。從得到的貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn)，飲食習(xí)慣是影響肥胖的主要因素，此外，日常乘坐的交通工具類(lèi)型也會(huì)對(duì)肥胖等級(jí)產(chǎn)生影響。

1 預(yù)備知識(shí)

1.1 貝葉斯網(wǎng)絡(luò)分類(lèi)器

貝葉斯網(wǎng)絡(luò)分類(lèi)器(Bayesian Network Classifier, BNC)是用來(lái)預(yù)測(cè)離散類(lèi)別變量C的貝葉斯網(wǎng)絡(luò)。對(duì)于一個(gè)分類(lèi)問(wèn)題(X,C)，X=(V1,V2，…,Vm)表示觀測(cè)特征，C表示類(lèi)別標(biāo)簽，對(duì)應(yīng)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)用B=〈ζ,Θ〉表示，ζ是有向無(wú)環(huán)圖，每個(gè)節(jié)點(diǎn)代表(X,C)中的一個(gè)變量，Θ表示量化該網(wǎng)絡(luò)的一組參數(shù)。給定m個(gè)特征的觀測(cè)值x=(v1,v2,…,vm)，其中vi為x在第i個(gè)屬性Vi上的觀測(cè)值，則BNC為x分配最可能的類(lèi)別c*，c*對(duì)應(yīng)C中的某一個(gè)取值，即

(1)

其中，P(c,x)可以根據(jù)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)B=〈ζ,Θ〉分解得到，即

1.2 學(xué)習(xí)貝葉斯網(wǎng)絡(luò)分類(lèi)器

貝葉斯網(wǎng)絡(luò)分類(lèi)器的學(xué)習(xí)包括結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)兩部分。結(jié)構(gòu)學(xué)習(xí)通常是用搜索和評(píng)分的方法，如徐平峰等[7]提出的基于自助法(Bootstrap)的高斯貝葉斯網(wǎng)的結(jié)構(gòu)學(xué)習(xí)算法BPKL。搜索和評(píng)分方法的基本思想是選擇一個(gè)評(píng)分函數(shù)，該評(píng)分函數(shù)能測(cè)量結(jié)構(gòu)對(duì)數(shù)據(jù)的契合度，然后基于評(píng)分函數(shù)尋找結(jié)構(gòu)最優(yōu)的貝葉斯網(wǎng)。但是從所有可能的結(jié)構(gòu)中尋找最優(yōu)網(wǎng)絡(luò)是一個(gè)NP問(wèn)題。能在有限時(shí)間內(nèi)得到近似解有兩種方法:

1)貪心法即貪婪搜索，從某個(gè)網(wǎng)絡(luò)出發(fā)，通過(guò)對(duì)該網(wǎng)絡(luò)加邊、減邊或改變邊的方向(不形成閉環(huán)的情況下)，尋找使評(píng)分函數(shù)最優(yōu)的結(jié)構(gòu)；

2)通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)施加約束來(lái)縮小搜索空間。

參數(shù)學(xué)習(xí)比較容易，就是在得到網(wǎng)絡(luò)結(jié)構(gòu)后，通過(guò)對(duì)訓(xùn)練樣本計(jì)數(shù)得到每個(gè)節(jié)點(diǎn)的條件概率表。

1.3 評(píng)估指標(biāo)

為比較不同分類(lèi)器的好壞，需要進(jìn)行性能評(píng)估?；煜仃囀浅Ｓ玫挠涗浄诸?lèi)器性能的矩陣，包含預(yù)測(cè)值和真實(shí)值的信息。假設(shè)某個(gè)數(shù)據(jù)集的樣本量為N，可以分為k(k≥2)個(gè)類(lèi)別，且類(lèi)別之間是有序的，即d1

表1 混淆矩陣

令x表示預(yù)測(cè)類(lèi)別，y表示真實(shí)類(lèi)別。Cij(i,j∈[1,k])是混淆矩陣中位于第i行第j列的元素，表示真實(shí)類(lèi)別為i而預(yù)測(cè)類(lèi)別為j的樣本量，顯然

則被預(yù)測(cè)為第j類(lèi)的樣本頻率為

(2)

樣本屬于第i類(lèi)的頻率為

(3)

真實(shí)屬于第i類(lèi)而被分到第j類(lèi)的樣本頻率為

(4)

基于以上混淆矩陣可以定義一系列用來(lái)衡量分類(lèi)器性能的評(píng)估指標(biāo)，文中選取了6種評(píng)估指標(biāo)?；バ畔?MI) 測(cè)量的是x和y的聯(lián)合概率分布P(x,y)和邊緣概率分布乘積P(x)P(y)的相似程度，離散變量的互信息定義為

它可以度量變量之間關(guān)系的強(qiáng)弱，取值越大越好。由混淆矩陣可以得到互信息的估計(jì)為

(5)

平均絕對(duì)誤差(MAE)是預(yù)測(cè)標(biāo)簽x和真實(shí)標(biāo)簽y之間的平均偏差，是所有可能誤差的總和，取值越小越好。由混淆矩陣可以得到

(6)

混淆熵(CEN)是Wei J M等[8]提出的一種新的評(píng)估指標(biāo)。對(duì)于一個(gè)分類(lèi)問(wèn)題，某個(gè)標(biāo)簽i錯(cuò)誤分類(lèi)信息既包括屬于第i類(lèi)而被錯(cuò)誤分到其他標(biāo)簽的樣本信息，也包括其他標(biāo)簽樣本被錯(cuò)誤分到第i類(lèi)的信息?；煜鼐褪抢盟蓄?lèi)的這種錯(cuò)誤分類(lèi)的分布信息來(lái)度量分類(lèi)器性能，具體算法參見(jiàn)文獻(xiàn)[8]。

信息測(cè)度(IM)由Halbersberg D等[5]提出，它能同時(shí)最大化分類(lèi)精度和信息，也能通過(guò)錯(cuò)誤嚴(yán)重性來(lái)體現(xiàn)類(lèi)別之間固有的順序，估計(jì)值為

IM=-MI(x,y)+ES(x,y)=

(7)

IMα=

(8)

也可以表示為

IMα=IM-log(α)ACC，

其中，ACC為準(zhǔn)確率，α在準(zhǔn)確率ACC和互信息MI之間做權(quán)衡。當(dāng)α=1時(shí)，IMα相當(dāng)于IM，二者均越小越好。

2 改進(jìn)算法

建立分類(lèi)器時(shí)需確定使用哪個(gè)度量來(lái)訓(xùn)練分類(lèi)器，選擇的度量方式可以和評(píng)估分類(lèi)器的度量一致，如Kelner R等[9]既用準(zhǔn)確率ACC學(xué)習(xí)分類(lèi)器，也用準(zhǔn)確率評(píng)估分類(lèi)器；也可以不一致，如隨機(jī)森林可以用信息增益進(jìn)行訓(xùn)練，用準(zhǔn)確率進(jìn)行評(píng)估。文中應(yīng)用貪心法選擇相同的衡量指標(biāo)對(duì)分類(lèi)器進(jìn)行學(xué)習(xí)和評(píng)估，這些指標(biāo)來(lái)源于文中1.3。

Halbersberg D等[5]用IMα作為評(píng)分函數(shù)搜索最優(yōu)貝葉斯網(wǎng)絡(luò)。IMα可以用ES(x,y)來(lái)衡量有序分類(lèi)中錯(cuò)誤分類(lèi)的嚴(yán)重性，能有效處理有序分類(lèi)問(wèn)題。該算法首先給出一個(gè)初始網(wǎng)絡(luò)和α，然后用貪心法搜索使IMα得分最低的網(wǎng)絡(luò)。但Halbersberg D[5]直接給定NB或者EN作為初始網(wǎng)絡(luò)，而不同的初始網(wǎng)絡(luò)得到的分類(lèi)器不同，性能也不同。因此，希望通過(guò)某種方法尋找初始網(wǎng)絡(luò)，利用該初始網(wǎng)絡(luò)能提高最終分類(lèi)器的性能。

Kuschner K W等[6]在建立貝葉斯網(wǎng)分類(lèi)器時(shí)，將類(lèi)別變量放在根節(jié)點(diǎn)處，根據(jù)互信息和條件互信息建立類(lèi)別變量的馬爾可夫毯(某節(jié)點(diǎn)的馬爾可夫毯由該節(jié)點(diǎn)的父節(jié)點(diǎn)、子節(jié)點(diǎn)和子節(jié)點(diǎn)的其他父節(jié)點(diǎn)構(gòu)成)，同時(shí)也關(guān)注類(lèi)別變量的子節(jié)點(diǎn)和其他變量的依賴(lài)關(guān)系。由于類(lèi)別變量沒(méi)有父節(jié)點(diǎn)，該方法簡(jiǎn)化了尋找貝葉斯網(wǎng)的過(guò)程，故用Kuschner方法[6]建立初始網(wǎng)絡(luò)，然后結(jié)合Halbersberg方法[5]構(gòu)建最終的貝葉斯網(wǎng)絡(luò)形成算法1，見(jiàn)表2。

表2 算法1

文中將用X作為初始網(wǎng)絡(luò)，Y作為評(píng)分函數(shù)，得到的BNC記作X-BNC-Y，其中X∈{NB,EN,AN}，Y∈{ACC,CEN,IM,IMα,MAE,MI}。

3 實(shí)證分析

3.1 數(shù)據(jù)描述

文中選取來(lái)自Kaggle網(wǎng)站中的obesity數(shù)據(jù)集進(jìn)行分析，該數(shù)據(jù)集包括17個(gè)特征共2 111個(gè)樣本。類(lèi)別變量分為體重偏輕、正常體重、Ⅰ級(jí)超重、Ⅱ級(jí)超重、Ⅰ級(jí)肥胖、Ⅱ級(jí)肥胖和Ⅲ級(jí)肥胖7個(gè)等級(jí)。除類(lèi)別變量外，其余特征可分為3個(gè)方面：

1)與飲食習(xí)慣相關(guān)的特征。包括經(jīng)常使用高熱量食物、蔬菜攝入頻率、正餐次數(shù)、零食頻率、每日飲水量和飲酒量。

2)與身體狀況相關(guān)的特征。包括卡路里消耗監(jiān)測(cè)、體育鍛煉頻率、使用科技設(shè)備時(shí)間、使用的交通工具。

3)其他特征。包括性別、年齡、身高、體重、家庭肥胖史、是否抽煙，其中年齡、身高、體重是連續(xù)變量，將其進(jìn)行離散化。

3.2 算法應(yīng)用及比較

將1.3中的6種評(píng)估指標(biāo)分別作為評(píng)分函數(shù)用算法1得到各自的BNC，對(duì)每個(gè)分類(lèi)器在測(cè)試集上得到的混淆矩陣計(jì)算6種評(píng)估指標(biāo),所得結(jié)果見(jiàn)表3。

表3 相同初始網(wǎng)絡(luò)不同評(píng)分函數(shù)所得分類(lèi)器的結(jié)果比較

用NB和EN作為初始網(wǎng)絡(luò)分別得到NB-BNC-IMα和EN-BNC-IMα，與AN-BNC-IMα進(jìn)行比較，如圖1所示。

(a) ACC、CEN、MAE

(b) MI和取絕對(duì)值之后的IM和IMα

從圖1可知，AN-BNC-IMα在6種評(píng)價(jià)指標(biāo)中的表現(xiàn)一致優(yōu)于另外兩種分類(lèi)器，說(shuō)明AN-BNC-IMα較Halbersberg原始方法性能好。

將AN-BNC-IMα與其他有序分類(lèi)算法進(jìn)行比較，選擇的比較算法有POM[2]、SVOREX[3]、NNOP[4]、ORBoost[10]，這些方法都是傳統(tǒng)分類(lèi)器用于解決有序分類(lèi)問(wèn)題的變體，可以用ORCA(Ordinal Regression and Classification Algorithms)[11]來(lái)實(shí)現(xiàn)。ORCA是一個(gè)Matlab框架，它實(shí)現(xiàn)并集成了不同的有序分類(lèi)算法，且有專(zhuān)門(mén)設(shè)計(jì)的評(píng)估指標(biāo)，可以衡量分類(lèi)器的性能。比較的評(píng)估指標(biāo)是ACC和MAE，結(jié)果如圖2所示。

圖2 AN-BNC-IMα和其它有序分類(lèi)器的比較

從圖2可知，AN-BNC-IMα的準(zhǔn)確率最高，NNOP次之，準(zhǔn)確率相差2%；ORBoost的MAE最低，但是NNOP和AN-BNC-IMα的MAE也只有0.23，和ORBoost相差不到0.01。說(shuō)明ORBoost、NNOP和AN-BNC-IMα3個(gè)分類(lèi)器的性能相近，但是由于ORBoost、NNOP只給出分類(lèi)結(jié)果，無(wú)法說(shuō)明哪些特征對(duì)目標(biāo)變量有直接影響，而貝葉斯網(wǎng)絡(luò)可以直觀地顯示出變量之間的依賴(lài)關(guān)系，更有利于結(jié)果的解釋?zhuān)哉J(rèn)為AN-BNC-IMα是最理想的分類(lèi)器。

3.3 影響因素分析

算法1得到的貝葉斯網(wǎng)絡(luò)如圖3所示。

圖3 貝葉斯網(wǎng)絡(luò)

從圖3可以看出,影響肥胖程度的主要因素除年齡、性別、身高等基本情況外，主要與飲食習(xí)慣相關(guān)的屬性,即高熱量食物、蔬菜攝入頻率、主餐次數(shù)、零食頻率有關(guān)，另外還和交通工具有關(guān)。

對(duì)交通工具這一特征進(jìn)行分析發(fā)現(xiàn)，使用摩托車(chē)、自行車(chē)和步行的樣本占比極少，只占總樣本量的3.5%，故只分析乘坐汽車(chē)和公共交通的人群。使用公共交通和汽車(chē)的人群在各肥胖等級(jí)中的占比如圖4所示。

圖4 使用公共交通和汽車(chē)的人群在各肥胖等級(jí)中的占比

從圖4可以看出，乘坐公共交通的人群中體重偏輕、正?；?qū)儆冖蠹?jí)肥胖的比例顯著大于在乘坐汽車(chē)的人群中同等級(jí)的占比；乘坐汽車(chē)的人群肥胖等級(jí)波動(dòng)很大，Ⅲ級(jí)肥胖人數(shù)占比最少，Ⅱ級(jí)超重、Ⅰ級(jí)肥胖、Ⅱ級(jí)肥胖的比例較高，并且顯著大于公共交通中同等級(jí)所占的比例。這說(shuō)明和乘坐汽車(chē)的人群相比，乘坐公共交通工具的人群不容易肥胖，但是Ⅲ級(jí)肥胖除外。

4 結(jié) 語(yǔ)

采用Kuschner K W等[6]的AN方法建立初始網(wǎng)絡(luò)，然后結(jié)合Halbersberg方法構(gòu)建有序貝葉斯網(wǎng)絡(luò)分類(lèi)器，彌補(bǔ)了Halbersberg方法隨機(jī)選擇初始網(wǎng)絡(luò)的不足。文中方法在肥胖?jǐn)?shù)據(jù)上的結(jié)果顯示，和使用樸素貝葉斯網(wǎng)(NB)或者空的網(wǎng)絡(luò)(EN)作為初始網(wǎng)絡(luò)相比，用AN作為初始網(wǎng)絡(luò)所得分類(lèi)器的性能在6種評(píng)估指標(biāo)中一致最優(yōu)，說(shuō)明文中方法較Halbersberg方法效果提升明顯。另外和其他有序分類(lèi)器比較發(fā)現(xiàn)，在準(zhǔn)確率和平均絕對(duì)誤差上，文中方法顯著優(yōu)于SVOREX、POM，并且和NNOP、ORBoost的性能相當(dāng)。而且可以通過(guò)貝葉斯網(wǎng)直觀得出各變量之間的依賴(lài)關(guān)系，找到影響目標(biāo)變量的直接因素，有助于結(jié)果解釋。從得到的貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn)，影響肥胖的因素除了和飲食習(xí)慣相關(guān)的屬性外，還與日常使用的交通工具有關(guān)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡