陳芳芳,徐平峰
(長(zhǎng)春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,吉林 長(zhǎng)春 130012)
自1980年以來(lái),全球肥胖人口數(shù)量劇增,且因肥胖患病和死亡人數(shù)也在攀升[1]。胖瘦程度通常用身體質(zhì)量指數(shù)(BMI)來(lái)衡量。2019年BMI偏高導(dǎo)致全球500萬(wàn)人死亡,主要死亡原因是由肥胖引起的心血管疾病和Ⅱ型糖尿病,另外,高BMI也會(huì)增加患癌癥的風(fēng)險(xiǎn)。文中目的是尋找肥胖的影響因素,以及如何在這些因素下對(duì)一個(gè)人是否肥胖進(jìn)行預(yù)測(cè)。肥胖等級(jí)是有序變量,各等級(jí)之間存在自然順序,對(duì)有序變量建模不能直接使用決策樹(shù)、隨機(jī)森林等機(jī)器學(xué)習(xí)算法,這樣做會(huì)損失有序信息,正確的做法是建立合適的有序分類(lèi)器。
已經(jīng)有學(xué)者提出一些算法專(zhuān)門(mén)用來(lái)解決有序分類(lèi)問(wèn)題,如有序logistic回歸[2]、有序支持向量機(jī)[3]、有序神經(jīng)網(wǎng)絡(luò)[4]等。這些有序算法的目標(biāo)都是得到準(zhǔn)確率更高的分類(lèi)器,但是影響決策的主要特征是哪些,特征之間是否存在依賴(lài)關(guān)系卻沒(méi)有探討。針對(duì)肥胖問(wèn)題,文中目的不僅能正確對(duì)肥胖等級(jí)進(jìn)行預(yù)測(cè),還要尋找影響肥胖的因素及各因素之間的關(guān)系。
針對(duì)已有分類(lèi)器無(wú)法同時(shí)解決有序分類(lèi)問(wèn)題和不善于知識(shí)表達(dá)的缺點(diǎn),Halbersberg D等[5]提出一種在給定初始網(wǎng)絡(luò)的情況下,利用有序信息測(cè)度構(gòu)建貝葉斯網(wǎng)絡(luò)分類(lèi)器的算法。有序信息測(cè)度能反映誤分類(lèi)的嚴(yán)重性,所得貝葉斯網(wǎng)能反映變量之間的依賴(lài)關(guān)系。但是Halbersberg方法[5]直接用樸素貝葉斯網(wǎng)(Naive Bayesian, NB)或者空的網(wǎng)絡(luò)(Empty Network, EN)作為初始網(wǎng)絡(luò),而不同初始網(wǎng)絡(luò)的選擇可能會(huì)對(duì)分類(lèi)器的性能產(chǎn)生影響,因此,文中用Kuschner K W等[6]的方法生成“平均”網(wǎng)絡(luò)(Average Network, AN)作為初始網(wǎng)絡(luò),然后結(jié)合Halbersberg方法得到分類(lèi)器。肥胖?jǐn)?shù)據(jù)結(jié)果顯示,新方法準(zhǔn)確率顯著提高,并且優(yōu)于其他有序分類(lèi)算法。從得到的貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn),飲食習(xí)慣是影響肥胖的主要因素,此外,日常乘坐的交通工具類(lèi)型也會(huì)對(duì)肥胖等級(jí)產(chǎn)生影響。
貝葉斯網(wǎng)絡(luò)分類(lèi)器(Bayesian Network Classifier, BNC)是用來(lái)預(yù)測(cè)離散類(lèi)別變量C的貝葉斯網(wǎng)絡(luò)。對(duì)于一個(gè)分類(lèi)問(wèn)題(X,C),X=(V1,V2,…,Vm)表示觀測(cè)特征,C表示類(lèi)別標(biāo)簽,對(duì)應(yīng)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)用B=〈ζ,Θ〉表示,ζ是有向無(wú)環(huán)圖,每個(gè)節(jié)點(diǎn)代表(X,C)中的一個(gè)變量,Θ表示量化該網(wǎng)絡(luò)的一組參數(shù)。給定m個(gè)特征的觀測(cè)值x=(v1,v2,…,vm),其中vi為x在第i個(gè)屬性Vi上的觀測(cè)值,則BNC為x分配最可能的類(lèi)別c*,c*對(duì)應(yīng)C中的某一個(gè)取值,即
(1)
其中,P(c,x)可以根據(jù)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)B=〈ζ,Θ〉分解得到,即
貝葉斯網(wǎng)絡(luò)分類(lèi)器的學(xué)習(xí)包括結(jié)構(gòu)學(xué)習(xí)和參數(shù)學(xué)習(xí)兩部分。結(jié)構(gòu)學(xué)習(xí)通常是用搜索和評(píng)分的方法,如徐平峰等[7]提出的基于自助法(Bootstrap)的高斯貝葉斯網(wǎng)的結(jié)構(gòu)學(xué)習(xí)算法BPKL。搜索和評(píng)分方法的基本思想是選擇一個(gè)評(píng)分函數(shù),該評(píng)分函數(shù)能測(cè)量結(jié)構(gòu)對(duì)數(shù)據(jù)的契合度,然后基于評(píng)分函數(shù)尋找結(jié)構(gòu)最優(yōu)的貝葉斯網(wǎng)。但是從所有可能的結(jié)構(gòu)中尋找最優(yōu)網(wǎng)絡(luò)是一個(gè)NP問(wèn)題。能在有限時(shí)間內(nèi)得到近似解有兩種方法:
1)貪心法即貪婪搜索,從某個(gè)網(wǎng)絡(luò)出發(fā),通過(guò)對(duì)該網(wǎng)絡(luò)加邊、減邊或改變邊的方向(不形成閉環(huán)的情況下),尋找使評(píng)分函數(shù)最優(yōu)的結(jié)構(gòu);
2)通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)施加約束來(lái)縮小搜索空間。
參數(shù)學(xué)習(xí)比較容易,就是在得到網(wǎng)絡(luò)結(jié)構(gòu)后,通過(guò)對(duì)訓(xùn)練樣本計(jì)數(shù)得到每個(gè)節(jié)點(diǎn)的條件概率表。
為比較不同分類(lèi)器的好壞,需要進(jìn)行性能評(píng)估?;煜仃囀浅S玫挠涗浄诸?lèi)器性能的矩陣,包含預(yù)測(cè)值和真實(shí)值的信息。假設(shè)某個(gè)數(shù)據(jù)集的樣本量為N,可以分為k(k≥2)個(gè)類(lèi)別,且類(lèi)別之間是有序的,即d1 表1 混淆矩陣 令x表示預(yù)測(cè)類(lèi)別,y表示真實(shí)類(lèi)別。Cij(i,j∈[1,k])是混淆矩陣中位于第i行第j列的元素,表示真實(shí)類(lèi)別為i而預(yù)測(cè)類(lèi)別為j的樣本量,顯然 則被預(yù)測(cè)為第j類(lèi)的樣本頻率為 (2) 樣本屬于第i類(lèi)的頻率為 (3) 真實(shí)屬于第i類(lèi)而被分到第j類(lèi)的樣本頻率為 (4) 基于以上混淆矩陣可以定義一系列用來(lái)衡量分類(lèi)器性能的評(píng)估指標(biāo),文中選取了6種評(píng)估指標(biāo)?;バ畔?MI) 測(cè)量的是x和y的聯(lián)合概率分布P(x,y)和邊緣概率分布乘積P(x)P(y)的相似程度,離散變量的互信息定義為 它可以度量變量之間關(guān)系的強(qiáng)弱,取值越大越好。由混淆矩陣可以得到互信息的估計(jì)為 (5) 平均絕對(duì)誤差(MAE)是預(yù)測(cè)標(biāo)簽x和真實(shí)標(biāo)簽y之間的平均偏差,是所有可能誤差的總和,取值越小越好。由混淆矩陣可以得到 (6) 混淆熵(CEN)是Wei J M等[8]提出的一種新的評(píng)估指標(biāo)。對(duì)于一個(gè)分類(lèi)問(wèn)題,某個(gè)標(biāo)簽i錯(cuò)誤分類(lèi)信息既包括屬于第i類(lèi)而被錯(cuò)誤分到其他標(biāo)簽的樣本信息,也包括其他標(biāo)簽樣本被錯(cuò)誤分到第i類(lèi)的信息?;煜鼐褪抢盟蓄?lèi)的這種錯(cuò)誤分類(lèi)的分布信息來(lái)度量分類(lèi)器性能,具體算法參見(jiàn)文獻(xiàn)[8]。 信息測(cè)度(IM)由Halbersberg D等[5]提出,它能同時(shí)最大化分類(lèi)精度和信息,也能通過(guò)錯(cuò)誤嚴(yán)重性來(lái)體現(xiàn)類(lèi)別之間固有的順序,估計(jì)值為 IM=-MI(x,y)+ES(x,y)= (7) IMα= (8) 也可以表示為 IMα=IM-log(α)ACC, 其中,ACC為準(zhǔn)確率,α在準(zhǔn)確率ACC和互信息MI之間做權(quán)衡。當(dāng)α=1時(shí),IMα相當(dāng)于IM,二者均越小越好。 建立分類(lèi)器時(shí)需確定使用哪個(gè)度量來(lái)訓(xùn)練分類(lèi)器,選擇的度量方式可以和評(píng)估分類(lèi)器的度量一致,如Kelner R等[9]既用準(zhǔn)確率ACC學(xué)習(xí)分類(lèi)器,也用準(zhǔn)確率評(píng)估分類(lèi)器;也可以不一致,如隨機(jī)森林可以用信息增益進(jìn)行訓(xùn)練,用準(zhǔn)確率進(jìn)行評(píng)估。文中應(yīng)用貪心法選擇相同的衡量指標(biāo)對(duì)分類(lèi)器進(jìn)行學(xué)習(xí)和評(píng)估,這些指標(biāo)來(lái)源于文中1.3。 Halbersberg D等[5]用IMα作為評(píng)分函數(shù)搜索最優(yōu)貝葉斯網(wǎng)絡(luò)。IMα可以用ES(x,y)來(lái)衡量有序分類(lèi)中錯(cuò)誤分類(lèi)的嚴(yán)重性,能有效處理有序分類(lèi)問(wèn)題。該算法首先給出一個(gè)初始網(wǎng)絡(luò)和α,然后用貪心法搜索使IMα得分最低的網(wǎng)絡(luò)。但Halbersberg D[5]直接給定NB或者EN作為初始網(wǎng)絡(luò),而不同的初始網(wǎng)絡(luò)得到的分類(lèi)器不同,性能也不同。因此,希望通過(guò)某種方法尋找初始網(wǎng)絡(luò),利用該初始網(wǎng)絡(luò)能提高最終分類(lèi)器的性能。 Kuschner K W等[6]在建立貝葉斯網(wǎng)分類(lèi)器時(shí),將類(lèi)別變量放在根節(jié)點(diǎn)處,根據(jù)互信息和條件互信息建立類(lèi)別變量的馬爾可夫毯(某節(jié)點(diǎn)的馬爾可夫毯由該節(jié)點(diǎn)的父節(jié)點(diǎn)、子節(jié)點(diǎn)和子節(jié)點(diǎn)的其他父節(jié)點(diǎn)構(gòu)成),同時(shí)也關(guān)注類(lèi)別變量的子節(jié)點(diǎn)和其他變量的依賴(lài)關(guān)系。由于類(lèi)別變量沒(méi)有父節(jié)點(diǎn),該方法簡(jiǎn)化了尋找貝葉斯網(wǎng)的過(guò)程,故用Kuschner方法[6]建立初始網(wǎng)絡(luò),然后結(jié)合Halbersberg方法[5]構(gòu)建最終的貝葉斯網(wǎng)絡(luò)形成算法1,見(jiàn)表2。 表2 算法1 文中將用X作為初始網(wǎng)絡(luò),Y作為評(píng)分函數(shù),得到的BNC記作X-BNC-Y,其中X∈{NB,EN,AN},Y∈{ACC,CEN,IM,IMα,MAE,MI}。 文中選取來(lái)自Kaggle網(wǎng)站中的obesity數(shù)據(jù)集進(jìn)行分析,該數(shù)據(jù)集包括17個(gè)特征共2 111個(gè)樣本。類(lèi)別變量分為體重偏輕、正常體重、Ⅰ級(jí)超重、Ⅱ級(jí)超重、Ⅰ級(jí)肥胖、Ⅱ級(jí)肥胖和Ⅲ級(jí)肥胖7個(gè)等級(jí)。除類(lèi)別變量外,其余特征可分為3個(gè)方面: 1)與飲食習(xí)慣相關(guān)的特征。包括經(jīng)常使用高熱量食物、蔬菜攝入頻率、正餐次數(shù)、零食頻率、每日飲水量和飲酒量。 2)與身體狀況相關(guān)的特征。包括卡路里消耗監(jiān)測(cè)、體育鍛煉頻率、使用科技設(shè)備時(shí)間、使用的交通工具。 3)其他特征。包括性別、年齡、身高、體重、家庭肥胖史、是否抽煙,其中年齡、身高、體重是連續(xù)變量,將其進(jìn)行離散化。 將1.3中的6種評(píng)估指標(biāo)分別作為評(píng)分函數(shù)用算法1得到各自的BNC,對(duì)每個(gè)分類(lèi)器在測(cè)試集上得到的混淆矩陣計(jì)算6種評(píng)估指標(biāo),所得結(jié)果見(jiàn)表3。 表3 相同初始網(wǎng)絡(luò)不同評(píng)分函數(shù)所得分類(lèi)器的結(jié)果比較 用NB和EN作為初始網(wǎng)絡(luò)分別得到NB-BNC-IMα和EN-BNC-IMα,與AN-BNC-IMα進(jìn)行比較,如圖1所示。 (a) ACC、CEN、MAE (b) MI和取絕對(duì)值之后的IM和IMα 從圖1可知,AN-BNC-IMα在6種評(píng)價(jià)指標(biāo)中的表現(xiàn)一致優(yōu)于另外兩種分類(lèi)器,說(shuō)明AN-BNC-IMα較Halbersberg原始方法性能好。 將AN-BNC-IMα與其他有序分類(lèi)算法進(jìn)行比較,選擇的比較算法有POM[2]、SVOREX[3]、NNOP[4]、ORBoost[10],這些方法都是傳統(tǒng)分類(lèi)器用于解決有序分類(lèi)問(wèn)題的變體,可以用ORCA(Ordinal Regression and Classification Algorithms)[11]來(lái)實(shí)現(xiàn)。ORCA是一個(gè)Matlab框架,它實(shí)現(xiàn)并集成了不同的有序分類(lèi)算法,且有專(zhuān)門(mén)設(shè)計(jì)的評(píng)估指標(biāo),可以衡量分類(lèi)器的性能。比較的評(píng)估指標(biāo)是ACC和MAE,結(jié)果如圖2所示。 圖2 AN-BNC-IMα和其它有序分類(lèi)器的比較 從圖2可知,AN-BNC-IMα的準(zhǔn)確率最高,NNOP次之,準(zhǔn)確率相差2%;ORBoost的MAE最低,但是NNOP和AN-BNC-IMα的MAE也只有0.23,和ORBoost相差不到0.01。說(shuō)明ORBoost、NNOP和AN-BNC-IMα3個(gè)分類(lèi)器的性能相近,但是由于ORBoost、NNOP只給出分類(lèi)結(jié)果,無(wú)法說(shuō)明哪些特征對(duì)目標(biāo)變量有直接影響,而貝葉斯網(wǎng)絡(luò)可以直觀地顯示出變量之間的依賴(lài)關(guān)系,更有利于結(jié)果的解釋?zhuān)哉J(rèn)為AN-BNC-IMα是最理想的分類(lèi)器。 算法1得到的貝葉斯網(wǎng)絡(luò)如圖3所示。 圖3 貝葉斯網(wǎng)絡(luò) 從圖3可以看出,影響肥胖程度的主要因素除年齡、性別、身高等基本情況外,主要與飲食習(xí)慣相關(guān)的屬性,即高熱量食物、蔬菜攝入頻率、主餐次數(shù)、零食頻率有關(guān),另外還和交通工具有關(guān)。 對(duì)交通工具這一特征進(jìn)行分析發(fā)現(xiàn),使用摩托車(chē)、自行車(chē)和步行的樣本占比極少,只占總樣本量的3.5%,故只分析乘坐汽車(chē)和公共交通的人群。使用公共交通和汽車(chē)的人群在各肥胖等級(jí)中的占比如圖4所示。 圖4 使用公共交通和汽車(chē)的人群在各肥胖等級(jí)中的占比 從圖4可以看出,乘坐公共交通的人群中體重偏輕、正?;?qū)儆冖蠹?jí)肥胖的比例顯著大于在乘坐汽車(chē)的人群中同等級(jí)的占比;乘坐汽車(chē)的人群肥胖等級(jí)波動(dòng)很大,Ⅲ級(jí)肥胖人數(shù)占比最少,Ⅱ級(jí)超重、Ⅰ級(jí)肥胖、Ⅱ級(jí)肥胖的比例較高,并且顯著大于公共交通中同等級(jí)所占的比例。這說(shuō)明和乘坐汽車(chē)的人群相比,乘坐公共交通工具的人群不容易肥胖,但是Ⅲ級(jí)肥胖除外。 采用Kuschner K W等[6]的AN方法建立初始網(wǎng)絡(luò),然后結(jié)合Halbersberg方法構(gòu)建有序貝葉斯網(wǎng)絡(luò)分類(lèi)器,彌補(bǔ)了Halbersberg方法隨機(jī)選擇初始網(wǎng)絡(luò)的不足。文中方法在肥胖?jǐn)?shù)據(jù)上的結(jié)果顯示,和使用樸素貝葉斯網(wǎng)(NB)或者空的網(wǎng)絡(luò)(EN)作為初始網(wǎng)絡(luò)相比,用AN作為初始網(wǎng)絡(luò)所得分類(lèi)器的性能在6種評(píng)估指標(biāo)中一致最優(yōu),說(shuō)明文中方法較Halbersberg方法效果提升明顯。另外和其他有序分類(lèi)器比較發(fā)現(xiàn),在準(zhǔn)確率和平均絕對(duì)誤差上,文中方法顯著優(yōu)于SVOREX、POM,并且和NNOP、ORBoost的性能相當(dāng)。而且可以通過(guò)貝葉斯網(wǎng)直觀得出各變量之間的依賴(lài)關(guān)系,找到影響目標(biāo)變量的直接因素,有助于結(jié)果解釋。從得到的貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn),影響肥胖的因素除了和飲食習(xí)慣相關(guān)的屬性外,還與日常使用的交通工具有關(guān)。2 改進(jìn)算法
3 實(shí)證分析
3.1 數(shù)據(jù)描述
3.2 算法應(yīng)用及比較
3.3 影響因素分析
4 結(jié) 語(yǔ)