国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高維類不平衡冠心病數(shù)據(jù)的變量選擇

2022-09-26 04:18:52宗敏潔吳愿交盧秀青
關(guān)鍵詞:高維維度分類

宗敏潔 吳愿交 盧秀青

1.黃河交通學(xué)院;2.西南交通大學(xué)希望學(xué)院;3.機械工業(yè)第六設(shè)計研究院有限公司

近幾年,隨著大數(shù)據(jù)概念的不斷升溫,學(xué)術(shù)界及產(chǎn)業(yè)界對不平衡數(shù)據(jù)處理問題的研究熱情仍未消退,且呈現(xiàn)逐漸升溫的趨勢,醫(yī)療數(shù)據(jù)成為其重要處理對象。醫(yī)療數(shù)據(jù)的特征是高度不平衡性、變量相關(guān)性程度高且維度高。該文首先對數(shù)據(jù)集進(jìn)行相關(guān)性分析,得出變量間存在嚴(yán)重的相關(guān)性,變量之間存在相關(guān)性會對分類結(jié)果產(chǎn)生影響。之后,分別采用LASSO和SPLS方法,對數(shù)據(jù)進(jìn)行變量選擇,選出8個最優(yōu)變量作為最優(yōu)子集,利用支持向量機分類器,對最優(yōu)子集進(jìn)行分類處理,提高了分類精度。同時,變量選擇降低了維度冗余與數(shù)據(jù)存儲問題,節(jié)約了時間與成本。研究表明:在高維不平衡數(shù)據(jù)分析中,變量選擇是行之有效的預(yù)處理策略。

1 研究背景

1.1 問題背景

自20世紀(jì)90年代末以來,不平衡數(shù)據(jù)處理一直是機器學(xué)習(xí)與數(shù)據(jù)挖掘領(lǐng)域的研究熱點與難點之一。近幾年,隨著大數(shù)據(jù)概念的不斷升溫,學(xué)術(shù)界及產(chǎn)業(yè)界對不平衡數(shù)據(jù)處理問題的研究熱情仍未消退且呈現(xiàn)逐漸升溫的趨勢。

在醫(yī)療診斷中如果把正常人(多數(shù)類)誤診為疾病患者(少數(shù)類)固然會給他帶來精神上的負(fù)擔(dān),但如果把一個疾病患者(少數(shù)類)誤診為正常人(多數(shù)類),就可能會錯過最佳治療時期,從而造成嚴(yán)重的后果。此時,少數(shù)類樣例被誤分的代價要比多數(shù)類被誤分的代價大[1]。這樣的醫(yī)療不平衡數(shù)據(jù)是普遍存在的,因此,提高不平衡數(shù)據(jù)中少數(shù)類的分類精確度,從而應(yīng)用到實際例子中,比如軟件缺陷預(yù)測、網(wǎng)絡(luò)入侵檢測、石油泄漏檢測、信用卡欺詐等領(lǐng)域,以及在代謝組學(xué)中確定穩(wěn)健的生物標(biāo)志物可以幫助提供一種較好的疾病診斷方法。

冠狀動脈粥樣硬化性心臟病,是冠狀動脈血管發(fā)生動脈粥樣硬化病變而引起血管腔狹窄或阻塞,造成心肌缺血、缺氧或壞死而導(dǎo)致的心臟病[2],常常被稱為“冠心病”。近幾年,隨著我國社會的快速發(fā)展和人們生活水平的提高,冠心病發(fā)病率呈現(xiàn)上升趨勢,該疾病已逐漸成為嚴(yán)重影響人們健康生活的主要疾病之一[3]。因此,對于冠心病及其并發(fā)癥數(shù)據(jù)的研究是非常重要的。

變量選擇是統(tǒng)計分析和推斷中的重要內(nèi)容,在建模過程中往往需要通過變量選擇方法,尋找對響應(yīng)變量最具有解釋性的自變量(協(xié)變量),以此來提高模型解釋性和預(yù)測準(zhǔn)確性,變量選擇結(jié)果的好壞影響著所建模型的質(zhì)量。變量選擇是為了減少數(shù)據(jù)集中的變量數(shù)量,它可以帶來許多好處,例如更快的模型訓(xùn)練,降低過度擬合的可接受性,抵消維度冗余的影響,以及減少數(shù)據(jù)分析期間的存儲、內(nèi)存和處理要求。在類不平衡數(shù)據(jù)中特別是高維數(shù)據(jù)中,變量選擇也極其重要。

1.2 國內(nèi)外研究情況

在不平衡學(xué)習(xí)問題中,研究了幾種變量選擇方法。對所提出的標(biāo)準(zhǔn)方法進(jìn)行分析,以檢驗這些方法是否有利于實現(xiàn)不平衡分類。Xiaojuan Zhang等人建立了一種基于偏最小二乘(PLS)判別分析(DA)結(jié)合可變迭代空間收縮法的石菖蒲與菖蒲鑒別模型。篩選出樟腦、長環(huán)烯和δ-cadinene 3種揮發(fā)物作為石菖蒲和菖蒲的關(guān)鍵鑒別因子。該方案可作為中草藥潛在生物活性成分的質(zhì)量控制和篩選的有效策略[4]。Zhongquan Xin等人建立了基于偏最小二乘(PLS)判別分析(DA)的高效判別模型,通過交叉驗證和置換檢驗對模型的可靠性和預(yù)測能力進(jìn)行了評價。結(jié)果表明,色譜指紋圖譜與化學(xué)計量學(xué)方法相結(jié)合為RP的質(zhì)量控制提供了一種有效、便捷的方法,有助于揭示復(fù)雜分析樣品的化學(xué)特征[5]。Robert等人提出了一種線性模型估計的新方法—LASSO,可以應(yīng)用于各種統(tǒng)計模型的變量選擇,對廣義回歸模型和基于樹的模型的擴展進(jìn)行了簡要描述[6]。

本論文以不平衡冠心病數(shù)據(jù)為研究目的對象,對不平衡數(shù)據(jù)進(jìn)行相關(guān)性分析和變量選擇處理,選出最優(yōu)子集,降低維度冗余和數(shù)據(jù)存儲,以此來改善不平衡數(shù)據(jù)的分類效果,提高少數(shù)類的分類準(zhǔn)確率。從中探討不平衡數(shù)據(jù)處理在冠心病數(shù)據(jù)分析中的應(yīng)用價值,為冠心病防治工作提供理論依據(jù),使其能采取有效的防治措施,從整體上降低冠狀動脈粥樣硬化性心臟病的發(fā)病率。

2 數(shù)據(jù)來源

數(shù)據(jù)集包括21例冠心病(CHD)患者和51例健康志愿者。所有患者均來自中國云南省第一人民醫(yī)院。另外,健康對照組51例健康成人均來自同一城市,無血緣關(guān)系。采用超高效液相色譜-高分辨質(zhì)譜(UPLC-HRMS)聯(lián)用技術(shù)檢測了50種代謝產(chǎn)物。臨床特征包括年齡、收縮壓、舒張壓、空腹血糖等。一般情況下,健康人樣本比冠心病患者的樣本更容易獲得,所以這里的健康人樣本類代表的是多數(shù)類,冠心病患者樣本類代表的是少數(shù)類。本數(shù)據(jù)集無缺失數(shù)據(jù)。

3 方案設(shè)計

高維不平衡數(shù)據(jù)的主要特征是:變量維度高、樣本少、數(shù)據(jù)共線性嚴(yán)重、數(shù)據(jù)的不平衡度高。本文從算法層面和評價標(biāo)準(zhǔn)兩個不同層面對高維不平衡數(shù)據(jù)進(jìn)行變量選擇處理。從算法層面上,采用支持向量機算法[7];評價標(biāo)準(zhǔn)使用了預(yù)測精度(Accuracy,ACC),ROC曲線及其下的面積AUROC和PRC曲線及其下的面積AUPRC來度量不平衡數(shù)據(jù)的分類性能[8]。

本論文針對不平衡冠心病及其并發(fā)癥數(shù)據(jù),從兩個層面進(jìn)行分析,并對數(shù)據(jù)進(jìn)行變量選擇,以提高分類精度。具體流程如圖1所示。

圖1 方案設(shè)計流程圖Fig.1 Plan design flowchart

4 變量選擇對于分類的影響

以下以冠心病數(shù)據(jù)為例,從算法和評價準(zhǔn)則的角度,按照圖1的實驗設(shè)計方案,對高維類不平衡醫(yī)療數(shù)據(jù)進(jìn)行分析。

4.1 變量間的相關(guān)性分析

在高維不平衡數(shù)據(jù)集中,變量之間的相關(guān)性對數(shù)據(jù)的分類效果有所影響,變量之間的相關(guān)系數(shù)越大對于數(shù)據(jù)的分類效果影響越大,尤其對于正類的分類效果產(chǎn)生很大的影響。

本文所使用的冠心病不平衡數(shù)據(jù)集中各變量之間也存在一定的相關(guān)性。如圖2所示,顏色越深,表明兩變量之間相關(guān)性越強。中間一塊顏色最深,表明變量間存在嚴(yán)重的相關(guān)性,變量之間存在相關(guān)性會對分類結(jié)果產(chǎn)生影響,所以需要對數(shù)據(jù)集進(jìn)行變量選擇。

圖2 變量間相關(guān)系數(shù)矩陣熱圖Fig.2 Claolic coefficient matrix hot map

4.2 變量選擇對于分類的影響

變量選擇的目的就是剔除相關(guān)性較大的變量,醫(yī)療不平數(shù)據(jù)不僅維度高,數(shù)據(jù)間的相關(guān)性也很強,因此醫(yī)療數(shù)據(jù)的研究都離不開用變量選擇方法來提取最優(yōu)變量,以此達(dá)到降維的目的。變量選擇的過程在于去掉相關(guān)性不大的變量,把更少的變量應(yīng)用于算法研究,目的是從原始數(shù)據(jù)中選擇使得某種評估標(biāo)準(zhǔn)最優(yōu)的子集。在分類問題中,變量選擇目標(biāo)是提取使分類器準(zhǔn)確度最大化的最優(yōu)子集,僅使用一小部分變量捕獲數(shù)據(jù)集中固有的大多數(shù)信息。stabilityLASSO方法和stabilitySPLS方法都是變量選擇較為常用的方法。

分別運用stabilityLASSO方法和stabilitySPLS方法對不平衡比為51:21的數(shù)據(jù)集進(jìn)行變量選擇,根據(jù)被選擇頻次排序選出8個變量(如圖3所示)。對不平衡比為51:10的數(shù)據(jù)集進(jìn)行變量選擇,根據(jù)被選擇頻次排序選出8個變量(如圖4所示)。

圖3 不平衡比為51:21的數(shù)據(jù)集,根據(jù)被選擇頻次排序選出8個變量Fig.3 In the data set with an imbalance ratio of 51:21, 8 variables were selected according to the selected frequency

圖4 不平衡比為51:10的數(shù)據(jù)集,根據(jù)被選擇頻次排序選出8個變量Fig.4 In the data set with an imbalance ratio of 51:10, 8 variables were selected according to the selected frequency

根據(jù)stabilityLASSO方法和stabilitySPLS方法對不平衡數(shù)據(jù)集進(jìn)行變量選擇得出的8個變量,使用支持向量機(SVW)對變量選擇后的數(shù)據(jù)集進(jìn)行分類處理,結(jié)果如表1所示。

表1 兩種方法變量選擇表Tab.1 Two methods variable selection table

由表1得出,對數(shù)據(jù)進(jìn)行變量選擇后在使用支持向量機(SVW)進(jìn)行分類,AUROC、AUPRC和ACC的值均有所提高。為了能直觀的比較數(shù)據(jù)集變量選擇前后使用支持向量機(SVW)進(jìn)行分類結(jié)果的變化情況,對變量選擇前后的結(jié)果進(jìn)行可視化(如圖5所示)。

圖5 不平衡比為51:10和51:21的數(shù)據(jù)集變量選擇前后在SVW分類器的結(jié)果Fig.5 Unbalance ratios of 51:10 and 51:21 data sets were selected before and after the results of the classifier

5 結(jié)論

不平衡數(shù)據(jù)廣泛存在于許多科學(xué)領(lǐng)域,如醫(yī)學(xué)。變量選擇也是醫(yī)學(xué)數(shù)據(jù)研究中很重要的一項問題,因此如何使用變量選擇方法很重要。本文采用LASSO和SPLS方法,對數(shù)據(jù)進(jìn)行變量選擇,選出8個最優(yōu)變量作為最優(yōu)特征子集,結(jié)合支持向量機算法,提高了分類精度。同時,變量選擇降低了維度災(zāi)難與數(shù)據(jù)需求問題,節(jié)約了時間與成本。

本文的實際應(yīng)用意義在于:首先為醫(yī)療不平衡數(shù)據(jù)提供了一種可行的處理手段;其次,一些重要變量,通過變量選擇篩選出來,可以作為冠心病數(shù)據(jù)收集的重要指標(biāo)進(jìn)行分析;最后,體現(xiàn)了不平衡數(shù)據(jù)對醫(yī)療數(shù)據(jù)分類的重要性。同時,也為其他領(lǐng)域不平衡數(shù)據(jù)處理理論增加一種可能的實現(xiàn)依據(jù)。

引用

[1] 李勇,劉戰(zhàn)東,張海軍.不平衡數(shù)據(jù)的集成分類算法綜述[J].計算機應(yīng)用研究,2014,31(5):1287-1291.

[2] 徐玲,尹婷婷,俞吉,等.冠心病冠狀動脈粥樣硬化發(fā)生的危險因素多因素Logistic分析[J].臨床和實驗醫(yī)學(xué)雜志,2019,18(6):626-629.

[3] 路航.早發(fā)冠心病的危險因素及冠脈病變特點分析[J].中國療養(yǎng)醫(yī)學(xué),2019,28(4):348-351.

[4] ZHANG Xiao-juan,YI Lun-zhao,DENG Bai-chuan,et al. Discrimination of Acori Tatarinowii Rhizoma and Acori Calami Rhizoma Based on Quantitative Gas Chromatographic Fingerprints and Chemometric Methods[J].Journal of Separation Science,2015, 38(23):4078-4085.

[5] XIN Zhong-quan,REN Da-bing-,ZHANG Xiao-juan,et al. Chromatographic Fingerprints Combined with Chemometric Methods Reveal the Chemical Features of Authentic Radix Polygalae[J].Journal of Aoac International, 2017,100(01):30-37.

[6] Robert Tibshirani.Regression Shrinkage and Selection Via the Lasso [J].Journal of the Royal Statistical Society.Series B (Methodological), 1996,58(01):267-288.

[7] FU Guang-hui,ZHANG Bing-yang,KOU He-dan,et al.Stable Biomarker Screening and Classification by Subsampling-based Sparse Regularization Coupled with Support Vector Machines in Metabolomics[J].Chemometrics and Intelligent Laboratory Systems, 2017(160):22-31.

[8] YANG Ri-dong,LI Lin,CHEN Qiu-yuan,et al.Prediction of Disease-free Survival in Patients with Hepatocellular Carcinoma Based on Imbalance Classification[J].Journal of Biomedical Engineering Research,2019,38(1):27-31.

猜你喜歡
高維維度分類
分類算一算
淺論詩中“史”識的四個維度
中華詩詞(2019年7期)2019-11-25 01:43:00
分類討論求坐標(biāo)
一種改進(jìn)的GP-CLIQUE自適應(yīng)高維子空間聚類算法
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于加權(quán)自學(xué)習(xí)散列的高維數(shù)據(jù)最近鄰查詢算法
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
“五個維度”解有機化學(xué)推斷題
一般非齊次非線性擴散方程的等價變換和高維不變子空間
石台县| 蒙城县| 合川市| 防城港市| 安义县| 阳曲县| 镇原县| 沙湾县| 内江市| 柳河县| 英吉沙县| 林芝县| 黑山县| 凌云县| 遵义县| 久治县| 克东县| 资阳市| 大邑县| 称多县| 台东县| 长子县| 马边| 黄骅市| 化德县| 申扎县| 镇康县| 成武县| 颍上县| 鲜城| 登封市| 社会| 乳山市| 松江区| 桂阳县| 丰台区| 常山县| 湛江市| 云南省| 渭南市| 宜良县|