国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種異構集成學習的兒科疾病診斷方法研究

2018-07-05 04:30:56霍東雪尚振宏李潤鑫昆明理工大學信息工程與自動化學院云南昆明650500
計算機應用與軟件 2018年6期
關鍵詞:分類器標簽準確率

霍東雪 劉 輝 尚振宏 李潤鑫(昆明理工大學信息工程與自動化學院 云南 昆明 650500)

0 引 言

由于我國人口眾多,城鎮(zhèn)化加劇,醫(yī)療資源匱乏,每千人所占有的醫(yī)生比例不足27名。近年來,醫(yī)患關系日趨緊張,導致醫(yī)療糾紛愈演愈烈。

信息技術的迅猛發(fā)展為醫(yī)療行業(yè)帶來了新的機會。當前,種類繁多的醫(yī)療技術已廣泛地應用于藥物挖掘、醫(yī)學影像、醫(yī)療診斷等各個領域[1]。隨著科學技術的進步,機器學習在醫(yī)療診斷領域中的應用將會越來越廣泛、越來越重要。機器學習中的集成學習算法則是提高分類器準確率的一種有效途徑,已經在很多領域顯示出它優(yōu)于單個分類器的良好性能,不僅僅包括準確率等,同時還體現(xiàn)在其泛化能力上[2]。文獻[3-5]中展示分別采用異質或者同質的集成方式達到實驗目的,結果表明運用集成學習的策略能夠優(yōu)于單個弱學習算法分類模型。然而,其中有關兒科疾病推理方面的研究卻少之又少,因此本文將異構模式的集成學習應用于兒科醫(yī)療診斷領域,具體來說,即把醫(yī)院診斷的每一份病歷作為模型輸入的一個樣本,樣本中的特征便來自于病歷中的主訴、現(xiàn)病史與體格檢查中的內容。對上述內容進行特征提取和數(shù)據預處理。樣本中的目標疾病會有多個,并且有先后次序的關系,這是因為醫(yī)生在診斷時往往根據其確定程度對初步診斷的多個疾病進行排序。如果暫不考慮疾病確診的順序,就可以將該診斷問題作為機器學習中的多標簽分類問題,即每一份病歷擁有多類疾病標簽。

基于以上思想,本文采用多標簽分類的SVM[6]、決策樹[7]、邏輯回歸[8]和隨機森林[9]算法,對于預先分割的訓練集與測試集,運用上述模型,分別進行訓練,并根據預測的疾病結果,采用模型融合的方法進行集成。實驗的結果表明,該方法能夠較為準確地預測出小兒患者未知樣本的疾病,提高集成模型的預測準確率。

1 Bagging 算法工作原理及流程

1.1 工作原理

Bagging算法于1996年被提出來之后,其正確性以及應用價值得到了迅速的提升,符合集成算法有關數(shù)學建模方面的要求,已在很多方面得到了具體而又廣泛的應用。其原理一般可以簡述為多個函數(shù)的線性融合,適用于對某些準確率相對較差的算法的提升。經過該算法的一系列處理之后,往往能夠得到一個對準確率有著大幅度提升的新集成學習算法。簡而言之,根據一個弱學習算法和指定的訓練集(x1,y1),(x2,y2),…,(xr,yr),在符合集合條件的多次訓練之后,可以得到對應的函數(shù)值的某一序列,最終的評估函數(shù)則由以上函數(shù)值進行數(shù)學上的處理后形成[10]。

弱學習算法是指那些獨立的且精度不要求很高的分類算法。Bagging算法首先提高了各個弱分類器融合后的泛化能力。泛化能力體現(xiàn)了分類器對新事物的適應能力,泛化能力越強,其對新事物的適應能力相對就越強,其次提升了模型的準確率等評價指標[11]。由此可見,使用Bagging算法解決兒科疾病診斷問題是一種切之有效的方法。

文中采用Bagging算法中的異構集成學習方法,它是通過融合多個不同類型算法的弱分類器形成。這是因為相異算法本身具有一定的差異性,融合后會導致生成的分類決策邊界不同,也就是它們在決策時會犯不一樣的錯誤,將其融合后往往能夠得到更加清晰的邊界,從而可以減少整體的分類錯誤,實現(xiàn)更好的預測結果。

1.2 模型融合算法

模型融合是指集成模型最終的預測結果由訓練的N個不同算法模型共同決策,并按照某種原則直至達到最佳的預測效果。其一般思路是在N組結果值中,穿插有不同算法的預測結果,這就確保了結果的多樣性。此種方式是將不同算法的結果進行融合,因為不同算法的結果著眼點不同,能夠滿足多標簽分類中真實的多個結果。

在多標簽分類中,對于其樣本所有類標簽,示例如y1,y2,…,yt,其中t為類標簽個數(shù),在測試集的各組預測結果中,首先對N個算法模型進行分類,判斷哪些模型對某一類預測較為準確,表示其更能較好地學習到某一類所屬的特征,從而建立模型與類之間一對多的映射關系。如果與真實結果相比,該模型有一半以上的數(shù)量都能準確地預測出某一類,則把它稱為該類的可信模型。對于一份未知病歷所對應的特征集,如果能夠找到某一類疾病由其可信模型預測得到,說明該特征集有極大可能所屬某一類疾病,那么就把該類疾病添加到最終的預測結果中。反之,對于某些暫無可信模型的類別,或只出現(xiàn)一次的類別,表明算法中的N個模型都較少地學習到該類與特征之間對應的映射關系,就暫按多數(shù)原則進行選取。

1.3 算法流程

在本文中,首先采用“自助采樣”的方法,其次利用模型融合的算法,以此對SVM、決策樹、邏輯回歸和隨機森林算法進行分類,使其迭代產生對每個類別的可信模型,隨后選取最終的模型結果。具體描述,如圖1所示。

圖1 異構集成學習算法的流程示意圖

(1) 輸入樣本訓練數(shù)據集;

(2) 訓練N個相異算法的多標簽分類模型(N≥2);

(3) 在所有測試樣本中,針對N個模型預測結果的0/1多維行向量,分別與真實結果作對比,取得包含多個類別的可信模型;

(4) 對于測試集,如果能夠找到某一類別由其可信模型預測得到,那么就把該類疾病加入到最終的預測結果中,最后分別對比模型的準確率、召回率與F1值。

2 集成學習訓練模型構造

2.1 數(shù)據分析與樣本集構造

本文收集了某三甲醫(yī)院兒科患者的病歷樣本,病歷的元組樣式如圖2所示。

圖2 病歷樣本展示

文中采集到樣本總量為1 990份病例,采用特征提取算法從所有病歷樣本中提取到兒科相關的161類病癥(如腹痛、嘔吐、腹瀉、發(fā)熱等)和其對應的77類疾病(如呼吸道感染、氣管炎、急性扁桃體炎、發(fā)熱等)的序列,發(fā)熱、咳嗽等既屬于病癥又屬于疾病。隨后針對每一份病歷,采取數(shù)據預處理操作,對于病癥和疾病序列,分別生成161維特征向量和其對應的77維目標向量。其中,如果該病歷中存在該病癥即為1,否則為0。同樣地,該病例中存在該疾病即為1,否則為0。

由于是對某醫(yī)院近半年的兒科患者病歷樣本的采集,提取到的各個類別數(shù)量可能有所差異,所以會出現(xiàn)樣本分布不均衡的現(xiàn)象。表1為從總體樣本中任意抽取某20例標簽的分布,其中化膿性腮腺炎、咯血等只出現(xiàn)一例,而支氣管肺炎、急性扁桃體炎等則出現(xiàn)多次。因此,為了使訓練集和測試集中的數(shù)據分布均衡,采用Bagging中的“自助法”(bootstrapping)方案對樣本進行劃分。

表1 總體中的部分樣本分布

2.2 訓練與預測模型構造

由于樣本數(shù)據集屬于多標簽分類問題,因此采用scikit-learn工具包中處理多標簽分類的One-VS-the-Rest策略[13]。

One-VS-the-Rest策略最初是為了解決多分類問題,對于訓練集中的每一個類別訓練一個二分類模型,如果有t個類別,則訓練t個二分類模型。預測時,對每一個二分類模型預測一個類別。因此,對于一個未知樣本,則需要用以上t個二分類模型全部進行預測,從而得出結果。

同樣地,多標簽分類也可以用以上思想實現(xiàn),如果有t個類別,則對每一類標簽訓練一個二分類模型。預測時,分別使用以上t個二分類模型進行預測。

根據上述思想,本文采用不同算法策略,利用One-VS-the-Rest策略訓練N個多標簽分類模型,隨后采取模型融合策略,根據樣本真實值與各個分類器預測結果的誤差,對分類器進行分類,分別得到各個類的可信模型,進而得出預測結果。

3 實驗結果及分析

本文所收集到的樣本集,總體共77類疾病,每個樣本的目標結果可能有一種到四種疾病,采用自助抽樣算法實現(xiàn)。D為1 990份原始樣本集,D′為1 990份“自助采樣”的訓練集,其中大約有600份病歷未出現(xiàn)在訓練集D′中,即DD′,把它作為測試集。在對目標樣本進行評估分析時,出于確保Bagging集成算法有效性的目的,采取支持向量機算法(SVM)、決策樹算法(Decision Tree)、邏輯回歸算法(Logical regression)和隨機森林算法(Random Forest)為基分類器,建立集成模型,然后與其構成的單個分類器結果做橫向對比。

算法的實現(xiàn)通過采用Python軟件調用scikit-learn工具包編程與梯度下降法優(yōu)化模型關鍵參數(shù)實現(xiàn),隨后采用One-VS-the-Rest的策略實現(xiàn)多標簽問題的分類。

由于目前將疾病的診斷視為機器學習中的多分類標簽,因此采用式(1)、式(2)、式(3)中的三個指標[14]來評估模型。假設D′為多標簽數(shù)據集,|D′|為D′對象總數(shù),標記為(xi,Yi),其中i=1…|D′|,Yi表示真實樣本值,|Yi|記為Yi樣本總數(shù),H為多標簽分類器,Zi=H(xi)表示對樣本特征xi預測的結果集合,|Zi|記為Zi的預測結果總數(shù)。

正確率:

(1)

召回率:

(2)

F值:

(3)

為進行充分比較,實驗采用“自助法”劃分訓練集和測試集的方法,對集成模型結果與單個SVM、決策樹、邏輯回歸、隨機森林分別進行比較,計算式(1)、式(2)、式(3),得出各模型的實驗對比結果如圖3所示。

圖3 模型對比結果展示

由圖3很直觀地看出:集成模型與單個分類器相比,準確率、召回率和F1均有不同程度的提高,其中,在單一分類器中,SVM預測準確率最高,為72.79%,召回率和F1決策樹相對較高,分別為69.75%和67.38%,通過模型融合后,準確率、召回率和F1值,為0.784 4、0.741 5和0.732 5,分別與SVM、決策樹相比,大約增長了6%、5%和6%。可以看出集成模型的準確率等效果較為明顯。

4 結 語

本文不同于傳統(tǒng)的單標簽分類算法,采取一種多標簽異構集成的模型分類方法。模型依據集成學習的基本思想,較為顯著地提高了準確率等指標。通過算例表明,本方法能夠有效地提高預測的準確率,降低計算誤差,取得比單一模型更好的預測效果等。對于下一步的工作,需要根據未知樣本結果,如一到四個目標疾病,通過化驗、X光等方面的檢查,獲得詳細數(shù)據來進一步明確兒童所患某種疾病。

[1] 范宏. 貝葉斯在醫(yī)療診斷系統(tǒng)中的應用研究[D]. 電子科技大學, 2013.

[2] 張翔,周明全,耿國華,等.Bagging算法在中文文本分類中的應用[J].計算機工程與應用,2009,45(5):135- 137,179.

[3] 高峰, 代美玲, 祁瑾. 基于Bootstrap-異質SVM集成學習的肺結節(jié)分類方法[J]. 天津大學學報(自然科學與工程技術版), 2017, 50(3):321- 327.

[4] 何鳴, 李國正, 袁捷. 醫(yī)學診斷中集成學習技術的研究[J]. 計算機工程與應用, 2006, 42(28):218- 220,224.

[5] 虞凡, 楊利英, 覃征. 異構集成學習中的觀察學習機制研究[J]. 廣西師范大學學報(自然科學版), 2006, 24(4):54- 57.

[6] 劉端陽, 邱衛(wèi)杰. 基于SVM期望間隔的多標簽分類的主動學習[J]. 計算機科學, 2011, 38(4):230- 232,266.

[7] 晉愛蓮, 耿麗娜, 薄芳芳. 多標簽決策樹分類在數(shù)字醫(yī)學圖像分類中的應用[J]. 中國數(shù)字醫(yī)學, 2013, 8(3):90- 92.

[8] 董純潔. 基于實例與邏輯回歸的多標簽分類模型[D]南京大學,2013.

[9] 瞿合祚, 劉恒, 李曉明,等. 基于多標簽隨機森林的電能質量復合擾動分類方法[J]. 電力系統(tǒng)保護與控制, 2017, 45(11):1- 7.

[10] Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2):123- 140.

[11] 何鳴, 李國正, 袁捷,等. 基于主成份分析的Bagging集成學習方法[J]. 上海大學學報(自然科學版), 2006, 12(4):415- 418,427.

[12] 周志華. 機器學習[M]. 北京:清華大學出版社, 2016:24- 28.

[13] http://scikit-learn.org/stable/modules/multiclass.html.

[14] Tsoumakas G, Katakis I, Taniar D. Multi-Label Classification: An Overview[J]. International Journal of Data Warehousing & Mining, 2008, 3(3):1- 13.

猜你喜歡
分類器標簽準確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
無懼標簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
高速公路車牌識別標識站準確率驗證法
不害怕撕掉標簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
標簽化傷害了誰
平安县| 游戏| 司法| 白银市| 应用必备| 杭锦后旗| 报价| 楚雄市| 九龙县| 犍为县| 柳江县| 湛江市| 临潭县| 周口市| 本溪| 庆安县| 香格里拉县| 孟津县| 道孚县| 青铜峡市| 台安县| 江源县| 平泉县| 昌江| 津南区| 游戏| 苗栗县| 綦江县| 濮阳县| 敖汉旗| 当雄县| 休宁县| 商洛市| 福建省| 五峰| 大余县| 伊吾县| 天津市| 海盐县| 清新县| 蒲江县|