王惠清,李忠玉,袁紅
(1.西南醫(yī)科大學(xué)醫(yī)學(xué)信息與工程學(xué)院,瀘州646000;2.成都師范學(xué)院計算機科學(xué)學(xué)院,成都611130)
隨著人們生活水平的提高,健康成為人們關(guān)注的熱點,由于不健康的飲食習(xí)慣和生活方式導(dǎo)致的慢性病患者的數(shù)量正在增加,慢性病需要持續(xù)治療并可能導(dǎo)致其他疾病。人們應(yīng)該認識到慢性疾病帶來的風(fēng)險,需要終生通過醫(yī)療保健和疾病預(yù)防進行護理。作為智能社會的核心要素,人工智能(AI)的發(fā)展對于醫(yī)療事業(yè)起到促進作用,近年來,人們對人工智能的興趣日益濃厚,對深度學(xué)習(xí)的研究也在積極進行中,深度學(xué)習(xí)可以根據(jù)訓(xùn)練得到的數(shù)據(jù)分析預(yù)測未知數(shù)據(jù)的類別,CNN 是一種被廣泛應(yīng)用的深度學(xué)習(xí)技術(shù),不僅用于圖像分析和語音識別,還可用于比較復(fù)雜的非線性模型,深度學(xué)習(xí)是近來備受關(guān)注的一種AI 技術(shù),其在實際中可以用于通過學(xué)習(xí)數(shù)據(jù)集并對相似數(shù)據(jù)進行聚類或分類,此外,深度學(xué)習(xí)技術(shù)可以從各種非結(jié)構(gòu)化數(shù)據(jù)中獲取知識從而建立模型。例如,可以通過基于CNN的相關(guān)對象來分析非結(jié)構(gòu)化數(shù)據(jù),病歷數(shù)據(jù)就是非結(jié)構(gòu)化數(shù)據(jù)。CNN 由單層、多層、集成層以及完全連接的層組成,可用于實現(xiàn)非線性圖像識別的模型、語音識別等。Swapna 等人[2]利用CNN 實現(xiàn)糖尿病自動檢測,其使用心率變異性數(shù)據(jù)獲取心率信號,使用CNN-LSTM組合網(wǎng)絡(luò)進行自動異常檢測和完全連接的結(jié)構(gòu),可實現(xiàn)自動檢測和準確診斷糖尿病。
圖1 顯示了基于深度學(xué)習(xí)的健康信息系統(tǒng)。該系統(tǒng)是基于CNN 的腦腫瘤分類系統(tǒng),該系統(tǒng)從MR 圖像中提取的腫瘤區(qū)域進而分類,這樣可以有效的訓(xùn)練系統(tǒng),同時解決MRI 對腦腫瘤分類時數(shù)據(jù)不足的問題,此外,CNN 模型使用了增強的數(shù)據(jù),這些數(shù)據(jù)可以進行微調(diào),從而有效地對腦瘤狀態(tài)進行分類。LIU 等人[6]開發(fā)了一種多視圖多尺度CNN 對肺結(jié)節(jié)類型進行分類的系統(tǒng),通過采集肺結(jié)節(jié)歸一化數(shù)據(jù)樣本,估計每個結(jié)節(jié)的估計半徑數(shù)據(jù),對結(jié)節(jié)采集圖像進行預(yù)處理,如基于采樣的強度分析等。在對CNN 模型進行學(xué)習(xí)后,利用最大池的方法對多視圖神經(jīng)網(wǎng)絡(luò)模型進行了分析。因此即使是復(fù)雜的陰影和非結(jié)節(jié)型也可以進行分類。這使得治療肺部疾病成為可能,在未來,必須能夠?qū)^細的結(jié)核進行分類,這需要先進的技術(shù)來自動標識結(jié)核的類型、位置和大小,以便于識別信息。
圖1 基于CNN的健康信息系統(tǒng)
基于CNN 的健康知識模型利用隱含層中影響因素的相關(guān)系數(shù)結(jié)果來分析風(fēng)險因子,影響因素的相關(guān)關(guān)系可分為積極因素和消極因素,使用CNN 模型對危險因素進行細分,通過提取影響因子與模型的相關(guān)性,可以發(fā)現(xiàn)未被發(fā)現(xiàn)的有意義的規(guī)則。模型結(jié)構(gòu)采用全連通網(wǎng)絡(luò)和包含CNN 的雙層結(jié)構(gòu)隱含層,單層對僅由與和或運算組成的數(shù)據(jù)進行分類。相比之下,多層分類有更多的優(yōu)勢。因為多層分類可以執(zhí)行與、或和異或操作。這使得通過將影響因子細分為肥胖、高血壓和糖尿病來獲得有關(guān)保健和預(yù)防的知識成為可能。圖2 中,通過對多變量因素分析,可以提取20 個影響因素作為輸入,在第一個隱層中,根據(jù)顯著性水平0.1 對影響因素進行分離,結(jié)果剔除了12 個滿足顯著性水平的因子。在第二個隱層中,通過皮爾遜相關(guān)系數(shù)發(fā)現(xiàn)相關(guān)關(guān)系,提取影響因素的特征和相關(guān)系數(shù),發(fā)現(xiàn)未被發(fā)現(xiàn)的隱藏規(guī)則,這些規(guī)則是為了利用影響因素尋找健康知識。這些影響因素分為積極和消極因素,最后將其細分為肥胖、高血壓和糖尿病等,從而確定其影響因素,并對其標識,從而獲得適當?shù)慕】当=≈R。通過對具有相似特征的影響因素進行分類,提高了對影響因素和非影響因素的分析效率。圖3 為影響因素的知識挖掘算法,通過知識發(fā)現(xiàn)得出隱藏規(guī)則。輸入層是影響因素,輸出層是發(fā)掘的潛在規(guī)則。IfactorCK表示k個大小的影響因素的候選集合,IfactorLK表示一組頻繁的影響因素。此外,IfactorT 構(gòu)成了影響因素組合效益。
圖2 CNN模型的相關(guān)影響因素
在眾多影響因素中找到滿足最小支持度的隱藏規(guī)則,發(fā)現(xiàn)影響人體健康的主要因素及其規(guī)律,最后建立健康知識模型,其代碼如下:
Input:Influencing-factors
Output:Hidden rules
IfactorCk=Candidates Influencing-factors of size k
IfactorLk=Frequent Influencing-factors of size k
min_supp←0.5(tentative)
IfactorL1={Frequent items}
for k ←l to infinite do begin if
(IfactorLk=?)
break;
IfactorCk+1=candidates generated from IfactorLk
for each transaction IfactorTin database do begin
increment the count of all candidates in IfactorCk+1, that are
contain in IfactorT
IfactorLk+1=candidates in IfactorCk+1with min_supp
end
end
return UkIfactorLk
基于CNN 的健康知識發(fā)現(xiàn)模型的建立,可以較科學(xué)地發(fā)現(xiàn)影響人們身體健康的危險影響因素,尤其是對于慢性病的影響因素,為后期的醫(yī)療保健提供了有利的醫(yī)學(xué)依據(jù)。模型的性能及知識發(fā)現(xiàn)的精確度需要通過相應(yīng)的評價體系來評估??梢酝ㄟ^對模型中隱藏層的數(shù)量評估,評估單層、多層的模型性能的優(yōu)劣,根據(jù)影響因素的知識挖掘是否被應(yīng)用,可以對錯誤率進行評估。因此用戶可以通過識別健康的積極因素和消極的因素來發(fā)現(xiàn)關(guān)于健康和預(yù)防的知識,同時可以根據(jù)影響因素的狀態(tài)衍生出健康知識,提供個性化的醫(yī)療服務(wù)。在醫(yī)療大數(shù)據(jù)領(lǐng)域,需要謹慎地將相關(guān)性得出的結(jié)果運用到實際的決策中。本文提出的一種基于影響因素的知識發(fā)現(xiàn)的CNN 健康模型,提出的方法通過IoT 設(shè)備收集健康狀況和生活方式模式的記錄,以及關(guān)于慢性病的信息。對于健康狀況和生活方式的數(shù)據(jù),使用了韓國國民健康與營養(yǎng)調(diào)查提供的原始數(shù)據(jù)。對于CNN 結(jié)構(gòu),使用完全連通的網(wǎng)絡(luò)結(jié)構(gòu)和兩個隱藏層結(jié)構(gòu)。全連通網(wǎng)絡(luò)結(jié)構(gòu)計算量大,占用內(nèi)存大,隨著層數(shù)的增加,復(fù)雜性增加,容易出現(xiàn)過擬合,在第一層的隱層中,對輸入的多元數(shù)據(jù)分析,提取出必要的影響因素。通過提取滿足0.1 顯著性水平的影響因素,提高了分析的準確性,減少了計算量和內(nèi)存使用量,可以發(fā)現(xiàn)共同的影響因素。在第二隱含層中,識別個體影響因素與共同影響因素之間的相關(guān)關(guān)系,通過這個過程,發(fā)現(xiàn)了影響因素之間的正、負相關(guān)關(guān)系。此外,還可以根據(jù)影響因素的相關(guān)性,發(fā)現(xiàn)未通過分類發(fā)現(xiàn)的隱藏的關(guān)聯(lián)規(guī)則,這為進一步細分肥胖、高血壓和糖尿病的影響因素提供了知識。隨著層數(shù)的增加、精度提高,內(nèi)存的容量和計算速度也需要提高。因此,應(yīng)根據(jù)數(shù)據(jù)分析的目的使用一些高性能的層。