湯啟友 趙漾 胡意詩
摘 要:隨著生活節(jié)奏的加快,越來越多的人不同程度得有睡眠質量問題。如何根據匹茲堡睡眠質量指數量表(PSQI)確定自己的大致問題對于普通人來說還比較困難。文章將基于4885條已確診病例進行數據挖掘,采用樸素貝葉斯分類方法,對常見睡眠質量進行診斷,已驗證其準確性。
關鍵詞:樸素貝葉斯;數據挖掘;睡眠診斷;PSQI
每年3月21日被世界睡眠醫(yī)學協(xié)會定為世界睡眠日,這用來引起人們對睡眠的重要性以及睡眠質量的關注。一天的精神狀態(tài)取決于前一晚的睡眠質量,高睡眠質量自然保證了人們第二天精力充沛。但據統(tǒng)計,中國成年人失眠率高達38.2%,青少年失眠率也在上升??偟膩碚f,如果入睡時間超過30分鐘,就屬于失眠的范疇。長期失眠會使人整天感到疲勞,精力不足、注意力不集中、工作學習效率低下。嚴重的失眠甚至會導致神經功能紊亂、體內各種系統(tǒng)的不平衡等各種問題。
貝葉斯分類方法是機器學習和數據挖掘研究領域的重要數據處理方法之一。樸素貝葉斯分類方法具有簡單、高效、分類效果穩(wěn)定的優(yōu)點,同時還具有堅實的理論基礎,因此在實際應用中得到廣泛的重視[1]。樸素貝葉斯分類器采用了“屬性條件獨立性假設”:對已知類別,假設所有屬性相互獨立。換言之,假設每個屬性獨立地對分類結果發(fā)生影響[2]。
PSQI檢測分為七個指標:睡眠質量、入睡時間、睡眠時間、睡眠效率、睡眠障礙、催眠藥物、日間功能障礙。根據以上七個指標可以對睡眠障礙患者、精神障礙患者、普通人等進行睡眠質量的評估。
1 數據來源以及說明
本文對某醫(yī)院原始數據進行異常樣本的剔除以及樣本數量不足病癥記錄的剔除,最終得到4885條確診為焦慮、抑郁、睡眠障礙的記錄。每一條記錄的指標包括:編號、年齡、性別、來源、確診結果、睡眠質量、入睡時間、睡眠時間、睡眠效率、睡眠障礙、催眠藥物、日間功能障礙。
本文將只對屬于PSQI的七個指標進行分析,由于這些指標均為離散值,且每個指標均只有0,1,2,3四種結果,因此比較利于樸素貝葉斯分類。
2 樸素貝葉斯分類原理介紹
基于貝葉斯定理,且符合屬性條件獨立性假設:
P(c)是“類先驗概率”,表示樣本空間中各類樣本所占的比例;d為屬性數目,xi為x在第i個屬性上的取值。
由于對所有類別來說P(x)相同,因此基于(2.1)的貝葉斯判定準則有
令Dc表示訓練集D中第c類樣本組成的集合,可以計算出類先驗概率:
對于集散屬性而言,令Dc,xi表示Dc中在第i個屬性上取值為xi的樣本組成的集合,則條件概率P(xi|c)可估計為:
但若某個屬性在訓練集中沒有與某個同類同時出現過,則會出現P(xi|c)=0的情況,由于式(2.2)的連乘計算,最后的概率值也為零,因此無論該樣本的其他屬性是什么,結果必然出錯。為避免其他屬性攜帶的信息被訓練集中未出現的屬性值“抹去”,在估計概率值時通常要進行“平滑”。本文采用“拉普拉斯修正”,令Ni表示第i個屬性可能取值數,則(2.4)可修正為
3 模型的驗證
從4885條樣本數據中隨機選取100條記錄作為驗證,剩下的4775條進行樣本統(tǒng)計。通過MapReduce得到統(tǒng)計結果,再將統(tǒng)計模型結合樸素貝葉斯分類原理進行編程得出預測結果,最后把預測結果與實際結果進行比較。
4 結論
通過預測結果與實際結果的對比,可以發(fā)現該分類方法對于抑郁與睡眠障礙的成功預測率較高,而對于焦慮的預測結果偏低,合計正確率達到71%,屬于較高水平。造成焦慮預測成功率偏低的原因可能為原訓練樣本中焦慮所占樣本數過少。隨著將訓練樣本擴大,該分類方法的成功預測率還將上升。
參考文獻:
[1]阿曼.樸素貝葉斯分類算法的研究與應用[D].大連理工大學,2014.
[2]周志華.機器學習[M].北京:清華大學出版社,2016:150.
作者簡介:湯啟友(1996-),男,漢族,四川資陽人,本科,就讀于成都信息工程大學軟件工程學院。