潘康寧,王洪杰,于霞,孫萬晨
1.威海市婦幼保健院 a.醫(yī)療設(shè)備科;b.超聲二科,山東 威海 264200;2.威海市胸科醫(yī)院 醫(yī)務(wù)科,山東 威海 264200
近年來,隨著中醫(yī)學(xué)領(lǐng)域持續(xù)發(fā)展,中醫(yī)體質(zhì)學(xué)說備受關(guān)注。中醫(yī)體質(zhì)學(xué)說建立了體質(zhì)辨識的標(biāo)準(zhǔn)化工具,可為與中醫(yī)體質(zhì)相關(guān)的疾病預(yù)防與健康管理提供依據(jù),因此可通過體質(zhì)類型預(yù)測發(fā)病傾向,進而采取有效的干預(yù)手段[1]。目前,比較公認的體質(zhì)分類和辨識標(biāo)準(zhǔn)是王琦九分法。王琦九分法采用填寫自測量表的形式,將中醫(yī)體質(zhì)分為平和質(zhì)、氣虛質(zhì)、陽虛質(zhì)、陰虛質(zhì)、痰濕質(zhì)、濕熱質(zhì)、血瘀質(zhì)、氣郁質(zhì)、特稟質(zhì)9 種基本類型[2]。其中除平和體質(zhì)外,其余8 種體質(zhì)又被稱為偏頗體質(zhì)?;诖耍蓪⒅嗅t(yī)體質(zhì)分為平和體質(zhì)與偏頗體質(zhì)。在體質(zhì)調(diào)查過程中,填寫自測量表的形式不僅受自測者主觀認知的影響,還需要花費大量的人力和時間,因此,如何方便可靠地判斷體質(zhì)類型是一個值得關(guān)注的問題。
中醫(yī)經(jīng)絡(luò)學(xué)說是中醫(yī)理論的重要研究內(nèi)容之一。中醫(yī)經(jīng)絡(luò)學(xué)說認為經(jīng)絡(luò)具有運行全身氣血,聯(lián)系臟腑肢節(jié),溝通上下內(nèi)外,使人體各部協(xié)調(diào),從而共同完成各種生理功能[3]。當(dāng)臟腑發(fā)生疾病時,在原穴上會有相應(yīng)反應(yīng),因此通過觀察十二條經(jīng)脈上原穴的變化,就能診斷臟腑病情[4]。近代生物物理學(xué)的研究也表明,相對于非經(jīng)絡(luò)部位,經(jīng)絡(luò)部位有較為明顯的高電流及低電阻的特征,且在體表和深層次經(jīng)絡(luò)循行線上有持續(xù)的電位變化[5],因此可通過經(jīng)絡(luò)穴位的生物電學(xué)特性測量人體臟腑的健康狀態(tài),并對失衡情況作出判斷,為臨床疾病的診斷、治療及療效的評估提供指導(dǎo)依據(jù)[6]。
目前,機器學(xué)習(xí)在許多領(lǐng)域包括中醫(yī)領(lǐng)域得到了廣泛應(yīng)用,但有關(guān)經(jīng)絡(luò)與體質(zhì)方面的研究和應(yīng)用非常少,利用機器學(xué)習(xí)并基于經(jīng)絡(luò)穴位信號對人體體質(zhì)進行分類是非常值得研究的課題?;诖?,本研究以中醫(yī)“藏象相關(guān)”為理論指導(dǎo),以經(jīng)絡(luò)穴位信號數(shù)據(jù)為基礎(chǔ),將機器學(xué)習(xí)引入中醫(yī)體質(zhì)研究中,將中醫(yī)體質(zhì)分為平和體質(zhì)和偏頗體質(zhì)兩類,并對模型效果進行分析與評價,為從經(jīng)絡(luò)穴位角度探究中醫(yī)體質(zhì)類型提供參考。
選取2022 年9 月至2023 年8 月招募的2756 例志愿者為研究對象,主要為我院門診部患者陪診者、校園內(nèi)學(xué)生群體、威海市區(qū)居民和敬老院成員等。納入標(biāo)準(zhǔn):① 年齡18 周歲及以上,常規(guī)活動正常者;② 受試者檢測區(qū)無皮炎等受損狀態(tài);③ 對體質(zhì)調(diào)查知情同意者。本研究已經(jīng)本院醫(yī)學(xué)倫理委員會審批通過(批準(zhǔn)文號:WHFY-YXLLWYH-L2023012)。
排除標(biāo)準(zhǔn):① 佩戴心臟起搏器者,有器官移植或金屬移植者及使用植入式裝置者;② 傳染病、結(jié)核病活動期及甲亢患者;③ 出血患者(吐血、腦出血、外傷等);④ 心臟病及Ⅲ期高血壓患者;⑤ 嚴重肝臟、腎臟、心臟、肺臟衰竭者和高年齡患者;⑥ 各類腫瘤及化療放療患者、精神障礙者、無自理能力者;⑦ 趾端潰瘍患者;⑧ 各種疾病術(shù)后恢復(fù)期患者,特殊疑難病癥及有多種疾病患者;⑨ 過敏或?qū)β?、光、電、磁刺激有過敏史或不良反應(yīng)者。
根據(jù)王琦的“中醫(yī)體質(zhì)與分類自測表”[2],2756 例受試者結(jié)合自身情況,對調(diào)查表中的問題逐一勾選。各個問題均按5 級評分,計算原始分數(shù)與轉(zhuǎn)化分數(shù)。原始分數(shù)為各個條目的分值和,轉(zhuǎn)化分數(shù)=(原始分數(shù)-條目數(shù))/(條目數(shù)×4)×100%,以該評分結(jié)果作為判斷體質(zhì)類型的標(biāo)準(zhǔn)[7],見表1。
本研究使用的中醫(yī)經(jīng)絡(luò)檢測儀JK-02C 型(吉械注準(zhǔn)20162270329)由感應(yīng)采集器、中醫(yī)數(shù)據(jù)庫、云運算系統(tǒng)3 部分組成。感應(yīng)采集器用于采集人體十二經(jīng)脈24 個原穴的經(jīng)絡(luò)信息;中醫(yī)數(shù)據(jù)庫用于記錄經(jīng)絡(luò)穴位信號數(shù)據(jù);云運算系統(tǒng)利用電腦和互聯(lián)網(wǎng),讀取經(jīng)絡(luò)穴位信號,獲取受試者的中醫(yī)經(jīng)絡(luò)穴位信號。
在溫度適宜的環(huán)境下,受試者須符合下列條件方可接受采集:① 受試者在接受檢測前2 h 內(nèi)不飲用酒類、咖啡及服用保健品、藥品[8];② 無劇烈運動;③ 檢測前,受試者須摘除身上金屬物品及通訊器材和其他可能影響檢測結(jié)果的設(shè)備。測試方法如下:① 受試者平躺或仰臥或坐立在檢測床上,雙手自然平放在身體兩側(cè),雙手手心朝上;② 操作員戴上薄膜手套,將受試者手部、腳部相應(yīng)的采集位置用棉簽蘸取超導(dǎo)耦合劑擦拭一遍后等待檢測;③ 按右手、右腳、左手、左腳的順序分別采集24 個經(jīng)脈電穴位信號,24 個穴位信號的采集次序依次是右肺經(jīng)太淵穴-右心包經(jīng)大陵穴-右心經(jīng)神門穴-右小腸經(jīng)腕骨穴-右三焦經(jīng)陽池穴-右大腸經(jīng)陽溪穴-右脾經(jīng)太白穴-右肝經(jīng)太沖穴-右腎經(jīng)太溪穴-右膀胱經(jīng)束骨穴-右膽經(jīng)丘墟穴-右胃經(jīng)沖陽穴-左肺經(jīng)太淵穴-左心包經(jīng)大陵穴-左心經(jīng)神門穴-左小腸經(jīng)腕骨穴-左三焦經(jīng)陽池穴-左大腸經(jīng)陽溪穴-左脾經(jīng)太白穴-左肝經(jīng)太沖穴-左腎經(jīng)太溪穴-左膀胱經(jīng)束骨穴-左膽經(jīng)丘墟穴-左胃經(jīng)沖陽穴;④ 采集結(jié)束,保存受試者的經(jīng)絡(luò)穴位信號。
本研究將數(shù)據(jù)集中的28個原始特征包括身高、體重、年齡、性別和24 個經(jīng)絡(luò)穴位信號,采用隨機森林的過濾式特征選擇方法,篩選出最優(yōu)特征子集。將特征選擇后的數(shù)據(jù)集納入梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)算法后建立二分類模型,即根據(jù)量表結(jié)果對所有受試者的體質(zhì)進行標(biāo)注,采用有標(biāo)簽的訓(xùn)練集對模型進行訓(xùn)練和優(yōu)化,利用測試集對模型的各項評價指標(biāo)進行分析,篩選出性能最好的模型[9],實現(xiàn)對平和體質(zhì)與偏頗體質(zhì)的分類。本研究采用十折交叉驗證法測試算法效能,研究流程如圖1 所示。
圖1 研究流程圖
本文數(shù)據(jù)預(yù)處理工作主要包括處理錯誤數(shù)據(jù)、缺失數(shù)據(jù)和篩除重復(fù)數(shù)據(jù)。由于數(shù)據(jù)錄入不僅需要錄入經(jīng)絡(luò)穴位信號數(shù)據(jù),還需要人工錄入受檢者的身高、體重等,而人工錄入的數(shù)據(jù)難免會存在錯誤、重復(fù)或缺失的情況,因此需要通過數(shù)據(jù)清洗對匯總至數(shù)據(jù)庫的數(shù)據(jù)進行校驗,進一步提高數(shù)據(jù)的真實性與準(zhǔn)確性。
數(shù)據(jù)預(yù)處理后,將2756 例受試者的24 項經(jīng)絡(luò)穴位信號、性別、身高、體重、年齡作為模型的輸入特征。為了避免特征量綱差異對預(yù)測結(jié)果造成影響,提升模型收斂速度,本文選用最大最小化方法將輸入特征歸一化到[0,1],計算方式如公式(1)所示。
式中,min、max 分別為屬性取值的最小值與最大值。模型輸出為平和體質(zhì)和偏頗體質(zhì),平和體質(zhì)賦值為1,偏頗體質(zhì)賦值為0,以此構(gòu)建中醫(yī)體質(zhì)分類體系。
本研究的特征選擇一方面要篩選出中醫(yī)體質(zhì)分類模型的最優(yōu)特征子集以降低數(shù)據(jù)維度,提升中醫(yī)體質(zhì)分類模型的計算效率;另一方面要篩選出各個經(jīng)絡(luò)對中醫(yī)體質(zhì)的影響力大小,為中醫(yī)體質(zhì)學(xué)提供借鑒。本研究采用基于隨機森林的過濾式特征選擇方法,隨機森林是集成策略中最實用的機器學(xué)習(xí)算法之一,常用來處理復(fù)雜的高維度數(shù)據(jù)。隨機森林中訓(xùn)練每棵樹的數(shù)據(jù)都由自助抽樣法從定義為集合B 的袋中抽出,剩余不出現(xiàn)在訓(xùn)練樣本集中的數(shù)據(jù)為袋外數(shù)據(jù)(Out of Bag,OOB)。本文通過計算模型分類正確率隨OOB 變化的幅度對變量重要性分數(shù)進行排序[10]。
GBDT 算法是機器學(xué)習(xí)中應(yīng)用較廣泛的算法之一[11-12]。GBDT 算法的內(nèi)核是將多個弱分類器組合成為一個強分類器[13-14]。本研究中的數(shù)據(jù)集有以下特點:① 數(shù)據(jù)來源于醫(yī)學(xué)采集數(shù)據(jù),噪聲小;② 數(shù)據(jù)集有28 維的原始特征,維度高;③ 經(jīng)特征篩選后的最優(yōu)特征子集中的特征多為連續(xù)變量。由于GBDT 模型是串行生成的非線性模型,結(jié)果為多棵決策樹加權(quán)累加,有對異常值敏感、適合處理連續(xù)變量、可處理高維度數(shù)據(jù)的特點,更適合本研究的數(shù)據(jù),因此本文選擇GBDT 模型作為分類模型。具體參數(shù)設(shè)置如表2 所示。
表2 GBDT參數(shù)設(shè)置
本研究對中醫(yī)體質(zhì)分類模型采用混淆矩陣計算其準(zhǔn)確度、精準(zhǔn)度、召回率和F1得分,并以此評價模型效果[15]。其中,準(zhǔn)確度為正確預(yù)測分類的樣本數(shù)占總樣本數(shù)的比例,計算方式如公式(2)所示。精準(zhǔn)度為真實為正例的樣本占所有預(yù)測為正例的樣本的比例,計算方式如公式(3)所示。召回率為真實為正例的樣本占預(yù)測正確的樣本的比例,計算方式如公式(4)所示。F1得分為根據(jù)精準(zhǔn)度和召回率作出的一種綜合評價,計算方式如公式(5)所示。
式中,TP 為將真實的平和體質(zhì)分類成平和體質(zhì)的個數(shù);FN 為將真實的平和體質(zhì)分類為偏頗體質(zhì)的個數(shù);FP 為將真實的偏頗體質(zhì)分類為平和體質(zhì)的個數(shù);TN 為將真實的偏頗體質(zhì)分類為偏頗體質(zhì)的個數(shù)。
十折交叉驗證常用來測試算法準(zhǔn)確性,其步驟為:① 將數(shù)據(jù)集分成10 份,輪流將其中9 份作為訓(xùn)練數(shù)據(jù),1 份作為測試數(shù)據(jù)進行試驗,每次試驗都會得出相應(yīng)的準(zhǔn)確度、精準(zhǔn)度、召回率和F1 得分;② 10 次結(jié)果的準(zhǔn)確度、精準(zhǔn)度、召回率和F1 得分的平均值作為對算法模型效果的評估。
本研究按7 ∶3 的比例劃分訓(xùn)練集與測試集,在訓(xùn)練集中利用隨機森林的特征重要性函數(shù)對預(yù)處理后的28 個特征進行10 次特征重要性計算,根據(jù)特征重要性分值對各初始特征進行排序。選擇排序靠前、重要性更高的特征構(gòu)成最優(yōu)特征子集,并參與最終的模型分類運算。28 個特征重要性和平均值分數(shù)如表3 所示,平均值越大表示該特征在模型預(yù)測中的貢獻度越大,對偏頗體質(zhì)與平和體質(zhì)的分類影響越大。
表3 特征重要性和平均值統(tǒng)計表
其中,性別的特征重要性分數(shù)最高,為0.143;身高的特征重要性分數(shù)位居第2 位,為0.123;左脾經(jīng)原穴的特選重要性分數(shù)位居第3 位,為0.08;左三焦經(jīng)原穴、左肝經(jīng)原穴與左膀胱經(jīng)原穴的特征重要性分數(shù)約為0.07;右腎經(jīng)原穴的特征重要性分數(shù)位居第7 位;右脾經(jīng)原穴的特征重要性分數(shù)位居第8 位;年齡的特征重要性分數(shù)最低,僅為0.003。這說明性別、身高、左脾經(jīng)原穴等排名靠前的特征對平和-偏頗體質(zhì)分類結(jié)果的影響較大,年齡、體重等排名靠后的特征對平和-偏頗體質(zhì)分類結(jié)果的影響較小。
在對模型特征進行選擇的過程中,過多或過少的特征數(shù)量都會影響模型的準(zhǔn)確率,不利于模型的學(xué)習(xí)與訓(xùn)練。為了找到符合模型的最優(yōu)特征數(shù)量M,本文選取不同的M 值,將隨機森林模型運行100 次得到的100 個受試者工作特征(Receiver Operating Characteristic,ROC)曲線下面積(Area Under Curve,AUC)值的平均值作為該特征數(shù)量下的AUC 值,見圖2。當(dāng)特征數(shù)量M 為5~21 時,AUC 的平均值呈遞增的變化趨勢;當(dāng)特征數(shù)量M 為22 時,AUC 的平均值達到最大值0.915;當(dāng)特征數(shù)量M 為22~28 時,AUC 的平均值呈下降趨勢。這說明當(dāng)特征數(shù)量M=22 時,AUC 的平均值最大,分類器的分類性能最好,故將重要性分數(shù)排名在前22 的特征作為模型的最優(yōu)特征子集,分別是:性別、身高、左脾經(jīng)原穴、左三焦經(jīng)原穴、左肝經(jīng)原穴、左膀胱經(jīng)原穴、右腎經(jīng)原穴、右脾經(jīng)原穴、左膽經(jīng)原穴、右三焦經(jīng)原穴、右肝經(jīng)原穴、右膽經(jīng)原穴、右膀胱經(jīng)原穴、左腎經(jīng)原穴、左大腸經(jīng)原穴、右心經(jīng)原穴、左胃經(jīng)原穴、左小腸經(jīng)原穴、右心包經(jīng)原穴、右大腸經(jīng)原穴、左心包經(jīng)原穴、右肺經(jīng)原穴。
圖2 不同特征數(shù)量下AUC的平均值
建立GBDT 模型,并通過十折交叉驗證模型性能,最終取10 次結(jié)果的平均值作為最終近似值輸出??傻迷撃P偷臏?zhǔn)確度為92.86%,精準(zhǔn)度為93.65%,召回率為93.08%,F(xiàn)1 得分為0.92,各項評價指標(biāo)較高,分類效果良好。通過ROC 曲線進一步分析GBDT 算法的分類結(jié)果,見圖3。GBDT 模型的ROC 曲線接近左上方,AUC 值為0.98,說明GBDT 模型的分類性能良好。
圖3 GBDT模型ROC結(jié)果
以往基于經(jīng)絡(luò)穴位信號對中醫(yī)體質(zhì)的分類研究較少,多采用數(shù)據(jù)挖掘不同體質(zhì)的經(jīng)絡(luò)特點。何靜玲等[16]研究盆腔炎性疾病后遺癥慢性盆腔痛患者的體質(zhì)分布特點,探討了不同體質(zhì)與中醫(yī)經(jīng)絡(luò)健康檢測儀檢測值的關(guān)系;吳凡等[17]研究不同高血壓分級患者體質(zhì)特點與經(jīng)絡(luò)特性的關(guān)系,為臨床中醫(yī)經(jīng)絡(luò)診斷提供了理論依據(jù)。吳微等[18]探討原發(fā)性凍結(jié)肩患者的中醫(yī)體質(zhì)類型和經(jīng)絡(luò)特性,有助于了解凍結(jié)肩的疾病特點。劉彥汶等[19]通過對比糖尿病患者的不同體質(zhì)、不同經(jīng)絡(luò)的經(jīng)絡(luò)能量值,探討了糖尿病患者體質(zhì)與經(jīng)絡(luò)能量的關(guān)系。基于經(jīng)絡(luò)穴位信號對體質(zhì)分類的研究方面,建立并選用合適的基于經(jīng)絡(luò)穴位信號的分類模型不僅對推動體質(zhì)學(xué)說發(fā)展具有重要意義,彌補了現(xiàn)有體質(zhì)診斷手段客觀依據(jù)的不足,使體質(zhì)診斷分類中加入了可以量化的成分,還有助于明確和有針對性地提出以體質(zhì)為導(dǎo)向的中醫(yī)養(yǎng)生保健等具體方案,提早預(yù)防和發(fā)現(xiàn)慢性病,遵循了“因人制宜”的防治原則,符合中醫(yī)“治未病”理念。
特征選擇的結(jié)果符合中醫(yī)學(xué)的相關(guān)理論,可為體質(zhì)辨識提供幫助。中醫(yī)認為性別的不同會使體質(zhì)類型出現(xiàn)較大的差異。賈麗燕等[20]通過對血瘀體質(zhì)危險因素的Logistic 分析,得出女性是血瘀體質(zhì)的危險因素,不同性別的血瘀體質(zhì)的調(diào)節(jié)方式不同。李杰等[21]研究了不同性別陽虛體質(zhì)類型的分布狀況和形成機理,得出不同性別陽虛體質(zhì)形成的主要原因是性別差異。以上研究均能反映性別對體質(zhì)類型的影響,這與本文特征選擇實驗中篩選出重要性分數(shù)排名第一為性別特征的實驗結(jié)果相吻合。此外,尚世由等[22]通過對200 例體檢者進行體質(zhì)辨識與經(jīng)絡(luò)特點研究,結(jié)果發(fā)現(xiàn),偏頗體質(zhì)類型者相較于平和體質(zhì)者,其腎經(jīng)、三焦經(jīng)、胃經(jīng)處、心包經(jīng)的經(jīng)絡(luò)穴位信號值偏低,肝經(jīng)、膽經(jīng)、脾經(jīng)、小腸經(jīng)、膀胱經(jīng)處的經(jīng)絡(luò)穴位信號值偏高,說明偏頗體質(zhì)與平和體質(zhì)的經(jīng)絡(luò)穴位信號存在差異,與本文特征選擇實驗結(jié)果相吻合,證明特征選擇實驗篩選出的特征可為后續(xù)體質(zhì)辨識提供一定幫助。
本研究尚存在一些不足:① 目前的分類模型只能對平和體質(zhì)與偏頗體質(zhì)分類,無法實現(xiàn)對9 種中醫(yī)體質(zhì)分類;② 目前所搭建的模型只有單一的機器學(xué)習(xí)模型,今后還需增加更多的模型對比,以期建立更優(yōu)化的基于經(jīng)絡(luò)穴位信號的中醫(yī)體質(zhì)分類模型;③ 本研究只從經(jīng)絡(luò)角度出發(fā)對中醫(yī)體質(zhì)進行分類,未能與舌象、面象、痧象相結(jié)合,今后可與相關(guān)方面結(jié)合進一步探索中醫(yī)體質(zhì)分類的自動化、智能化。
基于機器學(xué)習(xí)的中醫(yī)體質(zhì)分類方法具有極大的臨床意義與價值。本研究利用隨機森林的特征選擇方法不僅為中醫(yī)體質(zhì)分類模型篩選最優(yōu)特征子集提升計算效率,還篩選出了各個經(jīng)絡(luò)對中醫(yī)體質(zhì)的影響力大小。此外,GBDT 分類模型能夠有效區(qū)分偏頗體質(zhì)與平和體質(zhì),分類準(zhǔn)確度達到了92.86%。這意味著可根據(jù)受試者的經(jīng)絡(luò)信號特征,利用機器學(xué)習(xí)快速準(zhǔn)確地診斷其體質(zhì)類型,對中醫(yī)臨床的個性化治療方案設(shè)計和疾病預(yù)防提供了極大的幫助。